Stop-Word (Stoppwörter)
Was ist ein Stop-Word (Stoppwörter)?
Stop-Words sind die häufigsten Wörter in einer Sprache. Diese äußerst häufigen Wörter können von einem Satz ausgeschlossen werden, ohne die Bedeutung dieses Satzes zu ändern. Somit werden Stoppwörter vor oder nach der Verarbeitung von sprachlichen Daten oder Texten in der normalen Rechenroutine gelöscht.
In der SEO-Terminologie sind dies die häufigsten Wörter, die die meisten Suchmaschinen vermeiden und sparen Platz und Zeit bei der Verarbeitung großer Datenmengen beim Crawlen oder Indizieren. Dies hilft Suchmaschinen, Platz in ihren Datenbanken zu sparen.
Sagen wir zum Beispiel wenn Sie nach einer Anfrage suchen “Wie man einen Kuchen backt”. Suchmaschinen ignorieren in der Regel: “Wie”, “man” und “einen” Wörter und suchen gezielt nach “backt “+”kuchen”.
Google Hummingbird und Stop-Word
Das Hummingbird Update brachte eine signifikante Änderung des Google-Algorithmus im Jahr 2013. Hummingbird wirkt sich stark auf natürliche Sprachfragen aus, insbesondere wenn es um Kontext und Bedeutung über einzelne Keywords geht. Es werden auch Inhalte auf einzelnen Seiten einer Website genauer betrachtet. Dadurch wird die Wahrscheinlichkeit verbessert, Suchergebnisse zu liefern, die optimal die geeignete Seite und nicht nur eine Homepage enthalten.
Das Update markierte den wichtigsten sematischen Einschnitt der Google-Suche seit vielen Jahren für benutzerfreundlicheren Suchinteraktionen. So wurden Verleger und Autoren ermutigt, ihre Websites mit natürlichem Schreiben zu optimieren, anstatt mit erzwungenen Keywords und Keyword-Stuffing zu Rankings zu gelangen.
Dieses Update ermöglichte es Google, den Inhalt der Webseite besser zu verstehen. Nun kann Google Stoppwörter besser als bisher handhaben. Mit Hummingbird kann Google auch deutlich besser mit Long Tail Keywords umgehen.
Wie Stoppwörter die SEO beeinflussen können
Generell schaden Stop-Words Ihrer SEO in der Regel nicht. Es wird jedoch bevorzugt, Stoppwörter zu vermeiden, um lange Titel oder URLs zu vermeiden. Stoppwörter können Platz verschwenden. Dies ist umso wichtiger, wenn das Suchergebnis Ihre URL, Ihren Titel oder Ihre Beschreibung aufgrund umfangreicher Inhalte nicht vollständig anzeigt. Daher wird empfohlen, Stoppwörter von On-Page-SEO-Faktoren wie URLs, Titeln und Beschreibungen nach Möglichkeit zu vermeiden, ohne die Lesbarkeit zu beeinträchtigen.
Vermeiden Sie im Folgenden die Verwendung von Stoppwörtern:
- Seitentitel-Tags
- URLs von Webseiten
- Metabeschreibungen (Nur falls keine Beeinträchtigung der Lesbarkeit)
- Bild Alt Text
- Schlüsselwörter (falls vorhanden)
Arten von Stoppwörtern
Stoppwörter werden im Allgemeinen als “ein einziger Satz von Wörtern” betrachtet. Sie können für verschiedene Anwendungen wirklich unterschiedliche Bedeutungen haben. Zum Beispiel kann in einigen Anwendungen das Entfernen aller Stoppwörter direkt von den Determinanten (z.B. das, a, an) über Präpositionen (z.B. oben, quer, vorher) bis hin zu einigen Adjektiven (z.B. gut, nett) eine geeignete Stoppwörter Liste sein.
Für einige Anwendungen kann dies jedoch nachteilig sein. Beispielsweise kann das Entfernen von Adjektivbegriffen wie “gut” und “nett” sowie Negationen wie “nicht” bei der Stimmungsanalyse Algorithmen aus der Bahn werfen. In solchen Fällen kann man je nach den Erfordernissen der Anwendung wählen, ob man eine minimale Stoppwörter Liste verwenden möchte, die nur aus Determinanten oder Determinanten mit Präpositionen oder nur aus koordinierenden Konjunktionen besteht.
Beispiele für kleine Stop-Word – Listen, die man verwenden kann:
- Determinanten – Determinanten neigen dazu, Substantive zu markieren, wobei auf einen Determinanten normalerweise ein Substantiv folgt
Beispiele: das, a, an, ein anderes - Koordinierende Konjunktionen – Koordinierende Konjunktionen verbinden Wörter, Sätze und Klauseln
Beispiele: für, ein, noch, aber, oder, noch, so - Präpositionen – Präpositionen drücken zeitliche oder räumliche Beziehungen aus
Beispiele: in, unter, gegen, vor
In einigen domänenspezifischen Fällen, wie z.B. bei klinischen Texten, kann es sein, dass wir einen ganz anderen Satz von Stoppwörtern wünschen. Zum Beispiel können Begriffe wie “mcg”, “dr” und “Patient” im Vergleich zu Begriffen wie “Herz”, “Herzinsuffizienz” und “Diabetes” eine geringere Unterscheidungskraft bei der Erstellung intelligenter Anwendungen haben. In solchen Fällen können wir auch domänenspezifische Stoppwörter konstruieren, im Gegensatz zur Verwendung einer veröffentlichten Stopword Liste.
FAQ
Stoppwörter sind eine Reihe von häufig verwendeten Wörtern in jeder Sprache. Zum Beispiel würden im Englischen "the", "is" und "and" als Stoppwörter bezeichnet werden. In NLP- und Text-Mining-Anwendungen werden Stoppwörter verwendet, um unwichtige Wörter zu eliminieren, so dass sich die Anwendungen stattdessen auf die wichtigen Wörter konzentrieren können.
Bei Aufgaben wie der Textklassifizierung, bei denen der Text in verschiedene Kategorien eingeteilt werden soll, werden Stoppwörter aus dem gegebenen Text entfernt oder ausgeschlossen, damit den Wörtern, die die Bedeutung des Textes definieren, mehr Aufmerksamkeit geschenkt werden kann.
Wir können Stop-Words leicht entfernen, indem wir eine Liste von ihnen speichern. NLTK(Natural Language Toolkit) in Python hat eine Liste von Stoppwörtern in 16 verschiedenen Sprachen gespeichert. Sie finden sie im Verzeichnis nltk_data.