Stemming


Der Begriff Stemming steht für ein Verfahren aus der Sprachwissenschaft sowie der Informatik und bedeutet auf Deutsch so viel wie Stammformreduktion. Dabei werden Wörter auf einen gemeinsamen Wortstamm zurückgeführt. Suchmaschinen wie Google verwenden Stemming-Algorithmen, um Suchanfragen noch besser auszuwerten. Stemming ist verwandt mit der Lemmatisierung. Dort werden die Wörter in Beziehung zu ihrer Zitierform gebracht.

Stemming-Algorithmen in der Informatik

Seit 1968 wird in der Informatik an verschiedenen Stemming-Verfahren geforscht. Diese Verfahren werden vor allem für Suchmaschinen in jeglicher Hinsicht genutzt. Mit Hilfe von Stemming lassen sich große Kataloge einfacher durchsuchen. So arbeiten z.B. auch Bibliotheksverzeichnisse mit Stemming.

Die Praxis

Der Wortstamm „Haus“ kann in vielen verschiedenen Wörtern vorkommen. Aufgabe eines Stemming-Algorithmus‘ ist es nun, diesen Wortstamm in verschiedenen Suchanfragen zu erkennen und für den ermittelten Stamm die passenden Ergebnisse auszuliefern.

  • Hausbau
  • hausen
  • Einfamilienhaus

Bei der Lemmatisierung hingegen erkennt das Programm die Zitierform bzw. Grundform eines Wortes. Man nennt diese Form auch lexikonbasiertes Stemming.

Grundform: gehen

  • er/sie ging
  • gegangen

Beide Verfahren müssen auf einem großen Datenbestand beruhen und eine enorme Zahl an Regeln beinhalten, um möglichst exakte Ergebnisse auszuliefern. Denn allein die Reduktion auf den Stamm oder die Grundform hilft noch nicht dabei, Synonyme oder Wörter mit gleichem Stamm aber unterschiedlicher Bedeutung herauszufiltern. So hätten die beiden Komposita „Baumhaus“ und „Einfamilienhaus“ zwar mit „haus“ den gleichen Wortstamm, sind in der Praxis jedoch zwei komplett verschiedene Gebäudetypen, die ein User mit einer Suchmaschine sicherlich nicht gleichzeitig als Suchergebnis erwartet, wenn er „Haus“ in den Suchschlitz eingibt.

Stemming bei Suchmaschinen

Google arbeitet seit 2004 offiziell an verschiedenen Stemming-Verfahren, welche die Arbeit der Suchmaschine optimieren sollen. Diese Anpassungen im Suchalgorithmus ermöglichen es Google, Suchanfragen differenzierter zu behandeln. So können z.B. ganze Sätze genauer analysiert werden und Google blendet dabei zusätzlich sogenannte Stoppwörter aus. Wer gezielt nach einem Begriff oder einer bestimmten Satzgruppe sucht, kann das Stemming umgehen, indem er die gesuchte Begriffskombination mit Anführungszeichen umschließt. In der Praxis lässt sich beobachten, wie Google mit Suchbegriffen umgeht.

So nutzt die Suchmaschine die Stemming-Technik auch, um zu kurz eingegebene Suchbegriffe zu ergänzen. Enthält ein Search-Snippet einen Bestandteil der Suchanfrage, wird diese oder der Wortstamm im Snippet fett markiert. Stemming hilft Google außerdem dabei, identische Inhalte besser zu erkennen. So kann die Suchmaschine zum Beispiel mit Hilfe der Technik schnell prüfen, ob es sich bei einem Text um ein Original oder um umformulierten Content handelt.

Nutzen für die SEO

Wer Texte für das Web verfasst und diese für Suchmaschinen sowie die Nutzer optimieren möchte, kann sich ebenfalls den Vorzügen des Stemming bedienen. Die Optimierung bezieht sich dabei aber nicht auf die Reduzierung der Inhalte auf die Wortstämme oder Grundformen, sondern auf ähnliche Begriffe, die dem Themenfeld des Hauptkeywords entsprechen. Ein Text über Äpfel könnte demnach nicht nur eine Beschreibung des Obstes enthalten, sondern über weitere Verwendungsmöglichkeiten sowie Apfelsorten informieren. Auf diese Weise würde der Text noch deutlicher auf den Ursprung, den Apfel verweisen und seine Relevanz zu diesem Begriff erhöhen.

Weblinks