Termfrequenz


Der Wert Termfrequenz (Abk.:TF) wird als Begriff im Zusammenhang mit Information Retrieval benutzt und drückt aus, wie häufig ein Ausdruck (Term, Wort) in einem Dokument vorkommt.

Termfrequenz zeigt die Bedeutung eines bestimmten Terms innerhalb des Gesamtdokumentes an. Häufig wird dieser Wert im Zusammenhang mit inversen Dokumentenhäufigkeit IDF erwähnt. Der Wert der Termfrequenz wird unter anderem zu Berechnung von Keyword Density zu Rate gezogen.

Kritik[Bearbeiten]

Betrachtet man die Termfrequenz alleine und für sich, ist sie in Hinblick auf die Relevanz eines Dokuments zu einem bestimmten Schlagwort nicht aussagekräftig. Dies liegt daran, dass die Termfrequenz ausschließlich auf die nominale Häufigkeit des Schlagwortes ausgerichtet ist. Ein Beispiel verdeutlicht dies:

In einem langen Text mit 3.000 Wörter über den Bau eines Hauses kommt fünf Mal der Term „Wandfarbe“ vor. Ein Malerbetrieb erklärt auf seiner Website in einem Text mit 500 Wörtern kurz und knapp die wichtigsten Arten von Farben und verwendet das Wort „Wandfarbe“ nur zwei Mal, weil er ansonsten überwiegend Synonyme und Farbenarten in den Text einbringt. Würde man sich für die Bewertung der Themenrelevanz alleine auf die Termfrequenz verlassen, würde der lange Text aufgrund der fünfmaligen Nennung relevanter erscheinen als der kurze Text, obwohl dies aufgrund des Inhaltes definitiv nicht zutreffend ist. Deshalb kann die Termfrequenz allenfalls als Bestandteil anderer Bewertungskriterien dienen, beispielsweise bei der Keyworddichte.

Weiterführung als Keyworddichte[Bearbeiten]

Aussagekräftig kann die Termfrequenz dann werden, wenn man sie ins Verhältnis zur Textlänge setzt. Dadurch ergibt sich die sogenannte Keyworddichte. Hierzu wird folgende Formel herangezogen:

Keyworddichte = Termfrequenz / gesamte Wortanzahl x 100

Für das oben angeführte Beispiel ergäben sich folgende Keyworddichten:

  • Text 1: 5 / 3.000 x 100 = 0,17 Prozent
  • Text 2: 2 / 500 x 100 = 0,4 Prozent

Hier zeigt sich eine höhere Relevanz des zweiten Dokuments, da das Keyword eine größere, relative Häufigkeit aufweist als in Text 1.

Termfrequenz als Teil von WDF*IDF[Bearbeiten]

Auch die WDF*IDF-Formel für die Optimierung von Texten bedient sich der Termfrequenz. Hier wird ebenfalls die Häufigkeit eines Schlagworts ins Verhältnis zur Dokumentenlänge gesetzt. Zugleich sorgen Logarithmen dafür, dass sehr häufig vorkommende Terme nicht zu stark gewichtet werden. Außerdem werden Wörter, die in der Sprache sehr häufig vorkommen (z. B. Konjunktionen, Präpositionen, Artikel), niedriger gewichtet.

Bedeutung für die Suchmachinenoptimierung[Bearbeiten]

Die Suchmaschine Google setzt einen speziellen Algorithmus zur automatischen Indexierung von Web-Dokumenten ein. Dieser wird geheim gehalten. Durch mathematische Herangehensweise versuchen Experten diesen Algorithmus zu entschlüsseln, um die Vorgehensweise der Indexierung nachzuvollziehen. Es wird vermutet, dass Suchmaschinen mathematischen Werte wie Termfrequenz (TF) oder within-document-frequency (WDF) in die Bewertung der Inhalte einer Webseite durch Suchmaschinen einfließen lassen. Es empfiehlt sich diese Werte bei eigenen Webdokumenten (Seiten) zu ermitteln, um einen für Suchmaschinen relevanten Inhalt auf der Webseite darzustellen.

Weblinks[Bearbeiten]