WDF*IDF

Mit der Formel WDF*IDF lässt sich bestimmen, in welchem Verhältnis bestimmte Wörter innerhalb eines Textdokuments, Dokumentenkorpus oder einer Website im Verhältnis zu allen potentiell möglichen Dokumenten gewichtet werden. Diese Formel berücksichtigt demnach die Termfrequenz und kann für die OnPage Optimierung genutzt werden, um die Relevanz einer Website für Suchmaschinen zu erhöhen, ohne dass dabei die Keyword Density allein eine Rolle spielt.

Berechnung

WDF ist die Abkürzung für „within document frequency“. Hierbei wird bestimmt, wie relativ häufig ein Term (also ein Wort oder eine Kombination) innerhalb eines Dokumentes vorkommt. IDF berechnet die „inverse document frequency“, die Dokumentenhäufigkeit. Die Termfrequenz wird ins Verhältnis zum relativen Vorkommen aller übrigen Terme eines Textes bzw. Dokumentes oder einer Website gesetzt. Zur Berechnung wird ein Logarithmus verwendet. Die Formel sieht dann folgendermaßen aus:

CodeCogsEqn.gif

Der Logarithmus verhindert, dass bei der Berechnung eine enorme Erhöhung des Hauptkeywords zu einem besseren Wert führt. Während die Keyword-Dichte lediglich die prozentuale Verteilung eines einzelnen Wortes in Bezug auf die Gesamtwortzahl eines Textes berechnet, bezieht die Within-Document-Frequency auch das Verhältnis aller im Text verwendeten Wörter mit ein.

Mit IDF wird die Formel zur Berechnung der Termgewichtung komplett. IDF berechnet die „inverse document frequency“, die Dokumentenhäufigkeit. Damit wird WDF ein Korrektiv hinzugefügt. Die Berechnung der Inverse Document Frequency ist wichtig, um die Häufigkeit an Dokumenten zu einem bestimmten Term mit einzubeziehen. Die IDF setzt die Anzahl aller bekannten Dokumente ins Verhältnis zur Zahl der Texte, welche den Term enthalten. Der Logarithmus dient auch hier der „Stauchung“ der Ergebnisse.

CodeCogsEqn3.gif

Somit wird mit IDF ermittelt, wie relevant ein Text hinsichtlich eines bestimmten Keywords ist.

Beide Formeln miteinander multipliziert ergeben die relative Termgewichtung eines Dokuments im Verhältnis zu allen potentiell möglichen Dokumenten, die das gleiche Keyword enthalten. Um ein nützliches Ergebnis zu erhalten, muss diese Formel für jedes sinntragende Wort innerhalb eines Textdokuments durchgeführt werden.

Je größer die Datenbasis ist, die für die Berechnung von WDF*IDF herangezogen wird, desto präziser sind die Ergebnisse.

Nutzen für SEO

Wenn von WDF*IDF bei der Suchmaschinenoptimierung gesprochen wird, zielt der User von gängigen Tools darauf ab, Texte einer Website bzw. Unterseite möglichst einzigartig zu gestalten, damit Suchmaschinen diese zu einem bestimmten Suchbegriff aufgrund dieser Einzigartigkeit weit vorn in den SERPs (Search Engine Result Pages). Wurde lange Zeit vor allem die Keyworddichte als Maßstab für suchmaschinenoptimierte Texte herangezogen, stellt die Formel WDF*IDF nun eine weitaus präzisere Möglichkeit zur Optimierung von Content dar.

Da die Suchmaschine immer mehr versucht, den semantischen Zusammenhang der Begriffe zu deuten, kann es von Vorteil sein, den Content einer Webseite auch semantisch zu optimieren. Dies wird als Latent Semantic Optimization bezeichnet.

Zur Bestimmung der Keywords, die idealerweise im Website Content benutzt werden sollten, kann ein WDF*IDF-Tool dienen. Denn mit Hilfe eines WDF*IDF-Tools können Texte nicht nur hinsichtlich eines bestimmten Keywords optimiert werden, sondern die Tools geben bei der Texterstellung auch Hinweise darauf, welche weiteren Terme ein Text enthalten muss, um möglichst einzigartig zu sein.

Nachteile von WDF*IDF

Wenn Texte anhand der Termgewichtung optimiert werden sollen, muss sich der Anwender bewusst sein, dass alle Elemente seiner Website mit in die Analyse einbezogen werden. So zählen auch Überschriften für Kategorien sowie Produktbezeichnungen in Online-Shops mit in die Gewichtung. Vor allem für Online-Shops, die auf einer Seite lediglich ein Produkt beschreiben wollen, ergibt sich mit der WDF*IDF-Formel eine eher suboptimale Möglichkeit zur Verbesserung des Contents. Denn für diese Art der OnPage-Optimierung wird in der Regel viel Text benötigt. Dies ist der Tatsache geschuldet, dass die Formel viel weiter greift und den Wert jedes Terms innerhalb des Dokuments berechnet.

Darüber hinaus berücksichtigt allein die Formel WDF*IDF nicht, dass Suchbegriffe auch in einem Absatz gehäufter vorkommen können, dass Stemming-Regeln gelten könnten oder dass ein Texte verstärkt mit Synonymen arbeitet.

Schließlich ist WDF*IDF auch keine “Geheimwaffe” für die Content-Optimierung, sondern stellt lediglich eine Möglichkeit dar, um Inhalte möglichst einzigartig zu erstellen. Letztlich ist die Optimierung von Texten nur ein möglicher Aspekt im Rahmen der OnPage-Optimierung. Auch der beste nach WDF*IDF verfasste Text wird die Rankingnachteile zum Beispiel nicht aufwiegen, die durch “schlechte” Backlinks oder nicht mobil optimierte Seite entstehen.

Darüber hinaus sollten Textagenturen, Texter oder Webmaster sich nicht allein nach der WDF*IDF-Kurve beim Schreiben orientieren. Letztlich handelt es sich bei den Ergebnissen der Tools “nur” um Berechnungen auf der Basis von Logarithmen. Andere Aspekte wie Tonalität, Handlungsaufforderungen, Struktur oder Lesefluss spielen bei der Termgewichtung überhaupt keine Rolle. Damit ein Text jedoch wirklich gut wird, sollten diese Aspekte nicht minder wichtig bei der Texterstellung sein.

Hintergrund

Einen maßgeblichen Anteil für die Verbreitung und die Popularität der WDF*IDF-Formel in Deutschland hat sicherlich der Online-Marketing-Experte Karl Kratz. In seinem Artikel aus 2012, der heute “SEO Mythos Keyword Density” heißt [1] hat er auf die WDF*IDF-Formel zur Termgewichtung aufmerksam gemacht und damit nicht nur die SEO-Szene aufgerüttelt, die sich bisher bei der Texterstellung überwiegend an der Keyworddichte orientiert hatte. Mit der Formel WDF*IDF wurde jedoch keine neue Regel geschaffen, um Webtexte zu optimieren. Vielmehr wurde die Termgewichtung neu entdeckt, die bereits 1957 durch den Computerforscher Hans Peter Luhn von IBM im Rahmen des Information Retrieval entwickelt und analysiert wurde. Bevor die Termgewichtung für die Suchmaschinenoptimierung wiederentdeckt wurde, fand sie auch in der Linguistik sowie später der Computerlinguistik bei der Auswertung von Textmaterial Anwendung.

Einzelnachweise

  1. Seo Mythos Keyword Density karlkratz.de Abgerufen am 10.08.2017

Weblinks

Kategorie