WDF*IDF


WDF*IDF ist ein in der Suchmaschinenoptimierung oft verwendetes Tool zur Berechnung der Relevanz von eigenem Content im Verhältnis zu Inhalten anderer Webseiten und Blogs. WDF steht für „Within Document Frequency“ und bemisst die Häufigkeit aller Worte, die in einem Text vorkommen und kategorisiert diese nach Gewichtung. Damit ist die Relevanz für den Inhalt gemeint. IDF bedeutet „Inverse Document Frequency“. Mit diesem Wert wird die Gewichtung eines Wortes im Dokument für die Suchmaschinenindexierung bezeichnet. Dazu wird der Term ins Verhältnis zu einem Gesamtkorpus gesetzt.

Das bedeutet: Mit der Formel WDF*IDF bzw. einer WDF*IDF-Analyse lässt sich bestimmen, in welchem Verhältnis bestimmte Wörter innerhalb eines Textdokuments, Dokumentenkorpus oder einer Website im Verhältnis zu allen potenziell möglichen Dokumenten gewichtet werden. Diese Formel berücksichtigt demnach die Termfrequenz und kann für die OnPage Optimierung genutzt werden, um die Relevanz einer Website für Suchmaschinen zu erhöhen, ohne dass dabei die Keyword Density allein eine Rolle spielt.

Hintergrund

Einen maßgeblichen Anteil an der Verbreitung und Popularität der WDF*IDF-Formel in Deutschland hat sicherlich der Online-Marketing-Experte Karl Kratz. In seinem Artikel aus 2012, der heute “SEO Mythos Keyword Density” heißt[1] hat er auf die WDF*IDF-Formel zur Termgewichtung aufmerksam gemacht und damit SEOs und Content-Marketer aufgerüttelt, die sich bisher bei der Texterstellung überwiegend an der Keyworddichte orientiert hatten.

Mit der Formel WDF*IDF wurde jedoch keine neue Regel geschaffen. Vielmehr wurde die Termgewichtung neu entdeckt, die bereits 1957 durch den Computerforscher Hans Peter Luhn von IBM im Rahmen des Information Retrieval entwickelt und analysiert wurde. Bevor die Termgewichtung für die Suchmaschinenoptimierung wiederentdeckt wurde, fand sie auch in der Linguistik sowie später in der Computerlinguistik bei der Auswertung von Textmaterial Anwendung.

Berechnung

Für die Formel WDF*IDF wird die Häufigkeit eines Wortes (i) in einem Text (j) mit der Häufigkeit des gleichen Wortes in einem relevanten Dokumentenkorpus multipliziert. Daraus ergibt sich die Gewichtung (w) dieses Terms (i) im Dokument (j):

wi,j= WDFi,j* IDFi


Der Faktor WDF ist die Abkürzung für „within document frequency“. Hierbei wird bestimmt, wie relativ häufig ein Term (also ein Wort oder eine Kombination) innerhalb eines Dokumentes vorkommt. Er errechnet sich wie folgt:

WDFi= log2(Freqi,j+ 1) / log2(L)


Der Logarithmus verhindert, dass bei der Berechnung eine enorme Erhöhung des Hauptkeywords zu einem besseren Wert führt. Während die Keyword-Dichte lediglich die prozentuale Verteilung eines einzelnen Wortes in Bezug auf die Gesamtwortzahl eines Textes berechnet, bezieht die Within-Document-Frequency auch das Verhältnis aller im Text verwendeten Wörter mit ein.

Der Multiplikator IDF berechnet die „inverse document frequency“, die Dokumentenhäufigkeit. Dazu wird die Termfrequenz (t) ins Verhältnis zum relativen Vorkommen aller übrigen Worte eines Textes bzw. Dokumentes (D) oder einer Website gesetzt. Somit wird mit IDF ermittelt, wie relevant ein Text hinsichtlich eines bestimmten Keywords ist. Die Berechnung gestaltet sich folgendermaßen:

IDFt= log (1 + ND/ ft)


Mit der „Inverse Document Frequency“ wird dem Faktor WDF ein Korrektiv hinzugefügt. Die Berechnung der inversen Dokumentenhäufigkeit ist wichtig, um die Häufigkeit an Dokumenten zu einem bestimmten Term mit einzubeziehen. IDF setzt die Anzahl aller bekannten Dokumente ins Verhältnis zur Zahl der Texte, welche den Term enthalten. Der Logarithmus dient auch hier der „Stauchung“ der Ergebnisse.

Beide Formeln miteinander multipliziert ergeben die relative Termgewichtung eines Dokuments im Verhältnis zu allen potenziell möglichen Dokumenten, die das gleiche Keyword enthalten. Um ein nützliches Ergebnis zu erhalten, muss diese Formel für jedes sinntragende Wort innerhalb eines Textdokuments durchgeführt werden.

Je größer die Datenbasis ist, die für die Berechnung von WDF*IDF herangezogen wird, desto präziser sind die Ergebnisse.

Nachteile von WDF*IDF

Die Formel WDF*IDF ist kein Allheilmittel zur Content-Optimierung. Sie stellt im Grunde eine auf Mathematik basierte Möglichkeit zur Keyword-Optimierung dar, mit der man Inhalte möglichst einzigartig erstellen kann. Viele Faktoren zur tatsächlichen Content-Optimierung werden nicht in den WDF*IDF-Wert einbezogen. Dazu zählen unter anderem signifikante Nachbartermini oder Signalwörter, die auf die Suchintention des Users schließen lassen. Die Orientierung rein anhand von WDF*IDF-Werten könnten auch Nonsense-Inhalte als optimiert bewerten. Den Tools fehlt die Möglichkeit, etwa Mehrdeutigkeiten abzubilden.

Darüber hinaus berücksichtigt die Formel WDF*IDF allein nicht, dass Suchbegriffe auch in einem Absatz gehäufter vorkommen können, dass Stemming-Regeln gelten könnten oder dass ein Text verstärkt mit Synonymen arbeitet. Wenn Texte anhand der Termgewichtung optimiert werden sollen, muss sich der Anwender bewusst sein, dass alle Elemente seiner Website mit in die Analyse einbezogen werden.

Textagenturen, Texter oder Webmaster sollten sich beim Schreiben nicht allein an der WDF*IDF-Kurve orientieren. Letztlich handelt es sich bei den Ergebnissen der Tools nur um Berechnungen auf der Basis von Logarithmen. Andere Aspekte spielen bei der Termgewichtung überhaupt keine Rolle. Tonalität, CTAs, Struktur, Stilmittel, Jargon und Lesefluss spielen für die Userfreundlichkeit und Lesbarkeit eines Textes allerdings eine wichtige Rolle.

Die kontinuierliche Verbesserung der Suchmaschinenalgorithmen, die voranschreitende Entwicklung künstlicher Intelligenz (Machine Learning) sowie die zunehmende Kundenorientierung in der Content-Optimierung rücken diese Schwachstellen der in der SEO lange als Geheimwaffe gehandelte WDF*IDF-Formel verstärkt in den Vordergrund.

Interaktionsraten (Shares, Kommentare, usw.), Bounce-Rates und Verweildauer haben gegenüber der bloßen Term-Berechnung für Google und deren Suchalgorithmen deutlich an Bedeutung gewonnen. Damit Content von Usern gerne angenommen und ein Text wirklich gut wird, sollten diese Aspekte bei der Texterstellung mehr Aufmerksamkeit erfahren.

Nicht zuletzt ist die Optimierung von Texten nur einer von vielen Aspekten im Rahmen der OnPage-Optimierung. Auch der beste, nach WDF*IDF verfasste Text wird die Rankingnachteile zum Beispiel nicht aufwiegen, die durch minderwertige Inhalte und schlechte Backlinks oder eine nicht mobil optimierte Seite entstehen.

Spezialfall Online-Shops

Besonders bei der Online-Shop-Optimierung werden auch Kategorie-Überschriften und Produktbezeichnungen in die Berechnung der Gewichtung mit einbezogen. Vor allem, wenn auf einer Seite jeweils nur ein Produkt beschrieben wird, ist die Formel WDF*IDF keine geeignete Möglichkeit zur Content-Verbesserung, denn dafür beinhalten Produktbeschreibungen in der Regel zu wenig Text. Dies ist der Tatsache geschuldet, dass die Formel viel weiter greift und den Wert jedes Terms innerhalb des Dokuments berechnet.

Dennoch lässt sich WDF*IDF in einem gewissen Umfang auch für Online-Shops nutzen. Auf der Startseite, der Produktseite und der Kategorieseite steht zwar in der Regel nur wenig Platz für Texte zur Verfügung – was der Anwendung der Formel widerspricht -, doch Shopanbieter können andere Mittel nutzen.

Mit Ratgebertexten oder verschiedenen Blogbeiträgen lassen sich Textlängen erzielen, die sich für WDF*IDF eignen.

[2]

Nutzen für SEO

Wenn von WDF*IDF bei der Suchmaschinenoptimierung gesprochen wird, versucht der User durch die Verwendung von Tools dieser Analyse, seine Website-Texte möglichst einzigartig zu gestalten. Aufgrund deren Einzigartigkeit sollten Suchmaschinen diese Texte in den SERPs (Search Engine Result Pages) für relevante Keywords möglichst weit oben platzieren. Wurde lange Zeit vor allem die Keyworddichte als Maßstab für suchmaschinenoptimierte Texte herangezogen, stellt die Formel WDF*IDF nun eine weitaus präzisere Möglichkeit zur Optimierung von Content dar.

Da Suchmaschinnen zunehmend auch den semantischen Zusammenhang von Begriffen deuten, kann es von Vorteil sein, den Content einer Webseite auch semantisch zu optimieren. Dies wird als Latent Semantic Optimization bezeichnet.

Ziel der WDF*IDF-Analyse ist nicht nur die Keyword-Optimierung einer Seite, sie gibt bei der Texterstellung auch Hinweise darauf, welche weiteren Begriffe ein Dokument enthalten sollte, um möglichst unique zu sein.

Einzelnachweise

  1. https://karlkratz.de/onlinemarketing-blog/seo-keyword-density/ SEO Mythos Keyword Density] karlkratz.de Abgerufen am 07.02.2020
  2. [Wann WDF*IDF im Ecommerce sinnvoll sein kann! (shopanbieter.de) wann-wdfidf-im-ecommerce-sinnvoll-sein-kann] shopanbieter.de Abgerufen am 21.12.2021

Weblinks