WDF*IDF


WDF*IDF ist ein in der Suchmaschinenoptimierung oft verwendetes Tool zur Berechnung der Relevanz eigenen Contents im Verhältnis zu Inhalten anderer Webseiten und Blogs. WDF steht für „Within Document Frequency“ und bemisst die Häufigkeit aller Worte, die in einem Text vorkommen und kategorisiert diese nach Gewichtung. Damit ist die Relevanz für den Inhalt gemeint. IDF bedeutet „Inverse Document Frequency“. Mit diesem Wert wird die Gewichtung eines Wortes im Dokument für die Suchmaschinenindexierung bezeichnet. Dazu wird der Term ins Verhältnis zu einem Gesamtkorpus gesetzt.

Das bedeutet: Mit der Formel WDF*IDF lässt sich bestimmen, in welchem Verhältnis bestimmte Wörter innerhalb eines Textdokuments, Dokumentenkorpus oder einer Website im Verhältnis zu allen potentiell möglichen Dokumenten gewichtet werden. Diese Formel berücksichtigt demnach die Termfrequenz und kann für die OnPage Optimierung genutzt werden, um die Relevanz einer Website für Suchmaschinen zu erhöhen, ohne dass dabei die Keyword Density allein eine Rolle spielt.

Berechnung[Bearbeiten]

Für die Formel WDF*IDF wird die Häufigkeit eines Wortes (i) in einem Text (j) mit der Häufigkeit des gleichen Wortes in einem relevanten Dokumentenkorpus multipliziert. Daraus ergibt sich die Gewichtung w dieses Terms (i) im Dokument (j):

wi,j= WDFi,j* IDFi

Der Faktor WDF ist die Abkürzung für „within document frequency“. Hierbei wird bestimmt, wie relativ häufig ein Term (also ein Wort oder eine Kombination) innerhalb eines Dokumentes vorkommt. Er errechnet sich wie folgt:

WDFi= log2(Freqi,j+ 1) / log2(L)

Der Logarithmus verhindert, dass bei der Berechnung eine enorme Erhöhung des Hauptkeywords zu einem besseren Wert führt. Während die Keyword-Dichte lediglich die prozentuale Verteilung eines einzelnen Wortes in Bezug auf die Gesamtwortzahl eines Textes berechnet, bezieht die Within-Document-Frequency auch das Verhältnis aller im Text verwendeten Wörter mit ein.

Der Multiplikator IDF berechnet die „inverse document frequency“, die Dokumentenhäufigkeit. Dazu wird die Termfrequenz (t) ins Verhältnis zum relativen Vorkommen aller übrigen Worte eines Textes bzw. Dokumentes (D) oder einer Website gesetzt. Somit wird mit IDF ermittelt, wie relevant ein Text hinsichtlich eines bestimmten Keywords ist. Die Berechnung gestaltet sich folgendermaßen:

IDFt= log (1 + ND/ ft)

Mit der „Inverse Document Frequency“ wird dem Faktor WDF ein Korrektiv hinzugefügt. Die Berechnung der inversen Dokumentenhäufigkeit ist wichtig, um die Häufigkeit an Dokumenten zu einem bestimmten Term mit einzubeziehen. IDF setzt die Anzahl aller bekannten Dokumente ins Verhältnis zur Zahl der Texte, welche den Term enthalten. Der Logarithmus dient auch hier der „Stauchung“ der Ergebnisse.

Beide Formeln miteinander multipliziert ergeben die relative Termgewichtung eines Dokuments im Verhältnis zu allen potentiell möglichen Dokumenten, die das gleiche Keyword enthalten. Um ein nützliches Ergebnis zu erhalten, muss diese Formel für jedes sinntragende Wort innerhalb eines Textdokuments durchgeführt werden.

Je größer die Datenbasis ist, die für die Berechnung von WDF*IDF herangezogen wird, desto präziser sind die Ergebnisse.

Nutzen für SEO[Bearbeiten]

Wenn von WDF*IDF bei der Suchmaschinenoptimierung gesprochen wird, zielt der User von gängigen Tools darauf ab, Texte einer Website bzw. Unterseite möglichst einzigartig zu gestalten, damit Suchmaschinen diese zu einem bestimmten Suchbegriff aufgrund dieser Einzigartigkeit weit vorn in den SERPs (Search Engine Result Pages). Wurde lange Zeit vor allem die Keyworddichte als Maßstab für suchmaschinenoptimierte Texte herangezogen, stellt die Formel WDF*IDF nun eine weitaus präzisere Möglichkeit zur Optimierung von Content dar.

Da die Suchmaschine immer mehr versucht, den semantischen Zusammenhang der Begriffe zu deuten, kann es von Vorteil sein, den Content einer Webseite auch semantisch zu optimieren. Dies wird als Latent Semantic Optimization bezeichnet.

Ein WDF*IDF-Tool kann bei der Bestimmung eines Keywords, das idealerweise im Website-Content benutzt werden sollte, hilfreich sein. Sie können nicht nur zur Keyword-Optimierung dienen, sondern geben bei der Texterstellung Hinweise darauf, welche weiteren Begriffe ein Dokument enthalten sollte, um möglichst unique zu sein.

Nachteile von WDF*IDF[Bearbeiten]

WDF*IDF ist kein Allheilmittel zur Content-Optimierung. Sie stellt im Grunde eine auf Mathematik basierte Möglichkeit zur Keyword-Optimierung dar, auf Basis derer man Inhalte möglichst einzigartig erstellen kann. Viele Faktoren zur tatsächlichen Content-Optimierung werden aus dem WDF*IDF-Wert ausgeschlossen. Dazu zählen unter anderem signifikante Nachbartermini oder Signalwörter, die auf die Suchintention des Users schließen lassen. Reine Orientierung an WDF*IDF-Werten können auch Nonsense-Inhalte als optimiert raten. Den Tools fehlt die Möglichkeit, etwa Mehrdeutigkeiten abzubilden.

Darüber hinaus berücksichtigt allein die Formel WDF*IDF nicht, dass Suchbegriffe auch in einem Absatz gehäufter vorkommen können, dass Stemming-Regeln gelten könnten oder dass ein Texte verstärkt mit Synonymen arbeitet. Wenn Texte anhand der Termgewichtung optimiert werden sollen, muss sich der Anwender bewusst sein, dass alle Elemente seiner Website mit in die Analyse einbezogen werden.

Textagenturen, Texter oder Webmaster sollten sich beim Schreiben nicht allein an der WDF*IDF-Kurve orientieren. Letztlich handelt es sich bei den Ergebnissen der Tools nur um Berechnungen auf der Basis von Logarithmen. Andere Aspekte spielen bei der Termgewichtung überhaupt keine Rolle. Doch Tonalität, CTAs, Struktur, Stilmittel, Jargon und Lesefluss spielen für die Userfreundlichkeit und Lesbarkeit eines Textes eine wichtige Rolle.

Die kontinuierliche Verbesserung der Suchmaschinenalgorithmen, die voranschreitende Entwicklung künstlicher Intelligenz (Machine Learning), sowie die zunehmende Kundenorientierung in der Content-Optimierung, rücken diese Schwachstellen der im SEO lange als Geheimwaffe gehandelte WDF*IDF-Formel verstärkt in den Vordergrund.

Interaktionsraten (Shares, Kommentare, usw.), Bounce-Rates und Verweildauer haben gegenüber der bloßen Term-Berechnung für Google und Suchalgorithmen deutlich an Bedeutung gewonnen. Damit Content von Usern gerne angenommen und ein Text wirklich gut wird, sollten diese Aspekte bei der Texterstellung mehr Aufmerksamkeit erfahren.

Nicht zuletzt ist die Optimierung von Texten nur einer von vielen Aspekten im Rahmen der OnPage-Optimierung. Auch der beste, nach WDF*IDF verfasste Text wird die Rankingnachteile zum Beispiel nicht aufwiegen, die durch minderwertige Inhalte und schlechte Backlinks oder nicht mobil optimierte Seite entstehen.

Spezialfall Online-Shops[Bearbeiten]

Besonders bei der Online-Shop-Optimierung werden auch Kategorie-Überschriften und Produktbezeichnungen in die Berechnung der Gewichtung mit einbezogen. Vor allem, wo auf einer Seite jeweils nur ein Produkt beschrieben wird, ist die Formel WDF*IDF eher keine geeignete Möglichkeit zur Content-Verbesserung. Dafür beinhalten Produktbeschreibungen in der Regel zu wenig Text. fDies ist der Tatsache geschuldet, dass die Formel viel weiter greift und den Wert jedes Terms innerhalb des Dokuments berechnet.

Hintergrund[Bearbeiten]

Einen maßgeblichen Anteil für die Verbreitung und die Popularität der WDF*IDF-Formel in Deutschland hat sicherlich der Online-Marketing-Experte Karl Kratz. In seinem Artikel aus 2012, der heute “SEO Mythos Keyword Density” heißt [1] hat er auf die WDF*IDF-Formel zur Termgewichtung aufmerksam gemacht und damit nicht nur die SEO-Szene und Content-Marketer aufgerüttelt, die sich bisher bei der Texterstellung überwiegend an der Keyworddichte orientiert hatte. Mit der Formel WDF*IDF wurde jedoch keine neue Regel geschaffen, um Webtexte zu optimieren. Vielmehr wurde die Termgewichtung neu entdeckt, die bereits 1957 durch den Computerforscher Hans Peter Luhn von IBM im Rahmen des Information Retrieval entwickelt und analysiert wurde. Bevor die Termgewichtung für die Suchmaschinenoptimierung wiederentdeckt wurde, fand sie auch in der Linguistik sowie später der Computerlinguistik bei der Auswertung von Textmaterial Anwendung.

Einzelnachweise[Bearbeiten]

  1. Seo Mythos Keyword Density karlkratz.de Abgerufen am 10.08.2017

Weblinks[Bearbeiten]