WDF


Unter WDF (englisch: Within Document Frequency) versteht man die Gewichtung eines Wortes in einem Dokument. Der Begriff stammt aus der Informationsstatistik, die Worthäufigkeiten in Dokumenten und Wortgewichtungen ermittelt und daraus ein Ranking der Dokumente nach Relevanz ableitet. Im Zusammenspiel mit der Inverse Document Frequency ergibt die WDF eine Formel, nach welcher die Einzigartigkeit eines Textes in Bezug auf ein Keyword bzw. eine Keywordkombination ermittelt werden kann.

Hintergrund[Bearbeiten]

Die Berechnung dieser Häufigkeit wurde von Donna Harman in Ihrem Beitrag „Ranking Algorithms“ innerhalb des Sammelbandes „Information Retrieval: Data Structures & Algorithms“ aus dem Jahr 1992 entwickelt, um bestimmten Ausdrücken eine Gewichtung in einem Dokument zu geben. [1]

Die Forscherin ist bereits seit Mitte der 1980er-Jahre im Bereich Information Retrieval aktiv und nahm immer wieder an Konferenzen dazu teil. Die Berechnung der WDF dient der Aufbereitung von Datenbeständen in der Informationswissenschaft. Häufig wird WDF zusammen mit IDF und dem Gewichtungswert P erwähnt, da diese Größen miteinander multipliziert eine Gewichtungsformel darstellen, welche u.a. die Einzigartigkeit von Textmaterial in Bezug auf bestimmte Schlüsselbegriffe bestimmen kann. In der Regel gilt: Je höher der WDF, desto häufiger kommt ein Begriff in einem Dokument vor.

Mit Hilfe der WDF können u.a. Bibliotheken arbeiten, deren Bestände damit leichter durchsucht werden können. Dabei erhalten die Nutzer Suchergebnisse, die sich den bestmöglichen Treffer zu einem bestimmten Suchbegriff aufführen und sich dabei nicht allein nur nach der Begriffsdichte orientieren, sondern den Kontext mit einbeziehen können.

Berechnung der WDF[Bearbeiten]

Die Formel für die Within Document Frequency - WDF lautet wie folgt:

CodeCogsEqn.gif

i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j

Erklärung zu "+1":
falls Freq(i,j) = 0 ist, erreicht man mit dem "+1" dass im Zähler log2(1) = 0 steht.

Beispiel[Bearbeiten]

Angenommen ein Dokument enthält 12.000 Wörter. Annahme L=12000. Das Wort i kommt in diesem Dokument 23 mal vor, also ist Freq(i,j)=23. Beim Einsatz der Werte ergibt sich folgende Berechnung:

CodeCogsEqn2.gif

Der Gewichtungswert WDF(i)= 0,3 (gerundet) ist das Ergebnis. Die relative Häufigkeit des Wortes i hier 0,001 %.

WDF vs. Keyworddichte[Bearbeiten]

Die Termgewichtung innerhalb eines Dokuments wird durch die Within Document Frequency dargestellt. Grundsätzlich ähnelt der dadurch ermittelte Wert der häufig für die Content-Optimierung verwendeten Keyworddichte. Im Gegensatz wird die WDF für sinntragende Wörter errechnet und nicht durch einen einfachen Dreisatz bestimmt.

Mit Hilfe zweier Logarithmen wird zusätzlich verhindert, dass der WDF-Wert durch das massive Hinzufügen von Schlüsselbegriffen in einen Textkorpus künstlich erhöht werden kann. Grundsätzlich kann folglich durch die Berechnung der WDF ermittelt werden, welcher Term bzw. welche Begriffe einen Text am besten beschreiben. Eric Kubitz spricht in seinem Blogbeitrag von der „DNA des Textes“[2].

Bedeutung für das SEO[Bearbeiten]

Durch den wegweisenden Beitrag zum „SEO-Mythos Keyword Density“ aus dem Jahr 2010 von Karl Kratz [3] erhielten bereits in den 1990er-Jahren und noch weit zuvor entwickelte Methoden aus dem Information Retrieval neuen Aufwind und einen weiteren Verwendungszweck. Wurde z.B. die WDF bisher vor allem für wissenschaftliche Recherchen verwendet, stellte die wiederentdeckte Formel WDF*IDF die bisherige Content-Optimierung anhand der Keyworddichte auf den Kopf und ist heute nahezu Standard für die suchmaschinenoptimierte Webinhalte.

Einzelnachweise[Bearbeiten]

  1. W.B. Frakes, R. Baeza-Yates (Hgg): Information Retrieval: Data Structures & Algorithms. Prentice Hall 1992, S. 363-392
  2. Was WDF*IDF bedeutet und warum das wichtig ist seo-book.de Abgerufen am 05.04.2014
  3. SEO-Mythos Keyword Density karlkratz.de Abgerufen am 06.04.2014

Weblinks[Bearbeiten]