« Zurück zur Übersicht

Thin Content mit Ryte erkennen und behandeln

Mit den drei neuen Reports: Wortanzahl, Anzahl verschiedener Wörter pro Dokument und Content zu Code Ratio bietet Ryte jetzt mehr Möglichkeiten zur Erkennung von Thin Content. Damit werden eure OnPage SEO Audits noch besser.

Wer bei unserem Expert Event anwesend war, hat es bereits mitbekommen: In Zukunft wollen wir besser verstehen was die Workflows unserer Kunden vereinfacht. In diesem Zuge haben wir unser “Feature-Request” Tool gelauncht, so dass die Kunden ihre Wünsche noch einfacher einstellen können und die Community dann entscheiden kann, in welche Richtung wir neue Features entwickeln. Auch das Expert Event haben wir bewusst genutzt, um uns das Kundenfeedback direkt einzuholen und haben dabei einige spannende Erkenntnisse gewonnen.

Die Priorität der Umsetzung wird natürlich auch den Aufwand bestimmt – sprich: “Quick-Wins” versuchen wir höher zu priorisieren, als Projekte, die womöglich mehrere Monate in Anspruch nehmen.

Das erste Resultat dieses direkten Community Feedbacks möchten wir euch heute präsentieren: Neue Reports zur Erkennung von Thin Content.

Ich werde jetzt kurz die 3 neuen Reports vorstellen und im Anschluss erläutere ich kurz, warum wir uns für diese Lösung entschieden haben.

1. “Wortanzahl” aka “Word Count”

Den Report “Wortanzahl” findest du unter “Website Success” > “Wortstatistiken” > “Wortanzahl”.

Der Name des Reports verrät eigentlich schon was wir tun: Beim Crawling Deiner Seite ermitteln wir die Wörter die in den Dokumenten vorkommen und zählen diese. Aus diesen Werten generieren wir dann den Graphen, der die Dokumente in gewohnter Weise gruppiert.

Wie immer, könnt ihr per Klick auf einen der Balken auf diese Inhalte filtern. Zusätzlich steht die Metrik “Wortanzahl” nun in allen Reports als Filter zur Verfügung.

Was wir unter Content verstehen

Bitte beachtet: Standardmäßig werten wir den kompletten Seiteninhalt aus. Dadurch fallen auch Inhalte von Header, Sidebar und Footer in die Analyse. Das ist aber nicht weiter schlimm: Denn die Übersicht in Form des Graphen soll dabei helfen, Ausreißer innerhalb der Inhalte dieser Domain zu offenbaren. Einige Benutzer haben sich gewünscht, dass wir bei unseren Textanalysen die Boilerplates (Header, Footer, Sidebar, etc.) wegschmeißen. Diesen Wunsch haben wir ebenfalls umgesetzt und man kann jetzt in den Crawl-Settings einstellen, dass nur der Hauptcontent analysiert werden soll (Standardmäßig deaktiviert).

An dieser Stelle sei aber angemerkt, dass diese Herangehensweise nicht empfehlenswert ist: Zum einen weil Suchmaschinen auch den kompletten Inhalt der Seite analysieren, auch wenn so manch einer behauptet es wäre nicht so und weil es teilweise zu unerwünschten Resultaten führen kann.

Diejenigen, die vermuten, dass Suchmaschinen nur den “Hauptinhalt” einer Seite auswerten würden, kann man via einer einfachen “site:” Abfrage bei Google eines besseren belehren. Indem man ein Term aus dem Hauptinhalt und ein Term, der nur im Footer vorkommt mit einer “site”: kombiniert, sieht man dass Google die richtige Seite findet. Würden sie nur den Hauptinhalt analysieren, müsste das Ergebnis leer sein. Woran liegt das? Die Erkennung des Hauptinhalts ist algorithmisch recht komplex und sehr anfällig für “false positives”. Das Risiko, dass man nicht alle Teile des Main-Contents erkennt (gerade bei Seiten mit etwas komplexeren HTML Code), ist relativ groß. Daher ist der Ansatz den kompletten Inhalt zu indexieren und dann mit Techniken, wie der Termgewichtung (“WDF*IDF”) zu arbeiten, der effektivere und liefert bessere Suchresultate.

Anzahl unterschiedlicher Wörter pro Dokument aka Unique Word Count

Dieser Report ist eine Weiterführung des “Wortanzahl”. Anstatt die reine Anzahl gefundene Worte zu zählen, zählt dieser Report jedes Wort nur einmal. Das hilft zum Beispiel dabei Blindtexte auf einer Domain zu enttarnen – also z.B. Platzhalterseiten die nur mit “Lorem Ipsum” gefüllt sind.

Content/Code Ratio aka Anteil des Inhaltes an der Dateigröße

Diese Metrik hat im Vorfeld bereits für etwas Diskussion gesorgt. Denn über sie wird schon länger in der SEO Szene diskutiert: Es geht bei ihr darum zu bemessen, welcher Anteil der Dateigröße auf echten Inhalt zurückfällt und welche Anteil auf den HTML + Javascript + CSS Code (innerhalb des Dokumentes). Früher hat man recht vereinfacht gesagt: “Die Content zu Code Ratio darf maximal einen Wert von x % haben”. Diese Ansicht ist heutzutage etwas veraltet. Durch neue Technologien (z.B. Critical CSS Optimization) wird der Code einer Seite aufgeblasen aber gleichzeitig haben die Benutzer einen Vorteil davon (also bessere User-Experience), daher sollte man als SEO nicht da stehen und diese Entwicklung als negativ abstempeln. Dennoch sollte man jederzeit die Code-Größe eines Dokuments kritisch hinterfragen: Denn umso schlanker der Code ist, desto schneller lädt die Seite auf Mobile Devices und umso schneller können Suchmaschinen diese Seite herunterladen und indexieren (wenn man das ganze in skalierter “Vogelperspektive” betrachtet). Sprich: Schlanker Code ist immer gut und manchmal können auch Designer noch was dazu lernen.

Diese Historie der Metrik hat dazu geführt, dass wir gezögert haben, sie in unsere Software aufzunehmen. Die Diskussion rund um Thin Content hat aber letztlich den Ausschlag gegeben doch einen Report dazu zu bauen. Denn die Content/Code Ratio kann wunderbar dazu benutzt werden, Dokumente innerhalb einer Domain zu enttarnen, die “anders” sind. Dazu braucht man sich in dem Graphen lediglich die “Ausreißer” genauer anschauen.

Die Ausreißer links (Dokumente mit einer Content-Code Ration von 0-10%) sind unsere vermeintlichen Thin Content Pages. Da sind zum Beispiel unsere Free-Tools (da ist so gut wie kein Text) aber auch eher leere Kategorie-Seiten aus dem Blog.

Um die Analyse weiter zu verfeinern, schließe ich die Free Tools per Filter aus der Analyse aus, denn die Seiten haben trotz wenig Inhalt einen Mehrwert und sollen daher bei der Bewertung des “Thin Contents” ignoriert werden.

Und siehe da: Das sind wirklich Thin Content Seiten! Scheinbar verlinkt unser Blog zum Beispiel die Artikel-Autoren und führt auf eine Übersicht der Artikel dieses Autoren. Und genau diese Übersichten sind bei unseren Gastautoren ziemlich “thin” – weil die meisten bisher nur einen Artikel veröffentlicht haben.

Weiter unten werden dann sogar noch Inhalte auf unserer neuen internationalen Subdomain “en.ryte.com” enttarnt, welche bisher noch nicht übersetzt wurden. Dort wird dann auf unser englischen Seite einfach kein Inhalt angezeigt. Somit ist dieser Report ein praktischer Helfer für unser Übersetzerteam – denn das kann einen weiteren Filter auf die Subdomain “en.ryte.com” legen und sieht dann die URLs wo es noch ran muss.

Wie ihr seht, ermöglicht der Content/Code Ratio Report (genauso wie die beiden anderen neuen Reports) geniale Möglichkeiten der Analyse – insbesondere in Kombination mit den mächtigen Filtern die Ryte bietet.

Background: Wieso diese Metriken?

Zu guter letzt noch ein paar Worte dazu, warum wir uns für diese drei relativ einfachen Metriken entschieden haben. Long story short: Zu bestimmen, was Thin Content ist und was nicht, ist verdammt schwierig. Auf einer Domain können mehrere verschiedene CMS oder verschiedene Templates benutzt werden. Daher können wir nicht einfach einen Wert X als “gut” festlegen und alles was darunter fällt ist automatisch “Thin Content”. In der Welt der Suchmaschinen ist “Thin Content” auch weniger ein Thema – denn eigentlich geht es letztlich darum, dass eine Thin Content Page automatisch als Duplicate Content deklariert wird und somit nicht im Index landet. Denn wenn eine Domain viele Seiten mit dünnem Inhalt hat, führt das dazu, dass diese Seiten untereinander als Duplicate Content gelten. Da SEOs aber gerade im Agenturgeschäft das Interesse haben, Arbeitspläne und ToDos zu erstellen, macht es durchaus Sinn einen Blick auf den Thin Content zu werfen. Mit Hilfe der drei gewählten Metriken:

  • Wortanzahl

  • verschiedene Wörter

  • Content/Code Ratio

ermöglichen wir den Kunden die Analyse auf seinen speziellen Einzelfall hin zu optimieren (siehe obiges Beispiel anhand von unser eigenen Domain). Diese Vorgehensweise ist super flexibel und mit Kreativität kommt man zu genialen Einsichten – die kein Tool liefern könnte, was einfach nur sagt “Wenn eine Seite weniger als 400 Wörter hat, ist die Seite schlecht”.

Wir hoffen euch gefallen die neuen Reports und dass sie in eurer täglichen Arbeit helfen.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Veröffentlicht am Feb 19, 2015 von Editorial Team