« Zurück zum Magazine

Hands-on Tipps: PDFs optimal für die eigene SEO Strategie nutzen

PDF Dokumente bieten im Vergleich zu anderen Dokumententypen einen großen Vorteil: Sie erscheinen auf jedem Endgerät exakt identisch.

Sobald die PDF Datei erstellt ist, sitzt jedes Element (Überschrift, Bilder, Texte) immer an der gleichen Position. Dabei spielt es keine Rolle, aus welchem Format das PDF heraus generiert wird. In diesem Artikel bekommst Du Tipps zum Umgang mit PDFs und lernst, wie Du diese für Deine SEO Strategie am besten nutzen kannst.

Wie geht Google mit PDFs um?

Bei hochkompetitiven Keywords erscheinen PDFs eher selten in den TOP10 Suchergebnissen. Technisch gesehen unterscheidet Google jedoch nicht zwischen einer HTML Seite und einem PDF Dokument. Der Fokus der Suchmaschine liegt stattdessen darauf, dem User das beste Suchergebnis zu präsentieren.

Texte: Google kann PDFs in jeder Sprache oder Zeichenkodierung indexieren, vorausgesetzt das Dokument ist nicht passwortgeschützt oder verschlüsselt. Texte, die als Bilder implementiert sind, werden teilweise mit Hilfe von OCR-Algorithmen bearbeitet und entsprechend "gelesen". Ob ein Text in einem PDF ohne größeren Aufwand von Google gelesen werden kann, lässt sich mit einem simplen Test herausfinden: Wenn der Text per Copy&Paste aus dem PDF kopiert werden kann, gelingt es auch Google den Text zu lesen und zu verstehen.

Bilder: Bilder aus PDFs eigenen sich nicht für die klassische Google Bildersuche. Möchte man mit den Bildern aus dem PDF gefunden werden, empfiehlt es sich, eine klassische HTML Seite zu erstellen.

Links: PDFs können wie HTML Dokumente ebenfalls Links enthalten. Analog zur HTML Version können die Links in PDFs Linkpower vererben. Dies wurde vor kurzem mit einem Statement von Gary Illyes bestätigt:

Abbildung 1: Links in PDFs geben Linkpower weiter

Achtung: Behalte beim Umgang mit PDFs stets im Hinterkopf, dass PDF Aufrufe von Tracking Lösungen wie zum Beispiel Google Analytics nicht erfasst werden. Es ist daher möglich, dass ein PDF viele Besucher anzieht, aber dieser Traffic nicht entsprechend genutzt wird.

Um Potentiale und Schwachstellen zu identifizieren, empfiehlt sich eine Logfile Analyse um Aufrufe von nicht-HTML Dateien untersuchen zu können. Logfile Analysen eigenen sich übrigens auch gut zur Untersuchung von Crawler Aktivitäten anhand des UserAgents.

PDFs richtig einsetzen

Aus Suchmaschinensicht sind PDFs ein zweischneidiges Thema. Einerseits können PDFs wie auch andere Dokumententypen in den Suchergebnissen gelistet werden. Andererseits bieten sie dem User keine Navigation oder andere Interaktionselemente mit der Seite.

Darum ist es wichtig, sich Gedanken darüber zu machen, welche Rolle PDFs in der eigenen SEO Strategie spielen. Die wichtigste Frage dabei sollte lauten: "Kann ein PDF die Erwartungshaltung eines Suchmaschinenbesuchers erfüllen?"

Option 1:

PDFs, die nicht als Landingpage dienen, aus dem Index ausschließen

Besteht die Annahme, dass ein indexierbares PDF den Informationsbedarf eines Users nicht erfüllen kann, sollte man sicherstellen, dass das entsprechende PDF aus dem Suchmaschinenindex ausgeschlossen wird.

Die einfachste Methode, PDFs aus dem Index fernzuhalten, ist die Verwendung eines x-robots im HTTP Header. Über diesen kann entweder ein noindex oder ein Canonical-Tag ausgespielt werden. Während das noindex der Suchmaschine lediglich die Information liefert, dass der Inhalt nicht in den Index gehört, kann man mit Hilfe des Canonical-Tags auf eine HTML Version des PDFs verweisen.

Use-Case: Welche Lösung ist die richtige für mich?

Angenommen man verwendet für diese PDFs ein noindex im HTTP Header, würde man Linkpower verschwenden und es würden nur die URLs davon profitieren, die aus dem PDF heraus verlinkt worden sind. Die Verwendung des Canonical-Tags bietet sich besonders bei PDFs an, die in der Vergangenheit viele Backlinks generiert haben. Der Canonical-Tag gibt die gesamte Linkpower an die entsprechende Landingpage weiter, auf die er verweist. Das PDF würde aus dem Index verschwinden und die passende Landingpage würde an seiner Stelle in den Suchergebnissen erscheinen.

ebook-landing-page

Abbildung 2: Beispiel einer Landingpage anstelle eines PDFs

Don’ts:

  • PDFs via Robotos.txt sperren – PDFs werden trotzdem indexiert und die eingehende Linkpower verpufft.

  • PDF Version einer Seite – manche CMS bieten standardmäßig eine PDF Version aller HTML Seiten an. Die Verwendung eines Canonical-Tags würde das Indexierungsproblem lösen, dennoch müssten Suchmaschinen die PDFs immer wieder crawlen und so kostbare Crawler Ressourcen verschwenden.

Indexierbare PDFs identifizieren

Um mit OnPage.org Zoom schnell indexierbare PDFs zu identifizieren, reichen wenige Klicks. Dazu kann man einfach im Report "Indexierbarkeit" → "Was ist indexierbar?" den Filter "Indexierbar" aktivieren (1) und auf den Mime-Type (2) "PDF" klicken.

pdf-indexierbarkeit

Abbildung 3: Nur indexierbare PDFs anzeigen lassen

Sind die Filter aktiviert, werden alle PDFs, die beim Crawl gefunden wurden in der darunter stehenden Tabelle aufgelistet.

pdf-liste

Abbildung 4: Liste aller indexierbaren PDFs

Eine Liste aller bereits im Google Index enthaltenen PDF Dokumente erhält man mit der Kombination aus den Such-Operatoren filetype:pdf und site:domain.tld:

Abbildung 5: Liste aller PDFs die sich bereits im Google Index befinden

Option 2:

Indexierbarkeit indexrelevanter PDFs sicherstellen

In einigen Fällen kann es durchaus einen Mehrwert für User bieten, PDFs für den Google Index bereitzustellen. Dies ist besonders dann sinnvoll, wenn es sich um PDFs handelt, die einen bestimmten Informationsbedarf der User stillen, der User aber keinen Interaktionsbedarf mit der Webseite an sich hat.

Ein gutes Beispiel sind Pläne öffentlicher Verkehrsmittelnetze, wie das Münchner S- und U-Bahnnetz. Ziel des Users ist es, schnelle Informationen zu erhalten, das PDF herunterzuladen und auf dem mobilen Endgerät zu speichern, ohne mit der Webseite zu interagieren.

Abbildung 6: Beispiel eines landingpagegeeigneten PDFs im Suchmaschineenindex

Abbildung 7: Netzplan Innenraum München als PDF

Damit ein PDF im Suchmaschinenindex erscheinen kann, ist die wichtigste Voraussetzung die Indexierbarkeit des Dokuments.

Kriterien für Indexierbarkeit

  • HTTP Status-Code ist 200ok

  • Meta-Robots darf nicht NoIndex sein

  • Canonical-Tag, falls vorhanden, darf nicht auf eine andere URL verweisen

Trifft mindestens eines dieser Kriterien nicht zu, kann das Dokument nicht indexiert werden.

Nicht indexierbare PDFs können mithilfe von OnPage.org Zoom in wenigen Schritten identifiziert werden. Dafür kann man einfach im Report "Indexierbarkeit" → "Was ist indexierbar" den Dokumententyp "PDF" auswählen. Anschließend kann man sich über den Graphen eine Liste der nicht indexierbaren PDFs und der Ursachen dafür ausgeben lassen. (Beispielsweise alle PDFs, die mit Meta Robots Tag "noindex" gekennzeichnet sind.)

Tipp: Indexierbare PDFs sollten stets einen Link auf die entsprechende Landingpage der Webseite enthalten. So bietet man dem User die Möglichkeit sich schnell zur Webseite zu navigieren.

Fazit

PDFs können genauso wie HTML Seiten in den Suchergebnissen gelistet werden. Aber nicht alle PDF Dokumente sind gleichzeitig als Landingspages geeignet. Daher sollte man sich gründlich überlegen, welche Rolle PDFs in der eigenen SEO Strategie übernehmen und wie diese den maximalen Nutzen bringen. Für nicht landingpagegeeignete PDFs mit viel eingehender Linkpower empfiehlt es sich über das x-robots Element im HTTP Header auf eine entsprechende Landingpage zu verweisen. Für indexrelevante PDFs sollte man sicherstellen, dass diese alle Kriterien zur Indexierung erfüllen.

Vereinfache Dein digitales Marketing mit nur einem Tool – der Ryte Software Suite

Veröffentlicht am Jul 28, 2016 von Stephan Walcher