In den benutzerdefinierten Einstellungen kannst Du dem OnPage.org Crawler gewisse Vorgehensweisen erlauben oder verbieten. Wie es geht, zeigen wir in diesem Beitrag.
OnPage.org hat einen eigenen Crawler, der die zu analysierende Seite überprüft. Die Crawling-Technologie ähnelt sehr der Technologie, mit der Google die Webseiten im Internet überprüft. Der OnPage.org Crawler startet bei einer bestimmten Seite (in der Regel der Startseite) und hangelt sich von Seite zu Seite durch, indem er den internen Links folgt.
Wie auch der Google Crawler, kann der OnPage.org Crawler gesteuert werden. Es ist also möglich, dem Crawler mitzuteilen, welche Verzeichnisse ausgeschlossen oder welche Seiten nicht gecrawlt (und somit auch nicht analysiert) werden sollen. Auch Subdomains können differenziert betrachtet werden.
Folgende Vorteile bringen die benutzerdefinierten Einstellungen des OnPage.org Crawlers mit sich:
Die Crawler-Einstellungen teilen sich in vier Kategorien (Reiter) auf: Crawls, Grundeinstellungen, erweiterte Einstellungen und Einstellungen testen. Man findet diese in dem Navigationspunkt “Einstellungen” innerhalb eines ausgewählten Projektes, daher lassen Sie sich individuell für jedes einzelne Projekt neu anpassen. Schauen wir uns die Einstellungen am besten genauer an.
In der Kategorie “Crawls” siehst Du die bisher durchgeführten Crawls eines Projektes und wer diese angestoßen hat. Dabei wird das Crawling Limit, (Infos zur Erhöhung des Crawl-Budgets), sowie die Anzahl gefundener URLs, die Anzahl gecrawlter URLs und die Anzahl ignorierter URLs, wie von Dir eingestellt, tabellarisch angezeigt.
Tipp: Ist die Anzahl gefundener URLs deutlich höher, als die Anzahl gecrawlter URLs, ist es ratsam, das Crawling Limit zu erhöhen, damit alle wichtigen Seiten erfasst werden können. Achte auch darauf, dass die Anzahl ignorierter URLs nicht zu hoch ist, dies könnte ein Indiz für falsche robots.txt-Einstellungen sein.
In den Grundeinstellungen kannst Du einige Anpassungen vornehmen. Lass uns diese nach und nach durchgehen.
Hier kannst Du das Limit festlegen, wieviel URLs maximal gecrawlt werden sollen. Wenn Du am Anfang nicht weißt, wieviele URLs Deine Seite hat, versuchs mit der site-Abfrage von Google. “site: www.onpage.org” Die Anzahl, die oben erscheint, gibt dir Auskunft darüber, wieviele Seiten Google von der Domain im Index hat. Daran kannst Du Dich orientieren. Der OnPage.org Crawler kann zwischen 100 und 21.000.000 URLs crawlen.
Gib am besten hier die URL ein, wo der Crawler starten und die er als Startseite betrachten soll. Dies muss nicht die eigentliche Startseite sein. Solltest Du das nicht wollen, lass das Feld einfach leer.
Wenn Deine Webseite viele Cookies hat, dann kannst Du an dieser Stelle dem Crawler erlauben, Cookies anzunehmen. Standardmäßig ist diese Funktion deaktiviert, um Probleme aufzudecken, die entstehen, sobald ein User (oder andere Crawler) keine Cookies erlaubt - wie zum Beispiel Session IDs, Cloaking etc. Diese Fehler werden häufig übersehen, weil die Browser standardmäßig Cookies aktiviert haben. Es ist eine fortgeschrittene Option und sollte mit Bedacht aktiviert werden.
Der OnPage.org Crawler betrachtet Bilder als eigenständige Ressourcen und crawlt sie standardmäßig mit. Wenn Du lieber Ressourcen sparen möchtest und nur das Crawling von HTML-Inhalten erlauben willst, dann solltest Du das Häckchen entfernen. Allerdings werden z.B. fehlerhafte oder gelöschte Abbildungen in den Reports nicht angezeigt. Wir empfehlen die Bilder crawlen zu lassen, damit Du eine vollständige Fehleranalyse Deiner Webseite hast.
Wenn Deine Webseite viele Subdomains aufweist, kannst Du mit dem Anhaken dieses Feldes auch alle Subdomains crawlen. Standardmäßig ist diese Funktion deaktiviert, d.h. Subdomains werden nicht berücksichtigt und als externe Links gewertet.
Beachte bitte, dass das Crawling von Subdomains mehr Ressourcen benötigt.
Tipp: Du kannst auch als Startpunkt des Crawlings (siehe Punkt 2) eine Subdomain Adresse anlegen, dann startet der Crawler direkt mit der angegebenen Subdomain. Voraussetzung hierfür ist aber ein Häckchen in dieser Einstellung.
Du willst alle Analysen nur über die Seiten durchführen, die bei Google indexiert sind? Dann solltest Du hier ein Häckchen setzen. Dies empfehlen wir nicht unbedingt und deaktivieren es standardmäßig, da es vielleicht wichtige Seiten gibt, die noch nicht im Index sind. Außerdem kannst Du in den Reports den Filter “Nur indexierbare Seiten” setzen.
Dem OnPage.org Crawler kann man mitteilen, ob die robots.txt berücksichtigt werden soll oder nicht. Wenn Du also von Google bewusst Inhalte in der robots.txt ausschließt, kannst Du diese bei OnPage.org ebenfalls ausschließen. Wenn Du jedoch alle verfügbaren Inhalte haben möchtest, dann können auch alle Seiten gecrawlt werden.
Wenn Du Business-, Agency- oder Enterprise Kunde bist, kannst Du uns sogar Deine angepasste robots.txt mitteilen. Der Crawler kann dann die Seite mit Deinen Wunsch-robots.txt Einstellungen überprüfen. Dies ist für Relaunches sehr gut geeignet, da man das Crawlerverhalten von Google simulieren kann.
Melde Dich gleich bei OnPage.org an und überprüfe, ob alle Einstellungen bei Deinen Projekten richtig sind.
Im ersten Teil der Crawler-Einstellungen hast Du gelernt, dass es gute Möglichkeiten gibt, die robots.txt anzupassen und andere nützliche Einstellungen vorzunehmen. Im zweiten Teil widmen wir uns den erweiterten Einstellungen, um die Reports noch besser auf Deine Bedürfnisse zu individualisieren.
Keep on optimizing!
Veröffentlicht am 24.02.2015 von Irina Hey.
Who writes here
Irina Hey ist Keynote Speaker und Expertin im Bereich Customer Acquisition, Lead Generierung und Data Driven Marketing. Sie war bis April 2018 Product Owner User Acquisitions und koordinierte alle strategischen Marketing-Aktivitäten bei Ryte.
Du interessierst Dich für Themen rund um digitales Marketing? Sichere Dir jetzt Vorteile und bleibe mit unserem Newsletter up-to-date!
Ja, ich möchte InsightsWillst Du mehr SEO Traffic generieren?
Ryte FREE hilft dabei.
Analysiere jetzt Deine Website!