Alles über die Analyse-Einstellungen

Die Analyse Deiner Website mit Ryte ist sehr vollständig und kann bis ins kleinste Detail angepasst werden. Wir zeigen Dir, wie es geht!

Aus der Analyse der Webseite leiten sich alle notwendigen Optimierungsmaßnahmen ab. Deshalb ist es besonders wichtig, die Analyse der Webseite korrekt zu konfigurieren. Ryte bietet die Möglichkeit mit vielen verschiedenen Einstellungen die Überprüfung der Webseite noch zielgerechter zu gestalten. Schließlich möchte man anschließend effizient mit den Ergebnissen arbeiten.

Die Praxis zeigt, dass verschiedene Zielgruppen unterschiedliche Anforderungen an einen Crawl haben. Hier sind drei häufige Anwendungsfälle, die verdeutlichen, wie wichtig es ist, die Projekt-Einstellungen an die Anforderungen anzupassen.

Anwendungsfall 1: Optimierung der kompletten Webseite

Ein Webseitenbetreiber einer kleineren Webseite möchte die komplette Webseite inklusive aller Subdomains überprüfen.

Anforderungen an den Crawl: Die komplette Webseite und alle Subdomains sollen erfasst und analysiert werden.

Anwendungsfall 2: Optimierung eines bestimmten Bereiches einer Webseite.

Ein SEO Manager ist innerhalb eines größeren Unternehmens für die Optimierungsmaßnahmen eines bestimmten Verzeichnisses zuständig und möchte überprüfen ob alle Seiten des Verzeichnisses in der dazugehörigen Sitemap.xml hinterlegt sind.

Anforderungen an die Analyse: Es soll nur ein bestimmtes Verzeichnis erfasst werden. Eine Auswertung der kompletten Seite würden zusätzlichen Aufwand bei der Identifikation der relevanten Potentiale bedeuten.

Anwendungsfall 3: Relaunch.

Der Relaunch einer Webseite steht bevor und man möchte sie vor dem Launch auf Fehler und Performance hin überprüfen.

Anforderungen an den Crawl: Die Überprüfung der Webseite und deren Performance unter Last trotz htaccess Passwortschutz.

Mit Hilfe der Projekt-Einstellungen können dem Crawler präzise Anweisungen zum Crawl der Webseite gegeben und alle Anwendungsfälle problemlos abgebildet werden. Welche Anpassungen möglich sind und wie diese passend für die jeweiligen Bedürfnisse angewendet werden können, zeigt die detaillierte Vorstellung der einzelnen Einstellungsmöglichkeiten.

In die Projekt-Einstellungen gelangt man vom Dashboard aus über den gleichnamigen Button (rechts oben).

Anzahl analysierter URLs

Im Reiter "Was analysiert wird" wird definiert, wie viele URLs der Webseite erfasst werden sollen. Neben den HTML Dokumenten einer Webseite werden auch Bild-, CSS- und JavaScript-Dateien als URL gezählt. Deshalb sollte man grundsätzlich mehr URLs zum Analyse einstellen, als die Anzahl der HTML Dokumente der Webseite.

Das URL Budget kann beim Crawl nicht "verbraucht" werden. Man kann bei jedem Crawl immer ans Limit gehen, und das beliebig oft.

Parallele Anfragen

Mit Hilfe der parallelen Anfragen wird bestimmt, wie viele Anfragen der Crawler an die Webseite schicken darf. Diese sind gleichzusetzen mit simulierten Besuchern. Hat man beispielsweise eine sehr große Webseite, ist es ratsam die Anzahl der parallelen Anfragen zu erhöhen, um die Analyse-Dauer zu reduzieren.

Abbildung 2: Parallele Anfragen definieren

Tipp: Wir empfehlen Server-Last-Tests immer mit der Technik abzusprechen, damit es zu keinen unerwünschten Server-Ausfällen kommt.

.htaccess Login Daten

Die Überprüfung einer Webseite, die sich noch auf einer Testumgebung befindet, stellt für den Rytebot kein Hindernis dar. Im Reiter "Wie analysiert wird" können die Login Daten für den Bot hinterlegt werden. Dadurch kann die Webseite bereits vor dem finalen Launch überprüft werden und eventuelle Probleme können noch behoben werden.

Abbildung 3: Login Daten für passwortgeschütze Webseiten hinterlegen

Robots.txt Handhabung

Über die robots.txt Datei der Webseite werden Suchmaschinen Bots gezielt gesteuert. Unter der Option "Robots.txt Handhabung" im Reiter "wie gecrawlt wird" kann festegelegt werden, wie der Ryte Crawler die robots.txt Datei der Webseite behandeln soll.

Abbildung 4: Robots.txt Handhabung in den Projekt-Einstellungen

Dabei gibt es folgende Auswahlmöglichkeiten:

Robots.txt befolgen: Der Rytebot erfasst dann nur die Seiten, die über die robots.txt erlaubt sind.
Robots.txt nicht befolgen: Der Rytebot erfasst dann alle Seiten, überprüft aber anschließend, ob Seiten über die robots.txt ausgesperrt sind.

Für Nutzer, ab der Basic Suite oder höher, gibt es zusätzlich die Möglichkeit eine individuelle robots.txt Datei zu hinterlegen. Diese gilt ausschließlich für den Rytebot und wird anstelle der robots.txt Datei der Webseite befolgt. Besonders vorteilhaft ist diese Funktion, wenn eine Anpassung der robots.txt kurzfristig nicht möglich ist oder neue Anweisungen der robots.txt getestet werden sollen.

Abbildung 5: Möglichkeiten für robots.txt Handhabung

Homepage URL

Die Homepage URL bestimmt den Startpunkt des Ryte Crawlers. Standardmäßig startet der Bot auf der Homepage Deiner Webseite und folgt von dort aus der internen Verlinkung der Webseite. Jede beliebige URL der Webseite kann als Homepage URL eingetragen werden.
Beispielsweise ist es sinnvoll, die Homepage URL https://www.domain.de/ zu verwenden, wenn die Webseite von http auf https umgezogen wurde. Eine Anpassung der Homepage URL kann zwingend notwendig sein, wenn die Analyse der Webseite auf einen bestimmten Bereich beschränkt wird.

Abbildung 6: Homepage URL eintragen

Unterverzeichnis Crawling

Diese Funktion ist besonders sinnvoll, wenn ein einzelnes Verzeichnis der Webseite gezielt optimiert werden soll. Ein Crawl der kompletten Webseite würde mehr Aufwand verursachen, weil er neben den benötigten Informationen eine Vielzahl an irrelevanten Informationen anzeigen würde. Diese können sich beispielsweise auf andere Verzeichnisse beziehen und haben für die Optimierung des relevanten Verzeichnisses geringe Bedeutung. Um die Arbeit so effizient wie möglich zu gestalten, kann man im Reiter "Was gecrawlt wird" unter der Option "Unterverzeichnis Modus" das gewünschte Verzeichnis (z.B. /kategorie) festlegen.

Weiterer Vorteil: Durch das Beschränken des Crawls auf das relevante Verzeichnis reduziert sich die Analyse-Dauer und es kann schneller mit der Auswertung begonnen werden.

Abbildung 7: Unterverzeichnis Modus aktivieren

Wichtig beim Unterverzeichnis-Crawling zu beachten ist, dass auch die Homepage URL angepasst werden muss.

Beispiel: Man legt im Unterverzeichnis-Modus das Verzeichnis "versicherungen" an. Dann muss die Homepage URL auf jeden Fall in diesem Verzeichnis beinhaltet sein.

Mögliche korrekte Varianten der Homepage URL wären:

https://www.domain.de/versicherungen/ oder
https://www.domain.de/versicherungen/privatkunden/.

Subdomains

Für die Analyse der Domain mag die Überprüfung der Subdomains vielleicht eine eher kleine Rolle spielen. Man sollte aber das gesamte Konstrukt der Webseite im Auge behalten. Gerade bei kleineren Webseiten bietet sich die Analyse der Webseite inklusive der Subdomains an. Wenn eine bestimmte Subdomain überprüft werden soll, dann kann diese natürlich auch als eigenständiges Projekt angelegt werden. In diesem Fall sollte die Subdomain-Analyse aktiviert werden um den Crawl ausschließlich auf die gewünschte Subdomain zu beschränken.

Sitemaps.xml

Standardmäßig überprüft der Rytebot die Sitemap.xml der Webseite die unter dem Standardpfad www.domain.de/sitemap.xml hinterlegt ist. Häufig wird die Sitemap.xml-Datei der Webseite unter einer anderen URL verwendet, damit Wettbewerber die Sitemap nicht einsehen können. Die erweiterte Analyse ermöglicht es, jede beliebige URL als Sitemap.xml-Pfad zu hinterlegen. Unter dem Punkt "Sitemap URLs", den man im Reiter "was analysiert wird" findet, können auch mehrere URLs der Sitemaps hinterlegt werden.

Abbildung 8: Sitemap.xml URLs eintragen

Wahlweise kann die Sitemap-Analyse deaktiviert werden. Dennoch ist die Überprüfung der Sitemap stets zu empfehlen, denn so können schnell und einfach URLs gefunden werden, welche noch nicht in der Sitemap enthalten sind.

Zusätzlich kann unter der Option "Sitemaps auswerten" festgelegt werden, ob die Sitemap.xml Datei heruntergeladen und deren Inhalte analysiert werden sollen. Dieses Vorgehen hat einen großen Vorteil: Man findet heraus, ob es Seiten gibt, die zwar in der Sitemap.xml enthalten, aber über die interne Linkstruktur der Webseite nicht erreichbar sind.

URLs ignorieren

Diese Funktion ist ähnlich einer Blacklist und bietet die Möglichkeit, URLs von der Analyse auszuschließen. Dabei können ganze Verzeichnisse, Parameter oder einzelne Seiten vom Crawl exkludiert werden. Anders herum kann die Funktion auch genutzt werden um die Analyse auf definierte Seiten zu beschränken. Auch RegEx-Regeln können hier angewendet werden. Mit Hilfe dieser Funktion können die zu analysierenden Daten komplett individuell zusammengestellt werden.

Sobald man den Crawl durch die Einstellungen auf bestimmte Bereich der Webseite eingrenzt, muss auch die Homepage URL angepasst werden.
Es sollte eine Homepage URL gewählt werden, die vom Crawler erfasst und analysiert werden darf.

Achtung: Alle Änderungen innerhalb der Analyse-Einstellungen greifen immer erst für die darauf folgende Analyse.

Einstellungen testen

Ein hilfreicher Tipp, der beachtet werden sollte, bevor eine neue Analyse gestartet wird, ist das Testen der ausgewählten Analyse-Einstellungen.

Nichts ist enttäuschender, als auf Analyse-Ergebnisse zu warten, die dann nicht die gewünschten Seiten überprüft haben.

Zur Überprüfung reicht ein Klick auf den Reiter "Einstellungen testen", dann wird die festgelegte Homepage URL mit den ausgewählten Einstellungen überprüft.

Hier gibt es einige Kriterien zu beachten:

Status Code der Webseite: Soll-Ergebnis 200.
Weicht das Ergebnis ab, sollte man die hinterlegte Homepage-URL überprüfen und gegebenenfalls anpassen. Es muss sicher gestellt werden, dass die Homepage-URL durch keine Einstellung vom Crawl selbst ausgeschlossen ist.

Im Projekt beinhaltet: Soll-Ergebnis: Grüner Haken.
Erscheint ein rotes X-Symbol bedeutet es, dass die hinterlegte Homepage URL nicht mit der Domain des Projektes übereinstimmt. Man sollte die Homepage-URL überprüfen und sie gegebenenfalls anpassen. Eventuell muss auch das Projekt angepasst werden. Dann kann das bestehende Projekt gelöscht oder ein neues Projekt mit der gewünschten Domain hinzugefügt werden.

Lokale Links: Soll Ergebnis: Liste der internen Links der Seite.
Wird hier der Hinweis "keine" angezeigt, dann besitzt die Seite entweder keine internen Links oder eines der darüber genannten Kriterien wird nicht erfüllt. Korrigiere die Homepage-URL oder überprüfe die internen Links der Seite.

Werden alle drei Kriterien erfüllt, kann man sich sicher sein, dass der Crawl erfolgreich verlaufen wird und anschließend die gewünschten Ergebnisse präsentiert werden.

Abbildung 9: Einstellungen testen - Entscheidende Kriterien für einen erfolgreichen Crawl

Zeitpunkt für den Crawl festlegen

Eine regelmäßige und konstante Überprüfung der Webseite ist das A und O aller Optimierungsmaßnahmen. Man hat die Möglichkeit, ein festes Intervall für Crawls festzulegen. Über E-Mail Benachrichtigungen verpasst man keine neuen Crawling Resultate.

Abbildung 10: Zeitliche Abstände für einen regelmäßigen automatischen Crawl einstellen

Fazit

Die richtigen Crawler-Einstellungen ersparen Zeit und Aufwand. Durch gezieltes Konfigurieren des Crawlers wird die Crawling-Zeit verringert und man kann sich sicher sein, dass der Crawl die gewünschten Bereiche der Webseite erfasst und analylsiert.
Man sollte immer daran denken, die Einstellungen zu testen und die Webseite in regelmäßigen Abständen zu überprüfen.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Demo buchen

Veröffentlicht am Feb 19, 2019 von Eduard Kunoff

Eduard Kunoff

Eduard war bis 2016 Superhero im Business Development bei Ryte. Er liebt große Datenmengen und komplexe Prozesse. Dank seiner analytischen Fähigkeiten verbesserte er erfolgreich das CRM-System. Abseits der Arbeit ist er ein großer Fußballfan - vor allem ein schwarz-gelber Verein hat es ihm besonders angetan, wodurch er jeden Tag sein Leben in der bayerischen Hauptstadt riskiert.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Demo buchen