« Zurück zur Übersicht

Wie funktionieren A/B-Tests wirklich?

Hast Du Dir diese Frage schon einmal gestellt? In diesem Artikel erklären wir die Wissenschaft hinter der Funktion. Mit der Veröffentlichung unseres SEO A/B-Tests möchten wir Dir einen datenbasierten Ansatz für SEO bieten, denn so kannst Du testen, ob Website-Änderungen tatsächlich einen Einfluss auf Deine Search Performance haben.

A/B-Tests in SEO funktionieren ein wenig anders als Standard-A/B-Tests, da man Google nicht sagen kann, dass es verschiedene Versionen derselben Seite in den Suchergebnissen anzeigen soll. Daher vergleichen wir die Vorhersage, wie sich ein KPI entwickeln würde, mit der tatsächlichen Veränderung und stellen so fest, ob es einen Unterschied gibt. Es gibt zwei gängige Möglichkeiten, das zu tun:

  1. Verwende einen Satz von Test-URLs und vergleiche deren KPIs vor und nach dem Test (“Within-Test”).

  2. Verwende einen Satz von Test-URLs und vergleiche deren KPIs mit einer Kontrollgruppe von URLs, die so ähnlich wie möglich sind (“Between-Test”).

Wir haben uns für den zweiten Ansatz entschieden, da der erste Ansatz stark von der Menge der Vergangenheitsdaten abhängt, die für die Testgruppe zur Verfügung stehen, und sehr stark von zeitlichen Faktoren (Trend, Jahreszeit) abhängig ist. Der “Between-Test” Ansatz auf der anderen Seite, benötigt nicht so viele Daten (idealerweise stehen 30 Tage Daten vor dem Datum der Änderung zur Verfügung), sondern benötigt nur eine Reihe von URLs, die denjenigen der Testgruppe ähnlich sind. Diese Kontrollgruppe darf nicht die A/B-Veränderung der Testgruppe aufweisen und dient als "Basislinie" für die Kennzahl. Für beide Gruppen (Test und Kontrolle) wird die durchschnittliche Veränderung berechnet und anschließend verglichen. Wenn es z. B. in der Kontrollgruppe einen Anstieg um 10 % gab, hätten wir auch in der Testgruppe einen Anstieg um 10 % erwartet, wenn die Änderungen keinen Einfluss auf den KPI haben. Wenn es einen Unterschied zwischen den beiden Gruppen gibt, sehen wir dies als die Auswirkung der Änderung, die an der Testgruppe der URLs vorgenommen wurde. Aber wie werden die Durchschnittswerte für die verschiedenen KPIs berechnet?

Die Berechnung für Click-Through-Rate (CTR) und Position ist sehr simpel. Die CTR ist die Anzahl der gesamten Klicks geteilt durch die Anzahl der gesamten Impressionen über alle Seiten p im Segment S:

(1)

Für die Position nimmt man den gewichteten Durchschnitt der Positionen aller Seiten über alle Tage. Als “Gewichte” werden die Impressionen verwendet.

(2)

(3)

Die Stichprobengröße ist in beiden Fällen die Gesamtzahl der Impressionen.

Die Standardabweichung im Fall der CTR wird berechnet als:

(4)

Für die Position wird die Standardabweichung wie folgt berechnet:

(5)

Für Impressionen und Klicks berücksichtigen wir jede Seite in einem Segment und nutzen die Summe der Impressionen/Klicks pro Tag als Datenpunkte. Wenn zum Beispiel 10 Seiten in einer Gruppe und 7 Tage Daten für jede Seite vorliegen, erhalten wir 10 * 7 = 70 Datenpunkte. Der Durchschnitt (und die Standardabweichung) kann dann über alle diese Datenpunkte berechnet werden.

Wir verwenden für unsere Berechnungen einen “Welch's t-Test”, der ein üblicher statistischer Test für Anwendungsfälle ist, bei denen entweder die Standardabweichungen der Verteilungen oder die Stichprobengröße beider Gruppen (oder beides) nicht gleich sind.

Bei der Vorhersage der notwendigen Stichprobengröße streben wir eine statistische Trennschärfe von 80% und eine 95%ige Signifikanz an. Wir gehen davon aus, dass der minimal nachweisbare Effekt 10% beträgt. Änderungen, die kleiner als 10% sind, können also mit diesem Ansatz nicht erkannt werden. Wir haben uns für diesen Schwellenwert entschieden, weil er einerseits nicht zu einer zu großen benötigten Stichprobengröße führt. Andererseits können kleinere Veränderungen auch durch andere Faktoren oder Zufälligkeiten verursacht werden. Je größer der Effekt ist, desto unwahrscheinlicher ist es, dass ein anderer Faktor zu den Veränderungen geführt hat.

Wenn der tatsächliche Anstieg höher als 10% ist, wird der reale Anstieg als Einflussgröße gewählt, um die erforderliche Stichprobengröße zu berechnen. Sobald wir genügend Daten gesammelt haben, verwenden wir den Welch's t-Test, um den p-Wert zu berechnen. Der Test ist signifikant, wenn der p-Wert kleiner als  5% ist, da wir ein Signifikanzniveau von 95% verwenden.

Kurz gesagt: Unser A/B-Test Feature sagt vorher, wie Deine KPIs abgeschnitten hätten, wenn keine Änderung vorgenommen worden wäre. Diese Vorhersagen basieren auf einem selbstähnlichen Set von URLs, der sogenannten Kontrollgruppe, die der Testgruppe so ähnlich wie möglich sein sollte. Ergebnisse werden dann anhand der Änderungen in der Kontrollgruppe erhoben. Der Vorteil dieses Ansatzes ist, dass keine mehrmonatigen Daten benötigt werden und dass Faktoren wie Saisonalität die Ergebnisse nicht beeinflussen, da sie auch in der Kontrollgruppe vorhanden sind.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Veröffentlicht am May 21, 2021 von Editorial Team