Regressionsanalyse


Die Regressionsanalyse ist ein statistisches Verfahren zur Modellierung von Beziehungen zwischen unterschiedlichen Variablen (abhängige und unabhängige). Sie wird einerseits verwendet, um Zusammenhänge in Daten zu beschreiben und zu analysieren. Andererseits lassen sich mit Regressionsanalysen auch Vorhersagen machen, wobei eine Prognose die Zusammenhänge in den Daten als Grundlage nutzt und im Rahmen eines Vorhersagemodells erzeugt wird. Regressions- und Korrelationsanalysen werden zu den multivariaten Analysemethoden gezählt und in vielen verschiedenen Bereichen eingesetzt: Wissenschaft, Statistik, Finanzwesen und mittlerweile auch im Online Marketing, um beispielsweise die Kosten und Umsätze von Produkten, Kampagnen, Kanälen und Werbemitteln zu analysieren und teils vorherzusagen.

Allgemeine Informationen zum Thema[Bearbeiten]

Regression ist zweifellos kein neues Thema: Die damit verbundenen mathematischen Instrumente wurden schon benutzt, um die Planetenlaufbahnen mit Daten aus astronomischen Beobachtungen zu bestimmen. Die Methode der kleinsten Quadrate wurde von Carl Friedrich Gauß 1809 veröffentlicht, nachdem Adrien-Marie Legendre und andere Mathematiker die theoretischen Grundlagen schufen. Diese Methode gilt als Vorläufer für die Regressionsanalyse. Die Instrumente wurden weiterentwickelt und zunächst in Biologie und Geologie eingesetzt. Nach wie vor sind Regressionsverfahren ein Forschungsgebiet, das viele unterschiedliche Wissenschaftler beschäftigt.

Funktionsweise[Bearbeiten]

Eine Regression basiert auf der Idee, dass eine abhängige Variable durch eine oder mehrere unabhängige Variablen bestimmt ist.[1] Wird angenommen, dass es einen kausalen Zusammenhang zwischen beiden Variablen gibt, beeinflusst der Wert der unabhängigen Variable den Wert der abhängigen Variable. Ein Beispiel: Möchte man herausfinden, inwiefern sich die Werbeinvestments auf die Umsätze auswirken, würde man die Regressionsanalyse dazu verwenden, die Beziehung zwischen den Investments und den Umsätzen zu untersuchen. Wenn dieser Zusammenhang klar ist, kann er zur Erstellung einer Prognose dienen.[2]

Regressionsanalysen haben demnach zwei zentrale Ziele. Sie sollen:

  • Zusammenhänge quantifizieren und anhand von Messwerten und deren grafischer Darstellung beschreiben.
  • Prognosen und Vorhersagen ermöglichen.

Verschiedene Regressionsanalysen in der Übersicht:

  • Einfache Regression: Zur Erklärung der abhängigen Variable wird nur eine erklärende Variable verwendet.
  • Multiple Regression: Mehrere erklärende Variablen stehen mit einer abhängigen Variable in Verbindung.
  • Lineare Regression: Zwischen mehreren erklärenden und mehreren abhängigen Variablen besteht ein linearer Zusammenhang. Man spricht auch von Parametern, die linear sind, und eine Struktur ergeben.
  • Nicht lineare Regression: Wenn keine linearen Zusammenhänge zwischen abhängigen und unabhängigen Variablen bestehen, wird von nicht linearer Regression gesprochen. Diese Modelle können sehr komplex sein, da die Zusammenhänge zwischen den Variablen nicht mit einfachen mathematischen Mitteln abzubilden sind.

Es existieren zwar verschiedene Regressionsverfahren, aber die Struktur dieser Verfahren ist von den Schritten her häufig ähnlich:

  • Aufbereitung der Daten: Um Entwicklungen und Tendenzen von Variablen zu untersuchen, muss die Datenlage möglichst vollständig und exakt sein. Zur Prüfung der Daten werden zum Beispiel Überschlagsrechnungen und Plausibilitätskontrollen durchgeführt. Wenn Datensätze fehlen, können sogenannte Missing-Data-Techniken zum Einsatz kommen, was in der Statistik auch als Imputation bezeichnet wird. Falls die Daten und deren Zusammenhänge grafisch dargestellt werden sollen, kann dies bei der Aufbereitung ebenfalls beachtet werden. Einige Regressionsmodelle erfordern ganz spezielle Datenformate, in die diese erst überführt werden müssen. Dies ist zum Beispiel bei der linearen Regression der Fall, wo ein linearer Zusammenhang zwischen zwei Variablen vorausgesetzt wird.
  • Anpassung des Modells: Jedes Regressionsmodell arbeitet mit statistischen Fehlerkorrekturen, um eventuelle Abweichungen in den Griff zu bekommen. Dabei sind die Funktionen, die die Abweichungen reduzieren sollen, mitunter durch das Modell festgelegt. So ist es bei der linearen Regression auch eine lineare Funktion, die dazu verwendet wird, die Abweichungen zu behandeln. Hier werden Fehlerwerte und Annäherungen berechnet und von vorneherein in das Regressionsmodell integriert.
  • Validierung des verwendeten Modells: Nun wird geprüft, ob das Regressionsmodell den Zusammenhang zwischen unabhängigen und abhängigen Variablen beschreibt und wie gut diese Beschreibung ist. Statistiker verfügen über verschiedene Verfahren und Ansätze, um die Gültigkeit der eingesetzten Regressionsanalyse zu überprüfen. Zum Beispiel werden besonders einflussreiche Datenknoten analysiert, die sich auf den Zusammenhang der Variablen auswirken. Letztendlich soll eine Funktion diesen Zusammenhang beschreiben – ob die Funktion passt, muss jedoch im Regressionsverfahren herausgefunden werden.
  • Prognose von Werten: Wenn das Modell den Zusammenhang hinreichend beschreibt, kann es zu Prognosezwecken eingesetzt werden. Auch hier spielt Exaktheit wieder eine zentrale Rolle. Eventuelle Ungenauigkeiten der Prognosen werden berechnet oder geschätzt. Wenn Aussagen getroffen werden, die über die eigentlichen Datensätze hinausgehen, spricht man von Extrapolation. Bei Prognosen innerhalb der Datensätze wird von Interpolation gesprochen. Letztere ist weniger problematisch als die Extrapolation – hier müssen die gemachten Annahmen genau überprüft werden.

Entscheidend für den Nutzen einer Regressionsanalyse ist die Frage, inwieweit das Modell die tatsächlichen Daten und deren mögliche Zusammenhänge beschreibt. Ein wichtiges Problem ist einerseits die Wahl eines Modells und somit andererseits die Auswahl der erklärenden Variablen. Es sollen nur signifikante Zusammenhänge untersucht werden. Deshalb beinhaltet jede Regressionsanalyse unterschiedliche Ansätze zur Erhöhung der Exaktheit, zur Minimierung von Fehlern und zum Ausschluss von statistischen Ausreißern, die für das Untersuchungsobjekt nicht relevant sind. Aus diesen Gründen wird oft auch ein Vergleich von Modellen angestellt, der mit Kennzahlen wie dem Bestimmtheitsmaß oder allgemeiner dem Informationskriterium arbeitet.[3]

Bedeutung für das Online Marketing[Bearbeiten]

Regressionsanalysen werden werden im Online Marketing zum Beispiel dazu eingesetzt, um Kundenreisen anhand von Webanalyse-Daten zu verstehen oder das Multi-Channel-Marketing mit verlässlichen Daten zu unterstützen. In der Praxis sind solche Analysen zwar aufwendig und erfordern fachliches Know-how und Wissen. Aber die Resultate können je nach Modell sehr klar und greifbar sein: Wird zum Beispiel Attribution Modelling zur Prüfung von mehreren Kanälen wie Direct, Display, Affiliates, Social Media, Email oder Referral eingesetzt, können Regressionsanalysen deutlich aufzeigen, welche dieser Kanäle eine gute Balance zwischen Investments und Umsätzen aufweisen.[4] Auf Konzernniveau und mit speziellen Partnern, die derartige Analysen realisieren können, dürften die Ergebnisse überaus hilfreich sein und könnten den ROI einzelner digitaler Assets maßgeblich erhöhen.[5]

Einzelnachweise[Bearbeiten]

  1. Statistik-Lexikon: Definition Regression de.statista.com. Abgerufen am 15.11.2016
  2. TECHNIQUE #9: Regression Analysis marketingprofs.com. Abgerufen am 15.11.2016
  3. Statistik-Lexikon: Definition Regressionsanalyse de.statista.com. Abgerufen am 15.11.2016
  4. Dynamische Attribution bei Otto adzine.de. Abgerufen am 15.11.2016
  5. How To Use Regression Analysis To Estimate Incremental Revenue Opportunities searchengineland.com. Abgerufen am 15.11.2016

Weblinks[Bearbeiten]