Regressionsanalyse


Die Regressionsanalyse ist ein statistisches Verfahren zur Modellierung von Beziehungen zwischen unterschiedlichen Variablen (abhängige und unabhängige). Sie wird einerseits verwendet, um Zusammenhänge in Daten zu beschreiben und zu analysieren. Andererseits lassen sich mit Regressionsanalysen auch Vorhersagen treffen. Für Prognosen werden die Zusammenhänge in den Daten als Grundlage verwendet. Regressionsanalysen werden zu den multivariaten Analysemethoden gezählt und in vielen verschiedenen Bereichen eingesetzt: Wissenschaft, Statistik, Finanzwesen und mittlerweile auch im Online Marketing, um beispielsweise die Kosten und Umsätze von Produkten, Kampagnen, Kanälen und Werbemitteln zu analysieren und vorherzusagen.


Ursprünge der Regressionsanalyse

Die mit der Regression verbundenen mathematischen Instrumente wurden schon benutzt, um die Planetenlaufbahnen mit Daten aus astronomischen Beobachtungen zu bestimmen. Die Methode der kleinsten Quadrate, die 1809 von Carl Friedrich Gauß veröffentlicht wurde, gilt als Vorläufer für die Regressionsanalyse. Die Instrumente wurden weiterentwickelt und zunächst in Biologie und Geologie eingesetzt. Nach wie vor sind Regressionsverfahren ein Forschungsgebiet, das viele unterschiedliche Wissenschaftler beschäftigt.


Bedeutung im Online Marketing

Regressionsanalysen werden im Online Marketing zum Beispiel dazu eingesetzt, um Kundenreisen anhand von Webanalyse-Daten nachzuvollziehen oder das Multi-Channel-Marketing mit verlässlichen Daten zu unterstützen. In der Praxis sind solche Analysen zwar aufwendig und erfordern fachliches Know-how. Aber die Resultate können je nach Modell sehr klar und greifbar sein:

Wird zum Beispiel Attribution Modelling zur Prüfung mehrerer Kanäle wie Direct, Display, Affiliates, Social Media, Email oder Referral eingesetzt, können Regressionsanalysen deutlich aufzeigen, welche dieser Kanäle eine gute Balance zwischen Investments und Umsätzen aufweisen.[1]. Auf Konzernniveau und mit speziellen Partnern, die derartige Analysen realisieren können, dürften die Ergebnisse überaus hilfreich sein und könnten den ROI einzelner digitaler Assets maßgeblich erhöhen.[2].

Um die Ergebnisse von Regressionsanalysen greifbar zu machen, werden meist sogenannte „Marketing-Decision-Support-Systeme“ entwickelt. Sie ermöglichen es, die Erkenntnisse aus der Regressionsfunktion direkt in Marketing-Entscheidungen einfließen zu lassen. Hierzu gehören Entscheidungen wie eine Erhöhung des Werbebudgets, Umstrukturierung von Werbeanzeigen oder die Anpassung des Produktsortiments.


Funktionsweise

Eine Regression basiert auf der Idee, dass eine abhängige Variable durch eine oder mehrere unabhängige Variablen bestimmt ist.[3]. Wird angenommen, dass es einen kausalen Zusammenhang zwischen beiden Variablen gibt, beeinflusst der Wert der unabhängigen Variable den Wert der abhängigen Variable. Auf dieser Basis kann eine Regressionsfunktion erstellt werden. In einer Regressionsfunktion spielen dabei Regressionskoeffizienten eine Rolle, die als Ergebnis eine Regressionsgerade haben.

Ein Beispiel: Möchte man herausfinden, inwiefern sich Werbeinvestments auf die Umsätze auswirken, würde man mittels einer Regressionsanalyse die Beziehung zwischen den Investments und den Umsätzen untersuchen. Wenn dieser Zusammenhang klar ist, kann er zur Erstellung einer Prognose dienen.[4].

Regressionsanalysen haben demnach zwei zentrale Ziele. Sie sollen:

  • Zusammenhänge quantifizieren und anhand von Messwerten und deren grafischer Darstellung beschreiben.
  • Prognosen und Vorhersagen ermöglichen.


Arten der Regressionsanalyse

Verschiedene Regressionsanalysen in der Übersicht:

  • Einfache Regression: Zur Erklärung der abhängigen Variable wird nur eine erklärende Variable verwendet.
  • Multiple Regression: Mehrere erklärende Variablen stehen mit einer abhängigen Variable in Verbindung.
  • Lineare Regression: Zwischen mehreren erklärenden und mehreren abhängigen Variablen besteht ein linearer Zusammenhang. Man spricht auch von Parametern, die linear sind, und eine Struktur ergeben.
  • Nicht lineare Regression: Wenn keine linearen Zusammenhänge zwischen abhängigen und unabhängigen Variablen bestehen, wird von nicht linearer Regression gesprochen. Diese Modelle können sehr komplex sein, da die Zusammenhänge zwischen den Variablen nicht mit einfachen mathematischen Mitteln abzubilden sind.


Ablauf einer Regressionsanalyse

Zwar existieren verschiedene Regressionsverfahren, aber die Struktur dieser Verfahren ist von den Schritten her häufig ähnlich:

  • Aufbereitung der Daten: Um Entwicklungen und Tendenzen von Variablen zu untersuchen, muss die Datenlage mit entsprechenden Datenpunkten möglichst vollständig und exakt sein. Zur Prüfung der Daten werden zum Beispiel Überschlagsrechnungen und Plausibilitätskontrollen durchgeführt. Wenn Datensätze fehlen, können sogenannte Missing-Data-Techniken zum Einsatz kommen, auch als Imputation bezeichnet. Falls die Daten und deren Zusammenhänge grafisch dargestellt werden sollen, kann dies bei der Aufbereitung ebenfalls beachtet werden. Einige Regressionsmodelle erfordern ganz spezielle Datenformate, in die diese erst überführt werden müssen. Dies ist zum Beispiel bei der linearen Regression der Fall, wo ein linearer Zusammenhang zwischen zwei Variablen vorausgesetzt wird.
  • Anpassung des Modells: Jedes Regressionsmodell arbeitet mit statistischen Fehlerkorrekturen, um eventuelle Abweichungen in den Griff zu bekommen. Die Funktionen, die die Abweichungen reduzieren sollen, sind mitunter durch das Modell festgelegt. So ist es bei der linearen Regression auch eine lineare Funktion, die dazu verwendet wird, die Abweichungen zu behandeln. Hier werden Fehlerwerte und Annäherungen berechnet und von vorne herein in das Regressionsmodell integriert.
  • Validierung des verwendeten Modells: Nun wird geprüft, ob das Regressionsmodell den Zusammenhang zwischen unabhängigen und abhängigen Variablen beschreibt und wie gut diese Beschreibung ist. Zur Überprüfung der Gültigkeit der eingesetzten Regressionsanalyse gibt es verschiedene Verfahren und Ansätze. Etwa werden besonders einflussreiche Datenknoten analysiert, die sich auf den Zusammenhang der Variablen auswirken. Letztendlich soll eine Funktion diesen Zusammenhang beschreiben – ob die Funktion passt, muss jedoch im Regressionsverfahren herausgefunden werden.
  • Prognose von Werten: Wenn das Modell den Zusammenhang hinreichend beschreibt, kann es zu Prognosezwecken eingesetzt werden. Auch hier spielt Exaktheit eine zentrale Rolle. Eventuelle Ungenauigkeiten der Prognosen werden berechnet oder geschätzt. Werden Aussagen getroffen, die über die eigentlichen Datensätze hinausgehen, spricht man von Extrapolation. Bei Prognosen innerhalb der Datensätze wird von Interpolation gesprochen. Letztere ist weniger problematisch als die Extrapolation – hier müssen die gemachten Annahmen genau überprüft werden.


Nutzen der Regressionsanalyse

Entscheidend für den Nutzen einer Regressionsanalyse ist die Frage, inwieweit das Modell die tatsächlichen Daten und deren mögliche Zusammenhänge beschreibt. Ein wichtiges Problem ist einerseits die Wahl eines Modells und somit andererseits die Auswahl der erklärenden Variablen. Es sollen nur signifikante Zusammenhänge untersucht werden. Deshalb beinhaltet jede Regressionsanalyse unterschiedliche Ansätze zur Erhöhung der Exaktheit, zur Minimierung von Fehlern und zum Ausschluss von statistischen Ausreißern, die für das Untersuchungsobjekt nicht relevant sind. Aus diesen Gründen wird oft auch ein Vergleich von Modellen angestellt, der mit Kennzahlen wie dem Bestimmtheitsmaß oder allgemeiner dem Informationskriterium arbeitet.[5].

Einzelnachweise

  1. [1] adzine.de. Abgerufen am 08.10.2019
  2. [2] searchengineland.com. Abgerufen am 08.10.2019
  3. [3] statista.com. Abgerufen am 08.10.2019
  4. [4] marketingprofs.com. Abgerufen am 08.10.2019
  5. [5] statista.com. Abgerufen am 08.10.2019

Weblinks