Clusteranalyse


Eine Clusteranalyse ist ein Gruppenbildungsverfahren der Statistik. Damit lassen sich große Datenmengen analysieren. Hierfür werden aus den Untersuchungsobjekten Gruppen (Cluster) gebildet, die aufgrund bestimmter Merkmale zusammengefasst und verglichen werden. Ziel einer solchen Analyse ist es, aus heterogenen Einzelobjekten homogene Gruppen zu schaffen. Clusteranalysen sind heute häufig Bestandteil des Marketings und bilden beispielsweise die Grundlage für Werbemaßnahmen.

Methoden

Das Clustering allgemein wird seit den 1990er-Jahren in vielen verschiedenen wissenschaftlichen Bereichen verwendet, um Gruppen zu segmentieren. Dabei werden einzelne Untersuchungsobjekte als einzelne Cluster (engl. für „Bündel“) definiert.

In einem zweiten Schritt wird aus einzelnen Clustern mit der höchsten Ähnlichkeit wiederum ein größeres Cluster bestimmt. Die nächste Etappe der Untersuchung besteht schließlich darin, wieder die Distanzen zwischen den einzelnen Clustern zu berechnen, um noch größere Cluster zu erstellen. Das Endergebnis ist ein riesiges Cluster.

Im Interesse der Marktforscher stehen aber schließlich nicht das Megacluster allgemein, sondern die Schnittmengen der Einzelsegmente.

Um die jeweilige Distanz zwischen zwei Clustern bzw. zwischen einem Cluster und einem Objekt zu berechnen, stehen fünf gängige Methoden zur Auswahl.

Linkage (zwischen Gruppen)

Bei dieser Methode werden Paare geschaffen, wobei die einzelnen Elemente je ein Objekt in zwei verschiedenen Clustern gemeinsam haben. Für dieses und die folgenden Paare werden nun Distanzmaße berechnet. Die Distanz zwischen den beiden untersuchten Clustern wird aus dem arithmetischen Mittel aller Distanzen zwischen allen Paaren berechnet.

Linkage (innerhalb von Gruppen)

In diesem Fall werden Paare gebildet, die im gleichen Cluster Gemeinsamkeiten aufweisen. Anschließend wird hierfür wiederum das Distanzmaß berechnet. Um die Distanzen zwischen den Clustern zu bestimmen, wird das arithmetische Mittel aller untersuchten Distanzen genommen.

Nächster/Entferntester Nachbar

Hier wird ein Paar aus zwei Clustern gesucht, das die kürzeste/größte Distanz aufweist. Die jeweils ermittelte Distanz wird für die Distanz zwischen den beiden Clustern verwendet.

Ward-Methode

Hier werden die Mittelwerte der Variablen eines neuen Clusters ermittelt. Anschließend werden die Distanzen aller Einzelobjekte zu diesen Mittelwerten zusammengezählt. Schließlich werden alle Objekte zu einem neuen Cluster zusammengefasst, deren Zuwachs gegenüber der Summe am geringsten ist.

Zentroid-Clustering

Zunächst werden hier die arithmetischen Mittel aller Objekte innerhalb eines Clusters bestimmt. Anschließend wird die Distanz der beiden Cluster zueinander über den Vergleich der beiden ermittelten Zahlen bestimmt.

Voraussetzungen

Um eine Clusteranalyse durchzuführen, müssen einige Voraussetzungen erfüllt sein.

  • Bestimmung der zu vergleichenden Merkmale (Variablen)
  • Verwendung von standardisierten Daten, um sie mit anderen Daten zu vergleichen
  • Ausschluss von Ausreißern, d.h. von Objekten, die im Vergleich zum Gesamten Extremwerte aufweisen
  • Vermeidung von zu ähnlichen Variablen, da dadurch das Ergebnis am Ende verfälscht werden kann
  • Vermeidung von zu konstanten Ausgangswerten, da sie die spätere Auswertung erschweren können

Nutzen für das Marketing

Die Clusteranalyse im Rahmen der Marktforschung bietet viele Vorteile. Einige davon sind:

  • hohe Trennschärfe der einzelnen Cluster durch große Heterogenität zwischen den Gruppen
  • zielführende Charakterisierung einzelner Cluster durch größtmögliche Homogenität: dadurch werden Streuverluste bei späteren Marketingmaßnahmen verringert
  • leichte Übertragung der Cluster auf verschiedene Variablen: mit einer Clusteranalyse lassen sich Zielgruppen von unterschiedlichen Unternehmen ermitteln
  • es können vorhandene Daten ausgewertet werden
  • minimaler personeller Aufwand
  • geringe Kosten

Weblinks