QFM17 Clusteranalyse

Modul-Icon Clusteranalyse
Veranstaltung Seminar Quantitative Forschungsmethoden
Autor Christian Hinz & Florian Weber
Bearbeitungsdauer 45 min
Präsentationstermin 06.07.2015
Zuletzt geändert 26.07.2015
Achtung: dieses Wiki-Modul befindet sich noch im Bearbeitungsmodus


Einleitung

Im folgenden Wiki Modul beschäftigen wir uns mit der Clusteranalyse. Dabei stehen drei zentrale Fragen im Vordergrund, welche im Anschluss geklärt werden sollen und somit einen Überblick über die Thematik der Clusteranalyse verschaffen sollen:

  • Was ist unter Clusteranalyse zu verstehen?
  • Wann kommt es zur Anwendung einer Clusteranalyse?
  • Wie sehen die verschiedenen Schritte einer Clusteranalyse aus?

Der Begriff Cluster stammt aus dem Englischen und bedeutet „Gruppe“ oder „Anhäufung“. Clusteranalyse bedeutet also, dass ein „Haufen“ von Daten auf ihren Inhalt analysiert wird. Das Bestreben bei der Durchführung einer Clusteranalyse ist es, dass die Unterschiede innerhalb der Cluster möglichst klein bleiben (homogen) und die Unterschiede zwischen den Clustern möglichst groß (heterogen) (Bortz, Jürgen, Bortz-Döring, Döring, Nicola, 2009). Die Clusteranalyse identifiziert also in einer heterogenen Menge von verschiedenen Objekten homogener Teilmengen. Um Cluster bilden zu können, muss die Ähnlichkeit der zu untersuchenden Objekte genau genug gemessen werden können. Das ideale Verfahren hierfür ist die Clusteranalyse. Diese erfordert nur geringe Voraussetzungen und ist somit in fast jeder Situation anwendbar. Dabei ist die Fülle an Information der Ergebnisse jedoch auch geringer als der von anderen multivariabler Analyseverfahren, wie beispielsweise bei der Faktorenanalyse.

verfasst von Florian Weber


Beispiele

Es folgen verschiedene Beispiele, um die Clusteranalyse in der Praxis zu nutzen und anzuwenden.

  • Gruppierungen von Käuferschichten oder Absatzmärkten im Marketing
Einkommen Alter Familienstand Kinder Abschluss
35.000 40 ledig 2 Mittlere Reife
15.000 24 verheiratet 1 Universität
25.000 35 geschieden 3 FH
40.000 23 verheiratet 1 Universität
70.000 55 geschieden 0 FH
200.000 48 verheiratet 6 Mittlere Reife
150.000 50 geschieden 2 Universität
90.000 38 verheiratet 1 Universität
Abb. 1 Zusammenfassung von Käuferschichten, Multivariante Statistik für Betriebswirte
  • Zusammenhang zwischen Selbstbild und Wahl einer Automarke
Kaufkriterium 1 Ausstrahlung und Emotionen
Kaufkriterium 2 sachlicher Nutzen
Kaufkriterium 3 Komfortanspruch
Abb. 2 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008)
  • Zusammenfassung von Stadtteilen der Stadt München in homogener Cluster
Bevölkerungsdichte
Haushaltsgröße
Geschlecht
Altersstruktur
Größe der Stadtteile
Familienstand
Einkommen
Herkunft
Abb. 3 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008)

verfasst von Florian Weber


Methodik

Clusteranalysen lassen sich in zwei Hauptverfahren, die hierarchischen und die partitionierende Verfahren, und einer Vielzahl von Unterverfahren einteilen. Bei den partitionierenden Verfahren sind alle Elemente zu Beginn zufällig in eine festgelegte Anzahl von Clustern zugeteilt. Danach werden die Elemente Schritt für Schritt ausgetauscht bis ein Optimum erreicht wurde. Bei den hierarchischen Verfahren bildet zunächst jedes Element seine eigene Gruppe. Anhand ihrer Ähnlichkeit bzw. Distanz untereinander werden sie dann in Cluster zusammengeführt. Dies erfolgt in mehreren Iterationsschritten bis eine gewünschte bzw. geeignete Anzahl an Clustern entstanden ist.

Abb. 4 Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen (Natter, 2011)

Im Folgenenden wird anhand eines vereinfachten Beispiels die Durchführung einer Clusteranalyse nach dem Single-Linkage Verfahren dargestellt. Verschiedene Laufschuhkäufer Segmente.

1. Wahl der Segmentierungsbasis und der Deskriptoren

Ausgangspunkt der Clusteranalyse sind die erhobenen Daten, beispielsweise Umfragedaten. Die Basis bieten zur Segmentierung sind die Eigenschaften anhand derer die Konsumenten eingeteilt werden. In diesem Beispiel die Wichtigkeit bestimmter Eigenschaften (Komfort, Preis und Aussehen) und Präferenzen der Marken (Asics, Adidas, Nike) von Laufschuhen. Die Deskriptoren sind die Eigenschaften, die helfen die unterschiedlichen Konsumentensegmente zu definieren - gute Deskriptoren haben geringe Überschneidungen (z.B. Demographika).

Laufkomfort Preis Aussehen Asics adidas Nike
Saskia 5 2 20 1 3 6
Gerd 4 3 10 7 2 2
Hakan 3 3 30 5 3 5
Marie 5 5 70 3 5 7
Hanna 6 7 80 5 5 6
Abb. 5 mod. nach Natter (2011)

Liegen, wie in diesem Beispiel beim „Aussehen“, Daten unterschiedlicher Skalen vor, müssen die Werte zunächst standardisiert werden um sie vergleichbar zu machen. Dazu subtrahiert man den Mittelwert und dividiert durch die Standardabweichung. (Z.B.: Saskias Angabe zu „Laufkomfort“: 5 - 4,6 / 1,14 = 0,35)

Daraus ergeben sich folgende Werte:

Laufkomfort Preis Aussehen Asics adidas Nike
Saskia 0,35 -1,00 -0,71 -1,4 0,45 0,42
Gerd -0,53 -0,50 -1,03 1,23 -1,19 -1,66
Hakan -1,40 -0,50 -0,39 0,35 -0,45 0,10
Marie 0,35 0,50 0,90 -0,53 1,04 0,94
Hanna 1,23 1,50 1,22 0,35 1,04 0,42
Abb. 6 mod. nach Natter (2011)

2. Auswahl eines Ähnlichkeits- oder Distanzmaßes

Distanzmaße dienen der Bestimmung der Distanz zwischen zwei Einzelobjekten, die als Grundlage der Zuteilung in die Cluster dienen. In diesem Beispiel wurde die L1-Norm gewählt, bei der sich die Distanz wie folgt berechnet:

L2-Norm (Euklidische Distanz)

Wobei Dij = Distanz der Objekte i und j Xki = Wert der Variablen k bei Objekt i

3. Wahl eines Segmentierungsverfahrens

Beim Single Linkage Verfahren, werden die Objekte der kleinsten Distanz zusammengelegt. Zunächst wird eine Distanzmatrix erstellt, die mit dem L2-Distanzmaß berechnet wird.

Abb. 7 mod. nach Natter (2011)

Erstellt durch Christian Hinz

Illustration

Saskia Gerd Hakan Marie Hanna
Saskia 0
Gerd 3,60 0
Hakan 2,60 2,22 0
Marie 2,84 4,51 3,13 0
Hanna 4,00 4,71 4,00 1,71 0
Abb. 8 mod. nach Natter (2011)

Es folgen mehrere Zuordnungsrunden um die Cluster zu bilden. Bei umfangreicheren Datenmengen kann der Computer hier mehre hundert oder 1000 Iterationen durchlaufen. Die Elemente mit dem geringsten Abstand (Marie und Hanna) werden zusammengelegt. Dabei werden jeweils die kleinsten Distanzen zu den anderen Personen für das neu gebildete Cluster übernommen. Damit verändert sich die Matrix wie folgt:

Saskia Gerd Hakan Marie/Hanna
Saskia 0
Gerd 3,60 0
Hakan 2,60 2,22 0
Marie/Hanna 2,84 4,51 3,13 0
Abb. 9 mod. nach Natter (2011)

Nun weißt Gerd zu Hakan auf, sie bilden das nächste Cluster

Saskia Gerd/Hakan Marie/Hanna
Saskia 0
Gerd/Hakan 3,60 0
Marie/Hanna 2,84 4,51 0
Abb. 10 mod. nach Natter (2011)

Saskia wird dem Cluster „Gerd/Hakan“ zugeteilt.

Saskia/Gerd/Hakan Marie/Hanna
Saskia/Gerd/Hakan 0
Marie/Hanna 2,84 0
Abb. 11 mod. nach Natter (2011)

Es sind zwei Cluster entstanden. Cluster 1 = Saskia/Gerd/Hakan und Cluster 2 = Marie/Hanna

Abb. 12 mod. nach Natter (2011)

Erstellt durch Christian Hinz

4. Interpretation

Was ist die richtige Anzahl an Segmenten:

Statistische Kriterien: z.B. Relativer Unterschied in der Fehlerquadratsumme (Dendrogramm / Screeplot)

  • Theorie (wie viele Segmente werden in der Theorie vorgeschlagen)
  • Interpretation (welche Interpretation macht am meisten Sinn)
  • Wirtschaftlichkeit Größe der Cluster / Kosten der Bearbeitung

Anhand der Deskriptoren können Rückschlüsse auf die entstandenen Cluster gezogen werden und für Marketingmaßnahmen genutzt werden. Es zeigt sich, das Cluster 1 (Saskia/Gerd/Hakan) dem „Preis“ und dem „Aussehen“ wenig Wichtigkeit zuschreiben. Schlussfolgerung könnte hier sein, dass sie ein Laufsport Segment darstellen – Schuhe müssen für sie vor Allem funktionell sein. Im weiteren Verlauf sollten weitere Daten wie demographische Angaben oder Kaufentscheidungen, in Zusammenhang gesetzt werden, um genauer herauszufinden was für Konsumenten es sich handelt. Wie alt sind sie? Wo kommen sie her? Welche Marke bevorzugen sie?

Durch die verschiedenen Verfahren und statistischen Varianten erscheint das Feld der Clusteranalysen insgesamt relativ komplex. Wichtig ist daher die genaue Dokumentation der einzelnen Ablaufschritte. Dafür bieten Clusteranalysen eine sehr große Flexibilität in der Anwendung auf verschiedene Fragestellungen. Besonders im Marketing bilden Segmentierungen anhand von Clusteranalysen häufig die Grundlagen für anschließende Zielgruppenauswahl und eine entsprechende Positionierung im Markt. Das beschriebene Beispiel (oben) zeigt eine vereinfachte Veranschaulichung einer Clusteranalyse. Ein konkretes Anwendungsbeispiel liefert Murcias Studie „Young Athletes’ Motivational Profiles“. Hier wurde eine hierarchische Clusteranalyse angewandt um verschiedene Sportler Profile zu erstellen.

verfasst von Christian Hinz


Vorteile und Nachteile der Clusteranalyse

Vorteile Nachteile
Zusammenfassung verschiedener Objekte zu geordneten Gruppen Feste Zuordnung zu den Clustern
Durch Clusterbildung nimmt Komplexität ab Großer Strukturbaum bei hohen Datenmengen
Jeder Rechendurchgang führt zum selben Resultat
Abb. 13 mod. nach Natter (2011)

verfasst von Florian Weber


Fazit

Die Clusteranalyse bietet die Möglichkeit, anhand von unterschiedlichen Verfahren (z.B. Single Linkage), große ungleiche Datenmengen, in gleiche Datenmengen zu verwandeln und sie vergleichbar zu machen. Dadurch werden die Cluster etappenweise zusammengefasst.

Fragen

  1. Was bedeutet Clusterverfahren?
  2. Welche Verfahren gibt es bei der Clusteranalyse?
  3. Welche Vor,- bzw. Nachteile hat die hierarchische Clusteranalyse?
  4. Gebe ein Beispiel für die Anwendung einer Clusteranalyse
  5. Welches sportbezogene Beispiel fällt dir ein, um eine Clusteranalyse durchzuführen?

Literatur

Bortz, Jürgen, Bortz-Döring, Döring, Nicola (2009), (S.377): Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler ; mit 87 Tabellen. 4. Aufl. Heidelberg: Springer-Medizin-Verl. (Springer-Lehrbuch Bachelor, Master).

Lilien, G.L. / Rangaswamy, A. (2004), „Marketing Engineering: Computer-Assisted Marketing Analysis and Planning“, Reading (Mass.) et al. Backhaus et al. (2006): Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, S. 495.

Prof. Dr. Natter, Martin (2011), (S.29-53) „Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen“ Marketing 2, Goethe-Universität Frankfurt am Main

Internetquellen

Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen, AG Methodik – Verband Deutscher Städtestatistiker, Leitfaden Clusteranalyse – Teil 2, http://www.staedtestatistik.de/fileadmin/vdst/ag-methodik/Leitfaeden/2008_AGMethodik_LeitfadenClusteranalyse_Teil2.pdf , Zugriff am: 23.06.2015

Juan Antonio Moreno Murcia, Eduardo Cervelló Gimeno and David González-Cutre Coll, J Sports Sci Med. 2007 Jun; 6(2): 172–179, Published online 2007 Jun 1. „Young Athletes’ Motivational Profiles, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786237/ Zugriff am: 23.06.2015

Multivariate Statistik für Betriebswirte, Clusteranalyse, http://homepage.univie.ac.at/michaela.denk/Clust.pdf, Zugriff am 23.06.2015



Bewertung des Wiki-Moduls

Kategorie Kristian Döbler David Heckmann Anmerkungen
Inhalt (max. 10) 08 Pkt 08 Pkt gutes Beispiel zur Erläuterung, weiterführende Literatur wünschenswert
Form (max. 5) 03 Pkt 03 Pkt Anordnung teilweise unübersichtlich, Beschriftungen und Verweise
Bonus (max. 2) 01 Pkt 01 Pkt Videogestützte Erläuterung des Vorgehens
Summe 12 Pkt 12 Pkt 24 Pkt
Einzelbewertung 12/15=80% 12/15=80% 24/30 = 80%
fm/quant_fometh/ss15_projekte/qfm17.txt · Zuletzt geändert: 17.08.2015 13:14 von Christian Schumacher
GNU Free Documentation License 1.3
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0