Inhaltsverzeichnis
QFM17 Clusteranalyse
Modul-Icon | Clusteranalyse |
---|---|
Veranstaltung | Seminar Quantitative Forschungsmethoden |
Autor | Christian Hinz & Florian Weber |
Bearbeitungsdauer | 45 min |
Präsentationstermin | 06.07.2015 |
Zuletzt geändert | 26.07.2015 |
Achtung: dieses Wiki-Modul befindet sich noch im Bearbeitungsmodus |
---|
Einleitung
Im folgenden Wiki Modul beschäftigen wir uns mit der Clusteranalyse. Dabei stehen drei zentrale Fragen im Vordergrund, welche im Anschluss geklärt werden sollen und somit einen Überblick über die Thematik der Clusteranalyse verschaffen sollen:
- Was ist unter Clusteranalyse zu verstehen?
- Wann kommt es zur Anwendung einer Clusteranalyse?
- Wie sehen die verschiedenen Schritte einer Clusteranalyse aus?
Der Begriff Cluster stammt aus dem Englischen und bedeutet „Gruppe“ oder „Anhäufung“. Clusteranalyse bedeutet also, dass ein „Haufen“ von Daten auf ihren Inhalt analysiert wird. Das Bestreben bei der Durchführung einer Clusteranalyse ist es, dass die Unterschiede innerhalb der Cluster möglichst klein bleiben (homogen) und die Unterschiede zwischen den Clustern möglichst groß (heterogen) (Bortz, Jürgen, Bortz-Döring, Döring, Nicola, 2009). Die Clusteranalyse identifiziert also in einer heterogenen Menge von verschiedenen Objekten homogener Teilmengen. Um Cluster bilden zu können, muss die Ähnlichkeit der zu untersuchenden Objekte genau genug gemessen werden können. Das ideale Verfahren hierfür ist die Clusteranalyse. Diese erfordert nur geringe Voraussetzungen und ist somit in fast jeder Situation anwendbar. Dabei ist die Fülle an Information der Ergebnisse jedoch auch geringer als der von anderen multivariabler Analyseverfahren, wie beispielsweise bei der Faktorenanalyse.
verfasst von Florian Weber
Beispiele
Es folgen verschiedene Beispiele, um die Clusteranalyse in der Praxis zu nutzen und anzuwenden.
- Gruppierungen von Käuferschichten oder Absatzmärkten im Marketing
Einkommen | Alter | Familienstand | Kinder | Abschluss |
---|---|---|---|---|
35.000 | 40 | ledig | 2 | Mittlere Reife |
15.000 | 24 | verheiratet | 1 | Universität |
25.000 | 35 | geschieden | 3 | FH |
40.000 | 23 | verheiratet | 1 | Universität |
70.000 | 55 | geschieden | 0 | FH |
200.000 | 48 | verheiratet | 6 | Mittlere Reife |
150.000 | 50 | geschieden | 2 | Universität |
90.000 | 38 | verheiratet | 1 | Universität |
Abb. 1 Zusammenfassung von Käuferschichten, Multivariante Statistik für Betriebswirte |
- Zusammenhang zwischen Selbstbild und Wahl einer Automarke
Kaufkriterium 1 | Ausstrahlung und Emotionen |
Kaufkriterium 2 | sachlicher Nutzen |
Kaufkriterium 3 | Komfortanspruch |
Abb. 2 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008) |
- Zusammenfassung von Stadtteilen der Stadt München in homogener Cluster
Bevölkerungsdichte |
Haushaltsgröße |
Geschlecht |
Altersstruktur |
Größe der Stadtteile |
Familienstand |
Einkommen |
Herkunft |
Abb. 3 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008) |
verfasst von Florian Weber
Methodik
Clusteranalysen lassen sich in zwei Hauptverfahren, die hierarchischen und die partitionierende Verfahren, und einer Vielzahl von Unterverfahren einteilen. Bei den partitionierenden Verfahren sind alle Elemente zu Beginn zufällig in eine festgelegte Anzahl von Clustern zugeteilt. Danach werden die Elemente Schritt für Schritt ausgetauscht bis ein Optimum erreicht wurde. Bei den hierarchischen Verfahren bildet zunächst jedes Element seine eigene Gruppe. Anhand ihrer Ähnlichkeit bzw. Distanz untereinander werden sie dann in Cluster zusammengeführt. Dies erfolgt in mehreren Iterationsschritten bis eine gewünschte bzw. geeignete Anzahl an Clustern entstanden ist.
Abb. 4 Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen (Natter, 2011) |
Im Folgenenden wird anhand eines vereinfachten Beispiels die Durchführung einer Clusteranalyse nach dem Single-Linkage Verfahren dargestellt. Verschiedene Laufschuhkäufer Segmente.
1. Wahl der Segmentierungsbasis und der Deskriptoren
Ausgangspunkt der Clusteranalyse sind die erhobenen Daten, beispielsweise Umfragedaten. Die Basis bieten zur Segmentierung sind die Eigenschaften anhand derer die Konsumenten eingeteilt werden. In diesem Beispiel die Wichtigkeit bestimmter Eigenschaften (Komfort, Preis und Aussehen) und Präferenzen der Marken (Asics, Adidas, Nike) von Laufschuhen. Die Deskriptoren sind die Eigenschaften, die helfen die unterschiedlichen Konsumentensegmente zu definieren - gute Deskriptoren haben geringe Überschneidungen (z.B. Demographika).
Laufkomfort | Preis | Aussehen | Asics | adidas | Nike | |
---|---|---|---|---|---|---|
Saskia | 5 | 2 | 20 | 1 | 3 | 6 |
Gerd | 4 | 3 | 10 | 7 | 2 | 2 |
Hakan | 3 | 3 | 30 | 5 | 3 | 5 |
Marie | 5 | 5 | 70 | 3 | 5 | 7 |
Hanna | 6 | 7 | 80 | 5 | 5 | 6 |
Abb. 5 mod. nach Natter (2011) |
Liegen, wie in diesem Beispiel beim „Aussehen“, Daten unterschiedlicher Skalen vor, müssen die Werte zunächst standardisiert werden um sie vergleichbar zu machen. Dazu subtrahiert man den Mittelwert und dividiert durch die Standardabweichung. (Z.B.: Saskias Angabe zu „Laufkomfort“: 5 - 4,6 / 1,14 = 0,35)
Daraus ergeben sich folgende Werte:
Laufkomfort | Preis | Aussehen | Asics | adidas | Nike | |
---|---|---|---|---|---|---|
Saskia | 0,35 | -1,00 | -0,71 | -1,4 | 0,45 | 0,42 |
Gerd | -0,53 | -0,50 | -1,03 | 1,23 | -1,19 | -1,66 |
Hakan | -1,40 | -0,50 | -0,39 | 0,35 | -0,45 | 0,10 |
Marie | 0,35 | 0,50 | 0,90 | -0,53 | 1,04 | 0,94 |
Hanna | 1,23 | 1,50 | 1,22 | 0,35 | 1,04 | 0,42 |
Abb. 6 mod. nach Natter (2011) |
2. Auswahl eines Ähnlichkeits- oder Distanzmaßes
Distanzmaße dienen der Bestimmung der Distanz zwischen zwei Einzelobjekten, die als Grundlage der Zuteilung in die Cluster dienen. In diesem Beispiel wurde die L1-Norm gewählt, bei der sich die Distanz wie folgt berechnet:
L2-Norm (Euklidische Distanz)
Wobei Dij = Distanz der Objekte i und j Xki = Wert der Variablen k bei Objekt i
3. Wahl eines Segmentierungsverfahrens
Beim Single Linkage Verfahren, werden die Objekte der kleinsten Distanz zusammengelegt. Zunächst wird eine Distanzmatrix erstellt, die mit dem L2-Distanzmaß berechnet wird.
Abb. 7 mod. nach Natter (2011) |
Erstellt durch Christian Hinz
Illustration
Saskia | Gerd | Hakan | Marie | Hanna | |
---|---|---|---|---|---|
Saskia | 0 | ||||
Gerd | 3,60 | 0 | |||
Hakan | 2,60 | 2,22 | 0 | ||
Marie | 2,84 | 4,51 | 3,13 | 0 | |
Hanna | 4,00 | 4,71 | 4,00 | 1,71 | 0 |
Abb. 8 mod. nach Natter (2011) |
Es folgen mehrere Zuordnungsrunden um die Cluster zu bilden. Bei umfangreicheren Datenmengen kann der Computer hier mehre hundert oder 1000 Iterationen durchlaufen. Die Elemente mit dem geringsten Abstand (Marie und Hanna) werden zusammengelegt. Dabei werden jeweils die kleinsten Distanzen zu den anderen Personen für das neu gebildete Cluster übernommen. Damit verändert sich die Matrix wie folgt:
Saskia | Gerd | Hakan | Marie/Hanna | |
---|---|---|---|---|
Saskia | 0 | |||
Gerd | 3,60 | 0 | ||
Hakan | 2,60 | 2,22 | 0 | |
Marie/Hanna | 2,84 | 4,51 | 3,13 | 0 |
Abb. 9 mod. nach Natter (2011) |
Nun weißt Gerd zu Hakan auf, sie bilden das nächste Cluster
Saskia | Gerd/Hakan | Marie/Hanna | |
---|---|---|---|
Saskia | 0 | ||
Gerd/Hakan | 3,60 | 0 | |
Marie/Hanna | 2,84 | 4,51 | 0 |
Abb. 10 mod. nach Natter (2011) |
Saskia wird dem Cluster „Gerd/Hakan“ zugeteilt.
Saskia/Gerd/Hakan | Marie/Hanna | |
---|---|---|
Saskia/Gerd/Hakan | 0 | |
Marie/Hanna | 2,84 | 0 |
Abb. 11 mod. nach Natter (2011) |
Es sind zwei Cluster entstanden. Cluster 1 = Saskia/Gerd/Hakan und Cluster 2 = Marie/Hanna
Abb. 12 mod. nach Natter (2011) |
Erstellt durch Christian Hinz
4. Interpretation
Was ist die richtige Anzahl an Segmenten:
Statistische Kriterien: z.B. Relativer Unterschied in der Fehlerquadratsumme (Dendrogramm / Screeplot)
- Theorie (wie viele Segmente werden in der Theorie vorgeschlagen)
- Interpretation (welche Interpretation macht am meisten Sinn)
- Wirtschaftlichkeit Größe der Cluster / Kosten der Bearbeitung
Anhand der Deskriptoren können Rückschlüsse auf die entstandenen Cluster gezogen werden und für Marketingmaßnahmen genutzt werden. Es zeigt sich, das Cluster 1 (Saskia/Gerd/Hakan) dem „Preis“ und dem „Aussehen“ wenig Wichtigkeit zuschreiben. Schlussfolgerung könnte hier sein, dass sie ein Laufsport Segment darstellen – Schuhe müssen für sie vor Allem funktionell sein. Im weiteren Verlauf sollten weitere Daten wie demographische Angaben oder Kaufentscheidungen, in Zusammenhang gesetzt werden, um genauer herauszufinden was für Konsumenten es sich handelt. Wie alt sind sie? Wo kommen sie her? Welche Marke bevorzugen sie?
Durch die verschiedenen Verfahren und statistischen Varianten erscheint das Feld der Clusteranalysen insgesamt relativ komplex. Wichtig ist daher die genaue Dokumentation der einzelnen Ablaufschritte. Dafür bieten Clusteranalysen eine sehr große Flexibilität in der Anwendung auf verschiedene Fragestellungen. Besonders im Marketing bilden Segmentierungen anhand von Clusteranalysen häufig die Grundlagen für anschließende Zielgruppenauswahl und eine entsprechende Positionierung im Markt. Das beschriebene Beispiel (oben) zeigt eine vereinfachte Veranschaulichung einer Clusteranalyse. Ein konkretes Anwendungsbeispiel liefert Murcias Studie „Young Athletes’ Motivational Profiles“. Hier wurde eine hierarchische Clusteranalyse angewandt um verschiedene Sportler Profile zu erstellen.
verfasst von Christian Hinz
Vorteile und Nachteile der Clusteranalyse
Vorteile | Nachteile |
---|---|
Zusammenfassung verschiedener Objekte zu geordneten Gruppen | Feste Zuordnung zu den Clustern |
Durch Clusterbildung nimmt Komplexität ab | Großer Strukturbaum bei hohen Datenmengen |
Jeder Rechendurchgang führt zum selben Resultat |
Abb. 13 mod. nach Natter (2011) |
verfasst von Florian Weber
Fazit
Die Clusteranalyse bietet die Möglichkeit, anhand von unterschiedlichen Verfahren (z.B. Single Linkage), große ungleiche Datenmengen, in gleiche Datenmengen zu verwandeln und sie vergleichbar zu machen. Dadurch werden die Cluster etappenweise zusammengefasst.
Fragen
- Was bedeutet Clusterverfahren?
- Welche Verfahren gibt es bei der Clusteranalyse?
- Welche Vor,- bzw. Nachteile hat die hierarchische Clusteranalyse?
- Gebe ein Beispiel für die Anwendung einer Clusteranalyse
- Welches sportbezogene Beispiel fällt dir ein, um eine Clusteranalyse durchzuführen?
Literatur
Bortz, Jürgen, Bortz-Döring, Döring, Nicola (2009), (S.377): Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler ; mit 87 Tabellen. 4. Aufl. Heidelberg: Springer-Medizin-Verl. (Springer-Lehrbuch Bachelor, Master).
Lilien, G.L. / Rangaswamy, A. (2004), „Marketing Engineering: Computer-Assisted Marketing Analysis and Planning“, Reading (Mass.) et al. Backhaus et al. (2006): Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, S. 495.
Prof. Dr. Natter, Martin (2011), (S.29-53) „Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen“ Marketing 2, Goethe-Universität Frankfurt am Main
Internetquellen
Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen, AG Methodik – Verband Deutscher Städtestatistiker, Leitfaden Clusteranalyse – Teil 2, http://www.staedtestatistik.de/fileadmin/vdst/ag-methodik/Leitfaeden/2008_AGMethodik_LeitfadenClusteranalyse_Teil2.pdf , Zugriff am: 23.06.2015
Juan Antonio Moreno Murcia, Eduardo Cervelló Gimeno and David González-Cutre Coll, J Sports Sci Med. 2007 Jun; 6(2): 172–179, Published online 2007 Jun 1. „Young Athletes’ Motivational Profiles, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786237/ Zugriff am: 23.06.2015
Multivariate Statistik für Betriebswirte, Clusteranalyse, http://homepage.univie.ac.at/michaela.denk/Clust.pdf, Zugriff am 23.06.2015
Bewertung des Wiki-Moduls
Kategorie | Kristian Döbler | David Heckmann | Anmerkungen |
---|---|---|---|
Inhalt (max. 10) | 08 Pkt | 08 Pkt | gutes Beispiel zur Erläuterung, weiterführende Literatur wünschenswert |
Form (max. 5) | 03 Pkt | 03 Pkt | Anordnung teilweise unübersichtlich, Beschriftungen und Verweise |
Bonus (max. 2) | 01 Pkt | 01 Pkt | Videogestützte Erläuterung des Vorgehens |
Summe | 12 Pkt | 12 Pkt | 24 Pkt |
Einzelbewertung | 12/15=80% | 12/15=80% | 24/30 = 80% |