Inhaltsverzeichnis

QFM17 Clusteranalyse
Einleitung
Beispiele
Methodik
Fazit
Fragen
Literatur
Internetquellen

QFM17 Clusteranalyse

Modul-Icon	Clusteranalyse
Veranstaltung	Seminar Quantitative Forschungsmethoden
Autor	Christian Hinz & Florian Weber
Bearbeitungsdauer	45 min
Präsentationstermin	06.07.2015
Zuletzt geändert	26.07.2015

Achtung: dieses Wiki-Modul befindet sich noch im Bearbeitungsmodus

Einleitung

Im folgenden Wiki Modul beschäftigen wir uns mit der Clusteranalyse. Dabei stehen drei zentrale Fragen im Vordergrund, welche im Anschluss geklärt werden sollen und somit einen Überblick über die Thematik der Clusteranalyse verschaffen sollen:

Was ist unter Clusteranalyse zu verstehen?
Wann kommt es zur Anwendung einer Clusteranalyse?
Wie sehen die verschiedenen Schritte einer Clusteranalyse aus?

Der Begriff Cluster stammt aus dem Englischen und bedeutet „Gruppe“ oder „Anhäufung“. Clusteranalyse bedeutet also, dass ein „Haufen“ von Daten auf ihren Inhalt analysiert wird. Das Bestreben bei der Durchführung einer Clusteranalyse ist es, dass die Unterschiede innerhalb der Cluster möglichst klein bleiben (homogen) und die Unterschiede zwischen den Clustern möglichst groß (heterogen) (Bortz, Jürgen, Bortz-Döring, Döring, Nicola, 2009). Die Clusteranalyse identifiziert also in einer heterogenen Menge von verschiedenen Objekten homogener Teilmengen. Um Cluster bilden zu können, muss die Ähnlichkeit der zu untersuchenden Objekte genau genug gemessen werden können. Das ideale Verfahren hierfür ist die Clusteranalyse. Diese erfordert nur geringe Voraussetzungen und ist somit in fast jeder Situation anwendbar. Dabei ist die Fülle an Information der Ergebnisse jedoch auch geringer als der von anderen multivariabler Analyseverfahren, wie beispielsweise bei der Faktorenanalyse.

verfasst von Florian Weber

Beispiele

Es folgen verschiedene Beispiele, um die Clusteranalyse in der Praxis zu nutzen und anzuwenden.

Gruppierungen von Käuferschichten oder Absatzmärkten im Marketing

Einkommen	Alter	Familienstand	Kinder	Abschluss
35.000	40	ledig	2	Mittlere Reife
15.000	24	verheiratet	1	Universität
25.000	35	geschieden	3	FH
40.000	23	verheiratet	1	Universität
70.000	55	geschieden	0	FH
200.000	48	verheiratet	6	Mittlere Reife
150.000	50	geschieden	2	Universität
90.000	38	verheiratet	1	Universität

Abb. 1 Zusammenfassung von Käuferschichten, Multivariante Statistik für Betriebswirte

Zusammenhang zwischen Selbstbild und Wahl einer Automarke

Kaufkriterium 1	Ausstrahlung und Emotionen
Kaufkriterium 2	sachlicher Nutzen
Kaufkriterium 3	Komfortanspruch

Abb. 2 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008)

Zusammenfassung von Stadtteilen der Stadt München in homogener Cluster

Bevölkerungsdichte

Haushaltsgröße

Geschlecht

Altersstruktur

Größe der Stadtteile

Familienstand

Einkommen

Herkunft

Abb. 3 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008)

verfasst von Florian Weber

Methodik

Clusteranalysen lassen sich in zwei Hauptverfahren, die hierarchischen und die partitionierende Verfahren, und einer Vielzahl von Unterverfahren einteilen. Bei den partitionierenden Verfahren sind alle Elemente zu Beginn zufällig in eine festgelegte Anzahl von Clustern zugeteilt. Danach werden die Elemente Schritt für Schritt ausgetauscht bis ein Optimum erreicht wurde. Bei den hierarchischen Verfahren bildet zunächst jedes Element seine eigene Gruppe. Anhand ihrer Ähnlichkeit bzw. Distanz untereinander werden sie dann in Cluster zusammengeführt. Dies erfolgt in mehreren Iterationsschritten bis eine gewünschte bzw. geeignete Anzahl an Clustern entstanden ist.

Abb. 4 Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen (Natter, 2011)

Im Folgenenden wird anhand eines vereinfachten Beispiels die Durchführung einer Clusteranalyse nach dem Single-Linkage Verfahren dargestellt. Verschiedene Laufschuhkäufer Segmente.

1. Wahl der Segmentierungsbasis und der Deskriptoren

Ausgangspunkt der Clusteranalyse sind die erhobenen Daten, beispielsweise Umfragedaten. Die Basis bieten zur Segmentierung sind die Eigenschaften anhand derer die Konsumenten eingeteilt werden. In diesem Beispiel die Wichtigkeit bestimmter Eigenschaften (Komfort, Preis und Aussehen) und Präferenzen der Marken (Asics, Adidas, Nike) von Laufschuhen. Die Deskriptoren sind die Eigenschaften, die helfen die unterschiedlichen Konsumentensegmente zu definieren - gute Deskriptoren haben geringe Überschneidungen (z.B. Demographika).

	Laufkomfort	Preis	Aussehen	Asics	adidas	Nike
Saskia	5	2	20	1	3	6
Gerd	4	3	10	7	2	2
Hakan	3	3	30	5	3	5
Marie	5	5	70	3	5	7
Hanna	6	7	80	5	5	6

Abb. 5 mod. nach Natter (2011)

Liegen, wie in diesem Beispiel beim „Aussehen“, Daten unterschiedlicher Skalen vor, müssen die Werte zunächst standardisiert werden um sie vergleichbar zu machen. Dazu subtrahiert man den Mittelwert und dividiert durch die Standardabweichung. (Z.B.: Saskias Angabe zu „Laufkomfort“: 5 - 4,6 / 1,14 = 0,35)

Daraus ergeben sich folgende Werte:

	Laufkomfort	Preis	Aussehen	Asics	adidas	Nike
Saskia	0,35	-1,00	-0,71	-1,4	0,45	0,42
Gerd	-0,53	-0,50	-1,03	1,23	-1,19	-1,66
Hakan	-1,40	-0,50	-0,39	0,35	-0,45	0,10
Marie	0,35	0,50	0,90	-0,53	1,04	0,94
Hanna	1,23	1,50	1,22	0,35	1,04	0,42

Abb. 6 mod. nach Natter (2011)

2. Auswahl eines Ähnlichkeits- oder Distanzmaßes

Distanzmaße dienen der Bestimmung der Distanz zwischen zwei Einzelobjekten, die als Grundlage der Zuteilung in die Cluster dienen. In diesem Beispiel wurde die L1-Norm gewählt, bei der sich die Distanz wie folgt berechnet:

L2-Norm (Euklidische Distanz)

Wobei Dij = Distanz der Objekte i und j Xki = Wert der Variablen k bei Objekt i

3. Wahl eines Segmentierungsverfahrens

Beim Single Linkage Verfahren, werden die Objekte der kleinsten Distanz zusammengelegt. Zunächst wird eine Distanzmatrix erstellt, die mit dem L2-Distanzmaß berechnet wird.

Abb. 7 mod. nach Natter (2011)

Erstellt durch Christian Hinz

Illustration

	Saskia	Gerd	Hakan	Marie	Hanna
Saskia	0
Gerd	3,60	0
Hakan	2,60	2,22	0
Marie	2,84	4,51	3,13	0
Hanna	4,00	4,71	4,00	1,71	0

Abb. 8 mod. nach Natter (2011)

Es folgen mehrere Zuordnungsrunden um die Cluster zu bilden. Bei umfangreicheren Datenmengen kann der Computer hier mehre hundert oder 1000 Iterationen durchlaufen. Die Elemente mit dem geringsten Abstand (Marie und Hanna) werden zusammengelegt. Dabei werden jeweils die kleinsten Distanzen zu den anderen Personen für das neu gebildete Cluster übernommen. Damit verändert sich die Matrix wie folgt:

	Saskia	Gerd	Hakan	Marie/Hanna
Saskia	0
Gerd	3,60	0
Hakan	2,60	2,22	0
Marie/Hanna	2,84	4,51	3,13	0

Abb. 9 mod. nach Natter (2011)

Nun weißt Gerd zu Hakan auf, sie bilden das nächste Cluster

	Saskia	Gerd/Hakan	Marie/Hanna
Saskia	0
Gerd/Hakan	3,60	0
Marie/Hanna	2,84	4,51	0

Abb. 10 mod. nach Natter (2011)

Saskia wird dem Cluster „Gerd/Hakan“ zugeteilt.

	Saskia/Gerd/Hakan	Marie/Hanna
Saskia/Gerd/Hakan	0
Marie/Hanna	2,84	0

Abb. 11 mod. nach Natter (2011)

Es sind zwei Cluster entstanden. Cluster 1 = Saskia/Gerd/Hakan und Cluster 2 = Marie/Hanna

Abb. 12 mod. nach Natter (2011)

Erstellt durch Christian Hinz

4. Interpretation

Was ist die richtige Anzahl an Segmenten:

Statistische Kriterien: z.B. Relativer Unterschied in der Fehlerquadratsumme (Dendrogramm / Screeplot)

Theorie (wie viele Segmente werden in der Theorie vorgeschlagen)
Interpretation (welche Interpretation macht am meisten Sinn)
Wirtschaftlichkeit Größe der Cluster / Kosten der Bearbeitung

Anhand der Deskriptoren können Rückschlüsse auf die entstandenen Cluster gezogen werden und für Marketingmaßnahmen genutzt werden. Es zeigt sich, das Cluster 1 (Saskia/Gerd/Hakan) dem „Preis“ und dem „Aussehen“ wenig Wichtigkeit zuschreiben. Schlussfolgerung könnte hier sein, dass sie ein Laufsport Segment darstellen – Schuhe müssen für sie vor Allem funktionell sein. Im weiteren Verlauf sollten weitere Daten wie demographische Angaben oder Kaufentscheidungen, in Zusammenhang gesetzt werden, um genauer herauszufinden was für Konsumenten es sich handelt. Wie alt sind sie? Wo kommen sie her? Welche Marke bevorzugen sie?

Durch die verschiedenen Verfahren und statistischen Varianten erscheint das Feld der Clusteranalysen insgesamt relativ komplex. Wichtig ist daher die genaue Dokumentation der einzelnen Ablaufschritte. Dafür bieten Clusteranalysen eine sehr große Flexibilität in der Anwendung auf verschiedene Fragestellungen. Besonders im Marketing bilden Segmentierungen anhand von Clusteranalysen häufig die Grundlagen für anschließende Zielgruppenauswahl und eine entsprechende Positionierung im Markt. Das beschriebene Beispiel (oben) zeigt eine vereinfachte Veranschaulichung einer Clusteranalyse. Ein konkretes Anwendungsbeispiel liefert Murcias Studie „Young Athletes’ Motivational Profiles“. Hier wurde eine hierarchische Clusteranalyse angewandt um verschiedene Sportler Profile zu erstellen.

verfasst von Christian Hinz

Vorteile und Nachteile der Clusteranalyse

Vorteile	Nachteile
Zusammenfassung verschiedener Objekte zu geordneten Gruppen	Feste Zuordnung zu den Clustern
Durch Clusterbildung nimmt Komplexität ab	Großer Strukturbaum bei hohen Datenmengen
Jeder Rechendurchgang führt zum selben Resultat

Abb. 13 mod. nach Natter (2011)

verfasst von Florian Weber

Fazit

Die Clusteranalyse bietet die Möglichkeit, anhand von unterschiedlichen Verfahren (z.B. Single Linkage), große ungleiche Datenmengen, in gleiche Datenmengen zu verwandeln und sie vergleichbar zu machen. Dadurch werden die Cluster etappenweise zusammengefasst.

Fragen

Was bedeutet Clusterverfahren?
Welche Verfahren gibt es bei der Clusteranalyse?
Welche Vor,- bzw. Nachteile hat die hierarchische Clusteranalyse?
Gebe ein Beispiel für die Anwendung einer Clusteranalyse
Welches sportbezogene Beispiel fällt dir ein, um eine Clusteranalyse durchzuführen?

Literatur

Bortz, Jürgen, Bortz-Döring, Döring, Nicola (2009), (S.377): Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler ; mit 87 Tabellen. 4. Aufl. Heidelberg: Springer-Medizin-Verl. (Springer-Lehrbuch Bachelor, Master).

Lilien, G.L. / Rangaswamy, A. (2004), „Marketing Engineering: Computer-Assisted Marketing Analysis and Planning“, Reading (Mass.) et al. Backhaus et al. (2006): Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, S. 495.

Prof. Dr. Natter, Martin (2011), (S.29-53) „Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen“ Marketing 2, Goethe-Universität Frankfurt am Main

Internetquellen

Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen, AG Methodik – Verband Deutscher Städtestatistiker, Leitfaden Clusteranalyse – Teil 2, http://www.staedtestatistik.de/fileadmin/vdst/ag-methodik/Leitfaeden/2008_AGMethodik_LeitfadenClusteranalyse_Teil2.pdf , Zugriff am: 23.06.2015

Juan Antonio Moreno Murcia, Eduardo Cervelló Gimeno and David González-Cutre Coll, J Sports Sci Med. 2007 Jun; 6(2): 172–179, Published online 2007 Jun 1. „Young Athletes’ Motivational Profiles, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786237/ Zugriff am: 23.06.2015

Multivariate Statistik für Betriebswirte, Clusteranalyse, http://homepage.univie.ac.at/michaela.denk/Clust.pdf, Zugriff am 23.06.2015

Bewertung des Wiki-Moduls

Kategorie	Kristian Döbler	David Heckmann	Anmerkungen
Inhalt (max. 10)	08 Pkt	08 Pkt	gutes Beispiel zur Erläuterung, weiterführende Literatur wünschenswert
Form (max. 5)	03 Pkt	03 Pkt	Anordnung teilweise unübersichtlich, Beschriftungen und Verweise
Bonus (max. 2)	01 Pkt	01 Pkt	Videogestützte Erläuterung des Vorgehens
Summe	12 Pkt	12 Pkt	24 Pkt
Einzelbewertung	12/15=80%	12/15=80%	24/30 = 80%

indexmenu_n_17