Warning: Undefined array key "DW68700bfd16c2027de7de74a5a8202a6f" in /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/lib/plugins/translation/action.php on line 237

Warning: Trying to access array offset on value of type null in /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/lib/plugins/translation/action.php on line 237

Warning: Cannot modify header information - headers already sent by (output started at /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/lib/plugins/translation/action.php:237) in /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/inc/Action/Export.php on line 104

Warning: Cannot modify header information - headers already sent by (output started at /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/lib/plugins/translation/action.php:237) in /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/inc/Action/Export.php on line 104

Warning: Cannot modify header information - headers already sent by (output started at /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/lib/plugins/translation/action.php:237) in /is/htdocs/wp1019470_OPI92FFHXV/www/wikiLehre/inc/Action/Export.php on line 104
====== QFM17 Clusteranalyse ====== ^ Modul-Icon | Clusteranalyse | ^ Veranstaltung | Seminar Quantitative Forschungsmethoden | ^ Autor | Christian Hinz & Florian Weber | ^ Bearbeitungsdauer | 45 min | ^ Präsentationstermin | 06.07.2015 | ^ Zuletzt geändert | 26.07.2015 | ^ **Achtung: dieses Wiki-Modul befindet sich noch im Bearbeitungsmodus** ^
====== Einleitung ====== Im folgenden Wiki Modul beschäftigen wir uns mit der Clusteranalyse. Dabei stehen drei zentrale Fragen im Vordergrund, welche im Anschluss geklärt werden sollen und somit einen Überblick über die Thematik der Clusteranalyse verschaffen sollen: * Was ist unter Clusteranalyse zu verstehen? * Wann kommt es zur Anwendung einer Clusteranalyse? * Wie sehen die verschiedenen Schritte einer Clusteranalyse aus? Der Begriff Cluster stammt aus dem Englischen und bedeutet „Gruppe“ oder „Anhäufung“. Clusteranalyse bedeutet also, dass ein „Haufen“ von Daten auf ihren Inhalt analysiert wird. Das Bestreben bei der Durchführung einer Clusteranalyse ist es, dass die Unterschiede innerhalb der Cluster möglichst klein bleiben (homogen) und die Unterschiede zwischen den Clustern möglichst groß (heterogen) (Bortz, Jürgen, Bortz-Döring, Döring, Nicola, 2009). Die Clusteranalyse identifiziert also in einer heterogenen Menge von verschiedenen Objekten homogener Teilmengen. Um Cluster bilden zu können, muss die Ähnlichkeit der zu untersuchenden Objekte genau genug gemessen werden können. Das ideale Verfahren hierfür ist die Clusteranalyse. Diese erfordert nur geringe Voraussetzungen und ist somit in fast jeder Situation anwendbar. Dabei ist die Fülle an Information der Ergebnisse jedoch auch geringer als der von anderen multivariabler Analyseverfahren, wie beispielsweise bei der [[/fm/quant_fometh/ws14_projekte/qfm12|Faktorenanalyse]].

verfasst von Florian Weber


====== Beispiele ====== Es folgen verschiedene Beispiele, um die Clusteranalyse in der Praxis zu nutzen und anzuwenden. * Gruppierungen von Käuferschichten oder Absatzmärkten im Marketing ^ Einkommen ^ Alter ^ Familienstand ^ Kinder ^ Abschluss ^ | 35.000 | 40 | ledig | 2 | Mittlere Reife | | 15.000 | 24 | verheiratet | 1 | Universität | | 25.000 | 35 | geschieden | 3 | FH | | 40.000 | 23 | verheiratet | 1 | Universität | | 70.000 | 55 | geschieden | 0 | FH | | 200.000 | 48 | verheiratet | 6 | Mittlere Reife | | 150.000 | 50 | geschieden | 2 | Universität | | 90.000 | 38 | verheiratet | 1 | Universität | | Abb. 1 Zusammenfassung von Käuferschichten, Multivariante Statistik für Betriebswirte |||| * Zusammenhang zwischen Selbstbild und Wahl einer Automarke | Kaufkriterium 1| Ausstrahlung und Emotionen| | Kaufkriterium 2| sachlicher Nutzen| | Kaufkriterium 3| Komfortanspruch| | Abb. 2 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008) |||| * Zusammenfassung von Stadtteilen der Stadt München in homogener Cluster | Bevölkerungsdichte| | Haushaltsgröße| | Geschlecht| | Altersstruktur| | Größe der Stadtteile| | Familienstand| | Einkommen| | Herkunft| | Abb. 3 Beispiele zur Clusterbildung, mod. nach Gutfleisch (2008) ||||

verfasst von Florian Weber


====== Methodik ====== Clusteranalysen lassen sich in zwei Hauptverfahren, die hierarchischen und die partitionierende Verfahren, und einer Vielzahl von Unterverfahren einteilen. Bei den partitionierenden Verfahren sind alle Elemente zu Beginn zufällig in eine festgelegte Anzahl von Clustern zugeteilt. Danach werden die Elemente Schritt für Schritt ausgetauscht bis ein Optimum erreicht wurde. Bei den hierarchischen Verfahren bildet zunächst jedes Element seine eigene Gruppe. Anhand ihrer Ähnlichkeit bzw. Distanz untereinander werden sie dann in Cluster zusammengeführt. Dies erfolgt in mehreren Iterationsschritten bis eine gewünschte bzw. geeignete Anzahl an Clustern entstanden ist. {{ :quantfm:clusteranalyse.png?nolink&800 |}} | Abb. 4 Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen (Natter, 2011) |||| Im Folgenenden wird anhand eines vereinfachten Beispiels die Durchführung einer Clusteranalyse nach dem Single-Linkage Verfahren dargestellt. Verschiedene Laufschuhkäufer Segmente. === 1. Wahl der Segmentierungsbasis und der Deskriptoren === Ausgangspunkt der Clusteranalyse sind die erhobenen Daten, beispielsweise Umfragedaten. Die Basis bieten zur Segmentierung sind die Eigenschaften anhand derer die Konsumenten eingeteilt werden. In diesem Beispiel die Wichtigkeit bestimmter Eigenschaften (Komfort, Preis und Aussehen) und Präferenzen der Marken (Asics, Adidas, Nike) von Laufschuhen. Die Deskriptoren sind die Eigenschaften, die helfen die unterschiedlichen Konsumentensegmente zu definieren - gute Deskriptoren haben geringe Überschneidungen (z.B. Demographika). ^ ^ Laufkomfort ^ Preis ^ Aussehen ^ Asics ^ adidas ^ Nike ^ | Saskia | 5 | 2 | 20 | 1 | 3 | 6 | | Gerd | 4 | 3 | 10 | 7 | 2 | 2 | | Hakan | 3 | 3 | 30 | 5 | 3 | 5 | | Marie | 5 | 5 | 70 | 3 | 5 | 7 | | Hanna | 6 | 7 | 80 | 5 | 5 | 6 | | Abb. 5 mod. nach Natter (2011) |||| Liegen, wie in diesem Beispiel beim „Aussehen“, Daten unterschiedlicher Skalen vor, müssen die Werte zunächst standardisiert werden um sie vergleichbar zu machen. Dazu subtrahiert man den [[fm/stat/stat03|Mittelwert]] und dividiert durch die Standardabweichung. (Z.B.: Saskias Angabe zu „Laufkomfort“: 5 - 4,6 / 1,14 = 0,35) Daraus ergeben sich folgende Werte: ^ ^ Laufkomfort ^ Preis ^ Aussehen ^ Asics ^ adidas ^ Nike ^ | Saskia | 0,35 | -1,00 | -0,71 | -1,4 | 0,45 | 0,42 | | Gerd | -0,53| -0,50 | -1,03| 1,23 | -1,19 | -1,66 | | Hakan | -1,40 | -0,50 | -0,39 | 0,35 | -0,45 | 0,10 | | Marie | 0,35 | 0,50 | 0,90 | -0,53 | 1,04 | 0,94 | | Hanna | 1,23 | 1,50 | 1,22 | 0,35 | 1,04 | 0,42 | | Abb. 6 mod. nach Natter (2011) |||| === 2. Auswahl eines Ähnlichkeits- oder Distanzmaßes === Distanzmaße dienen der Bestimmung der Distanz zwischen zwei Einzelobjekten, die als Grundlage der Zuteilung in die Cluster dienen. In diesem Beispiel wurde die L1-Norm gewählt, bei der sich die Distanz wie folgt berechnet: **L2-Norm (Euklidische Distanz)** {{:quantfm:euklidische_distanz.png?nolink&600 |}} Wobei Dij = Distanz der Objekte i und j Xki = Wert der Variablen k bei Objekt i === 3. Wahl eines Segmentierungsverfahrens === Beim Single Linkage Verfahren, werden die Objekte der kleinsten Distanz zusammengelegt. Zunächst wird eine Distanzmatrix erstellt, die mit dem L2-Distanzmaß berechnet wird. {{ youtube>large:FfAhcVDnACg&feature }} | Abb. 7 mod. nach Natter (2011) |||| Erstellt durch Christian Hinz Illustration ^ ^ Saskia ^ Gerd ^ Hakan ^ Marie ^ Hanna ^ | Saskia | 0 | | | | | | Gerd | 3,60 | 0 | | | | | Hakan | 2,60 | 2,22 | 0 | | | | Marie | 2,84 | 4,51 | 3,13 | 0 | | | Hanna | 4,00 | 4,71 | 4,00 | 1,71 | 0 | | Abb. 8 mod. nach Natter (2011) |||| Es folgen mehrere Zuordnungsrunden um die Cluster zu bilden. Bei umfangreicheren Datenmengen kann der Computer hier mehre hundert oder 1000 Iterationen durchlaufen. Die Elemente mit dem geringsten Abstand (Marie und Hanna) werden zusammengelegt. Dabei werden jeweils die kleinsten Distanzen zu den anderen Personen für das neu gebildete Cluster übernommen. Damit verändert sich die Matrix wie folgt: ^ ^ Saskia ^ Gerd ^ Hakan ^ Marie/Hanna ^ | Saskia | 0 | | | | | Gerd | 3,60 | 0 | | | | Hakan | 2,60 | 2,22 | 0 | | | Marie/Hanna | 2,84 | 4,51 | 3,13 | 0 | | Abb. 9 mod. nach Natter (2011) |||| Nun weißt Gerd zu Hakan auf, sie bilden das nächste Cluster ^ ^ Saskia ^ Gerd/Hakan ^ Marie/Hanna ^ | Saskia | 0 | | | | Gerd/Hakan | 3,60 | 0 | | | Marie/Hanna | 2,84 | 4,51 | 0 | | Abb. 10 mod. nach Natter (2011) |||| Saskia wird dem Cluster „Gerd/Hakan“ zugeteilt. ^ ^ Saskia/Gerd/Hakan ^ Marie/Hanna ^ | Saskia/Gerd/Hakan | 0 | | | Marie/Hanna | 2,84 | 0 | | Abb. 11 mod. nach Natter (2011) |||| Es sind zwei Cluster entstanden. Cluster 1 = Saskia/Gerd/Hakan und Cluster 2 = Marie/Hanna {{ youtube>large:iXS_X1OY_sw&feature }} | Abb. 12 mod. nach Natter (2011) |||| Erstellt durch Christian Hinz === 4. Interpretation === Was ist die richtige Anzahl an Segmenten: Statistische Kriterien: z.B. Relativer Unterschied in der Fehlerquadratsumme (Dendrogramm / Screeplot) * Theorie (wie viele Segmente werden in der Theorie vorgeschlagen) * Interpretation (welche Interpretation macht am meisten Sinn) * Wirtschaftlichkeit Größe der Cluster / Kosten der Bearbeitung Anhand der Deskriptoren können Rückschlüsse auf die entstandenen Cluster gezogen werden und für Marketingmaßnahmen genutzt werden. Es zeigt sich, das Cluster 1 (Saskia/Gerd/Hakan) dem „Preis“ und dem „Aussehen“ wenig Wichtigkeit zuschreiben. Schlussfolgerung könnte hier sein, dass sie ein Laufsport Segment darstellen – Schuhe müssen für sie vor Allem funktionell sein. Im weiteren Verlauf sollten weitere Daten wie demographische Angaben oder Kaufentscheidungen, in Zusammenhang gesetzt werden, um genauer herauszufinden was für Konsumenten es sich handelt. Wie alt sind sie? Wo kommen sie her? Welche Marke bevorzugen sie? Durch die verschiedenen Verfahren und statistischen Varianten erscheint das Feld der Clusteranalysen insgesamt relativ komplex. Wichtig ist daher die genaue Dokumentation der einzelnen Ablaufschritte. Dafür bieten Clusteranalysen eine sehr große Flexibilität in der Anwendung auf verschiedene Fragestellungen. Besonders im Marketing bilden Segmentierungen anhand von Clusteranalysen häufig die Grundlagen für anschließende Zielgruppenauswahl und eine entsprechende Positionierung im Markt. Das beschriebene Beispiel (oben) zeigt eine vereinfachte Veranschaulichung einer Clusteranalyse. Ein konkretes Anwendungsbeispiel liefert Murcias [[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786237/|Studie]] „Young Athletes’ Motivational Profiles“. Hier wurde eine hierarchische Clusteranalyse angewandt um verschiedene Sportler Profile zu erstellen.

verfasst von Christian Hinz


**Vorteile und Nachteile der Clusteranalyse** ^ Vorteile ^ Nachteile ^ | Zusammenfassung verschiedener Objekte zu geordneten Gruppen | Feste Zuordnung zu den Clustern | | Durch Clusterbildung nimmt Komplexität ab | Großer Strukturbaum bei hohen Datenmengen | | Jeder Rechendurchgang führt zum selben Resultat | | | Abb. 13 mod. nach Natter (2011)||||

verfasst von Florian Weber


====== Fazit ====== Die Clusteranalyse bietet die Möglichkeit, anhand von unterschiedlichen Verfahren (z.B. Single Linkage), große ungleiche Datenmengen, in gleiche Datenmengen zu verwandeln und sie vergleichbar zu machen. Dadurch werden die Cluster etappenweise zusammengefasst. ====== Fragen ====== - Was bedeutet Clusterverfahren? - Welche Verfahren gibt es bei der Clusteranalyse? - Welche Vor,- bzw. Nachteile hat die hierarchische Clusteranalyse? - Gebe ein Beispiel für die Anwendung einer Clusteranalyse - Welches sportbezogene Beispiel fällt dir ein, um eine Clusteranalyse durchzuführen? ====== Literatur ====== Bortz, Jürgen, Bortz-Döring, Döring, Nicola (2009), (S.377): //Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler// ; mit 87 Tabellen. 4. Aufl. Heidelberg: Springer-Medizin-Verl. (Springer-Lehrbuch Bachelor, Master). Lilien, G.L. / Rangaswamy, A. (2004), "Marketing Engineering: Computer-Assisted Marketing Analysis and Planning", Reading (Mass.) et al. Backhaus et al. (2006): Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, S. 495. Prof. Dr. Natter, Martin (2011), (S.29-53) "Überblick – Clusterverfahrens bzw. Fusionierungsalgorithmen" Marketing 2, Goethe-Universität Frankfurt am Main ====== Internetquellen ====== Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen, AG Methodik – Verband Deutscher Städtestatistiker, //Leitfaden Clusteranalyse – Teil 2//, http://www.staedtestatistik.de/fileadmin/vdst/ag-methodik/Leitfaeden/2008_AGMethodik_LeitfadenClusteranalyse_Teil2.pdf , Zugriff am: 23.06.2015 Juan Antonio Moreno Murcia, Eduardo Cervelló Gimeno and David González-Cutre Coll, J Sports Sci Med. 2007 Jun; 6(2): 172–179, Published online 2007 Jun 1. "Young Athletes’ Motivational Profiles, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786237/ Zugriff am: 23.06.2015 Multivariate Statistik für Betriebswirte, Clusteranalyse, http://homepage.univie.ac.at/michaela.denk/Clust.pdf, Zugriff am 23.06.2015 ----
Bewertung des Wiki-Moduls ^ Kategorie ^ Kristian Döbler ^ David Heckmann ^ Anmerkungen | ^ Inhalt (max. 10) | 08 Pkt | 08 Pkt | gutes Beispiel zur Erläuterung, weiterführende Literatur wünschenswert | ^ Form (max. 5) | 03 Pkt | 03 Pkt | Anordnung teilweise unübersichtlich, Beschriftungen und Verweise | ^ Bonus (max. 2) | 01 Pkt | 01 Pkt | Videogestützte Erläuterung des Vorgehens | ^ Summe | 12 Pkt | 12 Pkt | 24 Pkt | ^ Einzelbewertung | 12/15=80% | 12/15=80% | 24/30 = 80% | {{indexmenu_n>17}}