Inhaltsverzeichnis
STAT2 Deskriptive Statistik
Modul | STAT2 Deskriptive Statistik |
---|---|
Kategorie | Statistik |
Autor | Filip Cengic |
Voraussetzung | STAT1 |
Bearbeitungsdauer | ca. 45 Minuten |
Lehrveranstaltung | Lernziel |
---|---|
PS Forschungsmethoden 2 | - Welche Methoden gibt es? - Welche Aussage treffen diese? - Wozu werden sie verwendet? |
SE Quantitative Forschungsmethoden | - Unterschiede der absoluten und relativen Häufigkeit verstehen - Berechnung und Aussagekraft (Interpretation) der genannten statistischen Kennzahlen kennen und anwenden können - Unterschiedliche Skalenniveaus und Beispiele dieser kennen |
Einleitung
Hier widmen wir uns der Fragestellung, wie mit einer Vielzahl an Daten umzugehen ist. Es ist sehr wichtig die Daten zunächst zusammenzufassen und auszuwerten, um eine anschließende Interpretation zu ermöglichen. Insbesondere das „Zusammenfassen“ oder die grafischen Darstellung der Daten sind wesentlicher Bestandteil der deskriptiven Statistik. Hartung (1987, S. 15) definiert die deskriptive Statistik als „das direkte Instrumentarium zur Beschreibung von Datenmaterial“. Sie ist die Vorstufe der Analyse von Datenmaterial und somit die Vorstufe der schließenden Statistik. Ein mögliches Instrumentarium zur Beschreibung von Datenmaterial ist das arithmetische Mittel (auch: Mittelwert). Jedoch reicht der Mittelwert zur Analyse eines Datensatzes meistens nicht aus. Deshalb ist es wichtig statistische Kennwerte richtig zu verstehen und zu interpretieren. <spoiler| Exkurs: Dazu ein Gedicht (P. H. List, aus J. Hartung, 1987)>
denkt dabei nur an Mittelwert.
Er glaubt nicht dran und ist dagegen,
ein Beispiel soll es gleich belegen:
Ein Jäger auf der Entenjagd
hat einen ersten Schuß gewagt.
Der Schuß, zu hastig aus dem Rohr,
lag eine Handbreit vor.
Der zweite Schuß mit lautem Krach
lag eine Handbreit nach.
Der Jäger spricht ganz unbeschwert
voll Glauben an den Mittelwert:
Statistisch ist die Ente tot.
Doch wär’ er klug und nähme Schrot
- dies sei gesagt ihn zu bekehren -
Er würde seine Chancen mehren:
Der Schuß geht ab, die Ente stürzt,
weil Streuung ihr das Leben kürzt."
Absolute und relative Häufigkeit
Absolute Häufigkeit:
$H_n(a_j)\ =\ “Anzahl\ der\ Fälle,\ in\ denen\ a_j\ auftritt“;\ \ für\ \ j = 1, 2, 3, \ldots, k$
$H_n(a_1)\ +\ H_n(a_2)\ + \ldots H_n(a_k) = \sum_{j=1}^k H_n(a_j)= n$
Relative Häufigkeit:
$h_n(a_j)= \frac{1}{n} * H_n(a_j);\ \ für\ \ j = 1, 2, 3, \ldots, k$
$h_n(a_1)\ +\ \ldots +\ h_n(a_k)=\frac{1}{n} * \sum_{j=1}^k H_n(a_j)=\frac{n}{n}=1$
In einfacheren Worten ausgedrückt, als mit mathematischen Formeln, bezeichnet die absolute Häufigkeit die (absolute) Anzahl aller Merkmalsausprägungen. Die relative Häufigkeit gibt Auskunft über den prozentualen Anteil verschiedener Merkmalsausprägungen. Einen Überblick über die absoluten/relativen Häufigkeiten gewinnt man am besten durch das Anfertigen einer Strichliste (Hartung, 1987, S. 20f.)
Anzahl kariöser Zähne $a_j$ | Strichliste | $H_n(a_j)$ | $h_n(a_j)$ |
---|---|---|---|
0 | lllll lllll lllll lllll lllll lllll | 30 | 0,30 |
1 | lllll lllll lllll lllll lllll lllll llll | 34 | 0,34 |
2 | lllll lllll llll | 14 | 0,14 |
3 | lllll lllll | 10 | 0,10 |
4 | llll | 4 | 0,04 |
5 | lllll | 5 | 0,05 |
6 | l | 1 | 0,01 |
7 | ll | 2 | 0,02 |
Gesamt | 100 | 1,00 |
Grafische Darstellung
Für die Darstellung von absoluten Häufigkeiten eignen sich Liniendiagramme, Balkendiagramme (bzw. Säulendiagramme) oder Häufigkeitspolygone.
Die obige Abbildung zeigt das Anfangsgehalt (in 1000 USD) für 42 Hochschulabsolventen mit einem Bachelor in Elektrotechnik.
<spoiler| Erstellen Sie anhand des obigen Säulendiagramms die zugehörige Häufigkeitstabelle>
Anfangsgehalt | Häufigkeit |
---|---|
47.000 USD | 4 |
48.000 USD | 1 |
49.000 USD | 3 |
50.000 USD | 5 |
51.000 USD | 8 |
52.000 USD | 10 |
53.000 USD | 0 |
54.000 USD | 5 |
56.000 USD | 2 |
57.000 USD | 3 |
60.000 USD | 1 |
</spoiler>
Sollen relative Häufigkeiten anschaulich dargestellt werden, verwendet man i. d. R. Tortendiagramme (auch: Kreisdiagramme).
Krebsart | Zahl der neuen Fälle | Relative Häufigkeit |
---|---|---|
Lunge | 42 | 0,21 |
Brust | 50 | 0,25 |
Darm | 32 | 0,16 |
Prostata | 55 | 0,275 |
Hautkrebs | 9 | 0,045 |
Blase | 12 | 0,06 |
In einer Krebsklinik wurden die Krebsarten der letzten 200 Patienten aufgezeichnet. Abb. 2 zeigt den prozentualen Anteil der Krebsarten unter den letzten 200 verzeichneten Patienten in einem Tortendiagramm dargestellt.
Es gibt viele Darstellungsarten, Daten sinnvoll zusammenzufassen und anschaulich zu präsentieren. Ein Balkendiagramm der Klassendaten, bei der die Balken direkt nebeneinander eingezeichnet werden, nennt man ein Histogramm. Um den Umfang dieses Wiki-Eintrags nicht zu sprengen, wird hier auf eine ausführliche Beschreibung verzichtet.
Statistische Kennzahlen
1951 versuchten die britischen Medizinstatistiker R. Doll und A. B. Hill die gesundheitlichen Folgen bestimmter Verhaltensweisen (Essgewohnheiten, Rauchgewohnheiten, …) herauszufinden. Sie verschickten Fragebögen an alle Ärzte in Großbritannien und erhielten rund 40.000 Antworten. Als problematisch stellte sich die Riesenmenge an Daten heraus.
Dieser Abschnitt befasst sich mit statistischen Maßzahlen. Eine solche Maßzahl (z.B. der Mittelwert) ist eine geeignete numerische Größe, um die Mitte einer Menge von Datenwerten zu beschreiben.
Das arithmetische Mittel (auch: Mittelwert) wird als erste Kennzahl genauer unter die Lupe genommen. Dieser Wert wird mit $\bar{x}$ bezeichnet und ist definiert durch
;#; $ \bar{x} = \sum_{i=1}^n \frac{x_i}{n} $ ;#;
Zum besseren Verständnis wird folgendes Beispiel herangezogen (aus Ross, 2006, S. 17f.):
Die Punktzahlen der Sieger bei dem Golfturnier U.S. Masters in den Jahren 1982 bis 1991 waren
284, 280, 277, 282, 279, 285, 281, 283, 278, 277 |
<spoiler| Berechnen Sie den Mittelwert dieser Punktzahlen>
$\bar{x}$ = 280,6 Punkte. Für nähere Beschreibung des Rechenwegs, s. STAT2 Tutorial.
</spoiler>
Eine andere Maßzahl für die Mitte einer Stichprobe ist der Median. Der Buchstabe $n$ bezeichnet die Anzahl aller Elemente eines Datensatzes ($n$ = Stichprobenumfang). Wenn $n$ eine ungerade Zahl ist, dann befindet sich der Median an $\frac{n+1}{2}$-ter Stelle. Bei gerader Anzahl an Merkmalsausprägungen, ist der Median der Mittelwert der beiden Werte an den Stellen $\frac{n}{2}$ und $\frac{n}{2}+1$. Vor Ermittlung des Medians ist der Datensatz nach Größe aller Ausprägungen zu ordnen.
Beide, der Mittelwert und der Median einer Stichprobe, sind nützliche Maßzahlen, um die Lage der Mitte eines Datensatzes zu beschreiben. Im Gegensatz zum Mittelwert, nutzt der Median einen bzw. zwei Werte in der Mitte, und wird daher nicht durch Extremwerte beeinflusst. Welcher der beiden Kennzahlen sinnvoller ist, hängt davon ab, welche Informationen man aus den Daten ziehen möchte.
Als dritte statistische Maßzahl ist der Modalwert zu nennen. Er hebt jene am häufigsten aufgetretene Ausprägung hervor. Bei mehreren Ausprägungen mit gleicher Häufigkeit ist die Rede von Modalwerten.
Varianz und Standardabweichung
Bislang wurden Maßzahlen betrachtet, mit denen sich die Mitte einer Stichprobe beschreiben lässt. Um die Variabilität eines Datensatzes zu bestimmen, sind andere statistische Maßzahlen von Nöten, z.B. die Varianz einer Stichprobe. Sie summiert die Quadrate der Abstände der Messwerte zum Mittelwert (vgl. Ross, 2006, S. 21f.). Mathematisch ist die Varianz wie folgt definiert:
;#; $s^2 = \sum_{i=1}^n \frac{(x_i - \bar{x})^2}{n-1}$ ;#;
Hier wird die Summe der Abstände der Quadrate nicht durch die Stichprobenanzahl $n$ geteilt, sondern durch $n-1$. Wenn es um die empirische Varianz geht, so steht im Nenner $n-1$. Im Falle der nicht erwartungstreuen Varianz steht im Nenner lediglich ein $n$, welche wir im Rahmen der Anwendbarkeit in diesem Seminar nicht empfehlen zu nutzen.
Im Zähler werden die Quadrate der Abstände zum Mittelwert aufsummiert.
<spoiler| Warum wird der Zähler in jedem Iterationsschritt quadriert?>
Zum Einen hat dies den Vorteil, dass Quadratzahlen immer positiv sind. So wird sichergestellt, dass keine negativen Zahlen in die Berechnung mit einfließen. Zusätzlich werden die Ausreißer, deren Wert einen größeren Abstand zum arithmetischen Mittel haben, stärker gewichtet. Dies kann sowohl vorteilhaft, als auch ein Nachteil sein.
</spoiler>
Aus der Varianz lässt sich sehr einfach die positive Quadratwurzel ziehen, dies nennt man die Standardabweichung der Stichprobe. Sie ist mathematisch folgendermaßen definiert:
;#; $s= \sqrt{s^2} = \sqrt{\sum_{i=1}^n \frac{(x_i - \bar{x})^2}{n-1}}$ ;#;
Bei der Standardabweichung geht es darum, wie weit die Messwerte um den Mittelwert streuen. Die Standardabweichung ist das klassische Beispiel zur Beschreibung der Streuung in der deskriptiven Statistik. Sie ist darum so beliebt, da sie dieselbe Einheit wie die Messwerte besitzt.
Skalenniveaus
Von Galileo Galilei stammt das Zitat: „Alles messen, was messbar ist und messbar machen, was es noch nicht ist“. Im Folgenden wird behandelt, welcher Definition der Messbegriff zugrunde liegt und welche Probleme bei der Quantifizierung auftreten.
Bös et al. (2004, S. 18ff.) unterscheiden bei der Definition von „Messung“ in eine naturwissenschaftliche und sozialwissenschaftliche Auffassung. Für Naturwissenschaftler sind die gewonnenen Messwerte ein Vielfaches bzw. ein Teil einer Maßeinheit (z.B. Längenmessung). Sozialwissenschaftler verstehen unter „Messung“ eine Zuordnung von Zahlen zu Objekten oder Ereignissen gemäß Regeln. Der Gegenstandsbereich der zu erfassenden Objekte trägt die Bezeichnung empirisches Relativ und deren zugeordnete Zahlenwerte nennt man numerisches Relativ. Die Abbildung, die diese Zuordnung leistet heißt Skala.
Beispiel 1: Körpergrößen
Bei der Zuordnung von Körpergrößen (empirisches Relativ) zu Zahlenwerten (numerisches Relativ) existiert ein fester Abbildungsmaßstab. Die verwendete Skala ist ein Maßband und dessen Einheit sind Zentimeter.
Beispiel 2: Fitness
Quantifizierungsprobleme treten u.a. bei der Zuordnung von Fitnessausprägungen (ER) zu Testpunkten (NR) auf. Es existiert a priori kein Maßstab, mit dessen Hilfe das Konstrukt „Fitness“ abgebildet werden kann. Eine mögliche Lösung des Problems wäre die Zusammenfassung der Auswirkungen eines Konstrukts in manifesten Variablen (z.B. Cooper-Test): „Fitness ist, was der Fitnesstest misst“ (Bös et al., 2004, S. 20).
In dem Buch „Empirische Untersuchungen in der Sportwissenschaft“, welches in der Vorlesung „Forschungsmethoden1“ genutzt wird, sind diese zwei Beispiele auf Seite 19 sehr gut mit einem Bild veranschaulicht.
Je nach der Art der Zuordnung und Anzahl der geltenden Relationen bei einer Messung unterscheidet man im Wesentlichen vier verschiedene Skalentypen.
Skalentyp | Relation | Beispiel |
---|---|---|
Nominalskala | Äquivalenzrelation (= ), (≠) | Kategoriale Unterscheidung: Geschlecht (m / w), Augenfarbe, Beruf, Religionsbekenntnis |
Ordinalskala | Äquivalenzrelation (= ), (≠) Ordnungsrelation (<), (>) | Geordnete Kategorien: Schulnoten (1-6), Windstärken, Einkommensklassen |
Intervallskala | Äquivalenzrelation (= ), (≠) Ordnungsrelation (<), (>) Distanzrelation (+), (-) | Gleiche Abstände: Zeitskala (Datum), Testscores |
Verhältnisskala | Äquivalenzrelation (= ), (≠) Ordnungsrelation (<), (>) Distanzrelation (+), (-) Quotientenbildung (x), (÷) | Absoluter Nullpunkt: Alter (0-99), Längen, Gewicht, Zeit, Temperatur, andere physikalische Größen |
Zusammenfassung
Um die in diesem Kapitel vermittelten Inhalte besser nachzuvollziehen, schaut euch bitte folgendes Tutorial an.
Fragen
<spoiler| 1. Bestimmen Sie aus den Punktzahlen der Sieger bei dem Golfturnier U.S. Masters den Median und die Standardabweichung!> s. Tutorial zu STAT2. </spoiler>
<spoiler| 2. Warum misst die Varianz die Quadrate der Abstände zwischen dem Mittelwert?> Die Quadrate der Abstände sind immer positiv. So wird sichergestellt, dass keine negativen Zahlen in die Berechnung mit einfließen. </spoiler>
<spoiler| 3. Worin liegt der Unterschied zwischen Standardabweichung un Varianz?> Die Varianz gibt an, wie stark die Messdaten um den Mittelwert streuen. Bei der Standardabweichung geht es darum, wie weit sie streuen. Häufig wird die Standardabweichung zum Beschreiben von Datensätzen verwendet, da sie dieselbe Einheit wie die Befragungswerte besitzt. </spoiler>
Literatur
Bös, K., Hänsel, F. & Schott, N. (2004). Empirische Untersuchungen in der Sportwissenschaft. Planung – Auswertung – Statistik. Hamburg: Czwalina.
Hartung, J. (1987). Statistik. München: Oldenbourg.
Ross, S. M. (2006). Statistik für Ingenieure und Naturwissenschaftler. Heidelberg: Elsevier GmbH, Spektrum Akademischer Verlag.