STAT2 Deskriptive Statistik

Modul STAT2 Deskriptive Statistik
Kategorie Statistik
Autor Filip Cengic
Voraussetzung STAT1
Bearbeitungsdauer ca. 45 Minuten
Lehrveranstaltung Lernziel
PS Forschungsmethoden 2 - Welche Methoden gibt es?
- Welche Aussage treffen diese?
- Wozu werden sie verwendet?
SE Quantitative Forschungsmethoden - Unterschiede der absoluten und relativen Häufigkeit verstehen
- Berechnung und Aussagekraft (Interpretation) der genannten statistischen Kennzahlen kennen und anwenden können
- Unterschiedliche Skalenniveaus und Beispiele dieser kennen

Einleitung

Hier widmen wir uns der Fragestellung, wie mit einer Vielzahl an Daten umzugehen ist. Es ist sehr wichtig die Daten zunächst zusammenzufassen und auszuwerten, um eine anschließende Interpretation zu ermöglichen. Insbesondere das „Zusammenfassen“ oder die grafischen Darstellung der Daten sind wesentlicher Bestandteil der deskriptiven Statistik. Hartung (1987, S. 15) definiert die deskriptive Statistik als „das direkte Instrumentarium zur Beschreibung von Datenmaterial“. Sie ist die Vorstufe der Analyse von Datenmaterial und somit die Vorstufe der schließenden Statistik. Ein mögliches Instrumentarium zur Beschreibung von Datenmaterial ist das arithmetische Mittel (auch: Mittelwert). Jedoch reicht der Mittelwert zur Analyse eines Datensatzes meistens nicht aus. Deshalb ist es wichtig statistische Kennwerte richtig zu verstehen und zu interpretieren.

Exkurs: Dazu ein Gedicht (P. H. List, aus J. Hartung, 1987)

Absolute und relative Häufigkeit

Absolute Häufigkeit:

$H_n(a_j)\ =\ “Anzahl\ der\ Fälle,\ in\ denen\ a_j\ auftritt“;\ \ für\ \ j = 1, 2, 3, \ldots, k$

$H_n(a_1)\ +\ H_n(a_2)\ + \ldots H_n(a_k) = \sum_{j=1}^k H_n(a_j)= n$

Relative Häufigkeit:

$h_n(a_j)= \frac{1}{n} * H_n(a_j);\ \ für\ \ j = 1, 2, 3, \ldots, k$

$h_n(a_1)\ +\ \ldots +\ h_n(a_k)=\frac{1}{n} * \sum_{j=1}^k H_n(a_j)=\frac{n}{n}=1$

In einfacheren Worten ausgedrückt, als mit mathematischen Formeln, bezeichnet die absolute Häufigkeit die (absolute) Anzahl aller Merkmalsausprägungen. Die relative Häufigkeit gibt Auskunft über den prozentualen Anteil verschiedener Merkmalsausprägungen. Einen Überblick über die absoluten/relativen Häufigkeiten gewinnt man am besten durch das Anfertigen einer Strichliste (Hartung, 1987, S. 20f.)

Anzahl kariöser
Zähne $a_j$
Strichliste $H_n(a_j)$ $h_n(a_j)$
0 lllll lllll lllll lllll lllll lllll 30 0,30
1 lllll lllll lllll lllll lllll lllll llll 34 0,34
2 lllll lllll llll 14 0,14
3 lllll lllll 10 0,10
4 llll 4 0,04
5 lllll 5 0,05
6 l 1 0,01
7 ll 2 0,02
Gesamt 100 1,00


Grafische Darstellung

Für die Darstellung von absoluten Häufigkeiten eignen sich Liniendiagramme, Balkendiagramme (bzw. Säulendiagramme) oder Häufigkeitspolygone.

Abb. 1: Anfängliches Jahresgehalt in 1000 USD (mod. nach Ross, 2006, S. 11)


Die obige Abbildung zeigt das Anfangsgehalt (in 1000 USD) für 42 Hochschulabsolventen mit einem Bachelor in Elektrotechnik.

Erstellen Sie anhand des obigen Säulendiagramms die zugehörige Häufigkeitstabelle



Sollen relative Häufigkeiten anschaulich dargestellt werden, verwendet man i. d. R. Tortendiagramme (auch: Kreisdiagramme).

Abb. 2: Krebsarten der letzten 200 Patienten (aus Ross, 2006, S. 13)


Krebsart Zahl der
neuen Fälle
Relative
Häufigkeit
Lunge 42 0,21
Brust 50 0,25
Darm 32 0,16
Prostata 55 0,275
Hautkrebs 9 0,045
Blase 12 0,06


In einer Krebsklinik wurden die Krebsarten der letzten 200 Patienten aufgezeichnet. Abb. 2 zeigt den prozentualen Anteil der Krebsarten unter den letzten 200 verzeichneten Patienten in einem Tortendiagramm dargestellt.

Es gibt viele Darstellungsarten, Daten sinnvoll zusammenzufassen und anschaulich zu präsentieren. Ein Balkendiagramm der Klassendaten, bei der die Balken direkt nebeneinander eingezeichnet werden, nennt man ein Histogramm. Um den Umfang dieses Wiki-Eintrags nicht zu sprengen, wird hier auf eine ausführliche Beschreibung verzichtet.

Statistische Kennzahlen

1951 versuchten die britischen Medizinstatistiker R. Doll und A. B. Hill die gesundheitlichen Folgen bestimmter Verhaltensweisen (Essgewohnheiten, Rauchgewohnheiten, …) herauszufinden. Sie verschickten Fragebögen an alle Ärzte in Großbritannien und erhielten rund 40.000 Antworten. Als problematisch stellte sich die Riesenmenge an Daten heraus.

Dieser Abschnitt befasst sich mit statistischen Maßzahlen. Eine solche Maßzahl (z.B. der Mittelwert) ist eine geeignete numerische Größe, um die Mitte einer Menge von Datenwerten zu beschreiben.

Das arithmetische Mittel (auch: Mittelwert) wird als erste Kennzahl genauer unter die Lupe genommen. Dieser Wert wird mit $\bar{x}$ bezeichnet und ist definiert durch

$ \bar{x} = \sum_{i=1}^n \frac{x_i}{n} $

Zum besseren Verständnis wird folgendes Beispiel herangezogen (aus Ross, 2006, S. 17f.):

Die Punktzahlen der Sieger bei dem Golfturnier U.S. Masters in den Jahren 1982 bis 1991 waren

284, 280, 277, 282, 279, 285, 281, 283, 278, 277
Berechnen Sie den Mittelwert dieser Punktzahlen


Eine andere Maßzahl für die Mitte einer Stichprobe ist der Median. Der Buchstabe $n$ bezeichnet die Anzahl aller Elemente eines Datensatzes ($n$ = Stichprobenumfang). Wenn $n$ eine ungerade Zahl ist, dann befindet sich der Median an $\frac{n+1}{2}$-ter Stelle. Bei gerader Anzahl an Merkmalsausprägungen, ist der Median der Mittelwert der beiden Werte an den Stellen $\frac{n}{2}$ und $\frac{n}{2}+1$. Vor Ermittlung des Medians ist der Datensatz nach Größe aller Ausprägungen zu ordnen.

Beide, der Mittelwert und der Median einer Stichprobe, sind nützliche Maßzahlen, um die Lage der Mitte eines Datensatzes zu beschreiben. Im Gegensatz zum Mittelwert, nutzt der Median einen bzw. zwei Werte in der Mitte, und wird daher nicht durch Extremwerte beeinflusst. Welcher der beiden Kennzahlen sinnvoller ist, hängt davon ab, welche Informationen man aus den Daten ziehen möchte.

Als dritte statistische Maßzahl ist der Modalwert zu nennen. Er hebt jene am häufigsten aufgetretene Ausprägung hervor. Bei mehreren Ausprägungen mit gleicher Häufigkeit ist die Rede von Modalwerten.

Varianz und Standardabweichung

Bislang wurden Maßzahlen betrachtet, mit denen sich die Mitte einer Stichprobe beschreiben lässt. Um die Variabilität eines Datensatzes zu bestimmen, sind andere statistische Maßzahlen von Nöten, z.B. die Varianz einer Stichprobe. Sie summiert die Quadrate der Abstände der Messwerte zum Mittelwert (vgl. Ross, 2006, S. 21f.). Mathematisch ist die Varianz wie folgt definiert:

$s^2 = \sum_{i=1}^n \frac{(x_i - \bar{x})^2}{n-1}$

Hier wird die Summe der Abstände der Quadrate nicht durch die Stichprobenanzahl $n$ geteilt, sondern durch $n-1$. Wenn es um die empirische Varianz geht, so steht im Nenner $n-1$. Im Falle der nicht erwartungstreuen Varianz steht im Nenner lediglich ein $n$, welche wir im Rahmen der Anwendbarkeit in diesem Seminar nicht empfehlen zu nutzen.
Im Zähler werden die Quadrate der Abstände zum Mittelwert aufsummiert.

Warum wird der Zähler in jedem Iterationsschritt quadriert?


Aus der Varianz lässt sich sehr einfach die positive Quadratwurzel ziehen, dies nennt man die Standardabweichung der Stichprobe. Sie ist mathematisch folgendermaßen definiert:

$s= \sqrt{s^2} = \sqrt{\sum_{i=1}^n \frac{(x_i - \bar{x})^2}{n-1}}$

Bei der Standardabweichung geht es darum, wie weit die Messwerte um den Mittelwert streuen. Die Standardabweichung ist das klassische Beispiel zur Beschreibung der Streuung in der deskriptiven Statistik. Sie ist darum so beliebt, da sie dieselbe Einheit wie die Messwerte besitzt.

Skalenniveaus

Von Galileo Galilei stammt das Zitat: „Alles messen, was messbar ist und messbar machen, was es noch nicht ist“. Im Folgenden wird behandelt, welcher Definition der Messbegriff zugrunde liegt und welche Probleme bei der Quantifizierung auftreten.

Bös et al. (2004, S. 18ff.) unterscheiden bei der Definition von „Messung“ in eine naturwissenschaftliche und sozialwissenschaftliche Auffassung. Für Naturwissenschaftler sind die gewonnenen Messwerte ein Vielfaches bzw. ein Teil einer Maßeinheit (z.B. Längenmessung). Sozialwissenschaftler verstehen unter „Messung“ eine Zuordnung von Zahlen zu Objekten oder Ereignissen gemäß Regeln. Der Gegenstandsbereich der zu erfassenden Objekte trägt die Bezeichnung empirisches Relativ und deren zugeordnete Zahlenwerte nennt man numerisches Relativ. Die Abbildung, die diese Zuordnung leistet heißt Skala.

Beispiel 1: Körpergrößen
Bei der Zuordnung von Körpergrößen (empirisches Relativ) zu Zahlenwerten (numerisches Relativ) existiert ein fester Abbildungsmaßstab. Die verwendete Skala ist ein Maßband und dessen Einheit sind Zentimeter.

Beispiel 2: Fitness
Quantifizierungsprobleme treten u.a. bei der Zuordnung von Fitnessausprägungen (ER) zu Testpunkten (NR) auf. Es existiert a priori kein Maßstab, mit dessen Hilfe das Konstrukt „Fitness“ abgebildet werden kann. Eine mögliche Lösung des Problems wäre die Zusammenfassung der Auswirkungen eines Konstrukts in manifesten Variablen (z.B. Cooper-Test): „Fitness ist, was der Fitnesstest misst“ (Bös et al., 2004, S. 20).

In dem Buch „Empirische Untersuchungen in der Sportwissenschaft“, welches in der Vorlesung „Forschungsmethoden1“ genutzt wird, sind diese zwei Beispiele auf Seite 19 sehr gut mit einem Bild veranschaulicht.

Je nach der Art der Zuordnung und Anzahl der geltenden Relationen bei einer Messung unterscheidet man im Wesentlichen vier verschiedene Skalentypen.

Skalentyp Relation Beispiel
Nominalskala Äquivalenzrelation (= ), (≠) Kategoriale Unterscheidung:
Geschlecht (m / w), Augenfarbe, Beruf, Religionsbekenntnis
Ordinalskala Äquivalenzrelation (= ), (≠)
Ordnungsrelation (<), (>)
Geordnete Kategorien:
Schulnoten (1-6), Windstärken, Einkommensklassen
Intervallskala Äquivalenzrelation (= ), (≠)
Ordnungsrelation (<), (>)
Distanzrelation (+), (-)
Gleiche Abstände:
Zeitskala (Datum), Testscores
Verhältnisskala Äquivalenzrelation (= ), (≠)
Ordnungsrelation (<), (>)
Distanzrelation (+), (-)
Quotientenbildung (x), (÷)
Absoluter Nullpunkt:
Alter (0-99), Längen, Gewicht, Zeit, Temperatur, andere physikalische Größen


Zusammenfassung

Um die in diesem Kapitel vermittelten Inhalte besser nachzuvollziehen, schaut euch bitte folgendes Tutorial an.



Fragen

1. Bestimmen Sie aus den Punktzahlen der Sieger bei dem Golfturnier U.S. Masters den Median und die Standardabweichung!
2. Warum misst die Varianz die Quadrate der Abstände zwischen dem Mittelwert?
3. Worin liegt der Unterschied zwischen Standardabweichung un Varianz?



Literatur

Bös, K., Hänsel, F. & Schott, N. (2004). Empirische Untersuchungen in der Sportwissenschaft. Planung – Auswertung – Statistik. Hamburg: Czwalina.

Hartung, J. (1987). Statistik. München: Oldenbourg.

Ross, S. M. (2006). Statistik für Ingenieure und Naturwissenschaftler. Heidelberg: Elsevier GmbH, Spektrum Akademischer Verlag.


free hits

fm/stat/stat02.txt · Zuletzt geändert: 01.06.2016 14:25 von Christian Schumacher
GNU Free Documentation License 1.3
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0