STAT1 Grundlagen

Modul STAT1 Grundlagen Statistik
Kategorie Statistik
Autor Filip Cengic
Voraussetzung -
Bearbeitungsdauer ca. 45 Minuten
Lehrveranstaltung Lernziel
SE Quantitative Forschungsmethoden - Grundbegriffe der Statistik kennen und anwenden können
- Stufen der Statistik kennen
- Ansätze der deskriptiven und induktiven Statistik unterscheiden und Beispiele entwickeln können

Einleitung

Mit dem Wandel der Zeit änderte sich auch die Bedeutung des Begriffes Statistik (vgl. Schulze, 2000, S. 1). Das frühere Verständnis der Menschheit nutzte diesen Begriff für die Zusammenstellung von Daten zur Beschreibung realer Erscheinungen bestimmter Umweltausschnitte (z.B. Arbeitslosenstatistik).

Heute ist die Statistik mehr als nur eine Ansammlung von Daten, sie bezeichnet die Gesamtheit des methodischen Instrumentariums und erstreckt sich von der Problemanalyse bis zur Dateninterpretation. Sie ist das Werkzeug, welches dazu beiträgt Messdaten praktisch nutzbar zu machen (vgl. Ostle & Malone, 1988, S.4). Abbildung 1 gibt einen Überblick über die Bereiche der Statistik.

Abb.1: Statistik untergliedert

1667 begann auch die Stadt Paris Sterbeberichte zu sammeln und bis 1730 war es eine in ganz Europa verbreitete Praxis das Alter der Verstorbenen aufzuzeichnen. Bis zum 18. Jahrhundert galt die Statistik als beschreibende Wissenschaft der Staaten. Erst im späten 19. Jahrhundert befasste die Statistik sich damit, auch Schlüsse aus ihren numerischen Daten zu ziehen.

Exkurs: die geschichtliche Entwicklung der Statistik

Definition

Hänsel et al. (2004, S. 10) definieren die Statistik folgendermaßen: „Statistik ist eine auf Methoden ausgerichtete Wissenschaft, die keinen eigenen inhaltlichen Gegenstandsbereich hat, sondern bei der Lösung unterschiedlichster Probleme in Wissenschaft, Wirtschaft und Technik angewandt wird.“ Der französische Schriftsteller Edmond de Goncourt (1822-1896) tat sich bei der Definition der Statistik nicht so schwer. Er sagte einst, die Statistik sei die erste der ungenauen Wissenschaften.

Naturwissenschaftler und Ingenieure hielten die Statistik eine Zeit lang für überflüssig, bis sie erkannten, dass ihre Wissenschaft ebenfalls vielen statistischen Konzepten unterliegt. Für Messungen benutzen sie ein Lineal, Thermometer oder eine Kraftmessplatte. Es handelt sich um exakte Messungen und nicht um Berechnung von Trendlinien oder Mittelwerten (Ostle & Malone, 1988, S.4ff.). Im Grunde genommen aber basieren diese Wissenschaften auf statistischen Konzepten, z.B. reduziert die Physik sämtliche Segmentmassen des menschlichen Körpers auf einen Punkt oberhalb der Hüfte, den Körperschwerpunkt.

Grundbegriffe

Ohne Grundbegriffe geht hier nichts. Folgende Begriffe solltet ihr euch einprägen (vgl. Pflaumer et a., 2009, S.13):

Als Merkmalsträger (auch: statistische Variable) werden Personen, Objekte oder Ereignisse bezeichnet, die einer statistischen Untersuchung zugrunde liegen und durch bestimmte Eigenschaften gekennzeichnet sind. Schlittgen (2012, S.5) unterteilt diese Variablen in diskrete, wo endlich viele oder höchstens abzählbar viele unterschiedliche Werte möglich sind, und stetige Variablen. Bei Letzteren sind alle Werte eines Intervalls als Realisationen denkbar.

In folgender Tabelle sind einige Beispiele zu stetigen und diskreten Variablen. Kannst Du bereits beim Lesen der Variablen die Art der Variable zuordnen?

Variable Art der Variable
Geschlecht diskret
Bruttoverdienst $\in \mathbb{Z}$ (alle ganzen Zahlen 0, 1, 2, …) stetig
Messungen mit Kraftmessplatte stetig
Augenzahl beim Würfeln diskret
Körpergröße stetig
Temperatur stetig
Anzahl der Kinder diskret

Hinsichtlich des Untersuchungsziels sollen an den Merkmalsträgern Eigenschaften festgelegt werden. Diese Eigenschaften werden als Merkmale bezeichnet. Es gibt zwei Arten von Merkmalen:

  • Quantitative Merkmale
  • Qualitative Merkmale

Ausprägungen quantitativer Merkmale unterscheiden sich durch ihre Größe. Quantitative Merkmale sind z.B. das Alter, Gewicht, Einkommen, Temperatur oder die Lebensdauer. Für qualitative Merkmale stehen Geschlecht, Beruf, Augenfarbe, Schulnoten.

Grundgesamtheit

Die Statistik ist bemüht Informationen über eine Menge von Elementen (Merkmalsträger) zu erhalten (vgl. Ross, 2006, S.3). Diese Menge wird als Grundgesamtheit bezeichnet. Oft ist diese Menge zu groß, als dass man jedes ihrer Elemente untersuchen könnte, z.B. Einwohner eines Landes oder alle Fernsehapparate die von einem Hersteller im letzten Jahr produziert wurden. Zur Lösung des Problems bietet es sich an bei der Datenerhebung Stichproben zu ziehen. Eine Frage, die sich dann stellt, ist die Frage nach der Repräsentativität der Stichprobe. Schlittgen (2012, S.3) nennt den Auswahlsatz als Maßnahme zur Sicherung der Repräsentativität einer Stichprobe.

$Auswahlsatz = \frac{Umfang\ der\ Stichprobe}{Umfang\ der\ Grundgesamtheit} * 100$

Nehmen wir als Beispiel die Altersverteilung der Einwohner in Darmstadt. Dazu erfragen wir das Alter der ersten 100 Besucher in der Universitäts- und Landesbibliothek (ULB). Wenn wir herausfinden, dass das Durchschnittsalter 38,5 Jahre beträgt, können wir daraus auf das Durchschnittsalter aller Einwohner in Darmstadt schließen? Meist benutzen junge Schüler und Studenten oder auch Rentner die ULB bevorzugter als Berufstätige. Dementsprechend ist die ausgewählte Stichprobe nicht repräsentativ. Ein wesentliches Kriterium für die Repräsentativität einer Stichprobe ist der Zufall: „Jede nicht zufällige Regel für die Zusammenstellung einer Stichprobe kann zu einer Probe führen, bei der bestimmte Datenwerte zugunsten anderer Werte ausgedrückt werden“ (Ross, 2006, S.3).

Identifikationskriterien

Die Menge aller Merkmalsträger, die in sachlicher, örtlicher und zeitlicher Form abgegrenzt ist wird als Grundgesamtheit der Untersuchung bezeichnet.

Ein Beispiel für eine Grundgesamtheit sind alle Studierenden, die am 1. Januar 2014 (zeitliche Identifikation) mit ihrem Hauptwohnsitz (sachliche Identifikation) in Darmstadt (örtliche Identifikation) gemeldet sind. Je nach Eingrenzung der Grundgesamtheit über ein zeitliches Kriterium ist die Rede von Bestandsmassen oder Bewegungsmassen. Als Beispiel für Bestandsmassen ist der Lagerbestand der Universitäts- und Landesbibliothek in Darmstadt zu nennen. Hier kann zu einem festen Zeitpunkt der Bestand an Merkmalsträgern festgelegt werden.

Geben Sie ein Beispiel für Bewegungsmassen


Stufen der Statistik

Schulze (2000, S. 2ff.) untergliedert den statistischen Analyseprozess in 5 Schritte. Ausgehend von einer genauen Problembeschreibung wird die Fragestellung formuliert (Schritt 1 - Planung). Dabei ist wichtig eine sachliche, räumliche und zeitliche Abgrenzung, sowie die Art der zu beschaffenden Informationen festzulegen. Ist das Problem präzise formuliert, so kann der Statistiker im zweiten Schritt der Frage der Datengewinnung nachgehen. Mit einer Erfassung werden die Merkmalsausprägungen in einer Grundgesamtheit festgestellt. Es bestehen verschiedene Möglichkeiten, Daten zu erheben (Pflaumer et al., 2009, S.11):

  • Befragung (schriftlich - mündlich)
  • Experiment
  • Beobachtung

Die Datenerfassung kann als Vollerhebung oder als Teilerhebung (Stichprobe) erfolgen. Bei einer Vollerhebung werden alle Merkmalsträger (auch: statistische Einheit) einer Grundgesamtheit erfasst, wohingegen bei einer Teilerhebung eine Teilmenge einer Grundgesamtheit erfasst wird. Nach Pfaumer et al. (2009, S.11) sind die Gründe für die Durchführung von Stichprobenerhebungen vielfältig: „Sie sind billiger, schneller und oft auch genauer als Vollerhebungen, da sie im Detail sorgfältiger durchgeführt werden“.

Abb.2: Stufen der Statistik (nach Schulze, 2000, S. 2)


Bei der Herkunft der Daten wird i.d.R. zwischen Primärerhebungen, bei denen das Material eigens erhoben wird, und Sekundärerhebungen, bei welchen auf bereits vorhandenes Material zurückgegriffen wird, unterschieden.

Für die Datenaufbereitung gibt es keinen vordefinierten Standard. Zur grafischen Darstellung von Daten eignen sich Tabellen, Schaubilder oder Diagramme.

Im 4. Schritt geht es um die Analyse der gewonnenen Daten. Das aufbereitete Material wird mit Hilfe von statistischen Verfahren analysiert und ausgewertet. Hier wird auf die Methoden der deskriptiven (z.B. Berechnung statistischer Kennzahlen) bzw. induktiven Statistik (z.B., multivariate Datenanalyse) zurückgegriffen.

Die Interpretation erfolgt vor dem Hintergrund der in der ersten Phase festgelegten Fragestellung. In der deskriptiven Statistik ist mit der Interpretation der Ergebnisse der Analyseprozess abgeschlossen, da bei der Datenerhebung die Grundgesamtheit erfasst wurde. In der schließenden Statistik beziehen sich die Ergebnisse auf die Stichprobe. Im Zusammenhang mit der Interpretation ist noch ein Rückschluss von der Stichprobe auf die Grundgesamtheit zu erfolgen. Hierbei ist das Ergebnis in der schließenden Statistik immer eine Wahrscheinlichkeitsaussage, da aufgrund von Zufallseinflüssen, die auf das Ergebnis einwirken können, Aussagen nur mit einer gewissen Unsicherheit getroffen werden.



Statistische Methodenlehre

Die Statistik lässt sich in zwei Sparten untergliedern, die deskriptive (auch: beschreibende) und die induktive Statistik. Letztere ist auch unter dem Begriff Inferenzstatistik bekannt.

Abb.3: Deskriptive und induktive Statistik


Während bei der deskriptiven Statistik Methoden zur Erfassung, Analyse und Beurteilung von Daten im Vordergrund stehen, werden in der induktiven Statistik Methoden zum Finden von rationalen Entscheidungen beschrieben (Pflaumer et al., 2009, S. 7). Der Rückschluss von der Stichprobe auf die Grundgesamtheit ist eine wesentliche Aufgabe der induktiven Statistik. Die Repräsentativität der Stichprobe ist maßgebend für die Aussagekraft der gewonnenen Rückschlüsse. Solche Aussagen sind mit Unsicherheit behaftet, die unter bestimmten Bedingungen mit Hilfe der Wahrscheinlichkeitsrechnung quantifiziert werden können. Die Wahrscheinlichkeitsrechnung liefert der induktiven Statistik die formalen Instrumente, welche das Risiko nicht ausschalten, aber dafür kalkulierbar machen.

Beispiel: Sprint

Eine Vollerhebung ist oft unmöglich aufgrund des Kosten- und Zeitfaktors. In diesem Beispiel wird die Sprintleistung von 20 Studierenden an der TU Darmstadt auf einer Distanz von 100 m gemessen. Es scheint unmöglich alle 25.000 TU-Studenten in die Messung mit einzubeziehen, daher wird nur eine Stichprobe genommen.

Ermitteln Sie den Merkmalsträger, das Merkmal und deren Ausprägung


Ergebnisse:

13.4, 12.8, 11.4, 12.6, 13.5, 14.0, 13.2, 12.5, 13.2, 12.2,
11.8, 12.8, 13.4, 14.5, 12.7, 13.1, 11.9, 12.5, 13.3, 12.8


Die deskriptive Statistik trifft Aussagen über die Stichprobe, während die induktive Statistik von der Sprintleistung der 20 Studierenden auf das Leistungsvermögen aller TU-Studenten schließt.

In der beschreibenden Statistik sind Maßzahlen, wie der Median oder Mittelwert relevant. Außerdem können Klassen gebildet und so die absoluten/relativen Häufigkeiten ermittelt werden.

Klasse 11,1-11,5 11,6-12,0 12,1-12,5 12,6-13,0 13,1-13,5 13,6-14,0 14,0-14,5
Häufigkeit ? ? ? ? ? ? ?


Im Gegensatz zur deskriptiven Statistik liegt die Grundgesamtheit nicht vollständig vor, sondern nur eine Stichprobe davon. Die induktive Statistik befasst sich mit der Schließung vom Teil aufs Ganze unter der Berücksichtigung von Wahrscheinlichkeiten. Mit den Mitteln der schließenden Statistik ist es z.B. möglich die durchschnittliche Sprintzeit aller Studierenden an der TU Darmstadt zu ermitteln.



Zusammenfassung

Um die in diesem Kapitel vermittelten Inhalte besser nachzuvollziehen, schaut euch bitte folgendes Tutorial an.



Literatur

Bös, K., Hänsel, F. & Schott, N. (2004). Empirische Untersuchungen in der Sportwissenschaft. Planung – Auswertung – Statistik. Hamburg: Czwalina.

Graunt, J. (1662). Natural and Political Observation Made upon the Bills of Mortality. London: John Martyn und James Allestry.

Ostle, B. & Malone, L. C. (1988). Statistics in Research. Basic Concepts and Techniques for Research Workers. Ames, Iowa: Iowa State University Press.

Pflaumer, P., Heine, B. & Hartung, J. (2009). Deskriptive Statistik. München: Oldenbourg.

Ross, S. M. (2006). Statistik für Ingenieure und Naturwissenschaftler. Heidelberg: Elsevier GmbH, Spektrum Akademischer Verlag.

Schulze, P. M. (2000). Beschreibende Statistik. München: Oldenbourg.


free hits

fm/stat/stat01.txt · Zuletzt geändert: 17.01.2016 22:12 von Aylin Stamm
GNU Free Documentation License 1.3
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0