Inhaltsverzeichnis

STAT8 ANOVA

STAT8 ANOVA

Modul	STAT8 ANOVA
Kategorie	Statistik
Autor	Cengic
Voraussetzung	STAT7
Bearbeitungsdauer	ca. 45 Minuten
Status	in Bearbeitung

Lehrveranstaltung	Lernziel
SE Quantitative Forschungsmethoden

Einleitung

In Kapitel STAT7 wurde der t-Test vorgestellt, welcher sich für den Mittelwertsvergleich zweier Stichproben eignet. Beim Vergleich von mehr als zwei Gruppen, stößt der t-Test an seine Grenzen und es muss ein neues Verfahren angewendet werden. Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von zwei oder mehr Stichproben auf Signifikanz zu prüfen (Enzmann, 2008, S. 1).

Es müssen folgende Voraussetzungen bei einer Varianzanalyse erfüllt sein:

Normalverteilung der AV in allen untersuchten Gruppen
Varianzhomogenität, also gleiche Gruppenvarianzen
Unabhängigkeit der Messwerte bzw. Faktorstufen

Grundlagen

Abb. 1: Unterteilung der Varianzen (mod. nach Enzmann, 2008, S. 5)

Wie der Name schon verrät, untersucht die ANOVA die Varianzen der jeweiligen Stichproben. Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Da nur die Gesamtvarianz messbar ist, wird diese in die systematische Varianz und Fehlervarianz aufgeteilt. Folglich ergeben sich drei Varianzen:

$SS_T$ = Sum of squares total (Gesamtvarianz)
$SS_W$ = Sum of squares between groups (Treatmentvarianz)
$SS_B$ = Sum of squares wihthin groups (Fehlervarianz)

In Abb. 1 wird die Zusammensetzung von der Gesamtvarianz verdeutlicht, diese untergliedert sich in einen systematischen Anteil (Treatmentvarianz) und einer Fehleranteil. Die Treatmentvarianz wird beeinflusst von den Varianzen der unersuchten Gruppen (hier: Faktoren) und deren Interaktion untereinnder.

Einfaktorielle vs. Mehrfaktorielle ANOVA
Die ANOVA untersucht die Wirkung von einer oder mehreren unabhängigen Variablen (UV) auf eine abhängige Variable (AV). Bei mehr als einer unabhängigen Variablen ist die Rede von zwei- bzw. mehrfaktorieller Varianzanalyse. Mit einer zweifaktoriellen Varianzanalyse wird untersucht, welchen Einfluss zwei Faktoren (z.B. Faktor 1: Alter, Faktor 2: Geschlecht) auf eine abhängige Variable haben. Um den Rahmen dieses Wiki-Moduls nicht zu sprengen, wird hier der Fokus auf die einfaktorielle ANOVA gelegt (vgl. Enzmann, 2008, S. 5).

Freiheitsgrade

Um das Konzept der Freiheitsgrade zu verdeutlichen, ziehen wir folgendes Beispiel heran (nach Oestermeier, 2008, S. 25):

Bei der Wahl zwischen einer Cola und einer Fanta besteht die Freiheit, sich für genau eine der beiden Getränkesorten zu entscheiden. Bei drei - oder allgemein $N$ - Getränkesorten liegen entsprechend zwei - oder allgemein ($N - 1$) - Freiheitsgrade vor.

F-Verteilung

Als eingesetzte Prüfgröße bei der ANOVA dient der f-Wert. Dementsprechend liegt der Varianzanalyse eine andere Verteilungsfunktion zugrunde, als beim Stichproben-t-Test. Theoretisch könnte man anstelle einer ANOVA mehrere t-Tests rechnen. Allerdings erhöht sich in diesem Falle die Wahrscheinlichkeit einer Fehlentscheidung, da der Alpha-Fehler aufaddiert werden würde (Psycho-Wissen Kompakt).

erstellt von Camille (2013, CC-BY-SA) - Link zur Quelle

Rechenbeispiel Klausurvorbereitung

Die zugrundeliegende Verteilung bei der ANOVA liefert als Prüfgröße den F-Wert. Dieser Wert gibt Auskunft darüber, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob sich die Gruppen signifikant voneinander unterscheiden.

Im Folgenden soll der Frage nachgegangen werden, ob die Art der Klausurvorbereitung (UV) einen Effekt auf die erreichte Klausurpunktzahl (AV) hat. Es liegen Datensätze von drei Gruppen vor (Xouridas, 2012):

Gruppe 1 hat nur die Vorlesung besucht
Gruppe 2 hat eine Lerngruppe gebildet
Gruppe 3 hat nur die Übungsstunde besucht

Gr. 1	Gr. 2	Gr. 3
46	38	43
36	36	59
53	43	51

1. Schritt: Generierung Nullhypothese
Das Kapitel zur statistischen Hypothesenprüfung liefert die Grundlage für die folgenden Schritte zur Berechnung und Validierung der Prüfgröße. Wir stellen folgende Nullhypothese $H_0$ auf: Die Art der Klausurvorbereitung hat keinen Einfluss auf erreichte Punktzahl.

$$ H_0 := \mu_1 = \mu_2 = \mu_3 $$

Bei der Nullhypothese wird in der Regel davon ausgegangen, dass die Mittelwerte aller untersuchten Gruppen nahezu gleich sind. Die Genauigkeit wird dabei festgelegt durch die Fehlerwahrscheinlichkeiten.

Alternativ zur Nullhypothese benötigen wir eine weitere Gegenhypothese:

$$ H_1 := \mu_1 \neq \mu_2 \neq \mu_3 $$

Diese sagt aus, dass zwischen mindestens zwei Mittelwerten ein signifikanter Unterschied besteht.

2. Schritt: Berechnung der Gesamtquadratsumme ($SS_T$)
Die Gesamtquadratsumme (engl.: Sum of squares total) setzt sich zusammen aus der Treatmentvarianz und Fehlervarianz. Für die Berechnung der $SS_T$ benötigen wir den Gesamtmittelwert aus dem vorliegenden Datensatz:

$$ \overline{x} = \frac{(46 + 36 + 58) + (38 + 36 + 43) + (43 + 59 + 51)}{9} = 45 $$

Wir subtrahieren den Gesamtmittelwert $\overline{x}$ von jedem Einzelwert in der Matrix (s. obige Tabelle) und quadrieren das Ergebnis:

\begin{align*} SS_T =\ &(46-45)^2 + (36-45)^2 + (58-45)^2 \\ &+ (38-45)^2 + (36-45)^2 + (43-45)^2 \\ &+ (43-45)^2 + (59-45)^2 + (51-45)^2 = 516 \end{align*}
Die Anzahl der Freiheitsgrade ($df$) berechnet sich aus folgender Formel, wobei $m$ und $n$ für die Zahl der Zeilen/Spalten innerhalb der Matrix stehen:

$$ df = (m * n) - 1 = (3*3) - 1 = 8 $$

In diesem Fall lautet der Wert für die Gesamtquadratsumme $SS_T = 516$, diese hat $df_T = 8$ Freiheitsgrade.

3. Schritt: Fehlervarianz ($SS_W$)
Um die Fehlervarianz zu berechnen, werden die Mittelwerte der einzelnen Gruppen benötigt:

\begin{align*} \overline{x}_1 &= \frac{46+36+53}{3} = 45 \\ \overline{x}_2 &= \frac{38+36+43}{3} = 39 \\ \overline{x}_3 &= \frac{43+59+51}{3} = 51 \\ \end{align*}

Das Vorgehen zur Berechnung der Fehlervarianz $SS_W$ gleicht nahezu dem Vorgehen aus Schritt 1. Zunächst wird die Differenz zwischen den einzelnen Gruppenwerten und dem Gruppenmittelwert ($\overline{x}_1 $, $\overline{x}_2 $, $\overline{x}_3 $) gebildet, anschließend wird diese ins Quadrat gesetzt. Die Summe daraus ergibt die Fehlervarianz $SS_W$:

\begin{align*} SS_W =\ &(46-45)^2 + (36-45)^2 + (58-45)^2 \\ &+ (38-39)^2 + (36-39)^2 + (43-39)^2 \\ &+ (43-51)^2 + (59-51)^2 + (51-51)^2 = 300 \end{align*}

Die Anzahl der Freiheitsgrade beträgt in diesem Fall $df_W = 6$, da jede Gruppe zwei Freiheitsgrade hat und die Summe daraus ergibt den Wert 6.

4. Schritt: Treatmentvarianz ($SS_B$)
Bei der Berechnung der Treatmentvarianz sind weniger die Einzelwerte der obigen Tabelle interessant, vielmehr interessieren der Gesamtmittelwert ($\overline{x}$) und die Gruppenmittelwerte ($\overline{x}_1$, $\overline{x}_2$, $\overline{x}_3$). Für jeden Matrixeintrag wird vom Gruppenmittelwert der Gesamtmittelwert abgezogen, die Differenz wird ins Quadrat gesetzt. Die Summe daraus ergibt:

\begin{align*} SS_B =\ &(45-45)^2 + (45-45)^2 + (45-45)^2 \\ &+ (39-45)^2 + (39-45)^2 + (39-45)^2 \\ &+ (51-45)^2 + (51-45)^2 + (51-45)^2 = 216 \end{align*}

Die Zahl der Freiheitsgraden bei der Treatmentvarianz bestimmt sich aus der Anahl an Gruppenmittelwerten minus 1. Es ergibt sich der Wert $df_B = 2$.

Abb. 3: Berechneter und kritischer F-Wert

5. Schritt: Berechnung der Prüfgröße
Als eingesetzte Prüfgröße bei der ANOVA dient der F-Wert. Dieser errechnet wie folgt:

\begin{align*} F_{emp} = \frac{\frac{SS_B}{df_B}}{\frac{SS_W}{df_W}} = \frac{\frac{216}{2}}{\frac{300}{6}} = \frac{108}{50} = 2,16 \end{align*}

Beim F-Test wird die Varianz zwischen den Gruppen (geteilt durch die Freiheitsgrade zwischen den Gruppen), dividiert durch die Varianz innerhalb der Gruppen (geteilt durch die Freiheitsgrade innerhalb der Gruppen).

6. Schritt: Validierung F-Wert
Dieser Schritt beinhaltet den Vergleich des berechneten F-Werts ($F_{emp}$) mit dem kritischen F-Wert ($F_{krit}$). Im Folgenden wird von einem 90%igen Signifikanzniveau ausgegangen. Die dazugehörige Tabelle liefert den Wert für $F_{krit} = 3,46$. Da $F_{emp} < F_{krit}$, wird die Nullhypothese $H_0$ angenommen. Der rote Bereich (Abb. 3) steht für die Verwerfung der Nullhypothese.

Zusammenhänge der Varianzen

Mathematisch ausgedrückt ergeben die Fehlervarianz $SS_W$ und die Treatmentvarianz $SS_B$ die Gesamtvariabiität $SS_T$:

\begin{align*} SS_T &= SS_W + SS_B \\ 516 &= 300 + 216 \end{align*}

Auch bei den Freiheitsgraden gelten dieselben mathematischen Zusammenhänge:

\begin{align*} df_T &= df_W + df_B \\ 8 &= 6 + 2 \end{align*}

Exkurs: Effektgrößen

Die Effektgröße in der Varianzanalyse ist $\eta^2$. Diese errechnet sich aus Treatmentarianz ($SS_B$) und Gesamtquadratsumme ($SS_T$) und die Formel zur Berechnung lautet (vgl. Psycho-Wissen Kompakt):

$$ \eta^2 = \frac{SS_B}{SS_T} $$

Es können zwischen 0 und 1 angenommen werden. Wenn die Effektgröße den Wert 0 annimmt, dann bedeutet dies, dass sich die Mittelwerte der unterschiedlichen Gruppen nicht voneinander unterscheiden. In diesem Falle geht die Gesamtvariationen auf die Unterschiede innerhalb der einzelnen Gruppen zurück. Bei einer Effektgröße mit dem Wert $\eta^2 = 1$ unterscheiden sich die Gruppenmittelwerte voneinander, die Messwerte innerhalb jeder Gruppe sind aber identisch (vgl. Psycho-Wissen Kompakt).

Zusammenfassung: Tutorial

Referenzen

Enzmann, D. (2008). Varianzanalyse. Präsentationsfolien der Abteilung Kriminologie der Universität Hamburg. Hamburg: Institut für Kriminalwissenschaften.

Hain, J. (2011). Varianzanalyse – ANOVA. Präsentationsfolien im Rahmen des SPSS-Kurses an der Universität Würzburg. Würzburg: Lehrstuhl für Mathematik VIII.

Psychologie-Wissen Kompakt. Inferenzstatistik. F-Test in der einfaktoriellen Varianzanalyse. Abgerufen am 3.10.2015 von http://psychowissen.jimdo.com/statistik-forschungsmethoden/einfaktorielle-varianzanalyse/.

Oestermeier, U., Barquero, B. & Plötzner, R. (2008). Anschauliche Varianzanalyse. Ein Multimedia gestütztes Lehr- und Übungsbuch. Tübingen: Instititut für Wissensmedien.

indexmenu_n_8