Inhaltsverzeichnis

STAT5 Regression
Fragen
Literatur

STAT5 Regression

Modul	STAT5 Regression
Kategorie	Statistik
Autor	Cengic
Voraussetzung	keine
Bearbeitungsdauer	ca. 45 Minuten
Status	finalisiert

Lehrveranstaltung	Lernziele
SE Quantitative Forschungsmethoden	- Sinn und Zweck der Regression kennen - Regressionsverfahren und Prinzip verstehen

Einleitung

Bei statistischen Auswertungen besteht das Ziel oft darin, Zusammenhänge zwischen zwei oder mehreren Variablen zu beschreiben, z.B. ist es nicht nur interessant, ob Berufstätige mit einem höheren Bildungsgrad mehr verdienen, sondern auch, ob das Einkommen durch Faktoren wie Berufserfahrung oder Geschlecht beeinflusst wird. Die Variable, die erklärt werden soll (Einkommen), bezeichnet man als abhängige Variable (AV). Die erklärenden Variablen (Bildungsgrad, Berufserfahrung, Geschlecht) werden unabhängige Variablen (UV) genannt (vgl. Schneider et al., 2010, 776).

Bei der Regressionsanalyse handelt es sich um ein statistisches Werkzeug für die Untersuchung der Beziehungen zwischen abhängigen (AV) und unabhängigen (UV) Variablen. In der Regel weisen die UV einen Effekt auf die AV auf, z.B. hat die Außentemperatur (UV) Einfluss auf den inneren Luftdruck in einem Fußball (AV).

Die Erfindung der „Regression“ geht auf den britischen Naturforscher Sir Francis Galton aus dem Jahre 1889 zurück. Er untersuchte den Zusammenhang der Körpergröße von Vätern und Söhnen und kam zu dem Ergebnis, dass diese mit zunehmender Zeit zurückschreiten wird (vgl. Brüderl, 2004, S. 1).

Grundlagen

Der Zusammenhang zwischen AV und UV kann mittels Regressionsanalysen statistisch beschrieben werden. Dies ermöglicht eine Schätzung für fehlende Werte der AV mittels der beobachteten Daten. Die Beziehungen zwischen den Variablen werden in Form einer Gleichung ausgedrückt (vgl. Chatterjee & Price, 1995, S. 1):

$$ y = b_0 + b_1 x_1 + b_2 x_2 + \ldots + b_p x_p $$

Bei den Formelzeichen $ b_0, b_1, b_2, \ldots, b_p $ handelt es sich um die Regressionskoeffizienten, welche aus den beobachteten Daten bestimmt werden können. Eine Regressionsgleichung mit nur einer UV (z.B. $ x_i $) wird als Einfachregression bezeichnet, dagegen spricht man bei einer Gleichung mit mehreren unabhängigen Variablen (z.B. $ x_i, y_i $) von multipler Regression. Im Rahmen dieses Wiki-Moduls wird das lineare Einfachmodell genauer unter die Lupe genommen (vgl. Chatterjee & Price, 1995, S. 1). Daher arbeiten wir im Folgenden mit dieser Formel:

$$ y = a x + b $$

Dabei gibt der Parameter $a$ die Steigung an und Parameter $b$ den Schnittpunkt mit der y-Achse. Es gilt beide Parameter rechnerisch zu ermitteln. Wie das genaue Vorgehen ist, wird im Folgenden aufgezeigt.

Rechenbeispiel

Für die erste Beurteilung eines möglichen Zusammenhangs zwischen AV und der UV bietet es sich an eine Punktwolke zu erstellen (vgl. Schneider et al., 2010, 777). Dazu ziehen wir folgendes Beispiel heran:

Die Körpergröße in cm (x) und das Gewicht in kg (y) von 10 männlichen Personen wurden erfasst.

Die Daten sind in folgender Tabelle gelistet:

$x_i$ [cm]	180	175	168	182	178	185	189	191	192	190
$y_i$ [kg]	80	78	77	83	84	85	86	95	88	89

1. Schritt: Punktwolke erstellen
Für die erste Beurteilung eines möglichen Zusammenhangs zwischen AV und der UV bietet es sich an eine Punktwolke zu erstellen (vgl. Schneider et al., 2010, 777).

Abb. 2: Punktwolke der AV und UV

Als Residuen ($e_i$) werden die Abstände der einzelnen Punkte in der Punktwolke (Abb. 2) bezeichnet. Ziel ist es bei der Schätzung einer Regressionsgeraden die Summe der Residuen $e_i$ zu minimieren. Der beobachtete Wert für die AV (Körpergewicht in kg) lässt sich anhand der Formel $y_i = ax_i+b+e_i$ berechnen. Dafür wird von der geschätzten Regressionsgeraden $\hat{y}_i$ das jeweilige Residuum $e_i$ abgezogen bzw. dazuaddiert.

2. Schritt: Mittelwerte bestimmen
Die Mittelwerte des vorliegenden Datensatzes werden wie folgt berechnet:

$$ \overline{y} = \frac{\sum{y_i}}{n} = \frac{845}{10} = 84.5 $$
$$ \overline{x} = \frac{\sum{x_i}}{n} = \frac{1830}{10} = 183 $$

Der Wert $ \overline{y} = 84.5$ sagt aus, dass im Durchschnitt alle untersuchten Probanden $84.5$ kg schwer sind. Für die durchschnittliche Körpergröße ergibt sich ein Wert von $183$ cm.

3. Schritt: Varianzen/Kovarianzen bestimmen
Der Grad des Zusammenhangs zwischen zwei Variablen lässt sich mathematisch durch die Kovarianz bestimmen. Die Kovarianzformel gleicht der Formel zur Berechnung der Varianz, wenn beide Datenreihen identisch sind, also $Cov(x, x) = Var(x)$.

\begin{align*} Cov(x,y) &= \frac{\sum{(x-\overline{x})\ (y-\overline{y})}}{N-1} = 339 \\ \\ Cov (x,x) &= Var(x) = \frac{\sum{(x-\overline{x})^2}}{N-1} = 558 \\ \\ Cov (y,y) &= Var(y) = \frac{\sum{(y-\overline{y})^2}}{N-1} = 266.5 \end{align*}

Für eine geneauere Erklärung zur Berechnung der (Ko)Varianzen, schaut euch bitte die zwei abschließenden Video-Tutorials dieses Wiki-Moduls an.

4. Schritt: Parameter bestimmen
Die Parameter $a$ und $b$ (auch: $\beta_0, \beta_1$) werden nach der Methode der kleinsten Quadrate geschätzt. Dabei gibt Parameter $a$ die Steigung der Regressionsgeraden an. Diese ist gegeben durch das Verhältnis zwischen Kovarianz und Varianz (vgl. Chatterjee & Price, 1995, S. 4):

$$ a = \frac{Cov(x,y)}{Var(x)} = \frac{\sum{(x-\overline{x})\ (y-\overline{y})}}{\sum{(x-\overline{x})^2}} = \frac{339}{558} \approx 0,61 $$

Der zweite Regressionsparameter $b$ (auch: $\beta_0$) lässt sich deutlich unkomplizierter berechnen:

$$ b = \overline{y} - a \overline{x} = 84.5 - (0.61*183) = -27.13 $$

5. Schritt: Parameter in Regressionsformel einsetzen
Für die Geradengleichung in der linearen Einfachregression ergibt sich folgender Ausdruck:

$$ y = 0.61x - 27.13 $$

Güte der Schätzung

Ein Maß für die Güte der Schätzungsfunktion liefern der Korrelationskoeffizient $r$ und das Bestimmtheitsmaß $R^2$.

Korrelationskoeffizient

Die Kovarianz steht in engem Verhältnis zum Koeffizienten $r$. Sie ist kein standardisiertes Maß und ist zur Kennzeichnung des Zusammenhangs zweier Variablen nur bedingt geeignet. Sie kann allerdings in ein standardisiertes Maß überführt werden: den Korrelationskoeffizienten. Um den Korrelationskoeffizienten zu bestimmen, werden die bereits ermittelten (Ko)Varianzen aus unserem vorigen Rechenbeispiel benötigt.

$$ r = \frac{Cov(x,y)}{\sqrt{Var(x)} + \sqrt{Var(y)}} = \frac{339}{\sqrt{558} + \sqrt{266.5}} \approx 0.88 $$

Der Korrelationskoeffizient kann als Maß für den Grad der Linearität des Zusammenhangs zwischen AV und UV verstanden werden und nimmt Werte zwischen $-1$ und $+1$ an (Chatterjee & Price, 1995, S. 6). Beträgt der Wert für $r = -1$, so liegt eine vollständig negative Korrelation vor, umgekehrt ist bei einem Wert von $r = 1$ die Rede von einer vollständig positiven Korrelation. In der Praxis ist dies allerdings kaum der Fall. Die Bedeutung des Wertebereichs für $-1 < r < 1$ ist in folgender Abb. 4 veranschaulicht.

Abb. 4: Bedeutung des Wertebereichs für den Korrelationskoeffizienten r

Bestimmtheitsmaß

Da beim Regressionsmodell die Beziehungen zwischen AV und UV mittels einer mathematischen Gleichung geschätzt werden, ist es wünschenswert die Güte der Anpassung des Modells an die beobachteten Daten zu beurteilen. Die für diesen Zweck am häufigsten benutzte Kennziffer ist das Quadrat des Korrelationskoeffizienten $r$ und wird als Bestimmtheitsmaß $R^2$ bezeichnet (Chatterjee & Price, 1995, S. 6).

$$ R^2 = 1 - \frac{\sum{(y_i-\hat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}} $$

Abb. 1: Bestimmtheitsmaß (mod. nach Pflieger, 2014)

Worin unterscheidet sich das Bestimmtheitsmaß vom Korrelationskoeffizienten?
Beides sind Kennziffern, welche für die Güte der Anpassung des Modells stehen. Sowohl $R^2$, als auch $r$ können Werte zwischen 0 und 1 annehmen. Der Unterschied liegt darin, dass der Korrelationskoeffizient auch negative Werte bis -1 annehmen kann. Grundsätzlich gilt, je besser ein Modell an den Datensatz angepasst ist, umso größer der Wert für R^2. Hat man z.B. für $r=0.8$ erhalten, dann ist $R^2=0.64$, i.e. 64 % der Streuung um die UV werden durch die lineare Abhängigkeit von X erklärt. Dies ist der Anteil der geschätzten Streuung von der Gesamtstreuung (s. Abb. 1).

Beurteilung der Schätzung

Ein hoher Wert für $R^2$ sind keine Gewähr dafür, dass die mathematische Schätzung der beobachteten Daten ausreichend angepasst ist. Untersucht man Abb. 3, so erkennt man, dass nur die erste Datenmenge ($a$) durch ein lineares Model beschrieben werden kann. In Fall ($b$) ist deutlich sichtbar, dass die Datenmenge nichtlinear ist und besser durch eine quadratische Funktion angepasst würde. Bei der dritten Datenmenge ($c$) ist es ein einziger Punkt, der die Steigung der geschätzten Geraden verzerrt und aus Fall ($d$) geht hervor, dass die geschätzte Regressionsgerade im Wesentlichen durch eine extreme Beobachtung determiniert wird (Chatterjee & Price, 1995, S. 9).

Abb. 3: Steuungsdiagramme für vier Datenmengen mit der geschätzten Regressionsgeraden (mod. nach Chatterjee & Price, 1995, S. 10)

Zusammenfassung

Eine Zusammenfassung über dieses Kapitel liefert das STAT5-Tutorial.

Fragen

Welche verschiedenen Arten der Regressionsanalyse gibt es?
Wo liegt der Unterschied zwischen Korrelation und Regression?
Was beinhaltet die Formel für die lineare Regression?

Literatur

Brüderl, J. (2004). Vorlesung: Multivariate Analyseverfahren. Skriptum der Universität Mannheim. Mannheim: Fakultät für Sozialwissenschaften.

Chatterjee, S. & Price, B. (1995). Praxis der Regressionsanalyse. Lehr- und Handbücher der Statistik (2. Auflage). München: Oldenbourg.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (2011). Statistik. Der Weg zur Datenanalyse. Heidelberg: Springer.

Kurzes Tutorium Statistik (2014). Regression. Lehrvideo der Hochschule Offenburg. Letzter Zugriff am 18.05.2015 unter https://www.youtube.com/watch?v=btsd-7AGDjc.

Onlinedozent (2012). Lineare Regression - Beispiel – Kostenfunktion – Regressionsanalyse. YouTube-Video zur deskriptiven Statistik. Letzter Zugriff am 18.05.2015 unter https://www.youtube.com/watch?v=qzHh0SGwWdE.

Pflieger, V. (2014). Bestimmtheitsmaß R^2 - Teil 3: Die Varianzzerlegung. Blog-Eintrag des Unternehmens INWT Statistics. Letzter Zugriff am 19.07.2015 unter https://www.inwt-statistics.de/blog-artikel-lesen/Bestimmtheitsmass_R2-Teil3.html.

Sykes, A. O. (k. A.). An Introduction to Regression Analysis. The Inaugural Coase Lecture. Chicago: Working Paper in Law & Economics.

Schneider, A., Hommel, G. & Blettner, M. (2010). Lineare Regressionsanalyse. Teil 14 der Serie zur Bewertung wissenschaftlicher Publikationen. Deutsches Ärzteblatt, 107 (44), 776-782.

Wiwiweb.de (2011). Methode der Kleinsten Quadrate in der deskriptiven Statistik. YouTube-Video zur deskriptiven Statistik. Letzter Zugriff am 18.05.2015 unter https://www.youtube.com/watch?v=QxP-4gZAEXI.

indexmenu_n_5