Inhaltsverzeichnis
QFM 2221 [Regression]
Modul-Icon | QFM2221 |
---|---|
Veranstaltung | Seminar Quantitative Forschungsmethoden |
Autor | Kluwe, Laura; Mortada, Mariam; Weber, Fabian |
Thema | Lineare Regression |
Bearbeitungsdauer | 45 Minuten |
Präsentationstermin | 01.10.2022 |
Status | Finalisiert |
Zuletzt geändert | 21.09.2022 |
1. Einleitung und Definitionen
Bei der linearen Regressionsanalyse handelt es sich um ein statistisches Verfahren, in dem die Wirkung einer unabhängigen Variable auf eine abhängige Variable analysiert wird. Es soll hierbei also herausgefunden werden, wie sich der Einfluss der Variable $x$ auf die Variable $y$ auswirkt respektive, ob überhaupt ein Zusammenhang zwischen beiden Variablen besteht (Frost 2018, S. 5). Bei diesem Beispiel geht es um eine einfache lineare Regression, da wir uns auf nur eine unabhängige Variable konzentrieren. Bei mehreren unabhängigen Variablen würde es sich um eine multiple Regression handeln.
Nicht nur in der Mathematik ist die Ermittlung von Zusammenhängen durch eine Funktionsgleichung relevant. In den Sport- und Humanwissenschaften hat die lineare Regressionsanalyse als Forschungsmethode eine hohe Relevanz, um Zusammenhänge zu ermitteln, oder Forschungsergebnisse antizipieren zu können. Außerdem können somit Handlungsoptionen für die Realität gefunden werden. Eine Vorhersage wird hierbei umso präziser, je stärker der Zusammenhang zwischen zwei Merkmalen ist (Bortz & Schuster 2010, S. 183).
Die lineare Regression wird angewandt, um Zusammenhänge zu untersuchen und Prognosen und Vorhersagen zu bestimmen. Dazu werden die erhobenen Daten als Punkte in ein x-y Diagramm gesetzt, sodass sich ein Streudiagramm oder eine Punktewolke ergibt (Frost 2018, S. 3). Es wird eine Gerade in das Streudiagramm gezeichnet, um die herum sich die Datenpunkte in Form einer Ellipse ansetzen. Je näher diese Datenpunkte an der Geraden liegen, desto stärker ist der lineare Zusammenhang der Merkmale (Bortz & Schuster 2010, S. 185f.).
Die lineare Regressionsgleichung lautet wie folgt:
$y ̂=b*x+a+e$
$ŷ$ bildet hierbei den geschätzten Wert der abhängige Variable ab, $b$ die Steigung der Geraden, $x$ die unabhängige Variable und $a$ den Aufpunkt. Da $a$ den Schnittpunkt mit der y-Achse darstellt und $b$ die Steigung der Geraden, sind sie die Regressionskoeffizienten (ebd.).
Die vorherzusagenden Variablen bzw. jene, auf die geschlossen werden, werden abhängige Variablen (AV), Einflussvariable oder auch Kriteriumsvariablen $ŷ$ genannt. Die zur Vorhersage herangezogenen Variablen sind die unabhängigen Variablen (UV), zielvariablen oder auch Prädiktorvariablen $x$ (Bortz & Schuster, S. 183). Die Stärke und Richtung der Prädiktorvariable wird durch $b$ beschrieben. Je höher der Wert des Regressionskoeffizienten $b$ ist, desto stärker verändert sich die abhängige Variable aufgrund der unabhängigen Variable. Mit der Berechnung einer Regressionsgleichung geht auch nahezu immer ein Vorhersagefehler einher. Dieser Fehler ist die Abweichung des beobachteten von dem vorhergesagten Wert und wird als Residuum $e$ (auch: „error of estimate“) bezeichnet (ebd., S. 186).
Ein Beispiel für eine einfache Regression ist der Einfluss von Bildungstiteln (UV) auf das Einkommen einer Person (AV) oder etwa die Wirkung von Sport (Anzahl der Stunden Sport pro Woche) auf den Studienerfolg. Ein weiteres Beispiel für die Regressionsanalyse in den Sportwissenschaften findet sich in Kapitel drei mit entsprechender Beispielrechnung. (Mariam Mortada)
2. Voraussetzungen und Annahmen
Die Untersuchung der Zusammenhänge zwischen AV und UV ermöglicht eine Schätzung bzw. Vorhersage für fehlende Werte der AV mittels der beobachteten Daten. Allerdings erst, wenn klar ist, dass die Merkmale miteinander zusammenhängen (Bortz & Schuster 2010, S. 183; Chatterjee & Price 1995, S. 1). Eine wichtige Voraussetzung ist, dass die Zielvariable stetig ist. Die Einflussvariablen dürfen hingegen stetig, binär oder kategorial sein (Schneider, Hommel & Blettner 2010, S. 777). Die Beziehungen zwischen den Variablen werden in Form einer Gleichung ausgedrückt (Chatterjee & Price 1995, S. 1).
Eine weitere Voraussetzung für eine gelungene und aussagekräftige Regressionsanalyse ist daher, die richtige Anzahl an Einflussvariablen zu ermitteln. Während eine einzige Variable oft nicht ausreicht, um die Zielvariable zu erklären, wirken sich auch zu viele Einflussvariablen negativ auf das Ergebnis aus. Ziel der statistischen Auswertung ist demnach herauszufiltern, welche Faktoren die Zielvariable am besten erklären (den größten Einfluss haben) (Schneider et al. 2010, S. 779). Vor der Durchführung der Regressionsanalyse muss folglich die Kausalität zwischen den Variablen geklärt werden (ebd. S. 781). Die erste Beurteilung eines möglichen Zusammenhangs kann über ein Streudiagramm (Punktewolke) erfolgen. In diesem Diagramm werden zwei stetige Variablen dargestellt, um sichtbar zu machen, ob es sich um einen linearen oder nichtlinearen Zusammenhang handelt. Nur im ersten Fall ist die Durchführung einer linearen Regression sinnvoll (ebd. S. 777).
Auch die Fallzahlplanung spielt eine wichtige Rolle. Die erforderliche Fallzahl hängt von der Anzahl der Einflussfaktoren und den zu erwartenden Effekten (Stärke des Zusammenhanges) ab. So können zu kleine Stichproben dazu führen, dass sich nur sehr starke Zusammenhänge nachweisen lassen. Zu große Stichproben hingegen führen zu vielen Einflussfaktoren, was zur Folge haben kann, dass eine wechselseitige Abhängigkeit zwischen Einflussfaktoren existiert (ebd. S. 781f.). (Laura Kluwe)
3. Analyse mit Beispiel einer linearen Regression
Als Beispiel für die Analyse einer sportwissenschaftlichen Fragestellung mit Hilfe einer einfachen linearen Regression ziehen wir folgende Ausgangssituation heran: Die durchschnittliche Toranzahl pro Spiel ($x$) eines Handballspielers in einer gesamten Saison wurde erfasst und mit der Anzahl an Saisonsiegen seiner Mannschaft ($y$) in einer Tabelle gelistet. Die Variable $x$ (Tordurchschnitt) wird dabei als unabhängige Variable (UV) angesehen, während die Variable $y$ (Saisonsiege) als abhängige Variable (AV) fungiert.
Daraus ergibt sich folgender, tabellarisch dargestellter Datensatz:
Saison | 12/13 | 13/14 | 14/15 | 15/16 | 16/17 | 17/18 | 18/19 | 19/20 | 20/21 | 21/22 |
$χ_{i}$ [Tordurchschnitt] | 5 | 3 | 4 | 5 | 3 | 6 | 2 | 7 | 1 | 6 |
$y_{i}$ [Saisonsiege] | 20 | 15 | 18 | 23 | 18 | 24 | 16 | 28 | 14 | 21 |
Um eine lineare Regression zu berechnen und einen möglichen Zusammenhang der beiden Variablen feststellen zu können, müssen gewisse Annahmen und Voraussetzungen überprüft werden.
3.1 Überprüfung der Annahmen und Voraussetzungen
Die Überprüfung der Annahmen und Voraussetzungen sichert die statistische Gültigkeit und Richtigkeit der Analyse.
Da eine lineare Regression berechnet werden soll, müssen die Variablen eine gewisse Skalierung aufweisen. Die abhängige Variable muss dabei mindestens stetig sein (vgl. Kapitel 2), was auf die abhängige Variable „Saisonsiege“ zutrifft. Auch die unabhängige Variable „Tordurchschnitt“ erfüllt die Skalierungs-Vorgaben, da sie ebenfalls stetig ist.
Als weitere Voraussetzung gilt, dass die abhängige Variable eine Normalverteilung aufweist. Eine Überprüfung kann einerseits rechnerisch, zum Beispiel mit dem Jaque-Bera-Test, erfolgen oder grafisch, zum Beispiel mit einem Quantil-Quantil-Plot (QQ-Plot) oder Koordinatensystem, überprüft werden. Die rechnerische Überprüfung mit dem Jaque-Bera-Test wird unter Zuhilfenahme des Computerprogramms Microsoft Excel durchgeführt. Als Ergebnis lässt sich ein p-Wert von $0,761$ errechnen. Weil dieser Wert nicht kleiner als $0,05$ ist, kann von einer Normalverteilung ausgegangen werden (Fabian, 2020b).
Auch die grafische Überprüfung mit Hilfe eines QQ-Plots bestätigt diese Aussage (vgl. Abbildung 1). Da die Datenpunkte in einem Winkel von 45 Grad entlang der ungefähr geraden Linie fallen, können die Daten als normalverteilt angesehen werden (Fabian, 2020a).
\begin{align}Abbildung ~1:~ QQ-Plot~ zum~ Test~ auf~ Normalverteilung~ der~ abhängigen~ Variable\end{align}
Eine zusätzliche Voraussetzung ist eine angemessene Fallzahl (vgl. Kapitel 2). So wird davon ausgegangen, dass eine Stichprobe $n\underline{>}30$ sein muss, um statistische Relevanz zu haben. Da es sich hier um ein Anschauungsbeispiel handelt, wir nur mit einer Stichprobe von $n=10$ gerechnet. Dies wäre normalerweise unzureichend, um anhand der Stichprobe auf eine Grundgesamtheit zu schließen (Wilimczik & Ennigkeit, 2018, S. 81).
Die Beurteilung eines möglichen Zusammenhangs gilt als abschließende Voraussetzung, welche im folgenden Kapitel behandelt wird.
3.2 Beurteilung eines möglichen Zusammenhangs (Stoetzer, 2017, S. 27)
Um eine erste Beurteilung möglich zu machen, wird eine Punktwolke erstellt. Anhand dieser kann ein möglicher Zusammenhang zwischen AV und UV festgemacht werden.
\begin{align}Abbildung ~2:~ Punktewolke~ der~ abhängigen~ und~ unabhängigen~ Variable~ im~ Format~ (x/y)\end{align}
Die blauen Quadrate stellen dabei die einzelnen Koordinaten nach dem Schema $(x/y)$ mit den Daten aus der Tabelle dar. Man kann erkennen, dass die einzelnen Koordinaten einem steigenden Muster folgen, sodass von einem positiven Zusammenhang zwischen UV und AV ausgegangen werden kann. Dieser positive Zusammenhang kann mit einer Regressionsgeraden beschrieben werden, welche im Folgenden berechnet und aufgestellt wird.
3.3 Berechnung der Regressionsgeraden
Um die Regressionsgerade aufzustellen, werden einige deskriptive Kenndaten benötigt. So müssen das arithmetische Mittel und die Varianzen der UV und AV berechnet, als auch die Kovarianz beider Variablen bestimmt werden.
3.3.1 Berechnung des arithmetischen Mittels (Wilimczik & Ennigkeit, 2018, S. 34)
Das arithmetische Mittel gibt den Mittelwert, also die Größe des durchschnittlichen Messwertes, aller Ausprägungen einer Variable an.
Die Formel für die Berechnung des arithmetischen Mittels lautet: $\overline{x}=\frac{1}{n}*\sum\limits_{i=1}^n x_{i}$ .
\begin{align} x ̅= \frac{1}{10}*42=4,2 \end{align}
\begin{align} y ̅= \frac{1}{10}*197=19,7 \end{align}
Es kann festgehalten werden, dass der Handballspieler im Schnitt über die zehn Saisons $4,2$ Tore pro Spiel wirft und seine Mannschaft $19,7$ Spiele pro Saison gewinnt. Im nächsten Schritt können unter Berücksichtigung der arithmetischen Mittel beider Variablen die einzelnen Varianzen berechnet werden.
3.3.2 Berechnung der Varianzen (Wilimczik & Ennigkeit, 2018, S. 41)
Die Varianz ist ein Streuungsmaß und gibt die durchschnittliche quadrierte Abweichung der Einzelwerte vom Mittelwert an.
Die Varianz wird mit folgender Formel bestimmt: $s^{2}=\frac{1}{n-1}*\sum\limits_{i=1}^n (x_{i}-\overline{x})^{2}$ .
\begin{align} {s_{x}}^{2}= \frac{1}{9}*33,6=3,7\overline{3} \end{align}
\begin{align} {s_{y}}^{2}= \frac{1}{9}*174,1=19,3\overline{4} \end{align}
Die Varianz der UV (Tordurchschnitt) ist $3,7\overline{3}$, während die Varianz der AV (Saisonsiege) $19,3\overline{4}$ beträgt. Mit Hilfe des arithmetischen Mittels und den Varianzen kann nun die Kovarianz bestimmt werden.
3.3.3 Berechnung der Kovarianz (Deisenroth et al., 2020, S. 192)
Die Kovarianz gilt als Maßzahl, wie Änderungen einer Variablen mit Änderungen einer zweiten Variablen verbunden sind. Dabei ist es vor allem eine Maßzahl für den Grad, in dem zwei Variablen linear verbunden sind.
Für die Berechnung der Kovarianz wird folgende Formel angewendet: $s_{xy}=\frac{1}{n-1}*\sum\limits_{i=1}^n [(x_{i}-\overline{x})*(y_{i}-\overline{y})]$.
\begin{align} s_{xy}=\frac{1}{9}*70,6=7,8\overline{4} \end{align}
Die Kovarianz der UV und AV beträgt $7,8\overline{4}$. Im nun folgenden Schritt können die einzelnen Bestandteile der Regressionsgeraden anhand der deskriptiven Werte errechnet werden, um so die Regressionsgerade aufzustellen.
3.4 Berechnung und Aufstellung der Regressionsgeraden (Wilimczik & Ennigkeit, 2018, S. 69)
Als Formel der Regressionsgeraden gilt, wie in Kapitel 1 beschrieben: $y ̂=b*x+a+e$, wobei $b*x$ die Steigung der Geraden beschreibt und $a$ den y-Achsenabschnitt, also den Schnittpunkt der Geraden mit der y-Achse, darstellt.
\begin{align} b=\frac{s_{xy}}{{s_{x}}^{2}} =\frac{7,8\overline{4}}{3,7\overline{3}}≈2,1012 \end{align}
\begin{align} a=\overline{y}-b*\overline{x}=19,7-2,1012*4,2≈10,875 \end{align}
\begin{align} y ̂=2,1012x+10,875+e \end{align}
\begin{align} Abbildung ~3:~ Grafische ~Darstellung ~der ~Regressionsgeraden\end{align}
Die Regressionsgerade wird in der Abbildung 3 durch die schwarze, durchgezogene Linie dargestellt. Durch den positiven x-Wert ist eine steigende Gerade zu beobachten, die UV (Tordurchschnitt) und die AV (Saisonsiege) stehen also in einem positiven Zusammenhang. So kann festgehalten werden, dass bei einer Erhöhung der Variable „Tordurchschnitt“ (UV) um den Wert $1$, die Anzahl an Saisonsiegen (AV) durchschnittlich um den Wert $2,1012$ steigt. Da der y-Achsenabschnitt $10,875$ beträgt, ergibt sich aus dieser Schätzung der Regressionsgeraden, dass bei einem Tordurchschnitt von null Toren des betreffenden Spielers die Anzahl an Saisonsiegen $10,875$ beträgt.
3.4 Berechnung der Güte der Schätzung
Um die Güte der Schätzung zu bewerten, bieten sich zwei verschiedene Maße an. Zum einen der Korrelationskoeffizient und zum anderen das Bestimmtheitsmaß. Durch diese beiden Werte können Aussagen über die Art des Zusammenhangs zwischen UV und AV und über die Genauigkeit der Schätzung durch die Regressionsgerade getroffen werden.
3.4.1 Berechnung Korrelationskoeffizient (Wilimczik & Ennigkeit, 2018, S. 60-62)
Der Korrelationskoeffizient $(r)$ gilt als Maßzahl der beschreibenden Statistik und lässt Aussagen über die Enge und Richtung des Zusammenhangs zwischen der abhängigen und unabhängigen Variablen zu. $r$ liegt dabei stets zwischen $0$ und $+1$ bzw. $-1$. Wenn $r > 0$ ist liegt ein positiver Zusammenhang vor und bei einem Wert von $r<0$ kann von einem negativen Zusammenhang ausgegangen werden.
Die Formel für die Berechnung des Korrelationskoeffizienten lautet: $r=\frac{s_{xy}}{\sqrt{{s_{x}}^2}*\sqrt{{s_{y}}^2}}$.
\begin{align} r=\frac{7,8\overline{4}}{\sqrt{3,7\overline{3}}*\sqrt{19,3\overline{4}}}≈0,9231 \end{align}
Der Korrelationskoeffizient beträgt ungefähr $0,9231$. Der positive Zusammenhang zwischen den beiden Variablen, der grafisch schon beobachtet werden konnte, wird also bestätigt. Auch die Höhe des Korrelationskoeffizienten kann näher interpretiert werden. Dafür wird der Betrag $|r|$ verwendet. So ergibt ich folgende Aufstellung:
\begin{align} |r|=0 ~kein ~Zusammenhang \end{align}
\begin{align} 0<|r| < 0,4 ~niedriger ~Zusammenhang \end{align}
\begin{align} 0,4<|r| < 0,7 ~mittlerer ~Zusammenhang \end{align}
\begin{align} 0,7<|r|<1 ~hoher ~Zusammenhang \end{align}
\begin{align} |r|=1 ~perfekter ~Zusammenhang \end{align}
Da der Wert aus dem Beispiel $0,9231$ beträgt, kann von einem hohen Zusammenhang zwischen den beiden Variablen ausgegangen werden.
3.4.2 Berechnung Bestimmtheitsmaß (Stoetzer, 2017, S. 40)
Das Bestimmtheitsmaß gibt an, wie gut die geschätzte Regressionsgerade zu den Beobachtungen passt beziehungsweise welcher prozentuale Anteil der Variation der Daten durch die geschätzte Regressionsgerade erklärt wird. Je näher sich der Wert an $1$ befindet, desto besser bildet die Schätzung die Daten ab und je näher sich der Wert der Zahl $0$ nähert, desto schlechter passt die geschätzte Regressionsgerade.
Das Bestimmtheitsmaß errechnet sich mit folgender Formel: $R^{2}=1-\frac{\sum(y_{i}-y ̂_{i})^{2}}{\sum(y_{i}-\overline{y})^{2}}$.
In vereinfachter Form und bei vorheriger Berechnung des Korrelationskoeffizienten, kann das Bestimmtheitsmaß auch mit folgender Rechnung ermittelt werden: $R^2=r^2.$
\begin{align} R^2=0,9231^2=0,8521 \end{align}
Weil das Bestimmtheitsmaß $0,8521$ beträgt, kann postuliert werden, dass $85,21%$ der Variation der Daten durch die Regressionsgerade erklärt werden. Die restlichen $17,79%$ lassen sich dementsprechend auf andere Faktoren zurückführen, die nicht anhand dieser linearen Regression mit einer UV und einer AV berücksichtigt wurden.
3.5 Zusammenfassung des Beispiels
Da wir einen positiven, starken Zusammenhang vorliegen haben, können wir die folgende Aussage treffen: Die Handball-Mannschaft in dieser Stichprobe erreicht mehr Saisonsiege, wenn der Handballspieler einen höheren Tordurchschnitt pro Spiel erzielt. Bei einer Erhöhung des Tordurchschnitts pro Spiel in der gesamten Saison um den Wert $1$, erhöht sich die Anzahl an Saisonsiegen durchschnittlich um $2,1012$. (Fabian Weber)
4. Fazit und Zusammenfassung
Wie gezeigt wurde, bietet die lineare Regressionsanalyse die Möglichkeit, statistische Zusammenhänge zwischen zwei Variablen zu finden. Ergebnisse können genutzt werden, um realitätsnahe Handlungsalternativen aufzudecken. Für eine aussagekräftige Regressionsanalyse müssen gewisse Voraussetzungen erfüllt werden, um die statistische Gültigkeit der Analyse zu sichern. In unserem Beispiel wurde gezeigt, dass sowohl positive als auch negative Zusammenhänge entdeckt werden können und die Güte der Schätzung variieren kann.
Die Regressionsanalyse als Forschungsmethode wird in den Sport- und Humanwissenschaften immer wieder genutzt und gilt daher als anerkannte Analyseform, um statistische Zusammenhänge sichtbar zu machen. (Fabian Weber, Laura Kluwe, Mariam Mortada)
Literaturverzeichnis
Bortz, Jürgen; Schuster, Christof (2010): Statistik für Human-und Sozialwissenschaftler. 7. vollständig überarbeitete und erweiterte Auflage. Springer-Verlag.
Chatterjee, Samprit & Price, Bertram (1995). Praxis der Regressionsanalyse. Lehr- und Handbücher der Statistik (2. Auflage). München: Oldenburg.
Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng Soon (2020): Mathematics for Machine Learning. Cambridge University Press.
Fabian (2020a): So erstellen Sie ein Q-Q-Diagramm in Excel. Statologie. https://statologie.de/q-q-diagramm-excel/
Fabian (2020b): So führen Sie einen Jarque-Bera-Test in Excel durch. Statologie. https://statologie.de/jarque-bera-test-excel/
Frost, Irasianty (2018): Einfache lineare Regression-Die Grundlage für komplexe Regressionsmodelle verstehen. Springer VS. Wiesbaden GmbH.
Schneider, Astrid; Hommel, Gerhard; Blettner, Maria (2010): Lineare Regressionsanalyse: Teil 14 der Serie zur Bewertung wissenschaftlicher Publikationen. In: Deutsches Ärzteblatt (Jg. 107, Heft 44).
Stoetzer, Matthias W. (2017): Regressionsanalyse in der empirischen Wirtschafts-und Sozialforschung Band 1. Eine nichtmathematische Einführung mit SPSS und Stata. Springer-Verlag.
Willimczik, Klaus; Ennigkeit, Fabienne (2018): Statistik im Sport. Grundlagen-Verfahren-Anwendungen. Hamburg: Feldhaus.
Abbildungsverzeichnis
Abbildung 1: QQ-Plot zum Test auf Normalverteilung der abhängigen Variable
Abbildung 2: Punktewolke der abhängigen und unabhängigen Variable im Format (x/y)
Abbildung 3: Grafische Darstellung der Regressionsgeraden
Abbildung | Rechte | Name Student*in |
---|---|---|
1 | A | Fabian Weber |
2 | A | Fabian Weber |
3 | A | Fabian Weber |
A = Eigenes Bild B = Freie Nutzung C = Recht das Bild im Wiki öffentlich benutzen zu dürfen