Sitzung 8 Lineare Regression
Lernziele dieser Sitzung
Sie können…
- eine Regressionsgerade berechnen.
- Werte aus der Regressionsgerade ableiten.
- Residuen errechnen.
- den Determinationskoeffizienten \(R^2\) berechnen und interpretieren.
Lehrvideos (Sommersemester 2020)
- 8a) Regressionsgerade
- 8b) Residuen und Determinationskoeffizient
- Beim Teil
Klausur-Update
gilt der Ablauf und die Struktur der Klausur auch dieses Semester. - Die administrative Anmeldung für die diesjährige Theorieklausur ist bis einschließlich 6. Juli auf OLAT möglich.
- Zur formalen Anmeldung und zur Versuchsregelung kann ich dieses Jahr keine Angaben machen. (Fragen Sie im Zweifel Ihr Prüfungsamt!)
- Beim Teil
8.1 Regresssionsanalyse
Sind zwei stochastisch abhängige Variablen \(x\) und \(y\) durch eine Regressionsgleichung miteinander verknüpft, kann die eine Variable zur Vorhersage der anderen eingesetzt werden. (Bortz und Schuster 2010: 183)
Es gibt viele Möglichkeiten, Regressionen zu modellieren. Im Rahmen dieser Veranstaltung wird nur die lineare Regression (engl. linear regression) behandelt. Lineare Regressionsmodelle werden immer durch eine lineare Gleichung des Formats
\[ y=a+b\cdot x \tag{8.1} \]
ausgedrückt, wobei \(a\) der Achsenabschnitt ist und \(b\) die Steigung. Ist die Gleichung bekannt, so können wir für jeden Wert \(x\) einen entsprechenden Wert \(y\) vorhersagen
.
Abbildung 8.1 zeigt ein solches lineares Regressionsmodell als Gerade durch ein Streudiagramm.
Der Achsenabschnitt \(a\approx2,2\) bedeutet, dass die Regressionsgerade die \(y\)-Achse etwa auf der Höhe 2,2 schneidet (bei \(x=0\)). Die Steigung \(b\approx1,7\) heißt, dass für jede zusätzliche Einheit der Variable \(x\) ca. 1,7 zusätzliche Einheiten der Variable \(y\) erwartet werden können.
Wenn die Regressionsgleichung bekannt ist, kann für jedes gültige (grundsätzlich: jedes beliebige) \(x\) ein erwarteter Wert \(\hat{y}\) berechnet werden. So könnte uns bei der Beispielregression interessieren, welchen Wert \(\hat{y}_i\) im Modell annimmt, wenn \(x_i=20\) beträgt:
\[ \begin{aligned} \hat{y}_i&=a+b\cdot x_i\\ &\approx2{,}2+1{,}7\cdot20\\ &=36{,}2 \end{aligned} \]
Bei solchen Schätzungen außerhalb des bekannten Wertebereichs spricht man auch vom Extrapolieren
, sonst – für fehlende Werte innerhalb des bekannten Wertebereich – vom Interpolieren
.
Umgekehrt könnte die Frage lauten: Wie groß muss ein \(x_i\) sein, damit (im Modell) \(\hat{y}_i=12\) beträgt? Dies lässt sich durch eine einfache Umformung der Gleichung (8.1) berechnen:
\[ \begin{aligned} \hat{y}_i&=a+b\cdot x_i\\[5pt] x_i&=\frac{\hat{y}_i-a}{b}\\[5pt] &=\frac{12-2{,}2}{1{,}7}\\ &\approx5{,}8 \end{aligned} \]
Bei der Regressionsanalyse wird ein gerichtetes Abhängigkeitsverhältnis der Variablen impliziert: \(y\) hängt hier von \(x\) ab. Daher wird \(x\) auch die Prädiktorvariable
und \(y\) die Kriteriumsvariable
genannt.
predict()
geschätzt werden.
Es ist also für derartige Fragestellungen nötig, die Gleichung der Regressionsgeraden zu kennen. Im Folgenden wird gezeigt, wie diese anhand einer bivariaten Verteilung bestimmt werden kann.
8.2 Bestimmung der Regressionsgeraden
Der Koeffizient \(b\) (also die Steigung der Regressionsgeraden) lässt sich berechnen, indem man die Kovarianz \(s_{xy}\) durch die Varianz von \(x\) dividiert:
\[ b=\frac{s_{xy}}{s^2_x} \tag{8.2} \]
Der Koeffizient \(a\) (also der Achsenabschnitt) ergibt sich wiederum aus \(b\) und den Mittelwerten \(\bar{x}\) und \(\bar{y}\):
\[ a=\bar{y}-b\cdot\bar{x} \tag{8.3} \]
lm()
erstellen.
Die Bestimmung der Regressionsgeraden soll nun mit einem Beispiel illustriert werden.
8.2.1 Beispiel
Wir fragen uns, wie die Aufenthaltszeit von Passagieren am Frankfurter Flughafen mit dem Betrag zusammenhängt, den sie in den dortigen Geschäften ausgeben. Eine Zufallserhebung habe die Werte in Tabelle 8.1 ergeben.
\(x_i\) | \(y_i\) |
---|---|
121 | 17,94 |
125 | 23,15 |
293 | 44,31 |
370 | 42,46 |
246 | 35,51 |
281 | 28,46 |
169 | 18,47 |
328 | 56,77 |
388 | 40,11 |
131 | 12,64 |
299 | 24,54 |
324 | 46,37 |
Mit den Methoden aus Sitzung 2 und 7 können wir folgende Werte für die Mittelwerte \(\bar{x}\) und \(\bar{y}\), die Varianz \(s^2_x\) sowie die Kovarianz \(s_{xy}\) berechnen:
\[ \begin{aligned} \bar{x}&=256{,}25\\ \bar{y}&\approx 32{,}56\\ s^2_{x}&\approx9340{,}93\\ s_{xy}&\approx 1062{,}50 \end{aligned} \]
Für die Steigung der Regressionsgeraden \(b\) setzen wir die entsprechenden Werte in Gleichung (8.2) ein:
\[ \begin{aligned} b&=\frac{s_{xy}}{s^2_x}\\ &\approx\frac{1062{,}50}{9340{,}93}\\ &\approx0{,}114 \end{aligned} \]
Die Steigung von 0,114 bedeutet, dass – im linearen Regressionsmodell – Passagiere in jeder zusätzlichen Minute, die sie am Flughafen verbringen, in etwa 11,4 zusätzliche Cent ausgeben.
Der Achsenabschnitt \(a\) berechnet sich dann gemäß Gleichung (8.3):
\[ \begin{aligned} a&=\bar{y}-b\cdot\bar{x}\\ &\approx 32{,}56-0{,}114\cdot256{,}25\\ &\approx 3{,}35 \end{aligned} \]
Dieser Wert ergibt nur einen abstrakt-mathematischen Sinn – es dürfte in der Praxis wohl kaum Passagiere geben, die 0 Minuten am Flughafen verbringen und € 3,35 ausgeben.
Mit dem Achsenabschnitt \(a\) und der Steigung \(b\) lässt sich folgende Gleichung für die Regressionsgerade aufstellen (s. Gleichung (8.1)):
\[ \begin{aligned} y&=a+b\cdot x\\ y&\approx3{,}35 + 0{,}114 \cdot x \end{aligned} \]
Graphisch ist diese lineare Regression in Abbildung 8.2 dargestellt.
8.3 Residuen
Residuen (engl. residuals) werden mit \(e\) bezeichnet und sind die Differenzen zwischen den tatsächlichen \(y\)-Werten und den im Modell erwarteten \(\hat{y}\)-Werten für die jeweiligen \(x\)-Werte:
\[ e_i=y_i-\hat{y}_i \tag{8.4} \]
Residuen sind also – auch dem Wortstamm nach – das, was nach der Vorhersage durch das Modell übrig bleibt
von den tatsächlich beobachteten Werten (also der Teil des Werts, der nicht durch das Regressionsmodell erklärt wird).
resid()
errechnen.
8.3.1 Beispiel
Graphisch sind die Residuen für unser Beispiel in Abbildung 8.3 dargestellt (positive Werte in grün, negative Werte in rot), tabellarisch in Tabelle 8.2.
\(x_i\) | \(y_i\) | \(\hat{y}_i\approx3{,}35+0{,}114\cdot x_i\) | \(e_i=y_i-\hat{y}_i\) |
---|---|---|---|
121 | 17,94 | 17,144 | 0,796 |
125 | 23,15 | 17,600 | 5,550 |
293 | 44,31 | 36,752 | 7,558 |
370 | 42,46 | 45,530 | -3,070 |
246 | 35,51 | 31,394 | 4,116 |
281 | 28,46 | 35,384 | -6,924 |
169 | 18,47 | 22,616 | -4,146 |
328 | 56,77 | 40,742 | 16,028 |
388 | 40,11 | 47,582 | -7,472 |
131 | 12,64 | 18,284 | -5,644 |
299 | 24,54 | 37,436 | -12,896 |
324 | 46,37 | 40,286 | 6,084 |
Residuen spielen in vielen statistischen Verfahren eine Rolle, z.B. in der Residuenanalyse. Diese Verfahren werden im Rahmen dieser Veranstaltung jedoch nicht behandelt.
8.4 Determinationskoeffizient 𝑅²
Der Determinationskoeffizient \(R^2\) (engl. coefficient of determination) ist formal definiert als das Verhältnis der Varianz der vorhergesagten \(\hat{y}\)-Werte zur Varianz der tatsächlich beobachteten \(y\)-Werte (wobei sich der Term \([n-1]\) auskürzt):
\[ R^2=\frac{\sum\limits^n_{i=1}(\hat{y}_i-\bar{y})^2}{\sum\limits^n_{i=1}(y_i-\bar{y})^2} \tag{8.5} \]
Da Zähler und Nenner als Quadratsummen stets positiv sind und die Varianz der \(\hat{y}\)-Werte immer kleiner oder gleich der Varianz der \(y\)-Werte ist, nimmt der Determinationskoeffizient immer einen Wert zwischen 0 und 1 an.
Je größer \(R^2\), desto besser erklärt das lineare Regressionsmodell die tatsächlich beobachteten Werte. \(R^2=1\) bedeutet, dass das Modell die Werte perfekt erklärt.
Für lineare Regressionsmodelle (also für die einzige Regression, die im Rahmen dieser Veranstaltung behandelt wird) lässt sich \(R^2\) auch berechnen, indem wir den Korrelationskoeffizienten \(r\) quadrieren:
\[ R^2=r^2 \tag{8.6} \]
summary()
unter anderem der Determinationskoeffizient eines linearen Regressionsmodells ausgegeben.
8.4.1 Beispiel
Mit den Methoden aus Sitzung 7 können wir den Korrelationskoeffizienten für unser Beispiel errechnen:
\[ \begin{aligned} r&=\frac{s_{xy}}{s_x\cdot s_y}\\ &\approx\frac{1062{,}50}{96{,}65\cdot13,68}\\ &\approx0{,}804 \end{aligned} \]
Der Determinationskoeffizient ergibt sich dann mit Gleichung (8.6):
\[ \begin{aligned} R^2&=r^2\\ &\approx 0{,}804^2\\ &\approx 0{,}646 \end{aligned} \]
Übungsaufgaben
8.4.2 Aufgabe 8-1
Sie haben für eine bivariate Verteilung die folgende Regressionsgleichung bestimmt:
\[ y=-1{,}48-0{,}975\cdot x \]
Bestimmen Sie die erwarteten \(\hat{y}_i\)-Werte für diese \(x_i\)-Werte:
\[ 0{,}3\quad-18{,}5\quad-13{,}5\quad-17{,}2\quad29{,}8\quad25{,}6\quad-36{,}4\quad-26{,}2 \]
Für welche Werte \(x_i\) sagt das Regressionsmodell diese Werte \(\hat{y}_i\) voraus?
\[ -10\quad15\quad-50\quad-10\quad-60\quad-55\quad-20\quad0 \]
Bestimmen Sie die Residuen für die tatsächlich beobachtete Messreihe:
\(x_i\) | \(y_i\) |
---|---|
-11,49 | 6,82 |
8,22 | -8,59 |
-25,66 | 25,92 |
23,81 | -26,91 |
-3,14 | 4,41 |
-1,52 | -3,39 |
20,15 | -19,89 |
-10,22 | 9,30 |
8.4.3 Aufgabe 8-2
Eine bivariate Verteilung sei gekennzeichnet durch die folgenden Parameter:
\[ \begin{aligned} \bar{x}&=157,5\\ \bar{y}&=156,7\\ s^2_{x}&=1080,94\\ s^2_{y}&=884,46\\ s_{xy}&=869,83 \end{aligned} \]
Bestimmen Sie die Regressionsgleichung im linearen Modell.
Bestimmen Sie den Determinationskoeffizienten \(R^2\).
8.4.4 Aufgabe 8-3
Für die Messreihe der Aufgabe 3 aus Sitzung 7 sei gefragt:
Welche Gleichung beschreibt ein geeignetes lineares Regressionsmodell?
Wenn die Nutzfläche für Objekt A 318 m² und für Objekt B 380 m² beträgt, wie hoch können dann jeweils die Kosten für die Sanierung geschätzt werden?
8.4.5 Aufgabe 8-4
Für die Messreihe der Aufgabe 4 aus Sitzung 7 sei gefragt:
Die Stadtverwaltung hat unter Rückgriff auf diese Daten ein einfaches lineares Modell entwickelt, das eine Prognose der Mietpreise der Gewerbeimmobilien in Abhängigkeit von ihrer Entfernung zur nächstgelegenen Haltestelle des ÖPNV erlaubt. Wie lautet die Regressionsgleichung?
Wie hoch fällt laut Modell der Mietpreis pro Quadratmeter für eine 500 Meter von der nächstgelegenen ÖPNV-Haltestelle entfernte Gewerbeimmobilie aus?
8.4.6 Aufgabe 8-5
Sie fragen sich, wie die erreichte Punktzahl in einer Klausur mit der Vorbereitungszeit der geprüften Studierenden zusammenhängt. Sie erheben die folgende Messreihe:
Vorbereitungszeit (min) | Erreichte Punktzahl |
---|---|
834 | 88 |
17 | 41 |
519 | 75 |
253 | 39 |
739 | 77 |
844 | 100 |
Welche Punktzahl ist mit einer Vorbereitungszeit von sechs Stunden zu erwarten?
Ab welcher Vorbereitungszeit ist im Modell zu erwarten, dass ein*e Studierende die Klausur besteht (\(\geq\) 50 Punkte)?
Ab welcher Vorbereitungszeit kann laut Modell mit der vollen Punktzahl (100 Punkte) gerechnet werden?
Wie gut erklärt ein lineares Modell die Prüfungsleistungen anhand der Vorbereitungszeit?
Welche Limitationen hat das Modell? Denken Sie an extreme Werte.