Sitzung 8 Lineare Regression

Lernziele dieser Sitzung

Sie können…

  • eine Regressionsgerade berechnen.
  • Werte aus der Regressionsgerade ableiten.
  • Residuen errechnen.
  • den Determinationskoeffizienten \(R^2\) berechnen und interpretieren.

Lehrvideos (Sommersemester 2020)

  • 8a) Regressionsgerade
  • 8b) Residuen und Determinationskoeffizient
    • Beim Teil Klausur-Update gilt der Ablauf und die Struktur der Klausur auch dieses Semester.
    • Die administrative Anmeldung für die diesjährige Theorieklausur ist bis einschließlich 6. Juli auf OLAT möglich.
    • Zur formalen Anmeldung und zur Versuchsregelung kann ich dieses Jahr keine Angaben machen. (Fragen Sie im Zweifel Ihr Prüfungsamt!)

8.1 Regresssionsanalyse

Sind zwei stochastisch abhängige Variablen \(x\) und \(y\) durch eine Regressionsgleichung miteinander verknüpft, kann die eine Variable zur Vorhersage der anderen eingesetzt werden. (Bortz und Schuster 2010: 183)

Es gibt viele Möglichkeiten, Regressionen zu modellieren. Im Rahmen dieser Veranstaltung wird nur die lineare Regression (engl. linear regression) behandelt. Lineare Regressionsmodelle werden immer durch eine lineare Gleichung des Formats

\[ y=a+b\cdot x \tag{8.1} \]

ausgedrückt, wobei \(a\) der Achsenabschnitt ist und \(b\) die Steigung. Ist die Gleichung bekannt, so können wir für jeden Wert \(x\) einen entsprechenden Wert \(y\) vorhersagen.

Abbildung 8.1 zeigt ein solches lineares Regressionsmodell als Gerade durch ein Streudiagramm.

Regressionslinie durch ein Streudiagramm

Abbildung 8.1: Regressionslinie durch ein Streudiagramm

Der Achsenabschnitt \(a\approx2,2\) bedeutet, dass die Regressionsgerade die \(y\)-Achse etwa auf der Höhe 2,2 schneidet (bei \(x=0\)). Die Steigung \(b\approx1,7\) heißt, dass für jede zusätzliche Einheit der Variable \(x\) ca. 1,7 zusätzliche Einheiten der Variable \(y\) erwartet werden können.

Wenn die Regressionsgleichung bekannt ist, kann für jedes gültige (grundsätzlich: jedes beliebige) \(x\) ein erwarteter Wert \(\hat{y}\) berechnet werden. So könnte uns bei der Beispielregression interessieren, welchen Wert \(\hat{y}_i\) im Modell annimmt, wenn \(x_i=20\) beträgt:

\[ \begin{aligned} \hat{y}_i&=a+b\cdot x_i\\ &\approx2{,}2+1{,}7\cdot20\\ &=36{,}2 \end{aligned} \]

Bei solchen Schätzungen außerhalb des bekannten Wertebereichs spricht man auch vom Extrapolieren, sonst – für fehlende Werte innerhalb des bekannten Wertebereich – vom Interpolieren.

Umgekehrt könnte die Frage lauten: Wie groß muss ein \(x_i\) sein, damit (im Modell) \(\hat{y}_i=12\) beträgt? Dies lässt sich durch eine einfache Umformung der Gleichung (8.1) berechnen:

\[ \begin{aligned} \hat{y}_i&=a+b\cdot x_i\\[5pt] x_i&=\frac{\hat{y}_i-a}{b}\\[5pt] &=\frac{12-2{,}2}{1{,}7}\\ &\approx5{,}8 \end{aligned} \]

Bei der Regressionsanalyse wird ein gerichtetes Abhängigkeitsverhältnis der Variablen impliziert: \(y\) hängt hier von \(x\) ab. Daher wird \(x\) auch die Prädiktorvariable und \(y\) die Kriteriumsvariable genannt.

Softwarehinweis
Wenn in R ein lineares Modell (eine Regressionsgerade) vorliegt, können Werte mit predict() geschätzt werden.

Es ist also für derartige Fragestellungen nötig, die Gleichung der Regressionsgeraden zu kennen. Im Folgenden wird gezeigt, wie diese anhand einer bivariaten Verteilung bestimmt werden kann.

8.2 Bestimmung der Regressionsgeraden

Der Koeffizient \(b\) (also die Steigung der Regressionsgeraden) lässt sich berechnen, indem man die Kovarianz \(s_{xy}\) durch die Varianz von \(x\) dividiert:

\[ b=\frac{s_{xy}}{s^2_x} \tag{8.2} \]

Der Koeffizient \(a\) (also der Achsenabschnitt) ergibt sich wiederum aus \(b\) und den Mittelwerten \(\bar{x}\) und \(\bar{y}\):

\[ a=\bar{y}-b\cdot\bar{x} \tag{8.3} \]

Softwarehinweis
In R lässt sich ein lineares Regressionsmodell mit dem Befehl lm() erstellen.

Die Bestimmung der Regressionsgeraden soll nun mit einem Beispiel illustriert werden.

8.2.1 Beispiel

Wir fragen uns, wie die Aufenthaltszeit von Passagieren am Frankfurter Flughafen mit dem Betrag zusammenhängt, den sie in den dortigen Geschäften ausgeben. Eine Zufallserhebung habe die Werte in Tabelle 8.1 ergeben.

Tabelle 8.1: Messwerte am Frankfurter Flughafen
Aufenthaltszeit (min)
Ausgaben (€)
\(x_i\) \(y_i\)
121 17,94
125 23,15
293 44,31
370 42,46
246 35,51
281 28,46
169 18,47
328 56,77
388 40,11
131 12,64
299 24,54
324 46,37

Mit den Methoden aus Sitzung 2 und 7 können wir folgende Werte für die Mittelwerte \(\bar{x}\) und \(\bar{y}\), die Varianz \(s^2_x\) sowie die Kovarianz \(s_{xy}\) berechnen:

\[ \begin{aligned} \bar{x}&=256{,}25\\ \bar{y}&\approx 32{,}56\\ s^2_{x}&\approx9340{,}93\\ s_{xy}&\approx 1062{,}50 \end{aligned} \]

Für die Steigung der Regressionsgeraden \(b\) setzen wir die entsprechenden Werte in Gleichung (8.2) ein:

\[ \begin{aligned} b&=\frac{s_{xy}}{s^2_x}\\ &\approx\frac{1062{,}50}{9340{,}93}\\ &\approx0{,}114 \end{aligned} \]

Die Steigung von 0,114 bedeutet, dass – im linearen Regressionsmodell – Passagiere in jeder zusätzlichen Minute, die sie am Flughafen verbringen, in etwa 11,4 zusätzliche Cent ausgeben.

Der Achsenabschnitt \(a\) berechnet sich dann gemäß Gleichung (8.3):

\[ \begin{aligned} a&=\bar{y}-b\cdot\bar{x}\\ &\approx 32{,}56-0{,}114\cdot256{,}25\\ &\approx 3{,}35 \end{aligned} \]

Dieser Wert ergibt nur einen abstrakt-mathematischen Sinn – es dürfte in der Praxis wohl kaum Passagiere geben, die 0 Minuten am Flughafen verbringen und € 3,35 ausgeben.

Mit dem Achsenabschnitt \(a\) und der Steigung \(b\) lässt sich folgende Gleichung für die Regressionsgerade aufstellen (s. Gleichung (8.1)):

\[ \begin{aligned} y&=a+b\cdot x\\ y&\approx3{,}35 + 0{,}114 \cdot x \end{aligned} \]

Graphisch ist diese lineare Regression in Abbildung 8.2 dargestellt.

Regressionslinie durch ein Streudiagramm

Abbildung 8.2: Regressionslinie durch ein Streudiagramm

8.3 Residuen

Residuen (engl. residuals) werden mit \(e\) bezeichnet und sind die Differenzen zwischen den tatsächlichen \(y\)-Werten und den im Modell erwarteten \(\hat{y}\)-Werten für die jeweiligen \(x\)-Werte:

\[ e_i=y_i-\hat{y}_i \tag{8.4} \]

Residuen sind also – auch dem Wortstamm nach – das, was nach der Vorhersage durch das Modell übrig bleibt von den tatsächlich beobachteten Werten (also der Teil des Werts, der nicht durch das Regressionsmodell erklärt wird).

Softwarehinweis
Residuen lassen sich in R durch den Befehl resid() errechnen.

8.3.1 Beispiel

Graphisch sind die Residuen für unser Beispiel in Abbildung 8.3 dargestellt (positive Werte in grün, negative Werte in rot), tabellarisch in Tabelle 8.2.

Graphische Darstellung der Residuen

Abbildung 8.3: Graphische Darstellung der Residuen

Tabelle 8.2: Residuen der Beispielwerte
Aufenthaltszeit (min)
Ausgaben (€)
Erwartete Ausgaben (€)
Residuen (€)
\(x_i\) \(y_i\) \(\hat{y}_i\approx3{,}35+0{,}114\cdot x_i\) \(e_i=y_i-\hat{y}_i\)
121 17,94 17,144 0,796
125 23,15 17,600 5,550
293 44,31 36,752 7,558
370 42,46 45,530 -3,070
246 35,51 31,394 4,116
281 28,46 35,384 -6,924
169 18,47 22,616 -4,146
328 56,77 40,742 16,028
388 40,11 47,582 -7,472
131 12,64 18,284 -5,644
299 24,54 37,436 -12,896
324 46,37 40,286 6,084

Residuen spielen in vielen statistischen Verfahren eine Rolle, z.B. in der Residuenanalyse. Diese Verfahren werden im Rahmen dieser Veranstaltung jedoch nicht behandelt.

8.4 Determinationskoeffizient 𝑅²

Der Determinationskoeffizient \(R^2\) (engl. coefficient of determination) ist formal definiert als das Verhältnis der Varianz der vorhergesagten \(\hat{y}\)-Werte zur Varianz der tatsächlich beobachteten \(y\)-Werte (wobei sich der Term \([n-1]\) auskürzt):

\[ R^2=\frac{\sum\limits^n_{i=1}(\hat{y}_i-\bar{y})^2}{\sum\limits^n_{i=1}(y_i-\bar{y})^2} \tag{8.5} \]

Da Zähler und Nenner als Quadratsummen stets positiv sind und die Varianz der \(\hat{y}\)-Werte immer kleiner oder gleich der Varianz der \(y\)-Werte ist, nimmt der Determinationskoeffizient immer einen Wert zwischen 0 und 1 an.

Je größer \(R^2\), desto besser erklärt das lineare Regressionsmodell die tatsächlich beobachteten Werte. \(R^2=1\) bedeutet, dass das Modell die Werte perfekt erklärt.

Für lineare Regressionsmodelle (also für die einzige Regression, die im Rahmen dieser Veranstaltung behandelt wird) lässt sich \(R^2\) auch berechnen, indem wir den Korrelationskoeffizienten \(r\) quadrieren:

\[ R^2=r^2 \tag{8.6} \]

Softwarehinweis
In R wird mit dem Befehl summary() unter anderem der Determinationskoeffizient eines linearen Regressionsmodells ausgegeben.

8.4.1 Beispiel

Mit den Methoden aus Sitzung 7 können wir den Korrelationskoeffizienten für unser Beispiel errechnen:

\[ \begin{aligned} r&=\frac{s_{xy}}{s_x\cdot s_y}\\ &\approx\frac{1062{,}50}{96{,}65\cdot13,68}\\ &\approx0{,}804 \end{aligned} \]

Der Determinationskoeffizient ergibt sich dann mit Gleichung (8.6):

\[ \begin{aligned} R^2&=r^2\\ &\approx 0{,}804^2\\ &\approx 0{,}646 \end{aligned} \]

Tipps zur Vertiefung

  • Kapitel 11 in Bortz und Schuster (2010)
  • Kapitel 4.5.1 – 4.5.6 in Lange und Nipper (2018)
  • Kapitel 6.2 in Bahrenberg, Giese und Nipper (2010)
  • Kapitel 17 in Klemm (2002)
  • Englisch: Kapitel 13.1 – 13.4 in Burt und Barber (1996)

Übungsaufgaben

8.4.2 Aufgabe 8-1

zur Lösung

Sie haben für eine bivariate Verteilung die folgende Regressionsgleichung bestimmt:

\[ y=-1{,}48-0{,}975\cdot x \]

  1. Bestimmen Sie die erwarteten \(\hat{y}_i\)-Werte für diese \(x_i\)-Werte:

    \[ 0{,}3\quad-18{,}5\quad-13{,}5\quad-17{,}2\quad29{,}8\quad25{,}6\quad-36{,}4\quad-26{,}2 \]

  2. Für welche Werte \(x_i\) sagt das Regressionsmodell diese Werte \(\hat{y}_i\) voraus?

    \[ -10\quad15\quad-50\quad-10\quad-60\quad-55\quad-20\quad0 \]

  3. Bestimmen Sie die Residuen für die tatsächlich beobachtete Messreihe:

\(x_i\) \(y_i\)
-11,49 6,82
8,22 -8,59
-25,66 25,92
23,81 -26,91
-3,14 4,41
-1,52 -3,39
20,15 -19,89
-10,22 9,30

8.4.3 Aufgabe 8-2

zur Lösung

Eine bivariate Verteilung sei gekennzeichnet durch die folgenden Parameter:

\[ \begin{aligned} \bar{x}&=157,5\\ \bar{y}&=156,7\\ s^2_{x}&=1080,94\\ s^2_{y}&=884,46\\ s_{xy}&=869,83 \end{aligned} \]

  1. Bestimmen Sie die Regressionsgleichung im linearen Modell.

  2. Bestimmen Sie den Determinationskoeffizienten \(R^2\).

8.4.4 Aufgabe 8-3

zur Lösung

Für die Messreihe der Aufgabe 3 aus Sitzung 7 sei gefragt:

  1. Welche Gleichung beschreibt ein geeignetes lineares Regressionsmodell?

  2. Wenn die Nutzfläche für Objekt A 318 m² und für Objekt B 380 m² beträgt, wie hoch können dann jeweils die Kosten für die Sanierung geschätzt werden?

8.4.5 Aufgabe 8-4

zur Lösung

Für die Messreihe der Aufgabe 4 aus Sitzung 7 sei gefragt:

  1. Die Stadtverwaltung hat unter Rückgriff auf diese Daten ein einfaches lineares Modell entwickelt, das eine Prognose der Mietpreise der Gewerbeimmobilien in Abhängigkeit von ihrer Entfernung zur nächstgelegenen Haltestelle des ÖPNV erlaubt. Wie lautet die Regressionsgleichung?

  2. Wie hoch fällt laut Modell der Mietpreis pro Quadratmeter für eine 500 Meter von der nächstgelegenen ÖPNV-Haltestelle entfernte Gewerbeimmobilie aus?

8.4.6 Aufgabe 8-5

zur Lösung

Sie fragen sich, wie die erreichte Punktzahl in einer Klausur mit der Vorbereitungszeit der geprüften Studierenden zusammenhängt. Sie erheben die folgende Messreihe:

Vorbereitungszeit (min) Erreichte Punktzahl
834 88
17 41
519 75
253 39
739 77
844 100
  1. Welche Punktzahl ist mit einer Vorbereitungszeit von sechs Stunden zu erwarten?

  2. Ab welcher Vorbereitungszeit ist im Modell zu erwarten, dass ein*e Studierende die Klausur besteht (\(\geq\) 50 Punkte)?

  3. Ab welcher Vorbereitungszeit kann laut Modell mit der vollen Punktzahl (100 Punkte) gerechnet werden?

  4. Wie gut erklärt ein lineares Modell die Prüfungsleistungen anhand der Vorbereitungszeit?

  5. Welche Limitationen hat das Modell? Denken Sie an extreme Werte.

Quellenverzeichnis

Bahrenberg, Gerhard, Ernst Giese und Josef Nipper. 2010. Statistische Methoden in der Geographie. Bd. 1. Univariate und bivariate Statistik. Stuttgart: Bornträger.
Bortz, Jürgen und Christof Schuster. 2010. Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.
Burt, James E. und Gerald M. Barber. 1996. Elementary statistics for geographers. 2nd ed. New York: Guilford Press.
Klemm, Elmar. 2002. Einführung in die Statistik. Für die Sozialwissenschaften. Wiesbaden: Westdeutscher Verlag.
Lange, Norbert de und Josef Nipper. 2018. Quantitative Methodik in der Geographie. UTB Geographie, Methoden, Statistische Verfahren 4933. Paderborn: Ferdinand Schöningh.