Sitzung 7 Korrelation
Lernziele dieser Sitzung
Sie können…
- ein Streudiagramm interpretieren.
- die Kovarianz von zwei Variablen berechnen.
- den Korrelationskoeffizienten von zwei Variablen berechnen.
7.1 Bivariate Statistik
Grundlage der bivariaten Statistik ist es, dass für eine Reihe von Untersuchungseinheiten jeweils zwei Merkmale erfasst sind.
Diese Merkmale werden üblicherweise mit \(x\) und \(y\) gekennzeichnet. Für jedes \(i\) (laufende Nummer der Merkmalsträger*innen) gibt es dann ein \(x_i\) (Ausprägung des Merkmals \(x\)) und ein \(y_i\) (Ausprägung des Merkmals \(y\)).
Das Streudiagramm (engl. scatter plot) stellt alle erfassten Werte dar, indem es die Untersuchungseinheiten als Punkte arrangiert – und zwar anhand ihres jeweiligen Werts der Variable \(x\) entlang der \(x\)-Achse und entlang der \(y\)-Achse anhand des \(y\)-Werts (s. Abbildung 7.1).
7.1.1 Beispiel
Die statistischen Verfahren dieser Sitzung sollen wieder an einem Beispiel illustriert werden.
Wir fragen uns, ob der jährliche Ertrag in einem bestimmten Anbaugebiet für Klebreis in Nordostthailand mit dem jährlichen Niederschlag zusammenhängt. Die erfassten Werte sind in Tabelle 7.1 festgehalten (Rai
ist ein in Thailand übliches Flächenmaß).
\(i\) | \(x_i\) | \(y_i\) | |
---|---|---|---|
1 | 2008 | 1449 | 1860 |
2 | 2009 | 1472 | 2118 |
3 | 2010 | 1607 | 2225 |
4 | 2011 | 1494 | 2172 |
5 | 2012 | 1390 | 1816 |
6 | 2013 | 1764 | 2430 |
7 | 2014 | 1767 | 2580 |
8 | 2015 | 1765 | 2563 |
9 | 2016 | 1671 | 2276 |
10 | 2017 | 1838 | 2455 |
In einem Streudiagramm können diese Werte veranschaulicht werden. Dabei ist es üblich, die unabhängige Variable auf der \(x\)-Achse und die abhängige Variable auf der \(y\)-Achse einzutragen. Im Beispiel liegt nahe, dass der Ertrag vom Regen abhängt, und nicht etwa umgekehrt.
Abbildung 7.1 ist das Streudiagramm für unser Beispiel. Es fällt schon rein optisch auf, dass ein Zusammenhang zu bestehen scheint: Je mehr Regen, desto reicher die Ernte. Doch wie lässt sich dieser Zusammenhang beziffern?
Abbildung 7.1: Streudiagramm zum Reisanbau
7.2 Kovarianz 𝑠𝑥𝑦
Die Kovarianz (engl. covariance) \(s_{xy}\) gibt an, inwiefern die beiden Variablen \(x\) und \(y\) gemeinsam variieren. Die Kovarianz ergibt sich durch die Summe der jeweiligen Produkte der Differenzen zu den Mittelwerten \((x_i-\bar{x})\) und \((y_i-\bar{y})\), geteilt durch \((n-1)\). Die Formel lautet also:
\[ s_{xy}=\frac{\sum\limits^n_{i=1}(x_i-\bar{x})\cdot(y_i-\bar{y})}{n-1} \tag{7.1} \]
Gleichung (7.1) lässt erahnen: Wenn sowohl \(x\) als auch \(y\) in die gleiche Richtung vom jeweiligen Mittelwert abweichen (also beide Differenzen positiv oder beide Differenzen negativ), dann ist das Produkt positiv, sonst ist es negativ. Eine positive Kovarianz lässt also auf einen positiven Zusammenhang schließen (je größer \(x\), desto größer auch \(y\)), eine negative Kovarianz auf einen negativen Zusammenhang (je größer \(x\), desto kleiner \(y\)).
cov()
berechnet die Kovarianz einer bivariaten Verteilung in R.
7.2.1 Beispiel
Es macht Sinn, eine Tabelle anzulegen, in der Teilrechenschritte durchgeführt werden. Tabelle 7.2 veranschaulicht dies.
\(i\) | \(x_i\) | \(y_i\) | \((x_i-\bar{x})\) | \((y_i-\bar{y})\) | \((x_i-\bar{x})\cdot(y_i-\bar{y})\) |
---|---|---|---|---|---|
1 | 1449 | 1860 | -172,7 | -389,5 | 67266,65 |
2 | 1472 | 2118 | -149,7 | -131,5 | 19685,55 |
3 | 1607 | 2225 | -14,7 | -24,5 | 360,15 |
4 | 1494 | 2172 | -127,7 | -77,5 | 9896,75 |
5 | 1390 | 1816 | -231,7 | -433,5 | 100441,95 |
6 | 1764 | 2430 | 142,3 | 180,5 | 25685,15 |
7 | 1767 | 2580 | 145,3 | 330,5 | 48021,65 |
8 | 1765 | 2563 | 143,3 | 313,5 | 44924,55 |
9 | 1671 | 2276 | 49,3 | 26,5 | 1306,45 |
10 | 1838 | 2455 | 216,3 | 205,5 | 44449,65 |
Summe: | 16217 | 22495 | 362038,5 |
Als Zwischenschritt müssen die Mittelwerte \(\bar{x}\) und \(\bar{y}\) berechnet werden, wofür die Summen der ersten beiden Spalten herangezogen werden können:
\[ \begin{aligned} \bar{x}&=\frac{\sum\limits^n_{i=1}x_i}{n}\\[5pt] &=\frac{16217}{10}=1621{,}7\\[6pt] \bar{y}&=\frac{\sum\limits^n_{i=1}y_i}{n}\\[5pt] &=\frac{22495}{10}=2249{,}5 \end{aligned} \]
Schließlich ergibt Einsetzen der Produktsumme in Gleichung (7.1) die Kovarianz:
\[\begin{aligned} s_{xy}&=\frac{\sum\limits^n_{i=1}(x_i-\bar{x})\cdot(y_i-\bar{y})}{n-1}\\[5pt] &\approx\frac{362038{,}5}{9}=40226{,}5 \end{aligned}\]
Die Kovarianz ist also \(s_{xy}=40226{,}5\). Was sagt uns diese Zahl? Zunächst ist sie positiv, womit wir von einer positiven Korrelation (je mehr Regen, desto mehr Ertrag) ausgehen können. Sie ist auch irgendwie
ziemlich groß, was einen deutlichen Zusammenhang nahelegt. Aber die Kovarianz ist abhängig vom Maßstab – wäre der Ertrag nicht in Kilogramm pro Rai, sondern (wie in Deutschland üblich) in Dezitonnen pro Hektar angegeben, dann wäre die Zahl deutlich kleiner (2514,156 um genau zu sein). Wie lässt sich die Stärke der Korrelation also unabhängig von den Maßeinheiten angeben?
7.3 Korrelationskoeffizient 𝑟
Der Korrelationskoeffizient \(r\) (auch Produkt-Moment-Korrelation, Bravais-Pearson-Korrelation, Pearsons \(r\), engl. correlation coefficient) standardisiert die Kovarianz \(s_{xy}\) anhand der Standardabweichungen \(s_x\) und \(s_y\). Die Formel lautet:
\[ r=\frac{s_{xy}}{s_x\cdot s_y} \tag{7.2} \]
Durch diese Standardisierung kann der Korrelationskoeffizient nur noch Werte zwischen \(r=-1\) (perfekte negative Korrelation) und \(r=1\) (perfekte positive Korrelation) annehmen. Ein Korrelationskoeffizient nahe \(r=0\) bedeutet, dass es keinen Zusammenhang zwischen den Variablen \(x\) und \(y\) gibt (s. Abbildung 7.2).
Abbildung 7.2: Verschiedene Korrelationskoeffizienten
cor()
bestimmt werden.
7.3.1 Beispiel
In der Formel für den Korrelationskoeffizienten \(r\) (7.2) werden die Standardabweichungen \(s_x\) und \(s_y\) benötigt. Es ist daher sinnvoll, die Hilfstabelle um die Quadrate der Differenzen (und deren Summen) zu erweitern (s. Tabelle 7.3).
\(i\) | \(x_i\) | \(y_i\) | \((x_i-\bar{x})\) | \((y_i-\bar{y})\) | \((x_i-\bar{x})^2\) | \((y_i-\bar{y})^2\) |
---|---|---|---|---|---|---|
1 | 1449 | 1860 | -172,7 | -389,5 | 29825,29 | 151710,25 |
2 | 1472 | 2118 | -149,7 | -131,5 | 22410,09 | 17292,25 |
3 | 1607 | 2225 | -14,7 | -24,5 | 216,09 | 600,25 |
4 | 1494 | 2172 | -127,7 | -77,5 | 16307,29 | 6006,25 |
5 | 1390 | 1816 | -231,7 | -433,5 | 53684,89 | 187922,25 |
6 | 1764 | 2430 | 142,3 | 180,5 | 20249,29 | 32580,25 |
7 | 1767 | 2580 | 145,3 | 330,5 | 21112,09 | 109230,25 |
8 | 1765 | 2563 | 143,3 | 313,5 | 20534,89 | 98282,25 |
9 | 1671 | 2276 | 49,3 | 26,5 | 2430,49 | 702,25 |
10 | 1838 | 2455 | 216,3 | 205,5 | 46785,69 | 42230,25 |
Summe: | 16217 | 22495 | 233556,1 | 646556,5 |
Die Standardabweichungen ergeben sich nun wie gewohnt aus:
\[ \begin{aligned} s_{x}&=\sqrt{\frac{\sum\limits^n_{i=1}(x_i-\bar{x})^2}{n-1}}\\ &=\sqrt{\frac{233556{,}1}{9}}=\sqrt{25950{,}68}\approx161{,}09\\ s_{y}&=\sqrt{\frac{\sum\limits^n_{i=1}(y_i-\bar{y})^2}{n-1}}\\ &=\sqrt{\frac{646556{,}5}{9}}=\sqrt{71839{,}61} \approx268{,}03 \end{aligned} \]
Nun lassen sich die errechneten Werte in Gleichung (7.2) einsetzen:
\[ \begin{aligned} r&=\frac{s_{xy}}{s_x\cdot s_y}\\[4pt] &\approx\frac{40226{,}5}{161{,}09\cdot268{,}03}\approx0{,}93 \end{aligned} \]
Wir können bei einem Korrelationskoeffizienten \(r\approx0{,}93\) von einem deutlichen positiven Zusammenhang zwischen Niederschlag und Ertrag ausgehen.
Tipps zur Vertiefung
- YouTube-Kanal
Kurzes Tutorium Statistik
: Streudiagramm und Korrelation - YouTube-Kanal
Methodenlehre Mainz
: Bivariate Daten (Playlist) - Kapitel 10 in Bortz und Schuster (2010)
- Kapitel 4.5.1 – 4.5.6 in Lange und Nipper (2018)
- Kapitel 6.1, 6.3 und 6.4 in Bahrenberg, Giese und Nipper (2010)
- Kapitel 16 in Klemm (2002)
- Englisch: Kapitel 13.1 – 13.4 in Burt und Barber (1996)
Übungsaufgaben
7.3.2 Aufgabe 7-1
Zeichnen Sie ein Streudiagramm und berechnen Sie die Kovarianz sowie den Korrelationskoeffizenten für die folgenden Messreihen.
- Messreihe:
\(x_i\) | \(y_i\) |
---|---|
14,21 | 134 |
10,32 | 131 |
13,82 | 134 |
15,79 | 135 |
14,70 | 134 |
17,23 | 137 |
14,84 | 136 |
14,96 | 135 |
- Messreihe:
\(x_i\) | \(y_i\) |
---|---|
-1,17 | 14,40 |
-0,10 | 2,31 |
-0,15 | 2,95 |
0,46 | -1,39 |
0,34 | -2,96 |
-0,44 | 2,44 |
2,13 | -20,47 |
0,66 | -10,51 |
-1,37 | 11,81 |
0,56 | -4,05 |
7.3.3 Aufgabe 7-2
Sie erheben für zufällige Wasserhäuschen in Frankfurt die Entfernung zur nächsten Haltestelle der S- oder U-Bahn sowie den durchschnittlichen Tagesumsatz. Die Erhebung ergibt:
Entfernung (m) | Umsatz (€/Tag) |
---|---|
35 | 394,61 |
79 | 468,92 |
234 | 385,75 |
105 | 376,17 |
318 | 283,26 |
31 | 342,77 |
Gibt es einen Zusammenhang zwischen Entfernung und Umsatz? Wenn ja: Wie hängen die Variablen zusammen? Wie stark ist der Zusammenhang?
7.3.4 Aufgabe 7-3
Für eine Umnutzung zu Kulturzentren sollen zwei Gebäude kernsaniert werden. Um die Kosten schätzen zu können, werden die Nutzflächen und Kosten von fünf ähnlichen Sanierungsprojekten herangezogen. Sie berechnen zunächst die Mittelwerte und Varianzen der erfassten Merkmale.
Projekt | Nutzfläche (m²) | Kosten (Tsd. €) |
---|---|---|
1 | 456 | 264 |
2 | 628 | 306 |
3 | 497 | 348 |
4 | 275 | 202 |
5 | 549 | 322 |
6 | 313 | 99 |
Wie deutlich fällt der Zusammenhang zwischen Fläche und Kosten aus?
7.3.5 Aufgabe 7-4
Eine Stadtverwaltung möchte die Mietpreisentwicklung für Gewerbeimmobilien in der innerstädtischen Einkaufspassage abschätzen. Sie folgt dabei der These: Entscheidend für die Höhe der monatlichen Mietpreise (in Euro pro Quadratmeter) sei die Entfernung zur nächstgelegenen Haltestelle des ÖPNV: Je näher an der Haltestation gelegen, desto höher der Mietpreis.
Für Aussagen über den angenommenen Zusammenhang stehen die Daten von sechs zufällig ausgewählten Gewerbeimmobilien in der Einkaufspassage zur Verfügung.
Immobilie | Entfernung (m) | Quadratmeterpreis (€) |
---|---|---|
1 | 1141 | 30 |
2 | 850 | 49 |
3 | 862 | 40 |
4 | 1000 | 39 |
5 | 783 | 51 |
6 | 890 | 42 |
Die (gerundeten) arithmetischen Mittel betragen \(\bar{x} = 921{,}00\) Meter und \(\bar{y} \approx 41{,}83\) Euro, und die (gerundeten) Standardabweichungen liegen bei \(s_x = 128{,}97\) Meter und \(s_y = 7{,}57\) Euro.
Wie groß ist der Zusammenhang zwischen der Entfernung zur nächstgelegenen Haltestelle und dem gemessenen Mietpreis pro Quadratmeter? Berechnen Sie den Korrelationskoeffizienten und interpretieren Sie das Ergebnis.
7.3.6 Aufgabe 7-5
(weiterführend, nicht klausurrelevant)
- Zeigen Sie, dass der Korrelationskoeffizent \(r\) ein standardisierter Wert ist, indem Sie ihn in \(z\)-Werten ausdrücken.
- Überprüfen Sie die Formel anhand Aufgabe 1 a).
- Angenommen, Sie wollen \(r\) angeben, ohne die Koviarianz berechnet zu haben. Wie lassen sich die Rechenschritte dann vereinfachen?
- Überprüfen Sie den Rechenweg anhand Aufgabe 2.