Sitzung 9 Kreuztabellen

Lernziele dieser Sitzung

Sie können…

  • eine Kreuztabelle erstellen und interpretieren.
  • den Kontingenzkoeffizienten \(\chi^2\) errechnen.
  • die Maßzahlen \(\phi\) bzw. \(\mathit{CI}\) errechnen und interpretieren.

Lehrvideos (Sommersemester 2020)

9.1 Bivariate Verteilungen mit nominalen Variablen

In der bivariaten Statistik (Sitzung 7 und Sitzung 8) ging es bisher um Zusammenhänge zwischen zwei metrischen Variablen. In dieser Sitzung geht es um statistische Verfahren der bivariaten Statistik, bei denen für beide Variablen nur das Nominalskalenniveau vorausgesetzt ist. (Für Skalenniveaus s. Sitzung 1.)

Mit den Werten von nominalskalierten Variablen lassen sich die in Sitzung 7 und Sitzung 8 besprochenen Parameter (z. B. Kovarianz) nicht errechnen, weil wir mit ihnen nicht die notwendigen Rechenoperationen (Addition, Subtraktion) durchführen können. Stattdessen sind die beobachteten Häufigkeiten Ausgangslage für die im Folgenden besprochenen Verfahren.

9.1.1 Beispiel

Wir fragen uns, ob es einen Zusammenhang zwischen dem Studienfach von Studierenden an einer Universität und ihrem präferierten Transportmittel für den Pendelweg zum Campus gibt. Insbesondere interessiert uns, ob ein Zusammenhang zwischen dem Studium der Geistes- und Sozialwissenschaften und der Fahrradnutzung besteht.

Beide Variablen sind nur nominalskaliert: Die erhobenen Werte können in Kategorien eingeordnet werden, die aber keine inhärente Hierarchie aufweisen (Studienfach: Geographie, Politikwissenschaft, BWL, …; Transportmittel: Bus, Fahrrad, zu Fuß, …).

Um die Variablen im Sinne unserer Fragestellung zu vereinfachen, wandeln wir beide Variablen in dichotome Variablen um (die dann nur zwei Werte annehmen können). Wir beschränken uns auf die Erhebung von Fahrrad oder anderes Transportmittel einerseits und Geistes-/Sozialwissenschaft oder anderes Studienfach andererseits. Die (verkürzte) Tabelle der Rohdaten einer Zufallsstichprobe der Größe \(n=90\) könnte dann so aussehen wie 9.1.

Tabelle 9.1: Ungeordnete Rohdaten der Erhebung
\(i\) Studienfach Transportmittel
1 Geistes-/Sozialwissenschaft anderes Transportmittel
2 anderes Studienfach anderes Transportmittel
3 anderes Studienfach anderes Transportmittel
4 anderes Studienfach Fahrrad
5 Geistes-/Sozialwissenschaft anderes Transportmittel
6 anderes Studienfach anderes Transportmittel
85 Geistes-/Sozialwissenschaft anderes Transportmittel
86 anderes Studienfach anderes Transportmittel
87 anderes Studienfach Fahrrad
88 anderes Studienfach anderes Transportmittel
89 Geistes-/Sozialwissenschaft anderes Transportmittel
90 Geistes-/Sozialwissenschaft anderes Transportmittel

9.2 Kreuztabelle

Die Kreuztabelle (auch Kontingenztabelle, Kontingenztafel, engl. contingency table) ist eine übersichtliche Zusammenfassung der Rohdaten. Sie spannt die beiden Variablen in Spalten- und Zeilenrichtung auf, so dass in jeder Zelle die Häufigkeit einer bestimmten Wertekombination steht.

Bei zwei dichotomen Variablen ergeben sich zwei Spalten und zwei Zeilen, also vier Tabellenfelder. Wir sprechen in diesem Fall auch von einer \(2\times2\)-Tabelle.

9.2.1 Beispiel

Die Kreuztabelle für unser Beispiel ist in 9.2 dargestellt. Die Spaltenüberschriften sind die beiden Werte der dichotomen Variable Transportmittel, und die Zeilennamen sind die beiden Werte für Studienfach. In den Zellen stehen die Häufigkeiten. Es lässt sich also z. B. ablesen, dass die Kombination Fahrrad und anderes Studienfach neun mal vorkommt.

Tabelle 9.2: Kreuztabelle für die Beispielerhebung
Fahrrad anderes Transportmittel
Geistes-/Sozialwissenschaft 11 28 39
anderes Studienfach 9 42 51
20 70 90

Am rechten Rand der Tabelle stehen die Summen für die Zeilen, am unteren Rand die Summen der Spalten. Ganz unten rechts steht die Gesamtsumme (Größe der Stichprobe).

Softwarehinweis
In R kann eine einfache Kreuztabelle mit dem Befehl table() ausgegeben werden.

9.2.2 Verallgemeinerung

In Tabelle 9.3 ist das allgemeingültige Format für Kreuztabellen festgehalten. Dabei sind folgende Besonderheiten zu beachten:

  • Das Symbol \(k\) steht für die Anzahl der Zeilen, \(\ell\) für die Anzahl der Spalten.
  • Die Häufigkeiten für Merkmalskombinationen in den Tabellenfeldern werden durch \(n_{ij}\) symbolisiert, wobei \(i\) für die laufende Nummer der Zeile steht, und \(j\) für die laufende Nummer der Spalte.
  • Die Teilsummen an den Rändern werden mit Punktnotation bezeichnet. Dabei steht die Zeilensumme \(n_{i\cdot}\) für die Summe aller Felder in Zeile \(i\) (Zeilensumme) und \(n_{\cdot j}\) für die Summe aller Felder in Spalte \(j\) (Spaltensumme).
  • Die Gesamtsumme unten rechts wird hier mit \(n\) gekennzeichnet und steht wie gewohnt für die Gesamtgröße der Stichprobe.
Tabelle 9.3: Allgemeine Bezeichnungen in der Kreuztabelle
Spalte 1 Spalte 2 Spalte \(\ell\)
Zeile 1 \(n_{11}\) \(n_{12}\) \(n_{1\ell}\) \(n_{1\cdot}\)
Zeile 2 \(n_{21}\) \(n_{22}\) \(n_{2\ell}\) \(n_{2\cdot}\)
Zeile \(k\) \(n_{k1}\) \(n_{k2}\) \(n_{k\ell}\) \(n_{k\cdot}\)
\(n_{\cdot1}\) \(n_{\cdot2}\) \(n_{\cdot\ell}\) \(n\)

9.3 Erwartungswerte

Bestünde kein Zusammenhang zwischen den Variablen, dann wäre zu erwarten, dass sich die Kombinationen gleichmäßig auf die Tabellenfelder aufteilen, und zwar ausgehend von den Teilsummen für die Zeilen und Spalten.

Der Erwartungswert für ein Tabellenfeld (also der durchschnittliche Wert, wenn es keinen Zusammenhang zwischen den beiden Variablen gibt) berechnet sich durch die Formel:

\[ m_{ij}=\frac{n_{i\cdot}\cdot n_{\cdot j}}{n} \tag{9.1} \]

Es wird also das Produkt der Zeilen- und der Spaltensumme geteilt durch die Gesamtsumme.

9.3.1 Beispiel

Die beobachtete Häufigkeit für die Kombination Geistes-/Sozialwissenschaft (Zeile 1) und anderes Transportmittel (Spalte 2) ist 28. Aber was wäre der Erwartungswert bei den gegebenen Summen? Wir setzen einfach die entsprechenden Werte in Gleichung (9.1) ein:

\[ \begin{aligned} m_{12}&=\frac{n_{1\cdot}\cdot n_{\cdot 2}}{n}\\[5pt] &=\frac{39\cdot 70}{90}\\[4pt] &\approx 30{,}33 \end{aligned} \]

Diese Rechnung lässt sich für alle Tabellenfelder durchführen. Die Kreuztabelle kann dann um diese erwarteten Werte in Klammern ergänzt werden (s. Tabelle 9.4).

Tabelle 9.4: Kreuztabelle der Beispieldaten mit Erwartungswerten
Fahrrad anderes Transportmittel
Geistes-/Sozialwissenschaft 11
(8,67)
28
(30,33)
39
anderes Studienfach 9
(11,33)
42
(39,67)
51
20 70 90

9.4 Kontingenzkoeffizent 𝜒²

Sind für alle Tabellenfelder die Beobachtungs- und Erwartungswerte gegeben, lässt sich für jedes Tabellenfeld ein Wert berechnen, der diese Werte in Relation setzt. Die Summe dieser Werte über die gesamte Tabelle hinweg wird Kontingenzkoeffizient genannt und mit \(\chi^2\) (Chi-Quadrat) abgekürzt.

\[ \chi^2= \sum_{i=1}^{k}\sum_{j=1}^{\ell}\frac{(n_{ij}-m_{ij})^{2}}{m_{ij}} \tag{9.2} \]

Bei der Formel steht \(k\) wieder für die Anzahl der Zeilen (und \(i\) für ihre laufende Nummer) und \(\ell\) für die Anzahl der Spalten (und \(j\) für ihre laufende Nummer).

Das doppelte Summenzeichen mag etwas verwirrend sein, bedeutet aber nur, dass die Zeilen spaltenweise summiert werden, und dann die Summe dieser Zeilensumme genommen wird – d.h. dass einfach alle Tabellenfelder aufsummiert werden.

Der \(\chi^2\)-Wert kann (ähnlich wie der \(F\)-Wert aus Sitzung 6) nur positive Werte annehmen. Er bildet die Grundlage für die im Folgenden besprochenen Kennwerte \(\phi\) und \(\mathit{CI}\) sowie für den in Sitzung 10 zu besprechenden \(\chi^2\)-Test.

9.4.1 Beispiel

Ein möglicher Zwischenschritt ist es, diese Teilwerte von \(\chi^2\) für die einzelnen Tabellenfelder auszurechnen und in der Kreuztabelle zu notieren. Die Teilwerte werden dann für jedes Tabellenfeld mit der Formel

\[ \frac{(n_{ij}-m_{ij})^{2}}{m_{ij}} \tag{9.3} \]

berechnet und sind in Tabelle 9.5 in blau dargestellt.

Tabelle 9.5: Kreuztabelle der Beispieldaten mit Teilwerten für \(\chi^2\)
Fahrrad anderes Transportmittel
Geistes-/Sozialwissenschaft 11
(8,67)
0,626
28
(30,33)
0,179
39
anderes Studienfach 9
(11,33)
0,479
42
(39,67)
0,137
51
20 70 90

Zum Beispiel ergibt sich der Teilwert für \(\chi^2\) für die Kombination anderes StudienfachFahrrad durch Einsetzen in Gleichung (9.3):

\[ \begin{aligned} \frac{(n_{21}-m_{21})^{2}}{m_{21}} &\approx \frac{(9-11{,}33)^2}{11{,}33}\\ &=\frac{-2{,}33^2}{11{,}33}\\ &\approx\frac{5{,}43}{11{,}33}\\ &\approx0{,}479 \end{aligned} \]

Der \(\chi^2\)-Wert lässt sich nun bestimmen, indem diese Teilwerte aufsummiert werden:

\[ \begin{aligned} \chi^2&= \sum_{i=1}^{k}\sum_{j=1}^{\ell}\frac{(n_{ij}-m_{ij})^{2}}{m_{ij}}\\[4pt] &\approx 0{,}626 + 0{,}179 + 0{,}479 + 0{,}137\\ & =1{,}421 \end{aligned} \]

Mit diesem Wert \(\chi^2\approx1{,}421\) können wir noch nicht so viel anfangen – wir wissen aber, dass er ein Maß dafür ist, wie sehr unsere beobachtete Verteilung von einer zu erwarteten Verteilung (vorausgesetzt, es gibt keinen Zusammenhang) abweicht.

9.5 𝜙-Koeffizient

Der \(\phi\)-Koeffizient ist der Korrelationskoeffizient für zwei dichotome Variablen (wobei er in der hier besprochenen Version nur positive Werte annehmen kann). Er ist jedoch nicht ohne weiteres mit dem Korrelationskoeffizienten \(r\) (aus Sitzung 7) vergleichbar.

Der Wert für \(\phi\) kann aus \(\chi^2\) berechnet werden mit:

\[ \phi=\sqrt{\frac{\chi^2}{n}} \tag{9.4} \]

9.5.1 Beispiel

In unserem Beispiel ergibt sich also für \(\phi\) durch Einsetzung in Gleichung (9.4):

\[ \begin{aligned} \phi&=\sqrt{\frac{\chi^2}{n}}\\[6pt] &\approx\sqrt{\frac{1{,}421}{90}}\\[4pt] &\approx0{,}126 \end{aligned} \]

Es wird ersichtlich, dass es eine leichte Korrelation der Variablen gibt. Aber in welche Richtung? Dafür müssen wir auf die Kreuztabelle 9.5 blicken: Der beobachtete Wert für die Wertekombination Fahrrad und Geistes-/Sozialwissenschaft beträgt \(n_{11}=11\) und liegt über dem Erwartungswert \(m_{11}=8{,}67\). Damit ist klar: Das Studium von Geistes- und Sozialwissenschaften korreliert positiv mit der Fahrradnutzung für den Pendelweg.

Ob diese Korrelation auch statistisch relevant ist, kann mit dem \(\chi^2\)-Test (Sitzung 10) überprüft werden.

9.6 Cramér-Index

Bisher wurden in dieser Sitzung nur Verteilungen von zwei dichotomen Variablen besprochen. Nun gibt es aber auch nominalskalierte bivariate Verteilungen, in denen die Merkmale mehr als zwei Werte annehmen können (also nicht dichotom sind). In diesem Fall ist der Cramér-Index (auch Cramérs \(v\), engl. Cramér index) ein geeigneter Kennwert für die Abhängigkeit der Variablen.

Die Formel für den Cramér-Index lautet

\[ \mathit{CI}=\sqrt{\frac{\chi^2}{n\cdot (\mathrm{min}(k, \ell)-1)}} \tag{9.5} \]

wobei der Ausdruck \(\mathrm{min}(k,\ell)\) für den kleineren Wert aus Zeilenanzahl \(k\) und Spaltenanzahl \(\ell\) steht.

In einer \(2\times2\)-Tabelle ist dieser Wert identisch mit dem \(\phi\)-Koeffizienten.

9.6.1 Beispiel

Hätten wir im Beispiel die Erhebung nicht auf dichotome Variablen reduziert, sondern die Wissenschaftsdisziplinen und Verkehrsmittel direkt erhoben, so würde sich die Kreuztabelle vielleicht wie in Tabelle 9.6 darstellen.

Dabei werden die Erwartungswerte wie gehabt mit Gleichung (9.1) und die Teilwerte für \(\chi^2\) mit Gleichung (9.3) errechnet.

Tabelle 9.6: Kreuztabelle des Beispiels ohne Dichotomisierung
→ Transportmittel
Studienfach ↓ Fahrrad Auto Öffentliche
Geisteswissenschaft 5
(4,22)
0,144
5
(8,02)
1,137
9
(6,76)
0,742
19
Sozialwissenschaft 6
(4,44)
0,548
6
(8,44)
0,705
8
(7,11)
0,111
20
Naturwissenschaft 5
(5,11)
0,002
9
(9,71)
0,052
9
(8,18)
0,082
23
Ingenieurswissenschaft 4
(6,22)
0,792
18
(11,82)
3,231
6
(9,96)
1,574
28
20 38 32 90

Der \(\chi^2\)-Wert ergibt sich wieder aus der Summe (s. Gleichung (9.2)):

\[ \begin{aligned} \chi^2&= \sum_{i=1}^{k}\sum_{j=1}^{\ell}\frac{(n_{ij}-m_{ij})^{2}}{m_{ij}}\\[4pt] &\approx 0{,}144+1{,}137+0{,}742+0{,}548+0{,}705+0{,}111\\&\quad+0{,}002+0{,}052+0{,}082+0{,}792+3{,}231+1{,}574 \\ & =9{,}120 \end{aligned} \]

Mit diesem Wert kann der Cramér-Index anhand von Gleichung (9.5) berechnet werden.

Die Zeilenanzahl ist \(k=4\) und die Spaltenanzahl \(\ell=3\). Der Ausdruck \(\mathrm{min}(k,\ell)\) ergibt den kleineren dieser Werte, also 3:

\[ \begin{aligned} \mathit{CI}&=\sqrt{\frac{\chi^2}{n\cdot (\mathrm{min}(k, \ell)-1)}}\\[6pt] &\approx\sqrt{\frac{9{,}122}{90\cdot(3-1)}}\\[4pt] &\approx0{,}225 \end{aligned} \]

Dieser Wert ist größer als der oben berechnete \(\phi\)-Koeffizient. Das ist nicht besonders überraschend: Eine detailliertere Erfassung der Variablen führt zu einem deutlicheren Zusammenhang.

Tipps zur Vertiefung

  • Kapitel 9.1, 10.3.4 und 10.3.7 in Bortz und Schuster (2010)
  • Kapitel 4.2.2 – 4.2.3 in Lange und Nipper (2018)
  • Kapitel 6.7.2 in Bahrenberg, Giese und Nipper (2010)
  • Kapitel 2.3 in Klemm (2002)
  • Englisch: Kapitel 12.2 in Burt und Barber (1996)

Übungsaufgaben

9.6.2 Aufgabe 9-1

zur Lösung

Sie fragen sich, wie die Wohnumgebung einer Person (Stadt oder Land) damit zusammenhängt, ob die Person ein eigenes Auto besitzt. Sie erheben die folgende Messreihe:

Wohnort Autobesitz
Stadt Nein
Land Ja
Stadt Nein
Land Ja
Stadt Nein
Land Ja
Land Ja
Land Nein
Stadt Nein
Stadt Nein
Land Ja
Land Nein
Land Ja
Stadt Ja
Land Ja
Land Ja
Stadt Nein
Stadt Ja
Stadt Nein
Land Ja
  1. Überführen Sie die Daten in eine Kreuztabelle.

  2. Berechnen Sie die Erwartungswerte für jedes Tabellenfeld.

  3. Berechnen Sie \(\chi^2\).

  4. Berechnen Sie den \(\phi\)-Koeffizienten.

  5. Besteht eine Korrelation? In welche Richtung?

9.6.3 Aufgabe 9-2

zur Lösung

Sie interessieren sich dafür, ob zwei Ja/Nein-Fragen auf einem Fragebogen korrelieren.

Sie ermitteln folgende Häufigkeiten:

→ Frage 2
Frage 1 ↓ Ja Nein
Ja 5 28
Nein 40 72
  1. Vervollständigen Sie die Kreuztabelle um ihre Summen und die Erwartungswerte.

  2. Berechnen Sie \(\chi^2\) und den \(\phi\)-Koeffizienten.

  3. Wie würden Sie den Zusammenhang beschreiben?

9.6.4 Aufgabe 9-3

zur Lösung

Sie möchten überprüfen, ob auf dem Arbeitsmarkt anhand von Namen diskriminiert wird, die auf einen Migrationshintergrund schließen lassen. Sie antworten als fiktive Bewerber*innen mit vergleichbaren Qualifikationen auf zufällige Stellenanzeigen und halten fest, ob die jeweilige Bewerbung in einer Einladung zum Vorstellungsgespräch resultiert.

Sie erheben diese Daten:4

→ Ergebnis
Herkunft des Namens ↓ eingeladen nicht eingeladen
deutsch 36 64
italienisch 23 77
slawisch 9 91
türkisch 11 89

Können Sie einen Zusammenhang zwischen Namensherkunft und Erfolg der Bewerbung feststellen? Begründen Sie Ihre Antwort.

9.6.5 Aufgabe 9-4

zur Lösung

In einer breit angelegten Befragung von Haushalten wird erhoben,

  1. ob die Proband*innen zur Miete wohnen und
  2. welchen Internetanschluss sie nutzen.

Sie fassen die Ergebnisse in einer Kreuztabelle zusammen:

→ Wohnverhältnis
Internetanschluss ↓ Miete Eigentum
Glasfaser 1926 1567
DSL 2758 3686
Koaxialkabel 3002 1903
Kein fester Anschluss 1277 167

Berechnen Sie den Cramér-Index und interpretieren Sie das Ergebnis.

Quellenverzeichnis

Bahrenberg, Gerhard, Ernst Giese und Josef Nipper. 2010. Statistische Methoden in der Geographie. Bd. 1. Univariate und bivariate Statistik. Stuttgart: Bornträger.
Bortz, Jürgen und Christof Schuster. 2010. Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.
Burt, James E. und Gerald M. Barber. 1996. Elementary statistics for geographers. 2nd ed. New York: Guilford Press.
Klemm, Elmar. 2002. Einführung in die Statistik. Für die Sozialwissenschaften. Wiesbaden: Westdeutscher Verlag.
Lange, Norbert de und Josef Nipper. 2018. Quantitative Methodik in der Geographie. UTB Geographie, Methoden, Statistische Verfahren 4933. Paderborn: Ferdinand Schöningh.
Veit, Susanne. 2020. Feldexperimentelle Forschung zu ethnischer Diskriminierung auf dem Arbeitsmarkt: „Alle sind gleich, aber manche sind gleicher“. In: Handbuch Stress und Kultur, hg. von Tobias Ringeisen, Petia Genkova, und Frederick T. L. Leong, 1–22. Wiesbaden: Springer Fachmedien Wiesbaden. doi:10.1007/978-3-658-27825-0_25-1, http://link.springer.com/10.1007/978-3-658-27825-0_25-1 (zugegriffen: 10. Mai 2021).

  1. Diese Zahlen sind fiktiv. Echte Ergebnisse sogenannter Korrenspondenztests zu ähnlichen Fragestellungen sind bei Veit (2020) zusammengefasst.↩︎