PRE-Maße (Lambda, Eta-Quadrat)

Thomas Haase

PRE - Maße

  • Proportional Reduction of Error

  • Maß für Zusammenhänge von Variablen


  • nominal & ordinal: \(\lambda\) (Lambda)

  • nominal & metrisch: \(\eta^2\) (Eta-Quadrat)

  • Wie stellt ein PRE-Maß einen Zusammenhang fest?

Intuition PRE-Maß Formel

\[\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1}\] \(\text{E}_1:\) Fehler(ERROR) der Vorhersage von Y ohne X zu kennen

\(\text{E}_2:\) Fehler(ERROR) der Vorhersage von Y mit der Kenntnis von X

  • \(\Rightarrow\) sehr abstrakt, daher jetzt Beispiel:

Wir möchten vorhersagen wie viele Personen die Klausur bestehen werden. Bestehen/Nicht-Bestehen ist daher die unabhängige-Y Variable.

Wenn wir wissen wie viele Personen letztes Semester bestanden haben, können wir am besten die Prozentzahl ausrechnen und davon ausgehen, dass dieses Semester wieder so viel Prozent bestehen werden.

\[ \text{Y(bestanden)} = \frac{\text{Personen die bestanden haben}}{\text{Personen insgesamt in VL}} = \frac{60}{80} = 0,75 \]

Der Begriff “Messfehler” ist die Wahrscheinlichkeit, mit der wir einen Fehler begehen könnten.

Im Beispiel:
\(\text{E}_1 = 1 - 0,75 = 0,25\)
Also die Wahrscheinlichkeit, dass es genau anders ist als wir vorhersagen.

Wir wissen, dass ein Student der die Klausur schreibt sehr wahrscheinlich zu 75% besteht, können uns aber nicht ganz sicher sein, weil er auch zu den wenigen 25% gehören könnte, die nicht bestehen. Diese Unsicherheit ist die Wahrscheinlichkeit des Fehlers, den wir begehen, wenn wir eine Prognose von 75% treffen.

PRE bedeutet, dass wir nun wissen wollen ob der mögliche Messfehler kleiner wird, wenn wir die Vorhersage genauer machen indem wir noch eine andere Variable in die Vorhersage mit einbeziehen. Ein kleinerer Messfehler bedeutet eine bessere Vorhersage.

Die X-Variable mit der wir die Vorhersage verbessern möchte istin unserem Fall der Besuch des Tutoriums. Wenn wir diese Variable in das Modell mit einbeziehen und die Vorhersage genauer wird, dann wissen wir, dass ein Zusammenhang bestehen muss. Der Wert des PRE-Maß größer.

Von den Tutoriumsbesuchern haben 90% bestanden.

\[ \text{E}_2 = 1 - 0,9 = 0,1 \]

\[ \text{PRE} = \frac{0,25 - 0,1}{0,25} = 0,6 \] Die Vorhersage verbessert sich also.

Treffen wir doch mal eine Vorhersage:

Vorhersage ohne X

Bestanden Nicht-Bestanden Gesamt
60 20 80



\[ \text{Y(bestanden)} = \frac{60}{80} = 0,75 \]

Vorhersage mit X

Bestanden Nicht-Bestanden Gesamt
Tutorium besucht 54 2 56
Tutorium nicht besucht 6 18 24
Gesamt 60 20 80

\[ \text{Y(bestanden)} = \frac{54}{56} = 0,96 \]

Mit der neuen Variable können wir vorhersagen, dass 96% der Tutoriumsbesucher bestehen werden. Unsere vorhersage wird durch die zusätzliche Information sehr genau und der Messfehler sehr klein.

Berechnung auch ohne Prozente möglich!

Bestanden Nicht-Bestanden Gesamt
Tutorium besucht 54 2 56
Tutorium nicht besucht 6 18 24
Gesamt 60 20 80

\(E_1\) sind 20, denn 60 ist der beste Schätzer und wir können 20 danebenliegen

Bestanden Nicht-Bestanden Gesamt
Tutorium besucht 54 2 56
Tutorium nicht besucht 6 18 24
Gesamt 60 20 80

\(E_2\) sind \(2 + 6 = 8\), denn durch die neue Variable können wir doppelt daneben liegen

\[ \text{PRE} = \frac{20 - 8}{20} = 0,6 \]

Nochmal mit Prozenten

\[ \text{E}_1 = 1 - \frac{60}{80} = 0,25 \] \[ \text{E}_2 = 1 - \frac{54}{56} = 0,1 \] \[ \text{PRE} = \frac{0,25 - 0,1}{0,25} = 0,6 \]

Jetzt kann man die Formel verstehen

\[ \text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} \] \(\text{E}_1 - \text{E}_2\) ist der Abstand zwischen den beiden Messfehlern. Indem dieser durch \(\text{E}_1\) geteilt wird, wird berechnet wie viel größer der dieser Unterschied im Vergleich zu \(\text{E}_1\) ist.

Das waren alles schon Beispielrechnungen für \(\lambda\) (Lambda)!

\(\eta^2\) - Eta-Quadrat

  • \(\eta^2\) ist das gleiche wie \(\lambda\), nur dass es für die Varianzanalyse verwendet wird.
  • Varianzanalyse meint in dem Fall, dass in einer Gruppe statt ein bestimmter Wert, die Varianz der Werte betrachtet wird.
  • Je kleiner die Varianz ist, desto besser ist die Vorhersage.

Beispiel

Wir möchten wissen, ob die Information wer das Tutorium besucht hat die Vorhersage der Klausurnote verbessert.

  • \[\eta^2 = \frac{\text{QS}_{gesamt} - \text{QS}_{innerhalb}}{\text{QS}_{gesamt}}\]
  • \(\text{QS} = \sum(\text{Wert}_i - \text{Mittelwert})^2\)
    Gibt an wie ungenau die Vorhersage ist.
    “Wie weit liegt man insgesamt daneben”

Vorhersage ohne X

ID Klausurnote y
1 12
2 5
3 14
4 7
5 6
6 10

Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y} = \frac{12 + 5 + 14 + 7 + 6 + 10}{6}\)

\(~~~= \frac{54}{6} = 9\)


Fehler bzw. Abweichung: \(\text{QS}_{ges} = (12 - 9)^2 + (5 - 9)^2 + (14 - 9)^2\)
\(~~~~~~~~~~+ (7 - 9)^2 + (6 - 9)^2 + (10 - 9)^2\)
\(~~~~~~~~~~= 64\)

Vorhersage mit X

ID Klausurnote y Tutorium besucht
1 12 ja
2 5 nein
3 14 ja
4 7 nein
5 6 nein
6 10 ja

Tutorium besucht

ID Klausurnote y Tutorium besucht
1 12 ja
3 14 ja
6 10 ja

Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y}_{ja} = \frac{12 + 14 + 10}{3} = 12\)

\(\text{QS}_{ja} = (12-12)^2 + (14-12)^2\) \(~~~~~~~~~+ (10-12)^2 = 8\)

Tutorium nicht besucht

ID Klausurnote y Tutorium besucht
2 5 nein
4 7 nein
5 6 nein

Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y}_{nein} = \frac{5 + 7 + 6}{3} = 6\)

\(\text{QS}_{nein} = (5-6)^2 + (7-6)^2\) \(~~~~~~~~~+ (6-6)^2 = 2\)

Eta-Quadrat

  • \(\text{QS}_{innerhalb} = \text{QS}_{ja} + \text{QS}_{nein}\)
    \(~~~~~~~~~~~~~~~~~~= 8 + 2 = 10\)

  • \(\eta^2 = \frac{\text{QS}_{gesamt} - \text{QS}_{innerhalb}}{\text{QS}_{gesamt}} = \frac{64 - 10}{64} = 0,84\)

  • Der Schätzfehler kann um 84% verringert werden, wenn die Information über den Tutoriumsversuch mitbeachtet wird.

Übung - \(\lambda\)

Echte Werte aus dem European Social Survey 2018

Berechne und interpretiere Lambda
Abhängige Variable: had a paid job

had a paid job never had a paid job GESAMT
männlich 3414 602 4016
weiblich 4336 926 5262
GESAMT 7750 1528 9278

Lösung - \(\lambda\)

\(\text{E}_1 = 1 - \frac{7750}{9278} = 0,16\)

\(\text{E}_2 = (\frac{4016}{9278}(1-\frac{3414}{4016})) + (\frac{5262}{9278}(1-\frac{4336}{5262}))\)
\(~~~~~= 0,16\)

\(\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} = \frac{0,16 - 0,16}{0,16} = 0\)

Keine Verbesserung der Vorhersage durch die Information über das Geschlecht.