Proportional Reduction of Error
Maß für Zusammenhänge von Variablen
nominal & ordinal: \(\lambda\) (Lambda)
nominal & metrisch: \(\eta^2\) (Eta-Quadrat)
Wie stellt ein PRE-Maß einen Zusammenhang fest?
\[\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1}\] \(\text{E}_1:\) Fehler(ERROR) der Vorhersage von Y ohne X zu kennen
\(\text{E}_2:\) Fehler(ERROR) der Vorhersage von Y mit der Kenntnis von X
Wir möchten vorhersagen wie viele Personen die Klausur bestehen werden. Bestehen/Nicht-Bestehen ist daher die unabhängige-Y Variable.
Wenn wir wissen wie viele Personen letztes Semester bestanden haben, können wir am besten die Prozentzahl ausrechnen und davon ausgehen, dass dieses Semester wieder so viel Prozent bestehen werden.
\[ \text{Y(bestanden)} = \frac{\text{Personen die bestanden haben}}{\text{Personen insgesamt in VL}} = \frac{60}{80} = 0,75 \]
Der Begriff “Messfehler” ist die Wahrscheinlichkeit, mit der wir einen Fehler begehen könnten.
Im Beispiel:
\(\text{E}_1 = 1 - 0,75 = 0,25\)
Also die Wahrscheinlichkeit, dass es genau anders ist als wir vorhersagen.
Wir wissen, dass ein Student der die Klausur schreibt sehr wahrscheinlich zu 75% besteht, können uns aber nicht ganz sicher sein, weil er auch zu den wenigen 25% gehören könnte, die nicht bestehen. Diese Unsicherheit ist die Wahrscheinlichkeit des Fehlers, den wir begehen, wenn wir eine Prognose von 75% treffen.
PRE bedeutet, dass wir nun wissen wollen ob der mögliche Messfehler kleiner wird, wenn wir die Vorhersage genauer machen indem wir noch eine andere Variable in die Vorhersage mit einbeziehen. Ein kleinerer Messfehler bedeutet eine bessere Vorhersage.
Die X-Variable mit der wir die Vorhersage verbessern möchte istin unserem Fall der Besuch des Tutoriums. Wenn wir diese Variable in das Modell mit einbeziehen und die Vorhersage genauer wird, dann wissen wir, dass ein Zusammenhang bestehen muss. Der Wert des PRE-Maß größer.
Von den Tutoriumsbesuchern haben 90% bestanden.
\[ \text{E}_2 = 1 - 0,9 = 0,1 \]
\[ \text{PRE} = \frac{0,25 - 0,1}{0,25} = 0,6 \] Die Vorhersage verbessert sich also.
Bestanden | Nicht-Bestanden | Gesamt | |
---|---|---|---|
60 | 20 | 80 |
\[
\text{Y(bestanden)} = \frac{60}{80} = 0,75
\]
Bestanden | Nicht-Bestanden | Gesamt | |
---|---|---|---|
Tutorium besucht | 54 | 2 | 56 |
Tutorium nicht besucht | 6 | 18 | 24 |
Gesamt | 60 | 20 | 80 |
\[ \text{Y(bestanden)} = \frac{54}{56} = 0,96 \]
Mit der neuen Variable können wir vorhersagen, dass 96% der Tutoriumsbesucher bestehen werden. Unsere vorhersage wird durch die zusätzliche Information sehr genau und der Messfehler sehr klein.
Bestanden | Nicht-Bestanden | Gesamt | |
---|---|---|---|
Tutorium besucht | 54 | 2 | 56 |
Tutorium nicht besucht | 6 | 18 | 24 |
Gesamt | 60 | 20 | 80 |
\(E_1\) sind 20, denn 60 ist der beste Schätzer und wir können 20 danebenliegen
Bestanden | Nicht-Bestanden | Gesamt | |
---|---|---|---|
Tutorium besucht | 54 | 2 | 56 |
Tutorium nicht besucht | 6 | 18 | 24 |
Gesamt | 60 | 20 | 80 |
\(E_2\) sind \(2 + 6 = 8\), denn durch die neue Variable können wir doppelt daneben liegen
\[ \text{PRE} = \frac{20 - 8}{20} = 0,6 \]
\[ \text{E}_1 = 1 - \frac{60}{80} = 0,25 \] \[ \text{E}_2 = 1 - \frac{54}{56} = 0,1 \] \[ \text{PRE} = \frac{0,25 - 0,1}{0,25} = 0,6 \]
\[ \text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} \] \(\text{E}_1 - \text{E}_2\) ist der Abstand zwischen den beiden Messfehlern. Indem dieser durch \(\text{E}_1\) geteilt wird, wird berechnet wie viel größer der dieser Unterschied im Vergleich zu \(\text{E}_1\) ist.
Wir möchten wissen, ob die Information wer das Tutorium besucht hat die Vorhersage der Klausurnote verbessert.
ID | Klausurnote y |
---|---|
1 | 12 |
2 | 5 |
3 | 14 |
4 | 7 |
5 | 6 |
6 | 10 |
Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y} = \frac{12 + 5 + 14 + 7 + 6 + 10}{6}\)
\(~~~= \frac{54}{6} = 9\)
Fehler bzw. Abweichung: \(\text{QS}_{ges} = (12 - 9)^2 + (5 - 9)^2 + (14 - 9)^2\)
\(~~~~~~~~~~+ (7 - 9)^2 + (6 - 9)^2 + (10 - 9)^2\)
\(~~~~~~~~~~= 64\)
ID | Klausurnote y | Tutorium besucht |
---|---|---|
1 | 12 | ja |
2 | 5 | nein |
3 | 14 | ja |
4 | 7 | nein |
5 | 6 | nein |
6 | 10 | ja |
ID | Klausurnote y | Tutorium besucht |
---|---|---|
1 | 12 | ja |
3 | 14 | ja |
6 | 10 | ja |
Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y}_{ja} = \frac{12 + 14 + 10}{3} = 12\)
\(\text{QS}_{ja} = (12-12)^2 + (14-12)^2\) \(~~~~~~~~~+ (10-12)^2 = 8\)
ID | Klausurnote y | Tutorium besucht |
---|---|---|
2 | 5 | nein |
4 | 7 | nein |
5 | 6 | nein |
Beste Vorhersage welche Note eine Person schreiben wird: \(\bar{y}_{nein} = \frac{5 + 7 + 6}{3} = 6\)
\(\text{QS}_{nein} = (5-6)^2 + (7-6)^2\) \(~~~~~~~~~+ (6-6)^2 = 2\)
\(\text{QS}_{innerhalb} = \text{QS}_{ja} + \text{QS}_{nein}\)
\(~~~~~~~~~~~~~~~~~~= 8 + 2 = 10\)
\(\eta^2 = \frac{\text{QS}_{gesamt} - \text{QS}_{innerhalb}}{\text{QS}_{gesamt}} = \frac{64 - 10}{64} = 0,84\)
Der Schätzfehler kann um 84% verringert werden, wenn die Information über den Tutoriumsversuch mitbeachtet wird.
Echte Werte aus dem European Social Survey 2018
Berechne und interpretiere Lambda
Abhängige Variable: had a paid job
had a paid job | never had a paid job | GESAMT | |
---|---|---|---|
männlich | 3414 | 602 | 4016 |
weiblich | 4336 | 926 | 5262 |
GESAMT | 7750 | 1528 | 9278 |
\(\text{E}_1 = 1 - \frac{7750}{9278} = 0,16\)
\(\text{E}_2 = (\frac{4016}{9278}(1-\frac{3414}{4016})) + (\frac{5262}{9278}(1-\frac{4336}{5262}))\)
\(~~~~~= 0,16\)
\(\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} = \frac{0,16 - 0,16}{0,16} = 0\)
Keine Verbesserung der Vorhersage durch die Information über das Geschlecht.