Zusammenfassung Statistik 1

Tutorium zur Vorlesung “Statistik für Sozialwissenschaften I” von Prof. Dr. Simone Abendschön

Author

Thomas Haase

Published

April 25, 2024

VL 1 Grundlegende Begriffe

Was ist Statistik

  • Deskriptiv
    • Merkmale
    • Zusammenhänge
    • Grafische Datstellung
    • Lage und Streumaße
  • Inferenz
    • GG/Stichprobe
    • Stichprobenfehler
  • amtliche Statistik
    • von Institutionen in Auftrag gegeben
  • Explorative Statistik
    • Zusammenhänge in Daten finden
    • Big Data

Grundbegriffe

  • Grundgesamtheit
    • Menge der Objekte für die die Aussage der Untersuchung gelten soll
  • Stichprobe
    • systematische Auswahl einer Teilmenge von Elementen aus der GG
  • Stichprobenfehler
    • Merkmalsausprägung in GG und Stichprobe unterscheidet sich

Skalenniveaus

VL 2 Univariate Statistik

Datenmatrix/Rohdaten

  • Datenmatrix/Urliste
    • Spalten \(\rightarrow\) Variablen
    • Zeilen \(\rightarrow\) Fälle

Häufigkeiten

frequenz und Häufigkeit

  • Absolute Häufigkeit: \(Hx_k = fx_k\)

  • Relative Häufigkeit: \(hx_k = \frac{fx_k}{n}\)

  • prozentuale Häufigkeit: \(\text{Prozente}=hx_k\cdot100\)

Kumulierte Häufigkeit

Die kumulierte Häufigkeit zkählt die Prozente der Zeile in der sie steht und alle vorgehenden zusammen.

politisches Interesse Allbus:

Kategorie \(Hx_k\) \(hx_k\) \(hx_k\cdot100\) kumulierte prozentuale Häufigkeit
sehr stark 425 0,122 12,2 12,2
stark 877 0,251 25,1 37,3
mittel 1437 0,412 41,2 78,5
wenig 564 0,162 16,2 94,7
überhaupt nicht 186 0,053 5,3 100
Gesamt 3490 1,000 100

Darstellungsarten

Diagrammtyp Variablenskala zu beachten
Piechart nominal nur wenig Kategorien
Säulendiagramm nominal, ordinal Reihenfolge auf X-Achse
Histogramm intervall, ratio hat Zweck Fläche darzustellen
\(\Rightarrow\) Tipp: Polygonzug/Dichteverteilung mit angeben

Summenzeichen

\[ \sum_{i=m}^{n} x_i~~=~~x_m + x_{m+1} + x_{m+2} + x_{m+3} + \ldots + x_n \]

Beispiel:

\(x\): 2,2,3,10,3 \[ \sum_{i=2}^{4} x_i~~=~~x_2 + x_3 + x_4~~=~~2+3+10~~=~~15 \] \[ \sum_{i=1}^{3} x_i \cdot 2~~=~~x_1\cdot 2 + x_2\cdot 2 + x_3\cdot 2~~=~~2\cdot 2 + 2\cdot 2 + 3\cdot 2=14 \] \[ \frac{\sum_{i=1}^{n}x_i}{n}~~=~~\frac{2+2+3+10+3}{5}=\frac{20}{5}=4 \]

VL 3 Univariate Statistik

Lagemaße und zentrale Tendenz

Begriff Definition Anwendbar auf
Modus Wert kommt am häufigsten vor ratio, intervall, ordinal, nominal
Median Teilt Menge in 2 gleichgroße Teile ratio, intervall, ordinal
arithmetisches Mittel Durchschnitt ratio, intervall

Median

  • n - ungerade: \(\tilde{x} = x_{\frac{n+1}{2}}\)

  • n - gerade: \(\tilde{x} = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}\)

ungerade (mittlerer Wert = 6):

\(x_1\) \(x_2\) \(\bf{x_3}\) \(x_4\) \(x_5\)
3 5 6 8 12

gerade (Durchschnitt der mittleren beiden Werte = 7 (6+8/2)):

\(x_1\) \(x_2\) \(\bf{x_3}\) \(\bf{x_4}\) \(x_5\) \(x_6\)
3 5 6 8 12 13

arithmetisches Mittel

Für Rohdaten: \[ \bar{x}=\frac{\sum_{i=1}^{n}x_i}{2} \]

Für Häufigkeitstabelle: \[ \bar{x}=\frac{\sum_{k=1}^{m}(x_k \cdot f_{x_{k}})}{2} \]

Um die mittlere Antwort, einen “Durchschnitt”, zu berechnen werden zuerst alle Antworten die gegeben wurden aufsummiert und im zweiten Schritt durch die Anzahl der Antworten (n) geteilt.

In der Datenmatrix/Urliste sind alle Antworten als \(x_i\)’s direkt ablesbar. Diese können einfach aufsummiert werden. Die Anzahl aller Antworten (n) kann an der ID des letzten Falls abgelesen werden (sofern keine Fälle dazwischenherausgefiltert wurden).

In der Häufigkeitstabelle kann man die einzelnen Antworten nicht so direkt ablesen wie in der Datenmatrix. Jedoch wissen wir, dass bspw. 400 Personen Antwortausprägung 1 gegeben haben, 600 Antwortausprägung 2 usw.. Antwort 1 kommt also 500 mal in der Datenmatrix vor, Antwort 2 600 mal usw.. Wir rechnen also die jeweilige Antwort MAL die Anzahl wie oft diese Antwort angegeben wurde. Die Anzahl aller Antworten (n) wird ermittelt indem die Häufigkeiten der einzelnen Antwortausprägungen addiert werden.

Dispersionsmaße/Lagemaße und Verteilungsformen

Kriterien Verteilung
Modus < Median < arithmet. Mittel linkssteil/rechtsschief
arithmet. Mittel < Median < Modus rechtssteil/linksschief
2 Modi, Median = arithmet.Mittel, Modus weicht stark ab bimodal
arithmet.Mittel, Modalwert und Median fast gleich symmetrisch

VL 4 Univariate Statistik

Variationsweite/Spannweite/Range

\[V=x_{max} - x_{min}\] Beispiel: höchster Wert 10, niedrigster Wert 7

\(\rightarrow \text{range} = 10-7 = 3\)

Nachteil: Starke Abweichungen einzelner Werte führen zu Fehlinterpretation

Interquartilsabstand/IQR

\[ \text{IQR} = Q_{0,75} - Q_{0,25} \] Wie der Median wird die Fläche der Verteilung nach Prozenten in Abschnitte unterteilt. Der IQR zerteilt die Verteilung in 4 Abschnitte mit gleich-vielen Werten. Der Abstand der beiden Schnitte ist der IQR.

Varianz

Durchschnittliche Abweichung vom Mittelwert \[ \text{Varianz:~~~~~}\sigma^2 = \frac{\sum^{n}_{i=1}(x_i-\bar{x})^2}{n} \] \[ \text{Standardabweichung:~~~~~}\sigma=\sqrt{\sigma^2} \]

Beispiel: Gefragt wurden 1.000 Personen, wie hoch ihre monatliche Handyrechnung ist. Der Mittelwert liegt bei 40 Euro und die Standardabweichung bei 27. Das heißt, dass die durchschnittliche Entfernung aller Antworten zum Mittelwert 27 Euro beträgt.

Man schreibt wiefolgt:

  • \(\bar{x} = 40\)

  • \(\sigma = 27\)

  • \(\bar{x} = 40\pm 27\)

\(x_i - \bar{x}\) berechnet den Abstand des Punktes \(i\) zum Mittelwert der Verteilung. Um den Durchschnittlichen Abstand pro Punkt zu erhalten wird durch \(n\) geteilt.

Problem: Der Mittelwert wird genau so berechnet, dass der Gesamtabstand aller Punkte über dem Mittelwert dem Gesamtabstand aller Punkte unter dem Mittelwert entspricht. Wenn man nun den einfachen Abstand aller Punkte zusammenrechnen würde (\(\sum^{n}_{i=1}x_i - \bar{x}\)), addiert man die Abstände aller Punkte über dem Mittelwert und subtrahiert die Abstände aller Punkte unter dem Mittelwert (die Abstände sind relativ zum Mittelwert gesehen negativ). Das Ergebnis wäre also immer 0.

Um trotz dieses Problems ein Maß für die durchschnittliche Abweichung vom Mittelwert zu erhalten, werden die Abstände quadriert. Das Quadrat ist immer positiv, allerdings werden auch die einzelnen Werte verzerrt. Je größer der Abstand vom Mittelwert bereits ist, desto größer wird auch das Quadrat. Um die so berechnete Varianz wieder in die Einheit der Rohwerte zu bringen wird für die berechnung der Standardabweichung noch die Wurzel gezogen.

VL 5 Univariate Statistik

Boxplot

Ausreißer und Extremwert

  • Ausreißer: \(1,5\cdot \text{IQR}\) über 3./unter 1. Quartil
  • Extremwert: \(3\cdot \text{IQR}\) über 3./unter 1. Quartil

Variationskoeffizient V

Mit dem Variationskoeffizienten können Streuungen verschiedener Verteilungen verglichen werden. \[\text{V} = \frac{\sigma}{\bar{x}} = \frac{\text{Standardabweichung}}{\text{arithm. Mittel}}\]

Z-Transformation/Z-Wert

Mit dem Z-Wert können einzelne Werte verschiedener Verteilungen verglichen werden. \[\text{z} = \frac{x_i - \bar{x}}{\sigma}\]

  • Der Mittlwert aller Z-Werte einer Verteilung ist immer 0
  • Die Varianz aller Z-Werte einer Verteilung ist immer 1

VL 6 Bivariate Statistik

Kreuztabelle/Kontingenztafel

  • für nominale/ordinale Variablen
  • Konvention: Zeile-abhängig / Spalte-unabhängig
Tutorium besucht Tutorium nicht besucht Gesamt
bestanden 9 59 68
nicht bestanden 2 14 16
Gesamt 11 73 84

VL 7 Bivariate Statistik

Kreuztabellen

Es gibt 2 Arten von Kreuztabellen:

  • Kontingenztabelle - enthält beobachtete Werte

  • Indifferenztabelle - enthält erwartete Werte

Erwartete Häufigkeit

\[\text{f}_{e(ij)}=\frac{\text{Zeilensumme}\cdot\text{Spaltensumme}}{n}\]

Die Gleichung kann leicht umgestellt werden in: \(\text{f}_{e(ij)}=\text{Zeilensumme}\cdot\frac{\text{Spaltensumme}}{n}\). Nun wird deutlich, dass ”Spaltensumme durch n” ein Prozentsatz ist (äquivalent geht auch \(\text{Spaltensumme}\cdot\frac{\text{Zeilensumme}}{n}\), was im Grunde dasselbe ist).

Dieser Spaltensummenprozentsatz wird nun durch das Malrechnen auf alle Fälle der jeweiligen Zeile der Zelle angewendet. So entsteht der erwartete Wert.

Wir übertragen also die gewussten Prozente der einen Variable auf die zweite Variable. Wenn 12% aller Menschen rauchen, erwarten wir, dass auch 12% aller Männer und 12% aller Frauen rauchen.

Residuen

Residuen sind die Differenz beobachteter und erwarteter Werte. Je weiter erwartete und beobachtete Werte auseinanderliegen desto eher vermuten wir einen Zusammenhang. Wenn wir erwarten, dass 12% aller Menschen rauchen (Zeilensumme), dann erwarten wir auch, dass 12% aller Männer und 12% aller Frauen rauchen. Wenn die beobachteten Werte aber stark abweichen, die Residuen also groß sind, hat die Variable Geschlecht einen Einfluss auf die Verteilung der Raucher.

Chi-Quadrat

\[\chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{ij} - f_{eij})^2}{f_{eij}}\]

Für jede Zelle werden die Abstände von beobachtetem und erwartetem Wert (Residuen) berechnet(\(f_{bij} − f_{eij}\)). Da wir nur an den positiven Abständen interessiert sind (wie schon bei der Varianz) wird das Residuum der Zelle quadriert. Nun wird durch den erwarteten Wert geteilt, weil von keinem Zusammenhang, also den erwarteten Werten ausgegangen wird. Die bisher beschriebene Rechnung wird für alle Zellen einzeln ausgeführt und zusammengezählt. Das wird in der Gleichung damit erreicht, dass die Ergebnisse der Formel für alle Zellen aufsummiert werden. Also in einer \(2\times2\) Tabelle: i=1 j=1, i=2 j=1, i=1 j=2, i=2 j=2. (\(\sum^m_{j=1} \sum^k_{i=1}\)).

  • \(0 < \chi^2 < \infty\)

  • Je größer der Wert desto größer der Zusammenhang (0: kein Zusammenhang)

Problem \(\chi^2\) ist für denselben Zusammenhang unterschiedlich groß, wenn ein anderes \(n\) und/oder eine unterschiedliche Kategorienzahl vorliegt

Normierung Chi-Quadrat mit Phi, C, Cramer’s V$

Phi: \(\phi\)

\(\phi\) korrigiert die Abhängigkeit von . Es ist sinnvoll in die Analyse mit einzubeziehen, wenn man den Zusammenhang unabhängig von der Gesamtzahl interpretieren möchte, zum Beispiel wenn unterschiedlich große Verteilungen mit der selben Kategorienanzahl verglichen werden sollen.

\[\phi = \sqrt{\frac{\chi^2}{n}}\]

  • \(0 < \phi < 1, wobei 0: kein Zusammenhang; 1: maximaler Zusammenhang\)

Kontingenzkoeffizient C

\(C\) korrigiert die Abhängigkeit \(\chi^2\)’s von der Anzahl der Kategorien und von n. Allerdings muss die Kategorienzahl bei der Berechnung von \(C_{max}\) mit einbezogen werden. Verschiedene Kontingenztabellen haben also unterschiedliche maximale \(C\) Werte. \[C = \sqrt{\frac{\chi^2}{\chi^2 + n}}\] \[C_{\text{max}} = \sqrt{\frac{R-1}{R}}\]

  • \(0 < C < C_{\text{max}}\)

  • Beispiele für R:

    • \(2 \times 2\): R = 2
    • \(3 \times 4\): R = 3
    • \(4 \times 3\): R = 3

Cramer’s V

Cramer’s V wird für den Vergleich von \(\chi^2\) zwischen verschieden großen Kreuztabellen genutzt. \[\text{Cramér's V} = \sqrt{\frac{\chi^2}{\chi^2_{\text{max}}}} = \sqrt{\frac{\chi^2}{n \cdot (R-1)}} = \sqrt{\frac{\chi^2}{n \cdot (\min(k, m) - 1)}}\]

  • \(0 < \text{Cramer's V} < 1\)
Cramer’s V bzw. Phi Interpretation
≤ 0,05 kein Zusammenhang
> 0,05 bis 0,10 sehr schwacher Zusammenhang
> 0,10 bis 0,20 schwacher Zusammenhang
> 0,20 bis 0,40 mittelstarker Zusammenhang
> 0,40 bis 0,60 starker Zusammenhang
> 0,60 sehr starker Zusammenhang

VL 8 Bivariate Statistik

Spearmans (Rho)

  • Zusammenhänge zwischen ordinalen Variablen herstellen.

\[\rho = 1 - \frac{6 \cdot \sum^{n}_{i=1}{d^2_i}}{n \cdot (n^2-1)}\] \[d_i = R(x_i) - R(y_i)~~~\textrm{(Differenz der Rangplätze)}\]

  • \(-1 < \rho < 1\)

Link zu den Tutoriumsfolien (mit Beispiel)

VL 9 Bivariate Statistik

PRE Maße

Lambda

Lambda wird für nominale und ordinale Skalenniveaus verwendet. Mit Prozenten und Mittelwerten kann eine Vorhersagee für eine Variable formuliert werden. Um zu bestimmen ob sich die Vorhersage verbessert, wenn eine zweite Variable mit einbezogen wird kann durch PRE-Maße getestet werden. Je stärker die beiden Variablen zusammenhängen, desto besser wird die Vorhersage. \(\text{E}\) steht für den Fehler bzw. die Ungenauigkeit der Vorhersage.

\[ \lambda = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} \] \[ \text{E}_1 = 1- \frac{H_{\text{Modal}}}{n} \]

Für die “Hauptvariable 1” ist die beste Vorhersage der Prozentuale Anteil der häufigsten Kategorie (\(\frac{h_{\text{Modal}}}{n}\)). Die häufigste Kategorie wird Modalkategorie genannt (vgl. Modus). Beispiel: Wenn 9 von 10 Zahnärzten eine Zahnpasta empfehlen, gehört ein bisher unbekannter 11. Arzt zu einer Wahrscheinlichkeit von 90% zur Gruppe die die Zahnpaste empfiehlt. Der Fehler bei einer Vorhersage ist dann die Wahrscheinlichkeit, dass die Vorhersage auf Basis der Modalkateogorie falsch ist - also der 10%ige Fall eintritt, dass der 11. Arzt die Zahnpaste nicht empfielt(\(1-0.9=0.1\)).

\[ \text{E}_2 = \sum^{J}_{j=1}\frac{H_j}{n}(1-\frac{H_{Mj}}{H_j}) \]

Wenn nun eine zweite Variable mit in die Vorhersage einbezogen werden soll, ist die beste Vorhersage nichtmehr mit den Gesamtprozenten sondern deren Überschneidungen zu rechnen. Beispiel: Statt nur auf Basis der Ärzte zu rechnen kann hinzugezogen werden, ob ein Arzt die Zahnpasta selbst nutzt. Wie vorher berechnen wir mit \(1-\frac{H}{\text{irgendwas}}\) den Schätzfehler in Prozent. Danach wird der Fehler mit den Zeilenprozenten gewichtet.

Nutzt Zahnpasta selbst? Empfiehlt Zahnpasta Empfiehlt Zahnpasta nicht Summe
Ja 7 0 7
Nein 2 1 3
Summe 9 1 10

\[ \text{E}_2 = \frac{7}{10}(1-\frac{7}{7}) + \frac{3}{10}(1-\frac{2}{3}) = 0,1 \]

\(\text{E}_1\) und \(\text{E}_2\) müssen nun nur noch in die \(\lambda\) Formel eingesetzt werden.

\[ \lambda = \frac{0,1 - 0,1}{0,1} = \frac{0}{0,1} = 0 \] Die Vorhersage wird nicht verbessert \(\Rightarrow\) es gibt keinen Zusammen zwischen den Variablen.

Eta-Quadrat

\(\eta^2\) wird für nominale und metrische Skalenniveaus verwendet. Die Logik ist dieselbe wie bei \(\lambda\), nur, dass der Fehler für metrische Variablen durch die Quadratsumme der Abstände zum Mittelwert berechnet wird (vgl. Varianz \(\Rightarrow\) je kleiner die Varianz, desto genauer der Mittelwert als Vorhersage).

\[ \lambda = \frac{\text{QS}_{\text{gesamt}} - \text{QS}_{\text{innerhalb}}}{\text{QS}_{\text{gesamt}}} \] \[ \text{QS}=\sum(\text{Wert}_i-\text{Mittelwert})^2 \]

\(\text{QS}_gesamt\) berechnet sich aus der Quadratsumme für die metrische Variable alleine.

Um \(\text{QS}_innerhalb\) zu berechnen müssen wir die Fälle durch hinzunahme der nominalen Variable in mehrere Gruppen unterteilen. Für jede Gruppe muss nun einzeln nocheinmal die Quadratsumme berechnet werden und das Ergebnis aller Gruppen zusammengerechnet werden.

Ein Beispiel findet sich in den Tutoriumsfolien ab Folie 17.

Link zu den Tutoriumsfolien mit ausführlicher Erklärung und Beispielen

Korrelation

Kovarianz

\[\text{cov}(X,Y) = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (y_i - \bar{y})}{n}\]

  • gemeinsame Abweichung von den Mittelwerten

  • positiv, wenn x und y beide in dieselbe Richtung abweichen

    • \(x\) unter \(\bar{x}\) und gleichzeitig \(y\) auch unter \(\bar{y}\) ODER \(x\) über \(\bar{x}\) und gleichzeitig \(y\) auch über \(\bar{y}\)
  • negativ, wenn x und y beide gleichzeitig in unterschiedliche Richtungen abweichen

    • \(x\) unter \(\bar{x}\) und gleichzeitig \(y\) über \(\bar{y}\) ODER \(x\) über \(\bar{x}\) und gleichzeitig \(y\) unter \(\bar{y}\)
  • Null, wenn Abweichungen nicht miteinander korrelieren

    • Abweichungsrichtungen von x und y unabhängig voneinander
Problem:

\(\text{cov}\) ist abhängig von den Maßeinheiten der Merkmale

Pearson’s r

\[r = \frac{\text{cov}(x; y)}{s_x \cdot s_y} = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \cdot (y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}\]

  • standardisiert Kovarianz mit den Standardabweichungen
  • \(-1 < r < 1\)
    • -1: stark negativer Zusammenhang
    • 0: kein Zusammenhang
    • 1: stark positiver Zusammenhang

VL 10 Überleitung Inferenz

Stichprobe Wahrscheinlichkeitsverteilungen Grundgesamtheit
Kennwerte Parameter Parameter Parameter
Mittelwert \(\bar{x}\) Erwartungswert \(\mu\) Mittelwert \(\mu\)
Standardabweichung \(s\) Standardabweichung \(\sigma\) Standardabweichung \(\sigma\)
Varianz \(s^2\) Varianz \(\sigma^2\) Varianz \(\sigma^2\)

Normalverteilung

  • Können verschiedene Mittelwerte und Standardabweichungen besitzen
  • Häufigkeitsdarstellung (“Wahrscheinlichkeitsdichte”)
    • Werte um den Mittelwert kommt häufiger vor (höhere Kurve)
  • Fläche unter der Kurve immer = 1 \[\mathcal{N}(\mu, \sigma^2)\] ## Standardnormalverteilung
  • Normalverteilung mit Mittelwert 0 und Standardabweichung 1
  • “Einheit” der unteren Achse sind Standardabweichungen
    • 1 = 1 Standardabweichung über 0
    • -2 = 2 Standardabweichungen unter 0 \[\mathcal{N}(0, 1)\]

Gesetz der großen Zahlen

Je größer die Stichprobe ist, desto geringer wird der Standardfehler (\(\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}\)) Wenn man die Formel betrachtet erkennt man, dass eine steigende Stichprobe durch ein immer größerwerdendes \(n\) repräsentiert wird. Setzen wir für \(n\) testweise einen Sehr großen Wert ein, reicht ein konstantbleibender/nur gering steigender Wert für \(\sigma\) aus, sodass das Ergebnis des Bruchs sehr klein wird.

Zentrales Grenzwerttheorem

Es liegt eine unabhängige und identisch verteilte Zufallsvariable vor. Aus einer Grundgesamtheit werden nun unendlich viele Stichproben gezogen und deren Mittelwerte berechnet. Egal wie die Verteilung der Variable in der Grundgesamtheit ist, es ergibt sich immer eine Normalverteilung um den Mittelwert der Variable. Nach einer Z-Transformation der gesammelten Werte ergibt sich also auch immer eine Standardnormalverteilung. Je mehr Stichproben gezogen werden desto stärker nähert sich die Verteilung einer Standardnormalverteilung an (Videotipp!).

\(\Rightarrow\) Aussagen über Grundgesamtheit nur über Stichproben möglich!!

Hinführung: Fläche unter der Kurve

In der Animation wird pro Zeitschritt der Wert mit der nächsten ID generiert. Auf der rechten Seite werden die Antworten (nur ganze Zahlen zwischen 1 und 15) diskret dargestellt. Wenn wir nun wissen möchten wie viele Personen Antwort 8 gegeben haben reicht es die gestapelten “Blöcke” des Balkendiagrams zu zählen. Wenn wir wissen möchten wie viele Personen eine Antwort zwischen 5 und 9 gegeben haben müssen wie alle Blöcke zwischen 5 und 9 zählen.

Die Fläche unter einer Normalverteilung funktioniert genau so, nur, dass die horizontale Achse kontinuierlich verteilt ist. Statt Blöcke zu zählen um die Fläche anzugeben nutzen wir die Z-Tabelle um die Fläche unter der Kurve zu bestimmen.

Wozu? Wir wissen, dass sich eine unabhängig und identisch verteilte Stichprobe mit mehr Fällen sich nach einer Z-Transformation der Normalvertielung annähert. Im Beispiel der Animation könnte so die Frage beantwortet werden wie viel Prozent der Grundgesamtheit denn nun 10 oder Werte darüber angeben würden. Statt Blöcke zu zählen bestimmen wir die Fläche mit der Z-Tabelle.

Z-Tabelle

In der Z-Tabelle ist die Fläche in Prozent eingetragen, die links vom an den Achsen zu findenden Z-Wert liegt. Links des Z-Wertes \(-1,28\) befinden sich circa \(10\%\) der Fläche unter der Normalverteilung.

Rohwert und Z-Wert umrechnen

Um Aussagen über bestimmte Variablen zu treffen müssen wir zwischen Rohwerten und Z-Werten übersetzen können.

  • \(z = \frac{x - \mu}{\sigma}\)
  • \(x = \mu + z\cdot\sigma\)

Aufgaben

VL 1

Skalenniveaus und Variablen

Gib das Skalenniveau der folgenden Variablen an:

Ordinal, denn geordnet, Abstände nicht quantifiziert (können unterschiedlich sein)

Ratio, denn geordnete konstante Abstände, Nullpunkt ist natürlich

Intervall, denn (geordnet, circa konstante Abstände aber kein antürlicher Nullpunkt)

Sind die folgende Variablen diskret oder stetig?

Stetig, denn kann immer weiter verfeinert werden

Diskret, denn (es gibt keine halben Kinder)

VL 2

Häufigkeiten

politisches Interesse Allbus:

Kategorie \(Hx_k\) \(hx_k\) \(hx_k\cdot100\) kumulierte prozentuale Häufigkeit
sehr stark 425 0,122 12,2 12,2
stark 877 0,251 25,1 37,3
mittel 1437 0,412 41,2 78,5
wenig 564 0,162 16,2 94,7
überhaupt nicht 186 0,053 5,3 100
Gesamt 3490 1,000 100

\(37,3\%\)

\(100\%-37,3\%=62,7\%\)

\(94,7\%-12,2\%=82,5\%\)

Summen

\(=14\)

\(=9\)

\(14\)

\(=48\)

\(=14^2\)

\(=13\)

\(=9\)

\(=25\)

\(=81\)

\(=\frac{9}{5}=1,8\)

\(=\frac{12}{5}\)

VL 3

4

5

rechtssteil/linksschief

VL 4

\[ IQR_A < IQR_B < IQR_C \]

\(\frac{10+9+9+9}{4}=9,25\)

Varianz: \(\frac{(10 - 9,25)^2 + (9 - 9,25)^2 + (9 - 9,25)^2 + (9 - 9,25)^2}{4} = \frac{(0,75)^2 + (-0,25)^2 + (-0,25)^2 + (-0,25)^2}{4}\) \(= \frac{0,5625 + 0,0625 + 0,0625 + 0,0625}{4} = \frac{0,75}{4}\) \(= 0,1875\)

Standardabweichung: \(\sqrt{0,1875} = 0,433\)

Der Median ist niedriger, weil die 13 Punkte als “Ausreißer” den Mittelwert mit nach oben ziehen. In Verteilungen mit wenigen hohen Werten bevorzugt man deshalb den Median um die “Lage der Verteilung” zu beschreiben.

VL 5

Gegeben sind eine Obstschüssel voller Äpfel und eine Obstschüssel voller Birnen. Jeder Apfel und jede Birne werden nach Ästhetik auf einer Skala von 1-10 bewertet und die Bewertungen notiert.

Runde alle Rechnungen auf 2 Nachkommastellen

Apfel-ID (Apfelnummer) Bewertung Äpfel
1 9
2 7
3 5
4 6
5 7
Birnen-ID (Birnennummer) Bewertung Birnen
1 3
2 2
3 8
4 10
5 1

1. Berechne Durchschnitt und Standardabweichung für Äpfel und Birnen

\[\bar{x}_{Äpfel} = 6,8\] \[\bar{x}_{Birnen} = 4,8\]

\[\sigma_{Äpfel} = \pm 1,33\] \[\sigma_{Birnen} = \pm 3,54\]

2. Erstelle einen Zahlenstrahl für die Werte der Äpfel und einen für die Werte der Birnen, markiere auch den Durchschnitt und zeichne das Intervall der Standardabweichung ein.

(Der Grüne Punkt markiert die 0, die Standardabweichung ist nicht eingetragen)

3. Berechne für jeden Wert der Äpfel und für jeden Wert der Birnen den dazugehörigen Zwert

Apfel-ID Z-Apfel Birnen-ID Z-Birnen
1 1,48 1 -0,45
2 0,13 2 -0,71
3 -1,21 3 0,81
4 -0,54 4 1,31
5 0,13 5 -0,96

4. Erstelle nun zwei neue Zahlenstrahle, in der Nähe der ursprünglichen Zahlenstrahlen auf deinem Zettel. Zeichne hier alle Z-Werte ein.

Durch die Z-Transformation haben sich die Werte verschoben. Der Mittelwert wird immer auf die 0 geschoben. Der Rest der Verteilung wird so “zusammengedrückt” oder “auseinandergezogen”, dass die Standardabweichungen auf 1 gesetzt werden. Alle Werte der Verteilung werden relativ dazu angeordnet (Werte die wenig rechts vom Mittelwert lagen liegen wieder wenig rechts vom Mittelwert etc.)

5. Nun vergleichen wir Äpfel mit Birnen: Welche Frucht ist insgesamt am besten bewertet?

Apfel Nummer 1 ist die Frucht, die am weitesten über dem Durchschnitt liegt, da der Z-Wert am höchsten positiv ist.

VL 6

Tutorium besucht Tutorium nicht besucht Gesamt
bestanden 9 59 68
nicht bestanden 2 14 16
Gesamt 11 73 84

\(\frac{14}{84}=16,6\%\)

\(\frac{68}{84}=80,9\%\)

\(\frac{9}{11}=81,8\%\)

\(\frac{9}{68}=13,2\%\)


Ergänze folgende Kreuztabelle (Statistisches Bundesamt):

Geschlecht x Rauchen Raucher Nichtraucher Gesamt
männlich 5059 A 22 684
weiblich B C 23 547
Gesamt 8 738 D 46 231

\(22684 - 5059 = 17625\)

\(8738 - 5059 = 3679\)

\(23547 - 3679 = 19868\)

\(17625 + 19868 = 37493\)

VL 7

Aufgabe aus dem Tutorium

Beobachtete Werte:

Geschlecht x Rauchen Raucher Nichtraucher Gesamt
männlich 5 059 17 625 22 684
weiblich 3 679 19 868 23 547
Gesamt 8 738 37 493 46 231

Erwartete Werte:

Geschlecht x Rauchen Raucher Nichtraucher Gesamt
männlich 4 287,443 18 396,56 22 684
weiblich 4 450,557 19 096,44 23 547
Gesamt 8 738 37 493 46 231

\[ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{b_{ij}} - f_{e_{ij}})^2}{f_{e_{ij}}} \] \[ = \frac{(5059 - 4287,443)^2}{4287,443} + \frac{(17625-18396,56)^2}{18396,56} + \frac{(3679 - 4450,557)^2}{4450,557} + \frac{(19868 - 19096,44)^2}{19096,44} \] \[ = 138,847 + 32,360 + 133,759 + 31,174 \] \[ = 336,14 \]

  • Im Verhältnis zur Größe der Fallzahl ist der Wert ziemlich gering. \(\rightarrow\) kein Zusammenhang

\[ \phi = \sqrt{\frac{336,14}{46231}} = 0,085 \] - Der Wert liegt nahe an 0 \(\rightarrow\) kein Zusammenhang

R = 2 \[ C = \sqrt{\frac{\chi^2}{\chi^2 + n}} = \sqrt{\frac{336,14}{336,14 + 46231}} = 0,085 \] \[ C_{\text{max}} = \sqrt{\frac{R - 1}{R}} = \sqrt{\frac{2-1}{2}} = 0,707 \] - Verglichen mit dem Maximalen Wert ist C sehr klein \(\rightarrow\) kein Zusammenhang

\[ \text{Cramer's V} = \sqrt{\frac{\chi^2}{n \cdot (R - 1)}} = \sqrt{\frac{336,14}{46231 \cdot (2 - 1)}} = 0,085 \]

In Tabelle schauen \(\rightarrow\) sehr schwacher Zusammenhang

Aufgabe aus der Vorlesung

\[ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{bij} - f_{eij})^2}{f_{eij}} \] \[ = \frac{(20-103)^2}{103} + \frac{(130-47)^2}{47} + \frac{(1572-1489)^2}{1489} + \frac{(606-689)^2}{689} \] \[ = \frac{(-83)^2}{103} + \frac{(83)^2}{47} + \frac{(83)^2}{1489} + \frac{(-83)^2}{689} \] \[ = \frac{6889}{103} + \frac{6889}{47} + \frac{6889}{1489} + \frac{6889}{689} \] \[ = 66,88 + 146,58 + 4,63 + 10 \] \[ = 228,09 \] Im Vergleich zu n=2328 ist 228,09 nur ein kleiner Wert und schwer zu Interpretieren.

\[ \phi = \sqrt{\frac{228,09}{2328}} = 0.31 \] Es handelt sich um einen mittelstarken Zusammenhang. Die fiktiven Personen aus den Beispieldaten können sich demnach eher mit der AFD identifizieren, wenn sie aus Ostdeutschland kommen.

Es handelt sich um eine \(2\times2\) Tabelle \(\Rightarrow R = 2\) \[ \text{Cramer's V} = \sqrt{\frac{\chi^2}{n \cdot (R - 1)}} = \sqrt{\frac{228,09}{2328 \cdot (2 - 1)}} = 0.31 \] Auch durch Cramer’s V Kategorien-Kontrolle zeigt sich ein mittelstarker Zusammenhang. Die fiktiven Personen aus den Beispieldaten können sich demnach eher mit der AFD identifizieren, wenn sie aus Ostdeutschland kommen.

VL 8

Übung aus dem Tutorium

In einer kleinen Studie gaben 5 Personen ihre Vorlieben für zwei verschiedene Musikgenres ab. Dabei wurde eine Likertskala mit 1 = “mag ich gar nicht” bis 5 = “mag ich sehr” verwendet.

Frage: Gibt es einen Zusammenhang zwischen den Musikgenres?

Berechne Spearman’s \(\rho\) um die Frage zu beantworten.

Person Genre A Genre B
1 3 4
2 2 2
3 5 5
4 1 3
5 4 1
6 3 2

1. Ränge zuweisen

Person Genre A Genre B Rang Genre A Rang Genre B
1 3 4 3.5 4
2 2 2 2 2.5
3 5 5 5 5
4 1 3 1 3
5 4 1 4 1
6 3 2 3.5 2.5

2. Differenz der Ränge berechnen

Person Genre A Genre B Rang Genre A Rang Genre B Rang Differenz \(d\)
1 3 4 3.5 4 -0.5
2 2 2 2 2.5 -0.5
3 5 5 5 5 0
4 1 3 1 3 -3
5 4 1 4 1 3
6 3 2 3.5 2.5 1

3. Rho berechnen

\[ \rho = 1 - \frac{6 \cdot \sum^{n}_{i=1}{d^2_i}}{n \cdot (n^2-1)} \] \[ = 1 - \frac{6 \cdot ((-0.5)^2 + (-0.5)^2 + 0^2 + (-3)^2 + 3^2 + 1^2)}{n \cdot (n^2-1)} \] \[ = 1 - \frac{6 \cdot (0.25 + 0.25 + 0 + 9 + 9 + 1)}{6 \cdot (6^2-1)} \] \[ = 1 - \frac{117}{6 \cdot (36-1)} \] \[ = 1 - \frac{117}{6 \cdot 35} \] \[ = 1 - \frac{117}{210} \] \[ = 1 - 0.557 = 0.443 \]

Mittlere positive Korrelation \(\Rightarrow\) “Wer Genre A mag, mag wahrscheinlich auch Genre B”

Übung aus der Vorlesung

Schritt 1: Ränge zuweisen

Die Ränge sind in den Daten bereits gegeben und lauten wie folgt:

ID Bildung-Rang Einkommen-Rang
1 1 2
2 2,5 1
3 4 3,5
4 2,5 3,5
5 5 5

Schritt 2: Differenzen der Ränge berechnen

Die Differenzen zwischen den Rängen für jedes Paar sind:

  • Person 1: \(d_1 = 1 - 2 = -1\)
  • Person 2: \(d_2 = 2,5 - 1 = 1,5\)
  • Person 3: \(d_3 = 4 - 3,5 = 0,5\)
  • Person 4: \(d_4 = 2,5 - 3,5 = -1\)
  • Person 5: \(d_5 = 5 - 5 = 0\)

Schritt 3: Quadrieren der Differenzen

Die quadrierten Differenzen sind:

  • Person 1: \(d_1^2 = (-1)^2 = 1\)
  • Person 2: \(d_2^2 = (1,5)^2 = 2,25\)
  • Person 3: \(d_3^2 = (0,5)^2 = 0,25\)
  • Person 4: \(d_4^2 = (-1)^2 = 1\)
  • Person 5: \(d_5^2 = (0)^2 = 0\)

Schritt 4: Summe der quadrierten Differenzen

Die Summe der quadrierten Differenzen ist:

\(\sum d_i^2 = 1 + 2,25 + 0,25 + 1 + 0 = 4,5\)

Schritt 5: Spearman’s Rho Formel anwenden

Nun setzen wir unsere Werte in die Spearman’s Rho Formel ein:

\(\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}\)

wobei \(n\) die Anzahl der Beobachtungen ist (in diesem Fall 5):

\(\rho = 1 - \frac{6 \cdot 4,5}{5\cdot(5^2 - 1)}\)

\(\rho = 1 - \frac{27}{5\cdot(24)}\)

\(\rho = 1 - \frac{27}{120}\)

\(\rho = 1 - 0.225\)

\(\rho = 0.775\)

Das Endergebnis von 0.775 deutet auf eine mittelere-starke positive Korrelation zwischen Bildung und Einkommen hin.

VL 9

Lambda

Übung aus dem Tutorium

Echte Werte aus dem European Social Survey 2018

Berechne und interpretiere Lambda

Abhängige Variable: had a paid job

had a paid job never had a paid job GESAMT
männlich 3414 602 4016
weiblich 4336 926 5262
GESAMT 7750 1528 9278

\(\text{E}_1 = 1 - \frac{7750}{9278} = 0,16\)

\(\text{E}_2 = (\frac{4016}{9278}(1-\frac{3414}{4016})) + (\frac{5262}{9278}(1-\frac{4336}{5262}))\) \(~~~~~= 0,16\)

\(\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} = \frac{0,16 - 0,16}{0,16} = 0\)

  • Keine Verbesserung der Vorhersage durch die Information über das Geschlecht.

Übung aus der Vorlesung

Sie wollen untersuchen, ob ältere Grundschulkinder mehr Taschengeld bekommen als jüngere. Sie haben dazu bei 10 Kindern die in der Tabelle abgetragenen Summen ermittelt. Zur Prüfung der Hypothese haben Sie zwei Kinder-Gruppen gebildet:

  • Gruppe 1: Klasse 1 und 2
  • Gruppe 2: Klasse 3 und 4

Berechnen Sie Eta-Quadrat und interpretieren Sie das Ergebnis!

ID Taschengeld pro Monat in Euro Gruppe
1 3 1
2 9 2
3 10 1
4 4 2
5 2 1
6 4 1
7 3 2
8 6 1
9 5 2
10 6 2

Schritt 1

Variablen identifizieren: \[ \text{Gruppe (unabhängig) (x)} \Rightarrow \text{Taschengeld pro Monat in Euro (abhängig) (y)} \] Arithmetisches Mittel als bester Vorhersagewert, wenn keine unabhängige Variable berücksichtigt wird (Quadratsumme gesamt) \[ \bar{y}=\frac{3+9+10+4+2+4+3+6+5+6}{10}=5,2 \]

Schritt 2

Quadratsumme gesamt

\[ \sum(y_i - \bar{y})^2 \] \[ = (3-5,2)^2 + (9-5,2)^2 + (10-5,2)^2 + (4-5,2)^2 + (2-5,2)^2 \] \[ + (4-5,2)^2 + (3-5,2)^2 + (6-5,2)^2 + (5-5,2)^2 + (6-5,2)^2 \] \[ =(-2,2)^2 + (3,8)^2 + (4,8)^2 + (-1,2)^2 + (-3,2)^2 \] \[ + (-1,2)^2 + (-2,2)^2 + (0,8)^2 + (-0,2)^2 + (0,8)^2 \] \[ = 4,84 + 14,44 + 23,04 + 1,44 + 10,24 + 1,44 + 4,84 + 0,64 + 0,04 + 0,64 \] \[ = 61.6 \]

Quadratsumme Gruppe 1

ID Taschengeld pro Monat in Euro Gruppe
1 3 1
3 10 1
5 2 1
6 4 1
8 6 1

\[ \bar{y} = \frac{3+10+2+4+6}{5}=5 \] \[ \sum(y_i - \bar{y})^2 = (3-5)^2 + (10-5)^2 + (2-5)^2 + (4-5)^2 + (6-5)^2 \] \[ = 2^2 + 5^5 + (-3)^2 + (-1)^2 + 1^2 \] \[ = 4 + 25 + 9 + 1 + 1 \] \[ = 40 \]

Quadratsumme Gruppe 2

ID Taschengeld pro Monat in Euro Gruppe
2 9 2
4 4 2
7 3 2
9 5 2
10 6 2

\[ \bar{y} = \frac{9+4+3+5+6}{5} = 5,4 \] \[ \sum(y_i - \bar{y})^2 = (9-5,4)^2 + (4-5,4)^2 + (3-5,4)^2 + (5-5,4)^2 + (6-5,4)^2 \] \[ = 3,6^2 + (-1,4)^2 + (-2,4)^2 + (-0,4)^2 + 0,6^2 \] \[ = 12,96 + 1,96 + 5,76 + 0,16 + 0,36 \] \[ = 21,2 \]

Quadratsumme innerhalb

\[\text{Quadratsumme}_\text{Innerhalb}=\text{Quadratsumme}_\text{Gruppe 1} + \text{Quadratsumme}_\text{Gruppe 2}\] \[= 40 + 21,2 = 61.2\]

Schritt 3

\(\eta^2\)-Formel anwenden

\[ \eta^2 = \frac{\text{Quadratsumme}_\text{Gesamt}-\text{Quadratsumme}_\text{Innerhalb}}{\text{Quadratsumme}_\text{Gesamt}} = \frac{\text{Quadratsumme}_\text{Zwischen}}{\text{Quadratsumme}_\text{Gesamt}} \]

\[ \eta^2 = \frac{\text{E1}-\text{E2}}{\text{E1}} = \frac{61,6 - (40 + 21,2)}{61,6} = \frac{61,6 - 61,1}{61,6} = \frac{0,5}{61,6} = 0,0081 \]

Das \(\eta^2\) ist sehr, sehr klein \(\Rightarrow\) Es gibt keinen Effekt des Alters auf die höhe des Taschengeldes.


Pearson’s r

Übung aus dem Tutorium

Eine Zimmerpflanze steht in einem Zimmer welches durch unterschiedliches heizen Temperaturschwankungen unterliegt. In der folgenden Tabelle sind die Zimmertemperatur in \(^\circ\mathrm{C}\) und der Winkel der Pflanzenblätter aufgezeichnet.

Wirkt sich die Zimmertemperatur auf den Zustand der Pflanze aus?

Berechne dazu den Pearson Korrelationskoeffizienten.

\(^\circ\mathrm{C}\) Winkel
15 56
16 50
14 44
14 23
16 28

\[ r = \frac{\sum (x_i - \bar{x})\cdot(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} \] Für die Formel werden die Durchschnitte beider Variablen benötigt.

\[ \bar{x} = \frac{15+16+14+14+16}{5} = 15 \] \[ \bar{y} = \frac{56+50+44+23+28}{5} = 40,2 \]


Nun werden die drei Summen berechnet

1. \[ \sum (x_i - \bar{x})\cdot(y_i - \bar{y}) \] \[ = (15-15)\cdot(56-40,2) + (16-15)\cdot(50-40,2) + (14-15)\cdot(44-40,2) \] \[ + (14-15)\cdot(23-40,2) + (16-15)\cdot(28-40,2) \] \[ = 0 + 9,8 + (-3,8) + 17,2 + (-12,2) \] \[ = 11 \]

2. \[ \sum (x_i - \bar{x})^2 \] \[ = (15-15)^2+(16-15)^2+(14-15)^2+(14-15)^2+(16-15)^2 \] \[ = 4 \]

3. \[ \sum (y_i - \bar{y})^2 \] \[ =(56-40,2)^2+(50-40,2)^2+(44-40,2)^2+(23-40,2)^2+(28-40,2)^2 \] \[ =804,8 \]

Nun in die ursprüngliche Formel einsetzen \[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \] \[ =\frac{11}{\sqrt{4\cdot804,8}} = 0,194 \]

Es besteht ein mittelschwacher Zusammenhang.

Die Pflanze wird also leicht von der Zimmertemperatur beeinflusst. Je höher die Temperatur, desto höher ist der Blattwinkel. Die Pflanze scheint also warme Temperaturen zu präferieren.

Übung aus der Vorlesung

\(x_i\) \(y_i\) \(\bar{x}\) \(\bar{y}\) \((x_i - \bar{x})\) \((y_i - \bar{y})\) \((x_i - \bar{x}) \cdot (y_i - \bar{y})\) \((x_i - \bar{x})^2\) \((y_i - \bar{y})^2\)
A 0 2 6 4 -6 -2 12 36 4
B 10 6 6 4 4 2 8 16 4
C 4 2 6 4 -2 -2 4 4 4
D 8 4 6 4 2 0 0 4 0
E 8 6 6 4 2 2 4 4 4
Sum 28 64 16

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]

\[ = \frac{28}{\sqrt{64 \cdot 16}} = \frac{28}{\sqrt{1024}} = 0,875 \]

Die beiden Variablen hängen stark positiv zusammen.

VL 10

Gegeben sei für eine Population von \(\text{N} = 50.000\) Personen deren Körpergröße (in cm) mit \(\mathcal{N}(175, 5)\)

Wie groß sind 95% aller Personen?

\[ \text{x} = \mu \pm z \cdot \sigma^2 \]

Wir wollen die Mittleren 95% wissen und möchten daher restlichen 5% auf die beiden Enden der Glockenkurve aufteilen: \[ \frac{0,05}{2}=0,025 \] Auf beiden Seiten schneiden wir also \(2,5\%\) der Fläche ab.

Um die Grenzen zu finden, die die mittleren 95% von den Randbereichen trennen berechnen wir: \[ 1-0,025=0,975 \]

0,975 in Z-Tabelle suchen \(\Rightarrow\) Z-Wert: 1,96

  • \(175 – 1,96\cdot 5 = 165,2\)
  • \(175 + 1,96\cdot 5 = 184,8\)

95% aller Personen haben eine Körpergröße zwischen 165,2cm und 184,8cm


In der Z-Tabelle den Z-Wert -1 suchen ergibt: 0.1587

Vorgehen: Die Fläche links von \(z=2\) minus die Fläche links von \(z=-2\)

In der Z-Tabelle nachschauen: - \(z_{-2} = 0.0228\) - \(z_2 = 0.9772\) \[ 0.9772 - 0.0228 = 0,9544 \] Der Flächenanteil beträgt \(0,9544\) oder auch \(95,44\%\).

Tipps und Extras

  • Khan Academy (z.B. Wann und warum wir bei der Varianz durch (n-1) teilen): KhanAcademy Videos

  • Ben Lambert (z.B. Kovarianz und Korrelation und Freiheitsgrade): Ben Lambert Videos

  • ziemlich mathematisch aber gut animiert: 3blue1brown (z.B. dieses Video zum zentralen Grenzwertsatz): 3blue1brown Videos