Zusammenfassung Statistik 1

Tutorium zur Vorlesung “Statistik für Sozialwissenschaften I” von Prof. Dr. Simone Abendschön

Author

Thomas Haase

Published

April 25, 2024

VL 1 Grundlegende Begriffe

Was ist Statistik

Deskriptiv
- Merkmale
- Zusammenhänge
- Grafische Datstellung
- Lage und Streumaße
Inferenz
- GG/Stichprobe
- Stichprobenfehler
amtliche Statistik
- von Institutionen in Auftrag gegeben
Explorative Statistik
- Zusammenhänge in Daten finden
- Big Data

Grundbegriffe

Grundgesamtheit
- Menge der Objekte für die die Aussage der Untersuchung gelten soll
Stichprobe
- systematische Auswahl einer Teilmenge von Elementen aus der GG
Stichprobenfehler
- Merkmalsausprägung in GG und Stichprobe unterscheidet sich

Skalenniveaus

VL 2 Univariate Statistik

Datenmatrix/Rohdaten

Datenmatrix/Urliste
- Spalten $\rightarrow$ Variablen
- Zeilen $\rightarrow$ Fälle

Häufigkeiten

frequenz und Häufigkeit

Absolute Häufigkeit: $Hx_k = fx_k$
Relative Häufigkeit: $hx_k = \frac{fx_k}{n}$
prozentuale Häufigkeit: $\text{Prozente}=hx_k\cdot100$

Kumulierte Häufigkeit

Die kumulierte Häufigkeit zkählt die Prozente der Zeile in der sie steht und alle vorgehenden zusammen.

politisches Interesse Allbus:

Kategorie	$Hx_k$	$hx_k$	$hx_k\cdot100$	kumulierte prozentuale Häufigkeit
sehr stark	425	0,122	12,2	12,2
stark	877	0,251	25,1	37,3
mittel	1437	0,412	41,2	78,5
wenig	564	0,162	16,2	94,7
überhaupt nicht	186	0,053	5,3	100
Gesamt	3490	1,000	100

Darstellungsarten

Diagrammtyp	Variablenskala	zu beachten
Piechart	nominal	nur wenig Kategorien
Säulendiagramm	nominal, ordinal	Reihenfolge auf X-Achse
Histogramm	intervall, ratio	hat Zweck Fläche darzustellen $\Rightarrow$ Tipp: Polygonzug/Dichteverteilung mit angeben

Summenzeichen

\[ \sum_{i=m}^{n} x_i~~=~~x_m + x_{m+1} + x_{m+2} + x_{m+3} + \ldots + x_n \]

Beispiel:

$x$: 2,2,3,10,3 \[ \sum_{i=2}^{4} x_i~~=~~x_2 + x_3 + x_4~~=~~2+3+10~~=~~15 \] \[ \sum_{i=1}^{3} x_i \cdot 2~~=~~x_1\cdot 2 + x_2\cdot 2 + x_3\cdot 2~~=~~2\cdot 2 + 2\cdot 2 + 3\cdot 2=14 \] \[ \frac{\sum_{i=1}^{n}x_i}{n}~~=~~\frac{2+2+3+10+3}{5}=\frac{20}{5}=4 \]

VL 3 Univariate Statistik

Lagemaße und zentrale Tendenz

Begriff	Definition	Anwendbar auf
Modus	Wert kommt am häufigsten vor	ratio, intervall, ordinal, nominal
Median	Teilt Menge in 2 gleichgroße Teile	ratio, intervall, ordinal
arithmetisches Mittel	Durchschnitt	ratio, intervall

Median

n - ungerade: $\tilde{x} = x_{\frac{n+1}{2}}$
n - gerade: $\tilde{x} = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}$

ungerade (mittlerer Wert = 6):

$x_1$	$x_2$	$\bf{x_3}$	$x_4$	$x_5$
3	5	6	8	12

gerade (Durchschnitt der mittleren beiden Werte = 7 (6+8/2)):

$x_1$	$x_2$	$\bf{x_3}$	$\bf{x_4}$	$x_5$	$x_6$
3	5	6	8	12	13

arithmetisches Mittel

Für Rohdaten: \[ \bar{x}=\frac{\sum_{i=1}^{n}x_i}{2} \]

Für Häufigkeitstabelle: \[ \bar{x}=\frac{\sum_{k=1}^{m}(x_k \cdot f_{x_{k}})}{2} \]

Erläuterung der Gleichungen:

Um die mittlere Antwort, einen “Durchschnitt”, zu berechnen werden zuerst alle Antworten die gegeben wurden aufsummiert und im zweiten Schritt durch die Anzahl der Antworten (n) geteilt.

In der Datenmatrix/Urliste sind alle Antworten als $x_i$’s direkt ablesbar. Diese können einfach aufsummiert werden. Die Anzahl aller Antworten (n) kann an der ID des letzten Falls abgelesen werden (sofern keine Fälle dazwischenherausgefiltert wurden).

In der Häufigkeitstabelle kann man die einzelnen Antworten nicht so direkt ablesen wie in der Datenmatrix. Jedoch wissen wir, dass bspw. 400 Personen Antwortausprägung 1 gegeben haben, 600 Antwortausprägung 2 usw.. Antwort 1 kommt also 500 mal in der Datenmatrix vor, Antwort 2 600 mal usw.. Wir rechnen also die jeweilige Antwort MAL die Anzahl wie oft diese Antwort angegeben wurde. Die Anzahl aller Antworten (n) wird ermittelt indem die Häufigkeiten der einzelnen Antwortausprägungen addiert werden.

Dispersionsmaße/Lagemaße und Verteilungsformen

Kriterien	Verteilung
Modus < Median < arithmet. Mittel	linkssteil/rechtsschief
arithmet. Mittel < Median < Modus	rechtssteil/linksschief
2 Modi, Median = arithmet.Mittel, Modus weicht stark ab	bimodal
arithmet.Mittel, Modalwert und Median fast gleich	symmetrisch

VL 4 Univariate Statistik

Variationsweite/Spannweite/Range

\[V=x_{max} - x_{min}\] Beispiel: höchster Wert 10, niedrigster Wert 7

$\rightarrow \text{range} = 10-7 = 3$

Nachteil: Starke Abweichungen einzelner Werte führen zu Fehlinterpretation

Interquartilsabstand/IQR

\[ \text{IQR} = Q_{0,75} - Q_{0,25} \] Wie der Median wird die Fläche der Verteilung nach Prozenten in Abschnitte unterteilt. Der IQR zerteilt die Verteilung in 4 Abschnitte mit gleich-vielen Werten. Der Abstand der beiden Schnitte ist der IQR.

Varianz

Durchschnittliche Abweichung vom Mittelwert \[ \text{Varianz:~~~~~}\sigma^2 = \frac{\sum^{n}_{i=1}(x_i-\bar{x})^2}{n} \] \[ \text{Standardabweichung:~~~~~}\sigma=\sqrt{\sigma^2} \]

Beispiel: Gefragt wurden 1.000 Personen, wie hoch ihre monatliche Handyrechnung ist. Der Mittelwert liegt bei 40 Euro und die Standardabweichung bei 27. Das heißt, dass die durchschnittliche Entfernung aller Antworten zum Mittelwert 27 Euro beträgt.

Man schreibt wiefolgt:

$\bar{x} = 40$€
$\sigma = 27$€
$\bar{x} = 40\pm 27$€

Erklärung der Formel:

$x_i - \bar{x}$ berechnet den Abstand des Punktes $i$ zum Mittelwert der Verteilung. Um den Durchschnittlichen Abstand pro Punkt zu erhalten wird durch $n$ geteilt.

Problem: Der Mittelwert wird genau so berechnet, dass der Gesamtabstand aller Punkte über dem Mittelwert dem Gesamtabstand aller Punkte unter dem Mittelwert entspricht. Wenn man nun den einfachen Abstand aller Punkte zusammenrechnen würde ($\sum^{n}_{i=1}x_i - \bar{x}$), addiert man die Abstände aller Punkte über dem Mittelwert und subtrahiert die Abstände aller Punkte unter dem Mittelwert (die Abstände sind relativ zum Mittelwert gesehen negativ). Das Ergebnis wäre also immer 0.

Um trotz dieses Problems ein Maß für die durchschnittliche Abweichung vom Mittelwert zu erhalten, werden die Abstände quadriert. Das Quadrat ist immer positiv, allerdings werden auch die einzelnen Werte verzerrt. Je größer der Abstand vom Mittelwert bereits ist, desto größer wird auch das Quadrat. Um die so berechnete Varianz wieder in die Einheit der Rohwerte zu bringen wird für die berechnung der Standardabweichung noch die Wurzel gezogen.

VL 5 Univariate Statistik

Boxplot

Ausreißer und Extremwert

Ausreißer: $1,5\cdot \text{IQR}$ über 3./unter 1. Quartil
Extremwert: $3\cdot \text{IQR}$ über 3./unter 1. Quartil

Variationskoeffizient V

Mit dem Variationskoeffizienten können Streuungen verschiedener Verteilungen verglichen werden. \[\text{V} = \frac{\sigma}{\bar{x}} = \frac{\text{Standardabweichung}}{\text{arithm. Mittel}}\]

Z-Transformation/Z-Wert

Mit dem Z-Wert können einzelne Werte verschiedener Verteilungen verglichen werden. \[\text{z} = \frac{x_i - \bar{x}}{\sigma}\]

Der Mittlwert aller Z-Werte einer Verteilung ist immer 0
Die Varianz aller Z-Werte einer Verteilung ist immer 1

VL 6 Bivariate Statistik

Kreuztabelle/Kontingenztafel

für nominale/ordinale Variablen
Konvention: Zeile-abhängig / Spalte-unabhängig

	Tutorium besucht	Tutorium nicht besucht	Gesamt
bestanden	9	59	68
nicht bestanden	2	14	16
Gesamt	11	73	84

VL 7 Bivariate Statistik

Kreuztabellen

Es gibt 2 Arten von Kreuztabellen:

Kontingenztabelle - enthält beobachtete Werte
Indifferenztabelle - enthält erwartete Werte

Erwartete Häufigkeit

\[\text{f}_{e(ij)}=\frac{\text{Zeilensumme}\cdot\text{Spaltensumme}}{n}\]

Erklärung der Formel

Die Gleichung kann leicht umgestellt werden in: $\text{f}_{e(ij)}=\text{Zeilensumme}\cdot\frac{\text{Spaltensumme}}{n}$. Nun wird deutlich, dass ”Spaltensumme durch n” ein Prozentsatz ist (äquivalent geht auch $\text{Spaltensumme}\cdot\frac{\text{Zeilensumme}}{n}$, was im Grunde dasselbe ist).

Dieser Spaltensummenprozentsatz wird nun durch das Malrechnen auf alle Fälle der jeweiligen Zeile der Zelle angewendet. So entsteht der erwartete Wert.

Wir übertragen also die gewussten Prozente der einen Variable auf die zweite Variable. Wenn 12% aller Menschen rauchen, erwarten wir, dass auch 12% aller Männer und 12% aller Frauen rauchen.

Residuen

Residuen sind die Differenz beobachteter und erwarteter Werte. Je weiter erwartete und beobachtete Werte auseinanderliegen desto eher vermuten wir einen Zusammenhang. Wenn wir erwarten, dass 12% aller Menschen rauchen (Zeilensumme), dann erwarten wir auch, dass 12% aller Männer und 12% aller Frauen rauchen. Wenn die beobachteten Werte aber stark abweichen, die Residuen also groß sind, hat die Variable Geschlecht einen Einfluss auf die Verteilung der Raucher.

Chi-Quadrat

\[\chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{ij} - f_{eij})^2}{f_{eij}}\]

Erklärung der Formel

Für jede Zelle werden die Abstände von beobachtetem und erwartetem Wert (Residuen) berechnet($f_{bij} − f_{eij}$). Da wir nur an den positiven Abständen interessiert sind (wie schon bei der Varianz) wird das Residuum der Zelle quadriert. Nun wird durch den erwarteten Wert geteilt, weil von keinem Zusammenhang, also den erwarteten Werten ausgegangen wird. Die bisher beschriebene Rechnung wird für alle Zellen einzeln ausgeführt und zusammengezählt. Das wird in der Gleichung damit erreicht, dass die Ergebnisse der Formel für alle Zellen aufsummiert werden. Also in einer $2\times2$ Tabelle: i=1 j=1, i=2 j=1, i=1 j=2, i=2 j=2. ($\sum^m_{j=1} \sum^k_{i=1}$).

$0 < \chi^2 < \infty$
Je größer der Wert desto größer der Zusammenhang (0: kein Zusammenhang)

Problem $\chi^2$ ist für denselben Zusammenhang unterschiedlich groß, wenn ein anderes $n$ und/oder eine unterschiedliche Kategorienzahl vorliegt

Normierung Chi-Quadrat mit Phi, C, Cramer’s V$

Phi: $\phi$

$\phi$ korrigiert die Abhängigkeit von . Es ist sinnvoll in die Analyse mit einzubeziehen, wenn man den Zusammenhang unabhängig von der Gesamtzahl interpretieren möchte, zum Beispiel wenn unterschiedlich große Verteilungen mit der selben Kategorienanzahl verglichen werden sollen.

\[\phi = \sqrt{\frac{\chi^2}{n}}\]

$0 < \phi < 1, wobei 0: kein Zusammenhang; 1: maximaler Zusammenhang$

Kontingenzkoeffizient C

$C$ korrigiert die Abhängigkeit $\chi^2$’s von der Anzahl der Kategorien und von n. Allerdings muss die Kategorienzahl bei der Berechnung von $C_{max}$ mit einbezogen werden. Verschiedene Kontingenztabellen haben also unterschiedliche maximale $C$ Werte. \[C = \sqrt{\frac{\chi^2}{\chi^2 + n}}\] \[C_{\text{max}} = \sqrt{\frac{R-1}{R}}\]

$0 < C < C_{\text{max}}$
Beispiele für R:
- $2 \times 2$: R = 2
- $3 \times 4$: R = 3
- $4 \times 3$: R = 3

Cramer’s V

Cramer’s V wird für den Vergleich von $\chi^2$ zwischen verschieden großen Kreuztabellen genutzt. \[\text{Cramér's V} = \sqrt{\frac{\chi^2}{\chi^2_{\text{max}}}} = \sqrt{\frac{\chi^2}{n \cdot (R-1)}} = \sqrt{\frac{\chi^2}{n \cdot (\min(k, m) - 1)}}\]

$0 < \text{Cramer's V} < 1$

Interpretationsempfehlung

Cramer’s V bzw. Phi	Interpretation
≤ 0,05	kein Zusammenhang
> 0,05 bis 0,10	sehr schwacher Zusammenhang
> 0,10 bis 0,20	schwacher Zusammenhang
> 0,20 bis 0,40	mittelstarker Zusammenhang
> 0,40 bis 0,60	starker Zusammenhang
> 0,60	sehr starker Zusammenhang

VL 8 Bivariate Statistik

Spearmans (Rho)

Zusammenhänge zwischen ordinalen Variablen herstellen.

\[\rho = 1 - \frac{6 \cdot \sum^{n}_{i=1}{d^2_i}}{n \cdot (n^2-1)}\] \[d_i = R(x_i) - R(y_i)~~~\textrm{(Differenz der Rangplätze)}\]

$-1 < \rho < 1$

Link zu den Tutoriumsfolien (mit Beispiel)

VL 9 Bivariate Statistik

PRE Maße

Lambda

Lambda wird für nominale und ordinale Skalenniveaus verwendet. Mit Prozenten und Mittelwerten kann eine Vorhersagee für eine Variable formuliert werden. Um zu bestimmen ob sich die Vorhersage verbessert, wenn eine zweite Variable mit einbezogen wird kann durch PRE-Maße getestet werden. Je stärker die beiden Variablen zusammenhängen, desto besser wird die Vorhersage. $\text{E}$ steht für den Fehler bzw. die Ungenauigkeit der Vorhersage.

\[ \lambda = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} \] \[ \text{E}_1 = 1- \frac{H_{\text{Modal}}}{n} \]

Erklärung der Formel [Teil 1]

Für die “Hauptvariable 1” ist die beste Vorhersage der Prozentuale Anteil der häufigsten Kategorie ($\frac{h_{\text{Modal}}}{n}$). Die häufigste Kategorie wird Modalkategorie genannt (vgl. Modus). Beispiel: Wenn 9 von 10 Zahnärzten eine Zahnpasta empfehlen, gehört ein bisher unbekannter 11. Arzt zu einer Wahrscheinlichkeit von 90% zur Gruppe die die Zahnpaste empfiehlt. Der Fehler bei einer Vorhersage ist dann die Wahrscheinlichkeit, dass die Vorhersage auf Basis der Modalkateogorie falsch ist - also der 10%ige Fall eintritt, dass der 11. Arzt die Zahnpaste nicht empfielt($1-0.9=0.1$).

\[ \text{E}_2 = \sum^{J}_{j=1}\frac{H_j}{n}(1-\frac{H_{Mj}}{H_j}) \]

Erklärung der Formel [Teil 2]

Wenn nun eine zweite Variable mit in die Vorhersage einbezogen werden soll, ist die beste Vorhersage nichtmehr mit den Gesamtprozenten sondern deren Überschneidungen zu rechnen. Beispiel: Statt nur auf Basis der Ärzte zu rechnen kann hinzugezogen werden, ob ein Arzt die Zahnpasta selbst nutzt. Wie vorher berechnen wir mit $1-\frac{H}{\text{irgendwas}}$ den Schätzfehler in Prozent. Danach wird der Fehler mit den Zeilenprozenten gewichtet.

Nutzt Zahnpasta selbst?	Empfiehlt Zahnpasta	Empfiehlt Zahnpasta nicht	Summe
Ja	7	0	7
Nein	2	1	3
Summe	9	1	10

\[ \text{E}_2 = \frac{7}{10}(1-\frac{7}{7}) + \frac{3}{10}(1-\frac{2}{3}) = 0,1 \]

$\text{E}_1$ und $\text{E}_2$ müssen nun nur noch in die $\lambda$ Formel eingesetzt werden.

\[ \lambda = \frac{0,1 - 0,1}{0,1} = \frac{0}{0,1} = 0 \] Die Vorhersage wird nicht verbessert $\Rightarrow$ es gibt keinen Zusammen zwischen den Variablen.

Eta-Quadrat

$\eta^2$ wird für nominale und metrische Skalenniveaus verwendet. Die Logik ist dieselbe wie bei $\lambda$, nur, dass der Fehler für metrische Variablen durch die Quadratsumme der Abstände zum Mittelwert berechnet wird (vgl. Varianz $\Rightarrow$ je kleiner die Varianz, desto genauer der Mittelwert als Vorhersage).

\[ \lambda = \frac{\text{QS}_{\text{gesamt}} - \text{QS}_{\text{innerhalb}}}{\text{QS}_{\text{gesamt}}} \] \[ \text{QS}=\sum(\text{Wert}_i-\text{Mittelwert})^2 \]

Erklärung

$\text{QS}_gesamt$ berechnet sich aus der Quadratsumme für die metrische Variable alleine.

Um $\text{QS}_innerhalb$ zu berechnen müssen wir die Fälle durch hinzunahme der nominalen Variable in mehrere Gruppen unterteilen. Für jede Gruppe muss nun einzeln nocheinmal die Quadratsumme berechnet werden und das Ergebnis aller Gruppen zusammengerechnet werden.

Ein Beispiel findet sich in den Tutoriumsfolien ab Folie 17.

Link zu den Tutoriumsfolien mit ausführlicher Erklärung und Beispielen

Korrelation

Kovarianz

\[\text{cov}(X,Y) = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) (y_i - \bar{y})}{n}\]

gemeinsame Abweichung von den Mittelwerten
positiv, wenn x und y beide in dieselbe Richtung abweichen
- $x$ unter $\bar{x}$ und gleichzeitig $y$ auch unter $\bar{y}$ ODER $x$ über $\bar{x}$ und gleichzeitig $y$ auch über $\bar{y}$
negativ, wenn x und y beide gleichzeitig in unterschiedliche Richtungen abweichen
- $x$ unter $\bar{x}$ und gleichzeitig $y$ über $\bar{y}$ ODER $x$ über $\bar{x}$ und gleichzeitig $y$ unter $\bar{y}$
Null, wenn Abweichungen nicht miteinander korrelieren
- Abweichungsrichtungen von x und y unabhängig voneinander

Problem:

$\text{cov}$ ist abhängig von den Maßeinheiten der Merkmale

Pearson’s r

\[r = \frac{\text{cov}(x; y)}{s_x \cdot s_y} = \frac{\sum_{i=1}^{n} (x_i - \bar{x}) \cdot (y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}\]

standardisiert Kovarianz mit den Standardabweichungen
$-1 < r < 1$
- -1: stark negativer Zusammenhang
- 0: kein Zusammenhang
- 1: stark positiver Zusammenhang

Browserspiel zum Korrelationen schätzen

Guess-The-Correlation Game

VL 10 Überleitung Inferenz

	Stichprobe	Wahrscheinlichkeitsverteilungen	Grundgesamtheit
Kennwerte	Parameter	Parameter	Parameter
Mittelwert	$\bar{x}$	Erwartungswert $\mu$	Mittelwert $\mu$
Standardabweichung	$s$	Standardabweichung $\sigma$	Standardabweichung $\sigma$
Varianz	$s^2$	Varianz $\sigma^2$	Varianz $\sigma^2$

Normalverteilung

Können verschiedene Mittelwerte und Standardabweichungen besitzen
Häufigkeitsdarstellung (“Wahrscheinlichkeitsdichte”)
- Werte um den Mittelwert kommt häufiger vor (höhere Kurve)
Fläche unter der Kurve immer = 1 \[\mathcal{N}(\mu, \sigma^2)\] ## Standardnormalverteilung
Normalverteilung mit Mittelwert 0 und Standardabweichung 1
“Einheit” der unteren Achse sind Standardabweichungen
- 1 = 1 Standardabweichung über 0
- -2 = 2 Standardabweichungen unter 0 \[\mathcal{N}(0, 1)\]

Gesetz der großen Zahlen

Je größer die Stichprobe ist, desto geringer wird der Standardfehler ($\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}$) Wenn man die Formel betrachtet erkennt man, dass eine steigende Stichprobe durch ein immer größerwerdendes $n$ repräsentiert wird. Setzen wir für $n$ testweise einen Sehr großen Wert ein, reicht ein konstantbleibender/nur gering steigender Wert für $\sigma$ aus, sodass das Ergebnis des Bruchs sehr klein wird.

Zentrales Grenzwerttheorem

Es liegt eine unabhängige und identisch verteilte Zufallsvariable vor. Aus einer Grundgesamtheit werden nun unendlich viele Stichproben gezogen und deren Mittelwerte berechnet. Egal wie die Verteilung der Variable in der Grundgesamtheit ist, es ergibt sich immer eine Normalverteilung um den Mittelwert der Variable. Nach einer Z-Transformation der gesammelten Werte ergibt sich also auch immer eine Standardnormalverteilung. Je mehr Stichproben gezogen werden desto stärker nähert sich die Verteilung einer Standardnormalverteilung an (Videotipp!).

$\Rightarrow$ Aussagen über Grundgesamtheit nur über Stichproben möglich!!

Hinführung: Fläche unter der Kurve

In der Animation wird pro Zeitschritt der Wert mit der nächsten ID generiert. Auf der rechten Seite werden die Antworten (nur ganze Zahlen zwischen 1 und 15) diskret dargestellt. Wenn wir nun wissen möchten wie viele Personen Antwort 8 gegeben haben reicht es die gestapelten “Blöcke” des Balkendiagrams zu zählen. Wenn wir wissen möchten wie viele Personen eine Antwort zwischen 5 und 9 gegeben haben müssen wie alle Blöcke zwischen 5 und 9 zählen.

Die Fläche unter einer Normalverteilung funktioniert genau so, nur, dass die horizontale Achse kontinuierlich verteilt ist. Statt Blöcke zu zählen um die Fläche anzugeben nutzen wir die Z-Tabelle um die Fläche unter der Kurve zu bestimmen.

Wozu? Wir wissen, dass sich eine unabhängig und identisch verteilte Stichprobe mit mehr Fällen sich nach einer Z-Transformation der Normalvertielung annähert. Im Beispiel der Animation könnte so die Frage beantwortet werden wie viel Prozent der Grundgesamtheit denn nun 10 oder Werte darüber angeben würden. Statt Blöcke zu zählen bestimmen wir die Fläche mit der Z-Tabelle.

Z-Tabelle

In der Z-Tabelle ist die Fläche in Prozent eingetragen, die links vom an den Achsen zu findenden Z-Wert liegt. Links des Z-Wertes $-1,28$ befinden sich circa $10\%$ der Fläche unter der Normalverteilung.

Rohwert und Z-Wert umrechnen

Um Aussagen über bestimmte Variablen zu treffen müssen wir zwischen Rohwerten und Z-Werten übersetzen können.

$z = \frac{x - \mu}{\sigma}$
$x = \mu + z\cdot\sigma$

Aufgaben

VL 1

Skalenniveaus und Variablen

Gib das Skalenniveau der folgenden Variablen an:

Selbstvertrauen: niedrig, mittel, hoch

Ordinal, denn geordnet, Abstände nicht quantifiziert (können unterschiedlich sein)

Einkommen

Ratio, denn geordnete konstante Abstände, Nullpunkt ist natürlich

Jahreszahl

Intervall, denn (geordnet, circa konstante Abstände aber kein antürlicher Nullpunkt)

Sind die folgende Variablen diskret oder stetig?

Gewicht einer Person

Stetig, denn kann immer weiter verfeinert werden

Anzahl der Kinder

Diskret, denn (es gibt keine halben Kinder)

VL 2

Häufigkeiten

politisches Interesse Allbus:

Kategorie	$Hx_k$	$hx_k$	$hx_k\cdot100$	kumulierte prozentuale Häufigkeit
sehr stark	425	0,122	12,2	12,2
stark	877	0,251	25,1	37,3
mittel	1437	0,412	41,2	78,5
wenig	564	0,162	16,2	94,7
überhaupt nicht	186	0,053	5,3	100
Gesamt	3490	1,000	100

Wie viele Menschen sind mindestens stark politisch interessiert?

$37,3\%$

Wie hoch ist der prozentuale Anteil der Personen, die weniger als inkl. mittel interessiert sind?

$100\%-37,3\%=62,7\%$

Wie hoch ist der prozentuale Anteil der Personen, stark, mittel, wenig angekreuzt haben?

$94,7\%-12,2\%=82,5\%$

Summen

$\sum_{i=1}^{n} x_i$

$=14$

$\sum_{i=2}^{4} x_i$

$=9$

$\sum x_i$

$14$

$\sum_{i=1}^{n} x_i^2$

$=48$

$\left( \sum_{i=1}^{n} x_i \right)^2$

$=14^2$

$\left( \sum_{i=1}^{n} x_i \right) - 1$

$=13$

$\sum_{i=1}^{n} (x_i - 1)$

$=9$

$\sum_{i=1}^{n} (x_i - 1)^2$

$=25$

$\left( \sum_{i=1}^{n} (x_i - 1) \right)^2$

$=81$

$\frac{\sum_{i=1}^{n} (x_i - 1)}{n}$

$=\frac{9}{5}=1,8$

$\frac{\sum_{i=1}^{n} (x_i - 2)^2}{n}$

$=\frac{12}{5}$

VL 3

Berechne den Median für folgende Werte: 5,2,4,4,3,5,8

Was ist der Modus der folgenden Werte? 3,3,4,4,4,5,5,5,5,2,2,1,1,0

Welche Aussagen können über eine Verteilung mit den folgenden Werten getroffen werden? arithmetisches Mittel = 24; Modus = 32; Median = 27

rechtssteil/linksschief

VL 4

Ordne die IQRs der Verteilungen nach ihrer Größe

\[ IQR_A < IQR_B < IQR_C \]

Was ist meine Durchschnittsnote im Fach Deutsch?

$\frac{10+9+9+9}{4}=9,25$

Wie hoch ist die Standardabweichung meiner Noten im Fach Deutsch?

Varianz: $\frac{(10 - 9,25)^2 + (9 - 9,25)^2 + (9 - 9,25)^2 + (9 - 9,25)^2}{4} = \frac{(0,75)^2 + (-0,25)^2 + (-0,25)^2 + (-0,25)^2}{4}$ $= \frac{0,5625 + 0,0625 + 0,0625 + 0,0625}{4} = \frac{0,75}{4}$ $= 0,1875$

Standardabweichung: $\sqrt{0,1875} = 0,433$

Ohne zu rechnen: Liegt der Median meiner Physiknote höher oder tiefer als der Mittelwert? Warum?

Der Median ist niedriger, weil die 13 Punkte als “Ausreißer” den Mittelwert mit nach oben ziehen. In Verteilungen mit wenigen hohen Werten bevorzugt man deshalb den Median um die “Lage der Verteilung” zu beschreiben.

VL 5

Gegeben sind eine Obstschüssel voller Äpfel und eine Obstschüssel voller Birnen. Jeder Apfel und jede Birne werden nach Ästhetik auf einer Skala von 1-10 bewertet und die Bewertungen notiert.

Runde alle Rechnungen auf 2 Nachkommastellen

Apfel-ID (Apfelnummer)	Bewertung Äpfel
1	9
2	7
3	5
4	6
5	7

Birnen-ID (Birnennummer)	Bewertung Birnen
1	3
2	2
3	8
4	10
5	1

1. Berechne Durchschnitt und Standardabweichung für Äpfel und Birnen

Lösung

\[\bar{x}_{Äpfel} = 6,8\] \[\bar{x}_{Birnen} = 4,8\]

\[\sigma_{Äpfel} = \pm 1,33\] \[\sigma_{Birnen} = \pm 3,54\]

2. Erstelle einen Zahlenstrahl für die Werte der Äpfel und einen für die Werte der Birnen, markiere auch den Durchschnitt und zeichne das Intervall der Standardabweichung ein.

Lösung

(Der Grüne Punkt markiert die 0, die Standardabweichung ist nicht eingetragen)

3. Berechne für jeden Wert der Äpfel und für jeden Wert der Birnen den dazugehörigen Zwert

Lösung

Apfel-ID	Z-Apfel	Birnen-ID	Z-Birnen
1	1,48	1	-0,45
2	0,13	2	-0,71
3	-1,21	3	0,81
4	-0,54	4	1,31
5	0,13	5	-0,96

4. Erstelle nun zwei neue Zahlenstrahle, in der Nähe der ursprünglichen Zahlenstrahlen auf deinem Zettel. Zeichne hier alle Z-Werte ein.

Lösung

Durch die Z-Transformation haben sich die Werte verschoben. Der Mittelwert wird immer auf die 0 geschoben. Der Rest der Verteilung wird so “zusammengedrückt” oder “auseinandergezogen”, dass die Standardabweichungen auf 1 gesetzt werden. Alle Werte der Verteilung werden relativ dazu angeordnet (Werte die wenig rechts vom Mittelwert lagen liegen wieder wenig rechts vom Mittelwert etc.)

5. Nun vergleichen wir Äpfel mit Birnen: Welche Frucht ist insgesamt am besten bewertet?

Lösung

Apfel Nummer 1 ist die Frucht, die am weitesten über dem Durchschnitt liegt, da der Z-Wert am höchsten positiv ist.

VL 6

	Tutorium besucht	Tutorium nicht besucht	Gesamt
bestanden	9	59	68
nicht bestanden	2	14	16
Gesamt	11	73	84

Wie hoch ist der relative Anteil aller eingeschriebenen Studierenden die das Tutorium nicht besucht und die Klausur nicht bestanden haben?

$\frac{14}{84}=16,6\%$

Wie hoch ist der relative Anteil aller eingeschriebenen Studierenden die die Klausur bestanden haben?

$\frac{68}{84}=80,9\%$

Wie hoch ist der relative Anteil der Tutoriumsbesucher, die die Klausur bestanden haben?

$\frac{9}{11}=81,8\%$

Wie viel Prozent aller bestehenden Studierenden haben das Tutorium besucht?

$\frac{9}{68}=13,2\%$

Ergänze folgende Kreuztabelle (Statistisches Bundesamt):

Geschlecht x Rauchen	Raucher	Nichtraucher	Gesamt
männlich	5059	A	22 684
weiblich	B	C	23 547
Gesamt	8 738	D	46 231

$22684 - 5059 = 17625$

$8738 - 5059 = 3679$

$23547 - 3679 = 19868$

$17625 + 19868 = 37493$

VL 7

Aufgabe aus dem Tutorium

Beobachtete Werte:

Geschlecht x Rauchen	Raucher	Nichtraucher	Gesamt
männlich	5 059	17 625	22 684
weiblich	3 679	19 868	23 547
Gesamt	8 738	37 493	46 231

Erwartete Werte:

Geschlecht x Rauchen	Raucher	Nichtraucher	Gesamt
männlich	4 287,443	18 396,56	22 684
weiblich	4 450,557	19 096,44	23 547
Gesamt	8 738	37 493	46 231

1. Berechne und interpretiere $\chi^2$

\[ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{b_{ij}} - f_{e_{ij}})^2}{f_{e_{ij}}} \] \[ = \frac{(5059 - 4287,443)^2}{4287,443} + \frac{(17625-18396,56)^2}{18396,56} + \frac{(3679 - 4450,557)^2}{4450,557} + \frac{(19868 - 19096,44)^2}{19096,44} \] \[ = 138,847 + 32,360 + 133,759 + 31,174 \] \[ = 336,14 \]

Im Verhältnis zur Größe der Fallzahl ist der Wert ziemlich gering. $\rightarrow$ kein Zusammenhang

2. Berechne und interpretiere $\phi$

\[ \phi = \sqrt{\frac{336,14}{46231}} = 0,085 \] - Der Wert liegt nahe an 0 $\rightarrow$ kein Zusammenhang

3. Berechne $C$ und $C_{\text{max}}$

R = 2 \[ C = \sqrt{\frac{\chi^2}{\chi^2 + n}} = \sqrt{\frac{336,14}{336,14 + 46231}} = 0,085 \] \[ C_{\text{max}} = \sqrt{\frac{R - 1}{R}} = \sqrt{\frac{2-1}{2}} = 0,707 \] - Verglichen mit dem Maximalen Wert ist C sehr klein $\rightarrow$ kein Zusammenhang

4. Berechne und interpretiere Camer’s V.

\[ \text{Cramer's V} = \sqrt{\frac{\chi^2}{n \cdot (R - 1)}} = \sqrt{\frac{336,14}{46231 \cdot (2 - 1)}} = 0,085 \]

In Tabelle schauen $\rightarrow$ sehr schwacher Zusammenhang

Aufgabe aus der Vorlesung

Lösung

\[ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(f_{bij} - f_{eij})^2}{f_{eij}} \] \[ = \frac{(20-103)^2}{103} + \frac{(130-47)^2}{47} + \frac{(1572-1489)^2}{1489} + \frac{(606-689)^2}{689} \] \[ = \frac{(-83)^2}{103} + \frac{(83)^2}{47} + \frac{(83)^2}{1489} + \frac{(-83)^2}{689} \] \[ = \frac{6889}{103} + \frac{6889}{47} + \frac{6889}{1489} + \frac{6889}{689} \] \[ = 66,88 + 146,58 + 4,63 + 10 \] \[ = 228,09 \] Im Vergleich zu n=2328 ist 228,09 nur ein kleiner Wert und schwer zu Interpretieren.

Lösung

\[ \phi = \sqrt{\frac{228,09}{2328}} = 0.31 \] Es handelt sich um einen mittelstarken Zusammenhang. Die fiktiven Personen aus den Beispieldaten können sich demnach eher mit der AFD identifizieren, wenn sie aus Ostdeutschland kommen.

Lösung

Es handelt sich um eine $2\times2$ Tabelle $\Rightarrow R = 2$ \[ \text{Cramer's V} = \sqrt{\frac{\chi^2}{n \cdot (R - 1)}} = \sqrt{\frac{228,09}{2328 \cdot (2 - 1)}} = 0.31 \] Auch durch Cramer’s V Kategorien-Kontrolle zeigt sich ein mittelstarker Zusammenhang. Die fiktiven Personen aus den Beispieldaten können sich demnach eher mit der AFD identifizieren, wenn sie aus Ostdeutschland kommen.

VL 8

Übung aus dem Tutorium

In einer kleinen Studie gaben 5 Personen ihre Vorlieben für zwei verschiedene Musikgenres ab. Dabei wurde eine Likertskala mit 1 = “mag ich gar nicht” bis 5 = “mag ich sehr” verwendet.

Frage: Gibt es einen Zusammenhang zwischen den Musikgenres?

Berechne Spearman’s $\rho$ um die Frage zu beantworten.

Person	Genre A	Genre B
1	3	4
2	2	2
3	5	5
4	1	3
5	4	1
6	3	2

Lösung

1. Ränge zuweisen

Person	Genre A	Genre B	Rang Genre A	Rang Genre B
1	3	4	3.5	4
2	2	2	2	2.5
3	5	5	5	5
4	1	3	1	3
5	4	1	4	1
6	3	2	3.5	2.5

2. Differenz der Ränge berechnen

Person	Genre A	Genre B	Rang Genre A	Rang Genre B	Rang Differenz $d$
1	3	4	3.5	4	-0.5
2	2	2	2	2.5	-0.5
3	5	5	5	5	0
4	1	3	1	3	-3
5	4	1	4	1	3
6	3	2	3.5	2.5	1

3. Rho berechnen

\[ \rho = 1 - \frac{6 \cdot \sum^{n}_{i=1}{d^2_i}}{n \cdot (n^2-1)} \] \[ = 1 - \frac{6 \cdot ((-0.5)^2 + (-0.5)^2 + 0^2 + (-3)^2 + 3^2 + 1^2)}{n \cdot (n^2-1)} \] \[ = 1 - \frac{6 \cdot (0.25 + 0.25 + 0 + 9 + 9 + 1)}{6 \cdot (6^2-1)} \] \[ = 1 - \frac{117}{6 \cdot (36-1)} \] \[ = 1 - \frac{117}{6 \cdot 35} \] \[ = 1 - \frac{117}{210} \] \[ = 1 - 0.557 = 0.443 \]

Mittlere positive Korrelation $\Rightarrow$ “Wer Genre A mag, mag wahrscheinlich auch Genre B”

Übung aus der Vorlesung

Lösung

Schritt 1: Ränge zuweisen

Die Ränge sind in den Daten bereits gegeben und lauten wie folgt:

ID	Bildung-Rang	Einkommen-Rang
1	1	2
2	2,5	1
3	4	3,5
4	2,5	3,5
5	5	5

Schritt 2: Differenzen der Ränge berechnen

Die Differenzen zwischen den Rängen für jedes Paar sind:

Person 1: $d_1 = 1 - 2 = -1$
Person 2: $d_2 = 2,5 - 1 = 1,5$
Person 3: $d_3 = 4 - 3,5 = 0,5$
Person 4: $d_4 = 2,5 - 3,5 = -1$
Person 5: $d_5 = 5 - 5 = 0$

Schritt 3: Quadrieren der Differenzen

Die quadrierten Differenzen sind:

Person 1: $d_1^2 = (-1)^2 = 1$
Person 2: $d_2^2 = (1,5)^2 = 2,25$
Person 3: $d_3^2 = (0,5)^2 = 0,25$
Person 4: $d_4^2 = (-1)^2 = 1$
Person 5: $d_5^2 = (0)^2 = 0$

Schritt 4: Summe der quadrierten Differenzen

Die Summe der quadrierten Differenzen ist:

$\sum d_i^2 = 1 + 2,25 + 0,25 + 1 + 0 = 4,5$

Schritt 5: Spearman’s Rho Formel anwenden

Nun setzen wir unsere Werte in die Spearman’s Rho Formel ein:

$\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$

wobei $n$ die Anzahl der Beobachtungen ist (in diesem Fall 5):

$\rho = 1 - \frac{6 \cdot 4,5}{5\cdot(5^2 - 1)}$

$\rho = 1 - \frac{27}{5\cdot(24)}$

$\rho = 1 - \frac{27}{120}$

$\rho = 1 - 0.225$

$\rho = 0.775$

Das Endergebnis von 0.775 deutet auf eine mittelere-starke positive Korrelation zwischen Bildung und Einkommen hin.

VL 9

Lambda

Übung aus dem Tutorium

Echte Werte aus dem European Social Survey 2018

Berechne und interpretiere Lambda

Abhängige Variable: had a paid job

	had a paid job	never had a paid job	GESAMT
männlich	3414	602	4016
weiblich	4336	926	5262
GESAMT	7750	1528	9278

Lösung

$\text{E}_1 = 1 - \frac{7750}{9278} = 0,16$

$\text{E}_2 = (\frac{4016}{9278}(1-\frac{3414}{4016})) + (\frac{5262}{9278}(1-\frac{4336}{5262}))$ $~~~~~= 0,16$

$\text{PRE} = \frac{\text{E}_1 - \text{E}_2}{\text{E}_1} = \frac{0,16 - 0,16}{0,16} = 0$

Keine Verbesserung der Vorhersage durch die Information über das Geschlecht.

Übung aus der Vorlesung

Sie wollen untersuchen, ob ältere Grundschulkinder mehr Taschengeld bekommen als jüngere. Sie haben dazu bei 10 Kindern die in der Tabelle abgetragenen Summen ermittelt. Zur Prüfung der Hypothese haben Sie zwei Kinder-Gruppen gebildet:

Gruppe 1: Klasse 1 und 2
Gruppe 2: Klasse 3 und 4

Berechnen Sie Eta-Quadrat und interpretieren Sie das Ergebnis!

ID	Taschengeld pro Monat in Euro	Gruppe
1	3	1
2	9	2
3	10	1
4	4	2
5	2	1
6	4	1
7	3	2
8	6	1
9	5	2
10	6	2

Lösung

Schritt 1

Variablen identifizieren: \[ \text{Gruppe (unabhängig) (x)} \Rightarrow \text{Taschengeld pro Monat in Euro (abhängig) (y)} \] Arithmetisches Mittel als bester Vorhersagewert, wenn keine unabhängige Variable berücksichtigt wird (Quadratsumme gesamt) \[ \bar{y}=\frac{3+9+10+4+2+4+3+6+5+6}{10}=5,2 \]

Schritt 2

Quadratsumme gesamt

\[ \sum(y_i - \bar{y})^2 \] \[ = (3-5,2)^2 + (9-5,2)^2 + (10-5,2)^2 + (4-5,2)^2 + (2-5,2)^2 \] \[ + (4-5,2)^2 + (3-5,2)^2 + (6-5,2)^2 + (5-5,2)^2 + (6-5,2)^2 \] \[ =(-2,2)^2 + (3,8)^2 + (4,8)^2 + (-1,2)^2 + (-3,2)^2 \] \[ + (-1,2)^2 + (-2,2)^2 + (0,8)^2 + (-0,2)^2 + (0,8)^2 \] \[ = 4,84 + 14,44 + 23,04 + 1,44 + 10,24 + 1,44 + 4,84 + 0,64 + 0,04 + 0,64 \] \[ = 61.6 \]

Quadratsumme Gruppe 1

ID	Taschengeld pro Monat in Euro	Gruppe
1	3	1
3	10	1
5	2	1
6	4	1
8	6	1

\[ \bar{y} = \frac{3+10+2+4+6}{5}=5 \] \[ \sum(y_i - \bar{y})^2 = (3-5)^2 + (10-5)^2 + (2-5)^2 + (4-5)^2 + (6-5)^2 \] \[ = 2^2 + 5^5 + (-3)^2 + (-1)^2 + 1^2 \] \[ = 4 + 25 + 9 + 1 + 1 \] \[ = 40 \]

Quadratsumme Gruppe 2

ID	Taschengeld pro Monat in Euro	Gruppe
2	9	2
4	4	2
7	3	2
9	5	2
10	6	2

\[ \bar{y} = \frac{9+4+3+5+6}{5} = 5,4 \] \[ \sum(y_i - \bar{y})^2 = (9-5,4)^2 + (4-5,4)^2 + (3-5,4)^2 + (5-5,4)^2 + (6-5,4)^2 \] \[ = 3,6^2 + (-1,4)^2 + (-2,4)^2 + (-0,4)^2 + 0,6^2 \] \[ = 12,96 + 1,96 + 5,76 + 0,16 + 0,36 \] \[ = 21,2 \]

Quadratsumme innerhalb

\[\text{Quadratsumme}_\text{Innerhalb}=\text{Quadratsumme}_\text{Gruppe 1} + \text{Quadratsumme}_\text{Gruppe 2}\] \[= 40 + 21,2 = 61.2\]

Schritt 3

$\eta^2$-Formel anwenden

\[ \eta^2 = \frac{\text{Quadratsumme}_\text{Gesamt}-\text{Quadratsumme}_\text{Innerhalb}}{\text{Quadratsumme}_\text{Gesamt}} = \frac{\text{Quadratsumme}_\text{Zwischen}}{\text{Quadratsumme}_\text{Gesamt}} \]

\[ \eta^2 = \frac{\text{E1}-\text{E2}}{\text{E1}} = \frac{61,6 - (40 + 21,2)}{61,6} = \frac{61,6 - 61,1}{61,6} = \frac{0,5}{61,6} = 0,0081 \]

Das $\eta^2$ ist sehr, sehr klein $\Rightarrow$ Es gibt keinen Effekt des Alters auf die höhe des Taschengeldes.

Pearson’s r

Übung aus dem Tutorium

Eine Zimmerpflanze steht in einem Zimmer welches durch unterschiedliches heizen Temperaturschwankungen unterliegt. In der folgenden Tabelle sind die Zimmertemperatur in $^\circ\mathrm{C}$ und der Winkel der Pflanzenblätter aufgezeichnet.

Wirkt sich die Zimmertemperatur auf den Zustand der Pflanze aus?

Berechne dazu den Pearson Korrelationskoeffizienten.

$^\circ\mathrm{C}$	Winkel
15	56
16	50
14	44
14	23
16	28

Lösung

\[ r = \frac{\sum (x_i - \bar{x})\cdot(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} \] Für die Formel werden die Durchschnitte beider Variablen benötigt.

\[ \bar{x} = \frac{15+16+14+14+16}{5} = 15 \] \[ \bar{y} = \frac{56+50+44+23+28}{5} = 40,2 \]

Nun werden die drei Summen berechnet

1. \[ \sum (x_i - \bar{x})\cdot(y_i - \bar{y}) \] \[ = (15-15)\cdot(56-40,2) + (16-15)\cdot(50-40,2) + (14-15)\cdot(44-40,2) \] \[ + (14-15)\cdot(23-40,2) + (16-15)\cdot(28-40,2) \] \[ = 0 + 9,8 + (-3,8) + 17,2 + (-12,2) \] \[ = 11 \]

2. \[ \sum (x_i - \bar{x})^2 \] \[ = (15-15)^2+(16-15)^2+(14-15)^2+(14-15)^2+(16-15)^2 \] \[ = 4 \]

3. \[ \sum (y_i - \bar{y})^2 \] \[ =(56-40,2)^2+(50-40,2)^2+(44-40,2)^2+(23-40,2)^2+(28-40,2)^2 \] \[ =804,8 \]

Nun in die ursprüngliche Formel einsetzen \[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \] \[ =\frac{11}{\sqrt{4\cdot804,8}} = 0,194 \]

Es besteht ein mittelschwacher Zusammenhang.

Die Pflanze wird also leicht von der Zimmertemperatur beeinflusst. Je höher die Temperatur, desto höher ist der Blattwinkel. Die Pflanze scheint also warme Temperaturen zu präferieren.

Übung aus der Vorlesung

Lösung - Aufgabe 1

Lösung - Aufgabe 2

	$x_i$	$y_i$	$\bar{x}$	$\bar{y}$	$(x_i - \bar{x})$	$(y_i - \bar{y})$	$(x_i - \bar{x}) \cdot (y_i - \bar{y})$	$(x_i - \bar{x})^2$	$(y_i - \bar{y})^2$
A	0	2	6	4	-6	-2	12	36	4
B	10	6	6	4	4	2	8	16	4
C	4	2	6	4	-2	-2	4	4	4
D	8	4	6	4	2	0	0	4	0
E	8	6	6	4	2	2	4	4	4
Sum							28	64	16

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]

\[ = \frac{28}{\sqrt{64 \cdot 16}} = \frac{28}{\sqrt{1024}} = 0,875 \]

Lösung - Aufgabe 3

Die beiden Variablen hängen stark positiv zusammen.

VL 10

Gegeben sei für eine Population von $\text{N} = 50.000$ Personen deren Körpergröße (in cm) mit $\mathcal{N}(175, 5)$

Wie groß sind 95% aller Personen?

Lösung

\[ \text{x} = \mu \pm z \cdot \sigma^2 \]

Wir wollen die Mittleren 95% wissen und möchten daher restlichen 5% auf die beiden Enden der Glockenkurve aufteilen: \[ \frac{0,05}{2}=0,025 \] Auf beiden Seiten schneiden wir also $2,5\%$ der Fläche ab.

Um die Grenzen zu finden, die die mittleren 95% von den Randbereichen trennen berechnen wir: \[ 1-0,025=0,975 \]

0,975 in Z-Tabelle suchen $\Rightarrow$ Z-Wert: 1,96

$175 – 1,96\cdot 5 = 165,2$
$175 + 1,96\cdot 5 = 184,8$

95% aller Personen haben eine Körpergröße zwischen 165,2cm und 184,8cm

Wie groß ist die Fläche einer Normalverteilung links des Z-Wertes -1?

In der Z-Tabelle den Z-Wert -1 suchen ergibt: 0.1587

Wie groß ist bei einer Normalverteilung der Flächenanteil zwischen den Werten $z=-2$ und $z=2$?

Vorgehen: Die Fläche links von $z=2$ minus die Fläche links von $z=-2$

In der Z-Tabelle nachschauen: - $z_{-2} = 0.0228$ - $z_2 = 0.9772$ \[ 0.9772 - 0.0228 = 0,9544 \] Der Flächenanteil beträgt $0,9544$ oder auch $95,44\%$.

Tipps und Extras

Youtubekanäle

Khan Academy (z.B. Wann und warum wir bei der Varianz durch (n-1) teilen): KhanAcademy Videos
Ben Lambert (z.B. Kovarianz und Korrelation und Freiheitsgrade): Ben Lambert Videos
ziemlich mathematisch aber gut animiert: 3blue1brown (z.B. dieses Video zum zentralen Grenzwertsatz): 3blue1brown Videos

Blogs

Statistics by Jim: Statistics by Jim
Statistik Guru: Statistik Guru
Philipp Kleers Web-Based-Training zur Vorlesung ist in Stud.IP und ILIAS verlinked

\(^\circ\mathrm{C}\)	Winkel
15	56
16	50
14	44
14	23
16	28

	\(x_i\)	\(y_i\)	\(\bar{x}\)	\(\bar{y}\)	\((x_i - \bar{x})\)	\((y_i - \bar{y})\)	\((x_i - \bar{x}) \cdot (y_i - \bar{y})\)	\((x_i - \bar{x})^2\)	\((y_i - \bar{y})^2\)
A	0	2	6	4	-6	-2	12	36	4
B	10	6	6	4	4	2	8	16	4
C	4	2	6	4	-2	-2	4	4	4
D	8	4	6	4	2	0	0	4	0
E	8	6	6	4	2	2	4	4	4
Sum							28	64	16

VL 1 Grundlegende Begriffe

Was ist Statistik

Grundbegriffe

Skalenniveaus

VL 2 Univariate Statistik

Datenmatrix/Rohdaten

Häufigkeiten

Kumulierte Häufigkeit

Darstellungsarten

Summenzeichen

VL 3 Univariate Statistik

Lagemaße und zentrale Tendenz

Median

arithmetisches Mittel

Dispersionsmaße/Lagemaße und Verteilungsformen

VL 4 Univariate Statistik

Variationsweite/Spannweite/Range

Interquartilsabstand/IQR

Varianz

VL 5 Univariate Statistik

Boxplot

Ausreißer und Extremwert

Variationskoeffizient V

Z-Transformation/Z-Wert

VL 6 Bivariate Statistik

Kreuztabelle/Kontingenztafel

VL 7 Bivariate Statistik

Kreuztabellen

Erwartete Häufigkeit

Residuen

Chi-Quadrat

Normierung Chi-Quadrat mit Phi, C, Cramer’s V$

Phi: \(\phi\)

Kontingenzkoeffizient C

Cramer’s V

VL 8 Bivariate Statistik

Spearmans (Rho)

VL 9 Bivariate Statistik

PRE Maße

Lambda

Eta-Quadrat

Korrelation

Kovarianz

Pearson’s r

VL 10 Überleitung Inferenz

Normalverteilung

Gesetz der großen Zahlen

Zentrales Grenzwerttheorem

Hinführung: Fläche unter der Kurve

Z-Tabelle

Rohwert und Z-Wert umrechnen

Aufgaben

VL 1

Skalenniveaus und Variablen

VL 2

Häufigkeiten

Summen

VL 3

VL 4

VL 5

VL 6

VL 7

Aufgabe aus dem Tutorium

Aufgabe aus der Vorlesung

VL 8

Übung aus dem Tutorium

Übung aus der Vorlesung

Schritt 1: Ränge zuweisen

Schritt 2: Differenzen der Ränge berechnen

Schritt 3: Quadrieren der Differenzen

Schritt 4: Summe der quadrierten Differenzen

Schritt 5: Spearman’s Rho Formel anwenden

VL 9

Lambda

Übung aus dem Tutorium

Übung aus der Vorlesung

Schritt 1

Schritt 2

Quadratsumme gesamt

Quadratsumme Gruppe 1