Statistik Skript
Statistik Skript
Wirtschaftswissenschaften
Wintersemester 2020/2021
Das vorliegende Vorlesungsskript basiert auf einer Vorlage von Prof. Dr. W. Stannat, mit
Überarbeitungen und Erweiterungen durch Dr. C.H. Weiÿ, Prof. Dr. F. Aurzada und Dr. C.
Wichelhaus.
Inhaltsverzeichnis
I Deskriptive Statistik 5
I.1 Grundbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
I.2.3 Lagemaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I.2.5 Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
I.3.1 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
II Wahrscheinlichkeitsrechnung 29
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . 29
II.1.2 Wahrscheinlichkeitsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.1.6 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
II.3.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
II.3.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
II.5 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
I Deskriptive Statistik
I.1 Grundbegrie
Die deskriptive Statistik oder auch beschreibende Statistik beschäftigt sich mit der Auf-
bereitung von Daten, die im Rahmen von Erhebungen, wie zum Beispiel Volkszählungen und
Umfragen, oder bei Messungen gewonnen werden. Erhoben werden Merkmale wie zum Bei-
spiel Alter, Geschlecht, Einkommen, Temperatur oder Druck. Die Merkmalsausprägungen
sind die Gesamtheit der möglichen Werte eines Merkmals.
Alter: 0, 1, 2, 3, . . .
Als Merkmalsträger bezeichnet man die für die Erhebung der Daten relevanten Objekte. Das
sind also zum Beispiel bei einer Umfrage die Menge der relevanten Personen. Die Gesamtheit
der für eine statistische Erhebung relevanten Merkmalsträger heiÿt Grundgesamtheit.
Bei Erhebungen unterscheidet man zwischen einer Vollerhebung, bei der alle Merkmalsträ-
ger der Grundgesamtheit erfasst werden (etwa Volkszählung) und einer Teilerhebung oder
Stichprobenerhebung, bei der nur eine zufällig gewonnene Teilmenge der Grundgesamtheit
erfasst wird, wie es bei Umfragen der Fall ist.
Bei der Teilerhebung statistischer Daten wird die Stichprobenauswahl entscheidend: Von
welchen Merkmalsträgern werden die Daten erhoben? Neben willkürlicher Auswahl gibt es
hierzu Stichprobentechniken.
Beispiel: Quotenauswahl.
Bei der Auswahl achtet man darauf, dass bestimmte Merkmalsausprägungen in der Teilge-
samtheit dieselbe relative Häugkeit besitzen wie in der Grundgesamtheit. Man spricht dann
von einer repräsentativen Auswahl, im Zusammenhang mit Umfragen etwa von einer reprä-
sentativen Umfrage.
6 I DESKRIPTIVE STATISTIK
Wir haben bereits die Unterscheidung zwischen quantitativen und qualitativen Merkmalen
angesprochen. Durch Quantizierung kann ein qualitatives Merkmal in ein quantitatives
umgewandelt werden, z.B.:
grün = 23 Europa =3
oder
blau = 14 Asien =1
Skalierung
Bei den Merkmalen spielt die Skalierung eine wichtige Rolle. Man unterscheidet folgende
Skalen:
Nominalskala: Die zugeordneten Zahlen dienen lediglich zur Unterscheidung der Merk-
malsausprägungen.
Kardinalskala, Metrische Skala: Zusätzlich zur Rangfolge spielt auch noch die Gröÿe
des Abstandes zwischen zwei Merkmalsausprägungen eine Rolle.
Klassierung
Ein stetig verteiltes Merkmal kann durch die Aufteilung der Merkmalsausprägungen in Teil-
intervalle (Klassen) in ein diskretes Merkmal überführt werden (siehe auch Abschnitt I.2.1).
Beispiel:
x1 , x2 , x3 , . . . , xn .
Auf diese Weise erhält man eine Stichprobe der Länge n. Alternativ spricht man auch von
einer Messreihe, ferner statt von Merkmalswerten auch von Messwerten oder Beobach-
tungen.
130.6 344.7 458.9 721.6 739.0 779.7 910.8 797.3 578.9 298.5 138.1 99.7
Betrachten wir zunächst den Fall, dass es nur endlich viele mögliche Merkmalsausprägungen
gibt, diese seien a1 , a2 , . . . , as . Die Anzahl der Merkmalswerte x1 , . . . xn , die mit aj überein-
stimmen, heiÿt absolute Häugkeit von aj und wird mit nj bezeichnet (j = 1, . . . , s).
Der Anteil
nj
fj := für j = 1, . . . , s
n
des Merkmalswertes aj an der Gesamtzahl n der erhobenen Merkmalswerte heiÿt relative
Häugkeit. An den relativen Häugkeiten kann man insbesondere sofort die Prozentanteile
ablesen.
Oenbar gilt:
s
X s
X
nj = n und fj = 1.
j=1 j=1
• Tabellen,
• Kreisdiagramme.
Das erhobene Merkmal ist in diesem Falle die mit der Zweitstimme gewählte Partei. Eine
Beobachtungseinheit ist ein Stimmzettel. Die Gesamtheit der Merkmalswerte sind die zur Wahl
stehenden Parteien, also SPD, CDU, CSU, usw. Um die Darstellung zu vereinfachen, sind die
weniger häug gewählten Parteien in der Klasse Sonstige zusammengefasst. Die Anzahl n
der Beobachtungseinheiten ist gleich der Anzahl der gültigen Zweitstimmen, in diesem Falle
n = 46 515 492.
Häugkeitstabelle
Stabdiagramm Kreisdiagramm
Bei stetigen oder quasistetigen Merkmalen ist die Aufstellung einer Häugkeitstabelle oder
eines Stabdiagramms sinnlos, denn die meisten Werte sind nur einfach oder gar nicht besetzt.
Wir erklären im folgenden, wie man stetige Merkmale durch Klassierung (Vergröberung) in
diskrete Merkmale überführen kann.
Beispiel: Erreichte Punkte in den Abgaben der Übungen zur Vorlesung Einführung in die
Stochastik (die Matrikelnummern dienen ausschlieÿlich der Illustration):
3406435 65.5
3407234 115
3408908 130
3409043 121.5
. .
. .
. .
6373034 0
Ein Ausweg liefert hier die Klassierung, siehe auch Abschnitt I.1. Wähle Intervalle (Klassen)
und zähle die Häugkeit des Auftretens von Beobachtungen in der Klasse. Bei der Wahl der
Anzahl der Klassen ist allerdings zu beachten, dass
√
Eine populäre Faustregel empehlt, dass die Anzahl der Klassen in etwa n entsprechen
sollte, wobei n die Anzahl der Beobachtungen ist.
√
In obigem Beispiel: n = 88, wähle 9 Klassen ( 88 ≈ 9.3) der Form
Punkte [0,16) [16,32) [32,48) [48,64) [64,80) [80,96) [96,112) [112,128) [128,144)
Anzahl 6 1 0 9 5 3 34 20 10
Als Repräsentanten der Klasse [zj ; zj+1 ) wählt man häug die Klassenmitte (zj + zj+1 )/2.
Im Falle klassierter Daten bezeichnet man die Anzahl nj der Beobachtungseinheiten in der
Klasse [zj ; zj+1 ) auch als Klassenhäugkeit oder Besetzungszahl. Den zugehörigen rela-
tiven Anteil
nj
fj :=
n
bezeichnet man als relative Klassenhäugkeit.
Zur graschen Darstellung klassierter Daten eignen sich (wieder) Histogramme (vgl. Stab-
diagramme). Die Länge der Klassen [z1 ; z2 ), [z2 ; z3 ), . . . muss nicht notwendig gleich gewählt
werden. Dies muss aber in der Darstellung deutlich werden. Errichte über jedem Teilintervall
[zj ; zj+1 ) ein Rechteck mit der Fläche fj , die Höhe dj des Rechtecks errechnet sich gemäÿ
dj · (zj+1 − zj ) = fj .
10 I DESKRIPTIVE STATISTIK
Beachte: Bei gleicher Klassenbreite ist auch die Höhe der Rechtecke proportional zur
relativen Klassenhäugkeit fj .
Die Funktion
X
H(x) := nj für x∈R
j:aj ≤x
• 0 ≤ F ≤ 1;
I.2.3 Lagemaÿe
Im Folgenden bezeichne x1 , . . . , x n stets die Urliste. Falls stattdessen nur klassierte Daten
a1 , . . . , as (Repräsentanten) vorliegen, so bezeichne fj die zu aj gehörige relative Häugkeit.
Modalwert: xMod .
Diejenigen Ausprägungen aj mit der gröÿten Häugkeit werden als Modalwerte bezeich-
net. Die Verwendung des Modalwertes zur Beschreibung von Datensätzen sollte auf den Fall
unimodaler Verteilungen, bei denen es genau einen Modalwert gibt, beschränkt bleiben. Zur
Illustration dienen die folgenden Graken.
12 I DESKRIPTIVE STATISTIK
Median: xMed .
Der Median (oder auch Zentralwert) ist derjenige Wert xMed , für den mindestens 50 % aller
Merkmalswerte kleiner gleich xMed und mindestens 50 % aller Merkmalswerte gröÿer gleich
xMed sind.
Zur Bestimmung des Medians aus der Urliste ordnet man x1 , . . . , xn zunächst der Gröÿe nach
an,
x(1) ≤ x(2) ≤ . . . ≤ x(n) ,
und erhält auf diese Weise die sogannte geordnete Urliste. Trotz möglicher Inkonsistenz
mit der allgemeineren Quantilsdenition in Abschnitt I.2.4, ist es gängige Praxis, den Median
(eindeutig) wie folgt zu denieren:
x n+1 falls n ungerade,
( )
xMed := 1 2 (I.1)
x( n ) + x( n +1) falls n gerade.
2 2 2
n s
1X X
x := xi = aj fj .
n
i=1 j=1
Beispiel. Preise eines bestimmten Produkts in 20 Geschäften der Gröÿe nach geordnet:
In diesem Beispiel ist xMod = 17.49, xMed = 17.415, x = 17.3325. Würde ein einzelnes Geschäft
als besondere Werbemaÿnahme den Preis des Produkts von 17.29 auf 9.99 senken, so würde
dies den Durchschnittswert x von 17.3325 auf 16.9675 senken. Einen Einuss auf den Median
(oder auf den Modalwert) hätte die Senkung dagegen nicht.
Lagemaÿe, die nicht empndlich auf Extremwerte oder Ausreiÿer reagieren heiÿen robust.
Der Median ist also ein robustes Lagemaÿ.
Bemerkung.
(i) Das arithmetische Mittel (oft auch der Median) stimmt i. Allg. nicht mit einer der mög-
lichen Merkmalsausprägungen überein.
(ii) Äquivarianz unter linearer Transformation: Transformiert man die Daten gemäÿ
einer an linearen Transformation der Form
yi = a + bxi ,
I.2 Analyse eindimensionaler Datensätze 13
y = a + bx
und ebenso
yMod = a + bxMod , yMed = a + bxMed .
1 Pn
(iii) Optimalitätseigenschaften: Das arithmetische Mittel x = n i=1 xi minimiert die
Summe der quadratischen Abstände, d.h. es gilt
n
X n
X
(xi − x)2 < (xi − r)2 für alle r∈R mit r 6= x .
i=1 i=1
Beweis:
n
X n
X n
X
(xi − r)2 − (xi − x)2 = (xi − r)2 − (xi − x)2
| {z }
i=1 i=1 i=1
−2xi r+r2 +2xi x−x2
= −2nxr + nr + 2nx − nx2
2 2
Der Median xMed minimiert die Summe der Abstände, d.h. es gilt
n
X n
X
|xi − xMed | ≤ |xi − r| für alle r ∈ R.
i=1 i=1
Weitere Lagemaÿe
Annahme: x1 , . . . , xn > 0.
Geometrisches Mittel: x̄geom .
1
x̄geom := (x1 · · · xn ) n
Kn = K0 · x1 · · · xn
so lässt sich x̄geom als mittlerer Wachstumsfaktor über die n Perioden 1, . . . , n interpre-
tieren.
Beispiel: Die Zinsen auf Tagesgelder in den Jahren n = 1, 2, 3 betragen 1.1%, 1.4% und 0.8%.
1.1 1.4 0.8
Das eingesetzte Anfangskapital K0 wird dann zu K3 = K0 (1 + 100 )(1 + 100 )(1 + 100 ), somit
ist hier x̄geom ≈ 1.011.
14 I DESKRIPTIVE STATISTIK
n n
1 1X 1X
ln x̄geom = ln(x1 · · · xn ) = ln xi = yi ,
n n n
i=1 i=1
d. h., ln x̄geom stimmt mit dem arithmetischen Mittel der logarithmierten Messwerte yi = ln xi
überein.
1
x̄harm := 1 Pn 1
n i=1 xi
Lagemaÿe alleine reichen zur Beschreibung der Daten einer Urliste nicht aus. Vergleicht man
etwa eine Einkommenserhebung in zwei Ländern, so können die Durchschnittseinkommen
gleich sein, jedoch in einem Land gröÿere Einkommensunterschiede bestehen als im anderen
Land. Daher benötigt man zusätzliche Kennzahlen, um die Lage der Daten möglichst ezient
erfassen zu können. Eine wichtige Methode sind Box-Plots, die mit Hilfe von Quantilen
deniert werden.
Denition. Es sei x(1) ≤ x(2) ≤ . . . ≤ x(n) eine geordnete Urliste und q ∈ (0; 1]. Jeder Wert
xq mit der Eigenschaft
1
( Anzahl der Messwerte ≤ xq ) ≥ q
n
und
1
( Anzahl der Messwerte ≥ xq ) ≥ 1 − q.
n
heiÿt q -Quantil (genauer: empirisches q -Quantil).
Damit folgt
xq = x(bnqc+1) falls nq nicht ganzzahlig,
Der gemäÿ Abschnitt I.2.3 denierte Median xMed ist also ein 0.5-Quantil.
und analog für das obere Quartil x0.75 . Dies sind spezielle Quantile zu q = 0.25 bzw. q = 0.75.
Die Distanz dQ = x0.75 − x0.25 heiÿt Quartilsabstand (engl.: inter quartile range, IQR). Der
Quartilsabstand beschreibt die Breite der mittleren 50 % und ist somit ein Streuungsmaÿ
(siehe Abschnitt I.2.5).
xmax
x0.75
6
dQ xMed
?x0.25
s
s
xmin
Die Länge der Linien (engl. whiskers, Barthaare) ober- bzw. unterhalb der Box können
variieren. Eine gängige Variante (vgl. Abbildung) besteht darin, die untere von
I.2.5 Streuungsmaÿe
Neben der absoluten Lage der Messdaten ist auch ihre Streuung von groÿer Bedeutung. Ein
sehr leicht interpretierbares Streuungsmaÿ ist der Quartilsabstand, siehe Abschnitt I.2.4.
Die bekannteste Maÿzahl für die Streuung einer Messreihe ist aber die empirische Varianz
(oder auch mittlere quadratische Abweichung von x̄):
n s
2 1 X
2
X
s := (xi − x) = (aj − x)2 fj . (I.2)
n
i=1 j=1
16 I DESKRIPTIVE STATISTIK
Sie ist also deniert als das arithmetische Mittel der quadratischen Abstände der einzelnen
Messwerte zu ihrem Mittelwert. Die Wurzel hieraus
v
u n
u1 X
s=t (xi − x)2
n
i=1
heiÿt Standardabweichung.
Der Zusammenhang zwischen der Standardabweichung s und der Streuung der Messwerte
kann folgendermaÿen präzisiert werden:
Begründung der Abschätzung: Diese beruht auf der empirischen Variante der Unglei-
chung von Tschebyschow, wie wir sie in Abschnitt II.3.3 behandeln werden.
Die obige Abschätzung ist allgemeingültig und daher in vielen Fällen relativ ungenau.
Zur Erinnerung: Mit Hilfe von Quartilen und Quartilsabstand, siehe Abschnitt I.2.4,
kann man stets eine exakte Aussage treen:
Im Intervall [x0.25 ; x0.75 ] liegen 50 % der Daten, seine Breite ist dQ = x0.75 − x0.25 .
Bemerkung
In der induktiven Statistik verwendet man statt (I.2) die modizierte Form
n
1 X
s2 = (xi − x)2 .
n−1
i=1
yi = a + bxi
1 Pn
linear transformiert, so folgt für die empirische Varianz s2y = n
2
i=1 (y1 − y) der trans-
formierten Daten
s2y = b2 s2x .
Beweis:
n n
1X 1X
s2y = (yi − y)2 = b2 (xi − x)2 .
n | {z } n
i=1 i=1
(a+bxi )−(a+bx)
sy = |b| sx .
I.2 Analyse eindimensionaler Datensätze 17
(ii) Verschiebungssatz:
n
!
1 X
s2 = x2i − x2 ,
n
i=1
denn
n n n n
2 1X 1X 2 1X 1X 2
s = (xi − x)2 = xi − 2 xi x + x2 = xi − x2 .
n | {z } n n n
i=1 i=1 i=1 i=1
=x2i −2xi x+x2
Als Ausgangspunkt betrachten wir folgende aus [1] entnommene Statistik zu monatlichen
Umsätzen der Möbelbranche in 1000 Euro in den drei Städten G, M und V:
Einrichtungshäuser G M V
1 40 180 60
2 40 5 50
3 40 5 40
4 40 5 30
5 40 5 20
In der Stadt G ist der Umsatz unter den 5 Möbelhäusern völlig ausgeglichen, man spricht von
einer Gleichverteilung. Dagegen besitzt in der Stadt M das Möbelhaus 1 quasi eine Mo-
nopolstellung (perfekte Konzentration läge vor, wenn die Konkurrenten keinerlei Umsatz
erwirtschaften würden). Zur Quantizierung solcher Konzentrationen gibt es Konzentrations-
maÿe. Zur Diskussion solcher Maÿe betrachten wir folgende Ausgangsposition:
Es sei Pk
i=1 x(i)
vk := , k = 0, 1, 2, . . . , n,
x•
der Anteil der k kleinsten Merkmalsträger an der gesamten Merkmalssumme. Trägt man die
Punkte
k
, vk , k = 0, 1, 2, . . . , n,
n
in das Einheitsquadrat ein und verbindet sie durch einen Streckenzug, so erhält man die
zugehörige Lorenzkurve.
6 6 6
− s − s − s
− s − −
s
− s − −
s
− s − −
s
− s − −
(s((s
s
s
s (s|( |
s s
((
| | | | | - ( | | | - | | | | | -
• Die Lorenzkurve ist immer monoton wachsend und konvex (d.h. nach unten gewölbt).
• Die Stärke der Wölbung, also ihre Abweichung von der Winkelhalbierenden, ist ein
Maÿ für Konzentration. Verläuft die Kurve auf der Winkelhalbierenden, so liegt ein
ausgewogener Markt (Gleichverteilung) vor.
s
#
s
#
s
-
I1 I2 I3 I4
1 1
Ii = vi−1 + (vi − vi−1 ).
n 2n
Also summiert sich die Gesamtäche unter der Lorenzkurve zu
n n n−1
1X 1 X 1X 1
vi−1 + (vi − vi−1 ) = vi + .
n 2n n 2n
i=1 i=1 i=1
| {z }
=vn −v0 =1
I.2 Analyse eindimensionaler Datensätze 19
n−1 n−1 i
!
1X 1 1 XX
vi = Pn x(k)
n n j=1 x(j)
i=1 i=1 k=1
n Pn
1 1 X 1 k=1 kx(k)
= Pn (n − k)x(k) = 1 − Pn ,
n j=1 x(j) n j=1 x(j)
k=1
Pn !! Pn
1 1 j=1 jx(j) 1 2 j=1 jx(j) n + 1
G=2 − 1 − Pn + = Pn − .
2 n j=1 x(j) 2n n j=1 x(j) n
Beispiel: In obigem Beispiel erhält man die Werte 0, 0.7 und 0.2 für die Gini-Koezienten
der Städte G, M und V.
20 I DESKRIPTIVE STATISTIK
Werden bei einer Erhebung zwei Merkmale zugleich erhoben, so besteht die Urliste aus Wer-
tepaaren (bivariate Daten)
Bei einer statistischen Erhebung von mindestens zwei Merkmalen zugleich entstehen als Urliste
Tupel (d.h. geordnete Mengen) von Messwerten (multivariate Daten)
Die grasche Darstellung der Urliste als Streuungsdiagramm ist für m ≥ 4 nicht mehr möglich.
Zur Aufklärung von Abhängigkeiten zwischen den erhobenen Merkmalen könnte man zwar für
jedes Paar von Merkmalen das zweidimensionale Streuungsdiagramm bzw. die zweidimensio-
nale Kontingenztabelle aufstellen. Da aber die Anzahl der Merkmalspaare mit der Anzahl m
der erhobenen Merkmale sehr schnell anwächst, ist dieser Ansatz sehr aufwändig. Ezientere
Methoden sind Gegenstand weiterführender Veranstaltungen in der Statistik.
I.3.1 Kontingenztabelle
Bei diesem Verfahren werden die absoluten Häugkeiten der möglichen Paare von Ausprägun-
gen der Merkmale 1 und 2 tabellarisch aufgelistet:
Beispiel. Wir unter suchen die Abhängigkeiten zwischen dem Ergebnis in der Klausur Einfüh-
rung in die Stochastik (Merkmal 1) und den Gesamtpunkten in den Hausübungen (Merkmal
2). Hier eine Andeutung des Datensatzes (Matrikelnummern ausschlieÿlich zur Illustration):
Zuerst vergröbern (klassieren) wir den Datensatz. Merkmal 1 wird reduziert auf die Ausprä-
gungen 1, 2, . . . , 5 (gerundete Noten); Merkmal 2 wird reduziert auf die Ausprägungen fast
nichts (Punkte zwischen 0 und 20), aufgegeben (Punkte zwischen 20 und 100), Bonus
erreicht (Punkte zwischen 100 und 120) und Streber (mehr als 120 Punkte).
Damit erhalten wir folgende Kontingenztabelle:
Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 3 8 11
Note 2 0 2 7 3
Note 3 1 1 15 2
Note 4 0 2 4 0
Note 5 5 11 11 2
Die Einträge in der Kontigenztabelle heiÿen gemeinsame Häugkeiten. Statt der absoluten
Häugkeiten lassen sich hier natürlich auch die relativen Häugkeiten betrachten:
nij
fij = .
n
Fragt man nach der absoluten Häugkeit einer Merkmalsausprägung ai (bzw. bj ), so hat man
die gemeinsamen Häugkeiten nij der entsprechenden Zeile (bzw. der entsprechenden Spalte)
aufzusummieren:
J
X I
X
ni• := nij n•j := nij
j=1 i=1
Diese Häugkeiten werden auch als Randhäugkeiten bezeichnet. Die Summe der Rand-
häugkeiten wiederum ist jeweils gleich der Gröÿe des Datensatzes, n.
In obigem Beispiel:
Punkte in Hausübungen
P
fast nichts aufgeben Bonus Streber
Note 1 0 3 8 11 22
Note 2 0 2 7 3 12
Note 3 1 1 15 2 19
Note 4 0 2 4 0 6
Note 5 5 11 11 2 29
P
6 19 45 18 88
und
nij
f2 (bj |ai ) = der Ausprägung bj gegeben die Ausprägung ai .
ni•
Die bedingte relative Häugkeit f1 (ai |bj ) gibt also die relative Häugkeit der Ausprägung ai
an unter allen Merkmalsträgern, die bzgl. des anderen Merkmals die Ausprägung bj besitzen.
In obigem Beispiel:
Wir betrachten die bedingten relativen Häugkeiten, bedingt auf Note (f1 (., .)):
Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 0.136 0.364 0.500
Note 2 0 0.167 0.583 0.250
Note 3 0.053 0.053 0.789 0.105
Note 4 0 0.333 0.667 0
Note 5 0.172 0.379 0.379 0.069
Man beachte, dass hierbei die Spaltensummen gleich eins sind. Umgekehrt erhält man auch
die bedingten relative Häugkeiten, bedingt auf Punkte in den Hausübungen (f2 (., .)):
Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 0.158 0.178 0.611
Note 2 0 0.105 0.155 0.167
Note 3 0.167 0.053 0.333 0.111
Note 4 0 0.105 0.089 0
Note 5 0.833 0.579 0.244 0.111
der Ausprägung a1 , . . . , aI des ersten Merkmals unabhängig von bj (also gleich für j =
1, . . . , J ), so beeinussen sich die Merkmale nicht und man sagt, dass sie unabhängig sind.
Dieser Fall tritt genau dann ein, wenn auch die umgekehrten bedingten relativen Häugkeiten
und damit
nij1 · n•j2 = nij2 · n•j1 .
Summation über j1 = 1, . . . , J ergibt
also
ni• · n•j2
nij2 =
n
und somit da j2 beliebig (siehe auch die analoge Formel (II.11)):
I.3 Analyse zwei- und mehrdimensionaler Datensätze 23
ni• · n•j
nij = . (I.3)
n
Die gemeinsamen Häugkeiten sind in diesem Falle über (I.3) also bereits durch die Rand-
häugkeiten bestimmt.
sie sind also unabhängig von der Ausprägung des jeweils anderen Merkmals.
Um die Abhängigkeit zwischen zwei Merkmalen 1 und 2 quantitativ erfassen zu können, bildet
man die folgende, als Chi-Quadrat Koezient bezeichnete Gröÿe:
I X
J
2
X (nij − ñij )2
χ = .
ñij
i=1 j=1
ni• n•j
Hierbei ist ñij = n .
χ2 ist genau dann 0, wenn die Merkmale unabhängig sind, also wennnij = ñij für alle i, j gilt.
χ2 -Koezient, umso stärker spricht dies für die Unabhängigkeit der beiden
Je kleiner also der
2
Merkmale. Allerdings hängt die Gröÿenordnung des χ -Koezienten von der Dimension der
2
Kontingenztafel ab. Daher geht man vom χ -Koezienten über zum Kontingenzkoezien-
ten s
χ2
K= .
n + χ2
r
M −1
Kmax = , wobei M = min{I, J} .
M
Durch Normierung mit Kmax erhält man hieraus schlieÿlich den normierten Kontingenz-
koezienten
K
K∗ = ∈ [0; 1].
Kmax
Beispiel. Im obigen Beispiel der Merkmale Klausurnote und Punkte in den Hausübungen
erhält man χ2 = 34.0 und mit n = 88 berechnet man K = 0.5278; und da I = 5 und J = 4
erhält man M = 4 und berechnet K∗ = 0.6094. Dies spricht für eine gewisse Abhängigkeit der
beiden Merkmale.
(x1 , y1 ), . . . , (xn , yn )
der Urliste als Punkte der Ebene auassen und somit ein zugehöriges Streuungsdiagramm
(auch: Scatterplot) erstellen:
24 I DESKRIPTIVE STATISTIK
6
4
2
y
0
−2
−4
2 4 6 8 10
Beispiel.
(48.6, 35.1), (49.5, 34.1), (50.7, 36.8), (51.1, 35.7), (52.4, 37.4)
n n
1X 1X
x= xi , y= yi .
n n
i=1 i=1
1 1
Im Beispiel: x= 5 252.3 = 50.46, y= 5 179.1 = 35.82.
Liegt bei einem Wertepaar (xi , yi ) der erste Wert um den Durchschnitt xi ∼ x, aber der
zweite Wert yi deutlich über oder unter dem Durchschnitt y, so spricht dies eher für die
Unkorreliertheit der beiden Merkmale Körperlänge und Kopfumfang. Liegen jedoch bei diesem
Wertepaar bei beiden Merkmalen deutliche Abweichungen vom Durchschnitt vor, so spricht
dies für Korrelation. Folglich liefert das Produkt
(xi − x)(yi − y)
Aufsummieren über die gesamte Stichprobe und Normierung ergibt die empirische Kovari-
anz
n n
1X 1X
sxy = (xi − x)(yi − y) = . . . = xi yi − x y.
n n
i=1 i=1
n
!1 n
!1
2 2
1X 1X
sx = (xi − x)2 und sy = (yi − y)2
n n
i=1 i=1
Eigenschaften:
• −1 ≤ rxy ≤ 1.
• rxy = −1 (bzw. rxy = +1) genau dann wenn die Wertepaare (xi , yi ) auf einer Geraden
mit negativer (bzw. positiver) Steigung liegen.
• rxy = 0 spricht für die Unkorreliertheit der beiden Merkmale. In diesem Falle sind die
Wertepaare (xi , yi ) oft regellos verteilt.
0.0
4
2.0
−0.5
2
1.5
−1.0
0
−1.5
y
y
1.0
−2
−2.0
−4
0.5
−2.5
−6
−3.0
0.0
0 2 4 6 8 10 0 2 4 6 8 0 2 4 6 8 10
x x x
Später in Abschnitt III.2.6 werden wir uns u. a. mit statistischen Testverfahren basierend
auf rxy befassen.
Liegen die Wertepaare der n Beobachtungen (xi , yi ) annähernd auf einer Geraden, so kann
man von einem linearen Zusammenhang der Form
y = a + bx (I.4)
sprechen. Die Koezienten a und b wählt man dabei so, dass sich die zugehörige Gerade der
gegebenen Punktwolke am besten anpasst. Beste Anpassung bedeutet dabei, dass die Summe
der quadratischen Abstände
n
X
Q(a, b) = [yi − (a + bxi )]2 ,
i=1
zwischen Messwert yi und entsprechendem Punkt a + bxi auf der Geraden y = a + bx minimal
wird. (Prinzip der kleinsten Quadrate nach C.F. Gauÿ).
Diejenige Gerade, die sich der Punktwolke dabei am besten anpasst, heiÿt Ausgleichsgerade
oder Regressionsgerade. Ihre Koezienten sind bestimmt durch
sxy
b̂ = , â = ȳ − b̂x̄ . (I.5)
s2x
26 I DESKRIPTIVE STATISTIK
und damit rxy ≈ 0.80 (d. h. Körpergröÿe und Kopfumfang sind (erwartungsgemäÿ) stark po-
sitiv korreliert). Die Koezienten der zugehörigen Regressionsgeraden sind gegeben durch
ŷ = −0.59 + 0.72x .
Mit Hilfe der Regressionsgeraden können wir nun zum Beispiel einen Vorhersagewert (Pro-
gnose) für den Kopfumfang eines Neugeborenen bei einer Körperlänge von 50 cm bestimmen:
ŷ(50) = 35.49.
zwischen beobachtetem Wert yi und dem durch die Regressionsgerade erklärten Ausgleichswert
ŷi = â + b̂xi das Residuum. Die Summe der quadratischen Residuen
n
X n
X
2
(yi − ŷi ) = u2i
i=1 i=1
ist ein Maÿ für die Güte der Approximation der Punktewolke des Streuungsdiagramms durch
die Regressionsgerade. Den Quotienten
Pn
(yˆi − ȳ)2
Pn
u2
R2 = Pi=1
n 2 = 1 − 2
Pn i=1 i 2 = rxy ∈ [0; 1] (I.6)
i=1 (yi − ȳ) i=1 (yi − ȳ)
bezeichnet man als Bestimmtheitsmaÿ. Er ist eine dimensionslose Gröÿe für die Güte der
Approximation, die mit dem Quadrat des Korrelationskoezienten übereinstimmt: Je näher
R2 an 1 liegt, desto besser die Approximation.
n
X n
X 2 n
X
2
(ŷi − ȳ) = â + b̂xi − â + b̂x̄ = b̂ 2
(xi − x̄)2 = nb̂2 s2x
i=1 i−1 i=1
wegen
Pn 2
− ȳ)2 b̂2 s2x
2 (ŷi sxy 2
R = Pi=1
n = = = rxy .
i=1 (yi − ȳ)2 s2y sx · sy
Beweis:
n
X
Q(a, b) = [yi − (a + bxi )]2
i=1
I.3 Analyse zwei- und mehrdimensionaler Datensätze 27
∂ ∂
grad Q(a, b) = Q(a, b), Q(a, b)
∂a ∂b
n n
!
X X
= −2 [yi − (a + bxi )], xi [yi − (a + bxi )]
i=1 i=1
und Hesse-Matrix
" #
∂2 ∂2
∂a22
Q(a, b) ∂a∂b Q(a, b) n P nx
HQ (a, b) = ∂ ∂2 =2 n 2 .
∂a∂b Q(a, b) Q(a, b) nx i=1 xi
∂b2
Also
n
!
X
det HQ (a, b) =4 n x2i 2 2
− n x̄ = 4n2 s2x > 0 ,
i=1
Folglich besitzt Q genau ein eindeutig bestimmtes Minimum, und dieses wird an der Null-
stelle (bzw. der kritischen Stelle) des Gradienten angenommen:
∂ ∂
grad Q(a, b) = (0, 0) ⇔ Q(a, b) = 0 und Q(a, b) = 0
∂a ∂b
⇔ y = a + bx und
Xn Xn
0= xi (yi − (a + bxi )) = xi (yi − bxi − (y − bx))
i=1 i=1
n
X n
X
= xi yi − b x2i − n x y + n b x2
i=1 i=1
⇔ a = y − bx und
Pn
xi yi − n x y sxy
b = Pi=1n 2 2 = 2 .
i=1 xi − n x sx
Bei vielen zweidimensionalen Messreihen ist von vorneherein klar, dass kein linearer Zusam-
menhang zwischen den beobachteten Messwerten erwartet werden kann, sondern ein funktio-
naler Zusammenhang der Form
y = f (x)
für eine geeignete nichtlineare Funktion f, z.B.
Gesucht sind wieder diejenigen Parameter a und b, für die sich der zugehörige Funktionsgraph
der gegebenen Punktwolke am besten anpasst. Manchmal kann man durch geeignete Trans-
formation der Daten das Problem auf einen linearen Zusammenhang zurückführen, wie etwa
im Beispiel y = aebx via
ln y = ln a + bx,
und zu bestimmen ist dann die Regressionsgerade zu den transformierten Beobachtungswerten
Nach dem Prinzip vom abnehmenden Grenznutzen sollte eine funktionale Abhängigkeit zwi-
schen den beiden Merkmalen durch einen konkaven Funktionsverlauf beschrieben werden, was
auf den Ansatz
y = f (x|a, b, c) = a + be−cx für a, b ∈ R , c > 0
führt, mit zu schätzenden Parametern a, b und c. Der Parameter a steht dabei für den (asymp-
totisch für x → ∞ maximal zu erzielenden) Grenzertrag, b für die Dierenz zwischen Durch-
schnittsertrag y(0) und Grenzertrag, und c für die exponentielle Rate der Ertragsminderung.
Gemäÿ dem Prinzip der kleinsten Quadrate werden die zu schätzenden Parameter für die
Regressionskurve durch Minimierung von
n
X
Q(a, b, c) := (yi − f (xi | a, b, c))2
i=1
ermittelt. Im Unterschied zum Fall der linearen Regression ist in diesem Falle keine explizite
Berechnung des Minimums von Q möglich. Man verwendet stattdessen numerische Verfahren
zur approximativen Bestimmung des Minimums, die in Statistiksoftwarepaketen enthalten
sind. In obigem Beispiel ergibt sich als approximatives Minimum â = 523.3, b̂ = −156.9 und
ĉ = 0.1997.
500
400
300
200
100
0
−6 −4 −2 0 2 4 6
29
II Wahrscheinlichkeitsrechnung
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume
II.1.1 Zufällige Ereignisse
Unter einem Zufallsexperiment versteht man zunächst einmal einen zeitlich wie örtlich fest
umrissenen Vorgang mit unbestimmtem Ausgang.
Beispiele:
Beispiele:
In den ersten vier Fällen sind die Ergebnisräume endlich oder abzählbar unendlich. Solche
Ergebnisräume nennt man auch diskret. Im fünften Fall ist der Ergebnisraum nicht mehr
abzählbar, sondern eine kontinuierliche Menge.
Die Wahrscheinlichkeitstheorie zu kontinuierlichen Ergebnisräumen ist mathematisch anspruchs-
voller als die zu diskreten Ergebnisräumen. Daher betrachten wir zunächst nur diskrete
Ergebnisräume Ω.
Ereignisse
Teilmengen A ⊂ Ω von Ω heiÿen Ereignisse. Die Gesamtheit aller Ereignisse ist somit nichts
weiter als P(Ω), also die Potenzmenge von Ω. Unter der Potenzmenge von Ω versteht man
die Gesamtheit aller Teilmengen von Ω einschlieÿlich der leeren Menge ∅ und der Menge Ω
selber.
Beachten Sie: Ereignisse sind Elemente der Potenzmenge P(Ω) von Ω, also Teilmengen von
Ω, während Elementarereignisse Elemente von Ω sind.
30 II WAHRSCHEINLICHKEITSRECHNUNG
Beispiele
(ii) A = {(5, 6), (6, 5), (6, 6)} = Augensumme gröÿer als 10;
Die bekannten Mengenoperationen lassen sich als Operationen auf Ereignissen interpre-
tieren:
Ac := Ω\A := {ω ∈ Ω | ω ∈
/ A} = A tritt nicht ein.
Ωc = ∅ und ∅c = Ω .
II.1.2 Wahrscheinlichkeitsmaÿe
Für jedes Ereignis A legen wir im nächsten Schritt eine Wahrscheinlichkeit P (A) zwischen 0
und 1 fest. P (A) soll ein Maÿ dafür sein, dass das Ereignis A eintritt:
Zusätzlich sollte gelten: Sind A und B disjunkte Ereignisse, d.h. A und B besitzen keine
gemeinsamen Elementarereignisse, also A ∩ B = ∅, so ist
Gilt schlieÿlich auch für jede unendliche Folge (An ) paarweiser disjunkter Ereignisse
∞ ∞
!
[ X
P Ak = P (Ak ), (II.3)
k=1 k=1
Denition.
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei
• Ω eine nichtleere, diskrete (d.h. endliche oder abzählbar unendliche) Menge, und
P : P(Ω) → R
P (Ω) = 1; (Normiertheit)
S∞ P∞
P ( k=1 Ak ) = k=1 P (Ak ) für jede Folge (Ak ) paarweise disjunkter Ereignisse.
(σ -Additivität)
Rechenregeln für P
• P ist insbesondere auch endlich additiv, d.h. für A1 , . . . , A n paarweise disjunkt, ist
n
X
P (A1 ∪ . . . ∪ An ) = P (A1 ) + . . . + P (An ) = P (Ak ) .
k=1
• Allgemeiner gilt für beliebige Ereignisse A und B (d. h. A und B könnten auch nicht
disjunkt sein), dass
P (∅) = 1 − P (Ω) = 1 − 1 = 0 .
X
p(ω) = 1. (II.4)
ω∈Ω
Bemerkung. Beachten Sie, dass es sich bei (II.4) um eine unendliche Summe handelt, falls
Ω unendlich viele Elemente enthält. Gemeint ist mit (II.4) also, dass die (möglicherweise
P
unendliche) Reihe ω∈Ω p(ω) konvergiert und ihr Wert gleich 1 ist. Hierbei kommt es auf die
Reihenfolge, in der die Wahrscheinlichkeiten p(ω) aufsummiert werden, nicht an, denn die
Reihe ist wegen der Nichtnegativität der Summanden p(ω) absolut konvergent.
32 II WAHRSCHEINLICHKEITSRECHNUNG
X
P (A) := p(ω) . (II.5)
ω∈A
Die Wahrscheinlichkeit von A ist also gleich der Summe der Wahrscheinlichkeiten all jener
Elementarereignisse ω, die in A liegen. Die so denierte Abbildung P ist ein diskretes Wahr-
scheinlichkeitsmaÿ auf Ω, d.h. nichtnegativ, normiert und σ -additiv.
Umgekehrt können wir zu jedem diskreten Wahrscheinlichkeitsmaÿ P auf Ω durch
Durch (II.5) und (II.6) ist also eine 1:1-Beziehung zwischen allen diskreten Wahrscheinlich-
keitsmaÿen über Ω und allen Wahrscheinlichkeitsfunktionen über Ω gegeben.
Beispiele
(i) Beim Würfeln mit einem fairen Würfel ist jede der sechs möglichen Augenzahlen gleich-
wahrscheinlich. Man setzt daher
1
p(ω) = für ω ∈ Ω = {1, 2, 3, 4, 5, 6} .
6
Es folgt z.B.
3 1
P (Augenzahl ungerade ) = P {1, 3, 5} = p(1) + p(3) + p(5) = = .
6 2
(ii) Beim zweimaligen Würfeln mit einem fairen Würfel ist wiederum jedes der 36 Elementa-
1
rereignisse aus Ω = {1, 2, 3, 4, 5, 6}2 gleichwahrscheinlich, also p(ω) = 36 für alleω ∈ Ω.
Es folgt z.B.
3 1
P (Augensumme > 10) = P {(5, 6), (6, 5), (6, 6)} = = .
36 12
Beide Beispiele sind Spezialfälle eines Laplaceschen Wahrscheinlichkeitsraumes.
1
p(ω) := für alle ω∈Ω
|Ω|
X X 1 |A|
P (A) = p(ω) = = . (II.7)
|Ω| |Ω|
ω∈A ω∈A
Eine Urne enthalte n unterscheidbare Kugeln 1, 2, . . . , n. Wir unterscheiden dann das k -malige
Ziehen einer Kugel aus der Urne mit/ohne Zurücklegen, wobei es auf die Reihenfolge der
gezogenen Kugeln ankommt/nicht ankommt:
|Ω| = nk ,
Ω = ω = (x1 , . . . , xk ) xi ∈ {1, . . . , n} ,
d.h., ein Elementarereignis ω = (x1 , . . . , xk ) ist ein k -Tupel, d.h. eine geordnete Menge
der Länge k, wobei xi für die Nummer der i-ten gezogenen Kugel steht.
Ω = ω = (x1 , . . . , xk ) xi ∈ {1, . . . n}, xi 6= xj für i 6= j ,
n!
|Ω| = n · (n − 1) · (n − 2) · . . . · (n − k + 1) = .
(n − k)!
m! := m(m − 1) · (m − 2) · . . . · 2 · 1 = Πm
k=1 k , und 0! := 1 .
Insbesondere
also
n!
= n · (n − 1) · . . . · (n − k + 1) .
(n − k)!
n! n!
|Ω| = = = n! .
(n − n)! 0!
n! ist also gleich der Anzahl aller möglichen Anordnungen (oder auch Permutationen)
der n-elementigen Menge {1, . . . , n}.
Ω = ω = {x1 , . . . , xk } xi ∈ {1, 2, . . . , n}, xi 6= xj für i 6= j .
Im Unterschied zum Ziehen in Reihenfolge werden nun alle k -Tupel (x1 , . . . , xk ), die zu
derselben Menge der gezogenen Kugeln führen, zu einem Elementarereignis zusammen-
gefasst. Insgesamt gibt es k! solcher Tupel (das entspricht also gerade der Anzahl der
Permutationen der Menge der k gezogenen Kugeln). Also erhalten wir insgesamt
n! 1 n
· =
(n − k)! k! k
Elementarereignisse. Es gilt also
n
|Ω| = .
k
34 II WAHRSCHEINLICHKEITSRECHNUNG
n
Insbesondere: k ist gleich der Anzahl aller k -elementigen Teilmengen aus einer n-
elementigen Grundmenge.
Alternative Darstellung der Ergebnismente: Unter allen k -Tupeln, die zur selben
Menge {x1 , . . . , xk } führen, gibt es genau ein Tupel (x(1) , . . . , x(k) ), in dem die Elemente
ihrer Gröÿe nach angeordnet sind:
Ω̃ = (x1 , . . . , xk ) xi ∈ {1, . . . , n} , x1 < x2 < . . . < xk .
Durch Übergang von x(i) zu x(i) + i − 1 erhält man aus (II.8) eine streng monoton
aufsteigende Folge
Ist über den Ausgang eines Zufallsexperiments bereits eine Teilinformation verfügbar, ändern
sich entsprechend die Wahrscheinlichkeiten der Ereignisse.
Beispiel.
1
P (Augensumme > 10) = .
12
Wie ändert sich diese Wahrscheinlichkeit, wenn bereits bekannt ist, dass beim ersten Würfeln
eine 6 gewürfelt wurde? Unter dieser Annahme bleiben nur noch sechs gleichwahrscheinliche
Möglichkeiten für die zweite Augenzahl übrig, von denen die Augenzahlen 5 und 6 insgesamt zu
einer Augensumme gröÿer als 10 führen. Für die Wahrscheinlichkeit des Ereignisses Augenzahl
> 10 unter der Bedingung 1. Augenzahl ist 6 ergibt sich somit
2 1
P (Augensumme > 10 | 1. Augenzahl = 6) = = .
6 3
Die bedingte Wahrscheinlichkeit ist also viermal höher als die ursprüngliche a priori-Wahr-
scheinlichkeit. Die folgende Denition erfolgt in vollständiger Analogie zu Abschnitt I.3.1.
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 35
Denition.
Für Ereignisse A, B mit P (B) > 0 heiÿt
P (A ∩ B)
P (A | B) :=
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B (oder auch: die be-
dingte Wahrscheinlichkeit von A gegeben B ). Im Falle P (B) = 0 setzen wir einfach
P (A | B) := 0 (dies ist in der Literatur nicht üblich, vereinfacht aber die Notation in diesem
Skript).
• P (A | B) ∈ [0; 1].
• P (∅ | B) = 0.
• Gilt P (B) > 0, so ist P (Ω | B) = 1 und
P (· | B) : P(Ω) → [0; 1] , A 7→ P (A | B)
Beispiel.
Wir betrachten eine Urne mit vier weiÿen Kugeln und zwei schwarzen Kugeln. Wir ziehen
zweimal aus der Urne, ohne Zurücklegen. Was ist die Wahrscheinlichkeit, im zweiten Zug eine
schwarze Kugel zu ziehen?
Schritt 1 ist es, relevante Ereignisse bezeichnen. Wir bezeichnen
Im Schritt 2 können wir nun einige (bedingte) Wahrscheinlichkeiten sehr leicht ablesen. Zum
Beispiel: Unter der Bedingung, dass im ersten Zug eine weiÿe Kugel gezogen wurde, ist die
3
Wahrscheinlichkeit, im zweiten Zug nochmals eine weiÿe Kugel zu ziehen gerade
5 , denn es
benden sich (nach Entnahme der weiÿen Kugel im ersten Zug) drei weiÿe und zwei scharze
(also insgesamt 5) Kugeln in der Urne. Auf diese Weise erhalten wir:
3 2
P (W 2|W 1) = P (S2|W 1) =
5 5
4 1
P (W 2|S1) = P (S2|S1) =
5 5
2 4
P (S1) = P (W 1) = .
6 6
36 II WAHRSCHEINLICHKEITSRECHNUNG
In einem dritten Schritt identizieren wir die gesuchten Wahrscheinlichkeiten, gesucht ist in
diesem Fall P (W 2). Nun rechnen wir
P (W 2) = P (W 2 ∩ W 1) + P (W 2 ∩ S1)
P (W 2 ∩ W 1) P (W 2 ∩ S1)
= · P (W 1) + · P (S1)
P (W 1) P (S1)
= P (W 2|W 1) · P (W 1) + P (W 2|S1) · P (S1)
3 4 4 2 12 + 8 20 2
= · + · = = = .
5 6 5 6 30 30 3
Zusätzlich kann man nun fragen, was z.B. P (S1|W 2) ist, also die Wahrscheinlichkeit, dass im
ersten Zug eine schwarze Kugel gezogen wurde, wenn wir wissen, dass im zweiten Zug eine
weiÿe Kugel gezogen wurde. Dies kann man wie folgt berechnen:
Der folgende Satz fasst die relevanten Rechnungen des letzten Beispiels in allgemeinerer Form
zusammen.
Satz.
n
X
P (A) = P (A | Bk ) · P (Bk ) . (II.9)
k=1
P (A | Bi ) · P (Bi ) P (A | Bi ) · P (Bi )
P (Bi | A) = = Pn . (II.10)
P (A) k=1 P (A | Bk ) · P (Bk )
Mitunter liefert die Formel von Bayes scheinbar überraschende Aussagen wie im Falle des
folgenden Tests auf eine seltene Krankheit.
Beispiel. Angenommen, 5 Promille der Bevölkerung haben eine seltene Krankheit K, d.h.
P (K) = 0.005 .
Ein medizinischer Test zeigt bei 99% der Erkrankten eine positive Reaktion, d.h.
Allerdings zeigt besagter Test auch bei 2% der Gesunden eine positive Reaktion, d.h.
Frage: Angenommen, der Test ist positiv. Wie groÿ ist die Wahrscheinlichkeit, dass die getes-
tete Person tatsächlich an K erkrankt ist? Wie groÿ ist also die bedingte Wahrscheinlichkeit
P (K | Test positiv )?
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 37
II.1.6 Unabhängigkeit
Ist P (A) = P (A|B), d.h. die Wahrscheinlichkeit von A unabhängig davon, ob das Ereignis
B eingetreten ist oder nicht, so folgt:
P (A ∩ B)
P (A) = P (A | B) =
P (B)
und damit
P (A ∩ B) = P (A) · P (B) . (II.11)
Zwei Ereignisse A und B mit (II.11) heiÿen (stochastisch) unabhängig (erneut in Analogie
zu Abschnitt I.3.1).
Allgemeiner gilt:
Denition.
Die Ereignisse A1 , . . . , An heiÿen (stochastisch) unabhängig, falls für jede nichtleere Teilmenge
{i1 , . . . , ik } ⊂ {1, . . . , n} gilt:
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik ).
Man beachte, dass zum Nachweis der Unabhängigkeit dreier Ereignisse A, B und C, der
Nachweis der paarweisen Unabhängigkeit je zweier Ereignisse nicht ausreicht. Als Beispiel
betrachten wir beim zweimaligen Werfen einer fairen Münze die Ereignisse
Beispiel.
Beim zweimaligen Würfeln eines fairen Würfels ist die erste Augenzahl oenbar unabhängig
von der zweiten Augenzahl, also jedes Ereignis A, das nur von der ersten Zahl abhängt,
unabhängig von jedem Ereignis B, das nur von der zweiten Augenzahl abhängt, etwa:
1
A = 1. Augenzahl gerade , P (A) =
2
1
B = 2. Augenzahl ≥ 5 , P (B) = .
3
Dann gilt
P (A ∩ B) = P {(2, 5), (2, 6), (4, 5), (4, 6), (6, 5), (6, 6)}
6 1 1 1
= = · = P (A) · P (B) .
36 6 2 3
38 II WAHRSCHEINLICHKEITSRECHNUNG
Eine Funktion
X : Ω→R
heiÿt Zufallsvariable (auf Ω ). Da Ω abzählbar, ist auch das Bild
X(Ω) = X(ω) | ω ∈ Ω ⊂ R
abzählbar.
{X = x} := ω ∈ Ω | X(ω) = x = X nimmt den Wert x an.
Durch
pX (x) := P (X = x) für x ∈ X(Ω)
wird dann eine neue Wahrscheinlichkeitsfunktion auf
X(Ω) deniert. Das zugehörige diskrete
Wahrscheinlichkeitsmaÿ PX auf P X(Ω) heiÿt Verteilung von X (unter P ).
Für beliebige Ereignisse A ⊂ X(Ω) gilt oenbar
X X
PX (A) = pX (x) = P (X = x)
x∈A x∈A
[
=P {ω | X(ω) = x} = P (X ∈ A) .
x∈A
| {z }
={ω | X(ω)∈A}
Beispiel.
Beim zweimaligen Würfel eines fairen Würfels sei X die Augensumme. X ist eine Zufallsva-
riable mit Werten in der Menge {2, 3, . . . , 12}, von denen aber nicht alle Werte mit gleicher
Wahrscheinlichkeit von X angenommen werden. Vielmehr gilt:
1
pX (2) = P {(k, l) ∈ Ω | k + l = 2} = P {(1, 1)} = ,
36
1
pX (12) = P {6, 6} = ,
36
und für die übrigen Werte
2 3
pX (3) = pX (11) = , pX (4) = pX (10) =
36 36
4 5
pX (5) = pX (9) = , pX (6) = pX (8) =
36 36
6
pX (7) = .
36
II.2 Zufallsvariablen und Verteilungen 39
1.0
0.16
0.8
0.12
0.6
0.08
0.4
0.2
0.04
0.0
2 4 6 8 10 12
2 4 6 8 10 12
Die Funktion
F (x) := P (X ≤ x) für x∈R
heiÿt Verteilungsfunktion von X . Sie besitzt, genau wie die empirische Verteilungsfunktion
(siehe Abschnitt I.2.2), folgende Eigenschaften:
In Analogie zu Abschnitt I.2.4 nennen wir jeden Wert xq mit q ∈ (0; 1) und
P (X ≤ xq ) = F (xq ) ≥ q sowie P (X ≥ xq ) ≥ 1 − q
Denition.
Es seien X1 , X2 , . . . , Xn Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, P ). X1 , . . . , Xn
heiÿen (stochastisch) unabhängig, falls für alle Teilmengen B1 , . . . , Bn von R gilt:
Die Zufallsvariablen X1 , . . . , Xn sind also genau dann (stochastisch) unabhängig, wenn für
beliebige Teilmengen B1 , . . . , Bn die Ereignisse
{X1 ∈ B1 } , . . . , {Xn ∈ Bn }
Äquivalent zu (II.12) ist folgende, in der Praxis einfacher zu überprüfende Bedingung: Für
alle x1 , . . . , xn ∈ R ist
Beachten Sie, dass P (Xk = xk ) = 0 für die weitaus meisten Werte xk ∈ R gilt, nämlich
mindestens für alle xk ∈ R \ Xk (Ω).
40 II WAHRSCHEINLICHKEITSRECHNUNG
f1 (X1 ), . . . , fn (Xn )
unabhängig. Um dies einzusehen beachte man, dass {fi (Xi ) = xi } = {Xi ∈ fi−1 (xi )} und
somit
Aufgrund des Kriteriums (II.13) folgt die Unabhängigkeit von f1 (X1 ), . . . , fn (Xn ).
Ein weiteres, zu (II.12) äquivalentes Kriterium ergibt sich auf Basis der Verteilungsfunktionen,
siehe Abschnitt II.2.2: Für alle x1 , . . . , x n ∈ R ist
Beispiel.
Beim zweimaligen Würfeln sei X1 die erste Augenzahl und X2 die zweite. Mit (II.13) ist dann
einfach zu sehen, dass X1 und X2 unabhängig sind. Ebenso sind auch die Zufallsvariablen
sin(X1 ) 2
und X2 unabhängig.
Bernoulli-Verteilung
π := P (X = 1) = P (A)
Denition.
Es sei π ∈ [0; 1]. Das durch die Wahrscheinlichkeitsfunktion p : {0, 1} → [0; 1] mit
1
• Werfen einer fairen Münze: P (Kopf ) = P (Zahl ) = 2.
• Ziehen einer Kugel aus einer Urne mit s schwarzen und w weiÿen Kugeln:
s
P (gezogene Kugel schwarz ) = .
s+w
Binomialverteilung
Sn := X1 + . . . + Xn ∈ {0, . . . , n}
n k
pSn (k) = P (Sn = k) = π (1 − π)n−k =: b(k; n, π), k ∈ {0, 1, . . . , n}.
k
n
Begründung: k ist gerade die Anzahl der n-Tupel mit genau k Einsen (und n − k Nullen),
siehe das dritte Urnenmodell in Abschnitt II.1.4, d. h. die Anzahl an Möglichkeiten, die k
benötigten Einsen auf die n Positionen unserer Bernoulli-Kette X1 , . . . , Xn zu vergeben. Die
Wahrscheinlichkeit für jede derartige Kombination von k Einsen und n − k Nullen ergibt
k
sich aufgrund der Unabhängigkeitsannahme als Produkt aus π , der Wahrscheinlichkeit für k
Erfolge, und (1 − π)
n−k , der Wahrscheinlichkeit für n − k Misserfolge.
Denition. Es sei n∈N und π ∈ [0; 1]. Das durch die Wahrscheinlichkeitsfunktion
Wir haben insbesondere gesehen: Bei einer Folge von n unabhängigen Bernoulli-Experimenten
mit Erfolgswahrscheinlichkeit π ist die Summe der Erfolge binominalverteilt mit Parametern
n und π.
Bin(20,0.2) Bin(20,0.5) Bin(20,0.9)
0.20
0.15
0.20
0.15
0.10
0.10
0.10
0.05
0.05
0.00
0.00
0.00
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
42 II WAHRSCHEINLICHKEITSRECHNUNG
Bemerkung.
Für den Fall, dass die Erfolgswahrscheinlichkeit π eine rationale Zahl ist, können wir die Bino-
mialverteilung durch die Stichprobenziehung aus einer Urne mit zwei Arten von Kugeln (z. B.
weiÿ oder schwarz) repräsentieren. Die Gesamtzahl N von Kugeln (weiÿ oder schwarz) und
K
die Anzahl K weiÿer Kugeln ist dabei so zu wählen, dass π = N ist, d. h. die Erfolgswahr-
scheinlichkeit π wird in der Urne durch den Anteil weiÿer Kugeln repräsentiert. Aus dieser
Urne gilt es nun n Kugeln zufällig zu ziehen, und wir zählen die zufällige Zahl X von weiÿen
Kugeln unter den n gezogenen Kugeln.
Damit, wie von der Bernoulli-Kette gefordert, bei jedem Ziehen einer Kugel die Erfolgswahr-
scheinlichkeit gleich π ist, muss nach jedem Ziehen einer Kugel (und dem Notieren des Ergeb-
nisses) diese Kugel wieder in die Urne zurückgelegt werden. Das Ziehen mit Zurücklegen
führt also gerade zur Binomialverteilung. Würden wir aus unserer Urne dagegen die Stichpro-
be durch Ziehen ohne Zurücklegen gewinnen, so würde dies zur hypergeometrischen
Verteilung führen. Diese besprechen wir zum Ende dieses Abschnitts.
Geometrische Verteilung
Wie groÿ ist die Wahrscheinlichkeit, dass man mit einem fairen Würfel genau k Versuche
benötigt, bis zum ersten Mal eine 6 gewürfelt wird?
1
Für k = 1 ist die gesuchte Wahrscheinlichkeit oensichtlich 6 , für k = 2 ist sie gleich 56 · 16 , denn
die gesuchte Wahrscheinlichkeit ist aufgrund der Unabhängigkeit der beiden Würfe gleich dem
Produkt aus der Wahrscheinlichkeit, beim ersten Würfeln keine 6 zu würfeln (= 65 ), und der
1
Wahrscheinlichkeit, beim zweiten Würfeln eine 6 zu würfeln (= 6 ).
Für allgemeines k können wir wie folgt vorgehen: Wir denieren eine Folge von Zufallsvariablen
X1 , X2 , X3 , . . . durch
Ak = {X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1} .
Aufgrund der Unabhängigkeit der Zufallsvariablen ergibt sich für die gesuchte Wahrschein-
lichkeit
P (Ak ) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1)
= P (X1 = 0) · P (X2 = 0) · . . . · P (Xk−1 = 0) · P (Xk = 1)
k−1
5 5 5 1 5 1
= · · ... · · = .
6 6 6 6 6 6
Allgemeiner:
Gegeben sei eine Folge von unabhängigen Zufallsvariablen X1 , X2 , X3 , . . ., die alle Bernoulli-
verteilt sind zu π > 0. Deniere die Wartezeit auf den ersten Erfolg als
T := min{k ≥ 1 | Xk = 1} .
Wie in obigem Fall der Wartezeit auf die erste 6 beim Würfeln mit einem fairen Würfel,
erhalten wir für die Verteilung von T
P (T = k) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1)
= P (X1 = 0) · P (X2 = 0) · . . . · P (Xk−1 = 0) · P (Xk = 1)
= (1 − π)k−1 · π für k = 1, 2, 3, . . .
II.2 Zufallsvariablen und Verteilungen 43
Denition.
Es sei π ∈ (0; 1]. Das durch die Wahrscheinlichkeitsfunktion
gπ : N 7→ [0; 1]
k 7→ (1 − π)k−1 π
Poisson-Verteilung
Denition.
Es sei λ > 0. Das durch die Wahrscheinlichkeitsfunktion
pλ : N0 → [0; 1]
λk
k 7→ e−λ
k!
denierte Wahrscheinlichkeitsmaÿ auf N0 heiÿt Poisson-Verteilung zu λ und wird mit
Poi(λ) bezeichnet.
Die Poisson-Verteilung empehlt sich als Näherung der Binomialverteilung Bin(n, π) für groÿe
n und kleine π . Die Approximation ist umso besser, je kleiner der Wert nπ 2 ist. Diese Näherung
wird gerechtfertigt durch die folgende Beobachtung:
Poissonscher Grenzwertsatz
Es sei (πn ) ⊂ [0; 1] eine Folge von Erfolgsparametern mit limn→∞ nπn = λ > 0. Dann folgt
0.20
0.20
0.15
0.10
0.10
0.05
0.00
0.00
0 1 2 3 4 5 0 2 4 6 8 10 0 5 10 15 20
44 II WAHRSCHEINLICHKEITSRECHNUNG
Zum Beweis des Poissonschen Grenzwertsatzes beachte man, dass unter der Annahme limn→∞ nπn =
λ folgt
n k
lim b(k; n, πn ) = lim πn (1 − πn )n−k
n→∞ n→∞ k
1 n (n − 1) (n − k + 1) nπn n−k
= lim ·... · (nπn )k 1 −
n→∞ k! n n } n n
|{z} | {z | {z } | {z k} | {z }
−→1 −→1 −→1 −→λ λ n
∼(1− n ) −→e−λ
1
= λk e−λ = pλ (k) .
k!
Eine näherungsweise Berechnung von Wahrscheinlichkeiten gewisser Ereignisse mit Hilfe ei-
ner Poisson-Verteilung ist immer dann gerechtfertigt, wenn es sich um seltene Ereignisse
handelt.
Beispiel.
Bei der Herstellung von Bauteilen ist ein Anteil von π = 0.002 bereits bei der Produktion de-
fekt. Wie groÿ ist die Wahrscheinlichkeit, dass in einem Warenposten mit n = 1.000 Bauteilen
mindestens fünf Schreiben defekt sind?
Zur Beantwortung dieser Frage sei X die Anzahl der defekten Bauteile. Da es sich bei der
Produktion eines defekten Bauteils (eher) um ein seltenes Ereignis handelt, empehlt sich
eine Näherung der Verteilung von X mit Hilfe einer Poisson-Verteilung. Den Parameter λ
wählt man gemäÿ der Regel
λ = nπ = 1000 · 0.002 = 2 .
20 21 22 23 24
−2
P (X ≥ 5) = 1 − P (X ≤ 4) = 1 − e + + + +
0! 1! 2! 3! 4!
4 2
= 1 − e−2 1 + 2 + 2 + + ≈ 0.05 .
3 3
Hypergeometrische Verteilung
Es sei eine Grundgesamtheit mit N Elementen gegeben, von denen K Elemente die Eigenschaft
E besitzen. Aus dieser Grundgesamtheit werde n-mal ohne Zurücklegen gezogen. Wir sind
interessiert an der Anzahl k der gezogenen Elemente, die die Eigenschaft E besitzen. Hierzu
denieren wir
n
N̂ := K
X
ist eine natürliche Schätzung für die unbekannte Gesamtanzahl N. Zur Begründung beachte
X K
man, dass der Anteil
n an rot markierten Fischen in der Stichprobe dem Anteil N aller rot
markierten Fische an der Gesamtpopulation entsprechen sollte, d.h.
X K n
≈ und damit N≈ K = N̂ .
n N X
II.2 Zufallsvariablen und Verteilungen 45
n
Ist
N klein, so gibt es keinen groÿen Unterschied zwischen dem Ziehen ohne Zurücklegen und
dem Ziehen mit Zurücklegen. Daher empehlt sich in diesem Falle eine Approximation der
K
Verteilung von X durch die Binomialverteilung Bin(n, π) mit π= N , also
K
P (X = k) ≈ b(k; n, ). (II.15)
N
n
Ist
N jedoch vergleichsweise groÿ, so muss die gesuchte Verteilung exakt berechnet werden:
K N −K
k n−k
P (X = k) = N
für k = 0, . . . , n . (II.16)
n
K
Zur Herleitung der Formel (II.16) für die gesuchte Wahrscheinlichkeit beachte man, dass
k
N −K
(bzw.
n−k ) gerade die Anzahl der k (bzw. n − k )-elementigen Teilmengen einer K (bzw.
N
N − K )-elementigen Grundmenge ist, wogegen n die Anzahl aller n-elementigen Teilmengen
der Grundgesamtheit aus N Elementen ist, siehe Abschnitt II.1.4.
Denition.
Es sei K ≤ N, n ≤ N. Das durch die Wahrscheinlichkeitsfunktion
K N −K
k n−k
P (X = k) = N
n
n K! (N − K)! (N − n)!
=
k (K − k)! ((N − K) − (n − k))! N!
n K K −1 K −k+1 N −K N −K −1 N − K − (n − k) + 1
= ... ...
k N N N N N N
N N N n k
... → π (1 − π)n−k .
N N −1 N −n+1 k
46 II WAHRSCHEINLICHKEITSRECHNUNG
Bernoulli-Verteilung
P (X = 1) = π = 1 − P (X = 0)
@
@
@
Anzahl der Erfolge in @ Wartezeit auf ersten Erfolg
n unabhängigen Bernoulli-Exp. @ in unabhängigen Bernoulli-Exp.
@
@
@
@
R
@
Binomialverteilung Bin(n, π) Geometrische Verteilung Geom(π)
n
π k (1 π)n−k P (X = k) = (1 − π)k−1 π
P (X = k) = k −
A
A
A
Poisson-Approximation A Normalapproximation
nπn → λ A (siehe Abschnitt II.5)
A
A
AU
Poisson-Verteilung Poi(λ) Normalverteilung
k
P (X = k) = e−λ λk! (siehe Abschnitt II.5)
Binomialapproximation
N, K → ∞, KN
→π
?
Binomialverteilung Bin(n, π)
n
π k (1 − π)n−k
P (X = k) = k
II.3 Erwartungswert und Varianz 47
II.3.1 Erwartungswert
Der Erwartungswert E[X] einer Zufallsvariablen X wird deniert als der Mittelwert
X
E[X] := X(ω)p(ω) (II.17)
ω∈Ω
konvergiert, und man sagt in diesem Fall, dass der Erwartungswert E[X] von X existiert.
Beispiel.
X sei die Augenzahl beim Würfeln eines fairen Würfels. Dann gilt
1 1 1 1 1 1 7
E[X] = 1 · +2· +3· +4· +5· +6· = .
6 6 6 6 6 6 2
Der Erwartungswert stimmt also in diesem Falle mit dem arithmetischen Mittel der Funkti-
onswerte überein.
X X X
E[X] = X(ω)p(ω) = X(ω)p(ω)
ω∈Ω k ω∈Ω : X(ω)=xk
X X
= xk P (X = xk ) = xk pX (xk ) .
k k
Insbesondere gilt also, dass der Erwartungswert einer Zufallsvariablen X nur von ihrer
Verteilung pX abhängt!
=⇒ E[X] ≥ 0 .
• Monotonie: X ≤ Y (d.h. Y − X ≥ 0)
=⇒ E[X] ≤ E[Y ] .
• Ist X konstant, also X=c für eine Konstante c (d.h. X(ω) = c für alle ω ∈ Ω), so folgt
E[X] = c .
48 II WAHRSCHEINLICHKEITSRECHNUNG
Da Sn binomialverteilt ist mit Parameter n und π , folgt insbesondere: Für den Erwartungswert
einer binomialverteilten Zufallsvariablen Sn mit Parametern n und π gilt:
E[Sn ] = nπ .
= e0 (1 − π) + eα1 π = (1 − π) + πeα ,
also
E eαXi = (1 − π) + πeα
für i = 1, . . . , n
ist. Damit folgt wegen der Unabhängigkeitsannahme, dass
h Pn i
E eαSn = E eα i=1 Xi = E eαX1 eαX2 . . . eαXn
Beispiel: Poisson-Verteilung.
Ist X Poi(λ)-verteilt, so folgt
∞ ∞
X X λk
E[X] = kP (X = k) = ke−λ
k!
k=0 k=0
∞ ∞
X λ λk−1 X λk
= e−λ = λe−λ = λ.
(k − 1)! k!
k=1 k=0
∞ ∞
X X λk
E eαX = eαk P (X = k) = eαk e−λ
k!
k=0 k=0
∞
X (eα λ)k αλ α)
= e−λ = e−λ ee = e−λ(1−e .
k!
k=0
II.3 Erwartungswert und Varianz 49
II.3.2 Varianz
Ein Maÿ für die Streuung der Funktionswerte X(ω) um ihren Erwartungswert E[X] ist die
mittlere quadratische Abweichung
h i X
V [X] := E (X − E[X])2 = (X(ω) − E[X])2 p(ω) . (II.19)
ω∈Ω
Beispiel: X sei die Augenzahl beim Würfeln eines fairen Würfels. Dann folgt
7 2 1 7 2 1 7 2 1
35
V [X] = 1 − · + 2− · + ... + 6 − · = .
2 6 2 6 2 6 12
• X, Y unabhängig ⇒ V [X + Y ] = V [X] + V [Y ].
Begründung:
V [X + Y ] = E (X + Y )2 − (E[X + Y ])2
so dass
V [Sn ] = nπ(1 − π) .
Da Sn binomialverteilt ist mit Parameter n und π, folgt insbesondere: Für die Varianz einer
binomialverteilten Zufallsvariablen Sn mit Parameter n und π gilt
V [Sn ] = nπ(1 − π) .
Beispiel: Poisson-Verteilung.
∞ ∞
X X λk
E[X 2 ] = k 2 P (X = k) = k 2 e−λ
k!
k=0 k=1
∞
X λ · λk−1
= (k − 1 + 1)e−λ
(k − 1)!
k=1
∞ ∞
X
−λ λk−1 X λk−1
=λ (k − 1)e +λ e−λ
(k − 1)! (k − 1)!
k=1 k=1
∞
X λk
=λ ke−λ + λ = λ2 + λ ,
k!
k=0
also
E[X] V [X]
X ∼ Bernoulli(π) π π(1 − π)
X ∼ Bin(n, π) nπ nπ(1 − π)
1 1−π
X ∼ Geom(π)
π π2
X ∼ Poi(λ) λ λ
K N −n
X ∼ H(n, N, K) nK
N nK
N (1 − N ) N −1
II.3 Erwartungswert und Varianz 51
In Abschnitt II.3.1 hatten wir den Erwartungswert µ einer Zufallsvariablen X als ein mit
Wahrscheinlichkeiten gewichtetes Mittel deniert, welches die Lage einer Verteilung cha-
rakterisiert. Die Varianz σ2, als mittlere quadratische Abweichung um den Erwartungswert,
haben wir in Abschnitt II.3.2 als ein Streuungsmaÿ kennengelernt, welches im genannten
Sinne quantiziert, wie stark die Realisationen einer Zufallsvariable vom Erwartungswert ab-
weichen können. Wir fragen uns nun: Bei gegebenen Wert σ2, mit welcher Wahrscheinlichkeit
wird man ein gewisses Ausmaÿ von Abweichung vom Erwartungswert µ beobachten? In der
Praxis betrachtet man im Zusammenhang mit dieser Frage gerne sog. k -σ -Bereiche, siehe
etwa folgendes Beispiel eines 2-σ -Bereichs (µ =5 und σ = 3):
0.2 E@X D =5
V@X D =9, d.h. Σ=3
0.15
2-Σ-Bereich
0.1
0.05
x
0 5 10 15 20
Mit welcher Wahrscheinlichkeit wird man Beobachtungen erhalten, die um mindestens das
k -fache der Standardabweichung σ von µ abweichen (oben grau markiert), d. h.
P |X − µ| ≥ k · σ =? (II.20)
Es sei X eine Zufallsvariable, für die der Erwartungswert von X2 existiert, es sei E[X] = µ
und V [X] = σ 2 . Dann gilt für alle k > 0, dass
1
P |X − µ| ≥ k · σ ≤ . (II.21)
k2
Y ist eine diskrete Zufallsvariable mit den zwei möglichen Werten 0 und k2 σ2 . Ihren Erwar-
tungswert errechnen wir somit gemäÿ Abschnitt II.3.1 zu
E[Y ] = 0 · P (Y = 0) + k 2 σ 2 · P (Y = k 2 σ 2 ) = 0 + k 2 σ 2 · P |X − µ| ≥ k · σ .
Ferner wurde Y so deniert, dass stets Y ≤ (X − µ)2 ist, vgl. folgende Abbildung:
1
Die Ungleichung ist nach dem russischen Mathematiker Pafnuti Tschebyschow benannt. Dessen Nach-
name wird oft auch als Tschebyschew, Tschebysche, Tschebyshev oder Chebyshev (Letzteres vor allem im
Englischen) transkribiert.
52 II WAHRSCHEINLICHKEITSRECHNUNG
HX - ΜL2
Y
k 2 Σ2
X- Μ
-k Σ 0 kΣ
k 2 σ 2 · P |X − µ| ≥ k · σ ≤ σ2,
√ √ 1
• P µ− 2σ ≤ X ≤ µ + 2σ ≥ 2 = 0, 5,
3
• P (µ − 2σ ≤ X ≤ µ + 2σ) ≥ 4 = 0, 75,
8
• P (µ − 3σ ≤ X ≤ µ + 3σ) ≥ 9 = 0, 889 (gerundet).
Bemerkung. Abgesehen von der Forderung nach Existenz von Erwartungswert und Vari-
anz stellt die Ungleichung von Tschebyschow keinerlei weitere Bedingungen an die Verteilung
von X , d. h. sie ist eine in diesem Sinne allgemeingültige Gesetzmäÿigkeit! Andererseits liefert
sie auf Grund ihrer Allgemeingültigkeit auch nur eine grobe Abschätzung der Wahrscheinlich-
keit (II.20). Kennt man neben Erwartungswert und Varianz sogar die komplette Verteilung
von X, dann kann man die Wahrscheinlichkeit (II.20) natürlich exakt berechnen, siehe etwa
Abschnitt II.4.6 für den Fall einer normalverteilten Zufallsvariable.
Sind X und Y zwei Zufallsvariablen, deren Varianzen existieren, so ist die Kovarianz
Cov[X, Y ] := E X − E[X] Y − E[Y ]
wohldeniert. Sie ist das Analogon zur empirischen Kovarianz einer zweidimensionalen Mess-
reihe, siehe Abschnitt I.3.3. Die Gröÿe
Cov[X, Y ]
ρXY := Corr[X, Y ] := p p
V [X] V [Y ]
II.3 Erwartungswert und Varianz 53
Die Kovarianz hängt nur von der gemeinsamen Verteilung pXY der Zufallsvariablen X
und Y unter P ab. Hierunter versteht man die diskrete Wahrscheinlichkeitsverteilung zur
Wahrscheinlichkeitsfunktion
Im Folgenden betrachten wir nur den für die Anwendungen enorm wichtigen Fall stetig ver-
teilter Zufallsvariablen X.
Z b
P (X ≤ b) = f (x) dx für alle b ∈ R. (II.22)
−∞
Für eine mit Dichte f stetig verteilte Zufallsvariable X wird also die Wahrscheinlichkeit der
Ereignisse
{ω | X(ω) ≤ b}
durch die folgende, schraerte Fläche angegeben:
2.0
1.5
1.0
f(x)
0.5
0.0
−2 −1 0 1 2
die Verteilungsfunktion von X, vgl. Abschnitt II.2.2. Sie besitzt genau dieselben Eigen-
schaften wie im diskreten Fall, d.h.
Ist X stetig verteilt mit Verteilungsfunktion F und ist q ∈ (0; 1), so heiÿt jede Zahl xq ∈ R
mit
F (xq ) = q
q -Quantil der Verteilung von X , vgl. Abschnitt I.2.4. Ist F streng monoton steigend, d.h.,
F (x) < F (y) für alle x < y , so ist xq = F −1 (q) eindeutig bestimmt durch den Wert der
Umkehrfunktion F
−1 von F in q .
Mit Hilfe von (II.22) können wir dann auch sofort die Wahrscheinlichkeit des Ereignisses
{ω | a < X(ω) ≤ b} berechnen, denn
P (X = x) = 0 für alle x ∈ R,
d.h. X nimmt einen bestimmten Wert x nur mit Wahrscheinlichkeit 0 an. Dies ist ein fun-
damentaler Unterschied zu diskreten Zufallsvariablen. Damit gilt insbesondere
Der Begri der stochastischen Unabhängigkeit aus Abschnitt II.2.3 lässt sich unmittelbar auf
stetig verteilte Zufallsvariablen übertragen. Zwei (stetig verteilte) Zufallsvariablen X und Y
heiÿen stochastisch unabhängig, falls
P (X ≤ x , Y ≤ y) = P (X ≤ x) · P (Y ≤ y) für alle x, y ∈ R ,
für alle x1 , x2 , . . . , xn ∈ R.
Z +∞
E[X] := xf (x) dx .
−∞
Ist zusätzlich auch die Funktion (x − E[X])2 f (x) uneigentlich Riemann-integrierbar, so de-
niert man die Varianz V [X] durch
Z +∞
V [X] := (x − E[X])2 f (x) dx,
−∞
56 II WAHRSCHEINLICHKEITSRECHNUNG
Die Rechenregeln für Erwartungswerte und Varianz diskret verteilter Zufallsvariablen (siehe
Abschnitt II.3) übertragen sich unmittelbar auf den Fall stetig verteilter Zufallsvariablen. Der
Transformationssatz überträgt sich dabei wie folgt:
Ist h : R → R eine stückweise stetige Funktion, so gilt: Der Erwartungswert der Zufalls-
variablen h(X) existiert genau dann, wenn die Funktion |h(x)|f (x) uneigentlich Riemann-
integrierbar ist, und in diesem Fall ist
Z +∞
E [h(X)] = h(x)f (x) dx . (II.26)
−∞
P Verteilungsfunktion F (x) = P (X ≤ x)
Rx
F (x) = k:xk ≤x pX (xk ) F (x) = −∞ f (t) dt
Wahrscheinlichkeiten
P Rb
P (a ≤ X ≤ b) = k:a≤xk ≤b pX (xk ) P (a ≤ X ≤ b) = a f (x) dx
Erwartungswert
P R +∞
E[X] = k xk pX (xk ) E[X] = −∞ x · f (x) dx
Varianz
2 R +∞
(x − E[X])2 f (x) dx
P
V [X] = k (xk − E[X]) pX (xk ) V [X] = −∞
II.4 Stetige Verteilungen 57
Zwei Zufallsvariablen X und Y heiÿen gemeinsam stetig verteilt mit gemeinsamer ste-
tiger Dichte fXY , falls gilt:
Z a Z b
P (X ≤ a, Y ≤ b) = fXY (x, y) dy dx für alle a, b ∈ R,
−∞ −∞
Die Berechnung der Kovarianz Cov[X, Y ] erfolgt dann über die gemeinsame Dichte mit Hilfe
der Formel
Z +∞ Z +∞
Cov[X, Y ] = (x − E[X])(y − E[Y ])fXY (x, y) dx dy .
−∞ −∞
Die Rechenregeln für die Kovarianzen für diskret verteilte Zufallsvariablen übertragen sich
Wort für Wort auf den gemeinsam stetig verteilten Fall.
Gleichverteilung
0
für x < a,
x−a
F (x) = für x ∈ [a; b],
b−a
1 für x > b.
b−a
P (X ∈ [a; b]) = P (a ≤ X ≤ b) = = 1.
b−a
Für Erwartungswert und Varianz einer auf [a; b] gleichverteilten Zufallsvariablen gilt
+∞ b
1 x2 b
Z Z
1 1
E[X] = xf (x) dx = dx = x
= (a + b),
−∞ a b−a 2b−a a 2
Z +∞ 2 Z b 2
1 1 1 1
V [X] = x − (a + b) f (x) dx = x − (a + b) dx = (b − a)2 .
−∞ 2 a 2 b−a 12
58 II WAHRSCHEINLICHKEITSRECHNUNG
Exponentialverteilung
eine Dichte. Die zugehörige Verteilung heiÿt Exponentialverteilung zum Parameter λ. Sie
wird mit Exp(λ) bezeichnet.
2.0 Exponentialverteilung
λ=2
1.5
1.0
f(x)
0.5
λ=1
0.0
0 1 2 3 4 5
(
0 für x < 0,
F (x) =
1 − e−λx für x ≥ 0.
Die Exponentialverteilung ist das stetige Analogon der geometrischen Verteilung, die ja die
Verteilung von Wartezeiten auf den ersten Erfolg in einer Folge von unabhängigen Bernoul-
li Experimenten beschreibt. Dementsprechend verwendet man die Exponentialverteilung zur
Modellierung von stetig verteilten Wartezeiten (Lebensdauern).
Z +∞
1
E[X] = λ xe−λx dx = ,
0 λ
Z +∞ 2
1 1
V [X] = λ x− e−λx dx = 2 .
0 λ λ
Normalverteilung
eine Dichte. Die zugehörige Verteilung heiÿt Normalverteilung mit Erwartungswert µ und
Varianz σ2. Sie wird mit N(µ, σ
2 ) bezeichnet. Im Falle µ=0 und σ2 = 1 spricht man von der
Standardnormalverteilung.
II.4 Stetige Verteilungen 59
Normalverteilung
0.8
σ = 0.5
0.6
0.4
f(x)
σ=1
0.2
σ=2
0.0
−4 −2 0 2 4
fµ,σ2 besitzt ein absolutes Maximum in x=µ und Wendepunkte in µ ± σ. Wegen ihrer Form
wird f auch als Gauÿsche Glockenkurve bezeichnet. σ bestimmt Breite und Höhe der
Glockenkurve.
Eine Zufallsvariable X mit Dichte fµ,σ2 heiÿt normalverteilt mit Erwartungswert µ und Vari-
2
anz σ , denn es gilt
Z +∞ 2
1 1 (x−µ)
E[X] = √ xe− 2 σ2 dx = µ,
2πσ −∞
Z +∞ 2
1 1 (x−µ)
V [X] = √ (x − µ)2 e− 2 σ2 dx = σ 2 .
2πσ −∞
Aufgrund der Symmetrie der Dichte fµ,σ2 bzgl. µ stimmt der Median von N(µ, σ
2 ) mit dem
Erwartungswert µ überein.
Standardnormalverteilung
also
Φ(−x) = 1 − Φ(x) für alle x ∈ R, (II.27)
woraus sich dann auch die Werte Φ(x) für x≤0 berechnen lassen.
zq = −z1−q .
X −µ
Y =
σ
60 II WAHRSCHEINLICHKEITSRECHNUNG
eine N(0, 1)-verteilte, also standardnormalverteilte, Zufallsvariable. Man kann also die Berech-
nung der Wahrscheinlichkeiten P (X ≤ b) zurückfü hren auf die Berechnung entsprechender
Wahrscheinlichkeiten einer standardnormalverteilten Zufallsvariablen
X −µ b−µ b−µ
P (X ≤ b) = P ≤ =P Y ≤ . (II.28)
σ σ σ
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Y ≤
σ σ
(II.29)
b−µ a−µ
=Φ −Φ .
σ σ
Linearität
Ist X N(µ, σ
2 )-verteilt, und sind a, b ∈ R mit a 6= 0, so ist a·X +b N(a · µ + b, a
2 σ 2 )-verteilt.
Additivität
Anwendung: k -σ -Bereiche.
In Abschnitt II.3.3 hatten wir die Ungleichung von Tschebychev kennengelernt, um Wahr-
scheinlichkeiten der Form P (µ − kσ ≤ X ≤ µ + kσ) abzuschätzen. Für normalverteilte Zu-
fallsvariablen erhält man präzisere Abschätzungen für die k -σ -Bereiche: Ist X ∼ N(µ, σ
2 )-
verteilt, so folgt
X −µ
P (µ − kσ ≤ X ≤ µ + kσ) = P ≤k = 2Φ(k) − 1,
σ
• P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.9545,
• P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.9973.
Eine weitere wichtige Anwendung der Normalverteilung in der Statistik werden wir in Ab-
schnitt III.1.3 diskutieren: Kondenzintervalle.
II.4 Stetige Verteilungen 61
Zum Abschluss dieses Abschnitts werden noch einige weitere stetige Verteilungen eingeführt,
welche für die induktive Statistik wichtig sind.
χ2 -Verteilung
Es seien X1 , . . . , Xn unabhängig N(0, 1)-verteilte Zufallsvariablen. Dann heiÿt die Verteilung
der Zufallsvariablen
Zn = X12 + . . . + Xn2
χ2n -Verteilung (oder χ2 -Verteilung mit n Freiheitsgraden).
Aus den Rechenregeln für Erwartungswert und Varianz folgt sofort
Für wachsendes n nähern sich die Dichten gn der Gauÿschen Glockenkurve an, siehe Ab-
schnitt II.5.3, weshalb man ab n > 30 eine Normalapproximation wählt.
χ2−Verteilung
0.30
n=1
0.25
n=3
0.20
n=6
0.15
f(x)
0.10
0.05
0.00
0 2 4 6 8 10 12
1 √ 2
χ2n;q ≈ zq + 2n − 1 ,
2
siehe [1] (Seite 303).
√ 1
√ 2
n χ2n;0.95 n+ 2n · z0.95 2 z0.95 + 2n − 1
5 11.07050 10.20148 10.78733
15 24.99579 24.00923 24.71058
30 43.77297 42.74098 43.48713
40 55.75848 54.71202 55.47255
50 67.50481 66.44854 67.21886
100 124.3421 123.2617 124.0563
62 II WAHRSCHEINLICHKEITSRECHNUNG
t-Verteilung
Es seien X und Zn unabhängige Zufallsvariablen, X sei N(0, 1)-verteilt und Zn sei χ2n -verteilt.
Dann heiÿt die Verteilung der Zufallsvariablen
X
Tn := p
Zn /n
n+1
− n+1
x2
Γ 1 2
hn (x) = n
2 1
√ 1+ .
Γ 2 Γ 2 n n
Die Dichte hn hat eine ähnliche Form wie die Gauÿsche Glockenkurve, jedoch für kleine n
breitere Enden (heavy tails) als die Standardnormalverteilung. Für n ≥ 30 ist jedoch eine
Approximation durch die Standardnormalverteilung bereits sehr gut.
t−Verteilung
0.5
n=2
n=20
0.4
0.3
f(x)
0.2
0.1
0.0
−4 −2 0 2 4
Wie für die Quantile der Standardnormalverteilung gilt auch für die Quantile tn;q der tn -
Verteilung
tn;q = −tn;1−q .
• X und
2
SX sind unabhängig voneinander;
• X ist N(µ, σ
2 /n)-verteilt;
2 /σ 2
• (n − 1) · SX ist χ2n−1 -verteilt;
√
• n · (X − µ)/SX ist tn−1 -verteilt.
II.4 Stetige Verteilungen 63
F -Verteilung (Fisher-Verteilung)
Es seien Zm und Z̃n unabhängig, Zm χ2m -verteilt, Z̃n χ2n -verteilt. Dann heiÿt die Verteilung
der Zufallsvariablen
Zm,n := (Zm /m) Z̃n /n
(
Γ((m+n)/2) m/2 nn/2 xm/2−1 (n + mx)−(m+n)/2
fm,n (x) = Γ(m/2)Γ(n/2) m für x > 0,
0 sonst.
2.0
n=100
0.8
1.5
n=10
0.6
f(x)
f(x)
1.0
n=2 n=100
0.4
n=10
0.5
n=2
0.2
0.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
x x
1
Fm,n;q = ,
Fn,m;1−q
denn !
Zm . Z̃n
q = P (Zm,n ≤ Fm,n;q ) = P ≤ Fm,n;q
m n
! !
Z̃n . Zm 1 Z̃n . Zm 1
=P ≥ =1−P ≤ .
n m Fm,n;q n m Fm,n;q
E[X] V [X]
a+b (b−a)2
X gleichverteilt
2 12
auf [a; b]
1 1
X ∼ Exp(λ) λ λ2
X ∼ N(µ, σ 2 ) µ σ2
X ∼ χ2n n 2n
n
X ∼ tn 0 n−2 für n ≥ 3
n 2n2 (n+m−2)
X ∼ Fm,n n−2 für n≥3 m(n−4)(n−2)2
für n ≥5
64 II WAHRSCHEINLICHKEITSRECHNUNG
II.5 Grenzwertsätze
II.5.1 Das Gesetz der groÿen Zahlen
Werfen wir eine faire Münze n mal und setzen wir Xk = 1 (bzw. Xk = 0) falls beim k -ten
Münzwurf Kopf (bzw. Zahl) oben liegt, so nähert sich die relative Häugkeit für Kopf,
n
1X
Xk ,
n
k=1
1
für wachsendes
Pn n immer stärker der Wahrscheinlichkeit für Kopf, nämlich
2 . Man bezeichnet
1
n k=1 Xk auch als empirisches Mittel. In der folgenden Grak ist als Illustration die Folge
der empirischen Mittel für insgesamt 1000 (simulierte) Münzwürfe aufgetragen.
0.2
0.0
Diese Beobachtung gilt ganz allgemein für die relativen Häugkeiten eines beliebigen Ereig-
nisses bzw. das empirische Mittel in einer unabhängigen Wiederholung ein und desselben
Zufallsexperimentes. Sie wird als Gesetz der groÿen Zahlen bezeichnet.
Bemerkung:
Die obige Aussage zur Asymptotik der relativen Häugkeiten eines Ereignisses A leitet sich
aus dem Satz wie folgt ab: Es sei
(
1 falls A in der k -ten Wiederholung eintritt,
Xk :=
0 sonst.
Dann sind die X1 , X2 , . . . eine Folge unabhängig Bernoulli-verteilter Zufallsvariablen mit Para-
π := P (A) = E[Xk ]. Für die relativen Häugkeiten rn (A) := n1 nk=1 Xk des Ereignisses
P
meter
A in n Wiederholungen gilt dann die Aussage des Gesetzes der groÿen Zahlen:
n
1X
X n := Xk .
n
k=1
Da E[Xk ] = µ für alle k , folgt aus der Linearität des Erwartungswertes (vgl. Abschnitt II.3.1),
dass " n n
#
1X 1X
E[X n ] = E Xk = E[Xk ] = µ .
n n
k=1 k=1
Die Zufallsvariablen X1 , . . . , Xn sind nach Annahme unabhängig, also besagt die Identität von
Bienaymé (vgl. Abschnitt II.3.2), dass
n n
" #
1X 1 X 1 σ2
V [X n ] = V Xk = 2 V [Xk ] = 2 nσ 2 = .
n n n n
k=1 k=1
Die Tschebyschowsche Ungleichung aus Abschnitt II.3.3, angewandt auf X n, ergibt die Ab-
schätzung
V [X n ] σ2
P Xn − µ ≥ ε = P X n − E[X n ] ≥ ε ≤ = .
ε2 ε2 n
σ2
Da
ε2 n
→0 für n → ∞, folgt schlieÿlich auch
lim P Xn − µ ≥ ε = 0 .
n→∞
1
Fn (x) := · i ∈ {1, . . . , n} | Xi ≤ x
n
= relative Häugkeit rn (A) des Ereignisses A = {X ≤ x} ,
lim P sup |Fn (x) − F (x)| ≥ ε = 0 für alle ε > 0,
n→∞ x∈R
√ Xn − µ
FSn∗ (x) := P (Sn∗ ≤ x) = P n ≤x
σ
punktweise für alle x gegen die Verteilungsfunktion der Standardnormalverteilung konvergie-
ren, d.h. es gilt:
Z x
1 t2
lim FSn∗ (x) = √ e− 2 dt = Φ(x) für alle x ∈ R.
n→∞ 2π −∞
Man sagt auch, dass die standardisierten Summen asymptotisch normalverteilt sind und
bezeichnet die Aussage als zentralen Grenzwertsatz .
Die Bedeutung des zentralen Grenzwertsatzes für die induktive Statistik besteht vor allem dar-
in, dass man aufgrund der Aussage dieses Satzes die Verteilung einer standardisierten Summe
Sn∗ von unabhängig und identisch verteilten Zufallsvariablen (in der induktiven Statistik: die
Stichprobenvariablen) mit wachsendem n (in der induktiven Statistik: mit wachsender Stich-
probenlänge) zunehmend besser durch eine Standardnormalverteilung approximieren kann.
Diese Approximation heiÿt Normalapproximation. Insbesondere impliziert dies, dass die
in Abschnitt II.4.6 getroenen Aussagen zu Kondenzintervallen, welche ja exakt nur für
normalverteilte Stichproben gelten, in guter Näherung auch ganz allgemein gelten, wenn n
ausreichend groÿ ist (gängige Faustregel: n ≥ 30, siehe etwa [10]).
Man kann den zentralen Grenzwertsatz insbesondere auf die n-fache unabhängige Wiederho-
lung ein und desselben Bernoulli-Experimentes anwenden. Ist A ein Ereignis mit Wahrschein-
lichkeit π := P (A) und
(
1 falls A in der k -ten Wiederholung eintritt,
Xk :=
0 sonst,
Sn − nπ √ Xn − π
Sn∗ = p = np
nπ(1 − π) π(1 − π)
folgt dann aus dem zentralen Grenzwertsatz, dass diese asymptotisch normalverteilt sind, d.h.
Diese Aussage wird als Satz von de Moivre-Laplace bezeichnet, und er impliziert, die Bino-
mialverteilung Bin(n, π) für groÿe n durch die Normalverteilung zu approximieren (Normal-
approximation). Eine gängige Faustregel besagt, dass diese Normalapproximation dann aus-
reichend gut ist, wenn V [Sn ] = nπ(1 − π) > 9 erfüllt ist.
II.5 Grenzwertsätze 67
Bemerkung: In der Literatur wird häug eine Stetigkeitskorrektur zur Verbesserung der
Normalapproximation der Binomialverteilung vorgeschlagen, d. h. statt
!
k − nπ
P (Sn ≤ k) ≈ Φ p
nπ(1 − π)
approximiert man !
k − nπ + 0.5
P (Sn ≤ k) ≈ Φ p .
nπ(1 − π)
Zum Abschluss des Kapitels die beiden Approximationen der Binomialverteilung im Überblick:
Binomialverteilung Bin(n, π)
n
π k (1 − π)n−k
P (X = k) = k
A
A
A
Poisson-Approximation A Normalapproximation für
nπn → λ
√Sn −nπ , π konstant, n → ∞
A
A nπ(1−π)
A
AU
Poisson-Verteilung Poi(λ) Normalverteilung N(0, 1)
k
P (X = k) = e−λ λk! P (X ≤ x) = Φ(x)
68 III INDUKTIVE STATISTIK
III.1 Schätzen
III.1.1 Punktschätzer
X1 , X2 , . . . , Xn
Unter dem Stichprobenergebnis oder der Stichprobenrealisation versteht man dann das
n-Tupel (x1 , . . . , xn ) der Realisierung von (X1 , . . . , Xn ).
Eine Punktschätzung ist eine Funktion g : Rn → R. Sie ordnet der Stichprobenrealisation
x1 , . . . , x n den Schätzwert g(x1 , . . . , xn ) zu.
Der zugehörige Schätzer (auch: Schätzfunktion, Statistik) g(X1 , . . . , Xn ) ist diejenige Zu-
fallsvariable, die man durch Einsetzen der Stichprobenvariablen Xi für xi in die Funktion g
erhält.
1 Pn σ2
X= n i=1 Xi Stichprobenmittel µ n
√ X−µ
n· σ Gauÿ-Statistik 0 1
1 Pn n−1
n i=1 (Xi − X)2 mittlere quadratische
n · σ2
Abweichung
1 Pn
S2 = n−1 i=1 (Xi − X)2 Stichprobenvarianz σ2
√ √ X−µ
für die Stichprobenstandardabweichung S = S2 und die t-Statistik n· S liegen keine
einfachen, geschlossenen Ausdrücke für Erwartungswert und Varianz vor.
III.1 Schätzen 69
Im Folgenden wollen wir annehmen, dass die (unbekannte) Verteilung der Stichprobenva-
riablen aus einer Menge möglicher Verteilungen stammt, die über einen Parameter θ ∈Θ
parametrisiert sind.
Beispiel: Die Xi seien N(µ, σ 2 )-verteilt mit unbekanntem Erwartungswert µ und unbekann-
2
ter Varianz σ . In diesem Falle ist also θ = (µ, σ )
2 > aus Θ = R × (0; ∞) eine (mögliche)
Ist nun T = g(X1 , . . . Xn ) ein Schätzer, so wird der Erwartungswert E[T ] abhängen von der
Verteilung der Zufallsvariablen Xi . Um diese Abhängigkeit im Folgenden kenntlich zu machen,
schreiben wir Eθ [T ] für E[T ], wenn die zu θ gehörende Verteilung die tatsächliche Verteilung
der Xi ist.
Ein einzelner, zu Schätzender Parameter aus der Menge der zugrundeliegenden Verteilungen
kann nun realisiert werden als Abbildung
τ: Θ → R,
d.h. τ (θ) ist der wahre Parameterwert, falls die zugrundeliegende Verteilung durch den Wert θ
bestimmt ist.
Erwartungstreue
Eθ [T ] = Eθ [g(X1 , . . . , Xn )] = τ (θ)
für jedes θ ∈ Θ.
Mit anderen Worten: Bestimmt man den Erwartungswert von T unter der Voraussetzung,
dass der Parameter θ zugrundeliegt, ergibt sich τ (θ) als Erwartungswert.
n
1X
Eθ [X] = Eθ [Xi ] = µ .
n
i=1
n
1X 2
T = Xi − X
n
i=1
σ 2 = Vθ [X] = Eθ (X − Eθ [X])2 ,
ist kein erwartungstreuer Schätzer für die Varianz
denn
n h i n−1
1 X 2
2
Eθ [T ] = Eθ [Xi2 ] − 2Eθ [Xi X] + Eθ [X ] = Eθ [X12 ] − Eθ X = · σ2 ,
n n
i=1
denn
n
h i
2 1 X n−1 1
Eθ X = 2 Eθ [Xi Xj ] = · Eθ [X]2 + · Eθ [X 2 ] .
n n n
i,j=1
n
Im Gegensatz hierzu ist die Stichprobenvarianz S2 = n−1 ·T ein erwartungstreuer Schät-
zer für σ2, denn
n
Eθ S 2 = · Eθ [T ] = σ 2 .
n−1
70 III INDUKTIVE STATISTIK
für jedes θ ∈ Θ.
n
1X 2
Tn = Xi − X
n
i=1
1
Eθ [Tn ] = 1− · Vθ [X] −→ Vθ [X] .
n n→∞
Biasθ [T ] := Eθ [T ] − τ (θ)
als Verzerrung (oder Bias), ein erwartungstreuer Schätzer heiÿt auch unverzerrt.
M SE[T ] := Eθ (T − τ (θ))2
ist ein Maÿ für die Schätzgüte. M SE steht dabei für mean squared error.
d.h. der M SE kann als eine Art übergeordnetes Gütemaÿ verstanden werden, welches Aus-
kunft gibt sowohl über die Streuung des Schätzers als auch über dessen Verzerrung.
Beweis:
Es sei T1 , T2 , . . . wieder eine Folge von Schätzern für τ (θ). Dann heiÿt diese Folge
Aufgrund der Ungleichung von Tschebyschow aus Abschnitt II.3.3 ist klar, dass aus Konsistenz
im quadratischen Mittel immer schwache Konsistenz folgt. Im Fall Eθ [Tn ] = τ (θ) sieht man
das sofort, da
1
· Eθ (Tn − τ (θ))2 → 0
Pθ (|Tn − τ (θ)| ≥ ε) ≤ 2
für n → ∞.
ε
1 Pn
Beispiel: Das Stichprobenmittel X = n i=1 Xi ist konsistent im quadratischen Mittel für
den Erwartungswert µ = Eθ [X] (und damit auch schwach konsistent), denn
1
Eθ [(X − µ)2 ] = · Vθ [X] → 0 für n → ∞.
n
Analog ist die Stichprobenvarianz S2 schwach konsistent für die Varianz σ2.
Der mittlere quadratische Fehler eines Schätzers liefert ein Vergleichskriterium zwischen den
verschiedenen Schätzern für τ. Von zwei Schätzern T1 , T2 mit
M SE[T1 ] ≤ M SE[T2 ]
nennen wir den Schätzer T1 mit dem kleineren mittleren quadratischen Fehler wirksamer für
die Schätzung von τ (θ) als T2 .
Beschränkt man sich beim Vergleich zweier Schätzer auf erwartungstreue Schätzer, also Schät-
zer mit
Bias[Ti ] = 0 und damit M SE[Ti ] = V [Ti ] ,
so reduziert sich der Vergleich der mittleren quadratischen Fehler auf den Vergleich der Vari-
anzen.
Sind T1 , T2 zwei erwartungstreue Schätzer für τ (θ), so heiÿt T1 ezienter (bzw. wirksamer)
als T2 , falls
V [T1 ] ≤ V [T2 ].
Beispiel:
1 Pn
X= n i=1 Xi ist ein ezienter Schätzer für den Erwartungswert, wenn man
Maximum-Likelihood-Schätzer
f (x1 , . . . , xn | θ) = Pθ (X1 = x1 , . . . , Xn = xn )
Der Einfachheit halber betrachten wir im Folgenden nur unabhängig und identisch verteilte
Stichprobenvariablen. Dann bekommt die Likelihood-Funktion die Produktgestalt
Sind die Stichprobenvariablen zu θ ∈ Θ stetig verteilt mit Dichte f (x | θ), so ersetzt man
in der Likelihood-Funktion (III.1) die Wahrscheinlichkeitsfunktion der Verteilung durch die
entsprechende Dichte.
Bemerkung: über Existenz (und Eindeutigkeit) des Maximums der Likelihood-Funktion wird
hier keine Aussage gemacht! Insbesondere muss i. Allg. der Maximum-Likelihood-Schätzer
nicht existieren, oder er muss nicht eindeutig bestimmt sein.
n
X
`(θ) := ln L(θ) = ln f (xi | θ), (III.2)
i=1
Beispiel: Bernoulli-Kette.
sn = x1 + . . . + xn
sei die beobachtete Anzahl der Erfolge. Die (Log-)Likelihood-Funktion hat die Form
sn 1
Insbesondere: Die Maximum-Likelihood-Schätzung π̂ = n = n (x1 + . . . + xn ) ist gerade
das Stichprobenmittel!
Beispiel: Normalverteilung.
n
n !
1 X (xi − µ)2
1
L(µ, σ) = Πni=1 fµ,σ2 (xi ) = √ exp − .
2πσ 2 σ2
i=1
Logarithmieren ergibt
√ n
1X (xi − µ)2
`(µ, σ) = ln L(µ, σ) = −n ln 2πσ − ,
2 σ2
i=1
n n
∂ X xi − µ ∂ n X (xi − µ)2
`(µ, σ) = , `(µ, σ) = − + .
∂µ σ2 ∂σ σ σ3
i=1 i=1
n n
1X 1X
µ̂ = xi = x̄ und σ̂ 2 = (xi − µ̂)2 . (III.3)
n n
i=1 i=1
Hier hat man schlieÿlich noch zu überprüfen, dass (III.3) tatsächlich (eindeutig bestimmtes)
Maximum der Likelihood-Funktion ist.
Tabelle: Maximum-Likelihood-Schätzer.
Likelihood-Funktion ML-Schätzer
Xi ∼ Bernoulli(π) L(π) = π sn · (1 − π)n−sn π̂ = X̄
π ∈ [0; 1] unbekannt
Xi ∼ Geom(π) L(π) = (1 − π)sn −n · π n π̂ = 1
X̄
π ∈ (0; 1] unbekannt
Qn
Xi ∼ Poi(λ) L(λ) = e−nλ λsn 1
i=1 xi ! λ̂ = X̄
λ > 0 unbekannt n
(xi −µ)2
2) √1 exp − 12 ni=1
P
Xi ∼ N(µ, σ L(µ, σ) = 2πσ σ2
µ̂ = X̄
Pn
µ∈ R, σ 2
> 0 unbek. σ̂ 2 = n1 i=1 (Xi − X̄)2
Xi ∼ Exp(λ) L(λ) = λn e−λsn λ̂ = X̄1
λ > 0 unbekannt
74 III INDUKTIVE STATISTIK
Kleinste-Quadrate-Schätzung
Ein weiteres Prinzip der ParameterSchätzung besteht in der Minimierung der Summe der
quadratischen Abweichungen zwischen Beobachtungswerten und zu Schätzendem Wert. Dieses
Prinzip haben wir bereits bei der Regression in Abschnitt I.3.4 kennengelernt.
III.1.3 Intervall-Schätzungen
Es liege noch keine Realisation vor, die Zufalls variablen X1 , . . . , Xn seien noch nicht beobach-
tet. Dann denieren wir ein Intervall so, dass der wahre Parameter τ (θ) mit Wahrscheinlichkeit
1−α darin liegen wird, also:
Pθ τ (θ) ∈ [U (X1 , . . . , Xn ); O(X1 , . . . , Xn )] ≥ 1 − α für alle θ ∈ Θ.
Beispiel: für 100 simulierte Datensätze der Gröÿe 40, wobei alle Stichprobenvariablen unab-
hängig und N(1, 1)-verteilt sind, wurde jeweils ein Kondenzintervall für den unbekannten
Erwartungswert µ gemäÿ Formel (III.5) (siehe unten) zum Kondenzniveau 95 % berechnet.
Die grasche Darstellung,
2.5
Μ=1, Treffer: 94
2.0
1.5
1.0
0.5
0.0
20 40 60 80 100
zeigt, dass im konkreten Fall 94 % der Kondenzintervalle den wahren Wert µ = 1 überdecken.
III.1 Schätzen 75
n
1X
x= xi .
n
i=1
√ X −µ
Y = n· N(0, 1)-verteilt. (III.4)
σ0
Pθ −z1− α2 ≤ Y ≤ z1− α2 = 1 − α ,
σ0 σ0
I(X1 , . . . , Xn ) = X − z1− α2 √ ; X + z1− α2 √ .
n n
Bei unbekannter Varianz σ2 muss diese erst anhand der Stichprobe x1 , . . . , x n geSchätzt
werden. Dafür bietet sich die Stichprobenvarianz an,
n
2 1 X
s = (xi − x)2 ,
n−1
i=1
n
1 X
S2 = (Xi − X)2 .
n−1
i=1
76 III INDUKTIVE STATISTIK
√ X −µ
n· ,
S
und diese ist gemäÿ Abschnitt II.4.7 tn−1 -verteilt. Zu gegebenem Kondenzniveau 1−α
ist also
√ X −µ
Pµ,σ −tn−1,1− α2 ≤ n · ≤ tn−1,1− α2 = 1 − α ,
S
wobei tn−1,q das q -Quantil der t-Verteilung mit n − 1-Freiheitsgraden bezeichnet. Das
zugehörige Kondenzintervall hat somit die Form
S S
I(X1 , . . . , Xn ) = X − tn−1,1− α2 √ ; X + tn−1,1− α2 √ . (III.5)
n n
n
1 X
s2 = (xi − x)2
n−1
i=1
mit zugehörigem Schätzer
n
1 X
S2 = (Xi − X)2 .
n−1
i=1
Xi −µ
Da X1 , . . . , Xn unabhängig N(µ, σ 2 )-verteilt sind, also die Yi = σ unabhängig N(0, 1)-
verteilt sind, folgt, dass
n 2 n
n−1 2
X Xi − X X
· S = = (Yi − Y )2
σ2 σ
i=1 i=1
χ2n−1 -verteilt ist, vgl. Abschnitt II.4.7. Zu gegebenem Kondenzniveau 1−α ist also
n−1
P χ2n−1, α ≤ · S 2 ≤ χ2n−1,1− α = 1 − α,
2 σ2 2
n−1
P χ2n−1, α ≤ · S 2
≤ χ 2
α
n−1,1− 2 = F 2
χn−1 χ 2
α
n−1,1− 2 − F 2
χn−1 χ 2
n−1, 2 = 1 − α .
α
2 σ2
Es ergibt sich als Kondenzintervall zum Kondenzniveau 1 − α somit
" #
(n − 1)S 2 (n − 1)S 2
I(X1 , . . . , Xn ) = ; .
χ2n−1,1− α χ2n−1, α
2 2
Bemerkung.
Ist die Normalverteilungsannahme an die Stichprobenvariablen X1 , . . . , Xn nicht gerechtfer-
tigt, so kann man unter Ausnutzung des zentralen Grenzwertsatzes (vgl. Abschnitt II.5.3) eine
√ X−µ
Normalapproximation für die standardisierte Summe n· σ betrachten.
III.1 Schätzen 77
X1 , . . . , Xn .
Sn − nπ √ X −π
Sn∗ := p = n· p
nπ(1 − π) π(1 − π)
P −z1− α2 ≤ Sn∗ ≤ z1− α2 ≈ 1 − α .
Hierbei bezeichnet zq wieder das q -Quantil der N(0, 1)-Verteilung. Auösen der Ungleichungen
√ X −π
−z1− α2 ≤ n· p ≤ z1− α2
π(1 − π)
nach π liefert r r
π(1 − π) π(1 − π)
X − z1− α2 ≤ π ≤ X + z1− α2 .
n n
Approximiert man ferner π(1 − π) durchX(1 − X), so ist
s s
X(1 − X) X(1 − X)
I(X1 , . . . , Xn ) = X − z1− α2 ; X + z1− α2
n n
Beispiel. In einem Warenposten mit Bauteilen soll der Anteil der defekten Bauteile geschätzt
werden. Dazu wird eine Stichprobe von 200 Bauteilen überprüft. Angenommen, es werden
dabei 6 defekte Bauteile gefunden, so ergibt sich für den Ausschussanteil bei Kondenzniveau
0.95, also α = 0.05, das approximative Kondenzintervall
[0.0064; 0.0536] .
Interpretation: Mit einer Sicherheit von etwa 95% liegt der tatsächliche Anteil der defekten
Bauteile im getesteten Warenposten zwischen 0.64 Prozent und 5.36 Prozent.
78 III INDUKTIVE STATISTIK
III.2 Testen
III.2.1 Grundlagen aus der Testtheorie
Ein zentrales Problem der Statistik ist die Frage, wie eine Vermutung über eine Eigenschaft
der Verteilung einer Grundgesamtheit anhand einer Stichprobe überprüft werden kann. Eine
solche Vermutung bezeichnet man als Nullhypothese H0 . Ein statistischer Test ist dann
zunächst einmal eine Entscheidungsregel
die als Funktion der n Beobachtungen x1 , . . . , xn die Hypothese H0 verwirft (falls ϕ(x1 , . . . , xn ) =
1) ϕ(x1 , . . . , xn ) = 0). Demnach ist ein Test durch seinen Verwer-
oder nicht verwirft (falls
fungsbereich (auch: kritischer Bereich), also durch die Menge
eindeutig bestimmt.
Beispiel.
Wir betrachten wieder das Beispiel der Lieferung der Bauteile. Als Vermutung über den Anteil
der defekten Bauteile soll die Nullhypothese
Es kann nun allerdings vorkommen, dass die Hypothese in Wahrheit zutrit, aber aufgrund
der getroenen Entscheidungsregel verworfen wird, da die beobachtete Anzahl sn der defekten
Bauteile die kritische Schranke übersteigt (Fehler 1. Art). Die Wahrscheinlichkeit für eine
solche fälschliche Ablehnung von H0 soll möglichst klein sein. Dazu gibt man sich ein Niveau
α vor (etwa α = 0.05) und bestimmt die kritische Schranke c so, dass die Wahrscheinlichkeit
für eine fälschliche Ablehnung der Hypothese maximal α ist.
Man könnte natürlich c so wählen, dass die Wahrscheinlichkeit eines Fehlers 1. Art Null ist
(einfach: Hypothese niemals ablehnen!). Dann wird der statistische Test aber sinnlos, da er
nicht mehr zwischen guter und schlechter Warenprobe unterscheidet. Deshalb wählt man
c minimal, um damit die Wahrscheinlichkeit dafür, die Nullhypothese zu verwerfen, wenn
sie tatsächlich nicht zutrit, zu maximieren. Diese Wahrscheinlichkeit nennt man die Macht
(engl.: power) oder Trennschärfe des statistischen Tests. Das zug. Komplementärereignis,
d.h. die Nullhypothese nicht abzulehnen, obwohl sie gar nicht zutrit, heiÿt Fehler 2. Art.
Entscheidung
für H0 gegen H0
H0 wahr richtig falsch
Fehler 1. Art
H0 falsch falsch richtig
Fehler 2. Art
Ein Signikanztest zum Signikanzniveau α , 0 < α < 1, ist ein statistischer Test zum
Niveau α, d.h. ein Test mit
P (Fehler 1. Art ) ≤ α.
Beispiel. Im obigen Beispiel geht man also wie folgt vor: Zu α wähle c minimal mit
Hierbei deutet der Index 0.1 an, dass S100 unter H0 im schlechtesten Fall gerade Bin(100, 0.1)-
verteilt ist. Die Normalapproximation für
ergibt
∗ c − 10 c − 10
P0.1 (S100 > c) = P0.1 S100 > ≈1−Φ .
3 3
Also ist c minimal zu wählen mit
c − 10
Φ = 1 − α, und das liefert c = 3z1−α + 10 .
3
Setzen wir etwa ein Niveau von 5 % an, so ist 3z1−α +10 ≈ 14.9, d.h. die Normalapproximation
führt zu folgender Entscheidungsregel:
tatsächlich erhält man unter Verwendung der exakten Bin (100, 0.1)-Verteilung jedoch, dass
P0.1 (S100 ≥ 15) ≈ 0.073 > 0.05 ist, d.h. das geforderte Niveau α = 0.05 wird nicht eingehalten.
Grund: Die Normalapproximation der Bin (100, 0.1)-Verteilung ist im betrachteten Beispiel
nicht ausreichend gut, vgl. auch die Faustregel in Abschnitt ??.
Unter Verwendung der exakten Bin (100, 0.1)-Verteilung folgt aber, dass P0.1 (S100 > 15) ≈
0.0399 ≤ 0.05 ist. Also sollte c = 15 gewählt werden.
p
c= nπ0 (1 − π0 ) · z1−α + nπ0 .
Pn
Die Hypothese ist zu verwerfen, falls die Stichprobensumme sn = i=1 xi gröÿer als c ist.
Die hierbei gemachte Normalapproximation ist für praktische Bedürfnisse als hinreichend zu
erachten, wenn nπ0 (1 − π0 ) > 9 gilt.
80 III INDUKTIVE STATISTIK
d.h., die Nullhypothese wird verworfen, wenn die Stichprobensumme kleiner cu oder gröÿer co
ist, oder in Gröÿen der standardisierten Summe
Sn − nπ0
Sn∗ = p ,
nπ0 (1 − π0 )
Annahme:
X1 , . . . , Xn unabhängig Bernoulli-verteilt, also Sn = X1 + . . . + Xn binomialverteilt.
Hypothese:
Sn − nπ0 √ X − π0
T (X1 , . . . , Xn ) = p = n· p ,
nπ0 (1 − π0 ) π0 (1 − π0 )
Will man die Annahme an die Verteilung der Stichprobenvariablen fallenlassen, muss man sich
im Allgemeinen auf das Testen einiger weniger Kennzahlen beschränken. Im Folgenden wol-
len wir einige grundlegende Testverfahren besprechen, eine umfassendere Methodensammlung
bietet [8].
III.2 Testen 81
III.2.2 Ein-Stichproben-Tests
Gauÿ-Test
Annahme:
X1 , . . . , Xn i.i.d. mit bekannter Varianz V [Xi ] = σ02 , und Xi ∼ N(µ, σ02 ).
Ist n ≥ 30, so kann Xi beliebig verteilt sein (vgl. Abschnitt II.5.3), aber mit E[Xi ] = µ.
Hypothese:
√ X − µ0
T (X1 , . . . , Xn ) = n· ,
σ0
welche (approximativ) N(0, 1)-verteilt ist, falls µ = µ0 , wobei
n
1X
X := Xi
n
i=1
t-Test
Test auf den Erwartungswert µ einer Verteilung bei unbekannter Varianz.
Annahme:
X1 , . . . , Xn i.i.d., und Xi ∼ N(µ, σ 2 ), σ 2 unbekannt.
Ist n ≥ 30, so kann Xi beliebig verteilt sein (vgl. Abschnitt II.5.3), aber mit E[Xi ] = µ.
Hypothese:
√ X − µ0
T (X1 , . . . , Xn ) = n· ,
S
welche (approximativ) tn−1 -verteilt ist, falls µ = µ0 , wobei
n
1 X
S2 = (Xi − X)2
n−1
i=1
Hypothese:
n−1
T (X1 , . . . , Xn ) = · S2,
σ02
(a) T < χ2n−1, α oder T > χ2n−1,1− α ; (b) T > χ2n−1,1−α ; (c) T < χ2n−1,α .
2 2
Anhand des Gauÿ-Tests lassen sich zwei weitere wichtige Begrisbildungen eines Signikanz-
testes veranschaulichen, nämlich Überschreitungswahrscheinlichkeiten (P-Werte) und die Gü-
tefunktion.
überschreitungswahrscheinlichkeiten (P-Werte)
P-Werte spielen bei Signikanztests eine wichtige Rolle und werden von statistischen Soft-
warepaketen standardmäÿig ausgegeben. Anhand des Gauÿ-Tests lässt sich ihre Bedeutung
besonders einfach erläutern. Betrachtet werden soll im Folgenden die Hypothese H0 : µ ≥ µ0
über den unbekannten Erwartungswert µ einer Normalverteilung, deren Varianz σ02 bekannt
sei. Anhand der Teststatistik
n
√ X − µ0 1X
T = n· , X= Xi ,
σ0 n
i=1
kann die Hypothese zum Signikanzniveau α überprüft werden. In diesem Fall ergibt sich als
Ablehnungsbereich das Intervall (−∞; zα ).
Ist t nun der tatsächlich beobachtete Wert der Teststatistik T, so ist der P-Wert deniert
durch
p := Pµ0 (T ≤ t) .
Hierbei deutet der Index µ0 an, dass für die Verteilung der Stichprobenvariablen die N(µ0 , σ0 )-
2
Verteilung angenommen wird, wie sie der Nullhypothese H0 entspricht. Die Teststatistik T ist
unter dieser Annahme gerade N(0, 1)-verteilt, und damit
p = Pµ0 (T ≤ t) = Φ(t) .
Der P-Wert gibt also die Wahrscheinlichkeit dafür an, unter der Hypothese H0 den tatsächlich
beobachteten Wert der Teststatistik, t, oder einen in Richtung der Alternative µ < µ0 noch
extremeren Wert zu erhalten. Ein sehr kleiner P-Wert impliziert also, dass die Nullhypothese
H0 unplausibel ist und entsprechend abgelehnt werden sollte.
Der P-Wert ist also das gröÿte Niveau α0 , bei dem der beobachtete Wert t noch zur Annahme
der Nullhypothese H0 führt. Mit Hilfe des ermittelten P-Wertes p lässt sich die Entschei-
dungsregel im Falle der Hypothese H0 : µ ≥ µ0 und bei Signikanzniveau α wie folgt
formulieren:
III.2 Testen 83
Beispiel. In der Abfüllanlage einer Brauerei werden 0.5-Liter Flaschen befüllt. Die tätsächli-
che Füllmenge X 3
pro Flasche (in cm ) kann als normalverteilt mit gewissem Erwartungswert µ
und mit bekannter Standardabweichung σ0 = 1.5 [cm3 ] betrachtet werden. Eine Verbraucher-
schutzorganisation will nun überprüfen, ob die tatsächliche Abfüllmenge den Sollwert µ0 = 500
im Mittel nicht unterschreitet, d. h. die folgende Nullhypothese wird betrachtet:
H0 : µ ≥ µ0 , d. h. µ ≥ 500.
Ein Ablehnen von H0 würde dem Hersteller also eine signikante Verletzung seiner eigenen
Versprechen nachweisen.
X − 500
T = T (X1 , . . . , X25 ) = 5 · .
1.5
Der Test soll zum Signikanzniveau α = 0.01 ausgeführt werden, also ergibt sich wegen z0.01 =
−2.326 der Ablehnungsbereich (−∞; −2.326).
Nun wurden die Daten erhoben. Angenommen, als Stichprobenmittel ergibt sich der Wert
x̄ = 499.28, also eine leichte Unterschreitung der geforderten Füllmenge. Der zugehörige Wert
der Teststatistik ist dann
499.28 − 500
t=5· = −2.4 < −2.326,
1.5
und damit kann die Hypothese µ ≥ 500 verworfen werden. Die Verbraucherschutzorganisation
kann also auf Basis ihres Testergebnisses behaupten, dass der Brauereibesitzer die geforderte
Füllmenge aufgrund ihres Testergebnisses zum Signikanzniveau α = 0.01 nicht einhält.
d.h. zum Signikanzniveau α = 0.008 (oder kleiner) wäre die Hypothese nicht abgelehnt
worden.
Warnung: Ein nachträgliches Anpassen des Signikanzniveaus α, welches zur Annahme der
Hypothese führt, ist unzulässig!
Gütefunktion
Die Gütefunktion eines statistischen Tests ist deniert als die Wahrscheinlichkeit für die Ab-
lehnung der Nullhypothese H0 . Die Gütefunktion eines idealen Tests hat folgende Form:
1− (
]
H0 H1
84 III INDUKTIVE STATISTIK
Bei diesem Ideal-Test sind sowohl die Wahrscheinlichkeit für einen Fehler 1. Art als auch die
Wahrscheinlichkeit für einen Fehler 2. Art beide gleich 0.
Als konkretes Beispiel eines realen Tests betrachten wir erneut den Gauÿ-Test mit normal-
verteilten Stichprobenvariablen und der Hypothese H0 : µ ≤ µ0 zum Signikanzniveau α.
Der Ablehnungsberereich ist diesmal das Intervall (z1−α ; ∞) (vgl. Abschnitt III.2.2), und wir
können die Wahrscheinlichkeit für eine Ablehnung der Nullhypothese H0 als Funktion des
unbekannten Erwartungswertes µ schreiben, d.h.
√
X − µ0
g(µ) = Pµ (T > z1−α ) = Pµ n· > z1−α .
σ0
Zur Berechnung dieser Wahrscheinlichkeit beachte man, dass, falls µ den wahren Erwartungs-
wert bezeichnet,
√ X −µ
n· N(0, 1) − verteilt ist,
σ0
also
√ √ µ0 − µ √
X −µ µ0 − µ
g(µ) = Pµ n· > z1−α + n · = 1 − Φ z1−α + n· .
σ0 σ0 σ0
g
1−
α−
|
µ µ
0
(
0 für µ < µ0 ,
lim gn (µ) =
n→∞ 1 für µ > µ0 .
Zusammenfassung:
• für Parameterwerte aus dem Bereich der Nullhypothese H0 ist die Gütefunktion ≤ α,
für Parameterwerte aus dem Bereich der Alternativhypothese heiÿt die Gütefunktion
auch Macht oder Trennschärfe.
• Die Macht eines Tests wird gröÿer, wenn α wächst (man also den Fehler 1. Art öfter
zulässt), oder wenn n wächst (man also mehr Aufwand in die Datenerhebung investiert).
III.2 Testen 85
Statt Verteilungen nur auf Erwartungswerte oder Varianzen zu überprüfen, kann man auch
Hypothesen untersuchen, die sich direkt auf eine oder mehrere Verteilungen beziehen, vgl.
auch Abschnitt I.2.1. Entsprechend werden hier Teststatistiken auf Basis von Häugkeiten
deniert. Auch der zu Beginn von Abschnitt III.2.5 zu besprechende χ2 -Homogenitätstest
verwendet diesen Ansatz, um eine Mehrstichproben-Hypothese zu überprüfen.
χ2 -Anpassungstest
Häug ist man daran interessiert zu untersuchen, ob die unbekannte Verteilung einer Grundge-
samtheit gleich einer gegebenen hypothetischen Verteilung ist (mit gegebener Verteilungsfunk-
tion F0 ). Bei den obigen Testverfahren wurde z. B. oft gefordert, dass die Grundgesamtheit
normalverteilt ist.
Annahme:
X1 , . . . , Xn i.i.d. mit einer (unbekannten) Verteilungsfunktion F.
Hypothese: H0 : F = F0 .
Im nächsten Schritt unterteilen wir die X-Achse in k>2 disjunkte Intervalle
Nj = {Xi | Xi ∈ Aj } ;
pj = P (X ∈ Aj ) = F0 (zj ) − F0 (zj−1 ) .
Hinweis: Ist der Wertebereich der Stichprobenvariablen endlich, etwa {a1 , . . . , ak }, so kann
man auf die Klassierung verzichten und Nj , pj denieren durch
Nj = {Xi | Xi = aj } , pj = P (X = aj ) .
(x1 , y1 ), . . . , (xn , yn )
entscheidet, ob die folgende Hypothese abzulehnen ist oder nicht (siehe auch Abschnitt I.3.1):
Y :
B1 B2 . . . BJ
X : A1 N11 N12 . . . N1J N1•
A2 N21 N22 . . . N2J N2•
. . . .
. . . .
. . . .
AI NI1 NI2 · · · NIJ NI•
N•1 N•2 . . . N•J n
und bilden die Gröÿen (siehe auch Formel (I.3) in Abschnitt I.3.1)
Ni• N•j
Ñij := für i = 1, . . . , I und j = 1, . . . , J .
n
Idee: Unter der Hypothese H0 sind die Merkmale X und Y unabhängig, und damit gilt
P (X ∈ Ai , Y ∈ Bj ) = P (X ∈ Ai ) · P (Y ∈ Bj ) . (III.6)
Bei groÿer Stichprobenlänge n sollten zudem die relativen Häugkeiten in der Nähe der theo-
retischen Wahrscheinlichkeiten liegen (vgl. Abschnitt II.5.1), also
(1) (1)
X1 , . . . , Xn1 ,
(2) (2)
X1 , . . . , Xn2 ,
.
.
.
(k) (k)
X1 , . . . , Xnk ,
getestet werden. Die zentrale Frage in diesem Zusammenhang ist dann die nach der Gleich-
heit der zugrundeliegenden Verteilungen bzw. nach der Gleichheit gewisser Kennzahlen der
zugrundeliegenden Verteilungen.
χ2 -Homogenitätstest
Annahme:
(1) (1)
X1 , . . . , Xn1 i.i.d. mit Verteilungsfunktion F1 ,
(2) (2)
X1 , . . . , Xn2 i.i.d. mit Verteilungsfunktion F2 ,
.
.
.
(k) (k)
X1 , . . . , Xnk i.i.d. mit Verteilungsfunktion Fk .
Hypothese: H0 : F1 = F2 = . . . = Fk .
Im nächsten Schritt unterteilen wir zunächst die X-Achse in m≥2 disjunkte Intervalle
(i) (i)
Nij = {Xl | Xl ∈ Aj } für i = 1, . . . , k und j = 1, . . . , m.
Idee: Unter der Hypothese H0 sind die Stichprobenvariablen allesamt identisch verteilt, und
damit sollten für alle j die relativen Häugkeiten
Nij
für i = 1, . . . , k
ni
nahezu übereinstimmen, d.h.
Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei bekannten Vari-
anzen.
Annahme:
2 , und X ∼ N(µ , σ 2 );
X1 , . . . , Xm i.i.d. mit bekannter Varianz σX,0 i X X,0
2 , und Y ∼ N(µ , σ 2 ).
Y1 , . . . , Yn i.i.d. mit bekannter Varianz σY,0 i Y Y,0
Sind m, n ≥ 30, so können Xi , Yj jeweils beliebig verteilt sein, aber mit
2 2
E[Xi ] = µX , V [Xi ] = σX,0 , E[Yj ] = µY , V [Yj ] = σY,0 .
Hypothese:
X̄ − Ȳ
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = q 2 2
,
σX,0 σY,0
m + n
Zwei-Stichproben-t-Test
Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei unbekannten
aber gleichen Varianzen (Varianzhomogenität).
Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2 2 = σ 2 unbekannt.
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); σX Y
Sind m, n ≥ 30, so können Xi , Yj jeweils beliebig verteilt sein, aber mit
2
E[Xi ] = µX , E[Yj ] = µY , V [Xi ] = σX = V [Yj ] = σY2 .
Hypothese:
m n
2 1 X 1 X
SX = (Xi − X̄)2 und SY2 = (Yi − Ȳ )2 .
m−1 n−1
i=1 i=1
Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei unbekann-
ten (und möglicherweise verschiedenen) Varianzen (Varianzheterogenität, Behrens-Fisher-
Problem).
Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2 2 , σ2
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); σX unbekannt.
Y
Hypothese:
X̄ − Ȳ
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = q 2 ,
SX SY2
m + n
2
SX SY2 2
m + n
ν = 2 /m)2
(SX (SY2 /n)2
.
m−1 + n−1
F-Test
Test auf Gleichheit der Varianzen zweier Normalverteilungen (wie es beim Zwei-Stichproben-
t-Test vorausgesetzt wird).
Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); µX , µY unbekannt.
Hypothese:
(a)
2 = σ2 ;
H0 : σX (b)
2 ≤ σ2 ;
H0 : σX (c)
2 ≥ σ2 .
H0 : σX
Y Y Y
2
SX
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = ,
SY2
(a) T < Fm−1,n−1, α2 oder T > Fm−1,n−1,1− α2 ; (b) T > Fm−1,n−1,1−α ; (c) T < Fm−1,n−1,α .
90 III INDUKTIVE STATISTIK
In den Abschnitten II.4.4 und II.4.5 haben wir die (univariate) Normalverteilung und einige
ihrer Eigenschaften kennengelernt. Eine N(µ, σ
2 )-verteilte Zufallsvariable X ist dabei durch
die Dichte
1 (x − µ)2
1
fµ,σ2 (x) = √ · exp −
2πσ 2 σ2
bestimmt. Nun wollen wir wieder, wie in den Abschnitten II.4.2 und II.4.3 schon betrach-
tet, zum Fall zweier gemeinsam stetig verteilter Zufallsvariablen (X, Y ) übergehen. Ist die
gemeinsame stetige Dichte fXY gegeben durch
fXY (x, y) =
(x − µX )2 (y − µY )2
1 1 (x − µX )(y − µY )
· exp − 2 + − 2ρ ,
2(1 − ρ2 ) σY2
p
2πσX σY 1 − ρ2 σX σX σY
wobei µX , µY ∈ R, σX , σY > 0 und ρ ∈ [−1; 1] sind, so nennen wir (X, Y ) bivariat normalver-
teilt.
Eigenschaften der bivariaten Normalverteilung:
• ferner
2
V [X] = σX und V [Y ] = σY2 ,
Annahme:
(X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. bivariat normalverteilt.
Hypothese:
(a) |Z| > z1− α2 ; (b) Z < −z1−α ; (c) Z > z1−α .
Dieser Test hat dann das (approximative) Niveau α.
Hinweis: Diese Approximation ist für praktische Bedürfnisse als hinreichend zu erachten,
wenn n > 25 ist.
III.2 Testen 91
für den wichtigen Spezialfall ρ0 = 0, d.h. wenn X und Y auf Unkorreliertheit und damit de
facto auf Unabhängigkeit (da bivariat normalverteilt!) hin untersucht werden, gibt es folgende
Alternative:
Annahme:
(X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. bivariat normalverteilt.
Hypothese:
Die oben angeführten Eigenschaften der Teststatistik Z(X1 , . . . , Yn ) des Korrelationstests le-
gen nahe, ein approximatives Kondenzintervall für ρXY zum Niveau 1 − α wie folgt zu
konstruieren:
z1−α/2 z1−α/2
1 1 + rXY 1 1 + rXY
I(X1 , . . . , Yn ) = f ln −√ ; f ln +√ .
2 1 − rXY n−3 2 1 − rXY n−3
Die in den Abschnitten III.2.2 und III.2.5 besprochenen Ein- und Zwei-Stichproben-Tests set-
zen zumindest bei kleinen Stichprobenumfüngen eine Normalverteilung der betrachteten X-
und Y -Merkmale voraus. In vielen Situationen ist diese Annahme aber nicht einmal nähe-
rungsweise erfüllt, so weisen etwa Lebensdauern häug eine stark unsymmetrische Verteilung
(z. B. Exponentialverteilung) auf. für derartige Fälle wurden sog. nichtparametrische Tests
(auch verteilungsfreie Tests ) entwickelt, die beispielsweise nur ganz allgemein verlangen, dass
die untersuchten Merkmale stetig sind, die aber nicht fordern, dass die Merkmale einer spe-
ziellen parametrischen Verteilungsfamilie folgen. Solche nichtparametrischen Tests wollen wir
im Folgenden exemplarisch für den Ein-Stichproben-Fall betrachten.
Vorzeichentest
In Analogie zum Gauÿ- oder t-Test soll der Vorzeichentest eine Hypothese bzgl. des Medians
M ed[X] = x0.5 einer stetig verteilten Zufallsvariable X untersuchen. Abgesehen von der For-
derung nach Stetigkeit werden keine weiteren Verteilungsannahmen formuliert. Die Idee ist
es nun zu zählen, wieviele der i.i.d. Stichprobenvariablen X1 , . . . , Xn unterhalb des hypothe-
tischen Medianwertes m0 liegen; gilt nämlich tatsächlich M ed[X] = m0 , so ist diese Anzahl
gerade binomialverteilt gemäÿ Bin(n, 0.5).
Annahme:
X1 , . . . , Xn i.i.d. mit stetiger Verteilung.
Hypothese:
Der Vorzeichentest kann für alle stetigen Verteilungen verwendet werden. Diesen Vorteil er-
kauft man sich aber dadurch, dass im Fall einer tatsächlich vorliegenden Normalverteilung
die Güte des Vorzeichentests schlechter ist als z. B. die des Gauÿ-Tests (bei einer Normal-
verteilung stimmen Erwartungswert und Median überein). Dies illustriert folgendes Beispiel
(Vorzeichentest grau-gestrichelt, Gauÿ-Test schwarz):
Α
Μ
Μ0
Wilcoxon-Vorzeichen-Rang-Test
Der Vorzeichentest ist zwar verteilungsfrei, aber er nutzt aus dem vorliegenden Datensatz le-
diglich die Information, ob die Datenwerte über oder unter dem hypothetischen Median m0
liegen. Um mehr der im Datensatz enthaltenen Information zu nutzen, basieren viele nicht-
parametrische Testverfahren auf sog. Rängen, die auf Basis der vorliegenden Daten berechnet
werden. Sind y1 , . . . , yn paarweise verschiedene, reelle Zahlen, so ist der Rang des Wertes yi
deniert als dessen Position in der aufsteigend geordneten Reihe der y -Werte. So erhält yi z. B.
den Rang 1, wenn es der kleinste Wert in y1 , . . . , yn ist, den Rang 2, wenn es der zweitkleinste
Wert in y1 , . . . , yn ist, etc.
2. Ordne den absoluten Dierenzen |D1 |, . . . , |Dn | Ränge zu, Notation: Rang |Di | .
3. Bezeichnet 1A die Indikatorfunktion, die den Wert 1 annimmt, wenn das Ereignis A
eintritt, und den Wert 0, wenn es nicht eintritt, so deniere
n
X
T (X1 , . . . , Xn ) := 1{Di >0} · Rang |Di | ,
i=1
Wilcoxon-Vorzeichen-Rang-Test
Annahme:
X1 , . . . , Xn i.i.d. mit stetiger und symmetrischer Verteilung.
Hypothese:
n
X
T (X1 , . . . , Xn ) = 1{Di >0} · Rang |Di | ,
i=1
n(n+1) n(n+1)(2n+1)
welche für n > 20 approximativ N(
4 , 24 )-verteilt ist, falls M ed[X] = m0 .
Ablehnung von H0 , falls
Ferner kann es vorkommen (genau wie beim Vorzeichentest), dass manche der Xi exakt mit
m0 übereinstimmen, was zur Dierenz Di = 0 führen würde. Derartige Werte werden vor
Ausführung des Tests aus der Stichprobe entfernt.
Beispiel:
Es soll die Hypothese H0 : M ed[X] ≤ 2.2 auf dem Niveau α = 0.05 getestet werden, die
vorliegenden Daten x1 , . . . , x6 seien 2.4, 2.8, 2.2, 2.1, 2.4, 2.9. Wir erstellen folgende Tabelle:
i 1 2 3 4 5 6
xi 2.4 2.8 2.2 2.1 2.4 2.9
di = xi − 2.2 0.2 0.6 0 −0.1 0.2 0.7
|di | 0.2 0.6 0 0.1 0.2 0.7
Der dritte Wert führt zur Dierenz 0 und muss deshalb von der weiteren Analyse ausgeschlos-
sen werden, d.h. der Datensatz reduziert sich auf den Umfang n = 5. führen wir zuerst den
Vorzeichentest aus. Genau eines der xi ist kleiner m0 = 2.2, d.h. die Teststatistik TV des
94 III INDUKTIVE STATISTIK
Vorzeichentests nimmt den Wert 1 an. Die Testschranke b0.05 wird auf Basis der Bin(5, 0.5)-
Verteilung bestimmt:
k 0 1 2 3 4 5
p5,0.5 (k) 0.03125 0.15625 0.3125 0.3125 0.15625 0.03125
F5,0.5 (k) 0.03125 0.1875 0.5 0.8125 0.96875 1
Also ist b0.05 = 0, und da TV = 1 > 0 = b0.05 ist, kann die Hypothese H0 : M ed[X] ≤ 2.2
nicht abgelehnt werden.
führen wir nun den Wilcoxon-Vorzeichen-Rang-Test aus. Die aufsteigend geordneten Werte der
|di | =
6 0 sind 0.1, 0.2, 0.2, 0.6, 0.7, hierbei bilden die beiden Werte 0.2 eine Bindung. Ignoriert
man diese für einen Moment, so würden wir die Ränge 2 und 3 vergeben, deren Mittelwert
2.5 ist; also erhält jedes der 0.2 den mittleren Rang 2.5. Insgesamt können wir obige Tabelle
also wie folgt ergänzen:
i 1 2 4 5 6
xi 2.4 2.8 2.1 2.4 2.9
di = xi − 2.2 0.2 0.6 −0.1 0.2 0.7
|di| 0.2 0.6 0.1 0.2 0.7
Rang |di | 2.5 4 1 2.5 5
1{di >0} 1 1 0 1 1
Literatur
[1] L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz, Statistik, 6. Auage, Springer Verlag, 2007.
Weitere Literatur
[5] G. Bamberg, F. Baur, M. Krapp, Statistik, 13. Auage, R. Oldenbourg Verlag, 2007.
[7] M. Falk, R. Becker, F. Marohn, Angewandte Statistik Eine Einführung mit Programm-
beispielen in SAS, Springer Verlag, 1995. (Nachdruck aus dem Jahr 2004)
[9] J. Schira, Statistische Methoden der VWL und BWL: Theorie und Praxis, 2. Auage,
Pearson Studium, 2005.
[10] C. Weigand, Statistik mit und ohne Zufall, Physica Verlag, 2006.