Skript WT
Skript WT
0 Einleitung 7
3 Stetige Zufallsvariable 51
3.1 Dichte und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Erwartungswert und Varianz stetiger Zufallsvariabler . . . . . . . . . . . . 53
3.3 Wichtige stetige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 53
3.3.1 Gamma-Verteilung und Exponentialverteilung . . . . . . . . . . . . 53
3.3.2 Die Normal-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.3 Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.4 Die Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 Grenzwertsätze 61
4.1 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 Statistik 69
5.1 Elemente der deskriptiven Statistik . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3
4 INHALTSVERZEICHNIS
5.3 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5
6 VORWORT
Kapitel 0
Einleitung
Im Zusammenhang mit der Mathematik des Zufalls hört man die Begriffe Wahrschein-
lichkeitsrechnung, Wahrscheinlichkeitstheorie, (mathematische) Statistik und Stochastik.
Die beiden ersten Begriffe werden synonym verwandt, das Wort Stochastik wird dagegen
als Sammelbegriff für die Wahrscheinlichkeitsrechnung und die Statistik benutzt. Diesen
beiden Teilgebieten der Stochastik wollen wir uns in dieser Vorlesung zuwenden.
Dass beim Umgang mit Zufallsphänomenen selbst Fachleute - sprich Mathematiker -
Irrtümern unterliegen können, zeigt das sog. ”Ziegenproblem” aus dem Jahr 1991, das
längere Zeit ”heiß” diskutiert wurde. Es geht um folgendes ”Glückspiel”:
Soll der Kandidat umwählen oder nicht? Hierüber entbrannte eine heiße Diskussion. Je-
der glaubte seine Empfehlung richtig begründen zu können. Hier eine Auswahl der ”Be-
gründungen”:
1. Die Chance, das Auto zu gewinnen ist 13 . Also ist es gleichgültig, ob umgewählt wird
oder nicht.
2. Die Wahrscheinlichkeit, bei der ersten Wahl das Auto zu treffen, ist geringer als die,
eine Ziege zu treffen. Wenn aber eine Ziegentür geöffnet ist, stehen die Chancen für
Auto und Ziege 50:50. Also ist es besser, umzuwählen, denn so verbessert man die
Gewinnchance.
3. Am Anfang erwischt man mit einer Wahrscheinlichkeit von 32 eine Ziege. Man hat
also im ersten Anlauf eher eine Niete. Deshalb sollte man umwählen. Das wäre
logischer.
7
8 KAPITEL 0. EINLEITUNG
4. Wählt man grundsätzlich um, so gewinnt man das Auto nicht, wenn man schon bei
der ersten Wahl die Autotür getroffen hatte.
In der Tat erhöht das Umwählen die Gewinnchancen auf das Auto. Wer nämlich im ersten
Durchgang eine Ziegentür gewählt hat - und die Wahrscheinlichkeit dafür beträgt 32 -,
gewinnt durch Umwählen das Auto. Wer dagegen im ersten Durchgang die Tür mit dem
Auto gewählt hat - und die Wahrscheinlichkeit dafür beträgt ”nur” 31 -, bekommt durch
Umwählen eine Ziege und hat damit Pech. Umwählen erhöht also die Gewinnchance von
1
3
auf 32 . Wir werden später noch einmal ausführlich auf die ”theoretischen” Hintergründe
für diesen Sachverhalt eingehen.
Das zweite Beispiel bezieht sich eher auf die Statistik. Nachdem im Wintersemester
2007/08 an der Universität Duisburg-Essen der Bachelor-Studiengang ”Angewandte In-
formatik” den Diplom-Studiengang abgelöst hat, schließen am Ende des Sommersemesters
2010 die ersten 10 und am Ende des Wintersemesters 2010/11 weitere 10 Studierende
das Bachelor-Studium ab. Daraus wird der Schluss gezogen, dass die durchschnittliche
Studiendauer in dem neuen Studiengang bei 6,5 Semestern liegt und damit fast bei der
Regelstudienzeit. Also beschleunigen die neuen Studiengänge das Studium.
Wer sonst sollte denn nach 6 Semestern - einmal abgesehen von Seiteneinsteigern, die an
anderen Hochschulen schon zu einem früheren Termin das Bachelor-Studium beginnen
konnten, und von Wechslern aus dem Diplom-Studiengang, die in ein höheres Semester
im Bachelor-Studiengang eingestuft wurden, - das Studium beenden? Das müssen die
Anfänger aus dem WS 2007/08 sein, und zwar diejenigen, die nach 6 Semestern alle not-
wendigen Prüfungen abgelegt haben. Dies sind die sehr guten und guten Studierenden
aus dem genannten Anfangssemester. Aus den Zahlen alleine kann man gar keinen Rück-
schluss auf die durchschnittliche Studiendauer ziehen. Das geht erst, wenn der Studiengang
mehrere Jahre studiert wurde. In den ersten Jahren ist z.B. der Median ein aussagekräfti-
gerer Wert als der Mittelwert. Aber auch später muss der Mittelwert die tatsächliche
Studiendauer nicht richtig widergeben. Nehmen wir mal an, dass im Sommersemester
2015 insgesamt 30 Studierende das Bachelor-Studium abschließen; davon haben 10 nach
6 Semestern, 5 nach 7 Semestern, 5 nach 8 Semestern, 5 nach 10 Semestern, 3 nach 12
Semestern und 2 nach 16 Semestern das Studium abgeschlossen. Das ergäbe als Mittelwert
1
d= (10 · 6 + 5 · 7 + 5 · 8 + 5 · 10 + 3 · 12 + 2 · 16) ≈ 8, 4 ;
30
schreibt man dagegen die Semesterzahlen der Größe nach auf, so ergibt sich der Median
wegen der folgenden Rangplätzeauflistung
als arithmetisches Mittel der 15-ten und 16-ten Zahl in dieser Auflistung, d.h. 7,5. Die
wenigen ”Ausreißer” mit hohen Semesterzahlen heben den Schnitt nach oben, während
der Median aussagt, dass die Hälfte der Absolventen im Sommersemester 2015 höchstens 7
Semester studiert hat. Um Zahlen zu interpretieren muss das ”Umfeld” betrachtet werden,
in dem diese Zahlen erhoben wurden.
Mit naturwissenschaftlichen Argumenten wird man diese Aussage nicht begründen können.
Dieses Ergebnis ergibt sich aus einer statistischen Datenauswertung, d.h. als relative
Häufigkeit aus einer (großen) Gruppe von Kindern, bei der geschlechtsspezifisch abgezählt
wurde.
Es hat viele Erklärungsansätze gegeben, etwa den, dass auf Grund der Tatsache, dass bei
kriegerischen Auseinandersetzungen häufig Männer zu Tode kommen, aus Art-erhaltenden
Gründen mehr Jungen als Mädchen geboren werden müssen.
Man kann sagen, dass die ”Wahrscheinlichkeitstheorie” Methoden zur Verfügung stellt,
mit denen man sozusagen einen Gewissheitsgrad für das Eintreten eines Ereignisses be-
rechnen kann.
Die ”Statistik” stellt Methoden bereit, um aus empirisch gewonnenen Daten Rückschlüsse
auf eine der Untersuchung nicht zugängliche weitaus größere Datenmenge zu ziehen, wie
im 3. Beispiel oder bei Hochrechnungen im Zusammenhang mit Wahlen.
10 KAPITEL 0. EINLEITUNG
Kapitel 1
Grundbegriffe der
Wahrscheinlichkeitsrechnung
k 1 2 3 4 5 6
hk 15 16 18 17 16 18
(dabei sei k die Augenzahl und hk die Häufigkeit, mit der diese Augenzahl gewürfelt
wurde), so wird er wahrscheinlich zu dem Ergebnis kommen, dass dieser Würfel nicht
gezinkt ist. Es ist nämlich die relative Häufigkeit für das Auftreten der Augenzahl
hk 1
k gleich , also r1 = 0, 15, r2 = 0, 16, r3 = 0, 18 usw. im Vergleich zu = 0, 16.
100 6
1
Es stellt sich die Frage, wie groß die Abweichung von rk zu sein darf, damit man
6
noch von einem nicht gezinkten Würfel sprechen kann?
11
12 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
Definition 1.1. Wir nennen einen Vorgang ein (ideales) Zufallsexperiment, wenn
folgende Gegebenheiten vorliegen:
3. Das Experiment ist nicht determiniert, d.h. dass vor Beendigung des Experi-
ments das Ergebnis ungewiss ist.
4. Das Experiment ist (zumindest in der Vorstellung) beliebig oft unter den glei-
chen Bedingungen durchzuführen.
Definition 1.2. Die Menge aller Ergebnisse eines Zufallsexperiments bezeichnet man
üblicherweise mit Ω. Ω heißt Ergebnisraum oder Ergebnismenge oder Grundraum
oder Raum der Elementarereignisse.
Jedes ω ∈ Ω heißt ein Elementarereignis. Ein Ereignis ist dann eine Teilmenge von
Ω.
Definition 1.3. Ein System A von Teilmengen von Ω heißt eine Ereignisalgebra oder
σ-Algebra auf Ω, wenn folgende Bedingungen erfüllt sind:
Sprechweisen:
• Ā : A tritt nicht ein; A ∈ A
• A ∪ B : A oder B treten ein; A, B ∈ A
• A ∩ B : A und B treten ein; A, B ∈ A.
A∪B
Ω
B
A∩B
Ω
B
A
Ω
A
14 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
Ω
B
Bemerkung 1.4. (i) Ist Ω eine endliche Menge mit n Elementen, so bildet die Potenz-
menge P(Ω) von Ω eine Ereignisalgebra. P(Ω) besitzt 2n Elemente; dies zeigt man
induktiv.
Betrachten wir den Würfel mit Ω = {ω1 , . . . , ω6 }, so bedeutet z.B. A = {ω1 , ω4},
dass das Ergebnis die Augenzahl 1 oder 4 ist. Das komplementäre Ereignis ist dann
A = {ω2 , ω3 , ω5 , ω6 }.
(ii) Ist Ω abzählbar unendlich, etwa Ω = N, so können wir ebenfalls als Ereignisalge-
bra die Potenzmenge von Ω wählen. Allgemeiner ist für Ω 6= ∅ stets P(Ω) eine
Ereignisalgebra.
Bemerkung 1.5. Alle offenen und abgeschlossenen Teilmengen liegen in Bn , aber es gilt
Bn 6= P(Rn ).
Bn wird auch vom System aller offenen (oder abgeschlossenen) Teilmengen des Rn erzeugt.
Nun wollen wir jedem Ereignis, d.h. jedem A ∈ A eine Zahl zuordnen, die Wahrschein-
lichkeit dafür, dass dieses Ereignis eintritt. Diese Zuordnung soll ebenfalls bestimmten
Bedingungen genügen.
1.1. GRUNDLEGENDE BEGRIFFE 15
(i) P (Ω) = 1
!
[ X
(ii) P Ak = P (Ak ) (σ-Additivität)
k k
b) Allgemeiner nennt man eine auf einer σ-Algebra A ⊂ P(Ω) definierte nicht-
negative, σ-additive Mengenfunktion µ ein Maß und das Tripel (Ω, A, µ) ein
Maßraum; das Paar (Ω, A) heißt ein messbarer Raum (oder Messraum) und die
Elemente A ∈ A heißen messbare Mengen.
+(−1)n−1 P (A1 ∩ A2 ∩ · · · ∩ An ).
16 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
(8) (Bonferroni-Ungleichung)
n
X X n
[ n
X
P (Ai ) − P (Ai1 ∩ Ai2 ) ≤ P Ai ≤ p(Ai ).
i=1 1≤i1 <i2 ≤n i=1 i=1
Weitere obere bzw. untere Schranken ergeben sich durch Abbruch in (7) nach
+ bzw. - Zeichen.
P (A ∪ B) = P (A) + P (A ∩ B)
= P (A) + P (A ∩ B) + P (A ∩ B) − P (A ∩ B)
= P (A) + P ((A ∩ B) ∪ (A ∩ B)) − P (A ∩ B)
= P (A) + P ((A ∪ A) ∩ B) − P (A ∩ B)
= P (A) + P (Ω ∩ B) − P (A ∩ B)
= P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B).
Zu (3), (6): Mit B = A ∪ (B \ A) und A ∩ (B \ A) = ∅ folgt aus Definition 1.6 (a), (ii):
Bemerkungen 1.9. a) Ist (Ω, A, P ) ein Laplace-Raum und A ein (beliebiges) Er-
eignis, so gilt aufgrund der Eigenschaften von P :
|A| ♯A
P (A) = = .
|Ω| ♯Ω
Häufig wird dies auch folgendermaßen ausgedrückt:
Anzahl der für A günstigen Fälle
P (A) = .
Anzahl der möglichen Fälle
b) Wir betrachten das Werfen mit zwei Würfeln und fragen nach der Wahrscheinlich-
keit, dass die Augensumme eine der Zahlen zwischen 2 und 12 ist. Als Grundraum
ist die Menge
Ω = {(i, j) | 1 ≤ i, j ≤ 6}
geeignet. Ω enthält 36 Elemente. Die Wahrscheinlichkeit, ein Elementarreignis zu
1
würfeln ist 36 . Nun müssen wir zählen, auf wieviele Arten die Summe k mit 2 ≤
k ≤ 12 gewürfelt werden kann. Für k = 2 und k = 12 ergibt sich jeweils genau eine
1
Möglichkeit; also ist die Wahrscheinlichkeit jeweils 36 dafür, dass die Augensumme
2 oder 12 ist. Für k = 3 und k = 11 gibt es dagegen jeweils zwei Möglichkeiten,
nämlich durch das Würfeln des Tupels (1, 2) oder (2, 1) bzw. durch (5, 6) oder (6, 5).
Die Augensumme k = 6 ergibt sich durch Würfeln von (1, 5), (2, 4), (3, 3), (4, 2) oder
5
(5, 1); also ist die Wahrscheinlichkeit, die Augensumme k = 6 zu erhalten: 36 .
Zur Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten können kombinato-
rische Überlegungen herangezogen werden:
Wir beginnen mit der Betrachtung von r Mengen A1 , A2 , . . . , Ar mit nk Elementen für
1 ≤ k ≤ r. Dann ist die Anzahl der geordneten r-Tupel (a1 , . . . , ar ) mit ak ∈ Ak für
1 ≤ k ≤ r das Produkt
Yr
nk
k=1
(vgl. das Abzähltheorem 1.16 aus Mathematik für Informatiker I); speziell für n1 =
. . . nr =: n erhalten wir als Anzahl
nr .
Ist also A eine Menge mit n Elementen, so ist die Anzahl der geordneten r−Tupel
(a1 , . . . , ar ) mit (nicht notwendig paarweise verschiedenen) Elementen a1 , . . . , ar ∈ A gera-
de nr ; diese r−Tupel nennt man auch eine r-Permutation der Menge A mit Wiederholung;
für diese Permutationen schreiben wir auch P er r (A); es gilt also |P err (A)| = nr . Ist A
eine Menge mit n Elementen, so ist die Anzahl der geordneten r-Tupel (a1 , . . . , ar ) mit
paarweise verschiedenen ak gleich
n! n
n(n − 1) · . . . · (n − (r − 1)) = = r! =: (n)r .
(n − r)! r
Dies sind die r-Permutationen der Menge A ohne Wiederholung. All diese Permutationen
fassen wir in der Menge P er∗r (A) zusammen; es gilt |P er∗r (A)| = (n)r . Dies macht nur
18 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
dann Sinn, wenn r ≤ n ist. Die n−Permutationen der Menge A (mit n Elementen) ohne
Wiederholung heißen auch Permutationen der Menge A; es gilt
Man beachte, dass jede dieser Permutationen genau einer bijektiven Abildung f : A → A
entspricht.
Für die Anzahl der r−elementigen Teilmengen von A mit |A| = n ergibt sich nach dem
oben Gesagten der Binomialkoeffizient
n n!
= ,
r (n − r)! r!
weil sich aus einer r-elementigen Menge genau r! verschiedene r-Tupel mit paarweise
verschiedenen Einträgen bilden lassen.
Sei nun A = {1, . . . , n}. Für die Menge der r-Permutationen der Menge {1, . . . , n} mit
bzw. ohne Wiederholung schreiben wir auch kurz P err (n) bzw. P err∗(n).
Wir definieren noch die Menge der r-Kombinationen mit und ohne Wiederholung der
Menge {1, . . . , n}. Sei B ⊂ {1, . . . , n} eine r-elementige Teilmenge. Wir können die Ele-
mente von B = {b1 , . . . , br } der Größe nach sortieren und erhalten a1 < a2 < . . . < ar
(mit aj ∈ B). Ein solches r−Tupel (a1 , . . . , ar ) heisst r-Kombination aus {1, . . . , n} ohne
Wiederholung. Wir schreiben
dies ist die Menge der r-Kombinationen aus {1, . . . , n} mit Wiederholung. Die Anzahl der
Elemente ist
∗ n n+r−1
|Komr (n)| = , |Komr (n)| = .
r r
Um letztere Beziehung einzusehen, bedient man sich des folgenden Tricks: Sei (a1 , . . . , ar )
ein beliebiges Element aus Komr (n), so transformieren wir die Elemente dieser Kombi-
nation durch
(∗) bj := aj + j − 1 .
Dann gilt 1 ≤ b1 < b2 < . . . < br ≤ n + r − 1; also ist b = (b1 , . . . , br ) ein Element aus
Kom∗r (n + r − 1). Da durch (∗) verschiedene a′ s auf verschiedene b′ s abgebildet werden
und da umgekehrt durch
aj := bj − j + 1
jedes b ∈ Kom∗r (n + r − 1) in genau ein a ∈ Komr (n) transformiert wird, gilt
n+r−1
|Komr (n)| = |Kom∗r (n + r − 1)| = .
r
1.2. LAPLACE; W’KEITSBERECHNUNG MIT KOMBINATORIK 19
s
X
Seien schließlich Zahlen r1 , . . . , rs aus N gegeben mit rk = n. Dann ist die Anzahl der
k=1
möglichen Zerlegungen von A in Teilmengen A1 , . . . , As mit jeweils rk Elementen, d.h.
[s
Ak = A und |Ak | = rk gleich
k=1
n!
.
r1 ! · . . . · rs !
n
In der Tat: Aus der Menge A können wir Teilmengen von A mit r1 Elementen
r1
n − r1
auswählen. Aus dem Rest A \ A1 mit n − r1 Elementen können wir dann
r2
Teilmengen A2 mit r2 Elementen bilden usw. Somit erhalten wir insgesamt
n n − r1 n − r1 − r2 − . . . − rs−1
· ·...·
r1 r2 rs
n! (n − r1 )! (n − r1 − r2 − . . . − rs−1 )!
= · · ...· .
(n − r1 )! · r1 ! (n − r1 − r2 )! · r2 ! (n − r1 − . . . − rs )! ·rs !
| {z }
=1
Beispiel 1.10 (Das Urnenmodell). (a) Zur Veranschaulichung der r-Permutationen und
r-Kombinationen der Menge {1, . . . , n} mit bzw. ohne Wiederholung können wir das
Urnenmodell heranziehen.
Dabei denken wir uns eine Urne gefüllt mit n ∈ N durchnummerierten Kugeln. Nun
ziehen wir r-mal hintereinander je eine Kugel aus der Urne (ohne hinzusehen) und
notieren nach jeder Ziehung die Nummer der gezogenen Kugel. Legen wir nach jeder
Ziehung die gezogene Kugel in die Urne zurück, so entspricht das Ergebnis dieses
Zufallsexperiments (unter Beachtung der Reihenfolge) genau einer r-Permutation
einer n-elementigen Menge mit Wiederholung.
Dagegen entspricht das r-malige Ziehen einer Kugel ohne Zurücklegen (unter Beach-
tung der Reihenfolge) genau einer r-Permutation ohne Wiederholung. Man beachte,
daß wir in beiden Fällen (d.h. mit/ohne Zurücklegen) die Reihenfolge der gezoge-
nen Kugeln berücksichtigen müssen. Berücksichtigen wir die Reihenfolge nicht, so
erhalten wir ein Modell für die r-Kombinationen.
ohne Berück-
n n+r−1
sichtigung der | Kom∗r (n) |= r
| Komr (n) |= r
Reihenfolge
mit Berück-
sichtigung der | P er ∗r (n) |= (n)r | P err (n) |= nr
Reihenfolge
(b) Wie groß ist die Wahrscheinlichkeit beim Lotto (6 aus 49) einen Fünfer mit bzw.
ohne Zusatzzahl zu tippen? Wir betrachten das Zahlenlotto als Laplace-Experiment.
Wir können uns die 49 Kugeln zerlegt denken in 6 Glückszahlen und 43 Restzahlen,
bestehend aus 42 Nieten und einer Zusatzzahl. Berechnen wir die Wahrscheinlichkeit
als relative Häufigkeit, so müssen wir zunächst die Anzahl der Zerlegungen der 49
Zahlen in eine 43- und eine 6- elementige Menge berechnen, dies ist die Anzahl der
verschiedenen Möglichkeiten, den Lottoschein auszufüllen. Diese Anzahl ist nach
den Vorüberlegungen
49! 49
= .
6! · 43! 6
Wie viele Möglichkeiten gibt es, dass 5 Zahlen
mit denen aus der 6-elementigen
6
”Glücksmenge” übereinstimmen? Es gibt 6 = Möglichkeiten.
5
Beim ”Fünfer mit Zusatzzahl” muss die 6. Zahl mit der Zusatzzahl übereinstimmen,
also ist
6
p (”Fünfer mit Zusatzzahl)” = ≈ 4.291 · 10−7 .
49
6
(In ca. 43 von 100 Millionen Fällen.)
Beim ”Fünfer ohne Zusatzzahl” muss genau eine der sechs Zahlen mit einer der 42
Nieten übereinstimmen; dafür gibt es je 42 Möglichkeiten, also ist
6 · 42
p (”Fünfer ohne Zusatzzahl”) = ≈ 1.802 · 10−5.
49
6
verändert sich beim Ziehen der zweiten Zahl die Ergebnismenge auf Ω2 = Ω1 \ {n1 } usw.
Als Ergebnismenge betrachten wir dann Ω = Ω1 × . . . × Ω6 .
Wir wollen das Wesentliche bei mehrstufigen Zufallsexperimenten allerdings an einem
einfacheren Beispiel verdeutlichen.
Beispiel 1.11. Wir betrachten eine Urne mit 2 roten und 3 schwarzen Kugeln. Es wird
rein zufällig eine Kugel aus der Urne gezogen; ihre Farbe wird notiert und anschließend
werden diese Kugel und eine weitere Kugel derselben Farbe in die Urne zurückgelegt.
Nach gutem Durchmischen wird wiederum eine Kugel aus der Urne gezogen. Mit welcher
Wahrscheinlichkeit ist diese Kugel rot?
Schreiben wir sozusagen zur Abkürzung für das Ziehen einer roten Kugel eine 1 und für
das Ziehen einer schwarzen Kugel eine 0, so können wir als Ergebnismenge für das 1. und
das 2. Ziehen jeweils Ω1 = Ω2 = {0, 1} wählen. Wir suchen dann die Wahrscheinlichkeit
für das Ereignis A = {(1, 1), (0, 1)}. Wie müssen wir auf der Potenzmenge von Ω = Ω1 ×Ω2
ein Wahrscheinlichkeitsmaß gemäß Definition 1.6 festlegen?
Wir würden bei einer oftmaligen Wiederholung des Experiments beim ersten Zug mit
Wahrscheinlichkeit p1 = 52 eine rote und mit Wahrscheinlichkeit p2 = 53 eine schwarze
Kugel erwarten. Wird beim 1. Zug eine rote Kugel gezogen, d.h. ist a1 = 1, so befinden
sich vor dem 2. Zug in der Urne 3 rote und 3 schwarze Kugeln. Ist dagegen a1 = 0, so
befinden sich vor dem 2. Zug 2 rote und 4 schwarze Kugeln in der Urne. Im ersten Fall
wird man dann in der Hälfte aller Fälle als zweite Kugel eine rote Kugel erwarten. Im
zweiten Fall erwartet man dagegen in 2 von 6 Ziehungen eine rote Kugel. Also ist es
sinnvoll, die Wahrscheinlichkeiten auf Ω folgendermaßen festzulegen:
2 1 2 1 3 1 3 2
P (1, 1) = · , P (1, 0) = · , P (0, 1) = · und P (0, 0) = · .
5 2 5 2 5 3 5 3
Offenbar ist z.B. die Wahrscheinlichkeit dafür, dass die zweite gezogene Kugel rot ist:
1 1 2
P (1, 1) + P (0, 1) = + = .
5 5 5
Wir können mehrstufige Zufallsexperimente an einem Baumdiagramm veranschaulichen.
Start
2 3
5 ւ ց 5
1 0
1 1 1 2
2 ւ ց 2 3 ւ ց 3
1 0 1 0
1 1 1 2
5 5 5 5
mit
X
Pj (aj |a1 , . . . , aj−1) = 1 für alle (a1 , . . . aj−1 ) ∈ Ω1 × . . . × Ωj−1
aj ∈Ωj
gegeben ist, die Wahrscheinlichkeit P (ω) für ω = (a1 , . . . , an ) nach der ersten Pfad-
regel durch
P (ω) := P1 (a1 ) · P2 (a2 |a1 ) · . . . · Pn (an |a1 , . . . , an−1 ) .
Dann ist (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum, wenn wir für eine Teilmenge
A ⊂ Ω definieren X
P (A) = P (ω) .
ω∈A
Die Wahrscheinlichkeit eines Ereignisses A berechnet sich als Summe aller Wahr-
scheinlichkeiten, die in der n−ten Stufe zu einem ω ∈ A führen. Diese Eigenschaft
wird auch zweite Pfadregel genannt.
Häufig kommt es vor, dass die Teilexperimente von dem Ablauf der vorhergehenden Teil-
experimente unabhängig sind. Wir präzisieren dies in der folgenden
Definition 1.13. Ist ein n−stufiges Zufallsexperiment gegeben und gilt für das Sy-
stem der Übergangswahrscheinlichkeiten
und meinen dabei mit U das Ereignis, dass ein Artikel unbrauchbar ist und mit M1 , dass
der Artikel von Maschine 1 produziert wurde. Entsprechend ist
und
P (U|M3 ) = PM3 (U) = 0.04.
Betrachten wir zwei Ereignisse A und B und ihre ”Gegenereignisse” A und B, so können
wir folgende ”Tafel” aufstellen, wobei jeweils der Ergebnisraum als disjunkte Vereinigung
dargestellt wird.
B B
A A∩B A∩B
A A∩B A∩B
Unter den Ereignissen, die die ’Eigenschaft’ B erfüllen, betrachten wir noch die Ereignisse,
die zusätzlich A erfüllen. Das ergibt die bedingte Wahrscheinlichkeit PB (A). Die obige
Tafel nennt man auch eine Vierfeldertafel.
24 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
Als Beispiel blicken wir auf das statistische Jahrbuch der Bundesrepublik Deutschland aus
dem Jahre 2000, das unter den ungefähr 82,2 Millionen Einwohnern der BRD folgende
Altersstruktur aufzeigt:
Wir schreiben für das Merkmal ”Mann” kurz M und für das Merkmal ”mindestens 70
Jahre alt” kurz S. Die Wahrscheinlichkeit dafür, dass eine beliebig ausgewählte Person
ein mindestens 70 Jahre alter männlicher Einwohner ist, ist
3, 19
P (M ∩ S) = ≈ 0, 038 .
82, 17
Die Wahrscheinlichkeit dafür, dass ein männlicher Einwohner mindestens 70 Jahre alt ist,
ist
3, 19
PM (S) = ≈ 0, 08 .
40, 09
Die Wahrscheinlichkeit dafür, dass ein mindestens 70 jähriger Einwohner ein Mann ist,
ist
3, 19
PS (M) = ≈ 0, 342 .
9, 34
Als Folgerung aus Definition 1.15 erhalten wir
Bemerkung 1.16 (Multiplikationssatz). (a) Sind A, B ∈ A mit P (A) > 0 und P (B) > 0,
so folgt
P (A ∩ B) = PB (A) · P (B) = PA (B) · P (A).
Induktiv ergibt sich
(b) Sind A1 , A2 , . . . , An ∈ A mit n ≥ 2, so dass P (A1 ∩ A2 ∩ · · · ∩ Aν−1 ) > 0 gilt für alle
ν = 2, . . . , n. Dann ist
n
Y
P (A1 ∩ · · · ∩ An ) = P (A1 ) P (Aν | A1 ∩ · · · ∩ Aν−1 ).
ν=2
n
[
Satz 1.17 (Satz von der totalen Wahrscheinlichkeit). Es sei Ω = Bk eine dis-
k=1
1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 25
junkte Zerlegung mit P (Bk ) > 0 für 1 ≤ k ≤ n. Dann gilt für beliebiges A ∈ A:
n
X
P (A) = P (Bk ) · PBk (A).
k=1
Beweis. Aus
n
[ n
[
A=A∩Ω= A∩( Bk ) = (A ∩ Bk )
k=1 k=1
Wir kehren zu unserem Beispiel 1.14 zurück: Die Gesamtmenge der produzierten Artikel
können wir als disjunkte Vereinigung M1 ∪ M2 ∪ M3 auffassen. Dann gilt nach Satz 1.17
für die Wahrscheinlichkeit, dass ein beliebig herausgegriffener Artikel unbrauchbar ist:
P (U) = PM1 (U) · P (M1 ) + PM2 (U) · P (M2 ) + PM3 (U) · P (M3 )
= 0.02 · 0.3 + 0.1 · 0.5 + 0.04 · 0.2 = 0.064.
Folgerung 1.18. Es sei B ∈ A mit 0 < P (B) < 1, d.h. auch 0 < P (B) < 1. Dann
ist für beliebiges A ∈ A:
Frauen Männer
Obwohl die Zulassungsquoten der Männer diejenigen der Frauen in jedem Fach übertref-
fen, erscheint die Universität insgesamt auf den ersten Blick männerfeindlich. Das liegt
daran, dass die globale Zulassungsquote als gewichtetes Mittel der Zulassungsquoten in
den einzelnen Fächern berechnet wird; es ist
0, 74 = 0, 9 · 0, 8 + 0, 1 · 0, 2 und 0, 42 = 0, 2 · 0, 9 + 0, 8 · 0, 3
Hieran sieht man, dass durch Verschweigen gewisser Aspekte nicht mehr der Realität
entsprechende Schlussfolgerungen gezogen werden können.
Der historische Ursprung für die Entdeckung des oben geschilderten als Simpson-Para-
doxon bekannten Phänomens war wohl eine Statistik aus dem Jahre 1910 über Tbc-
Todesfälle in New York und Richmond, aufgegliedert für Weiße und Farbige. Dabei waren
die Einzeltodesraten für Weiße und Farbige in New York höher, die Gesamttodesrate war
aber in Richmond höher.
n
[
Satz 1.19 (Satz von Bayes). Es sei Ω = Bk eine disjunkte Zerlegung mit P (Bk ) >
k=1
0 für 1 ≤ k ≤ n. Ist A ∈ A beliebig mit P (A) > 0, so gilt
P (Bk ∩ A) P (Bk ∩ A)
PA (Bk ) = = n .
P (A) X
P (Bj ) · PBj (A)
j=1
P (A ∩ B)
PA (B) = .
P (B) · PB (A) + P (B) · PB (A)
Beispiel 1.20. Wir betrachten einen medizinischen Labortest zur Erkennung von Krank-
heiten. Es können bei einem solchen Test zwei Arten von Fehlern auftreten:
1. Der Patient hat die Krankheit; sie wird aber durch den Test nicht erkannt.
2. Der Patient ist gesund, wird aber aufgrund des Tests als krank diagnostiziert.
Konkret beziehen wir uns auf folgendes Beispiel:
In der BRD waren 1975 etwa 0,5 % der Bevölkerung an Tbc erkrankt. Man weiß auf-
grund langjähriger Erfahrung, dass durch eine spezielle Tbc-Röntgenuntersuchung
90 % der Kranken und 99 % der Gesunden richtig diagnostiziert werden.
Wie groß ist die Wahrscheinlichkeit, dass eine als krank diagnostizierte Person wirklich
an Tbc erkrankt ist und wie groß ist die Wahrscheinlichkeit, dass eine als gesund diagno-
stizierte Person wirklich gesund ist.
Wir betrachten zur Vereinfachung das Ereignis K: ”Die Person ist krank” und das Ereignis
N: ”Der Test fällt negativ aus”, d.h. die Person wird als gesund diagnostiziert.
Dann ergeben die obigen Daten:
P (K) = 0.005, PK (N) = 0.9, PK (N) = 0.99
1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 27
und somit
P (K) = 0.995, PK (N) = 0, 1, PK (N) = 0.01.
Wegen
P (N ∩ K) P (K) · PK (N)
PN (K) = =
P (K) · PK (N ) + P (K) · PK (N ) P (K) · PK (N) + P (K) · PK (N)
und
P (K) · PK (N)
PN (K) =
P (K) · PK (N) + P (K) · PK (N)
erhalten wir daraus
(ii) Eine Familie von Ereignissen (Ai )i∈I ⊂ A heißt paarweise (stochastisch) un-
abhängig, falls
• Eingriff des Moderators: Dieser öffnet eine der nicht-gewählten Türen, hinter der
kein Auto steht
Ai =
ˆ Auto ist hinter Tür i
1
P (Ai ) = 3
, i ∈ {1, 2, 3}
Ki =
ˆ Kandidat wählt Tür i
1
P (Ki ) = 3
, i ∈ {1, 2, 3}
Ai , Kj stochastisch unabhängig, 1 ≤ i, j ≤ 3
Qi =
ˆ Quizmaster öffnet Tür i (nicht unabhängig von Ai , Kj )
P (A1 ∩ K1 ∩ Q3 )
⇒ P (A1 |K1 ∩ Q3 ) =
| {z } P (K1 ∩ Q3 )
Bleibestrategie
P (Q3 |A1 ∩ K1 )
= · P (A1 ∩ K1 ).
P (K1 ∩ Q3 )
Es ist
P (K1 ∩ Q3 ) = P (K1 ∩ Q3 ∩ A1 ) + P (K1 ∩ Q3 ∩ A2 ) + P (K1 ∩ Q3 ∩ A3 )
| {z }
=0
Analog folgt
P (Q3 | A2 ∩ K1 ) 1 1 2
P (A2 | K1 ∩ Q3 ) = · P (A2 ∩ K1 ) = 1 · = ,
P (K1 ∩ Q3 ) 6
9 3
Beweis. (Übung)
Beispiel 1.24. Werfen von 2 fairen Würfeln, d.h. Laplaceverteilung über Ω = {(i, j) |
i, j ∈ {1, . . . , 6}}.
Wir bezeichnen mit
A1 =
ˆ Würfel 1 zeigt eine gerade Zahl,
A2 =
ˆ Würfel 2 zeigt eine gerade Zahl,
A3 =
ˆ die Augensumme ist gerade.
Es gilt
1
P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) = ,
4
d.h. A1 und A2 sind stochastisch unabhängig. Weiterhin gilt
1 1
P (A3 | A1 ) = P (A3 ) = und P (A3 | A2 ) = P (A3 ) = .
2 2
Nach dem in Lemma 1.23 bewiesenen Kriterium sind also auch A2 und A3 stochastisch
unabhängig; A1 und A3 sind ebenfalls stochastisch unabhängig. Also wissen wir, dass
{A1 , A2 , A3 } paarweise stochastisch unabhängig sind.
Nun gilt
1 1
P (A1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 ) = und P (A1 ) · P (A2 ) · P (A3 ) = ,
4 8
und damit
P (A1 ∩ A2 ∩ A3 ) 6= P (A1 ) · P (A2 ) · P (A3 ),
d.h. A1 , A2 , A3 sind NICHT stochastisch unabhängig.
Beispiel 1.25 (Sortieren (Rencontre-Problem)). Betrachte Felder der Länge n von ver-
gleichbaren, verschiedenen Elementen. Alle Anordnungen seien gleichwahrscheinlich. Mo-
delliere die Situation wie folgt:
Ω = {Permutationen von {1, . . . , n}}
A = P(Ω)
1
P ({ω}) = ∀ω ∈ Ω.
n!
Teil a: Bestimme die Wahrscheinlichkeit, dass mindestens ein Element an der richtigen
Stelle ist (vorsortiert). Definiere dazu Ereignismengen Aj , welche jeweils alle Ergebnisse
beinhalten, bei denen Element j an der j-ten Stelle ist, wie folgt:
Aj = {ω = (ω1 , . . . , ωn ) ∈ Ω | ωj = j}.
Sn
Gesucht ist dann P (A1 ∪ . . . ∪ An ) = P j=1 Aj . Da die Aj sicher nicht paarweise
die Menge aller Permutationen, bei denen die Elemente i1 , . . . , il sich an der richtigen
Stelle befinden. Die Mächtigkeit dieser Menge ist
l
\
Aij = (n − l)!,
j=1
weil man die gegebenen l Elemente auf die richtigen Positionen verteilen muss, dann aber
die verbliebenen (n − l) Elemente beliebig auf die restlichen (n − l) Positionen verteilen
darf. Die Wahrscheinlichkeit dafür, dass sich die l Elemente i1 , . . . , il auf den richtigen
Positionen befinden, ist deshalb
l
\
(n − l)! 1
P Aij = = , l = 1, . . . , n.
n
j=1
n! l
l!
Außerdem ist die Mächtigkeit der Menge aller l-elementigen Teilmengen von n, also die
Menge aller Möglichkeiten, zunächst l Elemente aus den vorhandenen n auszuwählen
n
| {(i1 , . . . , il ) | 1 ≤ i1 < . . . < il ≤ n} |= .
l
Insgesamt ergibt sich für die Wahrscheinlichkeit, dass mindestens ein Element sich an der
richtigen Position befindet
Xn X n
\
Sn Siebformel n+1
P j=1 Aj = P (Aj ) − P (Ai ∩ Aj ) + · · · + (−1) P Aj
j=1 i<j j=1
n n 1 n+1 n 1
= − n
+ · · · + (−1) n
n 2 2 2! n n n!
1 1 (−1)n+1
= 1− + −···+
2! 3! n!
1 1 1 (−1)n
= 1− 1− + − −···+
1! 2! 3! n!
n→∞
−→ 1 − e−1 ≈ 0, 6321.
Erstaunlicherweise konvergiert die Wahrscheinlichkeit gegen einen festen Wert. Das be-
deutet, dass die Wahrscheinlichkeit dafür, ob mindestens ein Element in einem Feld der
Länge n an der richtigen Position ist, für große n fast unabhängig von n ist.
Teil b: Eine Abschätzung dafür, dass mindestens k Elemente vorsortiert sind
k
\
S Tk Satz 1.7 X
P 1≤i1 <...<ik ≤n l=1 Ail ≤ P Ail
1≤i1 <...<ik ≤n l=1
n
1 1
= k
·
n = .
k
k! k!
Nach Teil a beträgt die Wahrscheinlichkeit dafür, dass in einem Feld der Länge n − k kein
Element vorsortiert ist
1 1 (−1)n−k
1 − + − ...+ .
1! 2! (n − k)!
Daher ist die Anzahl der Anordnungen, bei denen kein Element vorsortiert ist,
1 1 (−1)n−k
(n − k)! · 1 − + − . . . + .
1! 2! (n − k)!
Nun gibt es noch nk Möglichkeiten, ein Feld der Länge n in eines der Länge k und eines
der Länge n − k aufzuteilen. Somit ergibt sich für die Wahrscheinlichkeit, dass k Elemente
vorsortiert sind
1 n 1 1 (−1)n−k
(n − k)! 1 − 1! + 2! − . . . + (n−k)!
n! k
1 1 1 (−1)n−k
= 1 − + − ...+ .
k! 1! 2! (n − k)!
Wie werden Wahrscheinlichkeiten bestimmt, wenn schon bekannt ist, dass das Ergebnis
in einer bestimmten Teilmenge liegt?
Sei beispielsweise Ω eine Menge von Chips, die von zwei verschiedenen Firmen stammen
und |Ω| = 5000. Von Firma A stammen |A| = 1000 Chips und von Firma B |B| = 4000
Chips. Unter den 5000 Chips sind insgesamt |D| = 300 defekt, von denen |A ∩ D| = 100
von Firma A und |B ∩ D| = 200 von Firma B stammen. Von Firma A sind also 10%
aller Chips defekt und von Firma B 5%. Es werde nun zufällig ein Chip gezogen (Laplace
Modell). Die Wahrscheinlichkeit dafür, dass der Chip defekt ist, falls er von Firma A
stammt ist
|D∩A| 100
|D ∩ A| |Ω| P (D ∩ A) 1
P (D | A) = = |A| = = 5000
1000 = .
|A| P (A) 5000
10
|Ω|
Die Wahrscheinlichkeit, dass ein Chip von Firma A stammt, falls er defekt ist, ist
A∩D
|A ∩ D| |Ω| 1
P (A | D) = = |D|
= .
|D| 3
|Ω|
32 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
Kapitel 2
Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der
Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer fassen.
X :Ω→R
X(Ω) = {x1 , x2 , . . .}
Beispiel 2.2. Wir betrachten einen Laplace-Würfel; wir werfen ihn dreimal. X ordne
jedem (dreimaligen) Wurf die Augensumme zu; dann ist X(Ω) = {3, 4, . . . , 18}. Wir
berechnen z. B.
X −1 ({4}) = {(1, 1, 2), (1, 2, 1), (2, 1, 1)}
oder
X −1 ([2.5, 4.8]) = X −1 ({3}) ∪ X −1 ({4})
= {(1, 1, 1)} ∪ X −1 ({4}).
Betrachten wir dann die Wahrscheinlichkeit P (X −1({4})) , so erhalten wir
3 1
P (X −1 ({4})) = = .
216 72
1
Man schreibt auch P (X = 4) = . Damit haben wir Teilmengen von R über den
72
Wahrscheinlichkeitsraum eine Wahrscheinlichkeit zugeordnet.
33
34 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
V = VX : X(Ω) −→ [0, 1]
x 7→ V (x) = P (X = x).
F (x) = P (X ≤ x)
Beispiel 2.4. Ein Laplace-Würfel wird dreimal geworfen. Die Zufallsvariable X bezeichne
die Anzahl der ungeraden Zahlen, die dabei geworfen wird. Es ist X(Ω) = {0, 1, 2, 3}.
Bezeichnet G das Ergebnis, dass eine gerade Augenzahl gewürfelt wird und U das Ereignis,
dass sich eine ungerade Augenzahl ergibt, so erhalten wir (wegen der Unabhängigkeit der
Ereignisse)
1 3
P (X = 0) = P (GGG) = = 0.125,
2
P (X = 1) = P (UGG) + P (GUG) + P (GGU)
1 3
= 3· = 0.375,
2
P (X = 2) = P (UUG) + P (UGU) + P (GUU)
1 3
= 3· = 0.375,
2
und
1
P (X = 3) = P (UUU) = ( )3 = 0.125.
2
Die Verteilungsfunktion F = FX von X ist dann eine Treppenfunktion mit
0 für x < 0
0.125 für 0 ≤ x < 1
FX (x) = 0.5 für 1 ≤ x < 2
0.875 für 2 ≤ x < 3
1 für 3 ≤ x.
Satz 2.5. Ist X eine diskrete Zufallsvariable mit Wertemenge X(Ω) = {xi | i ∈
N} ⊂ R, so gilt für die zugehörige Verteilungsfunktion F :
P
(a) Für x ∈ R ist F (x) = P (X ≤ x) = xi ≤x P (X = xi ).
2.2. ERWARTUNGSWERT UND VARIANZ DISKRETER ZUFALLSVARIABLEN 35
Bemerkung 2.6. In Teil (a) von Satz 2.5 benutzen wir die Diskretheit der Zufallsva-
riablen, und zwar um die Summe auf der rechten Seite bilden zu können. Warum diese
unendliche Summe im mathematischen Sinne existiert wird in der Vorlesung “Mathematik
1” begründet. Ebenfalls in der Vorlesung “Mathematik 1” wird das Symbol lim und der
x→∞
Begriff des (uneigentlichen) Grenzwerts von Funktionen erklärt. (Siehe auch das Kapitel
“Grundlegendes aus der Analysis” in diesem Skript).
die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert im Intervall ]a, b]
annimmt.
X
Definition 2.9. Sei X eine diskrete Zufallsvariable. Falls die Reihe |X(ω)|P (ω)
ω∈Ω
konvergiert, so heißt X
E(X) = X(ω)P (ω) (2.1)
ω∈Ω
Beispiel 2.11. Wir betrachten das wiederholte Würfeln mit einem fairen Würfel. Wie
lange muss man im Mittel auf die erste Sechs warten. Wir haben es hier mit einem Ex-
periment mit zwei möglichen Ergebnissen zu tun, nämlich mit Erfolg (eine Sechs) oder
Misserfolg (keine Sechs). Bei einem fairen Würfel tritt der Erfolg mit der Wahrscheinlich-
1 5
keit p = und der Misserfolg mit der Wahrscheinlichkeit q = 1 − p = ein. Gibt die
6 6
Zufallsvariable X die Anzahl der Versuche bis zum 1. Auftreten des Erfolgs an, so ist
pk = P (X = k) = q k−1 p.
Dann gilt (geometrische Reihe!):
∞ ∞ ∞
X X X p
P (X = k) = p q k−1 = p qk = = 1.
1−q
k=1 k=1 k=0
∞
X
Um den Reihenwert zu bestimmen, betrachten wir die Potenzreihe xk , die für |x| < 1
k=0
konvergiert; wir dürfen gemäß Kapitel 1 aus Math. für Inf. 2 die Potenzreihe differenzieren,
indem wir gliedweise differenzieren; wir erhalten so
∞ ∞
!
X
k−1 d X
k d 1 1
kx = x = = 2
.
k=1
dx k=0
dx 1 − x (1 − x)
Zudem gilt:
E(X + Y ) = E(X) + E(Y ). (2.3)
(iii) Monotonie des Erwartungswerts: Gilt X ≤ Y , d.h. X(ω) ≤ Y (ω) für alle
ω ∈ Ω, so folgt
E(X) ≤ E(Y ).
Beweis. Wir beweisen hier nur Teil (i). Zu (2.2): Wir halten etwas allgemeiner fest: Ist
X eine diskrete Zufallsvariable mit X(Ω) = {x1 , x2 , . . .} und g : R → R eine bijektive
Funktion, so ist auch g ◦ X eine diskrete Zufallsvariable, und es gilt
X X
E(g ◦ X) = g(xi )P (g ◦ X = g(xi )) = g(xi )P (X = xi ),
i i
X
falls die Reihe |g(xi )|P (X = xi ) konvergiert. Speziell für g(x) = ax + b mit zwei
i
Konstanten a, b ∈ R erhalten wir
E(aX + b) = aE(X) + b.
(Für a = 0 folgt E(b) = b sofort aus der Definition 2.9.)
Wir beweisen nun (2.3). Es gilt
X X
E(X + Y ) = (X + Y )(ω)P ({ω}) = (X(ω) + Y (ω))P ({ω})
ω∈Ω ω∈Ω
X X
= X(ω)P ({ω}) + Y (ω)P ({ω}) = E(X) + E(Y ).
ω∈Ω ω∈Ω
Im letzten Schritt haben wir die Grenzwertsätze für konvergente Reihen aus Mathe 1
benutzt.
Während der Erwartungswert eine Maßzahl für den ”Schwerpunkt” einer Verteilung ist,
ist die Varianz eine Maßzahl für die ”Streuung” um diesen Schwerpunkt.
Definition 2.13. (a) Ist X eine diskrete Zufallsvariable und existiert E(X 2 ), so
heißt X
V ar(X) := E((X − E(X))2 ) = (xi − E(X))2 pi
i
38 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
(b) p
σ := σX := V ar(X)
heißt Standardabweichung von X.
(c) Ist Y eine weitere Zufallsvariable, für die E(Y 2 ) existiert, so heißt
Beispiel 2.14. Die Zufallsvariable gebe die höchste Augenzahl beim zweimaligen Würfeln
an. Ist Ω := {(i, j) | 1 ≤ i, j ≤ 6}, so ist X(ω) := max(i, j) für ω = (i, j). Definieren wir
1
für ein Elementarereignis P (ω) = , so erhalten wir:
36
1 3 5
P (X = 1) = , P (X = 2) = , P (X = 3) = ,
36 36 36
7 9 11
P (X = 4) = , P (X = 5) = , und P (X = 6) = .
36 36 36
Für den Erwartungswert ergibt sich somit
1 3 5 7 9 11 161 17
E(X) = 1 · +2· +3· +4· +5· +6· = =4 .
36 36 36 36 36 36 36 36
Nun berechnen wir die Varianz
6 2
X 161 2i − 1 2555
V ar(X) = i− · = ≈ 1.97.
i=1
36 36 1296
Unmittelbar aus der Definition der Kovarianz und aus Satz 2.12 (ii) folgt
Satz 2.15. Sind zwei diskrete Zufallsvariable X und Y unabhängig, so sind sie auch
unkorreliert.
Bezeichnen wir das Ereignis A mit 1 und das Ereignis A mit 0, so ist der Grundraum für
das n-stufige Zufallsexperiment die Menge
Ω = {0, 1}n = {(ω1 , . . . , ωn ) | ωi ∈ {0, 1}, 1 ≤ i ≤ n}
mit
P (ω) = pk (1 − p)n−k , wenn k die Anzahl der Einsen in ω ist .
Das Ereignis, dass insgesamt k-mal das Ereignis A eintritt, lässt sich in der Form
Xn
Ek = {ω ∈ Ω | ωi = k}
i=1
beschreiben. Dann gilt also:
n k
P (Ek ) = p (1 − p)n−k .
k
Erklären wir Sn als die Zufallsvariable, die zählt, wie oft das Ereignis A eintritt, so erhalten
wir
n k
P (Sn = k) = P (Ek ) = p (1 − p)n−k .
k
40 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
P (X ≤ m) = 1 − P (X ≤ n − m − 1) .
n n
Beweis. Die Behauptung in (a) folgt aus = . Die Behauptung in (b)
k n−k
ergibt sich dann wie folgt:
m
X m
X n
X
P (X ≤ m) = Bn,p (k) = Bn,1−p (n − k) = Bn,1−p (ℓ)
k=0 k=0 ℓ=n−m
n
X
= P (X = ℓ) = P (X ≥ n − m) = 1 − P (X < n − m) .
ℓ=n−m
Beispiel 2.19. Aus einer Urne mit genau 30 Kugeln, nämlich 12 weißen und 18 roten
werden (blind) nacheinander und mit Zurücklegen genau 50 Kugeln entnommen. Wir
berechnen die Wahrscheinlichkeit dafür, dass von den entnommenen Kugeln höchstens
die Hälfte rot ist.
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 41
Mit X bezeichnen wir die Zufallsvariable, die die Anzahl der roten unter den entnommenen
Kugeln angibt. Dann ist X binomial-verteilt mit n = 50 und p = 18 30
= 0.6. Wir müssen
P (X ≤ 25) berechnen, d.h.
25 25
X X 50
P (X ≤ 25) = P (X = k) = 0.6k 0.450−k .
k
k=0 k=0
Diesen Wert können wir z.B. mit dem Taschenrechner berechnen. Es gibt jedoch für
die Binomial-Verteilung auch Tabellen, aus denen man die Werte für die sogenannten
kumulativen Wahrscheinlichkeiten
m
X
P (X ≤ m) = Bn,p (k), 0 ≤ m ≤ n,
k=0
in Abhängigkeit von p und n ablesen kann. Diese Binomial-Tabellen beinhalten aber nur
Werte für 0 < p ≤ 0.5 und in der Regel n = 10, 20, 50, 100. Wir erhalten in unserem
Beispiel nach Satz 2.18 wegen 1 − p = 0.4 und n − m − 1 = 24:
Satz 2.20. Ist X B(n, p)−verteilt, so gilt für den Erwartungswert E(X) = np und
für die Varianz V ar(X) = np(1 − p).
= np [p + (1 − p)]n−1 = np.
42 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
P (X = k) = (1 − p)k p.
Beachte, dass die geometrische Verteilung die Kriterien einer diskreten Wahrscheinlich-
keitsverteilung erfüllt, denn mithilfe der geometrischen Reihe berechnen wir
∞ ∞
X X 1
P (X = k) = (1 − p)k p = p = 1. (2.5)
k=0 k=0
1 − (1 − p)
1−p
Satz 2.22. Ist X G(p)−verteilt, so gilt für den Erwartungswert E(X) = =
p
1 1−p
− 1 und für die Varianz V ar(X) = .
p p2
Beweis. Der oben erwähnte Vergleich mit Beispiel 2.11 erklärt, weshalb der Erwartungs-
wert hier um 1 kleiner als in Beispiel 2.11 ist; dies lässt sich natürlich auch analog der
dortigen Rechnung nachrechnen.
Für die Varianz ergibt sich wegen
2 2(1 − p)2
= p(1 − p)2 =
(1 − (1 − p))3 p2
und damit 2
2(1 − p)2 1 − p 1−p 1−p
V ar(X) = + − = .
p2 p p p2
Bemerkungen 2.25. Definiert man für negative ganze Zahlen m und k ∈ N0 den Bino-
mialkoeffizienten durch
m m · (m − 1) · . . . · (m − k + 1)
:= ,
k k!
so gilt für den Binomialkoeffizienten aus Definition 2.24:
k+r−1 (k + r − 1) · . . . · (k + r − 1 − k + 1) (k + r − 1) · . . . · r
= =
k k! k!
44 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
k (−r) · (−r − 1) · . . . · (−r − k + 1) k −r
= (−1) = (−1) .
k! k
Dies erklärt die Namensgebung für die Negative Binomial-Verteilung. Wir prüfen wieder,
dass die Kriterien einer diskreten Wahrscheinlichkeitsverteilung erfüllt sind:
∞ ∞
X k+r−1 r k r
X
k −r
p (1 − p) = p (−1) (1 − p)k
k=0
k k=0
k
∞
X
r −r
= p (−(1 − p))k = 1 .
k=0
k
Die zuletzt angegebene unendliche Reihe stellt nämlich die Binomialreihe mit Exponent
−r dar; daher gilt
∞
X −r 1
(−(1 − p))k = (1 − (1 − p))−r = r .
k=0
k p
und entsprechend
r(r + 1)(1 − p)2
E(X(X − 1)) = ,
p2
woraus wegen
V ar(X) = E(X(X − 1)) + E(X) − E(X)2
folgt
r(r + 1)(1 − p)2 r(1 − p) r 2 (1 − p)2 r(1 − p)
V ar(X) = 2
+ − 2
= .
p p p p2
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 45
Beispiel 2.27. Als Variante von Beispiel 2.23 fragen wir nach der Wahrscheinlichkeit,
dass das r-te erfolgreiche Experiment im j-ten Versuch (mit j ≥ r) auftritt. Also müssen
unter den ersten j − 1 Experimenten r − 1 Erfolge und j − r Misserfolge aufgetreten sein.
Das j-te Experiment muss wieder erfolgreich sein. Wir identifizieren den Erfolg wieder
mit der Zahl 1 und den Misserfolg mit der 0. Da jedes j-Tupel aus j − r Nullen und r
Einsen mit der Wahrscheinlichkeit
(1 − p)j−r pr
j−1
auftritt und da es r−1 Möglichkeiten gibt, ein (j − 1)-Tupel mit r − 1 Einsen (und (j − r)
Nullen) zu bilden, erhalten wir als Wahrscheinlichkeit pr,j für den r-ten Erfolg im j-ten
Experiment
j −1
pr,j = (1 − p)j−r pr für j = r, r + 1, . . .
r−1
Mit der Substitution k = j − r erhalten wir
k+r−1 j−r r k+r−1
pr,r+k = (1 − p) p = (1 − p)k pr
r−1 k
für k = 0, 1, 2, . . . Dies ist die Wahrscheinlichkeit dafür, dass im (r + k)-ten Experiment
der r-te Erfolg eintritt.
Bemerkungen 2.30. a) Dass die Summe der Wahrscheinlichkeiten gleich 1 ist, ergibt
sich aus der sog. Vandermondeschen Faltungsformel
n
X S N −S N
=
m=0
k n−k n
46 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
b) Verwenden wir die Schreibweise aus Abschnitt 1.2, so lässt sich die Wahrscheinlich-
keit aus Definition 2.29 auch folgendermaßen darstellen:
n (S)k (N − S)n−k S S!
P (X = k) = , (S)k := k! = .
k (N)n k (S − k)!
S
E(X) = n
N
und für die Varianz
S S N −n
V ar(X) = n 1− .
N N N −1
Beweis. Es ist
n
X n (S)k (N − S)n−k
E(X) = k
k=0
k (N)n
n
S X n − 1 (S − 1)k−1(N − 1 − (S − 1))n−1−(k−1)
= n
N k=1 k − 1 (N − 1)n−1
n−1
S X n − 1 (S − 1)k (N − 1 − (S − 1))n−1−k S
= n = n .
N k=0 k (N − 1)n−1 N
Wegen V ar(X) = E(X(X − 1)) + E(X) − E(X)2 folgt für die Varianz
2
S(S − 1) S 2S S S N −n
V ar(X) = n(n − 1) +n −n 2 =n 1− .
N(N − 1) N N N N N −1
Bemerkungen 2.32. Die Formel für die Varianz sieht übersichtlicher aus, wenn man
die Wahrscheinlichkeit, im ersten Zug ein Element mit der Eigenschaft A zu ziehen, mit
S
p := bezeichnet; dann erhalten wir
N
N −n
V ar(X) = np(1 − p) .
N −1
Man kann sich übrigens überlegen, dass die Wahrscheinlichkeit, im k-ten Zug ein Element
S
mit der Eigenschaft A zu ziehen, ebenfalls p = ist.
N
Wenn wir für die Binomialverteilung als Modell das Ziehen von Kugeln aus einer Urne
mit Zurücklegen wählen und als Modell für die hypergeometrische Verteilung das Ziehen
von Kugeln aus einer Urne ohne Zurücklegen, so liefert der Vergleich der Varianzen
n−1
V ar(X1 ) = np(1 − p) und V ar(X2 ) = np(1 − p) 1 − ,
N −1
also beim zweiten Modell eine kleinere Varianz als beim ersten Modell. Der Grund hierfür
ist der Informationsgewinn beim Ziehen ohne Zurücklegen.
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 47
λk −λ
P (X = k) = e .
k!
Wir sagen kurz: X ist P (λ)−verteilt.
Satz 2.34. Ist X P (λ)-verteilt, so gilt für den Erwartungswert bzw. die Varianz
∞ ∞ ∞
X λk −λ −λ
X λk −λ
X λk−1
E(X) = k e =e =e λ = λ,
k! (k − 1)! (k − 1)!
k=0 k=1 k=1
∞
x
X xk
wobei wir e = , x ∈ R, verwendet haben. Wegen k 2 = k(k − 1) + k gilt weiter
k=0
k!
∞
X λk −λ
V ar(X) = (k − λ)2 ·e
k!
k=0
∞ ∞ ∞ ∞
!
X λk X λk X λk X λk
= e−λ + − 2λ + λ2
k=2
(k − 2)! k=1 (k − 1)! k=1
(k − 1)! k=0
k!
= e−λ λ2 eλ + λeλ − 2λ2 eλ + λ2 eλ = λ.
Bemerkungen 2.35. Für große n und kleine p gibt es eine Möglichkeit, die Bn,p −Verteilung
µ
durch die Poisson-Verteilung zu ersetzen. Dazu betrachten wir mit µ = np, d.h. p = ,
n
folgende Beziehung:
n k
Bn,p (k) = p (1 − p)n−k
k
µ n
n(n − 1)(n − 2) · . . . · (n − k + 1) µk 1 − n
= · k· k
k! n 1− µ n
1 2 k−1 k
1 · (1 − n
)(1 − · . . . · (1 −
n
) n
) µ µ n
= · · 1−
(1 − µn )k k! n
1 2
1 1− n
1− n
1 − k−1
n µk µ n
= µ · µ · µ · ...· · · 1 −
1− n
1− n
1− n
1 − nµ k! n
Für n → ∞ konvergieren
die ersten k Faktoren gegen 1, wenn wir µ als fest auffassen.
x x n
Wegen e = lim 1 + , x ∈ R, konvergiert der letzte Faktor gegen e−µ . Daraus ergibt
n→∞ n
48 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
Beispiel 2.36. In einen Teig werden 250 Rosinen geknetet und dann daraus 200 Hörnchen
gebacken. Wir wählen ein Hörnchen beliebig aus. Mit welcher Wahrscheinlichkeit enthält
es genau 2 Rosinen?
1
Wir gehen davon aus, dass für jede der 250 Rosinen die gleiche Wahrscheinlichkeit
200
besteht, in das ausgewählte Hörnchen zu gelangen. Das Ereignis A tritt ein, wenn sich
die ”Rosine Nr. i” im ausgewählten Hörnchen befindet. Dann lässt sich das Geschehen
1
durch eine Binomial-Verteilung mit n = 250 und p = beschreiben. Die gesuchte
200
Wahrscheinlichkeit ist
2 248
250 1 199
B250, 1 (2) = ≈ 0.22448 ;
200 2 200 200
1.252
B250, 1 (2) ≈ e−1.25 ≈ 0.22383 .
200 2!
Satz 2.38 (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariable mit
beschränkter Varianz). Seien X1 , . . . , Xn paarweise unabhängige Zufallsvariable mit
gleichem Erwartungswert und endlicher Varianz V ar(Xk ) ≤ M für 1 ≤ k ≤ n. Dann
gilt für alle ε > 0:
1 M
P (X1 + . . . + Xn ) − E(X1 ) ≥ ε ≤ 2 .
n nε
1
Beweis. Es sei X := (X1 + . . . + Xn ). Dann ist E(X) = E(X1 ) und nach Satz 2.16 (ii)
n
und (v) folgt:
n
1 1 X M
V ar(X) = 2 V ar(X1 + . . . + Xn ) = 2 V ar(Xk ) ≤ .
n n k=1 n
b) Das schwache Gesetz der großen Zahlen besagt, dass die Folge der arithmetischen
Mittel von unabhängigen Zufallsvariablen mit gleichem Erwartungswert µ und be-
schränkter Varianz stochastisch gegen µ konvergiert. In diesem Sinne wird die in-
tuitive Vorstellung des Erwartungswertes als ein bei häufiger Durchführung des Ex-
perimentes erhaltener durchschnittlicher Wert präzisiert.
50 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
Kapitel 3
Stetige Zufallsvariable
Die Funktion
F : R → [0, 1] Rx
x 7→ P (X ≤ x) = −∞ f (t)dt
heißt Verteilungsfunktion von X, die Funktion f heißt Dichte der Zufallsvariablen X.
f (x) F (x)
1
(b−a) 1
0 0
x x
a b a b
Ohne Beweis geben wir die folgenden beiden Sätze an, die den Sätzen 2.5 bzw. 2.7 für
diskrete Zufallsvariable entsprechen:
51
52 KAPITEL 3. STETIGE ZUFALLSVARIABLE
Satz 3.2. Ist X eine stetige Zufallsvariable mit Verteilungsfunktion F und Dichte f ,
so gilt:
Satz 3.3. Ist F die Verteilungsfunktion einer stetigen Zufallsvariablen X mit Dichte
f , so gilt für alle reellen Zahlen a < b:
Rb
(a) P (a < X ≤ b) = F (b) − F (a) = a f (t)dt.
R∞
(b) P (X > a) = 1 − F (a) = a f (t)dt.
2
1 x
Beispiel 3.4. Es sei f (x) = √ exp − für x ∈ R; dann ist f nichtnegativ, stetig,
2π 2
und es gilt nach [4, Satz 11.28]:
Z ∞ 2
1 x
√ exp − dx = 1.
−∞ 2π 2
x2
1 −
f (x) = √ e 2
2π
f (x)
0.50
0.25
x
−4 −3 −2 −1 0 1 2 3 4
3.2. ERWARTUNGSWERT UND VARIANZ STETIGER ZUFALLSVARIABLER 53
Definition 3.5. Zwei stetige Zufallsvariable X und Y heißen unabhängig, wenn die
Ereignisse (X ≤ x) und (Y ≤ y) für beliebige (x, y) ∈ R2 unabhängig sind, d.h. wenn
P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x) · P (Y ≤ y)
(b) Ist X eine stetige Zufallsvariable mit der Dichtefunktion f derart, dass E(X 2 )
existiert, so definiert man die Varianz durch
Z ∞
V ar(X) := (x − E(X))2 f (x)dx.
−∞
p
σ = σX = V ar(X) heißt Standardabweichung von X.
Die in Satz 2.12 sowie Satz 2.16 studierten Eigenschaften des Erwartungswerts und der
Varianz diskreter Zufallsvariablen gelten auch für stetige Zufallsvariablen. Ebenfalls läßt
sich die Ungleichung von Tschebyscheff und das Schwache Gesetz großer Zahlen aus Ab-
schnitt 2.4 auf stetige Zufallsvariable übertragen.
den Parametern α > 0 und λ > 0, wenn ihre Dichte gegeben ist durch
λα α−1 −λx
Γ(α)
x e , x≥0
f (x) =
0, x < 0.
Die Form der Verteilungsfunktion hängt stark von α ab. Man nennt daher α den Form-
parameter der Gamma-Verteilung. Für α = 1 erhält man die Exponentialverteilung.
Der Parameter λ heißt Skalierungsparameter. Multipliziert man nämlich eine Gamma-
verteilte Zufallsvariable X mit einer Konstanten β, so erhält man wieder eine Gamma-
verteilte Zufallsvariable mit gleichem α, der Parameter λ wird durch βλ ersetzt. Einer
Änderung von λ entspricht also die Änderung der Maßeinheit beim zugrundeliegenden
Zufallsexperiment.
Die Gamma-Funktion ist eine Verallgemeinerung der Fakultät: Direkte Integration zeigt
Γ(1) = 1,
woraus insbesondere
Γ(n) = (n − 1)!, n ∈ N,
√
folgt. Ferner gilt: : Γ( 12 ) = π. Für α 6∈ N ist es nicht möglich, einen geschlossenen
Ausdruck für die Wahrscheinlichkeit P (a < X ≤ b) anzugeben.
Definition 3.8. Eine stetige Zufallsvariable heißt normal-verteilt mit den Parame-
tern µ und σ (kurz: X ∼ N(µ, σ 2 )), wenn die Dichtefunktion folgende Gestalt hat:
2 !
1 1 x−µ
f (x) = √ exp − .
σ 2π 2 σ
Wir sagen kurz: X ist N(µ, σ 2 )-verteilt. Die Dichtefunktion aus Beispiel 3.4 ergibt
sich mit σ = 1 und µ = 0; die N(0, 1)-Verteilung heißt Standardnormalverteilung.
3.3. WICHTIGE STETIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 55
(x − µ)2
1 −
f (x) = √ e 2σ 2
2πσ
Wendepunkt Wendepunkt
µ x
µ−σ µ+σ
x−µ
Satz 3.9. Ist X N(µ, σ 2 )-verteilt, so erhalten wir mit der Substitution =t
σ
Z ∞ 2 !
1 1 x−µ
E(X) = √ x exp − dx
σ 2π −∞ 2 σ
Z ∞
1 1 2
= √ (σt + µ) exp − t σdt
σ 2π −∞ 2
Z ∞
1 −1 2
= √ µ exp t dt = µ
2π −∞ 2
und
Z ∞ 2 !
1 2 −1 x − µ
V ar(X) = √ (x − µ) exp dx
σ 2π −∞ 2 σ
Z ∞
1 2 2 −1 2
= √ σ t exp t σ dt
σ 2π −∞ 2
√ Z ∞ Z
2 2 2 1 2 2 2 ∞√
= √ σ t exp − t dt = √ σ u exp(−u) du
π 0 2 π 0
2 3 2 1 1
= √ σ 2 Γ( ) = √ σ 2 Γ( ) = σ 2 .
π 2 π 2 2
Z ∞
mit der Gammafunktion Γ(x) := ux−1 exp(−u) du, x > 0, die Γ(x + 1) = x · Γ(x)
√ 0
sowie Γ( 21 ) = π erfüllt.
Bemerkungen 3.10. Ist X N(0, 1)-verteilt (X ∼ N(0, 1)), so bezeichnet man üblicher-
weise die zugehörige Verteilungsfunktion mit φ, d.h.
Z x
1 1 2
φ(x) = √ exp − t dt .
2π −∞ 2
56 KAPITEL 3. STETIGE ZUFALLSVARIABLE
Die Wahrscheinlichkeit, dass X Werte im Intervall ]a, b] mit a < b annimmt, ist dann
P (a < X ≤ b) = φ(b) − φ(a). Da man φ nicht mit elementaren Funktionen darstellen
kann, gibt es Tabellen, in denen viele Werte von φ eingetragen sind. Um diese Tabellen zu
erzeugen, entwickelt man den Integranden in eine Potenzreihe, integriert gliedweise und
wertet die entstehende Reihe numerisch aus.
In den Tabellen sind allerdings nur Werte φ(x) für x ≥ 0 angegeben. Wegen der Symmetrie
der Dichtefunktion ergibt sich für x > 0
φ(−x) = 1 − φ(x) .
Beispiel 3.12. Ein Werkstück soll eine Bohrung erhalten mit einem Durchmesser von 50
mm. Die Toleranzgrenzen sind tu = 49.97 mm und to = 50.04 mm. Es sei bekannt, dass die
von den Bohrautomaten erstellten Bohrungen N(µ, σ 2 )-verteilt sind, wobei µ = 50 mm
und σ = 0.02 mm gelten soll. Ein Werkstück ist Ausschuss, wenn der Durchmesser größer
als to ausfällt. Ist der Durchmesser kleiner als tu , so muss eine Nachbohrung durchgeführt
werden.
a) Wie groß ist die Wahrscheinlichkeit, dass die Bohrung sofort qualitätsgerecht aus-
fällt?
3.3. WICHTIGE STETIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 57
b) Wie groß ist die Wahrscheinlichkeit dafür, dass das Werkstück nachgebessert werden
muss?
Um die erste Frage zu beantworten, gilt mit den Bemerkungen 3.10 und einer Tabelle
50.04 − 50 49.97 − 50
P (tu ≤ X ≤ to ) = φ −φ = φ(2) − φ(−1.5)
0.02 0.02
Also ist mit einer Wahrscheinlichkeit von ungefähr 6,68 % von einer Nachbesserung aus-
zugehen. Für die Ausschusswahrscheinlichkeit gilt
50.04 − 50
P (X > to ) = 1 − P (X ≤ to ) = 1 − φ = 1 − φ(2) ≈ 0.0228 .
0.02
Bemerkung 3.13. Häufig ist man an der Wahrscheinlichkeit interessiert, dass die N(µ, σ 2 )-
verteilte Zufallsvariable Werte in einem zu µ symmetrischen Intervall [µ − kσ, µ + kσ] mit
k ∈ N annimmt. Es ist üblich, die Abweichung von µ in Einheiten von σ anzugeben.
Deshalb spricht man vom kσ-Intervall. Wir erhalten aus den Bemerkungen 3.10:
P µ − kσ ≤ X ≤ µ + kσ = φ(k) − φ(−k) = 2φ(k) − 1 .
P (µ − 1 · σ ≤ X ≤ µ + 1 · σ) = 2φ(1) − 1 ≈ 0.6826 ,
P (µ − 2 · σ ≤ X ≤ µ + 2 · σ) = 2φ(2) − 1 ≈ 0.9544 ,
P (µ − 3 · σ ≤ X ≤ µ + 3 · σ) = 2φ(3) − 1 ≈ 0.9974 .
Also liegen ca. 68 % der beobachteten Werte bei einer N(µ, σ 2 )-verteilten Zufallsvariablen
zwischen µ − σ und µ + σ, ca. 95 % liegen zwischen µ − 2σ und µ + 2σ und ca. 99.7 %
liegen zwischen µ − 3σ und µ + 3σ.
58 KAPITEL 3. STETIGE ZUFALLSVARIABLE
Wir haben in Definition 3.14 festgelegt, dass das Quadrat einer standardnormal-verteilten
Zufallsvariablen χ21 -verteilt (1 Freiheitsgrad) ist und deren Verteilung ausgerechnet. Ein
Vergleich zeigt, dass die Dichte der χ21 -Verteilung durch die Dichte der Gamma-Verteilung
mit α = λ = 12 gegeben ist. Wir betrachten nun eine etwas allgemeinere Situation.
1
f (x) = n xn/2−1 e−x/2 , x ≥ 0.
2 Γ(n/2)
2
Es gilt
E(V ) = n, σV2 = 2n.
Die χ2n -Verteilung besitzt folgende bemerkenswerte Eigenschaft: wenn U einer χ2n -Verteilung,
V einer χ2m -Verteilung folgt, dann besitzt U + V eine χ2n+m -Verteilung.
Fläche = α
1
2 x
0 1 2 3 4 5 6 χs−1;1−α
7 8 9 10
60 KAPITEL 3. STETIGE ZUFALLSVARIABLE
Bemerkung 3.17 (Die t-Verteilung). Die t-Verteilung wurde von W. S. Gosset ein-
geführt, der im Department of Agriculture in Dublin arbeitete und unter dem Pseudonym
”Student” veröffentlichte. Die t-Verteilung heißt daher auch Student-Verteilung.
Auf solche Verteilungen stößt man, wenn man aus einer Stichprobe mit unbekannter Streu-
ung Aussagen über den Erwartungswert machen soll.
Für die Dichte der tn -Verteilung erhält man nach längerer Rechnung
Die Dichte ist eine gerade Funktion und besitzt eine große Ähnlichkeit zu der Dichte der
Standardnormalverteilung.
Fläche = α
1
x
−3 −2 −1 0 1tn−1;1−α2 3
Kapitel 4
Grenzwertsätze
Bevor wir uns mit den eigentlichen Grenzwertsätzen beschäftigen, stellen wir noch ein
paar Begriffe zur Verfügung.
X −µ
X ∗ :=
σ
nach den Sätzen 2.12 und 2.16
ω 1 2 3 4 5 6
X(ω) -1 1 -1 1 -1 1
Y (ω) -1 1 1 -1 1 -1
und damit die Verteilungsfunktionen FX und FY mit
0 für x < −1
FX (x) = FY (x) = 1
2
für − 1 ≤ x < 1 .
1 für 1 ≤ x
61
62 KAPITEL 4. GRENZWERTSÄTZE
(n) k−µ
uk = für k = 0, . . . , n .
σ
Z.B. hat die Verteilungsfunktion X für n = 12 und p = 0.25, d.h. µ = np = 3 und
p 3 2
σ = np(1 − p) = die Sprungstellen 0, . . . , 12. Die zu X ∗ = (X − 3) gehörende
2 3
Verteilungsfunktion hat die Sprungstellen
4 2 2 4
−2, − , − , 0, , , . . . , 6 .
3 3 3 3
Auf dem Intervall [k, k + 1[ gilt für die zu X gehörende Dichte fX :
Wir ersetzen nun die stückweise konstante Dichtefunktion fX ∗ durch einen Polygonzug
(n) 1 (n) (n) 1 (n)
mn . Dazu verbinden wir die Punkte (uk + , fX ∗ (uk )) und (uk+1 + , fX ∗ (uk+1)).
2σ 2σ
Wir nehmen nun an, dass dieser Polygonzug für n → ∞ gegen eine auf R differenzierbare
Funktion ϕ konvergiert, und werden zeigen, dass sich als Grenzwert die Dichtefunktion
der Normalverteilung ergibt.
Wir berechnen bei fest vorgegebenem u ∈ R zunächst k in Abhängigkeit von n so, dass
(n) (n)
u ∈ [uk , uk+1[
(n) (n)
gilt, vorausgesetzt u liegt zwischen u0 und un . Nun ist
gilt. Wir betrachten nun den Polygonzug mn an der Stelle u. Die Ableitung von mn an
der Stelle u ergibt sich durch die Steigung des Polygonzuges, d.h.
σBn,p (k + 1) − σBn,p (k)
m′n (u) = 1 .
σ
Wegen
(n) (n) (n) 1 1
|u − uk | ≤ |uk+1 − uk | ≤ =p
σ np(1 − p)
(n)
konvergiert uk für n → ∞ gegen u. Damit erhalten wir durch Grenzübergang für die
Grenzfunktion ϕ die Beziehung
ϕ′ (u) = −u · ϕ(u) .
Dies ist eine homogene lineare Differentialgleichung 1. Ordnung für ϕ, deren Lösung sich
zu
1 2
ϕ(u) = C exp − u
2
ergibt, wobei C so zu bestimmen ist, dass
Z ∞
ϕ(u) du = 1
−∞
1
gilt. Daraus folgt C = √ ; also ist ϕ die Dichtefunktion der Normalverteilung.
2π
Satz 4.3 (Satz von de Moivre-Laplace). Es sei 0 < p < 1 und Xn B(n, p)-verteilt
sowie Xn∗ die zu Xn gehörende standardisierte Zufallsvariable. Dann gilt für alle a <
b:
lim P (a ≤ Xn∗ ≤ b) = φ(b) − φ(a) ,
n→∞
64 KAPITEL 4. GRENZWERTSÄTZE
Bemerkung 4.4. Numerische Experimente zeigen, dass eine ”gute” Näherung der Bino-
mialverteilung durch die Normalverteilung vorliegt, wenn die Faustregel
np(1 − p) > 9
fX ∗ ( k−µ
σ
) 1 k−µ
P (X = k) = Bn,p (k) = ≈ ϕ( )
σ σ σ
2 !
1 1 k−µ
= √ exp −
σ 2π 2 σ
und !
x − np
P (X ≤ x) ≈ φ p
np(1 − p)
sowie die (durch eine sog. Stetigkeitskorrektur) verbesserten Näherungen
!
x − np + 21
P (X ≤ x) ≈ φ p
np(1 − p)
und ! !
b − np + 21 a − np − 12
P (a ≤ X ≤ b) ≈ φ p −φ p .
np(1 − p) np(1 − p)
0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
Beispiel 4.5. Für viele Sportveranstaltungen in Stadien werden häufig Freikarten verge-
ben. Erfahrungsgemäß nutzen nur 85% der auf diese Weise geladenen Gäste ihre Freikar-
ten.
4.1. DER SATZ VON DE MOIVRE-LAPLACE 65
b) Für eine Veranstaltung werden 200 Freikarten vergeben. Wie viele Ehrenplätze sind
mindestens bereitzustellen, damit die Wahrscheinlichkeit, dass alle ins Stadion kom-
menden geladenen Ehrengäste jeweils noch einen freien Ehrenplatz vorfinden, min-
destens 97.5% beträgt?
Bezeichnen wir mit X die zufällige Anzahl der belegten Ehrenplätze (d.h. der genutzten
Freikarten), so ist X B(n, p)−verteilt mit n = 200 und p = 0.85. Es ist µ = np = 170.
Wegen np(1 − p) = 25.5 > 9 ist die Faustregel aus Bemerkung
p 4.4 erfüllt.
Um Teil a) zu beantworten, erhalten wir wegen σ = np(1 − p) ≈ 5.05
2 !
1 1 170 − 170
P (X = 170) ≈ √ exp −
σ 2π 2 σ
1 1
= √ exp(0) ≈ · 0.399 ≈ 0.079.
σ 2π 5.05
1 1 2
(Dabei können wir die Werte √ exp − x entweder mit einem Taschenrechner be-
2π 2
rechnen oder aber einer Tabelle entnehmen.)
Die Wahrscheinlichkeit, dass genau 170 Ehrenplätze belegt werden, beträgt also ungefähr
7.9 %.
Um die zweite Frage zu beantworten, berechnen wir k so, dass
P (X ≤ k) ≥ 0.975
ergibt. Daraus erhalten wir k > 179.3 bzw. k ≥ 180. Also benötigt man mindestens 180
Ehrenplätze.
66 KAPITEL 4. GRENZWERTSÄTZE
Der Beweis ist mathematisch etwas anspruchsvoller, deshalb verzichten wir hier darauf.
Folgerung 4.7. Betrachten wir in Satz 4.6 das symmetrische Intervall [−k, k], so
erhalten wir wegen E(Sn ) = n · E(X1 ) = n · µ und V ar(Sn ) = n · V ar(X1 ) = nσ 2 die
Beziehung
!
Sn − E(Sn )
lim P −k ≤ p ≤ k = φ(k) − φ(−k) = 2 · φ(k) − 1 ,
n→∞ V ar(Sn )
d.h.
p p
lim P E(Sn ) − k V ar(Sn ) ≤ Sn ≤ E(Sn ) + k V ar(Sn ) = 2 · φ(k) − 1 .
n→∞
Mit Bemerkung 3.13 erhalten wir also, dass die Summe von n unabhängigen und
identisch verteilten Zufallsvariablen (als Faustregel für große n) mit einer ungefähren
Wahrscheinlichkeit von
4.2. DER ZENTRALE GRENZWERTSATZ 67
p
· 0.6826 in den Grenzen E(Sn ) ± 1 · V ar(Sn )
p
· 0.9544 in den Grenzen E(Sn ) ± 2 · V ar(Sn )
p
· 0.9974 in den Grenzen E(Sn ) ± 3 · V ar(Sn )
liegt.
Beispiel 4.8. Wir betrachten einen fairen Würfel, der n-mal geworfen wird. Die Zufalls-
variable Xi gebe das Ergebnis des i-ten Wurfs an. Wir können davon ausgehen, dass die
Würfe unabhängig voneinander und unter gleichen Bedingungen stattfinden. Also können
wir die Xi als unabhängig und identisch verteilt ansehen. In Abschnitt 2.2 haben wir den
Erwartungswert E(X1 ) = 3, 5 berechnet. Für die Varianz erhalten wir
6 2
X 7 1 35
V ar(X1 ) = i− · = ≈ 2.917 .
i=1
2 6 12
Gehen wir einmal von 100 Würfen aus, so ergibt sich mit der obigen Faustregel wegen
√
291.7 ≈ 17.1, dass die Augensumme dann mit einer Wahrscheinlichkeit von
· 0.6826 in den Grenzen 350 ± 1 · 17.1, also zwischen 332 und 368,
· 0.9544 in den Grenzen 350 ± 2 · 17.1, also zwischen 315 und 385
· 0.9974 in den Grenzen 350 ± 3 · 17.1, also zwischen 298 und 402
liegt.
68 KAPITEL 4. GRENZWERTSÄTZE
Kapitel 5
Statistik
Die Statistik wird üblicherweise in die deskriptive (beschreibende) und die induktive (be-
urteilende, schließende) Statistik eingeteilt. Diese Einteilung ist insofern irreführend, da
der Eindruck erweckt wird, dass die deskriptive Statistik von subjektiven Einschätzungen
frei sei. Das ist aber häufig nicht der Fall. Die Hauptaufgabe der deskriptiven Statistik ist
zwar in erster Linie eine übersichtliche graphische und/oder tabellarische Darstellung der
erhobenen Daten; es wird aber oft durch die Art der Präsentation (z.B. bzgl. der Umsat-
zentwicklung eines Unternehmens) eine Beeinflussung z.B. von potentiellen Geldgebern
(Banken, Aktionäre usw.) versucht.
heißt (Stichproben-) oder arithmetisches Mittel bzw. kurz Mittelwert der Daten
x1 , . . . , xn .
b) Die Zahl
n n
!
1 X 1 X
s2 := s2x := (xi − x)2 = x2i − nx2
n − 1 i=1 n−1 i=1
69
70 KAPITEL 5. STATISTIK
p
Die Zahl sx = s2x heißt (Stichproben-) oder empirische Standardabweichung
von x1 , . . . , xn .
yi = a · xi + b mit a 6= 0 ,
y = a · x + b,
s2y = a2 · s2x ,
sy = |a| · sx .
b) Die Größen x, s2x und sx sind ausreißerempfindlich, d.h. dass eine Abänderung eines
einzigen Wertes den Mittelwert, die Varianz und die Standardabweichung beliebig
klein bzw. groß werden lassen kann.
Definition 5.3. a) Sortieren wir die Daten x1 , . . . , xn der Größe nach, d.h. bilden
wir x(1) = min xi bis x(n) = max xi , so nennen wir
1≤i≤n 1≤i≤n
Der Median von |x1 − x1/2 |, |x2 − x1/2 |, . . . , |xn − x1/2 | heißt Median-Abweichung
von x1 , . . . , xn .
empirisches p-Quantil von x1 , . . . , xn . (Dabei ist [y] die größte ganze Zahl klei-
ner oder gleich y ∈ R.)
d) Die Quantile x3/4 und x1/4 heißen oberes bzw. unteres Quartil. Die Differenz
x3/4 − x1/4 heißt Quartilsabstand der x1 , . . . , xn .
5.1. ELEMENTE DER DESKRIPTIVEN STATISTIK 71
8 Sem
8%
2 Sem
33%
33%
6 Sem
25%
4 Sem
Definition 5.5. Wir betrachten die Daten x1 , . . . , xn . Wir teilen diese Daten in s
disjunkte Klassen auf, indem wir s halboffene Intervalle
mit a1 < a2 < . . . < as+1 betrachten, in denen alle Daten liegen. Nun bilden wir über
jedem Teilintervall [ai , ai+1 [ ein Rechteck der Höhe di , wobei
di · (ai+1 − ai ) = ki für 1 ≤ i ≤ s
ist mit n
1X
ki = 1{ai ≤xj <ai+1 }
n j=1
Dadurch entsteht ein Histogramm. Die Gesamtfläche aller Rechtecke ist 1. Die ein-
zelnen Rechteckflächen sind proportional zur relativen Häufigkeit des Auftretens der
Daten. (Dabei ist 1 die Indikatorfunktion.)
72 KAPITEL 5. STATISTIK
dj
Bemerkungen 5.6. Die Breite der Teilintervalle ist willkürlich; treten einige Daten nur
selten auf, so sollten die entsprechenden Klassen (sprich Intervalle) weggelassen werden. Ist
die Länge aller Teilintervalle gleich groß, so ist auch die Höhe der Rechtecke proportional
zur sog. Klassenhäufigkeit.
Definition 5.7. Der Box-Plot wird häufig beim Vergleich verschiedener Stichproben
verwandt. Er benutzt Quantile zur graphischen Darstellung von Lage und Streuung
der Daten. Außerdem werden potentielle Ausreißer hervorgehoben.
Zur Anfertigung des Box-Plot wird ein senkrechtes oder waagerechtes Rechteck (eine
Kiste) gezeichnet, die vom unteren bis zum oberen Quartil geht und beim Median
unterteilt wird. Die Breite des Rechtecks wird meist nach ästhetischen Gesichtspunk-
ten gewählt. Nach oben und unten bzw. links und rechts wird die Kiste durch zwei
Stäbe verlängert, wobei der Endpunkt des nach oben aufgesetzten Stabes kleiner ist
als das obere Quartil plus das 1,5-fache des Quartilsabstandes, also kleiner als
ist, die sog. größte normale Beobachtung. Der Endpunkt des nach unten aufgesetzten
Stabes ist größer als
x1/4 − 1, 5 · (x3/4 − x1/4 ) ,
die sog. kleinste normale Beobachtung. Extrem große Beobachtungen sind Daten, die
oberhalb von x3/4 +1, 5·(x3/4 −x1/4 ) liegen, extrem kleine Beobachtungen sind Daten,
die unterhalb von x1/4 − 1, 5 · (x3/4 − x1/4 ) liegen. Die sog. Ausreißer nach oben und
unten werden durch einen Stern oder Punkt gekennzeichnet.
Wegen des Rechtecks in der Mitte des Diagramms spricht man auch von einem Kisten-
Diagramm.
5.2. SCHÄTZPROBLEME 73
∗
extrem große Beobachtungen −→ ∗
∗
größte normale Beobachtung −→
oberes Quantil −→
Median −→ x3/4 − x1/4
unteres Quantil −→
kleinste normale Beobachtung −→
∗
extrem kleine Beobachtung −→
∗
Eine derartige Präsentation von Daten findet man z.B. im Bericht ”PISA 2000 - Die
Länder der Bundesrepublik Deutschland im Vergleich”, herausgegeben vom Deutschen
PISA-Konsortium bei Leske und Budrich, Opladen 2002. Beim Box-Plot ist allerdings
statt der aufgesetzten Stäbe das Rechteck nach oben und unten verlängert worden. Au-
ßerdem wurde auch bei dem Rechteck zwischen dem unteren und oberen Quartil um den
Mittelwert das sog. Konfidenzintervall angegeben. Es wurden farblich getrennt nach un-
ten noch das 10- und das 5 %-Perzentil und nach oben das 90- und das 95 %-Perzentil
angefügt.
5.2 Schätzprobleme
Bisher sind wir davon ausgegangen, dass die Parameter der Wahrscheinlichkeitsverteilun-
gen, beispielsweise µ und σ in der Normalverteilung, bekannt sind. Bei praktischen An-
wendungen ist dies jedoch selten der Fall. Die schließende Statistik stellt Methoden bereit,
mit deren Hilfe man aus Stichproben Informationen über die interessierenden Parameter
gewinnen kann. Da naturgemäß eine Stichprobe nur einen kleinen Teil der Grundpopula-
tion umfasst, birgt diese Information stets ein bestimmtes Maß an Unsicherheit in sich.
Absolut zuverlässige Information wäre nur bei Erfassen der gesamten Grundpopulation
zu erzielen. Es ist auch Aufgabe der schließenden Statistik, das Ausmaß an Unsicherheit
zu quantifizieren.
Eine wesentliche Voraussetzung für die Anwendung statistischer Methoden ist die Zufällig-
keit der Auswahl der Elemente in der Stichprobe: für jedes Individuum der Grundpopula-
tion muss die Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden, gleich sein.
Nur dadurch ist gewährleistet, dass die Stichprobe das Verhalten der Grundpopulation
ausreichend wiederspiegelt. Auf die Methoden der statistisch korrekten Entnahme einer
Stichprobe, ein durchaus schwieriges Problem, kann hier nicht eingegangen werden.
Beispiel 5.8. a) Ein Teich enthalte eine unbekannte Anzahl N von Fischen, die ge-
schätzt werden soll. Dazu werden W Fische gefangen, mit einem weißen Punkt
markiert und wieder im Teich ausgesetzt. Nach einer gewissen Zeit werden bei einem
zweiten Fang n Fische gefangen, und es wird die Anzahl x der mit einem weißen
Punkt gekennzeichneten Fische ermittelt.
74 KAPITEL 5. STATISTIK
Eine plausible Schätzung N̂ (x) für N ergibt sich aus folgender Überlegung: Wenn
x nicht zu klein ist, sollte der Anteil x/n der markierten Fische am zweiten Fang
ungefähr dem Anteil W/N der markierten Fische an der Gesamt-Population sein.
Wenn also N̂(x) eine gute Schätzung für N ist, müsste gelten:
x W n
≈ oder N̂ (x) ≈ W · .
n N̂(x) x
Dabei wähle man als Näherung die zu der eventuell nichtganzzahligen Zahl W · nx
nächstgelegene ganze Zahl. Für kleine x ist diese Schätzung nicht sehr zuverlässig.
Diese heuristische Schätzung ergibt sich auch aus einem anderen Ansatz. Dazu be-
trachten wir Beispiel 2.28: Ist N die Anzahl aller Fische im Teich, W die Anzahl der
markierten und N − W die Anzahl der nicht-markierten Fische im Teich, so ist die
Wahrscheinlichkeit PN (x), dass von n gefangenen Fischen beim zweiten Fang genau
x markiert sind: N −W
W
x n−x
PN (x) = N
mit 0 ≤ x ≤ n .
n
Hier ist N ein unbekannter Wert, den es zu schätzen gilt. Wir nehmen als Schätzung
N so, dass PN (x) für das beobachtete x maximal wird. Dazu betrachten wir
W
N −W N −1
PN (x) (N − W )(N − n)
= Nx Wn−x
N −Wn−1 = ;
PN −1 (x) n x n−x
N(N − W − n + x)
es ist PN (x) > PN −1 (x) genau dann, wenn nW > Nx gilt; entsprechend folgt
PN (x) < PN −1 (x) genau dann, wenn nW < Nx gilt und PN (x) = PN −1 (x) genau
für nW = Nx . Also ist PN (x) (als Funktion von N betrachtet) maximal für
nW
N̂(x) = .
x
nW nW
Ist keine ganze Zahl, so ist N̂ (x) eindeutig bestimmt. Ist dagegen ∈ Z, so
x x
nW nW
sind und − 1 Werte von N, für die PN (x) maximal ist.
x x
b) In n Bernoulli-Experimenten soll die Erfolgswahrscheinlichkeit p aus der Zahl x der
Erfolge geschätzt werden (siehe Abschnitt 2.3.1, Binomialverteilung). Hierzu suchen
wir p ∈ [0, 1] so, dass
n x
Lx (p) = p (1 − p)n−x
x
maximal wird. Mit Hilfe der Produktregel erhalten wir
d n x−1
Lx (p) = p (1 − p)n−x−1 · (x(1 − p) − (n − x)p) ,
dp x
woraus sich aus der notwendigen Bedingung für das Vorliegen eines Extremwertes
d x
Lx (p) = 0 für den Fall 0 < p < 1 die Nullstelle p̂(x) = ergibt. Da die Ableitung
dp n
5.2. SCHÄTZPROBLEME 75
von Lx für p < p̂(x) positiv und für p > p̂(x) negativ ist, liegt in p̂(x) ein
x
Maximum vor. Die relative Häufigkeit p̂(x) = ist also eine Schätzung für die
n
Erfolgswahrscheinlichkeit p.
Der Begriff der Stichprobe, der bereits in vorhergehenden Abschnitten gelegentlich (ohne
nähere Begründung) verwendet wurde, ist ein Grundbegriff der mathematischen Statistik.
In engem Zusammenhang damit steht der Begriff der Grundgesamtheit.
Definition 5.10. Sei X eine Zufallsgröße mit der Verteilungsfunktion F . Dann heißt
der Zufallsvektor (X1 , . . . , Xn ) dessen Koordinaten Xk unabhängig und identisch wie
X verteilt sind, eine mathematische Stichprobe vom Umfang n aus der Grundge-
samtheit X mit der Verteilungsfunktion F . Die Zufallsgrößen X1 , . . . , Xn heißen (in
diesem Zusammenhang) Stichprobenvariable.
Jede Realisierung (x1 , . . . , xn ) des Zufallsvektors (X1 , . . . , Xn ) heißt konkrete Stich-
probe vom Umfang n aus der Grundgesamtheit X mit der Verteilungsfunktion F .
Jede einzelne Realisierung xk heißt Element der Stichprobe.
Während wir also wie bisher Zufallsgrößen (Merkmale, Eigenschaften eines Untersu-
chungsobjektes) mit Großbuchstaben X, Y, Z, . . . bezeichnen, werden Realisierungen die-
ser Zufallsgrößen (Merkmalswerte, Messwerte) mit den entsprechenden Kleinbuchstaben
x, y, z, . . . bezeichnet.
Unter den Voraussetzungen von Def. 5.10 ist die Verteilungsfunktion des Zufallsvektors
(X1 , . . . , Xn ) gegeben durch
n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = F (xk ), (x1 , . . . , xn ) ∈ Rn . (5.1)
k=1
In der Praxis ist die Verteilungsfunktion oft nur bis auf einen noch zu bestimmenden
Parameter ϑ bekannt; um dies hervorzuheben, schreiben wir dann FX1 ,...,Xn (x1 , . . . , xn ; ϑ),
F (xk ; ϑ) etc.
Mittels der Schätztheorie soll bei einer Punktschätzung unter Verwendung einer mathe-
matischen Stichprobe (X1 , . . . , Xn ) vom Umfang n aus der Grundgesamtheit X eine zur
Schätzung von ϑ geeignete Stichprobenfunktion θ̂(X1 , . . . , Xn ) angegeben werden. Liegt
76 KAPITEL 5. STATISTIK
dann eine konkrete Stichprobe (x1 , . . . , xn ) vor, so betrachtet man die Zahl θ̂(x1 , . . . , xn )
einerseits als Realisierung der Zufallsgröße θ̂(X1 , . . . , Xn ), andererseits als Schätzwert für
den Parameter ϑ. Die Stichprobenfunktion ϑ̂ = θ̂(X1 , . . . , Xn ) heißt Schätzung (oder auch:
Schätzer, Schätzfunktion) für den Parameter ϑ.
Zur konkreten Ermittlung von geeigneten Schätzern gibt es mehrere Verfahren - wir be-
schränken uns hier auf das bekannteste, nämlich die Maximum-Likelihood-Methode, die
auf R.A. Fisher zurückgeht.
Seien X eine Grundgesamtheit, deren Verteilung von einem Parameter ϑ ∈ Θ abhängen
soll, und (X1 , . . . , Xn ) eine mathematische Stichprobe aus X. Ist X stetig verteilt, so
ergibt sich für die Verteilungsdichte des Zufallsvektors (X1 , . . . , Xn )
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; ϑ) = f (xk ; ϑ), (x1 , . . . , xn ) ∈ Rn ,
k=1
wobei f (xk ; ϑ) den Wert der Verteilungsdichte der Zufallsgröße X an der Stelle xk in
Abhängigkeit vom Parameter ϑ bedeutet. Ist X diskret verteilt, so ergibt sich für die
Verteilung des Zufallsvektors (X1 , . . . , Xn ) entsprechend
n
Y
P (X1 = x1 , . . . , Xn = xn ) = P (Xk = xk ; ϑ).
k=1
Bemerkungen 5.13. a) Der Parameter ϑ̂(x) ist die beste Erklärung“ für die Beob-
”
achtung X1 = x1 , . . . , Xn = xn , weil er dem beobachteten Ereignis im diskreten Fall
die größte Wahrscheinlichkeit des Eintretens (bei stetigen Zufallsvariablen: Wahr-
scheinlichkeitsdichte) verleiht.
b) In den meisten Fällen gibt es einen eindeutig bestimmten Maximum-Likelihood-
Schätzer, und er ist auch ein guter“ Schätzer.
”
c) In vielen Fällen ist Θ ein reelles Intervall, und eine Maximum-Likelihood-Schätzung
kann mit Hilfe der Differentiation gefunden werden. Häufig ist es zweckmäßig, statt
der Funktion Lx die Funktion Lx mit
Lx = ln Lx
zu betrachten. Wegen der strengen Monotonie der Logarithmus-Funktion haben (im
Fall der Existenz) beide Funktionen das Maximum an der gleichen Stelle.
Beispiel 5.14. X sei Poisson-verteilt zum Parameter ϑ, also
ϑx −ϑ
Pϑ (x) = P (X = x; ϑ) = e , x ∈ N.
x!
Dann ergibt sich die Likelihood-Funktion zu
n
Y
Lx (ϑ) = L(x1 , . . . , xn ; ϑ) = Pϑ (xk ), x1 , . . . , xn ∈ N.
k=1
Da beim Schätzproblem der gesuchte Parameter ϑ nicht bekannt ist, soll ein guter“
”
Schätzer ϑ̂ zumindest im Mittel den richtigen Wert liefern. Das führt zu
Definition 5.15. Sei θ̂n := θ̂(X1 , . . . , Xn ) eine Schätzfunktion für den Parameter θ.
(a) Die Schätzfunktion θ̂n heißt erwartungstreue Schätzfunktion für θ (engl: unbia-
sed), wenn gilt
Eθ θ̂(X1 , . . . , Xn ) = θ für alle ϑ ∈ Θ .
Bemerkung 5.16. a) Definition 5.15 besagt, dass der Schwerpunkt der Verteilung des
zufälligen Schätzwertes gerade der zu schätzende Parameter ϑ ist, und zwar unabhängig
davon, welches ϑ der wahre Parameter ist.
b) Für erwartungstreue Schätzer ist der Bias = 0.
78 KAPITEL 5. STATISTIK
Satz 5.17. Es seien X1 , . . . , Xn unabhängig mit Eϑ (Xi ) = µ und Varϑ (Xi ) = σ 2 für
1 ≤ i ≤ n und alle ϑ ∈ Θ; dann gilt:
n
1X
a) Der Mittelwert X(= X(X1 , . . . , Xn )) = Xi ist ein erwartungstreuer Schätzer
n i=1
für µ.
n
2 1 X
b) Die empirische Varianz S = (Xi − X)2 ist ein erwartungstreuer
n − 1 i=1
Schätzer für σ 2 .
n
1X
c) (Xi − X)2 ist kein erwartungstreuer Schätzer für σ 2 .
n i=1
Beweis. Es gilt
n
1X
Eϑ (X) = Eϑ (Xi ) = µ
n i=1
und
n
2 1 X
Eϑ (S ) = Eϑ ((Xi − X)2 )
n − 1 i=1
mit
Eϑ ((Xi − X)2 ) = Eϑ ([(Xi − µ) − (X − µ)]2 )
und
Eϑ ((Xi − µ)(Xj − µ)) = 0 für i 6= j .
Damit folgt
n
2 1 X 2 2 2 σ2
Eϑ (S ) = σ − σ + = σ2 .
n − 1 i=1 n n
zu maximieren. Gemäß Bemerkung 5.13 c) gehen wir zum Logarithmus über und
erhalten
n
√ 1 X
Lx (µ, σ) = −n ln(σ · 2π) − 2 (xi − µ)2
2σ i=1
als zu maximierende Funktion für die Parameter µ und σ. Eigentlich sind hier 3
Fälle zu unterscheiden:
(i) µ = µ0 ist bekannt, aber σ nicht. Wir setzen diesen Wert für µ ein und maxi-
mieren bzgl. σ. Das notwendige Kriterium für das Vorliegen von Extremwerten
liefert:
n
2 1X
σ̂ = (xi − µ0 )2
n i=1
An dieser Stelle liegt ein Maximum vor.
(ii) σ 2 = σ02 ist bekannt, aber µ nicht. Durch Differentiation nach µ erhalten wir
aus der notwendigen Bedingung für Extremwerte
n
1X
µ̂ = x = xi .
n i=1
(iii) µ und σ 2 sind unbekannt. Hier könnte man Kriterien für Extremwerte von
Funktionen mehrerer Veränderlicher anwenden (vgl. Math. 2 für Inf.). Man
kann aber auch einfacher verfahren: Der obige Ausdruck wird maximal, wenn
Xn
(xi − µ)2 minimal wird; das ist der Fall, wenn
i=1
n n
X 1X
(xi − µ) = 0 d.h. µ̂ = x = xi
i=1
n i=1
b) X1 , . . . , Xn seien unabhängig und Pλ -verteilt mit λ > 0, d.h. wir haben die Situation
aus Beispiel 5.14 mit ϑ = λ. Gesucht ist ein Schätzer für den Parameter λ. Wir
maximieren die Funktion
Pn xi n n
λ i=1 −nλ
X X
Lx (λ) = ln Q n ·e = −nλ + ln λ · xi − ln(xi !) .
i=1 (xi )! i=1 i=1
80 KAPITEL 5. STATISTIK
5.3 Konfidenzintervalle
Bisher haben wir nur Punktschätzer betrachtet: die Stichprobe wurde benutzt, um einen
Schätzwert für einen Verteilungsparameter zu berechnen. Ein Intervallschätzer dagegen
berechnet aus der Stichprobe ein Intervall [ϑ̂u , ϑ̂0 ], welches den Zielparameter ϑ mit einer
vorgegebenen Wahrscheinlichkeit enthält:
Pϑ (ϑ̂u ≤ ϑ ≤ ϑ̂0 ) = 1 − α.
Die Intervallgrenzen ϑ̂u , ϑ̂0 hängen neben α auch von der jeweiligen Stichprobe ab und
variieren daher in zufälliger Weise von Stichprobe zu Stichprobe.
Schätzt man z.B. die Erfolgswahrscheinlichkeit p eines Bernoulli-Experiments aus den Er-
gebnissen einer Stichprobe X = (X1 , . . . , Xn ), so geht man davon aus, dass die Schätzung
umso näher an p liegt, je größer die Stichprobe ist. Ziel ist die Angabe eines Intervalls
(das von der Beobachtung x abhängt) derart, dass die Wahrscheinlichkeit dafür, dass p
in dem Intervall liegt, einen möglichst großen Wert hat, etwa 0,95.
Etwas allgemeiner haben wir die folgende Situation: Sei X1 , . . . , Xn die mathematische
Stichprobe (die Xi ’s sind stochastisch unabhängige, identisch verteilte Zufallsvariable!).
Es sei θ der zu schätzende Parameter. Bei der Methode “Konfidenzintervall” benötigen
wir zwei Schätzfunktionen
θ̂u = θ̂u (X1 , . . . , Xn ) und θ̂o = θ̂o (X1 , . . . , Xn ).
Definition 5.19. Ist θ ein zu schätzender Parameter und sind θ̂u und θ̂o Schätzfunk-
tionen mit der Eigenschaft
Häufig ist man in der Situation, die unteren Konfidenz- oder Vertrauensgrenze und
die obere Konfidenz- oder Vertrauensgrenze für einen Parameter θ einzeln zu be-
stimmmen:
• θ̂o heißt obere Konfidenzgrenze für den Parameter θ zum Konfidenzniveau 1−β,
wenn
Pθ (θ ≤ θ̂o ) ≥ 1 − β.
α α
Bemerkung: Aus Pθ (θ̂u ≤ θ) ≥ 1 − 2
und Pθ (θ ≤ θ̂o ) ≥ 1 − 2
folgt
Pθ (θ̂u ≤ θ ≤ θ̂o ) ≥ 1 − α.
Die Notation Pθ bedeutet, dass wir die Wahrscheinlichkeit unter der Annahme, dass der
Parameter θ ist, berechnen.
der Term (1−p)n gibt für das unbekannte p die Wahrscheinlichkeit an, dass in n Versuchen
kein Treffer erzielt wird.
Im Fall k = n ergibt sich mit entsprechenden Überlegungen p̂o (n) = 1 und p̂u (n) = β 1/n .
Im Fall 1 ≤ k ≤ n − 1 ergibt sich p̂o (k) als eindeutig bestimmte Lösung p der Gleichung
k
X n
· pj · (1 − p)n−j = β
j=0
j
Die Lösung der obigen Gleichung zu bestimmen ist recht kompliziert. Meist benutzt man
dazu numerische Verfahren.
Deswegen wollen wir einen anderen Weg einschlagen, um ein Konfidenzintervall für p zu
bestimmen. Die Strategie besteht darin, die B(n, p)-Verteilung mithilfe des Satzes von
82 KAPITEL 5. STATISTIK
erhalten wir eine Näherung für p̂o (k) aus der Gleichung
!
k − np + 21
φ p =β
np(1 − p)
k − np + 21
p = φ−1 (β) .
np(1 − p)
Entsprechend erhalten wir eine Näherung für p̂u (k) durch Auflösen der Gleichung
k − np − 21
p = φ−1 (1 − β)
np(1 − p)
nach p. Setzen wir c := φ−1 (1 − β), so gilt aus Symmetriegründen φ−1 (β) = −c. Damit
ergeben sich als Näherungen
q
c2 2
k + 2 + 2 + c · k + 12 − n1 (k + 21 )2 + c4
1
p̂o (k) ≈
n + c2
und q
1 c2 c2
k− +
2 2
−c· k − 12 − n1 (k − 21 )2 + 4
p̂u (k) ≈ .
n + c2
Die Werte c können in Abhängigkeit von β aus der Tabelle für die Standardnormalver-
teilung (Seite 58) abgelesen werden. Oft findet man die benötigten Angaben auch in
speziellen Tabellen mit den wichtigsten Quantilen der Standardnormalverteilung:
Damit erhält man für den Fall β = 0.025, also c = 1.96, n = 50 und k = 10 die Näherungen
p̂o (10) ≈ 0.341 und p̂u (10) ≈ 0.105 im Vergleich zu den exakten Werten p̂o = 0.337 und
p̂u = 0.100.
bekannt, µ sei zu schätzen. Bekanntlich ist dann das arithmetische Mittel X normal ver-
2
teilt mit Erwartungswert µ und Varianz σn . (Dies folgt aus den Sätzen 2.12 und 2.16.)
Also folgt
X −µ
√ ∼ N(0, 1).
σ/ n
Bestimmt wird nun u ∈ R so, dass
X −µ
P √ ≤ u = 1 − α.
σ/ n
Das Prinzip hierfür wirdanhand der Dichte der N(0, 1)−Verteilung erläutert.
u = u1− α2 = φ−1 1 − α2 ist dabei das (1 − α2 )−Quantil der N(0, 1)−Verteilung (siehe
Tabelle unten). Auflösen nach µ ergibt die folgende Gleichung
σ σ σ
P |X − µ| ≤ √ u1− α2 = P X − √ u1− α2 ≤ µ ≤ X + √ u1− α2
n n n
= 1 − α.
Also ist
σ σ
X − √ u1− 2 , X + √ u1− 2
α α
n n
ein (1 − α)−Konfidenzinterall für µ. Wie erwartet fällt die Länge des Konfidenzintervalls
mit wachsendem n und wächst mit wachsendem Niveau 1 − α.
X −µ n−1 2
√ ∼ tn−1 und S ∼ χ2n−1
S/ n σ2
wobei tn−1 bzw. χ2n−1 die t−Verteilung bzw. die χ2 -Verteilung mit n−1 Freiheitsgraden
bezeichnen. (Siehe Definition 3.15 und 3.16).
Es gilt sogar, dass X und S 2 stochastisch unabhängig sind. Der Beweis dieser Aussage
und des Satzes findet sich in Casella, Berger auf Seite 226.
Man beachte folgende Extremfälle für den Parameter m = n − 1 und die t−Verteilung:
as
• Für Ym ∼ tm , m ∈ N, gilt Ym ∼ N(0, 1) mit m → ∞. tm −Verteilungen konvergieren
also mit m → ∞ gegen die Standardnormalverteilung.
Analog zu Beispiel 5.21 wird υ = υ1− α2 als das (1− α2 )-Quantil der tn−1 -Verteilung gewählt.
Auflösen obiger Gleichung nach µ liefert
S S S
P X − µ ≤ υ1− α2 √ = P X − υ1− α2 √ ≤ µ ≤ X + υ1− α2 √ .
n n n
Also ist
S S
X − υ1− α2 √ , X + υ1− α2 √
n n
ein 1 − α-Konfidenzintervall für µ bei ungekannter Varianz σ 2 .
Beispiel 5.24. Von einem Automaten werden Produkte hergestellt, bei denen ein Merk-
mal (Länge, Gewicht, Festigkeit usw.) untersucht wird. Die Abweichungen vom vorgege-
benen Nennmaß (etwa als µW mm gegeben) kann man als Realisierungen einer normal-
verteilten Zufallsgröße X auffassen. Der Erwartungswert E(X) ist von der Einstellung des
Automaten abhängig und daher nicht bekannt. Aus Prüfungen der Funktionsgenauigkeit
des Automaten ist die empirische Varianz S 2 = 225 bekannt. Für den Erwartungswert
µ = E(X) ist eine konkrete Konfidenzschätzung mit dem Konfidenzniveau 1 − α = 0, 95
zu ermitteln.
Aus einer konkreten Stichprobe vom Umfang n = 25 sei das arithmetische Mittel xn = 48
bekannt. Für eine Irrtumswahrscheinlichkeit α = 0, 05 folgt aus obiger Tabelle u1− α2 =
u0,975 ≈ 1, 96. Damit erhält man als konkretes Konfidenzintervall für den Parameter µ :
S 15 15
xn − u1−α/2 √ = 48 − 1, 96 < µ < 48 + 1, 96
n 5 5
und damit
42, 12 < µ < 53, 88.
Bei Verkleinerung der Irrtumswahrscheinlichkeit vergrößert sich naturgemäß das Konfi-
denzintervall. Für α = 0, 01 folgt aus obiger Tabelle der Wert u1− α2 = u0,995 ≈ 2, 576 und
damit das konkrete Konfidenzintervall für den Parameter µ :
5.4 Hypothesentests
Wir beginnen mit einem in der Literatur bekannten Beispiel (vgl. z.B. N. Henze, S. 234
ff. und U. Krengel, S. 92 ff.):
Beispiel 5.25 (”tea-testing lady”). Eine englische Lady trinkt regelmäßig ihren 5-Uhr-
Tee mit Milch. Eines Tages überrascht sie ihre Teerunde mit der Behauptung, dass sie am
Geschmack des Tees feststellen könne, ob zuerst die Milch und anschließend der Tee ein-
gegossen wurde oder umgekehrt. Sie sei zwar nicht unfehlbar, würde aber in der Mehrzahl
der Fälle die richtige Reihenfolge feststellen.
Um der Lady die Möglichkeit zu geben, ihre Fähigkeit unter Beweis zu stellen, wird
folgendes Verfahren vorgeschlagen: der Lady werden n-mal hintereinander jeweils zwei
Tassen Tee gereicht, jeweils eine vom Typ ”Milch vor Tee” und eine vom Typ ”Tee vor
Milch”. In welcher Reihenfolge die Lady die beiden Tees probiert, wird durch den Wurf
einer Münze festgelegt. Die Pausen zwischen den Geschmacksproben sollen so groß sein,
dass die Lady unbeeinflusst von der vorhergehenden Probe urteilen kann.
Wir können diese Versuchsanordnung interpretieren als n unabhängige Versuche, wobei
mit unbekannter Trefferwahrscheinlichkeit p die richtige Reihenfolge genannt wird. Be-
zeichnen wir mit Sn die Anzahl der richtig angegebenen Reihenfolgen, so wären wir im
Fall n = 20 bei 10 richtigen Reihenfolgen nicht von den Fähigkeiten der Lady überzeugt,
denn durch ”blindes” Raten könnte sich auch diese Anzahl ergeben. Wie groß muss die
Anzahl der richtig angegebenen Reihenfolgen sein, damit man der Lady die Fähigkeit
attestieren kann, die richtige Reihenfolge beim Eingießen durch eine Geschmacksprobe zu
erkennen. Sind wir bei 13 ”Treffern” von den Fähigkeiten der Lady überzeugt oder erst
bei 14 Treffern. Wie groß ist die Wahrscheinlichkeit durch bloßes Raten 13 ”Treffer” zu
erzielen?
K0 ∪ K1
′′
Ist x ∈ K1 , so entscheide für H1 .′′
Man sagt auch: ”Zu testen ist die Hypothese H0 gegen die Alternative H1 ”. K0 heißt
Annahmebereich des Tests und K1 heißt Verwerfungsbereich oder auch kritischer
Bereich. Die Hypothese H0 wird häufig auch Nullhypothese genannt.
Beispiel (Fortsetzung von Beispiel 5.25). Bei der ”tea-testing lady” bietet sich als Θ
das Intervall [ 12 , 1] an mit der Zerlegung in Θ0 = { 21 } und Θ1 =] 21 , 1]. Die Hypothese H0
lautet: ”Die Lady hat keine besondere Gabe, die Eingießreihenfolge am Geschmack zu
erkennen.” Überprüfen wir die Fähigkeiten mit 20 Tassenpaaren und unterteilen wir den
Stichprobenraum in den kritischen Bereich
K1 = {14, 15, . . . , 20}
und den Annahmebereich K0 = {0, 1, . . . , 13} für die Hypothese H0 , so ist die Wahrschein-
lichkeit, dass die Lady durch bloßes Raten mindestens 14-mal die richtige Reihenfolge
trifft,
20 j 20−j
X 20 1 1
p 1 (S20 ≥ 14) = · 1− ≈ 0, 058 .
2
j=14
j 2 2
Wenn diese Wahrscheinlichkeit, durch blindes Raten mindestens 14 Treffer zu erzielen,
noch zu groß ist, der kann statt der 14 auch mindestens 15 Treffer fordern; dann gilt
p 1 (S20 ≥ 15) ≈ 0, 0207 .
2
Bei jedem Test muss man den Annahmebereich und damit auch den Verwerfungsbe-
reich festlegen. Nun gibt es bei der Festlegung mit z.B. mindestens 14 Treffern folgende
Möglichkeiten:
a) Die Lady besitzt nicht die o.g. Fähigkeit und sie errät auch nur bei 10 Tassenpaaren
die richtige Reihenfolge. Man entscheidet sich für die Nullhypothese.
b) Die Lady besitzt nicht die o.g. Fähigkeit, durch ”Zufall” kommt sie aber auf 15
Treffer. Man entscheidet sich für die Gegenhypothese.
c) Die Lady besitzt die o.g. Fähigkeit und sie hat auch 16 Treffer. Man entscheidet
sich für die Gegenhypothese.
d) Die Lady besitzt die o.g. Fähigkeit, sie hat aber nur bei 13 Tassenpaaren recht. Man
entscheidet sich für die Nullhypothese.
In den Fällen b) und d) macht man einen Fehler.
Definition 5.27. Wir übernehmen die Bezeichnungen aus Definition 5.26. Gilt (in
Wirklichkeit) ϑ ∈ Θ0 und man entscheidet sich für die Gegenhypothese, so spricht
man von einem Fehler erster Art. Gilt dagegen ϑ ∈ Θ1 und man entscheidet sich
für die Nullhypothese, so spricht man von einem Fehler zweiter Art. Man kann dies
folgendermaßen zusammenfassen:
5.4. HYPOTHESENTESTS 87
Wirklichkeit
H0 : ϑ ∈ Θ0 H1 : ϑ ∈ Θ1
für H0 richtige Fehler
Entschei- Entscheidung 2. Art
dung
für H1 Fehler richtige
1. Art Entscheidung
g(ϑ) := pϑ (X ∈ K1 ) , ϑ ∈ Θ.
gilt. Ein solcher Test heißt (Signifikanz-)Test zum (Signifikanz-)Niveau α. Dabei sind
für α Werte aus dem Intervall [0.01, 0.1] üblich.
Ablehnung von H0
α
ϑ0 k
88 KAPITEL 5. STATISTIK
µ0 = 15 µa = 16
β α
14 15 k 16 17
Akzeptiere H0 Verwerfe H0
H1 : p < 0.14 .
Wir bezeichnen mit X die Zufallsvariable, die die Anzahl der Figuren in der Stichprobe
vom Umfang n = 1000 zählt. Wir können davon ausgehen, dass X Binomial-verteilt ist.
Wenn H0 richtig ist, wird X nicht so klein ausfallen; also gibt es eine noch zu bestimmende
Zahl c derart, dass X > c ist. Wenn X ≤ c ausfällt, ist H0 wahrscheinlich nicht richtig.
Die Wertemenge von X zerfällt also in
Der Wert c ist so zu wählen, dass die Wahrscheinlichkeit α, die richtige Hypothese H0 zu
verwerfen, möglichst klein ist, d.h.
Wir haben bei Vorgabe der sogenannten Irrtums-Wahrscheinlichkeit α und des daraus
bestimmten c insgesamt vier Entscheidungssituationen:
Ersetzen wir die Binomial-Verteilung durch die Gaußsche Glockenkurve (Satz 4.3 von de
Moivre-Laplace), so erhalten wir die Größe c z.B. für α = 0.05 aus der Beziehung
0.05 = P (X ≤ c und es ist H0 richtig)
!
c − np c − 140
≈ φ p = φ √ ,
np(1 − p) 120.4
wobei wir ohne Korrekturterm arbeiten. Wegen der Symmetrie der Normalverteilung er-
halten wir daraus:
140 − c
0.95 = 1 − 0.05 = 1 − α = φ √
120.4
und damit aus einer Tabelle
140 − c
√ ≈ 1.65 ,
120.4
woraus
c ≈ 121.9
folgt. Würden wir mit Korrekturterm rechnen, d.h. mit
!
c − np + 12 c − 139.5
φ p =φ √ ,
np(1 − p) 120.4
so ergäbe sich statt 121.9 die Zahl 121.4, was zu derselben nächstgelegenen, kleineren
ganzen Zahl führt. Also erhalten wir die sog. Testvorschrift, die Hypothese H0 erst dann
abzulehnen, wenn in der Stichprobe von 1000 Eiern die Anzahl der Figuren 121 oder
weniger beträgt. Es wurden aber 130 Figuren gefunden. Also ist die Behauptung des
Herstellers durch dieses Testergebnis nicht zu beanstanden. Berechnen wir für c = 121 die
Wahrscheinlichkeit für den Fehler 1. Art, so ergibt sich
121 − 140
P (X ≤ 121 und H0 ist richtig) ≈ φ √ ≈ 0.0418
120.4
bzw.
121 − 139.5
P (X ≤ 121 und H0 ist richtig) ≈ φ √ ≈ 0.0465 .
120.4
(Wir können hier nicht exakt den Wert 0.05 erzielen, da c nur die Menge der natürli-
chen Zahlen durchläuft.) Das Ergebnis ist folgendermaßen zu interpretieren: Wenn wir
viele Stichproben im Umfang von jeweils 1000 Überraschungseiern ziehen würden, in
denen höchstens 121 Fantasy-Figuren stecken, so würden wir in 4.18 % (bzw. 4.65 %)
der gezogenen Stichproben dem Hersteller zu Unrecht vorwerfen, dass weniger als 14 %
Fantasy-Figuren in seinem Produkt seien.
Zum Schluss ein paar Bemerkungen, die man bei der Durchführung eines Hypothesentests
immer berücksichtigen soll:
90 KAPITEL 5. STATISTIK
b) das Nichtverwerfen einer Hypothese H0 im Allgemeinen nur bedeutet, dass die vor-
liegende Datenbasis zu gering ist, um einen signifikanten Widerspruch zu H0 her-
beizuführen.
c) Hypothesen, die anhand von Daten gebildet werden, nie anhand derselben Daten
getestet werden dürfen.
Grundlegendes aus der Analysis
Wir fassen kurz einige grundlegende Begriffe und Aussagen aus der Analysis zusammen,
die wir im Laufe der Vorlesung benötigen werden.
Die so erklärte Folge (sn )n∈N heißt Folge der Partialsummen (von (xn )n∈N ); falls die In-
dexmenge N durch N0 oder eine unendliche Teilmenge von N ersetzt wird, definiert man
sn analog.
91
92 GRUNDLEGENDES AUS DER ANALYSIS
n−1 n−1
X X 1 − qn
• Für q ∈ R \ {1} ergibt sich sn = xk = qk = , n ∈ N.
1−q
k=0 k=0
(Beweis der Summenformel durch vollständige Induktion oder m.H. von Teleskop-
summen → Übung.)
Was geschieht, wenn man nicht nur die ersten n Glieder sondern alle (unendlich vielen)
Glieder der Folge (xn )n∈N aufsummiert? Bei dem so entstehenden Objekt spricht man von
einer (unendlichen) Reihe und schreibt
∞
X
s= xk .
k=1
Im Falle des obigen Beispiels xn = q n führt diese Betrachtung auf die wohl wichtigste
∞
P
Reihe, nämlich die geometrische Reihe q k . Für die Untersuchung von Reihen benötigt
k=0
man den Begriff des Grenzwerts, der für die gesamte Analysis grundlegend ist:
n2 − 7 1 1
Beispiele. • xn = 2
. M.H. von → 0, 2 → 0 (n → ∞) berechnen wir
2n + 5n n n
n2 − 7 1 − n72 1
xn = 2 = 5 → (n → ∞).
2n + 5n 2+ n 2
• xn = q n , q ∈ R.
⋄ q = 1, also (xn )n∈N = (1, 1, 1, . . .). Diese konstante Folge hat trivialerweise den
Grenzwert lim xn = 1.
n→∞
⋄ q = −1, also (xn )n∈N = (−1, 1, −1, 1, . . .). Da der Abstand je zweier aufeinander
folgender Glieder = 2 ist, kann ((−1)n )n∈N nicht konvergieren.
93
⋄ |q| < 1, dann gilt q n → 0 (n → ∞). Ist nämlich ε > 0 beliebig, so gilt
|q n − 0| < ε ⇔ |q|n < ε ⇔ en ln |q| < ε
ln ε
⇔ n ln |q| < ln ε ⇔ n >
ln |q|
ln ε
Wählen wir also eine natürliche Zahl N(ε) > , so folgt
ln |q|
|q n − 0| < ε für alle n ≥ N(ε).
⋄ |q| > 1. Die Folge (q n )n∈N konvergiert nicht, da sie unbeschränkt ist in folgen-
dem Sinne:
Eine Folge (xn )n∈N heißt unbeschränkt, wenn zu jedem M > 0 ein n ∈ N so existiert, dass
|xn | > M gilt. Wir erwähnen noch die zwei folgenden Spezialfälle:
• Existiert zu jedem M > 0 ein N(M) ∈ N mit xn > M für alle n ≥ N(M), so heißt
(xn )n∈N uneigentlich konvergent (gegen +∞). Schreibweise: xn → +∞ (n → ∞).
• Existiert zu jedem M > 0 ein N(M) ∈ N mit xn < −M für alle n ≥ N(M), so heißt
(xn )n∈N uneigentlich konvergent (gegen −∞). Schreibweise: xn → −∞ (n → ∞).
In der Vorstellung streben uneigentlich konvergente Folgen beliebig weit nach rechts
bzw. links auf der Zahlengeraden.
Beispiele. Die Folgen (n)n∈N , (2n )n∈N sind uneigentlich konvergent gegen +∞, (−n2 )n∈N
ist z.B. uneigentlich konvergent gegen −∞. Hingegen ist ((−3)n )n∈N zwar unbeschränkt,
aber nicht uneigentlich konvergent.
∞
P
Zu Reihen: Eine Reihe xk heißt konvergent, wenn die Folge der Partialsummen sn =
k=1
n
P
xk , n ∈ N, konvergiert. Der Grenzwert heißt dann Wert der Reihe und wird ebenfalls
k=1
∞
P
mit xk bezeichnet.
k=1
∞
P
Beispiel. Die geometrische Reihe q k konvergiert für |q| < 1 und divergiert für |q| ≥ 1.
k=0
Im letzteren Fall ist nämlich der Abstand zweier aufeinander folgender Partialsummen
≥ 1. Und im Fall |q| < 1 gilt nach den obigen Beispielen:
n−1
X 1 − qn
k 1
sn = q = → (n → ∞).
k=0
1−q 1−q
Für den Wert der geometrischen Reihe haben wir also
∞
X 1
qk = , falls |q| < 1.
1−q
k=0
94 GRUNDLEGENDES AUS DER ANALYSIS
• f (x) = sin x. Dann gilt z.B. lim sin(nπ) = 0 und lim sin( π2 + 2nπ) = 1; der Grenz-
n→∞ n→∞
wert lim sin x existiert also nicht. Analoges gilt für den Grenzwert lim sin x.
x→+∞ x→−∞
dF
(x) = f (x) für alle x ∈ R;
dx
dabei bezeichnet dF
dx
= F ′ die erste Ableitung von F . Wir nennen die Stammfunktion auch
unbestimmtes Integral und schreiben
Z
F = f (x) dx.
Sind a, b ∈ R mit a < b beliebig, so besagt der Fundamentalsatz der Differential- und
Integralrechnung:
Zb x=b
f (x) dx = F (b) − F (a) =: F (x) ,
x=a
a
wobei die linke Seite das bestimmte Integral von f (zwischen a und b) bezeichnet.
Rb
Geometrisch misst f (x) dx die Fläche zwischen dem Graphen von f und der x-Achse, die
a
von den senkrechten Geraden x = a und x = b begrenzt wird. Dabei werden Flächenstücke
unterhalb der x-Achse negativ bewertet.
95
Beispiel. f (x) = cos x. Eine Stammfunktion ist F (x) = sin x (auch F (x) = sin x + c mit
beliebiger Konstante c ∈ R ist Stammfunktion). Für das bestimmte Integral folgt:
Zb
cos x dx = sin b − sin a.
a
das uneigentliche Integral von f (zwischen a und +∞), falls der angegebene Funktions-
grenzwert existiert. Analog definiert man - bei Existenz - für beliebiges b ∈ R:
Zb Zb
f (x) dx := lim f (x) dx = F (b) − lim F (a).
a→−∞ a→−∞
−∞ a
1 1
Beispiele. • f (x) = 2 . Eine Stammfunktion ist F (x) = − . Damit existiert z.B. das
x x
uneigentliche Integral
Z+∞ 1
1
dx = lim − + 1 = 1.
x2 b→+∞ b
1
Dass f nur für x 6= 0 definiert ist, macht uns keine Probleme; dann sind die Stamm-
funktion und entsprechend die uneigentlichen Integrale nur auf dieser Teilmenge
sinnvoll.
Zb
cos x dx = sin b − sin a;
a
96 GRUNDLEGENDES AUS DER ANALYSIS
aber z.B. lim sin b existiert nicht, wie in 4. gesehen; also existiert das uneigentliche
b→+∞
+∞
R
Integral cos x dx nicht.
a
2
• Für uns wird der Fall f (x) = exp(− x2 ) interessant sein. Mit einiger Arbeit kann
man zeigen, dass das uneigentliche Integral von f zwischen −∞ und +∞ existiert
und dass gilt:
Z+∞ x2 √
exp − dx = 2π;
2
−∞
[2] Lothar Sachs, Jürgen Hedderich, Angewandte Statistik. Methodensammlung mit R.,
Springer Spektrum, 2015.
[3] Norbert Henze, Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt
des Zufalls, Springer Spektrum, 2013.
[4] Skript zur Vorlesung Mathematik für Studierende der Informatik 1, Duisburg-Essen,
Version SS 17.
97
Index
identisch verteilt, 61
Irrtums-Wahrscheinlichkeit, 88
Kombinatorik, 16
Korrelationskoeffizient, 38
Maß, 15
Maßraum, 15
messbare Menge, 15
messbarer Raum, 15
Multiplikationssatz, 24
negative Binomialverteilung, 43
Normal-Verteilung, 54
Poisson-Näherung, 48
Poisson-Verteilung, 47
Raum der Elementarereignisse, 12
98