0% fanden dieses Dokument nützlich (0 Abstimmungen)

31 Ansichten98 Seiten

Skript WT

Das Dokument behandelt die Grundlagen der Wahrscheinlichkeitsrechnung und Statistik im Rahmen einer Vorlesung für den Bachelor-Studiengang Angewandte Informatik. Es umfasst Themen wie grundlegende Begriffe, diskrete und stetige Zufallsvariablen, wichtige Wahrscheinlichkeitsverteilungen sowie statistische Methoden wie Schätzprobleme und Hypothesentests. Die Vorlesung zielt darauf ab, den Studierenden ein fundiertes Verständnis für die mathematischen Konzepte des Zufalls und deren Anwendung in der Statistik zu vermitteln.

Hochgeladen von

kryptomaster123

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

0% fanden dieses Dokument nützlich (0 Abstimmungen)

31 Ansichten98 Seiten

Skript WT

Hochgeladen von

kryptomaster123

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Wahrscheinlichkeitsrechnung und Statistik

2-stündige Vorlesung für den Bachelor-Studiengang

Angewandte Informatik

Version vom Wintersemester 2018/19

2
Inhaltsverzeichnis

0 Einleitung 7

1 Grundbegriffe der Wahrscheinlichkeitsrechnung 11

1.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Laplace-Experimente; Berechnung von Wahrscheinlichkeiten durch kombi-
natorische Überlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Mehrstufige Zufallsexperimente . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Bedingte Wahrscheinlichkeiten, der Satz von Bayes und Beispiele . . . . . . 23

2 Diskrete Zufallsvariable. Wichtige diskrete Wahrscheinlichkeitsvertei-

lungen 33
2.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Erwartungswert und Varianz diskreter Zufallsvariablen . . . . . . . . . . . 35
2.3 Wichtige diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . 39
2.3.1 Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2 Die geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . 42
2.3.3 Die negative Binomial-Verteilung . . . . . . . . . . . . . . . . . . . 43
2.3.4 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . 45
2.3.5 Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4 Schwaches Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Stetige Zufallsvariable 51
3.1 Dichte und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Erwartungswert und Varianz stetiger Zufallsvariabler . . . . . . . . . . . . 53
3.3 Wichtige stetige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 53
3.3.1 Gamma-Verteilung und Exponentialverteilung . . . . . . . . . . . . 53
3.3.2 Die Normal-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.3 Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.4 Die Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 Grenzwertsätze 61
4.1 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Statistik 69
5.1 Elemente der deskriptiven Statistik . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3
4 INHALTSVERZEICHNIS

5.3 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Grundlegendes aus der Analysis 91

Vorwort

Die Vorlesung “Wahrscheinlichkeitsrechnung und Statistik” wurde bis zum WS 2014/15

von Gerhard Freiling, Hans-Bernd Knoop und Frank Müller betreut. Seit dem Winterse-
mester 2015/16 ist mir die Vorlesung anvertraut worden.
Grundlage der aktuellen Version des Skripts ist das Skript meiner Vorgänger Gerhard
Freiling und Hans-Bernd Knoop. Das Kapitel “Grundlegendes aus der Analysis” wurde
von Frank Müller ergänzt. Die von mir vorgenommenen Änderungen bestehen im Wesent-
lichen aus Kürzungen des ursprünglichen Skripts und einer Umstellung in der Reihenfolge
der behandelten Themen.
Ich möchte mich bei meinen Vorgängern für die Zurverfügungstellung Ihrer Materialien
herzlich bedanken. Ebenfalls möchte ich mich bei Frau Mirjam Rieser für die Hilfe bei der
Bearbeitung des Skriptes bedanken.
Ebenfalls habe ich mich von dem Lehrbuch von Hartmann [1] inspirieren lassen. Dieses
kann ich Studierenden der Informatik als Lektüre empfehlen, es ist über die Bibliotheks-
seite der Universität auch online verfügbar.

Ursula Ludwig, Universität Duisburg-Essen, WS 2018/19.

5
6 VORWORT
Kapitel 0

Einleitung

Im Zusammenhang mit der Mathematik des Zufalls hört man die Begriffe Wahrschein-
lichkeitsrechnung, Wahrscheinlichkeitstheorie, (mathematische) Statistik und Stochastik.
Die beiden ersten Begriffe werden synonym verwandt, das Wort Stochastik wird dagegen
als Sammelbegriff für die Wahrscheinlichkeitsrechnung und die Statistik benutzt. Diesen
beiden Teilgebieten der Stochastik wollen wir uns in dieser Vorlesung zuwenden.
Dass beim Umgang mit Zufallsphänomenen selbst Fachleute - sprich Mathematiker -
Irrtümern unterliegen können, zeigt das sog. ”Ziegenproblem” aus dem Jahr 1991, das
längere Zeit ”heiß” diskutiert wurde. Es geht um folgendes ”Glückspiel”:

Ein Teilnehmer einer (amerikanischen) Fernsehshow erhält die Gelegenheit,

ein Auto zu gewinnen. Dazu sind auf der Bühne drei geschlossene Türen
aufgebaut. Hinter einer dieser Türen befindet sich ein Auto, hinter den
beiden anderen eine Ziege, sozusagen als Niete. Der Kandidat wählt nun
eine der Türen aus, die aber zunächst verschlossen bleibt. Der Spielleiter,
der genau weiß, hinter welcher Tür das Auto steht, zeigt dem Kandidaten
durch das Öffnen einer der beiden anderen Türen eine Ziege. Daraufhin
erhält der Kandidat die Möglichkeit, bei seiner Wahl zu bleiben oder aber
die andere noch verschlossene Tür zu wählen.

Soll der Kandidat umwählen oder nicht? Hierüber entbrannte eine heiße Diskussion. Je-
der glaubte seine Empfehlung richtig begründen zu können. Hier eine Auswahl der ”Be-
gründungen”:

1. Die Chance, das Auto zu gewinnen ist 13 . Also ist es gleichgültig, ob umgewählt wird
oder nicht.

2. Die Wahrscheinlichkeit, bei der ersten Wahl das Auto zu treffen, ist geringer als die,
eine Ziege zu treffen. Wenn aber eine Ziegentür geöffnet ist, stehen die Chancen für
Auto und Ziege 50:50. Also ist es besser, umzuwählen, denn so verbessert man die
Gewinnchance.

3. Am Anfang erwischt man mit einer Wahrscheinlichkeit von 32 eine Ziege. Man hat
also im ersten Anlauf eher eine Niete. Deshalb sollte man umwählen. Das wäre
logischer.

7
8 KAPITEL 0. EINLEITUNG

4. Wählt man grundsätzlich um, so gewinnt man das Auto nicht, wenn man schon bei
der ersten Wahl die Autotür getroffen hatte.

In der Tat erhöht das Umwählen die Gewinnchancen auf das Auto. Wer nämlich im ersten
Durchgang eine Ziegentür gewählt hat - und die Wahrscheinlichkeit dafür beträgt 32 -,
gewinnt durch Umwählen das Auto. Wer dagegen im ersten Durchgang die Tür mit dem
Auto gewählt hat - und die Wahrscheinlichkeit dafür beträgt ”nur” 31 -, bekommt durch
Umwählen eine Ziege und hat damit Pech. Umwählen erhöht also die Gewinnchance von
1
3
auf 32 . Wir werden später noch einmal ausführlich auf die ”theoretischen” Hintergründe
für diesen Sachverhalt eingehen.

Das zweite Beispiel bezieht sich eher auf die Statistik. Nachdem im Wintersemester
2007/08 an der Universität Duisburg-Essen der Bachelor-Studiengang ”Angewandte In-
formatik” den Diplom-Studiengang abgelöst hat, schließen am Ende des Sommersemesters
2010 die ersten 10 und am Ende des Wintersemesters 2010/11 weitere 10 Studierende
das Bachelor-Studium ab. Daraus wird der Schluss gezogen, dass die durchschnittliche
Studiendauer in dem neuen Studiengang bei 6,5 Semestern liegt und damit fast bei der
Regelstudienzeit. Also beschleunigen die neuen Studiengänge das Studium.
Wer sonst sollte denn nach 6 Semestern - einmal abgesehen von Seiteneinsteigern, die an
anderen Hochschulen schon zu einem früheren Termin das Bachelor-Studium beginnen
konnten, und von Wechslern aus dem Diplom-Studiengang, die in ein höheres Semester
im Bachelor-Studiengang eingestuft wurden, - das Studium beenden? Das müssen die
Anfänger aus dem WS 2007/08 sein, und zwar diejenigen, die nach 6 Semestern alle not-
wendigen Prüfungen abgelegt haben. Dies sind die sehr guten und guten Studierenden
aus dem genannten Anfangssemester. Aus den Zahlen alleine kann man gar keinen Rück-
schluss auf die durchschnittliche Studiendauer ziehen. Das geht erst, wenn der Studiengang
mehrere Jahre studiert wurde. In den ersten Jahren ist z.B. der Median ein aussagekräfti-
gerer Wert als der Mittelwert. Aber auch später muss der Mittelwert die tatsächliche
Studiendauer nicht richtig widergeben. Nehmen wir mal an, dass im Sommersemester
2015 insgesamt 30 Studierende das Bachelor-Studium abschließen; davon haben 10 nach
6 Semestern, 5 nach 7 Semestern, 5 nach 8 Semestern, 5 nach 10 Semestern, 3 nach 12
Semestern und 2 nach 16 Semestern das Studium abgeschlossen. Das ergäbe als Mittelwert
1
d= (10 · 6 + 5 · 7 + 5 · 8 + 5 · 10 + 3 · 12 + 2 · 16) ≈ 8, 4 ;
30
schreibt man dagegen die Semesterzahlen der Größe nach auf, so ergibt sich der Median
wegen der folgenden Rangplätzeauflistung

6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 10, 10, 10, 10, 10, 12, 12, 12, 16, 16

als arithmetisches Mittel der 15-ten und 16-ten Zahl in dieser Auflistung, d.h. 7,5. Die
wenigen ”Ausreißer” mit hohen Semesterzahlen heben den Schnitt nach oben, während
der Median aussagt, dass die Hälfte der Absolventen im Sommersemester 2015 höchstens 7
Semester studiert hat. Um Zahlen zu interpretieren muss das ”Umfeld” betrachtet werden,
in dem diese Zahlen erhoben wurden.

Als weiteres Beispiel betrachten wir die Aussage:

”Die Wahrscheinlichkeit, dass ein (zufällig ausgewähltes) neugeborenes Kind ein

Junge ist, beträgt 0,515.”

Mit naturwissenschaftlichen Argumenten wird man diese Aussage nicht begründen können.
Dieses Ergebnis ergibt sich aus einer statistischen Datenauswertung, d.h. als relative
Häufigkeit aus einer (großen) Gruppe von Kindern, bei der geschlechtsspezifisch abgezählt
wurde.
Es hat viele Erklärungsansätze gegeben, etwa den, dass auf Grund der Tatsache, dass bei
kriegerischen Auseinandersetzungen häufig Männer zu Tode kommen, aus Art-erhaltenden
Gründen mehr Jungen als Mädchen geboren werden müssen.

Man kann sagen, dass die ”Wahrscheinlichkeitstheorie” Methoden zur Verfügung stellt,
mit denen man sozusagen einen Gewissheitsgrad für das Eintreten eines Ereignisses be-
rechnen kann.

Die ”Statistik” stellt Methoden bereit, um aus empirisch gewonnenen Daten Rückschlüsse
auf eine der Untersuchung nicht zugängliche weitaus größere Datenmenge zu ziehen, wie
im 3. Beispiel oder bei Hochrechnungen im Zusammenhang mit Wahlen.
10 KAPITEL 0. EINLEITUNG
Kapitel 1

Grundbegriffe der
Wahrscheinlichkeitsrechnung

1.1 Grundlegende Begriffe

Der Begriff ”wahrscheinlich” wird im Alltag in verschiedenen Situationen verwendet, hat
dabei auch unterschiedliche Bedeutung. Der mathematischen Interpretation des Begriffs
kommt man sehr nahe, wenn man folgende Aussage betrachtet:

”Die Wahrscheinlichkeit, mit einem (nicht gezinkten) Würfel eine 5 zu würfeln,

beträgt 1/6.”
Es gibt 6 Möglichkeiten als Ergebnis eines Wurfes; wenn der Würfel nicht gezinkt
ist, wird jedes Ergebnis gleichwahrscheinlich sein. Der Statistiker wird diese Defini-
tion für einen nicht gezinkten Würfel zum Anlass nehmen, um durch eine häufige
Wiederholung des Experimentes festzustellen, ob der Würfel nicht gezinkt ist. Wenn
er einen Würfel 100-mal wirft und dabei folgende Ergebnisse erzielt

k 1 2 3 4 5 6
hk 15 16 18 17 16 18

(dabei sei k die Augenzahl und hk die Häufigkeit, mit der diese Augenzahl gewürfelt
wurde), so wird er wahrscheinlich zu dem Ergebnis kommen, dass dieser Würfel nicht
gezinkt ist. Es ist nämlich die relative Häufigkeit für das Auftreten der Augenzahl
hk 1
k gleich , also r1 = 0, 15, r2 = 0, 16, r3 = 0, 18 usw. im Vergleich zu = 0, 16.
100 6
1
Es stellt sich die Frage, wie groß die Abweichung von rk zu sein darf, damit man
6
noch von einem nicht gezinkten Würfel sprechen kann?

Stochastische Verfahren werden in den unterschiedlichsten Bereichen unseres täglichen

Lebens eingesetzt, z.B.

11
12 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

Medizin: Wirksamkeit von verschiedenen Medikamenten

Modelle für die Ausbreitung von Epidemien
Verkehrswesen: Überbuchung von Flugzeugen
Versicherungswesen: Kalkulation von Prämien
Meinungsforschung: Hochrechnungen aufgrund repräsentativer
Stichproben
Informatik: Analyse von Algorithmen oder Netzwerken

Wir wollen nun unsere Überlegungen idealisieren.

Definition 1.1. Wir nennen einen Vorgang ein (ideales) Zufallsexperiment, wenn
folgende Gegebenheiten vorliegen:

1. Das Experiment wird unter genau festgelegten Versuchsbedingungen durch-

geführt, z.B. mit denselben Würfeln auf einem bestimmten Tisch.

2. Das Experiment hat verschiedene mögliche Ergebnisse,

- die alle vor der Durchführung bekannt sind und

- von denen jeweils genau eines eintritt.

3. Das Experiment ist nicht determiniert, d.h. dass vor Beendigung des Experi-
ments das Ergebnis ungewiss ist.

4. Das Experiment ist (zumindest in der Vorstellung) beliebig oft unter den glei-
chen Bedingungen durchzuführen.

Definition 1.2. Die Menge aller Ergebnisse eines Zufallsexperiments bezeichnet man
üblicherweise mit Ω. Ω heißt Ergebnisraum oder Ergebnismenge oder Grundraum
oder Raum der Elementarereignisse.
Jedes ω ∈ Ω heißt ein Elementarereignis. Ein Ereignis ist dann eine Teilmenge von
Ω.

Im obigen Würfel-Beispiel kann z.B. Ω = {ω1 , . . . , ω6 } gewählt werden, wobei ωk bedeutet,

dass das Ergebnis beim Würfeln die Augenzahl k ergeben hat.
Z.B. ist E = {ω1 , ω3 , ω5 } das Ereignis, dass sich beim Würfeln eine ungerade Augenzahl
ergibt. Wir sagen, dass ein Ereignis A ⊂ Ω eintritt, wenn ein Elementarereignis ω ∈ A
eintritt.
Die Menge Ω kann endlich, abzählbar unendlich oder auch überabzählbar unendlich, z.B.
eine Teilmenge der reellen Zahlen, sein.
Alle möglichen Ereignisse fasst man zusammen zu einer Menge, die üblicherweise mit A
bezeichnet wird. Diese Menge A muss bestimmten Anforderungen genügen, damit man
damit ”mathematisch” arbeiten kann:
1.1. GRUNDLEGENDE BEGRIFFE 13

Definition 1.3. Ein System A von Teilmengen von Ω heißt eine Ereignisalgebra oder
σ-Algebra auf Ω, wenn folgende Bedingungen erfüllt sind:

(i) Ist A ∈ A, so ist auch A = Ω \ A ∈ A .

(ii) Es ist stets Ω ∈ A.

[
(iii) Sind A1 , A2 , . . . ∈ A , so ist auch Ak ∈ A. Dabei kann die Vereinigung eine
k
endliche oder abzählbar unendliche Vereinigung sein.

Sprechweisen:
• Ā : A tritt nicht ein; A ∈ A
• A ∪ B : A oder B treten ein; A, B ∈ A
• A ∩ B : A und B treten ein; A, B ∈ A.

A∪B
Ω
B

A∩B
Ω
B

A
Ω

A
14 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

Ω
B

Elementare Eigenschaften von σ-Algebren werden in den Übungen behandelt.

Bemerkung 1.4. (i) Ist Ω eine endliche Menge mit n Elementen, so bildet die Potenz-
menge P(Ω) von Ω eine Ereignisalgebra. P(Ω) besitzt 2n Elemente; dies zeigt man
induktiv.
Betrachten wir den Würfel mit Ω = {ω1 , . . . , ω6 }, so bedeutet z.B. A = {ω1 , ω4},
dass das Ergebnis die Augenzahl 1 oder 4 ist. Das komplementäre Ereignis ist dann
A = {ω2 , ω3 , ω5 , ω6 }.

(ii) Ist Ω abzählbar unendlich, etwa Ω = N, so können wir ebenfalls als Ereignisalge-
bra die Potenzmenge von Ω wählen. Allgemeiner ist für Ω 6= ∅ stets P(Ω) eine
Ereignisalgebra.

(iii) Seien Ω 6= ∅, F ⊂ P(Ω).

Die kleinste σ-Algebra, die F enthält, ist gegeben durch

A(F ) := {A ∈ P(Ω)| für jede σ-Algebra A mit F ⊂ A gilt A ∈ A}.

A(F ) heißt die von F erzeugte σ-Algebra.

(iv) Oft zur Modellierung benötigt: Ω = Rn .

Wähle F als Menge aller nach links halboffenen Intervalle

(a, b] = {x = (x1 , . . . , xn ) ∈ Rn | ai < xi ≤ bi , 1 ≤ i ≤ n}

für a = (a1 . . . , an ), b = (b1 , . . . , bn ) ∈ Rn .

Die zugehörige σ-Algebra A(F ) =: Bn heißt Borel’sche σ-Algebra; die Elemente von
Bn heißen Borelmengen.

Bemerkung 1.5. Alle offenen und abgeschlossenen Teilmengen liegen in Bn , aber es gilt
Bn 6= P(Rn ).
Bn wird auch vom System aller offenen (oder abgeschlossenen) Teilmengen des Rn erzeugt.

Nun wollen wir jedem Ereignis, d.h. jedem A ∈ A eine Zahl zuordnen, die Wahrschein-
lichkeit dafür, dass dieses Ereignis eintritt. Diese Zuordnung soll ebenfalls bestimmten
Bedingungen genügen.
1.1. GRUNDLEGENDE BEGRIFFE 15

Definition 1.6. a) Es sei A eine Ereignisalgebra auf Ω; eine Abbildung (oder:

eine Mengenfunktion) P : A → [0, 1] heißt ein Wahrscheinlichkeitsmaß oder
eine Wahrscheinlichkeitsverteilung, wenn P folgende Bedingungen erfüllt:

(i) P (Ω) = 1
!
[ X
(ii) P Ak = P (Ak ) (σ-Additivität)
k k

für höchstens abzählbar viele, paarweise disjunkte Ereignisse A1 , A2 , . . . aus A.

Für endlich viele Mengen Ak steht auf der rechten Seite eine endliche Summe;
ist dagegen die Anzahl der Mengen Ak abzählbar unendlich, so steht auf der
rechten Seite eine unendliche Reihe. Das Tripel (Ω, A, P ) heißt Wahrschein-
lichkeitsraum.
Ist Ω höchstens abzählbar, so heißt (Ω, A, P ) diskreter Wahrscheinlichkeits-
raum.

b) Allgemeiner nennt man eine auf einer σ-Algebra A ⊂ P(Ω) definierte nicht-
negative, σ-additive Mengenfunktion µ ein Maß und das Tripel (Ω, A, µ) ein
Maßraum; das Paar (Ω, A) heißt ein messbarer Raum (oder Messraum) und die
Elemente A ∈ A heißen messbare Mengen.

Satz 1.7. Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B, A1 , A2 , . . . ∈ A.

Dann gilt:

(1) P (∅) = 0 und 0 ≤ P (A) ≤ 1 für alle A ∈ A.

(2) P (Ā) = 1 − P (A).

(3) A ⊂ B ⇒ P (A) ≤ P (B), i.e. p ist monoton.

<
(4) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (A) + P (B).
∞
[ ∞
X
(5) P ( Ai ) ≤ P (Ai ).
i=1 i=1

(6) A ⊂ B ⇒ P (B \ A) = P (B) − P (A).

(7) (Siebformel von Sylvester-Poincare)

n
[ n
X X
P Ai = P (Ai ) − P (Ai1 ∩ Ai2 )
i=1 i=1 1≤i1 <i2 ≤n
X
± · · · + (−1)n−2 P (Ai1 ∩ · · · ∩ Ain−1 )
1≤i1 <···<in−1 ≤n

+(−1)n−1 P (A1 ∩ A2 ∩ · · · ∩ An ).
16 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

(8) (Bonferroni-Ungleichung)
n
X X n
[ n
X
P (Ai ) − P (Ai1 ∩ Ai2 ) ≤ P Ai ≤ p(Ai ).
i=1 1≤i1 <i2 ≤n i=1 i=1

Weitere obere bzw. untere Schranken ergeben sich durch Abbruch in (7) nach
+ bzw. - Zeichen.

Beweis. Wir beweisen hier nur (1)-(4) und (6).

Zu (2): Aus Definition 1.6 (a), (i) und (ii) folgt direkt wegen A ∩ A = ∅ und A ∪ A = Ω

P (A) = P (Ω) − P (A) = 1 − P (A).

Zu (1): Sofort aus (2) mit A = Ω wegen P (Ω) = 1.

Zu (4): Es ist
A ∪ B = A ∪ (A ∩ B),
wobei A ∩ (A ∩ B) = ∅ ist; also gilt nach Definition 1.6 (a), (ii)

P (A ∪ B) = P (A) + P (A ∩ B)
= P (A) + P (A ∩ B) + P (A ∩ B) − P (A ∩ B)
= P (A) + P ((A ∩ B) ∪ (A ∩ B)) − P (A ∩ B)
= P (A) + P ((A ∪ A) ∩ B) − P (A ∩ B)
= P (A) + P (Ω ∩ B) − P (A ∩ B)
= P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B).

Zu (3), (6): Mit B = A ∪ (B \ A) und A ∩ (B \ A) = ∅ folgt aus Definition 1.6 (a), (ii):

P (B) = P (A) + P (B \ A) ≥ P (A).

1.2 Laplace-Experimente; Berechnung von Wahrschein-

lichkeiten durch kombinatorische Überlegungen
Bei einem fairen Würfel haben wir angenommen, dass alle Ergebnisse gleichwahrscheinlich
sind. Diese Situation trifft bei vielen Zufallsexperimenten zu. Dies führt auf die

Definition 1.8. Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum mit endlichem Grund-

raum Ω und ist P (ω) für alle Elementarereignisse ω ∈ Ω gleich groß, so heißt
1
(Ω, A, P ) ein Laplace-Raum. In diesem Fall ist P (ω) := P ({ω}) = |Ω| , wobei
|Ω| = ♯Ω die Anzahl der Elemente von Ω bedeutet. Man nennt dann das Zufallsex-
periment, das zu dem Ergebnisraum Ω führt, auch ein Laplace-Experiment.
1.2. LAPLACE; W’KEITSBERECHNUNG MIT KOMBINATORIK 17

Bemerkungen 1.9. a) Ist (Ω, A, P ) ein Laplace-Raum und A ein (beliebiges) Er-
eignis, so gilt aufgrund der Eigenschaften von P :
|A| ♯A
P (A) = = .
|Ω| ♯Ω
Häufig wird dies auch folgendermaßen ausgedrückt:
Anzahl der für A günstigen Fälle
P (A) = .
Anzahl der möglichen Fälle

b) Wir betrachten das Werfen mit zwei Würfeln und fragen nach der Wahrscheinlich-
keit, dass die Augensumme eine der Zahlen zwischen 2 und 12 ist. Als Grundraum
ist die Menge
Ω = {(i, j) | 1 ≤ i, j ≤ 6}
geeignet. Ω enthält 36 Elemente. Die Wahrscheinlichkeit, ein Elementarreignis zu
1
würfeln ist 36 . Nun müssen wir zählen, auf wieviele Arten die Summe k mit 2 ≤
k ≤ 12 gewürfelt werden kann. Für k = 2 und k = 12 ergibt sich jeweils genau eine
1
Möglichkeit; also ist die Wahrscheinlichkeit jeweils 36 dafür, dass die Augensumme
2 oder 12 ist. Für k = 3 und k = 11 gibt es dagegen jeweils zwei Möglichkeiten,
nämlich durch das Würfeln des Tupels (1, 2) oder (2, 1) bzw. durch (5, 6) oder (6, 5).
Die Augensumme k = 6 ergibt sich durch Würfeln von (1, 5), (2, 4), (3, 3), (4, 2) oder
5
(5, 1); also ist die Wahrscheinlichkeit, die Augensumme k = 6 zu erhalten: 36 .
Zur Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten können kombinato-
rische Überlegungen herangezogen werden:
Wir beginnen mit der Betrachtung von r Mengen A1 , A2 , . . . , Ar mit nk Elementen für
1 ≤ k ≤ r. Dann ist die Anzahl der geordneten r-Tupel (a1 , . . . , ar ) mit ak ∈ Ak für
1 ≤ k ≤ r das Produkt
Yr
nk
k=1

(vgl. das Abzähltheorem 1.16 aus Mathematik für Informatiker I); speziell für n1 =
. . . nr =: n erhalten wir als Anzahl
nr .
Ist also A eine Menge mit n Elementen, so ist die Anzahl der geordneten r−Tupel
(a1 , . . . , ar ) mit (nicht notwendig paarweise verschiedenen) Elementen a1 , . . . , ar ∈ A gera-
de nr ; diese r−Tupel nennt man auch eine r-Permutation der Menge A mit Wiederholung;
für diese Permutationen schreiben wir auch P er r (A); es gilt also |P err (A)| = nr . Ist A
eine Menge mit n Elementen, so ist die Anzahl der geordneten r-Tupel (a1 , . . . , ar ) mit
paarweise verschiedenen ak gleich

n! n
n(n − 1) · . . . · (n − (r − 1)) = = r! =: (n)r .
(n − r)! r
Dies sind die r-Permutationen der Menge A ohne Wiederholung. All diese Permutationen
fassen wir in der Menge P er∗r (A) zusammen; es gilt |P er∗r (A)| = (n)r . Dies macht nur
18 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

dann Sinn, wenn r ≤ n ist. Die n−Permutationen der Menge A (mit n Elementen) ohne
Wiederholung heißen auch Permutationen der Menge A; es gilt

P ern∗ (A) = (n)n = n! für |A| = n.

Man beachte, dass jede dieser Permutationen genau einer bijektiven Abildung f : A → A
entspricht.
Für die Anzahl der r−elementigen Teilmengen von A mit |A| = n ergibt sich nach dem
oben Gesagten der Binomialkoeffizient

n n!
= ,
r (n − r)! r!

weil sich aus einer r-elementigen Menge genau r! verschiedene r-Tupel mit paarweise
verschiedenen Einträgen bilden lassen.
Sei nun A = {1, . . . , n}. Für die Menge der r-Permutationen der Menge {1, . . . , n} mit
bzw. ohne Wiederholung schreiben wir auch kurz P err (n) bzw. P err∗(n).
Wir definieren noch die Menge der r-Kombinationen mit und ohne Wiederholung der
Menge {1, . . . , n}. Sei B ⊂ {1, . . . , n} eine r-elementige Teilmenge. Wir können die Ele-
mente von B = {b1 , . . . , br } der Größe nach sortieren und erhalten a1 < a2 < . . . < ar
(mit aj ∈ B). Ein solches r−Tupel (a1 , . . . , ar ) heisst r-Kombination aus {1, . . . , n} ohne
Wiederholung. Wir schreiben

Kom∗r (n) := {(a1 , . . . , ar ) | 1 ≤ a1 < · · · < ar ≤ n} .

Wir betrachten die Menge

Komr (n) := {(a1 , . . . , ar ) | 1 ≤ a1 ≤ · · · ≤ ar ≤ n} ;

dies ist die Menge der r-Kombinationen aus {1, . . . , n} mit Wiederholung. Die Anzahl der
Elemente ist
∗ n n+r−1
|Komr (n)| = , |Komr (n)| = .
r r
Um letztere Beziehung einzusehen, bedient man sich des folgenden Tricks: Sei (a1 , . . . , ar )
ein beliebiges Element aus Komr (n), so transformieren wir die Elemente dieser Kombi-
nation durch
(∗) bj := aj + j − 1 .
Dann gilt 1 ≤ b1 < b2 < . . . < br ≤ n + r − 1; also ist b = (b1 , . . . , br ) ein Element aus
Kom∗r (n + r − 1). Da durch (∗) verschiedene a′ s auf verschiedene b′ s abgebildet werden
und da umgekehrt durch
aj := bj − j + 1
jedes b ∈ Kom∗r (n + r − 1) in genau ein a ∈ Komr (n) transformiert wird, gilt

n+r−1
|Komr (n)| = |Kom∗r (n + r − 1)| = .
r
1.2. LAPLACE; W’KEITSBERECHNUNG MIT KOMBINATORIK 19

s
X
Seien schließlich Zahlen r1 , . . . , rs aus N gegeben mit rk = n. Dann ist die Anzahl der
k=1
möglichen Zerlegungen von A in Teilmengen A1 , . . . , As mit jeweils rk Elementen, d.h.
[s
Ak = A und |Ak | = rk gleich
k=1

n!
.
r1 ! · . . . · rs !

n
In der Tat: Aus der Menge A können wir Teilmengen von A mit r1 Elementen
r1
n − r1
auswählen. Aus dem Rest A \ A1 mit n − r1 Elementen können wir dann
r2
Teilmengen A2 mit r2 Elementen bilden usw. Somit erhalten wir insgesamt

n n − r1 n − r1 − r2 − . . . − rs−1
· ·...·
r1 r2 rs

n! (n − r1 )! (n − r1 − r2 − . . . − rs−1 )!
= · · ...· .
(n − r1 )! · r1 ! (n − r1 − r2 )! · r2 ! (n − r1 − . . . − rs )! ·rs !
| {z }
=1

Beispiel 1.10 (Das Urnenmodell). (a) Zur Veranschaulichung der r-Permutationen und
r-Kombinationen der Menge {1, . . . , n} mit bzw. ohne Wiederholung können wir das
Urnenmodell heranziehen.

Dabei denken wir uns eine Urne gefüllt mit n ∈ N durchnummerierten Kugeln. Nun
ziehen wir r-mal hintereinander je eine Kugel aus der Urne (ohne hinzusehen) und
notieren nach jeder Ziehung die Nummer der gezogenen Kugel. Legen wir nach jeder
Ziehung die gezogene Kugel in die Urne zurück, so entspricht das Ergebnis dieses
Zufallsexperiments (unter Beachtung der Reihenfolge) genau einer r-Permutation
einer n-elementigen Menge mit Wiederholung.

Dagegen entspricht das r-malige Ziehen einer Kugel ohne Zurücklegen (unter Beach-
tung der Reihenfolge) genau einer r-Permutation ohne Wiederholung. Man beachte,
daß wir in beiden Fällen (d.h. mit/ohne Zurücklegen) die Reihenfolge der gezoge-
nen Kugeln berücksichtigen müssen. Berücksichtigen wir die Reihenfolge nicht, so
erhalten wir ein Modell für die r-Kombinationen.

Zusammenfassend können wir für unser Urnenmodell folgende Aussagen treffen:

Die Anzahl der möglichen Ausgänge beim r-maligen Ziehen einer Kugel aus einer
Urne mit n durchnummerierten Kugeln ist
20 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

ohne Zurücklegen mit Zurücklegen

ohne Berück-
n n+r−1
sichtigung der | Kom∗r (n) |= r
| Komr (n) |= r
Reihenfolge

mit Berück-
sichtigung der | P er ∗r (n) |= (n)r | P err (n) |= nr
Reihenfolge

(b) Wie groß ist die Wahrscheinlichkeit beim Lotto (6 aus 49) einen Fünfer mit bzw.
ohne Zusatzzahl zu tippen? Wir betrachten das Zahlenlotto als Laplace-Experiment.
Wir können uns die 49 Kugeln zerlegt denken in 6 Glückszahlen und 43 Restzahlen,
bestehend aus 42 Nieten und einer Zusatzzahl. Berechnen wir die Wahrscheinlichkeit
als relative Häufigkeit, so müssen wir zunächst die Anzahl der Zerlegungen der 49
Zahlen in eine 43- und eine 6- elementige Menge berechnen, dies ist die Anzahl der
verschiedenen Möglichkeiten, den Lottoschein auszufüllen. Diese Anzahl ist nach
den Vorüberlegungen
49! 49
= .
6! · 43! 6
Wie viele Möglichkeiten gibt es, dass 5 Zahlen
mit denen aus der 6-elementigen
6
”Glücksmenge” übereinstimmen? Es gibt 6 = Möglichkeiten.
5
Beim ”Fünfer mit Zusatzzahl” muss die 6. Zahl mit der Zusatzzahl übereinstimmen,
also ist
6
p (”Fünfer mit Zusatzzahl)” = ≈ 4.291 · 10−7 .
49
6
(In ca. 43 von 100 Millionen Fällen.)
Beim ”Fünfer ohne Zusatzzahl” muss genau eine der sechs Zahlen mit einer der 42
Nieten übereinstimmen; dafür gibt es je 42 Möglichkeiten, also ist
6 · 42
p (”Fünfer ohne Zusatzzahl”) = ≈ 1.802 · 10−5.
49
6

(In ca. 18 von 1 Million Fällen.)

1.3 Mehrstufige Zufallsexperimente

Häufig besteht ein Zufallsexperiment aus mehreren Teilexperimenten. So können wir z.B.
das Ziehen der ersten 6 Zahlen beim 6-er Zahlenlotto als 6-stufiges Zufallsexperiment
auffassen. Als Ergebnismenge beim Ziehen der ersten Zahl können wir die Menge Ω1 =
{1, 2, . . . , 49} der ersten 49 natürlichen Zahlen betrachten. Wird die Zahl n1 gezogen, so
1.3. MEHRSTUFIGE ZUFALLSEXPERIMENTE 21

verändert sich beim Ziehen der zweiten Zahl die Ergebnismenge auf Ω2 = Ω1 \ {n1 } usw.
Als Ergebnismenge betrachten wir dann Ω = Ω1 × . . . × Ω6 .
Wir wollen das Wesentliche bei mehrstufigen Zufallsexperimenten allerdings an einem
einfacheren Beispiel verdeutlichen.

Beispiel 1.11. Wir betrachten eine Urne mit 2 roten und 3 schwarzen Kugeln. Es wird
rein zufällig eine Kugel aus der Urne gezogen; ihre Farbe wird notiert und anschließend
werden diese Kugel und eine weitere Kugel derselben Farbe in die Urne zurückgelegt.
Nach gutem Durchmischen wird wiederum eine Kugel aus der Urne gezogen. Mit welcher
Wahrscheinlichkeit ist diese Kugel rot?
Schreiben wir sozusagen zur Abkürzung für das Ziehen einer roten Kugel eine 1 und für
das Ziehen einer schwarzen Kugel eine 0, so können wir als Ergebnismenge für das 1. und
das 2. Ziehen jeweils Ω1 = Ω2 = {0, 1} wählen. Wir suchen dann die Wahrscheinlichkeit
für das Ereignis A = {(1, 1), (0, 1)}. Wie müssen wir auf der Potenzmenge von Ω = Ω1 ×Ω2
ein Wahrscheinlichkeitsmaß gemäß Definition 1.6 festlegen?
Wir würden bei einer oftmaligen Wiederholung des Experiments beim ersten Zug mit
Wahrscheinlichkeit p1 = 52 eine rote und mit Wahrscheinlichkeit p2 = 53 eine schwarze
Kugel erwarten. Wird beim 1. Zug eine rote Kugel gezogen, d.h. ist a1 = 1, so befinden
sich vor dem 2. Zug in der Urne 3 rote und 3 schwarze Kugeln. Ist dagegen a1 = 0, so
befinden sich vor dem 2. Zug 2 rote und 4 schwarze Kugeln in der Urne. Im ersten Fall
wird man dann in der Hälfte aller Fälle als zweite Kugel eine rote Kugel erwarten. Im
zweiten Fall erwartet man dagegen in 2 von 6 Ziehungen eine rote Kugel. Also ist es
sinnvoll, die Wahrscheinlichkeiten auf Ω folgendermaßen festzulegen:
2 1 2 1 3 1 3 2
P (1, 1) = · , P (1, 0) = · , P (0, 1) = · und P (0, 0) = · .
5 2 5 2 5 3 5 3
Offenbar ist z.B. die Wahrscheinlichkeit dafür, dass die zweite gezogene Kugel rot ist:
1 1 2
P (1, 1) + P (0, 1) = + = .
5 5 5
Wir können mehrstufige Zufallsexperimente an einem Baumdiagramm veranschaulichen.

Start
2 3
5 ւ ց 5

1 0
1 1 1 2
2 ւ ց 2 3 ւ ց 3

1 0 1 0
1 1 1 2
5 5 5 5

Definition 1.12. Es sei Ωj endlich oder abzählbar unendlich für j = 1, . . . , n; ferner

sei P1 eine Wahrscheinlichkeitsverteilung auf Ω1 . Für jedes a1 ∈ Ω1 sei ein System
22 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

von Übergangswahrscheinlichkeiten P (a2 |a1 ) ≥ 0 mit

X
P2 (a2 |a1 ) = 1 für alle a1 ∈ Ω1
a2 ∈Ω2

gegeben. Wir betrachten als Grundraum eines n−stufigen Zufallsexperiments die

Menge Ω = Ω1 × . . . × Ωn und definieren unter der Voraussetzung, dass für die
Modellierung des Übergangs vom (j −1)−ten zum j−ten Teilexperiment (2 ≤ j ≤ n)
ein System von Übergangswahrscheinlichkeiten

Pj (aj |a1 , . . . , aj−1) ≥ 0 für jedes (a1 , . . . aj−1 ) ∈ Ω1 × . . . × Ωj−1

mit
X
Pj (aj |a1 , . . . , aj−1) = 1 für alle (a1 , . . . aj−1 ) ∈ Ω1 × . . . × Ωj−1
aj ∈Ωj

gegeben ist, die Wahrscheinlichkeit P (ω) für ω = (a1 , . . . , an ) nach der ersten Pfad-
regel durch
P (ω) := P1 (a1 ) · P2 (a2 |a1 ) · . . . · Pn (an |a1 , . . . , an−1 ) .
Dann ist (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum, wenn wir für eine Teilmenge
A ⊂ Ω definieren X
P (A) = P (ω) .
ω∈A

Die Wahrscheinlichkeit eines Ereignisses A berechnet sich als Summe aller Wahr-
scheinlichkeiten, die in der n−ten Stufe zu einem ω ∈ A führen. Diese Eigenschaft
wird auch zweite Pfadregel genannt.

Häufig kommt es vor, dass die Teilexperimente von dem Ablauf der vorhergehenden Teil-
experimente unabhängig sind. Wir präzisieren dies in der folgenden

Definition 1.13. Ist ein n−stufiges Zufallsexperiment gegeben und gilt für das Sy-
stem der Übergangswahrscheinlichkeiten

Pj (aj |a1 , . . . , aj−1) = Pj (aj )

für alle aj ∈ Ωj , a1 ∈ Ω1 , . . . , aj−1 ∈ Ωj−1 , dann ist (Ω, P(Ω), P ) mit

n
Y
P (ω) = Pj (aj ) für ω = (a1 , . . . , an )
j=1

ein Wahrscheinlichkeitsraum. Man nennt solche mehrstufigen Zufallsexperimente auch

Produktexperimente (vgl. auch Definition 1.21).
1.4. BEDINGTE WAHRSCHEINLICHKEITEN, DER SATZ VON BAYES UND BEISPIELE23

1.4 Bedingte Wahrscheinlichkeiten, der Satz von Bayes

und Beispiele
Wir wollen uns nun damit beschäftigen, wie man Vor- und Zusatzinformationen verarbei-
ten kann. Dazu betrachten wir das folgende
Beispiel 1.14. Drei Maschinen produzieren denselben Artikel, allerdings mit unterschied-
licher Qualität. Aus langer Erfahrung weiß man, dass Maschine 1 nur 2 % Ausschuss pro-
duziert, Maschine 2 dagegen 10 % und Maschine 3 schließlich 4 %. Die Anteile der drei
Maschinen an der Gesamtproduktion betragen 30 %, 50 % bzw. 20 %. Von der Gesamt-
produktion wird ein Artikel zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass
der Artikel unbrauchbar ist?
Die Wahrscheinlichkeit, dass ein Artikel, der von Maschine 1 produziert wurde, unbrauch-
bar ist, ist 0.02. Wir schreiben dafür

P (U|M1 ) = PM1 (U) = 0.02

und meinen dabei mit U das Ereignis, dass ein Artikel unbrauchbar ist und mit M1 , dass
der Artikel von Maschine 1 produziert wurde. Entsprechend ist

P (U|M2 ) = PM2 (U) = 0.1

und
P (U|M3 ) = PM3 (U) = 0.04.

Definition 1.15. Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Sind A und B zwei

Ereignisse, d.h. A, B ∈ A, mit P (B) > 0, so ist die bedingte Wahrscheinlichkeit
P (A|B) = PB (A) (”Wahrscheinlichkeit von A unter der Bedingung B”) definiert
durch
P (A ∩ B)
PB (A) := .
P (B)

Betrachten wir zwei Ereignisse A und B und ihre ”Gegenereignisse” A und B, so können
wir folgende ”Tafel” aufstellen, wobei jeweils der Ergebnisraum als disjunkte Vereinigung
dargestellt wird.

B B

A A∩B A∩B

Unter den Ereignissen, die die ’Eigenschaft’ B erfüllen, betrachten wir noch die Ereignisse,
die zusätzlich A erfüllen. Das ergibt die bedingte Wahrscheinlichkeit PB (A). Die obige
Tafel nennt man auch eine Vierfeldertafel.
24 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

Als Beispiel blicken wir auf das statistische Jahrbuch der Bundesrepublik Deutschland aus
dem Jahre 2000, das unter den ungefähr 82,2 Millionen Einwohnern der BRD folgende
Altersstruktur aufzeigt:

mindestens 70 unter 70 Jahre Summe

Jahre alt alt

Männer 3,19 Mill. 36,90 Mill. 40,09 Mill.

Frauen 6,15 Mill. 35,93 Mill. 42,08 Mill.

Summe 9,34 Mill. 72,83 Mill. 82,17 Mill.

Wir schreiben für das Merkmal ”Mann” kurz M und für das Merkmal ”mindestens 70
Jahre alt” kurz S. Die Wahrscheinlichkeit dafür, dass eine beliebig ausgewählte Person
ein mindestens 70 Jahre alter männlicher Einwohner ist, ist
3, 19
P (M ∩ S) = ≈ 0, 038 .
82, 17
Die Wahrscheinlichkeit dafür, dass ein männlicher Einwohner mindestens 70 Jahre alt ist,
ist
3, 19
PM (S) = ≈ 0, 08 .
40, 09
Die Wahrscheinlichkeit dafür, dass ein mindestens 70 jähriger Einwohner ein Mann ist,
ist
3, 19
PS (M) = ≈ 0, 342 .
9, 34
Als Folgerung aus Definition 1.15 erhalten wir
Bemerkung 1.16 (Multiplikationssatz). (a) Sind A, B ∈ A mit P (A) > 0 und P (B) > 0,
so folgt
P (A ∩ B) = PB (A) · P (B) = PA (B) · P (A).
Induktiv ergibt sich
(b) Sind A1 , A2 , . . . , An ∈ A mit n ≥ 2, so dass P (A1 ∩ A2 ∩ · · · ∩ Aν−1 ) > 0 gilt für alle
ν = 2, . . . , n. Dann ist
n
Y
P (A1 ∩ · · · ∩ An ) = P (A1 ) P (Aν | A1 ∩ · · · ∩ Aν−1 ).
ν=2

n
[
Satz 1.17 (Satz von der totalen Wahrscheinlichkeit). Es sei Ω = Bk eine dis-
k=1
1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 25

junkte Zerlegung mit P (Bk ) > 0 für 1 ≤ k ≤ n. Dann gilt für beliebiges A ∈ A:
n
X
P (A) = P (Bk ) · PBk (A).
k=1

Beweis. Aus
n
[ n
[
A=A∩Ω= A∩( Bk ) = (A ∩ Bk )
k=1 k=1

und der paarweisen Disjunktheit von A ∩ Bk folgt

n
X n
X
P (A) = P (A ∩ Bk ) = PBk (A) · P (Bk ).
k=1 k=1

Wir kehren zu unserem Beispiel 1.14 zurück: Die Gesamtmenge der produzierten Artikel
können wir als disjunkte Vereinigung M1 ∪ M2 ∪ M3 auffassen. Dann gilt nach Satz 1.17
für die Wahrscheinlichkeit, dass ein beliebig herausgegriffener Artikel unbrauchbar ist:

P (U) = PM1 (U) · P (M1 ) + PM2 (U) · P (M2 ) + PM3 (U) · P (M3 )
= 0.02 · 0.3 + 0.1 · 0.5 + 0.04 · 0.2 = 0.064.

Es wird also 6,4 % Ausschuss produziert.

Folgerung 1.18. Es sei B ∈ A mit 0 < P (B) < 1, d.h. auch 0 < P (B) < 1. Dann
ist für beliebiges A ∈ A:

P (A) = PB (A) · P (B) + PB (A) · P (B).

Bei der Berechnung bedingter Wahrscheinlichkeiten können manchmal erstaunliche Phä-

nomene auftreten. Wir konstruieren ein Beispiel über die Zulassungszahlen in 2 Stu-
diengängen an einer Universität:

Frauen Männer

Bewerbungen zugelassen Bewerbungen zugelassen

Fach 1 900 720 (80 %) 200 180 (90 %)

Fach 2 100 20 (20 %) 800 240 (30 %)

Summe 1000 740 (74 %) 1000 420 (42 %)

26 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

Obwohl die Zulassungsquoten der Männer diejenigen der Frauen in jedem Fach übertref-
fen, erscheint die Universität insgesamt auf den ersten Blick männerfeindlich. Das liegt
daran, dass die globale Zulassungsquote als gewichtetes Mittel der Zulassungsquoten in
den einzelnen Fächern berechnet wird; es ist
0, 74 = 0, 9 · 0, 8 + 0, 1 · 0, 2 und 0, 42 = 0, 2 · 0, 9 + 0, 8 · 0, 3
Hieran sieht man, dass durch Verschweigen gewisser Aspekte nicht mehr der Realität
entsprechende Schlussfolgerungen gezogen werden können.
Der historische Ursprung für die Entdeckung des oben geschilderten als Simpson-Para-
doxon bekannten Phänomens war wohl eine Statistik aus dem Jahre 1910 über Tbc-
Todesfälle in New York und Richmond, aufgegliedert für Weiße und Farbige. Dabei waren
die Einzeltodesraten für Weiße und Farbige in New York höher, die Gesamttodesrate war
aber in Richmond höher.

n
[
Satz 1.19 (Satz von Bayes). Es sei Ω = Bk eine disjunkte Zerlegung mit P (Bk ) >
k=1
0 für 1 ≤ k ≤ n. Ist A ∈ A beliebig mit P (A) > 0, so gilt

P (Bk ∩ A) P (Bk ∩ A)
PA (Bk ) = = n .
P (A) X
P (Bj ) · PBj (A)
j=1

Ist n = 2, so erhalten wir mit B1 = B und B2 = B:

P (A ∩ B)
PA (B) = .
P (B) · PB (A) + P (B) · PB (A)

Beispiel 1.20. Wir betrachten einen medizinischen Labortest zur Erkennung von Krank-
heiten. Es können bei einem solchen Test zwei Arten von Fehlern auftreten:
1. Der Patient hat die Krankheit; sie wird aber durch den Test nicht erkannt.
2. Der Patient ist gesund, wird aber aufgrund des Tests als krank diagnostiziert.
Konkret beziehen wir uns auf folgendes Beispiel:
In der BRD waren 1975 etwa 0,5 % der Bevölkerung an Tbc erkrankt. Man weiß auf-
grund langjähriger Erfahrung, dass durch eine spezielle Tbc-Röntgenuntersuchung
90 % der Kranken und 99 % der Gesunden richtig diagnostiziert werden.
Wie groß ist die Wahrscheinlichkeit, dass eine als krank diagnostizierte Person wirklich
an Tbc erkrankt ist und wie groß ist die Wahrscheinlichkeit, dass eine als gesund diagno-
stizierte Person wirklich gesund ist.
Wir betrachten zur Vereinfachung das Ereignis K: ”Die Person ist krank” und das Ereignis
N: ”Der Test fällt negativ aus”, d.h. die Person wird als gesund diagnostiziert.
Dann ergeben die obigen Daten:
P (K) = 0.005, PK (N) = 0.9, PK (N) = 0.99
1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 27

und somit
P (K) = 0.995, PK (N) = 0, 1, PK (N) = 0.01.
Wegen

P (N ∩ K) P (K) · PK (N)
PN (K) = =
P (K) · PK (N ) + P (K) · PK (N ) P (K) · PK (N) + P (K) · PK (N)

und
P (K) · PK (N)
PN (K) =
P (K) · PK (N) + P (K) · PK (N)
erhalten wir daraus

PN (K) ≈ 0.3114 sowie PN (K) ≈ 0.9995 .

Definition 1.21. (i) Zwei Ereignisse A und B heißen (stochastisch) unabhängig,

wenn gilt
P (A ∩ B) = P (A) · P (B);
andernfalls heißen sie abhängig. n Ereignisse A1 , . . . , An (mit n ≥ 2) heißen
(stochastisch) unabhängig, falls für alle mindestens zweielementigen Teilmengen
T ⊂ {1, 2, . . . , n} gilt !
\ Y
P Aj = P (Aj ) .
j∈T j∈T

(ii) Eine Familie von Ereignissen (Ai )i∈I ⊂ A heißt paarweise (stochastisch) un-
abhängig, falls

P (Ai ∩ Aj ) = P (Ai ) · P (Aj ), ∀i, j ∈ I, i 6= j.

Beispiel 1.22 (Ziegenproblem).

Situation:

• 3 Türen, dahinter 1 Auto und 2 Ziegen

• Kandidat wählt eine Tür

• Eingriff des Moderators: Dieser öffnet eine der nicht-gewählten Türen, hinter der
kein Auto steht

• Kandidat darf Wahl ändern

Frage: Ist die Änderung der Entscheidung sinnvoll?

Konkret: O.b.d.A. wegen Symmetrie wählt Kandidat Tür 1, Quizmaster öffnet Tür 3.
Soll Kandidat bei Tür 1 bleiben oder zu 2 wechseln?
28 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

Sei, ohne den Wahrscheinlichkeitsraum zu spezifizieren:

Ai =
ˆ Auto ist hinter Tür i
1
P (Ai ) = 3
, i ∈ {1, 2, 3}
Ki =
ˆ Kandidat wählt Tür i
1
P (Ki ) = 3
, i ∈ {1, 2, 3}
Ai , Kj stochastisch unabhängig, 1 ≤ i, j ≤ 3
Qi =
ˆ Quizmaster öffnet Tür i (nicht unabhängig von Ai , Kj )
P (A1 ∩ K1 ∩ Q3 )
⇒ P (A1 |K1 ∩ Q3 ) =
| {z } P (K1 ∩ Q3 )
Bleibestrategie
P (Q3 |A1 ∩ K1 )
= · P (A1 ∩ K1 ).
P (K1 ∩ Q3 )
Es ist
P (K1 ∩ Q3 ) = P (K1 ∩ Q3 ∩ A1 ) + P (K1 ∩ Q3 ∩ A2 ) + P (K1 ∩ Q3 ∩ A3 )
| {z }
=0

= P (Q3 | A1 ∩ K1 ) · P (A1 ∩ K1 ) + P (Q3 | A2 ∩ K1 ) · P (A2 ∩ K1 )

| {z } | {z } | {z } | {z }
= 21 = 91 =1 = 19
1 1 1 1
= · +1· = .
2 9 9 6
Eingesetzt in die Bleibestrategie:
1
P (Q3 | A1 ∩ K1 ) 2 1 1
P (A1 | K1 ∩ Q3 ) = · P (A1 ∩ K1 ) = 1 · = .
P (K1 ∩ Q3 ) 6
9 3

Analog folgt
P (Q3 | A2 ∩ K1 ) 1 1 2
P (A2 | K1 ∩ Q3 ) = · P (A2 ∩ K1 ) = 1 · = ,
P (K1 ∩ Q3 ) 6
9 3

d.h. die Änderung der Entscheidung verdoppelt die Gewinnwahrscheinlichkeit.

Lemma 1.23. 1. Mit A, B sind auch A, B̄ und Ā, B̄ stochastisch unabhängig.

2. Ist P (B) > 0, so gilt:

A, B stochastisch unabhängig ⇐⇒ P (A | B) = P (A).

3. Ist A eine sogenannte Nullmenge, d.h. P (A) = 0, so sind A, B stochastisch

unabhängig für alle B ∈ A.
1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 29

Beweis. (Übung)
Beispiel 1.24. Werfen von 2 fairen Würfeln, d.h. Laplaceverteilung über Ω = {(i, j) |
i, j ∈ {1, . . . , 6}}.
Wir bezeichnen mit
A1 =
ˆ Würfel 1 zeigt eine gerade Zahl,
A2 =
ˆ Würfel 2 zeigt eine gerade Zahl,
A3 =
ˆ die Augensumme ist gerade.
Es gilt
1
P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) = ,
4
d.h. A1 und A2 sind stochastisch unabhängig. Weiterhin gilt
1 1
P (A3 | A1 ) = P (A3 ) = und P (A3 | A2 ) = P (A3 ) = .
2 2
Nach dem in Lemma 1.23 bewiesenen Kriterium sind also auch A2 und A3 stochastisch
unabhängig; A1 und A3 sind ebenfalls stochastisch unabhängig. Also wissen wir, dass
{A1 , A2 , A3 } paarweise stochastisch unabhängig sind.
Nun gilt
1 1
P (A1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 ) = und P (A1 ) · P (A2 ) · P (A3 ) = ,
4 8
und damit
P (A1 ∩ A2 ∩ A3 ) 6= P (A1 ) · P (A2 ) · P (A3 ),
d.h. A1 , A2 , A3 sind NICHT stochastisch unabhängig.
Beispiel 1.25 (Sortieren (Rencontre-Problem)). Betrachte Felder der Länge n von ver-
gleichbaren, verschiedenen Elementen. Alle Anordnungen seien gleichwahrscheinlich. Mo-
delliere die Situation wie folgt:
Ω = {Permutationen von {1, . . . , n}}
A = P(Ω)
1
P ({ω}) = ∀ω ∈ Ω.
n!
Teil a: Bestimme die Wahrscheinlichkeit, dass mindestens ein Element an der richtigen
Stelle ist (vorsortiert). Definiere dazu Ereignismengen Aj , welche jeweils alle Ergebnisse
beinhalten, bei denen Element j an der j-ten Stelle ist, wie folgt:
Aj = {ω = (ω1 , . . . , ωn ) ∈ Ω | ωj = j}.

Sn
Gesucht ist dann P (A1 ∪ . . . ∪ An ) = P j=1 Aj . Da die Aj sicher nicht paarweise

disjunkt sind, erfolgt die Berechnung mit Hilfe der Siebformel:

Sei 1 ≤ i1 < . . . < il ≤ n und l ≤ n. Dann ist
l
\
Aij = {ω ∈ Ω | ωij = ij , j = 1, . . . , l}
j=1
30 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG

die Menge aller Permutationen, bei denen die Elemente i1 , . . . , il sich an der richtigen
Stelle befinden. Die Mächtigkeit dieser Menge ist
l
\
Aij = (n − l)!,
j=1

weil man die gegebenen l Elemente auf die richtigen Positionen verteilen muss, dann aber
die verbliebenen (n − l) Elemente beliebig auf die restlichen (n − l) Positionen verteilen
darf. Die Wahrscheinlichkeit dafür, dass sich die l Elemente i1 , . . . , il auf den richtigen
Positionen befinden, ist deshalb
l
\
(n − l)! 1
P Aij = = , l = 1, . . . , n.
n
j=1
n! l
l!

Außerdem ist die Mächtigkeit der Menge aller l-elementigen Teilmengen von n, also die
Menge aller Möglichkeiten, zunächst l Elemente aus den vorhandenen n auszuwählen

n
| {(i1 , . . . , il ) | 1 ≤ i1 < . . . < il ≤ n} |= .
l
Insgesamt ergibt sich für die Wahrscheinlichkeit, dass mindestens ein Element sich an der
richtigen Position befindet
Xn X n
\
Sn Siebformel n+1
P j=1 Aj = P (Aj ) − P (Ai ∩ Aj ) + · · · + (−1) P Aj
j=1 i<j j=1

n n 1 n+1 n 1
= − n
+ · · · + (−1) n

n 2 2 2! n n n!
1 1 (−1)n+1
= 1− + −···+
2! 3! n!

1 1 1 (−1)n
= 1− 1− + − −···+
1! 2! 3! n!
n→∞
−→ 1 − e−1 ≈ 0, 6321.

Erstaunlicherweise konvergiert die Wahrscheinlichkeit gegen einen festen Wert. Das be-
deutet, dass die Wahrscheinlichkeit dafür, ob mindestens ein Element in einem Feld der
Länge n an der richtigen Position ist, für große n fast unabhängig von n ist.
Teil b: Eine Abschätzung dafür, dass mindestens k Elemente vorsortiert sind
k
\
S Tk Satz 1.7 X
P 1≤i1 <...<ik ≤n l=1 Ail ≤ P Ail
1≤i1 <...<ik ≤n l=1

n
1 1
= k
·
n = .
k
k! k!

Teil c: Die Wahrscheinlichkeit dafür, dass genau k Elemente vorsortiert sind.

1.4. BEDINGTE W’KEITEN, SATZ VON BAYES UND BEISPIELE 31

Nach Teil a beträgt die Wahrscheinlichkeit dafür, dass in einem Feld der Länge n − k kein
Element vorsortiert ist
1 1 (−1)n−k
1 − + − ...+ .
1! 2! (n − k)!
Daher ist die Anzahl der Anordnungen, bei denen kein Element vorsortiert ist,

1 1 (−1)n−k
(n − k)! · 1 − + − . . . + .
1! 2! (n − k)!

Nun gibt es noch nk Möglichkeiten, ein Feld der Länge n in eines der Länge k und eines
der Länge n − k aufzuteilen. Somit ergibt sich für die Wahrscheinlichkeit, dass k Elemente
vorsortiert sind

1 n 1 1 (−1)n−k
(n − k)! 1 − 1! + 2! − . . . + (n−k)!
n! k

1 1 1 (−1)n−k
= 1 − + − ...+ .
k! 1! 2! (n − k)!

Wie werden Wahrscheinlichkeiten bestimmt, wenn schon bekannt ist, dass das Ergebnis
in einer bestimmten Teilmenge liegt?
Sei beispielsweise Ω eine Menge von Chips, die von zwei verschiedenen Firmen stammen
und |Ω| = 5000. Von Firma A stammen |A| = 1000 Chips und von Firma B |B| = 4000
Chips. Unter den 5000 Chips sind insgesamt |D| = 300 defekt, von denen |A ∩ D| = 100
von Firma A und |B ∩ D| = 200 von Firma B stammen. Von Firma A sind also 10%
aller Chips defekt und von Firma B 5%. Es werde nun zufällig ein Chip gezogen (Laplace
Modell). Die Wahrscheinlichkeit dafür, dass der Chip defekt ist, falls er von Firma A
stammt ist
|D∩A| 100
|D ∩ A| |Ω| P (D ∩ A) 1
P (D | A) = = |A| = = 5000
1000 = .
|A| P (A) 5000
10
|Ω|

Die Wahrscheinlichkeit, dass ein Chip von Firma A stammt, falls er defekt ist, ist
A∩D
|A ∩ D| |Ω| 1
P (A | D) = = |D|
= .
|D| 3
|Ω|
32 KAPITEL 1. GRUNDBEGRIFFE DER WAHRSCHEINLICHKEITSRECHNUNG
Kapitel 2

Diskrete Zufallsvariable. Wichtige

diskrete
Wahrscheinlichkeitsverteilungen

Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der
Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer fassen.

2.1 Diskrete Zufallsvariable

Definition 2.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Funktion

X :Ω→R

mit endlichem oder abzählbarem Wertebereich

X(Ω) = {x1 , x2 , . . .}

heißt diskrete Zufallsvariable auf Ω.

Beispiel 2.2. Wir betrachten einen Laplace-Würfel; wir werfen ihn dreimal. X ordne
jedem (dreimaligen) Wurf die Augensumme zu; dann ist X(Ω) = {3, 4, . . . , 18}. Wir
berechnen z. B.
X −1 ({4}) = {(1, 1, 2), (1, 2, 1), (2, 1, 1)}
oder
X −1 ([2.5, 4.8]) = X −1 ({3}) ∪ X −1 ({4})
= {(1, 1, 1)} ∪ X −1 ({4}).
Betrachten wir dann die Wahrscheinlichkeit P (X −1({4})) , so erhalten wir
3 1
P (X −1 ({4})) = = .
216 72
1
Man schreibt auch P (X = 4) = . Damit haben wir Teilmengen von R über den
72
Wahrscheinlichkeitsraum eine Wahrscheinlichkeit zugeordnet.

33
34 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

Wir bezeichnen mit

(X = x) := {ω ∈ Ω | X(ω) = x} bzw. (X ≤ x) := {ω ∈ Ω | X(ω) ≤ x}.

Definition 2.3. (a) Die Funktion

V = VX : X(Ω) −→ [0, 1]
x 7→ V (x) = P (X = x).

heißt Verteilung der Zufallsvariablen X.

(b) Die Funktion F = FX : R → [0, 1] mit

F (x) = P (X ≤ x)

heißt Verteilungsfunktion von X.

Beispiel 2.4. Ein Laplace-Würfel wird dreimal geworfen. Die Zufallsvariable X bezeichne
die Anzahl der ungeraden Zahlen, die dabei geworfen wird. Es ist X(Ω) = {0, 1, 2, 3}.
Bezeichnet G das Ergebnis, dass eine gerade Augenzahl gewürfelt wird und U das Ereignis,
dass sich eine ungerade Augenzahl ergibt, so erhalten wir (wegen der Unabhängigkeit der
Ereignisse)
1 3
P (X = 0) = P (GGG) = = 0.125,
2
P (X = 1) = P (UGG) + P (GUG) + P (GGU)
1 3
= 3· = 0.375,
2
P (X = 2) = P (UUG) + P (UGU) + P (GUU)
1 3
= 3· = 0.375,
2
und
1
P (X = 3) = P (UUU) = ( )3 = 0.125.
2
Die Verteilungsfunktion F = FX von X ist dann eine Treppenfunktion mit

 0 für x < 0


 0.125 für 0 ≤ x < 1


FX (x) = 0.5 für 1 ≤ x < 2




 0.875 für 2 ≤ x < 3

1 für 3 ≤ x.

Satz 2.5. Ist X eine diskrete Zufallsvariable mit Wertemenge X(Ω) = {xi | i ∈
N} ⊂ R, so gilt für die zugehörige Verteilungsfunktion F :
P
(a) Für x ∈ R ist F (x) = P (X ≤ x) = xi ≤x P (X = xi ).
2.2. ERWARTUNGSWERT UND VARIANZ DISKRETER ZUFALLSVARIABLEN 35

(b) Ist x < y, so gilt F (x) ≤ F (y). (Monotonie)

(c) lim F (x) = 0, lim F (x) = 1.

x→−∞ x→∞

Bemerkung 2.6. In Teil (a) von Satz 2.5 benutzen wir die Diskretheit der Zufallsva-
riablen, und zwar um die Summe auf der rechten Seite bilden zu können. Warum diese
unendliche Summe im mathematischen Sinne existiert wird in der Vorlesung “Mathematik
1” begründet. Ebenfalls in der Vorlesung “Mathematik 1” wird das Symbol lim und der
x→∞
Begriff des (uneigentlichen) Grenzwerts von Funktionen erklärt. (Siehe auch das Kapitel
“Grundlegendes aus der Analysis” in diesem Skript).

Satz 2.7. Ist F die Verteilungsfunktion einer diskreten Zufallsvariablen X, so gilt

für alle reellen Zahlen a < b:

(a) P (a < X ≤ b) = F (b) − F (a).

(b) P (X > a) = 1 − F (a).

Teil (a) des Satzes 2.7 besagt: Für a < b gibt

X X X
F (b) − F (a) = P (X = xj ) − P (X = xj ) = P (X = xj )
xj ≤b xj ≤a a<xj ≤b

die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert im Intervall ]a, b]
annimmt.

Definition 2.8. Zwei diskrete Zufallsvariable X und Y auf einem Wahrscheinlich-

keitsraum Ω heißen unabhängig, wenn die Ereignisse X = x und Y = y für jedes
beliebige Tupel (x, y) mit x ∈ X(Ω) und y ∈ Y (Ω) unabhängig sind, d.h. wenn gilt:

P ((X = x) ∩ (Y = y)) = P (X = x) · P (Y = y).

Anderenfalls heißen X und Y abhängig.

2.2 Erwartungswert und Varianz diskreter Zufallsva-

riablen
Welche Augenzahl erwarten wir im Mittel beim Werfen eines Würfels; ein Maß wäre die
Summe aller Möglichkeiten dividiert durch die Mindestanzahl, mit der man dies erreichen
kann:
1
(1 + 2 . . . + 6) = 3, 5.
6
Diese Zahl ergibt sich bei keinem Wurf als Ergebnis, ist also mehr eine ”theoretische”
Zahl.
36 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

X
Definition 2.9. Sei X eine diskrete Zufallsvariable. Falls die Reihe |X(ω)|P (ω)
ω∈Ω
konvergiert, so heißt X
E(X) = X(ω)P (ω) (2.1)
ω∈Ω

Erwartungswert von X. Der Erwartungswert wird oft mit E(X) = µ bezeichnet.

Bemerkung 2.10. Eine äquivalente Formel für den Erwartungswert ist:

X
E(X) = xi · P (X = xi ).
xi ∈X(Ω)

Beispiel 2.11. Wir betrachten das wiederholte Würfeln mit einem fairen Würfel. Wie
lange muss man im Mittel auf die erste Sechs warten. Wir haben es hier mit einem Ex-
periment mit zwei möglichen Ergebnissen zu tun, nämlich mit Erfolg (eine Sechs) oder
Misserfolg (keine Sechs). Bei einem fairen Würfel tritt der Erfolg mit der Wahrscheinlich-
1 5
keit p = und der Misserfolg mit der Wahrscheinlichkeit q = 1 − p = ein. Gibt die
6 6
Zufallsvariable X die Anzahl der Versuche bis zum 1. Auftreten des Erfolgs an, so ist
pk = P (X = k) = q k−1 p.
Dann gilt (geometrische Reihe!):
∞ ∞ ∞
X X X p
P (X = k) = p q k−1 = p qk = = 1.
1−q
k=1 k=1 k=0

Für den Erwartungswert erhalten wir

∞
X ∞
X
k−1
E(X) = kpq =p kq k−1 .
k=1 k=1

∞
X
Um den Reihenwert zu bestimmen, betrachten wir die Potenzreihe xk , die für |x| < 1
k=0
konvergiert; wir dürfen gemäß Kapitel 1 aus Math. für Inf. 2 die Potenzreihe differenzieren,
indem wir gliedweise differenzieren; wir erhalten so
∞ ∞
!
X
k−1 d X
k d 1 1
kx = x = = 2
.
k=1
dx k=0
dx 1 − x (1 − x)

In unserem Beispiel ergibt sich daher

1 1
E(X) = p 2
= .
(1 − q) p
1
Der Erwartungswert beim Würfeln mit p = ist damit E(X) = 6, d.h. dass man im
6
Durchschnitt 6 Würfe benötigt, um eine Sechs zu würfeln.
2.2. ERWARTUNGSWERT, VARIANZ 37

Satz 2.12. Sind X, Y zwei diskrete Zufallsvariablen mit existierenden Erwartungs-

werten, so gelten folgende Aussagen:

(i) Linearität des Erwartungswerts: Für beliebige Konstante a, b ∈ R gilt:

E(aX + b) = aE(X) + b. (2.2)

Zudem gilt:
E(X + Y ) = E(X) + E(Y ). (2.3)

(ii) Für unabhängige Zufallsvariable X und Y gilt:

E(X · Y ) = E(X) · E(Y ).

(iii) Monotonie des Erwartungswerts: Gilt X ≤ Y , d.h. X(ω) ≤ Y (ω) für alle
ω ∈ Ω, so folgt
E(X) ≤ E(Y ).

Beweis. Wir beweisen hier nur Teil (i). Zu (2.2): Wir halten etwas allgemeiner fest: Ist
X eine diskrete Zufallsvariable mit X(Ω) = {x1 , x2 , . . .} und g : R → R eine bijektive
Funktion, so ist auch g ◦ X eine diskrete Zufallsvariable, und es gilt
X X
E(g ◦ X) = g(xi )P (g ◦ X = g(xi )) = g(xi )P (X = xi ),
i i
X
falls die Reihe |g(xi )|P (X = xi ) konvergiert. Speziell für g(x) = ax + b mit zwei
i
Konstanten a, b ∈ R erhalten wir
E(aX + b) = aE(X) + b.
(Für a = 0 folgt E(b) = b sofort aus der Definition 2.9.)
Wir beweisen nun (2.3). Es gilt
X X
E(X + Y ) = (X + Y )(ω)P ({ω}) = (X(ω) + Y (ω))P ({ω})
ω∈Ω ω∈Ω
X X
= X(ω)P ({ω}) + Y (ω)P ({ω}) = E(X) + E(Y ).
ω∈Ω ω∈Ω

Im letzten Schritt haben wir die Grenzwertsätze für konvergente Reihen aus Mathe 1
benutzt.
Während der Erwartungswert eine Maßzahl für den ”Schwerpunkt” einer Verteilung ist,
ist die Varianz eine Maßzahl für die ”Streuung” um diesen Schwerpunkt.

Definition 2.13. (a) Ist X eine diskrete Zufallsvariable und existiert E(X 2 ), so
heißt X
V ar(X) := E((X − E(X))2 ) = (xi − E(X))2 pi
i
38 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

die Varianz von X.

(b) p
σ := σX := V ar(X)
heißt Standardabweichung von X.

Cov(X, Y ) := E(X · Y ) − E(X) · E(Y )

die Covarianz von X und Y und

Cov(X, Y )
ρXY :=
σX · σY
der Korrelationskoeffizient von X und Y . X und Y heißen unkorreliert, wenn
die Covarianz Cov(X, Y ) = 0 ist.

Beispiel 2.14. Die Zufallsvariable gebe die höchste Augenzahl beim zweimaligen Würfeln
an. Ist Ω := {(i, j) | 1 ≤ i, j ≤ 6}, so ist X(ω) := max(i, j) für ω = (i, j). Definieren wir
1
für ein Elementarereignis P (ω) = , so erhalten wir:
36
1 3 5
P (X = 1) = , P (X = 2) = , P (X = 3) = ,
36 36 36
7 9 11
P (X = 4) = , P (X = 5) = , und P (X = 6) = .
36 36 36
Für den Erwartungswert ergibt sich somit
1 3 5 7 9 11 161 17
E(X) = 1 · +2· +3· +4· +5· +6· = =4 .
36 36 36 36 36 36 36 36
Nun berechnen wir die Varianz
6 2
X 161 2i − 1 2555
V ar(X) = i− · = ≈ 1.97.
i=1
36 36 1296

Unmittelbar aus der Definition der Kovarianz und aus Satz 2.12 (ii) folgt

Satz 2.15. Sind zwei diskrete Zufallsvariable X und Y unabhängig, so sind sie auch
unkorreliert.

Satz 2.16 (Rechenregeln für die Varianz). Sind X, Xi , i = 1, . . . , n Zufallsvariable,

für die E(X 2 ) und E(Xi2 ) existieren, so gilt:

(i) V ar(X) = E(X 2 ) − E(X)2 . (Verschiebungssatz)

(ii) V ar(aX + b) = a2 V ar(X).

2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 39

(iii) Sind X1 , . . . , Xn paarweise unabhängig, so gilt

n
X
V ar(X1 + . . . + Xn ) = V ar(Xk ).
k=1

2.3 Wichtige diskrete Wahrscheinlichkeitsverteilun-

gen
Wir betrachten zunächst einige Verteilungsfunktionen für Produktexperimente.

2.3.1 Die Binomialverteilung

Wir betrachten ein Zufallsexperiment (zum Beispiel das Werfen einer Münze), bei dem
nur zwei Ereignisse eintreten können, nämlich das Ereignis A mit der Wahrscheinlichkeit
p := P (A) > 0
und das Ereignis A mit der Wahrscheinlichkeit
P (A) = 1 − p > 0.
Ein Experiment dieser Form nennt man ein Bernoulli-Experiment und p heißt Ber-
noulli-Verteilung .
Wir führen das Experiment n-mal (unter gleichen Bedingungen) hintereinander durch
und fragen, wie groß die
Wahrscheinlichkeit ist, dass dabei k-mal das Ereignis A eintritt.
Eine von insgesamt nk Möglichkeiten (vgl. Abschnitt 1.2) für das k-malige Auftreten des
Ereignisses A wäre z.B. die Reihenfolge
AA . . . A} |A .{z
| {z . . A} .
k−mal (n−k)−mal

Bezeichnen wir das Ereignis A mit 1 und das Ereignis A mit 0, so ist der Grundraum für
das n-stufige Zufallsexperiment die Menge
Ω = {0, 1}n = {(ω1 , . . . , ωn ) | ωi ∈ {0, 1}, 1 ≤ i ≤ n}
mit
P (ω) = pk (1 − p)n−k , wenn k die Anzahl der Einsen in ω ist .
Das Ereignis, dass insgesamt k-mal das Ereignis A eintritt, lässt sich in der Form
Xn
Ek = {ω ∈ Ω | ωi = k}
i=1
beschreiben. Dann gilt also:

n k
P (Ek ) = p (1 − p)n−k .
k
Erklären wir Sn als die Zufallsvariable, die zählt, wie oft das Ereignis A eintritt, so erhalten
wir
n k
P (Sn = k) = P (Ek ) = p (1 − p)n−k .
k
40 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

Definition 2.17. Eine diskrete Zufallsvariable X heißt binomial-verteilt mit den

Parametern n und p, wenn für 0 ≤ k ≤ n gilt

n k
P (X = k) = p (1 − p)n−k =: Bn,p (k).
k

Wir sagen kurz: X ist B(n, p)−verteilt.

Die so definierte Binomialverteilung erfüllt die Kriterien einer diskreten Wahrscheinlich-

keitsverteilung, insbesondere gilt:
n
X n
X
P (X = k) = Bn,p (k) = 1. (2.4)
k=0 k=0

Die Identität (2.4) folgt mithilfe der Binomischen Formel:

n
n
X n
1 = [p + (1 − p)] = pk (1 − p)n−k .
k
k=0

Satz 2.18. (a) Es gilt für 0 ≤ k ≤ n

Bn,p (k) = Bn,1−p (n − k).

(b) Sei X die Zufallsvariable, die in einem n-stufigen Bernoulli-Experiment mit

Wahrscheinlichkeitsparameter p die Anzahl der Erfolge misst. Sei X die Zu-
fallsvariable, die die Anzahl der Misserfolge misst. Dann gilt für 0 ≤ m ≤ n:

P (X ≤ m) = 1 − P (X ≤ n − m − 1) .

n n
Beweis. Die Behauptung in (a) folgt aus = . Die Behauptung in (b)
k n−k
ergibt sich dann wie folgt:
m
X m
X n
X
P (X ≤ m) = Bn,p (k) = Bn,1−p (n − k) = Bn,1−p (ℓ)
k=0 k=0 ℓ=n−m
n
X
= P (X = ℓ) = P (X ≥ n − m) = 1 − P (X < n − m) .
ℓ=n−m

Beispiel 2.19. Aus einer Urne mit genau 30 Kugeln, nämlich 12 weißen und 18 roten
werden (blind) nacheinander und mit Zurücklegen genau 50 Kugeln entnommen. Wir
berechnen die Wahrscheinlichkeit dafür, dass von den entnommenen Kugeln höchstens
die Hälfte rot ist.
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 41

Mit X bezeichnen wir die Zufallsvariable, die die Anzahl der roten unter den entnommenen
Kugeln angibt. Dann ist X binomial-verteilt mit n = 50 und p = 18 30
= 0.6. Wir müssen
P (X ≤ 25) berechnen, d.h.
25 25
X X 50
P (X ≤ 25) = P (X = k) = 0.6k 0.450−k .
k
k=0 k=0

Diesen Wert können wir z.B. mit dem Taschenrechner berechnen. Es gibt jedoch für
die Binomial-Verteilung auch Tabellen, aus denen man die Werte für die sogenannten
kumulativen Wahrscheinlichkeiten
m
X
P (X ≤ m) = Bn,p (k), 0 ≤ m ≤ n,
k=0

in Abhängigkeit von p und n ablesen kann. Diese Binomial-Tabellen beinhalten aber nur
Werte für 0 < p ≤ 0.5 und in der Regel n = 10, 20, 50, 100. Wir erhalten in unserem
Beispiel nach Satz 2.18 wegen 1 − p = 0.4 und n − m − 1 = 24:

P (X ≤ 25) = 1 − P (X ≤ 24) ≈ 1 − 0.902 = 0.098 .

Um die Binomial-Tabellen zu erstellen, verwendet man eine Rekursionsformel. Es gilt für

0 < p < 1 und 1 ≤ k ≤ n:

n k n−k (n − k + 1)p n
Bn,p (k) = p (1 − p) = pk−1(1 − p)n−k+1
k k(1 − p) k−1
(n − k + 1)p
= Bn,p (k − 1) .
k(1 − p)

Satz 2.20. Ist X B(n, p)−verteilt, so gilt für den Erwartungswert E(X) = np und
für die Varianz V ar(X) = np(1 − p).

Beweis. Nach Definition des Erwartungswerts

n
X n k
E(X) = k p (1 − p)n−k
k
k=0
n
X k n k
= n p (1 − p)n−k
n k
k=1
n
X n − 1 k−1
= np p (1 − p)(n−1)−(k−1)
k−1
k=1
n−1
X n−1 k
= np p (1 − p)(n−1)−k
k
k=0

= np [p + (1 − p)]n−1 = np.
42 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

Nach Definition der Varianz und Wegen k 2 = k(k − 1) + k gilt:

n
2 n
X
V ar(X) = (k − np) pk (1 − p)n−k
k
k=0
n n
X k(k − 1) n k n−k
X k n k
= n(n − 1) p (1 − p) +n p (1 − p)n−k
k=2
n(n − 1) k k=1
n k
n n
2
X k n k n−k 2 2
X n k
−2n p p (1 − p) +n p p (1 − p)n−k
k=1
n k k=0
k

= n(n − 1)p2 + np − 2n2 p2 + n2 p2 = np(1 − p).

2.3.2 Die geometrische Verteilung

Definition 2.21. Die diskrete Zufallsvariable X heißt geometrisch-verteilt mit dem

Parameter 0 < p < 1, wenn für k ∈ N0 gilt

P (X = k) = (1 − p)k p.

Wir sagen kurz: X ist G(p)−verteilt.

Beachte, dass die geometrische Verteilung die Kriterien einer diskreten Wahrscheinlich-
keitsverteilung erfüllt, denn mithilfe der geometrischen Reihe berechnen wir
∞ ∞
X X 1
P (X = k) = (1 − p)k p = p = 1. (2.5)
k=0 k=0
1 − (1 − p)

Als Modellbeispiel dient auch hier ein Bernoulli-Experiment mit Erfolgswahrscheinlichkeit

P (A), welches wiederholt und bei gleichen Bedingungen durchgeführt wird. Die Zufalls-
variable X, die die Anzahl der Misserfolge A vor dem ersten Erfolg A zählt, ist dann
G(p)−verteilt (vgl. auch Beispiel 2.11; die dortige Zufallsvariable zählte aber, wann der
Erfolg das erste Mal eintrat).

1−p
Satz 2.22. Ist X G(p)−verteilt, so gilt für den Erwartungswert E(X) = =
p
1 1−p
− 1 und für die Varianz V ar(X) = .
p p2

Beweis. Der oben erwähnte Vergleich mit Beispiel 2.11 erklärt, weshalb der Erwartungs-
wert hier um 1 kleiner als in Beispiel 2.11 ist; dies lässt sich natürlich auch analog der
dortigen Rechnung nachrechnen.
Für die Varianz ergibt sich wegen

V ar(X) = E(X(X − 1)) + E(X) − E(X)2

2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 43

durch zweimalige Differentiation der geometrischen Reihe

∞
X
E(X(X − 1)) = k(k − 1)(1 − p)k p
k=0
∞
X
2
= p(1 − p) k(k − 1)(1 − p)k−2
k=2

2 2(1 − p)2
= p(1 − p)2 =
(1 − (1 − p))3 p2
und damit 2
2(1 − p)2 1 − p 1−p 1−p
V ar(X) = + − = .
p2 p p p2

2.3.3 Die negative Binomial-Verteilung

Beispiel 2.23. Wir betrachten n Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p
und stellen die Frage nach der Wahrscheinlichkeit dafür, dass das n-te Experiment das r-te
erfolgreiche Experiment ist und dass genau k Misserfolge dem r-ten Erfolg vorangegangen
sind. Es ist also n = r + k. Ein solches Ereignis können wir durch ein n-Tupel (ω1 , . . . , ωn )
aus k Nullen und r Einsen beschreiben, wobei die letzte Komponente eine 1 ist. Es gibt
n−1 k+r−1
insgesamt k = k
Möglichkeiten k Nullen auf die ersten n − 1 Komponenten
zu verteilen. Jedes solche n-Tupel hat die Wahrscheinlichkeit pr · (1 − p)k . Die gesuchte
Wahrscheinlichkeit ist damit

k+r−1 r
p (1 − p)k .
k

Definition 2.24. Die diskrete Zufallsvariable X besitzt eine negative Binomialver-

teilung mit den Parametern r ∈ N und 0 < p < 1, wenn für k ∈ N0 gilt

k+r−1 r
P (X = k) = p (1 − p)k .
k

Wir sagen kurz: X ist Nb(r, p)−verteilt.

Bemerkungen 2.25. Definiert man für negative ganze Zahlen m und k ∈ N0 den Bino-
mialkoeffizienten durch

m m · (m − 1) · . . . · (m − k + 1)
:= ,
k k!
so gilt für den Binomialkoeffizienten aus Definition 2.24:

k+r−1 (k + r − 1) · . . . · (k + r − 1 − k + 1) (k + r − 1) · . . . · r
= =
k k! k!
44 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

k (−r) · (−r − 1) · . . . · (−r − k + 1) k −r
= (−1) = (−1) .
k! k
Dies erklärt die Namensgebung für die Negative Binomial-Verteilung. Wir prüfen wieder,
dass die Kriterien einer diskreten Wahrscheinlichkeitsverteilung erfüllt sind:

∞ ∞
X k+r−1 r k r
X
k −r
p (1 − p) = p (−1) (1 − p)k
k=0
k k=0
k
∞
X
r −r
= p (−(1 − p))k = 1 .
k=0
k

Die zuletzt angegebene unendliche Reihe stellt nämlich die Binomialreihe mit Exponent
−r dar; daher gilt
∞
X −r 1
(−(1 − p))k = (1 − (1 − p))−r = r .
k=0
k p

Satz 2.26. Ist die Zufallsvariable X Nb(r, p)−verteilt, so gilt

1−p 1−p
E(X) = r und V ar(X) = r .
p p2

Beweis. Nach Definition gilt (verwende hier Bemerkung 2.25):

∞
r
X k k+r−1
E(X) = p (1 − p)r (1 − p)k−1
k=1
r k
∞
r
X k+r−1
= p (1 − p)r (1 − p)k−1
k=1
k−1
∞
pr (1 − p)r X k + (r + 1) − 1 r+1 k (1 − p)r
= p (1 − p) =
pr+1 k=0
k p

und entsprechend
r(r + 1)(1 − p)2
E(X(X − 1)) = ,
p2
woraus wegen
V ar(X) = E(X(X − 1)) + E(X) − E(X)2
folgt
r(r + 1)(1 − p)2 r(1 − p) r 2 (1 − p)2 r(1 − p)
V ar(X) = 2
+ − 2
= .
p p p p2
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 45

Beispiel 2.27. Als Variante von Beispiel 2.23 fragen wir nach der Wahrscheinlichkeit,
dass das r-te erfolgreiche Experiment im j-ten Versuch (mit j ≥ r) auftritt. Also müssen
unter den ersten j − 1 Experimenten r − 1 Erfolge und j − r Misserfolge aufgetreten sein.
Das j-te Experiment muss wieder erfolgreich sein. Wir identifizieren den Erfolg wieder
mit der Zahl 1 und den Misserfolg mit der 0. Da jedes j-Tupel aus j − r Nullen und r
Einsen mit der Wahrscheinlichkeit
(1 − p)j−r pr
j−1

auftritt und da es r−1 Möglichkeiten gibt, ein (j − 1)-Tupel mit r − 1 Einsen (und (j − r)
Nullen) zu bilden, erhalten wir als Wahrscheinlichkeit pr,j für den r-ten Erfolg im j-ten
Experiment
j −1
pr,j = (1 − p)j−r pr für j = r, r + 1, . . .
r−1
Mit der Substitution k = j − r erhalten wir

k+r−1 j−r r k+r−1
pr,r+k = (1 − p) p = (1 − p)k pr
r−1 k
für k = 0, 1, 2, . . . Dies ist die Wahrscheinlichkeit dafür, dass im (r + k)-ten Experiment
der r-te Erfolg eintritt.

2.3.4 Die hypergeometrische Verteilung

Beispiel 2.28. Gegeben sind N verschiedene Objekte, darunter S mit der Eigenschaft A;
es wird eine Stichprobe vom Umfang n (ohne Zurücklegen) gezogen. Mit welcher Wahr-
scheinlichkeit
sind darunter genau k Stück mit der Eigenschaft A? Nach Abschnitt 1.2 gibt
N
es n Stichproben vom Umfang n; dann müssen k Elemente der Stichprobe die Eigen-

schaft A besitzen und n−k die Eigenschaft A; dafür gibt es Sk bzw. Nn−k
−S
Möglichkeiten.
Also ist die Wahrscheinlichkeit dafür, dass in der Stichprobe genau k Objekte die Eigen-
schaft A besitzen
S N −S
k n−k
P (X = k) = N
,
n
wobei X die Anzahl der gezogenen Objekte mit der Eigenschaft A zähle.

Definition 2.29. Eine diskrete Zufallsvariable X heißt hypergeometrisch-verteilt mit

den Parametern N, S und n, wenn für 0 ≤ k ≤ n gilt

S N −S

k n−k
P (X = k) = N
.
n

Wir schreiben kurz: X ist H(N, S, n)−verteilt.

Bemerkungen 2.30. a) Dass die Summe der Wahrscheinlichkeiten gleich 1 ist, ergibt
sich aus der sog. Vandermondeschen Faltungsformel
n
X S N −S N
=
m=0
k n−k n
46 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

b) Verwenden wir die Schreibweise aus Abschnitt 1.2, so lässt sich die Wahrscheinlich-
keit aus Definition 2.29 auch folgendermaßen darstellen:

n (S)k (N − S)n−k S S!
P (X = k) = , (S)k := k! = .
k (N)n k (S − k)!

Satz 2.31. Ist X H(N, S, n)−verteilt, so gilt für den Erwartungswert

S
E(X) = n
N
und für die Varianz
S S N −n
V ar(X) = n 1− .
N N N −1

Beweis. Es ist
n
X n (S)k (N − S)n−k
E(X) = k
k=0
k (N)n
n
S X n − 1 (S − 1)k−1(N − 1 − (S − 1))n−1−(k−1)
= n
N k=1 k − 1 (N − 1)n−1
n−1
S X n − 1 (S − 1)k (N − 1 − (S − 1))n−1−k S
= n = n .
N k=0 k (N − 1)n−1 N

Wegen V ar(X) = E(X(X − 1)) + E(X) − E(X)2 folgt für die Varianz
2

S(S − 1) S 2S S S N −n
V ar(X) = n(n − 1) +n −n 2 =n 1− .
N(N − 1) N N N N N −1

Bemerkungen 2.32. Die Formel für die Varianz sieht übersichtlicher aus, wenn man
die Wahrscheinlichkeit, im ersten Zug ein Element mit der Eigenschaft A zu ziehen, mit
S
p := bezeichnet; dann erhalten wir
N
N −n
V ar(X) = np(1 − p) .
N −1
Man kann sich übrigens überlegen, dass die Wahrscheinlichkeit, im k-ten Zug ein Element
S
mit der Eigenschaft A zu ziehen, ebenfalls p = ist.
N
Wenn wir für die Binomialverteilung als Modell das Ziehen von Kugeln aus einer Urne
mit Zurücklegen wählen und als Modell für die hypergeometrische Verteilung das Ziehen
von Kugeln aus einer Urne ohne Zurücklegen, so liefert der Vergleich der Varianzen

n−1
V ar(X1 ) = np(1 − p) und V ar(X2 ) = np(1 − p) 1 − ,
N −1
also beim zweiten Modell eine kleinere Varianz als beim ersten Modell. Der Grund hierfür
ist der Informationsgewinn beim Ziehen ohne Zurücklegen.
2.3. WICHTIGE DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 47

2.3.5 Die Poisson-Verteilung

Definition 2.33. Eine diskrete Zufallsvariable X heißt Poisson-verteilt mit dem

Parameter λ > 0, wenn für k ∈ N0 gilt:

λk −λ
P (X = k) = e .
k!
Wir sagen kurz: X ist P (λ)−verteilt.

Satz 2.34. Ist X P (λ)-verteilt, so gilt für den Erwartungswert bzw. die Varianz
∞ ∞ ∞
X λk −λ −λ
X λk −λ
X λk−1
E(X) = k e =e =e λ = λ,
k! (k − 1)! (k − 1)!
k=0 k=1 k=1

∞
x
X xk
wobei wir e = , x ∈ R, verwendet haben. Wegen k 2 = k(k − 1) + k gilt weiter
k=0
k!

∞
X λk −λ
V ar(X) = (k − λ)2 ·e
k!
k=0
∞ ∞ ∞ ∞
!
X λk X λk X λk X λk
= e−λ + − 2λ + λ2
k=2
(k − 2)! k=1 (k − 1)! k=1
(k − 1)! k=0
k!

= e−λ λ2 eλ + λeλ − 2λ2 eλ + λ2 eλ = λ.

Bemerkungen 2.35. Für große n und kleine p gibt es eine Möglichkeit, die Bn,p −Verteilung
µ
durch die Poisson-Verteilung zu ersetzen. Dazu betrachten wir mit µ = np, d.h. p = ,
n
folgende Beziehung:

n k
Bn,p (k) = p (1 − p)n−k
k

µ n
n(n − 1)(n − 2) · . . . · (n − k + 1) µk 1 − n
= · k· k
k! n 1− µ n
1 2 k−1 k
1 · (1 − n
)(1 − · . . . · (1 −
n
) n
) µ µ n
= · · 1−
(1 − µn )k k! n
1 2
1 1− n
1− n
1 − k−1
n µk µ n
= µ · µ · µ · ...· · · 1 −
1− n
1− n
1− n
1 − nµ k! n

Für n → ∞ konvergieren
die ersten k Faktoren gegen 1, wenn wir µ als fest auffassen.
x x n
Wegen e = lim 1 + , x ∈ R, konvergiert der letzte Faktor gegen e−µ . Daraus ergibt
n→∞ n
48 KAPITEL 2. DISKRETE ZUFALLSVARIABLE

sich die Poisson-Näherung

µk
Bn,p (k) ≈ e−µ
.
k!
Faustregel: Im Allgemeinen kann man die Poisson-Näherung für p ≤ 0.1 und n ≥ 100
gebrauchen.

Beispiel 2.36. In einen Teig werden 250 Rosinen geknetet und dann daraus 200 Hörnchen
gebacken. Wir wählen ein Hörnchen beliebig aus. Mit welcher Wahrscheinlichkeit enthält
es genau 2 Rosinen?
1
Wir gehen davon aus, dass für jede der 250 Rosinen die gleiche Wahrscheinlichkeit
200
besteht, in das ausgewählte Hörnchen zu gelangen. Das Ereignis A tritt ein, wenn sich
die ”Rosine Nr. i” im ausgewählten Hörnchen befindet. Dann lässt sich das Geschehen
1
durch eine Binomial-Verteilung mit n = 250 und p = beschreiben. Die gesuchte
200
Wahrscheinlichkeit ist
2 248
250 1 199
B250, 1 (2) = ≈ 0.22448 ;
200 2 200 200

verwenden wir die Poisson-Näherung, so ergibt sich

1.252
B250, 1 (2) ≈ e−1.25 ≈ 0.22383 .
200 2!

2.4 Schwaches Gesetz großer Zahlen

Als Vorbereitung zum schwachen Gesetz für große Zahlen zeigen wir

Satz 2.37 (Tschebyscheffsche Ungleichung). Es seien (Ω, P(Ω), P ) ein Wahrschein-

lichkeitsraum und X eine Zufallsvariable mit endlicher Varianz. Dann gilt für jedes
ε > 0:
V ar(X)
P (|X − E(X)| ≥ ε) ≤ .
ε2

Beweis. Sei Z = X − E(X). Wir definieren eine neue Zufallsvariable Y : Ω → R durch

(
0 für ω mit |Z(ω)| < ε
Y (ω) = .
ε2 für ω mit |Z(ω)| ≥ ε

Dann ist Y ≤ Z 2 , also

V ar(X) = E(Z 2 ) ≥ E(Y ) = ε2 P (Y = ε2 ) = ε2 P (|X − E(X)| ≥ ε) .

Hieraus folgern wir

2.4. SCHWACHES GESETZ GROSSER ZAHLEN 49

Satz 2.38 (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariable mit
beschränkter Varianz). Seien X1 , . . . , Xn paarweise unabhängige Zufallsvariable mit
gleichem Erwartungswert und endlicher Varianz V ar(Xk ) ≤ M für 1 ≤ k ≤ n. Dann
gilt für alle ε > 0:

1 M
P (X1 + . . . + Xn ) − E(X1 ) ≥ ε ≤ 2 .
n nε

1
Beweis. Es sei X := (X1 + . . . + Xn ). Dann ist E(X) = E(X1 ) und nach Satz 2.16 (ii)
n
und (v) folgt:
n
1 1 X M
V ar(X) = 2 V ar(X1 + . . . + Xn ) = 2 V ar(Xk ) ≤ .
n n k=1 n

Die direkte Anwendung der Tschebyscheffschen Ungleichung liefert die Behauptung.

Bemerkung 2.39. a) Sind Y1 , Y2 , . . . Zufallsvariable, die auf einem gemeinsamen Wahr-

scheinlichkeitsraum definiert sind, und ist a eine reelle Zahl mit der Eigenschaft

lim P (|Yn − a| ≥ ε) = 0 für jedes ε > 0 ,

n→∞

so sagt man, dass die Folge (Yn ) stochastisch gegen a konvergiert.

b) Das schwache Gesetz der großen Zahlen besagt, dass die Folge der arithmetischen
Mittel von unabhängigen Zufallsvariablen mit gleichem Erwartungswert µ und be-
schränkter Varianz stochastisch gegen µ konvergiert. In diesem Sinne wird die in-
tuitive Vorstellung des Erwartungswertes als ein bei häufiger Durchführung des Ex-
perimentes erhaltener durchschnittlicher Wert präzisiert.
50 KAPITEL 2. DISKRETE ZUFALLSVARIABLE
Kapitel 3

Stetige Zufallsvariable

3.1 Dichte und Verteilungsfunktion

Manchmal ist es hilfreich häufig auftretende Verteilungen durch stetige Verteilungen an-
zunähern. Daher wollen wir uns in diesem Kapitel auch mit stetigen Zufallsvariablen
beschäftigen.

Definition 3.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Funktion X : Ω →

R heißt stetige Zufallsvariable, falls es eine integrierbare, nicht negative reelle Funk-
tion
f :R→R
gibt mit der Eigenschaft Z x
P (X ≤ x) = f (t)dt.
−∞

Die Funktion
F : R → [0, 1] Rx
x 7→ P (X ≤ x) = −∞ f (t)dt
heißt Verteilungsfunktion von X, die Funktion f heißt Dichte der Zufallsvariablen X.

Anbei ein Beispiel:

f (x) F (x)

1
(b−a) 1

0 0
x x
a b a b
Ohne Beweis geben wir die folgenden beiden Sätze an, die den Sätzen 2.5 bzw. 2.7 für
diskrete Zufallsvariable entsprechen:

51
52 KAPITEL 3. STETIGE ZUFALLSVARIABLE

Satz 3.2. Ist X eine stetige Zufallsvariable mit Verteilungsfunktion F und Dichte f ,
so gilt:

(a) Ist x < y, so gilt F (x) ≤ F (y).

(b) lim F (x) = 0, lim F (x) = 1.

x→−∞ x→∞

Satz 3.3. Ist F die Verteilungsfunktion einer stetigen Zufallsvariablen X mit Dichte
f , so gilt für alle reellen Zahlen a < b:
Rb
(a) P (a < X ≤ b) = F (b) − F (a) = a f (t)dt.
R∞
(b) P (X > a) = 1 − F (a) = a f (t)dt.
2
1 x
Beispiel 3.4. Es sei f (x) = √ exp − für x ∈ R; dann ist f nichtnegativ, stetig,
2π 2
und es gilt nach [4, Satz 11.28]:
Z ∞ 2
1 x
√ exp − dx = 1.
−∞ 2π 2

Wir definieren nun für ein Intervall I =]a, b]

Z b 2
1 x
P (I) := F (b) − F (a) = √ exp − dx,
a 2π 2
wobei durch Z x 2
1 u
F (x) = √ exp − du
−∞ 2π 2
die Verteilungsfunktion zu der Wahrscheinlichkeitsdichte f gegeben ist. P (I) gibt also den
Flächeninhalt an, der unter der ”Flächenkurve” f zwischen x = a und x = b liegt.

x2
1 −
f (x) = √ e 2
2π

f (x)
0.50

0.25

x
−4 −3 −2 −1 0 1 2 3 4
3.2. ERWARTUNGSWERT UND VARIANZ STETIGER ZUFALLSVARIABLER 53

Definition 3.5. Zwei stetige Zufallsvariable X und Y heißen unabhängig, wenn die
Ereignisse (X ≤ x) und (Y ≤ y) für beliebige (x, y) ∈ R2 unabhängig sind, d.h. wenn

P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x) · P (Y ≤ y)

gilt. Sonst heißen X und Y abhängig.

3.2 Erwartungswert und Varianz stetiger Zufallsva-

riabler
Definition 3.6. (a) Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so
heißt Z ∞
E(X) := xf (x)dx
−∞

der Erwartungswert von X.

(b) Ist X eine stetige Zufallsvariable mit der Dichtefunktion f derart, dass E(X 2 )
existiert, so definiert man die Varianz durch
Z ∞
V ar(X) := (x − E(X))2 f (x)dx.
−∞
p
σ = σX = V ar(X) heißt Standardabweichung von X.

Die in Satz 2.12 sowie Satz 2.16 studierten Eigenschaften des Erwartungswerts und der
Varianz diskreter Zufallsvariablen gelten auch für stetige Zufallsvariablen. Ebenfalls läßt
sich die Ungleichung von Tschebyscheff und das Schwache Gesetz großer Zahlen aus Ab-
schnitt 2.4 auf stetige Zufallsvariable übertragen.

3.3 Wichtige stetige Wahrscheinlichkeitsverteilungen

3.3.1 Gamma-Verteilung und Exponentialverteilung
Zahlreiche Zufallsvariable können nur nichtnegative Werte annehmen. Ihre empirische
Wahrscheinlichkeitsdichte ist oft unimodal und asymmetrisch. Als Beispiel sei die Zeit-
spanne zwischen Funktionsstörungen bei Flugzeugmotoren, die Dauer von Routineun-
tersuchungen bei Flugzeugen oder Autos erwähnt. Derartige Situationen lassen sich nur
schlecht mit einer Normalverteilung modellieren, da deren Dichte einerseits symmetrisch
um den Erwartungswert ist, andererseits auch negativen Werten positive Wahrschein-
lichkeitsdichten zugewiesen werden. In solchen Fällen ist oft der Einsatz der Gamma-
Verteilung sinnvoll.

Definition 3.7. Eine stetige Zufallsvariable X besitzt eine Gamma-Verteilung mit

54 KAPITEL 3. STETIGE ZUFALLSVARIABLE

den Parametern α > 0 und λ > 0, wenn ihre Dichte gegeben ist durch
λα α−1 −λx
Γ(α)
x e , x≥0
f (x) =
0, x < 0.

Die Gamma-Funktion Γ(α) ist dabei definiert durch

Z ∞
Γ(α) := uα−1 e−u du, α > 0.
0

Die Form der Verteilungsfunktion hängt stark von α ab. Man nennt daher α den Form-
parameter der Gamma-Verteilung. Für α = 1 erhält man die Exponentialverteilung.
Der Parameter λ heißt Skalierungsparameter. Multipliziert man nämlich eine Gamma-
verteilte Zufallsvariable X mit einer Konstanten β, so erhält man wieder eine Gamma-
verteilte Zufallsvariable mit gleichem α, der Parameter λ wird durch βλ ersetzt. Einer
Änderung von λ entspricht also die Änderung der Maßeinheit beim zugrundeliegenden
Zufallsexperiment.
Die Gamma-Funktion ist eine Verallgemeinerung der Fakultät: Direkte Integration zeigt

Γ(1) = 1,

und mit partieller Integration verfiziert man

Γ(α + 1) = αΓ(α), α > 0,

woraus insbesondere
Γ(n) = (n − 1)!, n ∈ N,
√
folgt. Ferner gilt: : Γ( 12 ) = π. Für α 6∈ N ist es nicht möglich, einen geschlossenen
Ausdruck für die Wahrscheinlichkeit P (a < X ≤ b) anzugeben.

3.3.2 Die Normal-Verteilung

Definition 3.8. Eine stetige Zufallsvariable heißt normal-verteilt mit den Parame-
tern µ und σ (kurz: X ∼ N(µ, σ 2 )), wenn die Dichtefunktion folgende Gestalt hat:
2 !
1 1 x−µ
f (x) = √ exp − .
σ 2π 2 σ

Wir sagen kurz: X ist N(µ, σ 2 )-verteilt. Die Dichtefunktion aus Beispiel 3.4 ergibt
sich mit σ = 1 und µ = 0; die N(0, 1)-Verteilung heißt Standardnormalverteilung.
3.3. WICHTIGE STETIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 55

(x − µ)2
1 −
f (x) = √ e 2σ 2
2πσ

Wendepunkt Wendepunkt

µ x
µ−σ µ+σ
x−µ
Satz 3.9. Ist X N(µ, σ 2 )-verteilt, so erhalten wir mit der Substitution =t
σ
Z ∞ 2 !
1 1 x−µ
E(X) = √ x exp − dx
σ 2π −∞ 2 σ
Z ∞
1 1 2
= √ (σt + µ) exp − t σdt
σ 2π −∞ 2
Z ∞
1 −1 2
= √ µ exp t dt = µ
2π −∞ 2
und
Z ∞ 2 !
1 2 −1 x − µ
V ar(X) = √ (x − µ) exp dx
σ 2π −∞ 2 σ
Z ∞
1 2 2 −1 2
= √ σ t exp t σ dt
σ 2π −∞ 2
√ Z ∞ Z
2 2 2 1 2 2 2 ∞√
= √ σ t exp − t dt = √ σ u exp(−u) du
π 0 2 π 0

2 3 2 1 1
= √ σ 2 Γ( ) = √ σ 2 Γ( ) = σ 2 .
π 2 π 2 2
Z ∞
mit der Gammafunktion Γ(x) := ux−1 exp(−u) du, x > 0, die Γ(x + 1) = x · Γ(x)
√ 0
sowie Γ( 21 ) = π erfüllt.

Bemerkungen 3.10. Ist X N(0, 1)-verteilt (X ∼ N(0, 1)), so bezeichnet man üblicher-
weise die zugehörige Verteilungsfunktion mit φ, d.h.
Z x
1 1 2
φ(x) = √ exp − t dt .
2π −∞ 2
56 KAPITEL 3. STETIGE ZUFALLSVARIABLE

Die Wahrscheinlichkeit, dass X Werte im Intervall ]a, b] mit a < b annimmt, ist dann
P (a < X ≤ b) = φ(b) − φ(a). Da man φ nicht mit elementaren Funktionen darstellen
kann, gibt es Tabellen, in denen viele Werte von φ eingetragen sind. Um diese Tabellen zu
erzeugen, entwickelt man den Integranden in eine Potenzreihe, integriert gliedweise und
wertet die entstehende Reihe numerisch aus.
In den Tabellen sind allerdings nur Werte φ(x) für x ≥ 0 angegeben. Wegen der Symmetrie
der Dichtefunktion ergibt sich für x > 0

φ(−x) = 1 − φ(x) .

Ist X N(µ, σ 2 )-verteilt, so erhalten wir

Z x 2 !
1 1 t−µ
P (X ≤ x) = √ exp − dt .
σ 2π −∞ 2 σ

Die Substitution t − µ = σu liefert

x−µ
P (X ≤ x) = φ
σ
und damit
b−µ a−µ
P (a < X ≤ b) = φ −φ .
σ σ
Also kann man mit den Tabellen für die N(0, 1)-Normalverteilung auch die Verteilungs-
funktion für die N(µ, σ 2 )-Verteilung näherungsweise berechnen.
Übrigens: Aufgrund der Stetigkeit von φ (bzw. f ) ist es unerheblich, ob die Intervallgren-
zen a, b zum Intervall von X dazu gehören.
Bemerkungen 3.11. Wir wollen ein paar Bemerkungen zur Gewinnung der Tabellen für
die Normalverteilung machen. Man wählt als Ersatz für den exakten Funktionswert φ(x)
die Näherung
2
1 x 1
1 − √ exp − (a1 s + a2 s2 + a3 s3 ) mit s =
2π 2 1 + bx
und

b = 0.33267, a1 = 0.4361836, a2 = −0.1201676 und a3 = 0.937298 .

Beispiel 3.12. Ein Werkstück soll eine Bohrung erhalten mit einem Durchmesser von 50
mm. Die Toleranzgrenzen sind tu = 49.97 mm und to = 50.04 mm. Es sei bekannt, dass die
von den Bohrautomaten erstellten Bohrungen N(µ, σ 2 )-verteilt sind, wobei µ = 50 mm
und σ = 0.02 mm gelten soll. Ein Werkstück ist Ausschuss, wenn der Durchmesser größer
als to ausfällt. Ist der Durchmesser kleiner als tu , so muss eine Nachbohrung durchgeführt
werden.

a) Wie groß ist die Wahrscheinlichkeit, dass die Bohrung sofort qualitätsgerecht aus-
fällt?
3.3. WICHTIGE STETIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 57

b) Wie groß ist die Wahrscheinlichkeit dafür, dass das Werkstück nachgebessert werden
muss?

c) Wie groß ist die Ausschusswahrscheinlichkeit?

Um die erste Frage zu beantworten, gilt mit den Bemerkungen 3.10 und einer Tabelle

50.04 − 50 49.97 − 50
P (tu ≤ X ≤ to ) = φ −φ = φ(2) − φ(−1.5)
0.02 0.02

= φ(2) − (1 − φ(1.5)) ≈ 0.9772 − (1 − 0.9332) = 0.9104 .

Also ist bei 91,04 % der Werkstücke von einer qualitätsgerechten Bohrung auszugehen.
Analog zur Berechnung für Teil a) erhalten wir zur Beantwortung von Teil b):

49.97 − 50
P (X < tu ) = φ = φ(−1.5) ≈ 0.0668 .
0.02

Also ist mit einer Wahrscheinlichkeit von ungefähr 6,68 % von einer Nachbesserung aus-
zugehen. Für die Ausschusswahrscheinlichkeit gilt

50.04 − 50
P (X > to ) = 1 − P (X ≤ to ) = 1 − φ = 1 − φ(2) ≈ 0.0228 .
0.02

Mit einer Wahrscheinlichkeit von 2,28 % ist der Durchmesser zu groß.

Bemerkung 3.13. Häufig ist man an der Wahrscheinlichkeit interessiert, dass die N(µ, σ 2 )-
verteilte Zufallsvariable Werte in einem zu µ symmetrischen Intervall [µ − kσ, µ + kσ] mit
k ∈ N annimmt. Es ist üblich, die Abweichung von µ in Einheiten von σ anzugeben.
Deshalb spricht man vom kσ-Intervall. Wir erhalten aus den Bemerkungen 3.10:

P µ − kσ ≤ X ≤ µ + kσ = φ(k) − φ(−k) = 2φ(k) − 1 .

Speziell für k = 1, 2, 3 ergeben sich folgende Werte

P (µ − 1 · σ ≤ X ≤ µ + 1 · σ) = 2φ(1) − 1 ≈ 0.6826 ,

P (µ − 2 · σ ≤ X ≤ µ + 2 · σ) = 2φ(2) − 1 ≈ 0.9544 ,
P (µ − 3 · σ ≤ X ≤ µ + 3 · σ) = 2φ(3) − 1 ≈ 0.9974 .
Also liegen ca. 68 % der beobachteten Werte bei einer N(µ, σ 2 )-verteilten Zufallsvariablen
zwischen µ − σ und µ + σ, ca. 95 % liegen zwischen µ − 2σ und µ + 2σ und ca. 99.7 %
liegen zwischen µ − 3σ und µ + 3σ.
58 KAPITEL 3. STETIGE ZUFALLSVARIABLE

Tabelle mit den Werten der Verteilungsfunktion φ der Standardnormalvertei-

lung

x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x)

0,00 0,5000 0,53 0,7019 1,06 0,8554 1,59 0,9441 2,12 0,9830 2,65 0,9960 3,18 0,99926
0,01 0,5040 0,54 0,7054 1,07 0,8577 1,60 0,9452 2,13 0,9834 2,66 0,9961 3,19 0,99929
0,02 0,5080 0,55 0,7088 1,08 0,8599 1,61 0,9463 2,14 0,9838 2,67 0,9962 3,20 0,99931
0,03 0,5120 0,56 0,7123 1,09 0,8621 1,62 0,9474 2,15 0,9842 2,68 0,9963 3,21 0,99934
0,04 0,5160 0,57 0,7157 1,10 0,8643 1,63 0,9485 2,16 0,9846 2,69 0,9964 3,22 0,99936
0,05 0,5199 0,58 0,7190 1,11 0,8665 1,64 0,9495 2,17 0,9850 2,70 0,9965 3,23 0,99938
0,06 0,5239 0,59 0,7224 1,12 0,8686 1,65 0,9505 2,18 0,9854 2,71 0,9966 3,24 0,99940
0,07 0,5279 0,60 0,7258 1,13 0,8708 1,66 0,9515 2,19 0,9857 2,72 0,9967 3,25 0,99942
0,08 0,5319 0,61 0,7291 1,14 0,8729 1,67 0,9525 2,20 0,9861 2,73 0,9968 3,26 0,99944
0,09 0,5359 0,62 0,7324 1,15 0,8749 1,68 0,9535 2,21 0,9865 2,74 0,9969 3,27 0,99946
0,10 0,5398 0,63 0,7357 1,16 0,8770 1,69 0,9545 2,22 0,9868 2,75 0,9970 3,28 0,99948
0,11 0,5438 0,64 0,7389 1,17 0,8790 1,70 0,9554 2,23 0,9871 2,76 0,99711 3,29 0,99950
0,12 0,5478 0,65 0,7422 1,18 0,8810 1,71 0,9564 2,24 0,9875 2,77 0,99720 3,30 0,99952
0,13 0,5517 0,66 0,7454 1,19 0,8830 1,72 0,9573 2,25 0,9878 2,78 0,99728 3,31 0,99953
0,14 0,5557 0,67 0,7486 1,20 0,8849 1,73 0,9582 2,26 0,9881 2,79 0,99736 3,32 0,99955
0,15 0,5596 0,68 0,7518 1,21 0,8869 1,74 0,9591 2,27 0,9884 2,80 0,99744 3,33 0,99957
0,16 0,5636 0,69 0,7549 1,22 0,8888 1,75 0,9599 2,28 0,9887 2,81 0,99752 3,34 0,99958
0,17 0,5675 0,70 0,7580 1,23 0,8907 1,76 0,9608 2,29 0,9890 2,82 0,99760 3,35 0,99960
0,18 0,5714 0,71 0,7612 1,24 0,8925 1,77 0,9616 2,30 0,9893 2,83 0,99767 3,36 0,99961
0,19 0,5754 0,72 0,7642 1,25 0,8944 1,78 0,9625 2,31 0,9896 2,84 0,99774 3,37 0,99962
0,20 0,5793 0,73 0,7673 1,26 0,8962 1,79 0,9633 2,32 0,9898 2,85 0,99781 3,38 0,99964
0,21 0,5832 0,74 0,7704 1,27 0,8980 1,80 0,9641 2,33 0,9901 2,86 0,99788 3,39 0,99965
0,22 0,5871 0,75 0,7734 1,28 0,8997 1,81 0,9649 2,34 0,9904 2,87 0,99795 3,40 0,99966
0,23 0,5910 0,76 0,7764 1,29 0,9015 1,82 0,9656 2,35 0,9906 2,88 0,99801 3,41 0,99968
0,24 0,5948 0,77 0,7794 1,30 0,9032 1,83 0,9664 2,36 0,9909 2,89 0,99807 3,42 0,99969
0,25 0,5987 0,78 0,7823 1,31 0,9049 1,84 0,9671 2,37 0,9911 2,90 0,99813 3,43 0,99970
0,26 0,6026 0,79 0,7852 1,32 0,9066 1,85 0,9678 2,38 0,9913 2,91 0,99819 3,44 0,99971
0,27 0,6064 0,80 0,7881 1,33 0,9082 1,86 0,9686 2,39 0,9916 2,92 0,99825 3,45 0,99972
0,28 0,6103 0,81 0,7910 1,34 0,9099 1,87 0,9693 2,40 0,9918 2,93 0,99831 3,46 0,99973
0,29 0,6141 0,82 0,7939 1,35 0,9115 1,88 0,9700 2,41 0,9920 2,94 0,99836 3,47 0,99974
0,30 0,6179 0,83 0,7967 1,36 0,9131 1,89 0,9706 2,42 0,9922 2,95 0,99841 3,48 0,99975
0,31 0,6217 0,84 0,7996 1,37 0,9147 1,90 0,9713 2,43 0,9925 2,96 0,99846 3,49 0,99976
0,32 0,6255 0,85 0,8023 1,38 0,9162 1,91 0,9719 2,44 0,9927 2,97 0,99851 3,50 0,99977
0,33 0,6293 0,86 0,8051 1,39 0,9177 1,92 0,9726 2,45 0,9929 2,98 0,99856 3,51 0,99978
0,34 0,6331 0,87 0,8079 1,40 0,9192 1,93 0,9732 2,46 0,9931 2,99 0,99861 3,52 0,99978
0,35 0,6368 0,88 0,8106 1,41 0,9207 1,94 0,9738 2,47 0,9932 3,00 0,99865 3,53 0,99979
0,36 0,6406 0,89 0,8133 1,42 0,9222 1,95 0,9744 2,48 0,9934 3,01 0,99869 3,54 0,99980
0,37 0,6443 0,90 0,8159 1,43 0,9236 1,96 0,9750 2,49 0,9936 3,02 0,99874 3,55 0,99981
0,38 0,6480 0,91 0,8186 1,44 0,9251 1,97 0,9756 2,50 0,9938 3,03 0,99878 3,56 0,99981
0,39 0,6517 0,92 0,8212 1,45 0,9265 1,98 0,9762 2,51 0,9940 3,04 0,99882 3,57 0,99982
0,40 0,6554 0,93 0,8238 1,46 0,9279 1,99 0,9767 2,52 0,9941 3,05 0,99886 3,58 0,99983
0,41 0,6591 0,94 0,8264 1,47 0,9292 2,00 0,9773 2,53 0,9943 3,06 0,99889 3,59 0,99983
0,42 0,6628 0,95 0,8289 1,48 0,9306 2,01 0,9778 2,54 0,9945 3,07 0,99893 3,60 0,99984
0,43 0,6664 0,96 0,8315 1,49 0,9319 2,02 0,9783 2,55 0,9946 3,08 0,99896 3,61 0,99985
0,44 0,6700 0,97 0,8340 1,50 0,9332 2,03 0,9788 2,56 0,9948 3,09 0,99900 3,62 0,99985
0,45 0,6736 0,98 0,8365 1,51 0,9345 2,04 0,9793 2,57 0,9949 3,10 0,99903 3,63 0,99986
0,46 0,6772 0,99 0,8389 1,52 0,9357 2,05 0,9798 2,58 0,9951 3,11 0,99906 3,64 0,99986
0,47 0,6808 1,00 0,8413 1,53 0,9370 2,06 0,9803 2,59 0,9952 3,12 0,99910 3,65 0,99987
0,48 0,6844 1,01 0,8438 1,54 0,9382 2,07 0,9808 2,60 0,9953 3,13 0,99913 3,66 0,99987
0,49 0,6879 1,02 0,8461 1,55 0,9394 2,08 0,9812 2,61 0,9955 3,14 0,99916 3,67 0,99988
0,50 0,6915 1,03 0,8485 1,56 0,9406 2,09 0,9817 2,62 0,9956 3,15 0,99918
0,51 0,6950 1,04 0,8508 1,57 0,9418 2,10 0,9821 2,63 0,9957 3,16 0,99921
0,52 0,6985 1,05 0,8531 1,58 0,9430 2,11 0,9826 2,64 0,9959 3,17 0,99924
3.3. WICHTIGE STETIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 59

3.3.3 Die χ2 -Verteilung

Definition 3.14. Es sei X eine standardnormal-verteilte Zufallsvariable. Man nennt

die Verteilung von Z = X 2 χ21 -Verteilung mit einem Freiheitsgrad.
Ist X also standardnormal-verteilt, so erhalten wir für die Verteilung von Z = X 2
(m.H. der Substitution s = t2 ):
√ √
FZ (x) = P (X 2 ≤ x) = P (− x ≤ X ≤ x)
√
Zx Zx
1 t2 1 1 s
= √ exp − dt = √ √ e− 2 ds.
2π √
2 2π s
− x 0

Wir haben in Definition 3.14 festgelegt, dass das Quadrat einer standardnormal-verteilten
Zufallsvariablen χ21 -verteilt (1 Freiheitsgrad) ist und deren Verteilung ausgerechnet. Ein
Vergleich zeigt, dass die Dichte der χ21 -Verteilung durch die Dichte der Gamma-Verteilung
mit α = λ = 12 gegeben ist. Wir betrachten nun eine etwas allgemeinere Situation.

Definition 3.15. Es seien U1 , . . . , Un unabhängige χ21 -verteilte Zufallsvariable. Die

Verteilung von V = U1 + . . . + Un heißt χ2 -Verteilung mit n Freiheitsgraden und wird
χ2n bezeichnet.

Da die Zufallsvariablen Ui Gamma-verteilt mit den Parametern (α, λ) = ( 12 , 21 ) sind, folgt,

dass V ebenfalls Gamma-verteilt und zwar mit den Parametern ( n2 , 21 ) ist. Somit erhalten
wir für die Wahrscheinlichkeitsdichte der χ2n -Verteilung

1
f (x) = n xn/2−1 e−x/2 , x ≥ 0.
2 Γ(n/2)
2

Es gilt
E(V ) = n, σV2 = 2n.
Die χ2n -Verteilung besitzt folgende bemerkenswerte Eigenschaft: wenn U einer χ2n -Verteilung,
V einer χ2m -Verteilung folgt, dann besitzt U + V eine χ2n+m -Verteilung.

Dichte der χ2s−1 -Verteilung

Fläche = α
1

2 x
0 1 2 3 4 5 6 χs−1;1−α
7 8 9 10
60 KAPITEL 3. STETIGE ZUFALLSVARIABLE

3.3.4 Die Student-Verteilung

Definition 3.16. Es sei X standardnormal-verteilt und U folge einer χ2n -Verteilung,

n ∈ N. Die Verteilung von T = √X heißt t-Verteilung mit n Freiheitsgraden, kurz
U/n
tn -Verteilung.

Bemerkung 3.17 (Die t-Verteilung). Die t-Verteilung wurde von W. S. Gosset ein-
geführt, der im Department of Agriculture in Dublin arbeitete und unter dem Pseudonym
”Student” veröffentlichte. Die t-Verteilung heißt daher auch Student-Verteilung.

Auf solche Verteilungen stößt man, wenn man aus einer Stichprobe mit unbekannter Streu-
ung Aussagen über den Erwartungswert machen soll.

Für die Dichte der tn -Verteilung erhält man nach längerer Rechnung

Γ((n + 1)/2) t2 −(n+1)/2

fT (t) = √ 1+ , t ∈ R.
nπΓ(n/2) n

Die Dichte ist eine gerade Funktion und besitzt eine große Ähnlichkeit zu der Dichte der
Standardnormalverteilung.

Dichte der tn−1 -Verteilung

Fläche = α
1

x
−3 −2 −1 0 1tn−1;1−α2 3
Kapitel 4

Grenzwertsätze

Bevor wir uns mit den eigentlichen Grenzwertsätzen beschäftigen, stellen wir noch ein
paar Begriffe zur Verfügung.

Definition 4.1. a) Ist X eine Zufallsvariable mit dem Erwartungswert µ = E(X)

und der Varianz σ 2 = V ar(X) > 0, so gilt für die Zufallsvariable

X −µ
X ∗ :=
σ
nach den Sätzen 2.12 und 2.16

E(X ∗ ) = 0 und V ar(X ∗ ) = 1 .

X ∗ heißt die zu X gehörende standardisierte Variable.

b) Zwei Zufallsvariable X und Y auf demselben Wahrscheinlichkeitsraum (Ω, A, p)

heissen gleichverteilt oder identisch verteilt, wenn ihre Verteilungsfunktionen
übereinstimmen.
Beispiel 4.2. Wir betrachten einen einfachen Würfelwurf; dann ist Ω = {1, 2, 3, 4, 5, 6},
1
A = P(Ω) und p(ω) = für alle ω ∈ Ω. Wird eine gerade Zahl gewürfelt, so wird ein Euro
6
ausgezahlt; sonst verliert der Spieler den Einsatz von einem Euro. Die Zufallsvariable X
beschreibe dieses Spiel. Wird eine Primzahl gewürfelt, so gewinnt der Spieler einen Euro;
sonst verliert er seinen Einsatz. Dieses Spiel wird durch Y beschrieben. Wir erhalten

ω 1 2 3 4 5 6
X(ω) -1 1 -1 1 -1 1
Y (ω) -1 1 1 -1 1 -1
und damit die Verteilungsfunktionen FX und FY mit


 0 für x < −1

FX (x) = FY (x) = 1
2
für − 1 ≤ x < 1 .



1 für 1 ≤ x

61
62 KAPITEL 4. GRENZWERTSÄTZE

Verschiedene Zufallsvariable können also dieselbe Verteilungsfunktion besitzen. Hier sind

X und Y identisch verteilt.

4.1 Der Satz von de Moivre-Laplace

Wir wollen nun motivieren, warum wir die Binomialverteilung für große n durch die
Normalverteilung ersetzen dürfen.
Es sei X B(n, p)−verteilt; dann besitzt die Verteilungsfunktion Sprungstellen in den Punk-
ten 0, 1, . . . , n. Betrachten wir die zu X gehörende standardisierte Variable X ∗ , so hat die
zu X ∗ gehörende Verteilungsfunktion Sprungstellen in den Punkten

(n) k−µ
uk = für k = 0, . . . , n .
σ
Z.B. hat die Verteilungsfunktion X für n = 12 und p = 0.25, d.h. µ = np = 3 und
p 3 2
σ = np(1 − p) = die Sprungstellen 0, . . . , 12. Die zu X ∗ = (X − 3) gehörende
2 3
Verteilungsfunktion hat die Sprungstellen
4 2 2 4
−2, − , − , 0, , , . . . , 6 .
3 3 3 3
Auf dem Intervall [k, k + 1[ gilt für die zu X gehörende Dichte fX :

fX (x) = Bn,p (k) , x ∈ [k, k + 1[ .

Für die zu X ∗ gehörende Dichte fX ∗ gilt

(n) (n)
fX ∗ (z) = σBn,p (k) , für z ∈ [uk , uk+1[ .

Wir ersetzen nun die stückweise konstante Dichtefunktion fX ∗ durch einen Polygonzug
(n) 1 (n) (n) 1 (n)
mn . Dazu verbinden wir die Punkte (uk + , fX ∗ (uk )) und (uk+1 + , fX ∗ (uk+1)).
2σ 2σ
Wir nehmen nun an, dass dieser Polygonzug für n → ∞ gegen eine auf R differenzierbare
Funktion ϕ konvergiert, und werden zeigen, dass sich als Grenzwert die Dichtefunktion
der Normalverteilung ergibt.
Wir berechnen bei fest vorgegebenem u ∈ R zunächst k in Abhängigkeit von n so, dass
(n) (n)
u ∈ [uk , uk+1[
(n) (n)
gilt, vorausgesetzt u liegt zwischen u0 und un . Nun ist

(n) k−µ (n) k+1−µ

uk = ≤ u < uk+1 =
σ σ
genau dann, wenn
σu + µ − 1 < k ≤ σu + µ ,
d.h. wenn p p
u np(1 − p) + np − 1 < k ≤ u np(1 − p) + np
4.1. DER SATZ VON DE MOIVRE-LAPLACE 63

gilt. Wir betrachten nun den Polygonzug mn an der Stelle u. Die Ableitung von mn an
der Stelle u ergibt sich durch die Steigung des Polygonzuges, d.h.
σBn,p (k + 1) − σBn,p (k)
m′n (u) = 1 .
σ

Aus der Rekursionsformel in Beispiel 2.19 folgt

′ 2 (n − k)p np − k − (1 − p)
mn (u) = σ Bn,p (k) − 1 = σ 2 Bn,p (k) .
(k + 1)(1 − p) (k + 1)(1 − p)
(n) (n)
Ersetzen wir σBn,p (k) durch mn (uk ) und k durch σuk +µ, so erhalten wir wegen µ = np
und µ(1 − p) = σ 2 :
(n)
(n) np − σuk − µ − (1 − p)
m′n (u) = σmn (uk ) (n)
(σuk + µ + 1)(1 − p)
(n)
(n) −(σ 2 uk + σ(1 − p))
= mn (uk ) (n)
σuk (1 − p) + σ 2 + (1 − p)
(n) 1−p
(n) −(uk + σ
)
= mn (uk ) (n)
.
uk (1−p) 1−p
σ
+1+ σ2

Wegen
(n) (n) (n) 1 1
|u − uk | ≤ |uk+1 − uk | ≤ =p
σ np(1 − p)
(n)
konvergiert uk für n → ∞ gegen u. Damit erhalten wir durch Grenzübergang für die
Grenzfunktion ϕ die Beziehung
ϕ′ (u) = −u · ϕ(u) .
Dies ist eine homogene lineare Differentialgleichung 1. Ordnung für ϕ, deren Lösung sich
zu
1 2
ϕ(u) = C exp − u
2
ergibt, wobei C so zu bestimmen ist, dass
Z ∞
ϕ(u) du = 1
−∞

1
gilt. Daraus folgt C = √ ; also ist ϕ die Dichtefunktion der Normalverteilung.
2π

Satz 4.3 (Satz von de Moivre-Laplace). Es sei 0 < p < 1 und Xn B(n, p)-verteilt
sowie Xn∗ die zu Xn gehörende standardisierte Zufallsvariable. Dann gilt für alle a <
b:
lim P (a ≤ Xn∗ ≤ b) = φ(b) − φ(a) ,
n→∞
64 KAPITEL 4. GRENZWERTSÄTZE

wobei φ (wie üblich) die Verteilungsfunktion der Standardnormalverteilung bezeich-

net.

Bemerkung 4.4. Numerische Experimente zeigen, dass eine ”gute” Näherung der Bino-
mialverteilung durch die Normalverteilung vorliegt, wenn die Faustregel

np(1 − p) > 9

erfüllt ist. Wir erhalten dann für die B(n, p)−Verteilung

fX ∗ ( k−µ
σ
) 1 k−µ
P (X = k) = Bn,p (k) = ≈ ϕ( )
σ σ σ
2 !
1 1 k−µ
= √ exp −
σ 2π 2 σ

und !
x − np
P (X ≤ x) ≈ φ p
np(1 − p)
sowie die (durch eine sog. Stetigkeitskorrektur) verbesserten Näherungen
!
x − np + 21
P (X ≤ x) ≈ φ p
np(1 − p)

und ! !
b − np + 21 a − np − 12
P (a ≤ X ≤ b) ≈ φ p −φ p .
np(1 − p) np(1 − p)

0.4 0.4

0.35 0.35

0.3 0.3

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4

Wir wollen die letzten Überlegungen an einem Beispiel demonstrieren:

Beispiel 4.5. Für viele Sportveranstaltungen in Stadien werden häufig Freikarten verge-
ben. Erfahrungsgemäß nutzen nur 85% der auf diese Weise geladenen Gäste ihre Freikar-
ten.
4.1. DER SATZ VON DE MOIVRE-LAPLACE 65

a) Es werden 200 Freikarten ausgegeben; wir berechnen die Wahrscheinlichkeit dafür,

dass genau 170 Ehrenplätze belegt werden.

b) Für eine Veranstaltung werden 200 Freikarten vergeben. Wie viele Ehrenplätze sind
mindestens bereitzustellen, damit die Wahrscheinlichkeit, dass alle ins Stadion kom-
menden geladenen Ehrengäste jeweils noch einen freien Ehrenplatz vorfinden, min-
destens 97.5% beträgt?

Bezeichnen wir mit X die zufällige Anzahl der belegten Ehrenplätze (d.h. der genutzten
Freikarten), so ist X B(n, p)−verteilt mit n = 200 und p = 0.85. Es ist µ = np = 170.
Wegen np(1 − p) = 25.5 > 9 ist die Faustregel aus Bemerkung
p 4.4 erfüllt.
Um Teil a) zu beantworten, erhalten wir wegen σ = np(1 − p) ≈ 5.05
2 !
1 1 170 − 170
P (X = 170) ≈ √ exp −
σ 2π 2 σ
1 1
= √ exp(0) ≈ · 0.399 ≈ 0.079.
σ 2π 5.05

1 1 2
(Dabei können wir die Werte √ exp − x entweder mit einem Taschenrechner be-
2π 2
rechnen oder aber einer Tabelle entnehmen.)
Die Wahrscheinlichkeit, dass genau 170 Ehrenplätze belegt werden, beträgt also ungefähr
7.9 %.
Um die zweite Frage zu beantworten, berechnen wir k so, dass

P (X ≤ k) ≥ 0.975

gilt. Wir ersetzen die Wahrscheinlichkeit P (X ≤ k) durch

!
k − np + 21
φ p
np(1 − p)

und erhalten die Bedingung

1
k − 170 + 2
φ ≥ 0.975 ,
5.05

woraus sich mit Hilfe der Tabelle für die Normalverteilung

1
k − 170 + 2
≥ 1.96
5.05

ergibt. Daraus erhalten wir k > 179.3 bzw. k ≥ 180. Also benötigt man mindestens 180
Ehrenplätze.
66 KAPITEL 4. GRENZWERTSÄTZE

4.2 Der zentrale Grenzwertsatz

Bei den Zentralen Grenzwertsätzen (ZGWS) handelt es sich um eine Familie schwa-
cher Konvergenzaussagen aus der Wahrscheinlichkeitstheorie. Allen gemeinsam ist die
Aussage, dass die (normierte und zentrierte) Summe einer großen Zahl von unabhängi-
gen, identisch verteilten Zufallsvariablen annähernd (standard) normal verteilt ist. Dies
erklärt auch die Sonderstellung der Normalverteilung.
Die wichtigste und bekannteste Aussage wird auch einfach als Der Zentrale Grenzwertsatz
bezeichnet und befasst sich mit unabhängigen, identisch verteilten Zufallsvariablen, deren
Erwartungswert und Varianz endlich sind; er wird auch als Grenzwertsatz von Lindeberg-
Lewy bezeichnet, siehe Satz 4.6 unten.
Es existieren verschiedene Verallgemeinerungen, für die eine identische Verteilung keine
notwendige Voraussetzung ist. Stattdessen wird dann eine andere Voraussetzung gefor-
dert, die sicherstellt, dass keine der Variablen zu großen Einfluss auf das Ergebnis erhält.
Beispiele sind die Lindeberg-Bedingung und die Ljapunow-Bedingung. Darüber hinaus-
gehende Verallgemeinerungen gestatten sogar ”schwache” Abhängigkeit der Zufallsvaria-
blen.
Die Bezeichnung geht auf G. Polyas Arbeit Über den zentralen Grenzwertsatz der Wahr-
scheinlichkeitsrechnung und das Momentenproblem von 1920 zurück.

Satz 4.6 (Grenzwertsatz von Lindeberg-Levy). Es sei X1 , X2 , . . . eine Folge (stocha-

stisch) unabhängiger und identisch verteilter (kurz: u.i.v. oder i.i.d.) Zufallsvariabler
mit σ 2 = V ar(X1 ) > 0. Setzen wir µ := E(X1 ) und Sn := X1 + . . . + Xn , so gilt:

Sn − n · µ
lim P a ≤ √ ≤ b = φ(b) − φ(a) .
n→∞ σ· n

Der Beweis ist mathematisch etwas anspruchsvoller, deshalb verzichten wir hier darauf.

Folgerung 4.7. Betrachten wir in Satz 4.6 das symmetrische Intervall [−k, k], so
erhalten wir wegen E(Sn ) = n · E(X1 ) = n · µ und V ar(Sn ) = n · V ar(X1 ) = nσ 2 die
Beziehung
!
Sn − E(Sn )
lim P −k ≤ p ≤ k = φ(k) − φ(−k) = 2 · φ(k) − 1 ,
n→∞ V ar(Sn )

d.h.
p p
lim P E(Sn ) − k V ar(Sn ) ≤ Sn ≤ E(Sn ) + k V ar(Sn ) = 2 · φ(k) − 1 .
n→∞

Mit Bemerkung 3.13 erhalten wir also, dass die Summe von n unabhängigen und
identisch verteilten Zufallsvariablen (als Faustregel für große n) mit einer ungefähren
Wahrscheinlichkeit von
4.2. DER ZENTRALE GRENZWERTSATZ 67
p
· 0.6826 in den Grenzen E(Sn ) ± 1 · V ar(Sn )
p
· 0.9544 in den Grenzen E(Sn ) ± 2 · V ar(Sn )
p
· 0.9974 in den Grenzen E(Sn ) ± 3 · V ar(Sn )

liegt.

Beispiel 4.8. Wir betrachten einen fairen Würfel, der n-mal geworfen wird. Die Zufalls-
variable Xi gebe das Ergebnis des i-ten Wurfs an. Wir können davon ausgehen, dass die
Würfe unabhängig voneinander und unter gleichen Bedingungen stattfinden. Also können
wir die Xi als unabhängig und identisch verteilt ansehen. In Abschnitt 2.2 haben wir den
Erwartungswert E(X1 ) = 3, 5 berechnet. Für die Varianz erhalten wir
6 2
X 7 1 35
V ar(X1 ) = i− · = ≈ 2.917 .
i=1
2 6 12

Gehen wir einmal von 100 Würfen aus, so ergibt sich mit der obigen Faustregel wegen
√
291.7 ≈ 17.1, dass die Augensumme dann mit einer Wahrscheinlichkeit von

· 0.6826 in den Grenzen 350 ± 1 · 17.1, also zwischen 332 und 368,

· 0.9544 in den Grenzen 350 ± 2 · 17.1, also zwischen 315 und 385

· 0.9974 in den Grenzen 350 ± 3 · 17.1, also zwischen 298 und 402

liegt.
68 KAPITEL 4. GRENZWERTSÄTZE
Kapitel 5

Statistik

Die Statistik wird üblicherweise in die deskriptive (beschreibende) und die induktive (be-
urteilende, schließende) Statistik eingeteilt. Diese Einteilung ist insofern irreführend, da
der Eindruck erweckt wird, dass die deskriptive Statistik von subjektiven Einschätzungen
frei sei. Das ist aber häufig nicht der Fall. Die Hauptaufgabe der deskriptiven Statistik ist
zwar in erster Linie eine übersichtliche graphische und/oder tabellarische Darstellung der
erhobenen Daten; es wird aber oft durch die Art der Präsentation (z.B. bzgl. der Umsat-
zentwicklung eines Unternehmens) eine Beeinflussung z.B. von potentiellen Geldgebern
(Banken, Aktionäre usw.) versucht.

5.1 Elemente der deskriptiven Statistik

Wir stellen ein paar Begriffe zusammen, die uns eine leichtere Beschreibung von erhobenen
oder gemessenen Daten ermöglichen und die uns aufmerksam machen auf häufig voreilig
aus erhobenen Daten gezogene Schlüsse. Dabei gehen wir davon aus, dass die erhobenen
Daten in Form von Zahlen xi ∈ R vorliegen.

Definition 5.1. a) Die Zahl

n
1X
x := xn := xi
n i=1

heißt (Stichproben-) oder arithmetisches Mittel bzw. kurz Mittelwert der Daten
x1 , . . . , xn .

b) Die Zahl
n n
!
1 X 1 X
s2 := s2x := (xi − x)2 = x2i − nx2
n − 1 i=1 n−1 i=1

heißt (Stichproben-) oder empirische Varianz der Daten x1 , . . . , xn .

69
70 KAPITEL 5. STATISTIK
p
Die Zahl sx = s2x heißt (Stichproben-) oder empirische Standardabweichung
von x1 , . . . , xn .

Bemerkungen 5.2. a) Werden die Daten x1 , . . . , xn linear transformiert zu

yi = a · xi + b mit a 6= 0 ,

so gilt (vgl. Sätze 2.12 und 2.16)

y = a · x + b,
s2y = a2 · s2x ,
sy = |a| · sx .

b) Die Größen x, s2x und sx sind ausreißerempfindlich, d.h. dass eine Abänderung eines
einzigen Wertes den Mittelwert, die Varianz und die Standardabweichung beliebig
klein bzw. groß werden lassen kann.

Definition 5.3. a) Sortieren wir die Daten x1 , . . . , xn der Größe nach, d.h. bilden
wir x(1) = min xi bis x(n) = max xi , so nennen wir
1≤i≤n 1≤i≤n

x(1) ≤ x(2) ≤ . . . ≤ x(n)

die geordnete Stichprobe zu x1 , . . . , xn . Die Differenz x(n) − x(1) heißt Stichpro-

benspannweite.

b) Der (empirische) Median oder Zentralwert der Stichprobe x1 , . . . , xn ist defi-

niert durch
(
x( n+1 ) für ungerades n
2
x1/2 := .
1
2
(x( n + x n
2
) ( 2
+1) ) für gerades n

Der Median von |x1 − x1/2 |, |x2 − x1/2 |, . . . , |xn − x1/2 | heißt Median-Abweichung
von x1 , . . . , xn .

c) Ist 0 < p < 1, so heißt die Zahl

(
x([np+1]) falls n · p ∈
/N
xp := .
1
2
(x(np) + x(np+1) ) falls n · p ∈ N

empirisches p-Quantil von x1 , . . . , xn . (Dabei ist [y] die größte ganze Zahl klei-
ner oder gleich y ∈ R.)

d) Die Quantile x3/4 und x1/4 heißen oberes bzw. unteres Quartil. Die Differenz
x3/4 − x1/4 heißt Quartilsabstand der x1 , . . . , xn .
5.1. ELEMENTE DER DESKRIPTIVEN STATISTIK 71

Bemerkungen 5.4. Das p-Quantil xp teilt die geordnete Stichprobe im Verhältnis p :

(1−p) auf. Links vom p-Quantil liegen 100·p Prozent aller Beobachtungswerte bzw. 100·p
Prozent der Gesamtzahl der Zufallswerte. Rechts davon liegen 100 · (1 − p) Prozent aller
Beobachtungswerte bzw. 100 · (1 − p) Prozent der Gesamtzahl der Zufallswerte. p heißt
auch der Unterschreitungsanteil.

Wir wollen uns nun graphischen Darstellungsmöglichkeiten für Stichproben zuwenden.

Zu erwähnen sind das Stab- und das Kreisdiagramm, das Histogramm und der Box-Plot.
Beim Stabdiagramm werden die absoluten bzw. die relativen Häufigkeiten, mit denen die
Daten auftreten, als Stäbchen gezeichnet, deren Länge die absolute Häufigkeit bzw. die
relative Häufigkeit ist.
Beim Kreisdiagramm wird eine Kreisfläche in Sektoren aufgeteilt, deren Flächen pro-
portional zu den (absoluten oder relativen) Häufigkeiten für das Auftreten verschiedener
Daten sind. Beide Diagramme werden z.B. bei Ergebnissen von Wahlen verwendet.

8 Sem

8%
2 Sem
33%
33%
6 Sem

25%

4 Sem

Definition 5.5. Wir betrachten die Daten x1 , . . . , xn . Wir teilen diese Daten in s
disjunkte Klassen auf, indem wir s halboffene Intervalle

[a1 , a2 [, [a2 , a3 [, . . . , [as , as+1 [

mit a1 < a2 < . . . < as+1 betrachten, in denen alle Daten liegen. Nun bilden wir über
jedem Teilintervall [ai , ai+1 [ ein Rechteck der Höhe di , wobei

di · (ai+1 − ai ) = ki für 1 ≤ i ≤ s

ist mit n
1X
ki = 1{ai ≤xj <ai+1 }
n j=1

Dadurch entsteht ein Histogramm. Die Gesamtfläche aller Rechtecke ist 1. Die ein-
zelnen Rechteckflächen sind proportional zur relativen Häufigkeit des Auftretens der
Daten. (Dabei ist 1 die Indikatorfunktion.)
72 KAPITEL 5. STATISTIK

a1 a2 . . . aj aj+1 ... as+1

Bemerkungen 5.6. Die Breite der Teilintervalle ist willkürlich; treten einige Daten nur
selten auf, so sollten die entsprechenden Klassen (sprich Intervalle) weggelassen werden. Ist
die Länge aller Teilintervalle gleich groß, so ist auch die Höhe der Rechtecke proportional
zur sog. Klassenhäufigkeit.

Definition 5.7. Der Box-Plot wird häufig beim Vergleich verschiedener Stichproben
verwandt. Er benutzt Quantile zur graphischen Darstellung von Lage und Streuung
der Daten. Außerdem werden potentielle Ausreißer hervorgehoben.
Zur Anfertigung des Box-Plot wird ein senkrechtes oder waagerechtes Rechteck (eine
Kiste) gezeichnet, die vom unteren bis zum oberen Quartil geht und beim Median
unterteilt wird. Die Breite des Rechtecks wird meist nach ästhetischen Gesichtspunk-
ten gewählt. Nach oben und unten bzw. links und rechts wird die Kiste durch zwei
Stäbe verlängert, wobei der Endpunkt des nach oben aufgesetzten Stabes kleiner ist
als das obere Quartil plus das 1,5-fache des Quartilsabstandes, also kleiner als

x3/4 + 1, 5 · (x3/4 − x1/4 )

ist, die sog. größte normale Beobachtung. Der Endpunkt des nach unten aufgesetzten
Stabes ist größer als
x1/4 − 1, 5 · (x3/4 − x1/4 ) ,
die sog. kleinste normale Beobachtung. Extrem große Beobachtungen sind Daten, die
oberhalb von x3/4 +1, 5·(x3/4 −x1/4 ) liegen, extrem kleine Beobachtungen sind Daten,
die unterhalb von x1/4 − 1, 5 · (x3/4 − x1/4 ) liegen. Die sog. Ausreißer nach oben und
unten werden durch einen Stern oder Punkt gekennzeichnet.
Wegen des Rechtecks in der Mitte des Diagramms spricht man auch von einem Kisten-
Diagramm.
5.2. SCHÄTZPROBLEME 73


 ∗
extrem große Beobachtungen −→ ∗

∗
größte normale Beobachtung −→

oberes Quantil −→
Median −→ x3/4 − x1/4
unteres Quantil −→
kleinste normale Beobachtung −→
∗
extrem kleine Beobachtung −→
∗

Eine derartige Präsentation von Daten findet man z.B. im Bericht ”PISA 2000 - Die
Länder der Bundesrepublik Deutschland im Vergleich”, herausgegeben vom Deutschen
PISA-Konsortium bei Leske und Budrich, Opladen 2002. Beim Box-Plot ist allerdings
statt der aufgesetzten Stäbe das Rechteck nach oben und unten verlängert worden. Au-
ßerdem wurde auch bei dem Rechteck zwischen dem unteren und oberen Quartil um den
Mittelwert das sog. Konfidenzintervall angegeben. Es wurden farblich getrennt nach un-
ten noch das 10- und das 5 %-Perzentil und nach oben das 90- und das 95 %-Perzentil
angefügt.

5.2 Schätzprobleme
Bisher sind wir davon ausgegangen, dass die Parameter der Wahrscheinlichkeitsverteilun-
gen, beispielsweise µ und σ in der Normalverteilung, bekannt sind. Bei praktischen An-
wendungen ist dies jedoch selten der Fall. Die schließende Statistik stellt Methoden bereit,
mit deren Hilfe man aus Stichproben Informationen über die interessierenden Parameter
gewinnen kann. Da naturgemäß eine Stichprobe nur einen kleinen Teil der Grundpopula-
tion umfasst, birgt diese Information stets ein bestimmtes Maß an Unsicherheit in sich.
Absolut zuverlässige Information wäre nur bei Erfassen der gesamten Grundpopulation
zu erzielen. Es ist auch Aufgabe der schließenden Statistik, das Ausmaß an Unsicherheit
zu quantifizieren.
Eine wesentliche Voraussetzung für die Anwendung statistischer Methoden ist die Zufällig-
keit der Auswahl der Elemente in der Stichprobe: für jedes Individuum der Grundpopula-
tion muss die Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden, gleich sein.
Nur dadurch ist gewährleistet, dass die Stichprobe das Verhalten der Grundpopulation
ausreichend wiederspiegelt. Auf die Methoden der statistisch korrekten Entnahme einer
Stichprobe, ein durchaus schwieriges Problem, kann hier nicht eingegangen werden.

Beispiel 5.8. a) Ein Teich enthalte eine unbekannte Anzahl N von Fischen, die ge-
schätzt werden soll. Dazu werden W Fische gefangen, mit einem weißen Punkt
markiert und wieder im Teich ausgesetzt. Nach einer gewissen Zeit werden bei einem
zweiten Fang n Fische gefangen, und es wird die Anzahl x der mit einem weißen
Punkt gekennzeichneten Fische ermittelt.
74 KAPITEL 5. STATISTIK

Eine plausible Schätzung N̂ (x) für N ergibt sich aus folgender Überlegung: Wenn
x nicht zu klein ist, sollte der Anteil x/n der markierten Fische am zweiten Fang
ungefähr dem Anteil W/N der markierten Fische an der Gesamt-Population sein.
Wenn also N̂(x) eine gute Schätzung für N ist, müsste gelten:
x W n
≈ oder N̂ (x) ≈ W · .
n N̂(x) x

Dabei wähle man als Näherung die zu der eventuell nichtganzzahligen Zahl W · nx
nächstgelegene ganze Zahl. Für kleine x ist diese Schätzung nicht sehr zuverlässig.
Diese heuristische Schätzung ergibt sich auch aus einem anderen Ansatz. Dazu be-
trachten wir Beispiel 2.28: Ist N die Anzahl aller Fische im Teich, W die Anzahl der
markierten und N − W die Anzahl der nicht-markierten Fische im Teich, so ist die
Wahrscheinlichkeit PN (x), dass von n gefangenen Fischen beim zweiten Fang genau
x markiert sind: N −W
W
x n−x
PN (x) = N
mit 0 ≤ x ≤ n .
n
Hier ist N ein unbekannter Wert, den es zu schätzen gilt. Wir nehmen als Schätzung
N so, dass PN (x) für das beobachtete x maximal wird. Dazu betrachten wir
W
N −W N −1
PN (x) (N − W )(N − n)
= Nx Wn−x
N −Wn−1 = ;
PN −1 (x) n x n−x
N(N − W − n + x)

es ist PN (x) > PN −1 (x) genau dann, wenn nW > Nx gilt; entsprechend folgt
PN (x) < PN −1 (x) genau dann, wenn nW < Nx gilt und PN (x) = PN −1 (x) genau
für nW = Nx . Also ist PN (x) (als Funktion von N betrachtet) maximal für

nW
N̂(x) = .
x
nW nW
Ist keine ganze Zahl, so ist N̂ (x) eindeutig bestimmt. Ist dagegen ∈ Z, so
x x
nW nW
sind und − 1 Werte von N, für die PN (x) maximal ist.
x x
b) In n Bernoulli-Experimenten soll die Erfolgswahrscheinlichkeit p aus der Zahl x der
Erfolge geschätzt werden (siehe Abschnitt 2.3.1, Binomialverteilung). Hierzu suchen
wir p ∈ [0, 1] so, dass
n x
Lx (p) = p (1 − p)n−x
x
maximal wird. Mit Hilfe der Produktregel erhalten wir

d n x−1
Lx (p) = p (1 − p)n−x−1 · (x(1 − p) − (n − x)p) ,
dp x
woraus sich aus der notwendigen Bedingung für das Vorliegen eines Extremwertes
d x
Lx (p) = 0 für den Fall 0 < p < 1 die Nullstelle p̂(x) = ergibt. Da die Ableitung
dp n
5.2. SCHÄTZPROBLEME 75

von Lx für p < p̂(x) positiv und für p > p̂(x) negativ ist, liegt in p̂(x) ein
x
Maximum vor. Die relative Häufigkeit p̂(x) = ist also eine Schätzung für die
n
Erfolgswahrscheinlichkeit p.

Der Begriff der Stichprobe, der bereits in vorhergehenden Abschnitten gelegentlich (ohne
nähere Begründung) verwendet wurde, ist ein Grundbegriff der mathematischen Statistik.
In engem Zusammenhang damit steht der Begriff der Grundgesamtheit.

Definition 5.9. Sei (Ω, A, p) ein Wahrscheinlichkeitsraum und X eine Zufallsgröße

über diesem Wahrscheinlichkeitsraum, die ein gewisses Merkmal beschreibt. Dann
nennt man X (in diesem Zusammenhang) eine Grundgesamtheit.
Zur Gewinnung von Informationen über die Wahrscheinlichkeitsverteilung von X
wird ein Versuch n-mal unabhängig voneinander wiederholt. Damit erhält man als
Realisierungen der Zufallsgröße X die Zahlen x1 , x2 , . . . , xn . Betrachtet man nun
die Zahl xk (d.h. die Realisierung von X im k-ten Versuch) als Realisierung einer
Zufallsgröße Xk , so sind die n Zufallsgrößen X1 , X2 , . . . , Xn unabhängig und identisch
wie X verteilt (n Exemplare der Zufallsgröße X).

Definition 5.10. Sei X eine Zufallsgröße mit der Verteilungsfunktion F . Dann heißt
der Zufallsvektor (X1 , . . . , Xn ) dessen Koordinaten Xk unabhängig und identisch wie
X verteilt sind, eine mathematische Stichprobe vom Umfang n aus der Grundge-
samtheit X mit der Verteilungsfunktion F . Die Zufallsgrößen X1 , . . . , Xn heißen (in
diesem Zusammenhang) Stichprobenvariable.
Jede Realisierung (x1 , . . . , xn ) des Zufallsvektors (X1 , . . . , Xn ) heißt konkrete Stich-
probe vom Umfang n aus der Grundgesamtheit X mit der Verteilungsfunktion F .
Jede einzelne Realisierung xk heißt Element der Stichprobe.

Während wir also wie bisher Zufallsgrößen (Merkmale, Eigenschaften eines Untersu-
chungsobjektes) mit Großbuchstaben X, Y, Z, . . . bezeichnen, werden Realisierungen die-
ser Zufallsgrößen (Merkmalswerte, Messwerte) mit den entsprechenden Kleinbuchstaben
x, y, z, . . . bezeichnet.
Unter den Voraussetzungen von Def. 5.10 ist die Verteilungsfunktion des Zufallsvektors
(X1 , . . . , Xn ) gegeben durch
n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = F (xk ), (x1 , . . . , xn ) ∈ Rn . (5.1)
k=1

In der Praxis ist die Verteilungsfunktion oft nur bis auf einen noch zu bestimmenden
Parameter ϑ bekannt; um dies hervorzuheben, schreiben wir dann FX1 ,...,Xn (x1 , . . . , xn ; ϑ),
F (xk ; ϑ) etc.
Mittels der Schätztheorie soll bei einer Punktschätzung unter Verwendung einer mathe-
matischen Stichprobe (X1 , . . . , Xn ) vom Umfang n aus der Grundgesamtheit X eine zur
Schätzung von ϑ geeignete Stichprobenfunktion θ̂(X1 , . . . , Xn ) angegeben werden. Liegt
76 KAPITEL 5. STATISTIK

dann eine konkrete Stichprobe (x1 , . . . , xn ) vor, so betrachtet man die Zahl θ̂(x1 , . . . , xn )
einerseits als Realisierung der Zufallsgröße θ̂(X1 , . . . , Xn ), andererseits als Schätzwert für
den Parameter ϑ. Die Stichprobenfunktion ϑ̂ = θ̂(X1 , . . . , Xn ) heißt Schätzung (oder auch:
Schätzer, Schätzfunktion) für den Parameter ϑ.

Zur konkreten Ermittlung von geeigneten Schätzern gibt es mehrere Verfahren - wir be-
schränken uns hier auf das bekannteste, nämlich die Maximum-Likelihood-Methode, die
auf R.A. Fisher zurückgeht.
Seien X eine Grundgesamtheit, deren Verteilung von einem Parameter ϑ ∈ Θ abhängen
soll, und (X1 , . . . , Xn ) eine mathematische Stichprobe aus X. Ist X stetig verteilt, so
ergibt sich für die Verteilungsdichte des Zufallsvektors (X1 , . . . , Xn )
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; ϑ) = f (xk ; ϑ), (x1 , . . . , xn ) ∈ Rn ,
k=1

wobei f (xk ; ϑ) den Wert der Verteilungsdichte der Zufallsgröße X an der Stelle xk in
Abhängigkeit vom Parameter ϑ bedeutet. Ist X diskret verteilt, so ergibt sich für die
Verteilung des Zufallsvektors (X1 , . . . , Xn ) entsprechend
n
Y
P (X1 = x1 , . . . , Xn = xn ) = P (Xk = xk ; ϑ).
k=1

Definition 5.11. Es sei (x1 , . . . , xn ) ∈ Rn eine konkrete Stichprobe vom Umfang n

aus der Grundgesamtheit X, die von einem Parameter ϑ abhängt.

(i) Ist X stetig verteilt mit der Verteilungsdichte f , so heißt

n
Y
Lx (ϑ) = L(x1 , . . . , xn ; ϑ) = f (xk ; ϑ), (5.2)
k=1

Likelihood-Funktion der konkreten Stichprobe x = (x1 , . . . , xn ).

(ii) Ist X diskret verteilt mit der Verteilung P (X = xi , ϑ), i = 1, 2 . . . , n, so heißt

n
Y
Lx (ϑ) = L(x1 , . . . , xn ; ϑ) = P (Xk = xk ; ϑ) (5.3)
k=1

Likelihood-Funktion der konkreten Stichprobe x = (x1 , . . . , xn ).

Definition 5.12. Nimmt die Likelihood-Funktion Lx mit Lx (ϑ) := L(x1 , . . . , xn ; ϑ)

in ϑ̂(x) ein Maximum an, d.h. gilt

Lx (ϑ̂(x)) := sup{Lx (ϑ) | ϑ ∈ Θ} ,

5.2. SCHÄTZPROBLEME 77

so heißt ϑ̂(x) eine Maximum-Likelihood-Schätzung von ϑ.

Bemerkungen 5.13. a) Der Parameter ϑ̂(x) ist die beste Erklärung“ für die Beob-
”
achtung X1 = x1 , . . . , Xn = xn , weil er dem beobachteten Ereignis im diskreten Fall
die größte Wahrscheinlichkeit des Eintretens (bei stetigen Zufallsvariablen: Wahr-
scheinlichkeitsdichte) verleiht.
b) In den meisten Fällen gibt es einen eindeutig bestimmten Maximum-Likelihood-
Schätzer, und er ist auch ein guter“ Schätzer.
”
c) In vielen Fällen ist Θ ein reelles Intervall, und eine Maximum-Likelihood-Schätzung
kann mit Hilfe der Differentiation gefunden werden. Häufig ist es zweckmäßig, statt
der Funktion Lx die Funktion Lx mit
Lx = ln Lx
zu betrachten. Wegen der strengen Monotonie der Logarithmus-Funktion haben (im
Fall der Existenz) beide Funktionen das Maximum an der gleichen Stelle.
Beispiel 5.14. X sei Poisson-verteilt zum Parameter ϑ, also
ϑx −ϑ
Pϑ (x) = P (X = x; ϑ) = e , x ∈ N.
x!
Dann ergibt sich die Likelihood-Funktion zu
n
Y
Lx (ϑ) = L(x1 , . . . , xn ; ϑ) = Pϑ (xk ), x1 , . . . , xn ∈ N.
k=1

In diesem Beispiel gilt also

Pn
xk
ϑ k=1
Lx (ϑ) = Qn e−nϑ , x1 , . . . , xn ∈ N.
k=1 (xk !)

Da beim Schätzproblem der gesuchte Parameter ϑ nicht bekannt ist, soll ein guter“
”
Schätzer ϑ̂ zumindest im Mittel den richtigen Wert liefern. Das führt zu

Definition 5.15. Sei θ̂n := θ̂(X1 , . . . , Xn ) eine Schätzfunktion für den Parameter θ.

(a) Die Schätzfunktion θ̂n heißt erwartungstreue Schätzfunktion für θ (engl: unbia-
sed), wenn gilt
Eθ θ̂(X1 , . . . , Xn ) = θ für alle ϑ ∈ Θ .

(b) Man nennt

Bθ (θ̂n ) = Eθ θ̂(X1 , . . . , Xn ) − θ
den systematischen Fehler (engl. Bias).

Bemerkung 5.16. a) Definition 5.15 besagt, dass der Schwerpunkt der Verteilung des
zufälligen Schätzwertes gerade der zu schätzende Parameter ϑ ist, und zwar unabhängig
davon, welches ϑ der wahre Parameter ist.
b) Für erwartungstreue Schätzer ist der Bias = 0.
78 KAPITEL 5. STATISTIK

Satz 5.17. Es seien X1 , . . . , Xn unabhängig mit Eϑ (Xi ) = µ und Varϑ (Xi ) = σ 2 für
1 ≤ i ≤ n und alle ϑ ∈ Θ; dann gilt:
n
1X
a) Der Mittelwert X(= X(X1 , . . . , Xn )) = Xi ist ein erwartungstreuer Schätzer
n i=1
für µ.
n
2 1 X
b) Die empirische Varianz S = (Xi − X)2 ist ein erwartungstreuer
n − 1 i=1
Schätzer für σ 2 .
n
1X
c) (Xi − X)2 ist kein erwartungstreuer Schätzer für σ 2 .
n i=1

Beweis. Es gilt
n
1X
Eϑ (X) = Eϑ (Xi ) = µ
n i=1

und
n
2 1 X
Eϑ (S ) = Eϑ ((Xi − X)2 )
n − 1 i=1

mit
Eϑ ((Xi − X)2 ) = Eϑ ([(Xi − µ) − (X − µ)]2 )

= Eϑ ((Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2 )

n
2X
= Eϑ ((Xi − µ)2 ) − Eϑ ((Xi − µ)(Xj − µ))
n j=1
+Eϑ ((X − µ)2 ).
Wegen der Unabhängigkeit der X1 , . . . , Xn ist
n
2 1 X σ2
Eϑ ((X − µ) ) = V arϑ (X) = 2 V arϑ (Xi ) =
n i=1 n

und
Eϑ ((Xi − µ)(Xj − µ)) = 0 für i 6= j .
Damit folgt
n
2 1 X 2 2 2 σ2
Eϑ (S ) = σ − σ + = σ2 .
n − 1 i=1 n n

Also gelten b) und c).

5.2. SCHÄTZPROBLEME 79

Beispiel 5.18. a) Sind X1 , . . . , Xn unabhängig und N(µ, σ 2 )-verteilt, so ist

n n
!
1 X (xi − µ)2
Lx (µ, σ) = √ exp −
σ · 2π i=1
2σ 2

zu maximieren. Gemäß Bemerkung 5.13 c) gehen wir zum Logarithmus über und
erhalten
n
√ 1 X
Lx (µ, σ) = −n ln(σ · 2π) − 2 (xi − µ)2
2σ i=1
als zu maximierende Funktion für die Parameter µ und σ. Eigentlich sind hier 3
Fälle zu unterscheiden:

(i) µ = µ0 ist bekannt, aber σ nicht. Wir setzen diesen Wert für µ ein und maxi-
mieren bzgl. σ. Das notwendige Kriterium für das Vorliegen von Extremwerten
liefert:
n
2 1X
σ̂ = (xi − µ0 )2
n i=1
An dieser Stelle liegt ein Maximum vor.
(ii) σ 2 = σ02 ist bekannt, aber µ nicht. Durch Differentiation nach µ erhalten wir
aus der notwendigen Bedingung für Extremwerte
n
1X
µ̂ = x = xi .
n i=1

(iii) µ und σ 2 sind unbekannt. Hier könnte man Kriterien für Extremwerte von
Funktionen mehrerer Veränderlicher anwenden (vgl. Math. 2 für Inf.). Man
kann aber auch einfacher verfahren: Der obige Ausdruck wird maximal, wenn
Xn
(xi − µ)2 minimal wird; das ist der Fall, wenn
i=1

n n
X 1X
(xi − µ) = 0 d.h. µ̂ = x = xi
i=1
n i=1

ist. Dann erhalten wir

n
2 1X
σ̂ = (xi − x)2 .
n i=1

b) X1 , . . . , Xn seien unabhängig und Pλ -verteilt mit λ > 0, d.h. wir haben die Situation
aus Beispiel 5.14 mit ϑ = λ. Gesucht ist ein Schätzer für den Parameter λ. Wir
maximieren die Funktion
Pn xi n n
λ i=1 −nλ
X X
Lx (λ) = ln Q n ·e = −nλ + ln λ · xi − ln(xi !) .
i=1 (xi )! i=1 i=1
80 KAPITEL 5. STATISTIK

Das notwendige Kriterium liefert

n
d 1X
Lx (λ) = −n + xi = 0
dλ λ i=1
genau für
n
1X
λ= xi = x .
n i=1
Wegen
n
d2 1 X
L x (λ) = − xi < 0
dλ2 λ2 i=1
liegt an der Stelle λ = x ein Maximum vor.

5.3 Konfidenzintervalle
Bisher haben wir nur Punktschätzer betrachtet: die Stichprobe wurde benutzt, um einen
Schätzwert für einen Verteilungsparameter zu berechnen. Ein Intervallschätzer dagegen
berechnet aus der Stichprobe ein Intervall [ϑ̂u , ϑ̂0 ], welches den Zielparameter ϑ mit einer
vorgegebenen Wahrscheinlichkeit enthält:
Pϑ (ϑ̂u ≤ ϑ ≤ ϑ̂0 ) = 1 − α.
Die Intervallgrenzen ϑ̂u , ϑ̂0 hängen neben α auch von der jeweiligen Stichprobe ab und
variieren daher in zufälliger Weise von Stichprobe zu Stichprobe.
Schätzt man z.B. die Erfolgswahrscheinlichkeit p eines Bernoulli-Experiments aus den Er-
gebnissen einer Stichprobe X = (X1 , . . . , Xn ), so geht man davon aus, dass die Schätzung
umso näher an p liegt, je größer die Stichprobe ist. Ziel ist die Angabe eines Intervalls
(das von der Beobachtung x abhängt) derart, dass die Wahrscheinlichkeit dafür, dass p
in dem Intervall liegt, einen möglichst großen Wert hat, etwa 0,95.
Etwas allgemeiner haben wir die folgende Situation: Sei X1 , . . . , Xn die mathematische
Stichprobe (die Xi ’s sind stochastisch unabhängige, identisch verteilte Zufallsvariable!).
Es sei θ der zu schätzende Parameter. Bei der Methode “Konfidenzintervall” benötigen
wir zwei Schätzfunktionen
θ̂u = θ̂u (X1 , . . . , Xn ) und θ̂o = θ̂o (X1 , . . . , Xn ).

Definition 5.19. Ist θ ein zu schätzender Parameter und sind θ̂u und θ̂o Schätzfunk-
tionen mit der Eigenschaft

Pθ (θ̂u ≤ θ ≤ θ̂o ) = 1 − α (oder auch ≥ 1 − α)

• so liefert jede konkrete Stichprobe x = (x1 , . . . , xn ) ein Konfidenzintervall

[θ̂u (x), θ̂o (x)].

• Die Zahl 1 − α heißt Konfidenzniveau. Die Zahl α heißt Irrtumswahrscheinlich-

keit.
5.3. KONFIDENZINTERVALLE 81

Häufig ist man in der Situation, die unteren Konfidenz- oder Vertrauensgrenze und
die obere Konfidenz- oder Vertrauensgrenze für einen Parameter θ einzeln zu be-
stimmmen:

• θ̂u heißt untere Konfidenzgrenze für den Parameter θ zum Konfidenzniveau

1 − β, wenn
Pθ (θ̂u ≤ θ) ≥ 1 − β.

• θ̂o heißt obere Konfidenzgrenze für den Parameter θ zum Konfidenzniveau 1−β,
wenn
Pθ (θ ≤ θ̂o ) ≥ 1 − β.

α α
Bemerkung: Aus Pθ (θ̂u ≤ θ) ≥ 1 − 2
und Pθ (θ ≤ θ̂o ) ≥ 1 − 2
folgt

Pθ (θ̂u ≤ θ ≤ θ̂o ) ≥ 1 − α.

Die Notation Pθ bedeutet, dass wir die Wahrscheinlichkeit unter der Annahme, dass der
Parameter θ ist, berechnen.

Beispiel 5.20. In einer Bernoulli-Kette Sn vom Umfang n (das bedeutet: n identische

und unabhängige Bernoulli-Experimente) seien k Treffer aufgetreten. Wir wollen eine un-
tere und eine obere Vertrauensgrenze p̂u (k) bzw. p̂o (k) für die Erfolgswahrscheinlichkeit
p ∈ [0, 1] bestimmen. Die Idee besteht darin, solche p’s auszuschließen, für die die Wahr-
scheinlichkeit für höchstens k bzw. mindestens k Treffer in n Versuchen hinreichend klein
wird.
Im Fall k = 0 ist p̂u (0) = 0 zu setzen. Setzen wir p̂o (0) = 1 − β 1/n , so gilt für alle p ≥ p̂o (0)

n n
(1 − p) = · p0 · (1 − p)n−0 ≤ β ;
0

der Term (1−p)n gibt für das unbekannte p die Wahrscheinlichkeit an, dass in n Versuchen
kein Treffer erzielt wird.
Im Fall k = n ergibt sich mit entsprechenden Überlegungen p̂o (n) = 1 und p̂u (n) = β 1/n .
Im Fall 1 ≤ k ≤ n − 1 ergibt sich p̂o (k) als eindeutig bestimmte Lösung p der Gleichung
k
X n
· pj · (1 − p)n−j = β
j=0
j

und p̂u (k) als eindeutig bestimmte Lösung p der Gleichung

n
X n
· pj · (1 − p)n−j = β .
j=k
j

Die Lösung der obigen Gleichung zu bestimmen ist recht kompliziert. Meist benutzt man
dazu numerische Verfahren.
Deswegen wollen wir einen anderen Weg einschlagen, um ein Konfidenzintervall für p zu
bestimmen. Die Strategie besteht darin, die B(n, p)-Verteilung mithilfe des Satzes von
82 KAPITEL 5. STATISTIK

Moivre-Laplace mit einer geeigneten Normalverteilung zu approximieren. Damit können

wir dann Näherungen für die Konfidenzgrenzen p̂u (k) und p̂o (k) berechnen. Die Voraus-
setzung für die Anwendbarkeit des Satzes von Moivre-Laplace ist, dass der Umfang n der
Stichprobe genügend groß ist. Wegen
! !
Sn − np k − np k − np + 12
Pp (Sn ≤ k) = Pp p ≤p ≈φ p
np(1 − p) np(1 − p) np(1 − p)

erhalten wir eine Näherung für p̂o (k) aus der Gleichung
!
k − np + 21
φ p =β
np(1 − p)

durch Auflösen nach p, d.h. aus der Gleichung

k − np + 21
p = φ−1 (β) .
np(1 − p)

Entsprechend erhalten wir eine Näherung für p̂u (k) durch Auflösen der Gleichung

k − np − 21
p = φ−1 (1 − β)
np(1 − p)

nach p. Setzen wir c := φ−1 (1 − β), so gilt aus Symmetriegründen φ−1 (β) = −c. Damit
ergeben sich als Näherungen
q
c2 2
k + 2 + 2 + c · k + 12 − n1 (k + 21 )2 + c4
1

p̂o (k) ≈
n + c2
und q
1 c2 c2
k− +
2 2
−c· k − 12 − n1 (k − 21 )2 + 4
p̂u (k) ≈ .
n + c2
Die Werte c können in Abhängigkeit von β aus der Tabelle für die Standardnormalver-
teilung (Seite 58) abgelesen werden. Oft findet man die benötigten Angaben auch in
speziellen Tabellen mit den wichtigsten Quantilen der Standardnormalverteilung:

1−β 0.900 0.950 0.975 0.990 0.995

c = φ−1 (1 − β) 1.282 1.645 1.960 2.326 2.576

Damit erhält man für den Fall β = 0.025, also c = 1.96, n = 50 und k = 10 die Näherungen
p̂o (10) ≈ 0.341 und p̂u (10) ≈ 0.105 im Vergleich zu den exakten Werten p̂o = 0.337 und
p̂u = 0.100.

Beispiel 5.21. Seien X1 , . . . , Xn stochastisch unabhängige und identisch verteilte Zu-

fallsvariable Xi ∼ N(µ, σ 2 ). Der Parameter σ 2 (die Varianz) sei fest vorgegeben und
5.3. KONFIDENZINTERVALLE 83

bekannt, µ sei zu schätzen. Bekanntlich ist dann das arithmetische Mittel X normal ver-
2
teilt mit Erwartungswert µ und Varianz σn . (Dies folgt aus den Sätzen 2.12 und 2.16.)
Also folgt
X −µ
√ ∼ N(0, 1).
σ/ n
Bestimmt wird nun u ∈ R so, dass

X −µ
P √ ≤ u = 1 − α.
σ/ n

Das Prinzip hierfür wirdanhand der Dichte der N(0, 1)−Verteilung erläutert.
u = u1− α2 = φ−1 1 − α2 ist dabei das (1 − α2 )−Quantil der N(0, 1)−Verteilung (siehe
Tabelle unten). Auflösen nach µ ergibt die folgende Gleichung

σ σ σ
P |X − µ| ≤ √ u1− α2 = P X − √ u1− α2 ≤ µ ≤ X + √ u1− α2
n n n
= 1 − α.

Also ist
σ σ
X − √ u1− 2 , X + √ u1− 2
α α
n n
ein (1 − α)−Konfidenzinterall für µ. Wie erwartet fällt die Länge des Konfidenzintervalls
mit wachsendem n und wächst mit wachsendem Niveau 1 − α.

α 0, 1 0, 05 0, 025 0, 01 0, 005 0, 0025

1−α 0, 9 0, 95 0, 975 0, 99 0, 995 0, 9975
u1−α 1, 282 1, 645 1, 960 2, 326 2, 576 2, 807

Einige Quantile der Standardnormalverteilung sind in obiger Tabelle angegeben. Ausführ-

liche Tabellen finden sich in der Literatur.

Satz 5.22. Seien X1 , . . . , Xn stochastisch unabhängig und identisch verteilt, Xi ∼

n
P n
P
N(µ, σ 2 ), X = n1 1
Xi und S 2 = n−1 (Xi − X)2 . Es gilt
i=1 i=1

X −µ n−1 2
√ ∼ tn−1 und S ∼ χ2n−1
S/ n σ2

wobei tn−1 bzw. χ2n−1 die t−Verteilung bzw. die χ2 -Verteilung mit n−1 Freiheitsgraden
bezeichnen. (Siehe Definition 3.15 und 3.16).

Es gilt sogar, dass X und S 2 stochastisch unabhängig sind. Der Beweis dieser Aussage
und des Satzes findet sich in Casella, Berger auf Seite 226.
Man beachte folgende Extremfälle für den Parameter m = n − 1 und die t−Verteilung:

• Für m = 1 ergibt sich die Dichte der Cauchy-Verteilung.

84 KAPITEL 5. STATISTIK

as
• Für Ym ∼ tm , m ∈ N, gilt Ym ∼ N(0, 1) mit m → ∞. tm −Verteilungen konvergieren
also mit m → ∞ gegen die Standardnormalverteilung.

Beispiel 5.23. Seien X1 , . . . , Xn i.i.d. ∼ N(µ, σ 2 ). Bestimmt wird ein Konfidenzintervall

für µ bei unbekanntem σ 2 . Die Idee ist, in Beispiel 5.21 σ 2 durch den erwartungstreuen
Schätzer S 2 zu ersetzen und dann die Quantile der t−Verteilung zu benutzen.
Bestimmt wird υ ∈ R so, dass

X −µ
P √ ≤υ = 1 − α.
S/ n

Analog zu Beispiel 5.21 wird υ = υ1− α2 als das (1− α2 )-Quantil der tn−1 -Verteilung gewählt.
Auflösen obiger Gleichung nach µ liefert

S S S
P X − µ ≤ υ1− α2 √ = P X − υ1− α2 √ ≤ µ ≤ X + υ1− α2 √ .
n n n

Also ist
S S
X − υ1− α2 √ , X + υ1− α2 √
n n
ein 1 − α-Konfidenzintervall für µ bei ungekannter Varianz σ 2 .

Beispiel 5.24. Von einem Automaten werden Produkte hergestellt, bei denen ein Merk-
mal (Länge, Gewicht, Festigkeit usw.) untersucht wird. Die Abweichungen vom vorgege-
benen Nennmaß (etwa als µW mm gegeben) kann man als Realisierungen einer normal-
verteilten Zufallsgröße X auffassen. Der Erwartungswert E(X) ist von der Einstellung des
Automaten abhängig und daher nicht bekannt. Aus Prüfungen der Funktionsgenauigkeit
des Automaten ist die empirische Varianz S 2 = 225 bekannt. Für den Erwartungswert
µ = E(X) ist eine konkrete Konfidenzschätzung mit dem Konfidenzniveau 1 − α = 0, 95
zu ermitteln.
Aus einer konkreten Stichprobe vom Umfang n = 25 sei das arithmetische Mittel xn = 48
bekannt. Für eine Irrtumswahrscheinlichkeit α = 0, 05 folgt aus obiger Tabelle u1− α2 =
u0,975 ≈ 1, 96. Damit erhält man als konkretes Konfidenzintervall für den Parameter µ :

S 15 15
xn − u1−α/2 √ = 48 − 1, 96 < µ < 48 + 1, 96
n 5 5

und damit
42, 12 < µ < 53, 88.
Bei Verkleinerung der Irrtumswahrscheinlichkeit vergrößert sich naturgemäß das Konfi-
denzintervall. Für α = 0, 01 folgt aus obiger Tabelle der Wert u1− α2 = u0,995 ≈ 2, 576 und
damit das konkrete Konfidenzintervall für den Parameter µ :

40, 26 < µ < 55, 74.

5.4. HYPOTHESENTESTS 85

5.4 Hypothesentests
Wir beginnen mit einem in der Literatur bekannten Beispiel (vgl. z.B. N. Henze, S. 234
ff. und U. Krengel, S. 92 ff.):

Beispiel 5.25 (”tea-testing lady”). Eine englische Lady trinkt regelmäßig ihren 5-Uhr-
Tee mit Milch. Eines Tages überrascht sie ihre Teerunde mit der Behauptung, dass sie am
Geschmack des Tees feststellen könne, ob zuerst die Milch und anschließend der Tee ein-
gegossen wurde oder umgekehrt. Sie sei zwar nicht unfehlbar, würde aber in der Mehrzahl
der Fälle die richtige Reihenfolge feststellen.
Um der Lady die Möglichkeit zu geben, ihre Fähigkeit unter Beweis zu stellen, wird
folgendes Verfahren vorgeschlagen: der Lady werden n-mal hintereinander jeweils zwei
Tassen Tee gereicht, jeweils eine vom Typ ”Milch vor Tee” und eine vom Typ ”Tee vor
Milch”. In welcher Reihenfolge die Lady die beiden Tees probiert, wird durch den Wurf
einer Münze festgelegt. Die Pausen zwischen den Geschmacksproben sollen so groß sein,
dass die Lady unbeeinflusst von der vorhergehenden Probe urteilen kann.
Wir können diese Versuchsanordnung interpretieren als n unabhängige Versuche, wobei
mit unbekannter Trefferwahrscheinlichkeit p die richtige Reihenfolge genannt wird. Be-
zeichnen wir mit Sn die Anzahl der richtig angegebenen Reihenfolgen, so wären wir im
Fall n = 20 bei 10 richtigen Reihenfolgen nicht von den Fähigkeiten der Lady überzeugt,
denn durch ”blindes” Raten könnte sich auch diese Anzahl ergeben. Wie groß muss die
Anzahl der richtig angegebenen Reihenfolgen sein, damit man der Lady die Fähigkeit
attestieren kann, die richtige Reihenfolge beim Eingießen durch eine Geschmacksprobe zu
erkennen. Sind wir bei 13 ”Treffern” von den Fähigkeiten der Lady überzeugt oder erst
bei 14 Treffern. Wie groß ist die Wahrscheinlichkeit durch bloßes Raten 13 ”Treffer” zu
erzielen?

Definition 5.26. Wir zerlegen den Parameterbereich Θ in zwei nichtleere disjunkte

Teile
Θ = Θ0 ∪ Θ1 .
Ein statistischer Test oder Hypothesentest ist eine Entscheidungsregel, die innerhalb
des vorgegebenen Modell-Rahmens für jede mögliche Stichprobe x festlegt, ob man
sich für die
Nullhypothese H0 : es gilt ϑ ∈ Θ0
oder für die
Gegenhypothese (Alternative) H1 : es gilt ϑ ∈ Θ1
entscheidet. Die Zerlegung von Θ impliziert eine Zerlegung

K0 ∪ K1

des Stichprobenraums und damit folgende Entscheidungsregel:

′′
Ist x ∈ K0 , so entscheide für H0 .′′
86 KAPITEL 5. STATISTIK

′′
Ist x ∈ K1 , so entscheide für H1 .′′
Man sagt auch: ”Zu testen ist die Hypothese H0 gegen die Alternative H1 ”. K0 heißt
Annahmebereich des Tests und K1 heißt Verwerfungsbereich oder auch kritischer
Bereich. Die Hypothese H0 wird häufig auch Nullhypothese genannt.

Beispiel (Fortsetzung von Beispiel 5.25). Bei der ”tea-testing lady” bietet sich als Θ
das Intervall [ 12 , 1] an mit der Zerlegung in Θ0 = { 21 } und Θ1 =] 21 , 1]. Die Hypothese H0
lautet: ”Die Lady hat keine besondere Gabe, die Eingießreihenfolge am Geschmack zu
erkennen.” Überprüfen wir die Fähigkeiten mit 20 Tassenpaaren und unterteilen wir den
Stichprobenraum in den kritischen Bereich
K1 = {14, 15, . . . , 20}
und den Annahmebereich K0 = {0, 1, . . . , 13} für die Hypothese H0 , so ist die Wahrschein-
lichkeit, dass die Lady durch bloßes Raten mindestens 14-mal die richtige Reihenfolge
trifft,
20 j 20−j
X 20 1 1
p 1 (S20 ≥ 14) = · 1− ≈ 0, 058 .
2
j=14
j 2 2
Wenn diese Wahrscheinlichkeit, durch blindes Raten mindestens 14 Treffer zu erzielen,
noch zu groß ist, der kann statt der 14 auch mindestens 15 Treffer fordern; dann gilt
p 1 (S20 ≥ 15) ≈ 0, 0207 .
2

Bei jedem Test muss man den Annahmebereich und damit auch den Verwerfungsbe-
reich festlegen. Nun gibt es bei der Festlegung mit z.B. mindestens 14 Treffern folgende
Möglichkeiten:
a) Die Lady besitzt nicht die o.g. Fähigkeit und sie errät auch nur bei 10 Tassenpaaren
die richtige Reihenfolge. Man entscheidet sich für die Nullhypothese.
b) Die Lady besitzt nicht die o.g. Fähigkeit, durch ”Zufall” kommt sie aber auf 15
Treffer. Man entscheidet sich für die Gegenhypothese.
c) Die Lady besitzt die o.g. Fähigkeit und sie hat auch 16 Treffer. Man entscheidet
sich für die Gegenhypothese.
d) Die Lady besitzt die o.g. Fähigkeit, sie hat aber nur bei 13 Tassenpaaren recht. Man
entscheidet sich für die Nullhypothese.
In den Fällen b) und d) macht man einen Fehler.

Definition 5.27. Wir übernehmen die Bezeichnungen aus Definition 5.26. Gilt (in
Wirklichkeit) ϑ ∈ Θ0 und man entscheidet sich für die Gegenhypothese, so spricht
man von einem Fehler erster Art. Gilt dagegen ϑ ∈ Θ1 und man entscheidet sich
für die Nullhypothese, so spricht man von einem Fehler zweiter Art. Man kann dies
folgendermaßen zusammenfassen:
5.4. HYPOTHESENTESTS 87

Wirklichkeit
H0 : ϑ ∈ Θ0 H1 : ϑ ∈ Θ1
für H0 richtige Fehler
Entschei- Entscheidung 2. Art
dung
für H1 Fehler richtige
1. Art Entscheidung

Um die Wahrscheinlichkeit für eine falsche Entscheidung möglichst klein zu halten,

ist eine sog. Gütefunktion g mit kleinen Werten auf Θ0 und großen Werten auf Θ1
wünschenswert. Wir definieren g : Θ → [0, 1] durch

g(ϑ) := pϑ (X ∈ K1 ) , ϑ ∈ Θ.

g ordnet jedem ϑ die sog. Verwerfungswahrscheinlichkeit der Hypothese H0 unter pϑ

zu. Man gibt eine obere Schranke α ∈]0, 1[ für die Wahrscheinlichkeit des Fehlers
erster Art vor und legt K1 so fest, dass

g(ϑ) ≤ α für alle ϑ ∈ Θ0

gilt. Ein solcher Test heißt (Signifikanz-)Test zum (Signifikanz-)Niveau α. Dabei sind
für α Werte aus dem Intervall [0.01, 0.1] üblich.

Ablehnung von H0

α
ϑ0 k
88 KAPITEL 5. STATISTIK
µ0 = 15 µa = 16

β α

14 15 k 16 17
Akzeptiere H0 Verwerfe H0

Beispiel 5.28. Ein Produzent von Überraschungseiern versichert, dass in mindestens 14

% der Eier Figuren aus einem beliebten Fantasy-Abenteuer stecken. Eine Verbraucher-
organisation ist misstrauisch und möchte diese Aussage überprüfen. Aus diesem Grund
untersucht sie 1000 zufällig ausgewählte Überraschungseier, findet darin aber nur 130
Fantasy-Figuren. Genügt dieses Ergebnis, um die Behauptung des Herstellers zu widerle-
gen, oder sollte die Verbraucherorganisation lieber schweigen, da eine gewisse Abweichung
vom Erwartungswert 140 in der zufällig ausgewählten Stichprobe immer möglich ist?
Es sei p der wahre, aber unbekannte Anteil der Eier mit Fantasy-Figuren. Die Hypothese
des Herstellers lautet dann
H0 : p ≥ 0.14 ,
die Hypothese der Verbraucherorganisation

H1 : p < 0.14 .

Wir bezeichnen mit X die Zufallsvariable, die die Anzahl der Figuren in der Stichprobe
vom Umfang n = 1000 zählt. Wir können davon ausgehen, dass X Binomial-verteilt ist.
Wenn H0 richtig ist, wird X nicht so klein ausfallen; also gibt es eine noch zu bestimmende
Zahl c derart, dass X > c ist. Wenn X ≤ c ausfällt, ist H0 wahrscheinlich nicht richtig.
Die Wertemenge von X zerfällt also in

K0 = {c + 1, . . . , 1000}, K1 = {0, . . . , c}.

Der Wert c ist so zu wählen, dass die Wahrscheinlichkeit α, die richtige Hypothese H0 zu
verwerfen, möglichst klein ist, d.h.

p(X ≤ c und es ist H0 richtig) ≤ α .

Wir haben bei Vorgabe der sogenannten Irrtums-Wahrscheinlichkeit α und des daraus
bestimmten c insgesamt vier Entscheidungssituationen:

a) H0 trifft zu, und es ist X > c; wir entscheiden uns für H0 .

b) H0 trifft zu, und es ist X ≤ c; wir entscheiden uns für H1 .

5.4. HYPOTHESENTESTS 89

c) H1 trifft zu, und es ist X > c; wir entscheiden uns für H0 .

d) H1 trifft zu, und es ist X ≤ c; wir entscheiden uns für H1 .

Ersetzen wir die Binomial-Verteilung durch die Gaußsche Glockenkurve (Satz 4.3 von de
Moivre-Laplace), so erhalten wir die Größe c z.B. für α = 0.05 aus der Beziehung
0.05 = P (X ≤ c und es ist H0 richtig)
!
c − np c − 140
≈ φ p = φ √ ,
np(1 − p) 120.4
wobei wir ohne Korrekturterm arbeiten. Wegen der Symmetrie der Normalverteilung er-
halten wir daraus:
140 − c
0.95 = 1 − 0.05 = 1 − α = φ √
120.4
und damit aus einer Tabelle
140 − c
√ ≈ 1.65 ,
120.4
woraus
c ≈ 121.9
folgt. Würden wir mit Korrekturterm rechnen, d.h. mit
!
c − np + 12 c − 139.5
φ p =φ √ ,
np(1 − p) 120.4
so ergäbe sich statt 121.9 die Zahl 121.4, was zu derselben nächstgelegenen, kleineren
ganzen Zahl führt. Also erhalten wir die sog. Testvorschrift, die Hypothese H0 erst dann
abzulehnen, wenn in der Stichprobe von 1000 Eiern die Anzahl der Figuren 121 oder
weniger beträgt. Es wurden aber 130 Figuren gefunden. Also ist die Behauptung des
Herstellers durch dieses Testergebnis nicht zu beanstanden. Berechnen wir für c = 121 die
Wahrscheinlichkeit für den Fehler 1. Art, so ergibt sich

121 − 140
P (X ≤ 121 und H0 ist richtig) ≈ φ √ ≈ 0.0418
120.4
bzw.
121 − 139.5
P (X ≤ 121 und H0 ist richtig) ≈ φ √ ≈ 0.0465 .
120.4
(Wir können hier nicht exakt den Wert 0.05 erzielen, da c nur die Menge der natürli-
chen Zahlen durchläuft.) Das Ergebnis ist folgendermaßen zu interpretieren: Wenn wir
viele Stichproben im Umfang von jeweils 1000 Überraschungseiern ziehen würden, in
denen höchstens 121 Fantasy-Figuren stecken, so würden wir in 4.18 % (bzw. 4.65 %)
der gezogenen Stichproben dem Hersteller zu Unrecht vorwerfen, dass weniger als 14 %
Fantasy-Figuren in seinem Produkt seien.

Zum Schluss ein paar Bemerkungen, die man bei der Durchführung eines Hypothesentests
immer berücksichtigen soll:
90 KAPITEL 5. STATISTIK

Bemerkungen 5.29. Man sollte wissen, dass

a) Hypothesen und Gegenhypothesen nie bewiesen werden können,

b) das Nichtverwerfen einer Hypothese H0 im Allgemeinen nur bedeutet, dass die vor-
liegende Datenbasis zu gering ist, um einen signifikanten Widerspruch zu H0 her-
beizuführen.

c) Hypothesen, die anhand von Daten gebildet werden, nie anhand derselben Daten
getestet werden dürfen.
Grundlegendes aus der Analysis

Wir fassen kurz einige grundlegende Begriffe und Aussagen aus der Analysis zusammen,
die wir im Laufe der Vorlesung benötigen werden.

1. Abbildungen ([4, Abschnitt 0.3])

Eine Abbildung oder Funktion ist eine Zuordnungsvorschrift zwischen zwei Mengen X
und Y , bei der jedem Element x ∈ X genau ein Element y ∈ Y zugeordnet wird. Wir
schreiben f : X → Y , x 7→ y = f (x). Man nennt X den Definitions- oder Urbildbereich
und Y den Werte- oder Bildbereich von f .

Beispiele. • X = R(= Menge der reellen Zahlen), Y = R, f (x) := x2 .

• X = {A ∈ P(N) | A hat endlich viele Elemente ♯A < ∞},
Y = N = {1, 2, 3, . . .}, f (A) := ♯A.

2. Folgen und Reihen ([4, Kapitel 5 und 6])

Eine Abbildung f : N → X nennen wir eine Folge (in X); das Bild f (n) heißt n-tes Glied
der Folge. Eine Folge in X ordnet also jeder natürlichen Zahl genau ein Element aus X
zu. Man schreibt für die Folge (xn )n∈N oder (x1 , x2 , . . .) mit xn := f (n), n ∈ N. Im Falle
von X = R spricht man auch von (reellen) Punktfolgen. Statt N kann man als Urbild
auch N0 := N ∪ {0} oder eine unendliche Teilmenge von N verwenden.

Beispiele. • X = R, xn = f (n) = n2 , also (1, 4, 9, 16, . . .).

• X = Menge der Seiten eines Spielwürfels ∼
= {1, 2, . . . , 6},
f (n) := Ergebnis des n-ten Wurfes eines Würfelexperiments,
also z.B. (6, 3, 2, 5, . . .).

Sei nun (xn )n∈N eine reelle Punktfolge. Wir definieren

n
X
sn := x1 + x2 + . . . + xn =: xk , n ∈ N.
k=1

Die so erklärte Folge (sn )n∈N heißt Folge der Partialsummen (von (xn )n∈N ); falls die In-
dexmenge N durch N0 oder eine unendliche Teilmenge von N ersetzt wird, definiert man
sn analog.

91
92 GRUNDLEGENDES AUS DER ANALYSIS

Beispiel (Geometrische Reihe). X = R, xn = q n , n ∈ N0 , mit einem q ∈ R.

n−1
P
• Für q = 1 ergibt sich xn = 1 und somit sn = xk = n, n ∈ N.
k=0

n−1 n−1
X X 1 − qn
• Für q ∈ R \ {1} ergibt sich sn = xk = qk = , n ∈ N.
1−q
k=0 k=0
(Beweis der Summenformel durch vollständige Induktion oder m.H. von Teleskop-
summen → Übung.)

Was geschieht, wenn man nicht nur die ersten n Glieder sondern alle (unendlich vielen)
Glieder der Folge (xn )n∈N aufsummiert? Bei dem so entstehenden Objekt spricht man von
einer (unendlichen) Reihe und schreibt
∞
X
s= xk .
k=1

Im Falle des obigen Beispiels xn = q n führt diese Betrachtung auf die wohl wichtigste
∞
P
Reihe, nämlich die geometrische Reihe q k . Für die Untersuchung von Reihen benötigt
k=0
man den Begriff des Grenzwerts, der für die gesamte Analysis grundlegend ist:

3. Grenzwerte von Folgen, Reihenwerte ([4, Kapitel 5 und 6])

Zu Folgen: Sei (xn )n∈N eine reelle Punktfolge. Gibt es ein a ∈ R, so dass für beliebige
ε > 0 ein N(ε) ∈ N so existiert, dass gilt

|xn − a| < ε für alle n ≥ N(ε),

so heißt a Grenzwert von (xn )n∈N und wir schreiben

a = lim xn oder xn → a (n → ∞).

n→∞

Man sagt auch: (xn )n∈N konvergiert (gegen a).

n2 − 7 1 1
Beispiele. • xn = 2
. M.H. von → 0, 2 → 0 (n → ∞) berechnen wir
2n + 5n n n
n2 − 7 1 − n72 1
xn = 2 = 5 → (n → ∞).
2n + 5n 2+ n 2

• xn = q n , q ∈ R.

⋄ q = 1, also (xn )n∈N = (1, 1, 1, . . .). Diese konstante Folge hat trivialerweise den
Grenzwert lim xn = 1.
n→∞
⋄ q = −1, also (xn )n∈N = (−1, 1, −1, 1, . . .). Da der Abstand je zweier aufeinander
folgender Glieder = 2 ist, kann ((−1)n )n∈N nicht konvergieren.
93

⋄ |q| < 1, dann gilt q n → 0 (n → ∞). Ist nämlich ε > 0 beliebig, so gilt
|q n − 0| < ε ⇔ |q|n < ε ⇔ en ln |q| < ε
ln ε
⇔ n ln |q| < ln ε ⇔ n >
ln |q|
ln ε
Wählen wir also eine natürliche Zahl N(ε) > , so folgt
ln |q|
|q n − 0| < ε für alle n ≥ N(ε).
⋄ |q| > 1. Die Folge (q n )n∈N konvergiert nicht, da sie unbeschränkt ist in folgen-
dem Sinne:
Eine Folge (xn )n∈N heißt unbeschränkt, wenn zu jedem M > 0 ein n ∈ N so existiert, dass
|xn | > M gilt. Wir erwähnen noch die zwei folgenden Spezialfälle:
• Existiert zu jedem M > 0 ein N(M) ∈ N mit xn > M für alle n ≥ N(M), so heißt
(xn )n∈N uneigentlich konvergent (gegen +∞). Schreibweise: xn → +∞ (n → ∞).
• Existiert zu jedem M > 0 ein N(M) ∈ N mit xn < −M für alle n ≥ N(M), so heißt
(xn )n∈N uneigentlich konvergent (gegen −∞). Schreibweise: xn → −∞ (n → ∞).
In der Vorstellung streben uneigentlich konvergente Folgen beliebig weit nach rechts
bzw. links auf der Zahlengeraden.

Beispiele. Die Folgen (n)n∈N , (2n )n∈N sind uneigentlich konvergent gegen +∞, (−n2 )n∈N
ist z.B. uneigentlich konvergent gegen −∞. Hingegen ist ((−3)n )n∈N zwar unbeschränkt,
aber nicht uneigentlich konvergent.

∞
P
Zu Reihen: Eine Reihe xk heißt konvergent, wenn die Folge der Partialsummen sn =
k=1
n
P
xk , n ∈ N, konvergiert. Der Grenzwert heißt dann Wert der Reihe und wird ebenfalls
k=1
∞
P
mit xk bezeichnet.
k=1

∞
P
Beispiel. Die geometrische Reihe q k konvergiert für |q| < 1 und divergiert für |q| ≥ 1.
k=0
Im letzteren Fall ist nämlich der Abstand zweier aufeinander folgender Partialsummen
≥ 1. Und im Fall |q| < 1 gilt nach den obigen Beispielen:
n−1
X 1 − qn
k 1
sn = q = → (n → ∞).
k=0
1−q 1−q
Für den Wert der geometrischen Reihe haben wir also
∞
X 1
qk = , falls |q| < 1.
1−q
k=0
94 GRUNDLEGENDES AUS DER ANALYSIS

4. Funktionsgrenzwerte im Unendlichen ([4, Kapitel 9])

Bei der Untersuchung einer Funktion f = f (x) : R → R ist häufig deren Verhalten
bzw. Aussehen für beliebig große bzw. beliebig kleine Werte von x interessant. Man be-
stimmt also – wenn (uneigentlich) existent – die folgenden Grenzwerte

lim f (x) = a bzw. lim f (x) = b,

x→+∞ x→−∞

die folgendermaßen zu verstehen sind:

• Es existiert ein a ∈ R ∪ {−∞} ∪ {+∞}, so dass gilt: Für beliebige Punktfolgen

(xn )n∈N mit lim xn = +∞ gilt lim f (xn ) = a.
n→∞ n→∞

• Es existiert ein b ∈ R ∪ {−∞} ∪ {+∞}, so dass gilt: Für beliebige Punktfolgen

(xn )n∈N mit lim xn = −∞ gilt lim f (xn ) = b.
n→∞ n→∞

Beispiele. • f (x) = ex . Es gilt lim ex = +∞, lim ex = 0.

x→+∞ x→−∞

• f (x) = sin x. Dann gilt z.B. lim sin(nπ) = 0 und lim sin( π2 + 2nπ) = 1; der Grenz-
n→∞ n→∞
wert lim sin x existiert also nicht. Analoges gilt für den Grenzwert lim sin x.
x→+∞ x→−∞

5. Stammfunktionen und Integrale ([4, Kapitel 11])

Aus der Schule kennt man das Konzept der Stammfunktion: Ist f : R → R gegeben, so
heißt eine Funktion F : R → R Stammfunktion von f , wenn gilt:

dF
(x) = f (x) für alle x ∈ R;
dx
dabei bezeichnet dF
dx
= F ′ die erste Ableitung von F . Wir nennen die Stammfunktion auch
unbestimmtes Integral und schreiben
Z
F = f (x) dx.

Sind a, b ∈ R mit a < b beliebig, so besagt der Fundamentalsatz der Differential- und
Integralrechnung:
Zb x=b
f (x) dx = F (b) − F (a) =: F (x) ,
x=a
a

wobei die linke Seite das bestimmte Integral von f (zwischen a und b) bezeichnet.
Rb
Geometrisch misst f (x) dx die Fläche zwischen dem Graphen von f und der x-Achse, die
a
von den senkrechten Geraden x = a und x = b begrenzt wird. Dabei werden Flächenstücke
unterhalb der x-Achse negativ bewertet.
95

Beispiel. f (x) = cos x. Eine Stammfunktion ist F (x) = sin x (auch F (x) = sin x + c mit
beliebiger Konstante c ∈ R ist Stammfunktion). Für das bestimmte Integral folgt:

Zb
cos x dx = sin b − sin a.
a

6. Uneigentliche Integrale ([4, Abschnitt 11.5])

Das bestimmte Integral kann durch einen Grenzübergang wie in 4. genutzt werden, um
auch Flächeninhalte über unendlich ausgedehnte Abschnitte der x-Achse zu berechnen:

Sei f : R → R mit Stammfunktion F : R → R gegeben und sei a ∈ R fixiert. Dann heißt

Z +∞ Zb
f (x) dx := lim f (x) dx = lim F (b) − F (a)
a b→+∞ b→+∞
a

das uneigentliche Integral von f (zwischen a und +∞), falls der angegebene Funktions-
grenzwert existiert. Analog definiert man - bei Existenz - für beliebiges b ∈ R:
Zb Zb
f (x) dx := lim f (x) dx = F (b) − lim F (a).
a→−∞ a→−∞
−∞ a

Und man setzt schließlich noch

Z+∞
f (x) dx := lim F (b) − lim F (a),
b→+∞ a→−∞
−∞

wenn beide Grenzwerte existieren.

1 1
Beispiele. • f (x) = 2 . Eine Stammfunktion ist F (x) = − . Damit existiert z.B. das
x x
uneigentliche Integral
Z+∞ 1
1
dx = lim − + 1 = 1.
x2 b→+∞ b
1

Dass f nur für x 6= 0 definiert ist, macht uns keine Probleme; dann sind die Stamm-
funktion und entsprechend die uneigentlichen Integrale nur auf dieser Teilmenge
sinnvoll.

• f (x) = cos x. Wie in 5. folgt

Zb
cos x dx = sin b − sin a;
a
96 GRUNDLEGENDES AUS DER ANALYSIS

aber z.B. lim sin b existiert nicht, wie in 4. gesehen; also existiert das uneigentliche
b→+∞
+∞
R
Integral cos x dx nicht.
a

2
• Für uns wird der Fall f (x) = exp(− x2 ) interessant sein. Mit einiger Arbeit kann
man zeigen, dass das uneigentliche Integral von f zwischen −∞ und +∞ existiert
und dass gilt:
Z+∞ x2 √
exp − dx = 2π;
2
−∞

siehe [4, Satz 11.39].

Literaturverzeichnis

[1] Peter Hartmann, Mathematik für Informatiker, Springer Vieweg, 2012.

[2] Lothar Sachs, Jürgen Hedderich, Angewandte Statistik. Methodensammlung mit R.,
Springer Spektrum, 2015.

[3] Norbert Henze, Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt
des Zufalls, Springer Spektrum, 2013.

[4] Skript zur Vorlesung Mathematik für Studierende der Informatik 1, Duisburg-Essen,
Version SS 17.

97
Index

B(n, p)- Verteilung, 40 unabhängige Ereignisse, 27

N(µ, σ 2 )-Verteilung, 57 unabhängige Zufallsvariable, 35, 53
P (λ)−Verteilung, 47 unkorrelierte Zufallsvariable, 38

Bayes, Satz von, 26 Vandermondesche Faltungsformel, 45

bedingte Wahrscheinlichkeit, 23 Varianz, 38
Bernoulli-Experiment, 39 Verteilungsfunktion, 34
Bernoulli-Verteilung, 39
Binomial-Verteilung, 40 Wahrscheinlichkeitsmaß, 15
Wahrscheinlichkeitsraum, 15
Covarianz, 38
Zufallsvariable, 33
Ereignis, 12
Erwartungswert, 36, 53
geometrische Verteilung, 42
Grenzwertsätze, 61
Hypergeometrische-Verteilung, 45

identisch verteilt, 61
Irrtums-Wahrscheinlichkeit, 88

Kombinatorik, 16
Korrelationskoeffizient, 38

Maß, 15
Maßraum, 15
messbare Menge, 15
messbarer Raum, 15
Multiplikationssatz, 24

negative Binomialverteilung, 43
Normal-Verteilung, 54
Poisson-Näherung, 48
Poisson-Verteilung, 47
Raum der Elementarereignisse, 12

Satz von der totalen Wahrscheinlichkeit, 24

Standardabweichung, 38, 53
standardisierte Variable, 61

Das könnte Ihnen auch gefallen

Skript Einfuehrung in Die Stochastik Informatik
Noch keine Bewertungen
Skript Einfuehrung in Die Stochastik Informatik
158 Seiten
4 Kombinatorik, Wahrscheinlichkeitsrechnung, Statistik
100% (1)
4 Kombinatorik, Wahrscheinlichkeitsrechnung, Statistik
291 Seiten
Statistik Und Wahrscheinlichkeit
Noch keine Bewertungen
Statistik Und Wahrscheinlichkeit
2 Seiten
Einführungindie Wahrscheinlichkeitsrechnung Stochas
Noch keine Bewertungen
Einführungindie Wahrscheinlichkeitsrechnung Stochas
62 Seiten
Jondral / Wiesler Grundlagen Der Wahrscheinlichkeitsrechnung Und Stochastischer Prozesse Fur Ingenieure
Noch keine Bewertungen
Jondral / Wiesler Grundlagen Der Wahrscheinlichkeitsrechnung Und Stochastischer Prozesse Fur Ingenieure
233 Seiten
Stochastische Modelle - Skript
Noch keine Bewertungen
Stochastische Modelle - Skript
171 Seiten
Vor Le Sungs Manu Skrip T
Noch keine Bewertungen
Vor Le Sungs Manu Skrip T
100 Seiten
MaSt Statistik 2007
75% (4)
MaSt Statistik 2007
132 Seiten
Mathematik in Der Biologie
Noch keine Bewertungen
Mathematik in Der Biologie
161 Seiten
ZSMF Statisitk
Noch keine Bewertungen
ZSMF Statisitk
24 Seiten
Kurzskript
Noch keine Bewertungen
Kurzskript
24 Seiten
Bildschirmfoto 2025-03-06 Um 20.08.20
Noch keine Bewertungen
Bildschirmfoto 2025-03-06 Um 20.08.20
43 Seiten
Klausur
Noch keine Bewertungen
Klausur
2 Seiten
Statistik Eine Einführung Mit Interaktiven Elementen 4th Edition Ebook Full Text
Noch keine Bewertungen
Statistik Eine Einführung Mit Interaktiven Elementen 4th Edition Ebook Full Text
14 Seiten
Stochastik
Noch keine Bewertungen
Stochastik
47 Seiten
Form Elsa MM Lung
Noch keine Bewertungen
Form Elsa MM Lung
2 Seiten
Folien 2
Noch keine Bewertungen
Folien 2
61 Seiten
Dokumen - Pub Stochastik Einfhrung in Die Wahrscheinlichkeitstheorie Und Statistik 3 Berarb Und Erw Aufl Reprint 2012 9783110206777 9783110193497
Noch keine Bewertungen
Dokumen - Pub Stochastik Einfhrung in Die Wahrscheinlichkeitstheorie Und Statistik 3 Berarb Und Erw Aufl Reprint 2012 9783110206777 9783110193497
392 Seiten
Stochastik Diskrete Wahrscheinlichkeit Und Kombinatorik Grundstudium Mathematik German Edition Compress
Noch keine Bewertungen
Stochastik Diskrete Wahrscheinlichkeit Und Kombinatorik Grundstudium Mathematik German Edition Compress
389 Seiten
AP Statistik Studienführer
Noch keine Bewertungen
AP Statistik Studienführer
12 Seiten
Folien 5
Noch keine Bewertungen
Folien 5
80 Seiten
Stochastik Skript
100% (1)
Stochastik Skript
168 Seiten
Mathe 10.klassen Mit Lösungen
Noch keine Bewertungen
Mathe 10.klassen Mit Lösungen
28 Seiten
CG Handbuch
Noch keine Bewertungen
CG Handbuch
14 Seiten
Grundlagen Der Stochastik
100% (1)
Grundlagen Der Stochastik
165 Seiten
Folien 3
Noch keine Bewertungen
Folien 3
40 Seiten
2 - PPP - Stetig Verteilte Zufallsgrößen
Noch keine Bewertungen
2 - PPP - Stetig Verteilte Zufallsgrößen
30 Seiten
Statistik Zusammenfassung
Noch keine Bewertungen
Statistik Zusammenfassung
10 Seiten
Stochastische Elementare
Noch keine Bewertungen
Stochastische Elementare
89 Seiten
Stochastik in Den Ingenieur-Wissenschaften: Christine Müller Liesa Denecke
Noch keine Bewertungen
Stochastik in Den Ingenieur-Wissenschaften: Christine Müller Liesa Denecke
273 Seiten
Statistik Skript
Noch keine Bewertungen
Statistik Skript
95 Seiten
BA-script SoSe 24
Noch keine Bewertungen
BA-script SoSe 24
66 Seiten
Formelsammlung WiWi Statistik PDF
Noch keine Bewertungen
Formelsammlung WiWi Statistik PDF
91 Seiten
Folien 1
Noch keine Bewertungen
Folien 1
46 Seiten
Mathematik Q2 2
Noch keine Bewertungen
Mathematik Q2 2
4 Seiten
WiWi Formelsammlung Statistik
Noch keine Bewertungen
WiWi Formelsammlung Statistik
88 Seiten
Einführung in Die Statistik Mit R
100% (1)
Einführung in Die Statistik Mit R
544 Seiten
Wahrscheinlichkeitsverteilungen - Zusammenfassung Und Musterbeispiele
Noch keine Bewertungen
Wahrscheinlichkeitsverteilungen - Zusammenfassung Und Musterbeispiele
6 Seiten
Statistik Und Wahrscheinlichkeit
Noch keine Bewertungen
Statistik Und Wahrscheinlichkeit
402 Seiten
Statistik Script
Noch keine Bewertungen
Statistik Script
46 Seiten
Wahrscheinlichkeit: 1. Datenschutz
Noch keine Bewertungen
Wahrscheinlichkeit: 1. Datenschutz
9 Seiten
Skriptum Mathematische Statistik
Noch keine Bewertungen
Skriptum Mathematische Statistik
51 Seiten
Tutorium 5 - LÃ Sungen 2
Noch keine Bewertungen
Tutorium 5 - LÃ Sungen 2
8 Seiten
Skript EWS SS20
Noch keine Bewertungen
Skript EWS SS20
112 Seiten
Formelsammlung German
Noch keine Bewertungen
Formelsammlung German
4 Seiten
Übungen Kapitel 5
Noch keine Bewertungen
Übungen Kapitel 5
20 Seiten
Schulmathematik 5 - Stochastik: Mitschrift Zur Vorlesung
Noch keine Bewertungen
Schulmathematik 5 - Stochastik: Mitschrift Zur Vorlesung
53 Seiten
Binominalverteilung
Noch keine Bewertungen
Binominalverteilung
6 Seiten
Fullskript Stochastik
Noch keine Bewertungen
Fullskript Stochastik
82 Seiten
Übungsklausur
Noch keine Bewertungen
Übungsklausur
4 Seiten
Untitled
Noch keine Bewertungen
Untitled
2 Seiten
Checkliste - Klausur 2 - Mit Lösunge
Noch keine Bewertungen
Checkliste - Klausur 2 - Mit Lösunge
8 Seiten
Risse in Bauwerken. Seminar-Vortragsmanuskript Risse in Bauwerken Stand September 2019
100% (3)
Risse in Bauwerken. Seminar-Vortragsmanuskript Risse in Bauwerken Stand September 2019
48 Seiten
WN133529 Bim Unt Ap6x 0,6 PSG3M - de
Noch keine Bewertungen
WN133529 Bim Unt Ap6x 0,6 PSG3M - de
5 Seiten
Testo 830 T1 Instruction Manual
100% (1)
Testo 830 T1 Instruction Manual
6 Seiten
Haertevergleichstabelle
Noch keine Bewertungen
Haertevergleichstabelle
1 Seite