0% fanden dieses Dokument nützlich (0 Abstimmungen)
112 Ansichten95 Seiten

Statistik Skript

Hochgeladen von

xvtvctsxch
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen
0% fanden dieses Dokument nützlich (0 Abstimmungen)
112 Ansichten95 Seiten

Statistik Skript

Hochgeladen von

xvtvctsxch
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen

Statistik I für Cognitive Science und

Wirtschaftswissenschaften
 Wintersemester 2020/2021 

Dozent: Prof. Dr. Frank Aurzada


Fachbereich Mathematik, TU Darmstadt

Das vorliegende Vorlesungsskript basiert auf einer Vorlage von Prof. Dr. W. Stannat, mit
Überarbeitungen und Erweiterungen durch Dr. C.H. Weiÿ, Prof. Dr. F. Aurzada und Dr. C.
Wichelhaus.

Korrekturvorschläge bitte per E-Mail an: aurzada@[Link]

Stand: 16. Oktober 2020


INHALTSVERZEICHNIS 3

Inhaltsverzeichnis
I Deskriptive Statistik 5
I.1 Grundbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

I.2 Analyse eindimensionaler Datensätze . . . . . . . . . . . . . . . . . . . . . . . . 7

I.2.1 Absolute und relative Häugkeiten . . . . . . . . . . . . . . . . . . . . . 7

I.2.2 Kumulierte Häugkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . 10

I.2.3 Lagemaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

I.2.4 Quantile und Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

I.2.5 Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

I.2.6 Konzentration von Häugkeitsverteilungen . . . . . . . . . . . . . . . . . 17

I.3 Analyse zwei- und mehrdimensionaler Datensätze . . . . . . . . . . . . . . . . . 20

I.3.1 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

I.3.2 Der Kontingenzkoezient . . . . . . . . . . . . . . . . . . . . . . . . . . 23

I.3.3 Streuungsdiagramm und Korrelation . . . . . . . . . . . . . . . . . . . . 23

I.3.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

I.3.5 Nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

II Wahrscheinlichkeitsrechnung 29
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . 29

II.1.1 Zufällige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

II.1.2 Wahrscheinlichkeitsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

II.1.3 Wahrscheinlichkeitsmaÿe und Wahrscheinlichkeitsfunktionen . . . . . . . 31

II.1.4 Laplacescher Wahrscheinlichkeitsraum und Urnenmodelle . . . . . . . . 32

II.1.5 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 34

II.1.6 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

II.2 Zufallsvariablen und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 38

II.2.1 Das Konzept der Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 38

II.2.2 Die Verteilungsfunktion einer Zufallsvariablen . . . . . . . . . . . . . . . 39

II.2.3 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 39

II.2.4 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

II.2.5 Die wichtigsten diskreten Verteilungen im Überblick . . . . . . . . . . . 46

II.3 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

II.3.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

II.3.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

II.3.3 Die Ungleichung von Tschebyschow . . . . . . . . . . . . . . . . . . . . . 51

II.3.4 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 52

II.4 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

II.4.1 Stetige Verteilungen: Dichte und Verteilungsfunktion . . . . . . . . . . . 54

II.4.2 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 55

II.4.3 Erwartungswert, Varianz und Kovarianz . . . . . . . . . . . . . . . . . . 55

II.4.4 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 57

II.4.5 Weitere Eigenschaften normalverteilter Zufallsvariablen . . . . . . . . . 59

II.4.6 Anwendungen der Normalverteilung . . . . . . . . . . . . . . . . . . . . 60

II.4.7 Aus der Normalverteilung abgeleitete Verteilungsmodelle . . . . . . . . . 61

II.5 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

II.5.1 Das Gesetz der groÿen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 64

II.5.2 Der Hauptsatz der Statistik (Satz von Glivenko-Cantelli) . . . . . . . . 65

II.5.3 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . 66

II.5.4 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . 66


4 INHALTSVERZEICHNIS

III Induktive Statistik 68


III.1 Schätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
III.1.1 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
III.1.2 Prinzipien zur Konstruktion von Schätzern . . . . . . . . . . . . . . . . 72
III.1.3 Intervall-Schätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
III.2 Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
III.2.1 Grundlagen aus der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . 78
III.2.2 Ein-Stichproben-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
III.2.3 P-Werte und Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . 82
III.2.4 Tests basierend auf Häugkeiten . . . . . . . . . . . . . . . . . . . . . . 85
III.2.5 Ergänzung: Mehr-Stichproben-Tests . . . . . . . . . . . . . . . . . . . . 87
III.2.6 Ergänzung: Bivariate Normalverteilung und Korrelationstest . . . . . . . 90
III.2.7 Ergänzung: Nichtparametrische Testverfahren . . . . . . . . . . . . . . . 91
5

I Deskriptive Statistik
I.1 Grundbegrie
Die deskriptive Statistik oder auch beschreibende Statistik beschäftigt sich mit der Auf-
bereitung von Daten, die im Rahmen von Erhebungen, wie zum Beispiel Volkszählungen und
Umfragen, oder bei Messungen gewonnen werden. Erhoben werden Merkmale wie zum Bei-
spiel Alter, Geschlecht, Einkommen, Temperatur oder Druck. Die Merkmalsausprägungen
sind die Gesamtheit der möglichen Werte eines Merkmals.

Unterschieden werden Merkmale nach qualitativen Merkmalen (wie Geschlecht, Nationa-


lität oder Beruf ) und quantitativen Merkmalen, die man ihrerseits nochmals in diskrete
Merkmale (etwa Alter und Einkommen) und stetige Merkmale (etwa Temperatur und Ge-
schwindigkeit) unterteilt.

Beispiele für Merkmalsarten und deren Merkmalsausprägungen:

Geschlecht: männlich, weiblich, divers.

Alter: 0, 1, 2, 3, . . .

Temperatur: die reellen Zahlen R oder Teilmengen der reellen Zahlen.

Als Merkmalsträger bezeichnet man die für die Erhebung der Daten relevanten Objekte. Das
sind also zum Beispiel bei einer Umfrage die Menge der relevanten Personen. Die Gesamtheit
der für eine statistische Erhebung relevanten Merkmalsträger heiÿt Grundgesamtheit.

Bei Erhebungen unterscheidet man zwischen einer Vollerhebung, bei der alle Merkmalsträ-
ger der Grundgesamtheit erfasst werden (etwa Volkszählung) und einer Teilerhebung oder
Stichprobenerhebung, bei der nur eine zufällig gewonnene Teilmenge der Grundgesamtheit
erfasst wird, wie es bei Umfragen der Fall ist.

Bei der Erhebung statistischer Daten unterscheidet man zwischen

• Befragung (z. B. Umfrage, Volkszählung),

• Beobachtung (z. B. Verkehrszählung, Messung, . . . ),

• Experiment (Messung im physikalischen Experiment).

Bei der Teilerhebung statistischer Daten wird die Stichprobenauswahl entscheidend: Von
welchen Merkmalsträgern werden die Daten erhoben? Neben willkürlicher Auswahl gibt es
hierzu Stichprobentechniken.

Beispiel: Quotenauswahl.

Bei der Auswahl achtet man darauf, dass bestimmte Merkmalsausprägungen in der Teilge-
samtheit dieselbe relative Häugkeit besitzen wie in der Grundgesamtheit. Man spricht dann
von einer repräsentativen Auswahl, im Zusammenhang mit Umfragen etwa von einer reprä-
sentativen Umfrage.
6 I DESKRIPTIVE STATISTIK

Merkmalstypen, Skalierung, Klassierung

Wir haben bereits die Unterscheidung zwischen quantitativen und qualitativen Merkmalen
angesprochen. Durch Quantizierung kann ein qualitatives Merkmal in ein quantitatives
umgewandelt werden, z.B.:

grün = 23 Europa =3
oder
blau = 14 Asien =1

Skalierung
Bei den Merkmalen spielt die Skalierung eine wichtige Rolle. Man unterscheidet folgende
Skalen:

Nominalskala: Die zugeordneten Zahlen dienen lediglich zur Unterscheidung der Merk-
malsausprägungen.

Beispiele: Farben, Automarken, Steuerklassen.

Ordinalskala, Rangskala: Die Merkmalsausprägungen werden zueinander in einer


Rangfolge in Beziehung gesetzt (natürliche Ordnung).

Beispiele: Schadstoklassen, Schulabschlüsse, Nachnamen nach ABC sortiert.

Kardinalskala, Metrische Skala: Zusätzlich zur Rangfolge spielt auch noch die Gröÿe
des Abstandes zwischen zwei Merkmalsausprägungen eine Rolle.

Beispiele: Temperatur, Einkommen, Alter, Schulnoten, Gewicht, Geschwindigkeit.

Klassierung
Ein stetig verteiltes Merkmal kann durch die Aufteilung der Merkmalsausprägungen in Teil-
intervalle (Klassen) in ein diskretes Merkmal überführt werden (siehe auch Abschnitt I.2.1).

Beispiel:

< 160 cm 180 . . . 189 cm


Körpergröÿe in cm −→ Klassen 160 . . . 169 cm 190 . . . 199 cm
170 . . . 179 cm ≥ 200 cm
I.2 Analyse eindimensionaler Datensätze 7

I.2 Analyse eindimensionaler Datensätze


Die Gesamtheit der Daten aus der statistischen Erhebung bezeichnet man als Urliste. Wird
nur ein Merkmal erhoben, so kann man die erhobenen Merkmalswerte als eindimensionale
Folge aufschreiben (univariate Daten):

x1 , x2 , x3 , . . . , xn .

Auf diese Weise erhält man eine Stichprobe der Länge n. Alternativ spricht man auch von
einer Messreihe, ferner statt von Merkmalswerten auch von Messwerten oder Beobach-
tungen.

Beispiel: Gesamtleistung einer Photovoltaikanlage in einem konkreten Jahr (Monatswerte in


kWh):

130.6 344.7 458.9 721.6 739.0 779.7 910.8 797.3 578.9 298.5 138.1 99.7

I.2.1 Absolute und relative Häugkeiten

Betrachten wir zunächst den Fall, dass es nur endlich viele mögliche Merkmalsausprägungen
gibt, diese seien a1 , a2 , . . . , as . Die Anzahl der Merkmalswerte x1 , . . . xn , die mit aj überein-
stimmen, heiÿt absolute Häugkeit von aj und wird mit nj bezeichnet (j = 1, . . . , s).
Der Anteil
nj
fj := für j = 1, . . . , s
n
des Merkmalswertes aj an der Gesamtzahl n der erhobenen Merkmalswerte heiÿt relative
Häugkeit. An den relativen Häugkeiten kann man insbesondere sofort die Prozentanteile
ablesen.

Oenbar gilt:
s
X s
X
nj = n und fj = 1.
j=1 j=1

Grasche Darstellungen der Häugkeitsverteilung

Die gängigen graschen Darstellungen von Häugkeitsverteilungen sind

• Tabellen,

• Stabdiagramme und Histogramme,

• Kreisdiagramme.

Beispiel: Stimmenverteilung bei der Bundestagswahl 2017.

Das erhobene Merkmal ist in diesem Falle die mit der Zweitstimme gewählte Partei. Eine
Beobachtungseinheit ist ein Stimmzettel. Die Gesamtheit der Merkmalswerte sind die zur Wahl
stehenden Parteien, also SPD, CDU, CSU, usw. Um die Darstellung zu vereinfachen, sind die
weniger häug gewählten Parteien in der Klasse Sonstige zusammengefasst. Die Anzahl n
der Beobachtungseinheiten ist gleich der Anzahl der gültigen Zweitstimmen, in diesem Falle
n = 46 515 492.

Häugkeitstabelle

In der Häugkeitstabelle werden die ermittelten absoluten und/oder relativen Häugkeiten


tabellarisch erfasst.
8 I DESKRIPTIVE STATISTIK

Partei Zweitstimmen (nj ) Anteil in Prozent (fj · 100 %)


CDU 12 447 656 26.76 %
SPD 9 539 381 20.51 %
AfD 5 878 115 12.64 %
FDP 4 999 449 10.75 %
DIE LINKE 4 297 270 9.24 %
GRÜNE 4 158 400 8.94 %
CSU 2 869 688 6.17 %
Sonstige 2 325 533 5.00 %

Stabdiagramm Kreisdiagramm

Bei stetigen oder quasistetigen Merkmalen ist die Aufstellung einer Häugkeitstabelle oder
eines Stabdiagramms sinnlos, denn die meisten Werte sind nur einfach oder gar nicht besetzt.
Wir erklären im folgenden, wie man stetige Merkmale durch Klassierung (Vergröberung) in
diskrete Merkmale überführen kann.

Beispiel: Erreichte Punkte in den Abgaben der Übungen zur Vorlesung Einführung in die
Stochastik (die Matrikelnummern dienen ausschlieÿlich der Illustration):

Matrikelnummer Punkte in Hausübungen

3406435 65.5
3407234 115
3408908 130
3409043 121.5
. .
. .
. .

6373034 0

Ein Ausweg liefert hier die Klassierung, siehe auch Abschnitt I.1. Wähle Intervalle (Klassen)

[z1 ; z2 ), [z2 ; z3 ), [z3 ; z4 ), . . . , [zr ; zr )


I.2 Analyse eindimensionaler Datensätze 9

und zähle die Häugkeit des Auftretens von Beobachtungen in der Klasse. Bei der Wahl der
Anzahl der Klassen ist allerdings zu beachten, dass

• bei zu groÿer Klassenanzahl viele Klassen unbesetzt bleiben,

• bei zu geringer Klassenanzahl Information verloren geht.


Eine populäre Faustregel empehlt, dass die Anzahl der Klassen in etwa n entsprechen
sollte, wobei n die Anzahl der Beobachtungen ist.

In obigem Beispiel: n = 88, wähle 9 Klassen ( 88 ≈ 9.3) der Form

[z1 ; z2 ), [z2 ; z3 ), [z3 ; z4 ), . . . , [z8 ; z9 ), [z9 ; z10 )

mit z1 = 0, z2 = 16, z3 = 32, . . ., z9 = 128, z10 = 144.

Dies ergibt die Häugkeitstabelle:

Punkte [0,16) [16,32) [32,48) [48,64) [64,80) [80,96) [96,112) [112,128) [128,144)
Anzahl 6 1 0 9 5 3 34 20 10

Als Repräsentanten der Klasse [zj ; zj+1 ) wählt man häug die Klassenmitte (zj + zj+1 )/2.

Im Falle klassierter Daten bezeichnet man die Anzahl nj der Beobachtungseinheiten in der
Klasse [zj ; zj+1 ) auch als Klassenhäugkeit oder Besetzungszahl. Den zugehörigen rela-
tiven Anteil
nj
fj :=
n
bezeichnet man als relative Klassenhäugkeit.

Graphische Darstellung klassierter Daten mit Histogrammen.

Zur graschen Darstellung klassierter Daten eignen sich (wieder) Histogramme (vgl. Stab-
diagramme). Die Länge der Klassen [z1 ; z2 ), [z2 ; z3 ), . . . muss nicht notwendig gleich gewählt
werden. Dies muss aber in der Darstellung deutlich werden. Errichte über jedem Teilintervall
[zj ; zj+1 ) ein Rechteck mit der Fläche fj , die Höhe dj des Rechtecks errechnet sich gemäÿ

dj · (zj+1 − zj ) = fj .
10 I DESKRIPTIVE STATISTIK

Beachte: Bei gleicher Klassenbreite ist auch die Höhe der Rechtecke proportional zur
relativen Klassenhäugkeit fj .

I.2.2 Kumulierte Häugkeitsverteilung

Die Funktion
X
H(x) := nj für x∈R
j:aj ≤x

heiÿt absolute kumulierte Häugkeitsverteilung. Sie zählt zu gegebenem x ∈ R die


Anzahl jener Beobachtungswerte, welche kleiner gleich x sind.
Die Funktion
1 X
F (x) := · H(x) = fj für x∈R
n
j:aj ≤x

heiÿt relative kumulierte Häugkeitsverteilung oder empirische Verteilungsfunktion.

Eigenschaften der empirischen Verteilungsfunktion:

• F ist eine monoton wachsende Treppenfunktion;

• 0 ≤ F ≤ 1;

• F besitzt Sprünge an den Merkmalsausprägungen aj .


I.2 Analyse eindimensionaler Datensätze 11

Beispiel: Ein Klausurergebnis könnte wie folgt aussehen:

Note abs. Häuf. (nj ) Anteil (fj · 100 %) kumulierter Anteil


1.0 17 19.3 % 19.3 %
1.3 5 5.7 % 25.0 %
1.7 5 5.7 % 30.7 %
2.0 5 5.7 % 36.4 %
2.3 2 2.3 % 38.6 %
2.7 8 9.1 % 47.7 %
3.0 4 4.6 % 52.2 %
3.3 7 8.0 % 60.2 %
3.7 5 5.7 % 65.9 %
4.0 1 1.1 % 67.0 %
5.0 29 33.0 % 100 %

Empirische Verteilungsfunktion im Beispiel Klausurergebnis:

I.2.3 Lagemaÿe

Im Folgenden bezeichne x1 , . . . , x n stets die Urliste. Falls stattdessen nur klassierte Daten
a1 , . . . , as (Repräsentanten) vorliegen, so bezeichne fj die zu aj gehörige relative Häugkeit.

Modalwert: xMod .

Diejenigen Ausprägungen aj mit der gröÿten Häugkeit werden als Modalwerte bezeich-
net. Die Verwendung des Modalwertes zur Beschreibung von Datensätzen sollte auf den Fall
unimodaler Verteilungen, bei denen es genau einen Modalwert gibt, beschränkt bleiben. Zur
Illustration dienen die folgenden Graken.
12 I DESKRIPTIVE STATISTIK

Median: xMed .
Der Median (oder auch Zentralwert) ist derjenige Wert xMed , für den mindestens 50 % aller
Merkmalswerte kleiner gleich xMed und mindestens 50 % aller Merkmalswerte gröÿer gleich
xMed sind.

Zur Bestimmung des Medians aus der Urliste ordnet man x1 , . . . , xn zunächst der Gröÿe nach
an,
x(1) ≤ x(2) ≤ . . . ≤ x(n) ,
und erhält auf diese Weise die sogannte geordnete Urliste. Trotz möglicher Inkonsistenz
mit der allgemeineren Quantilsdenition in Abschnitt I.2.4, ist es gängige Praxis, den Median
(eindeutig) wie folgt zu denieren:


x n+1 falls n ungerade,
( )
xMed := 1  2  (I.1)
 x( n ) + x( n +1) falls n gerade.
2 2 2

Arithmetisches Mittel (Durchschnittswert)


Der bekannteste Lageparameter ist das arithmetische Mittel

n s
1X X
x := xi = aj fj .
n
i=1 j=1

Beispiel. Preise eines bestimmten Produkts in 20 Geschäften der Gröÿe nach geordnet:

16.94 16.99 16.99 17.04 17.14


17.14 17.29 17.29 17.29 17.39
17.44 17.44 17.49 17.49 17.49
17.49 17.54 17.54 17.59 17.64

In diesem Beispiel ist xMod = 17.49, xMed = 17.415, x = 17.3325. Würde ein einzelnes Geschäft
als besondere Werbemaÿnahme den Preis des Produkts von 17.29 auf 9.99 senken, so würde
dies den Durchschnittswert x von 17.3325 auf 16.9675 senken. Einen Einuss auf den Median
(oder auf den Modalwert) hätte die Senkung dagegen nicht.

Lagemaÿe, die nicht empndlich auf Extremwerte oder Ausreiÿer reagieren heiÿen robust.
Der Median ist also ein robustes Lagemaÿ.

Bemerkung.

(i) Das arithmetische Mittel (oft auch der Median) stimmt i. Allg. nicht mit einer der mög-
lichen Merkmalsausprägungen überein.

Beispiel: Durchschnittliche Anzahl der Kinder pro Familie.

(ii) Äquivarianz unter linearer Transformation: Transformiert man die Daten gemäÿ
einer an linearen Transformation der Form

yi = a + bxi ,
I.2 Analyse eindimensionaler Datensätze 13

so gilt für das arithmetische Mittel

y = a + bx

und ebenso
yMod = a + bxMod , yMed = a + bxMed .
1 Pn
(iii) Optimalitätseigenschaften: Das arithmetische Mittel x = n i=1 xi minimiert die
Summe der quadratischen Abstände, d.h. es gilt

n
X n
X
(xi − x)2 < (xi − r)2 für alle r∈R mit r 6= x .
i=1 i=1

Beweis:
n
X n
X n
X
(xi − r)2 − (xi − x)2 = (xi − r)2 − (xi − x)2

| {z }
i=1 i=1 i=1
−2xi r+r2 +2xi x−x2
= −2nxr + nr + 2nx − nx2
2 2

= n(r − x)2 > 0 für r 6= x .

Auch Median und Modalwert erfüllen ähnliche Optimalitätskriterien.

 Der Median xMed minimiert die Summe der Abstände, d.h. es gilt

n
X n
X
|xi − xMed | ≤ |xi − r| für alle r ∈ R.
i=1 i=1

 Der Modalwert minimiert die Summe


n
(
X 1 falls xi 6= r,
1{xi 6=r} mit 1{xi 6=r} =
i=1
0 falls xi = r .

Weitere Lagemaÿe

Annahme: x1 , . . . , xn > 0.
Geometrisches Mittel: x̄geom .

1
x̄geom := (x1 · · · xn ) n

Findet Verwendung im Zusammenhang mit Wachstums- und Zinsmodellen. Sind etwa x1 , . . . , x n


die beobachteten Wachstumsfaktoren eines Portfolios mit Anfangsbestand K0 , so ist

Kn = K0 · x1 · · · xn

der Bestand am Ende der Periode n. Schreibt man


 n
1
Kn = K0 (x1 · · · xn ) n  = K0 · x̄ngeom ,

| {z }
=x̄geom

so lässt sich x̄geom als mittlerer Wachstumsfaktor über die n Perioden 1, . . . , n interpre-
tieren.
Beispiel: Die Zinsen auf Tagesgelder in den Jahren n = 1, 2, 3 betragen 1.1%, 1.4% und 0.8%.
1.1 1.4 0.8
Das eingesetzte Anfangskapital K0 wird dann zu K3 = K0 (1 + 100 )(1 + 100 )(1 + 100 ), somit
ist hier x̄geom ≈ 1.011.
14 I DESKRIPTIVE STATISTIK

Beziehung zum arithmetischen Mittel:

Logarithmiert man die Messwerte yi := ln xi , so folgt

n n
1 1X 1X
ln x̄geom = ln(x1 · · · xn ) = ln xi = yi ,
n n n
i=1 i=1

d. h., ln x̄geom stimmt mit dem arithmetischen Mittel der logarithmierten Messwerte yi = ln xi
überein.

Harmonisches Mittel: x̄harm .

1
x̄harm := 1 Pn 1
n i=1 xi

Typische Anwendung: Mittelung von Verhältniszahlen a/b.


Beziehen sich Gewichtungen bzw. Häugkeiten auf Zählergröÿe a ⇒ harmonisches Mittel.
Beziehen sich Gewichtungen bzw. Häugkeiten auf Nennergröÿe b ⇒ arithmetisches Mittel.

Beispiel. Der ICE von Frankfurt nach Berlin fährt

• 150 km mit durchschnittlich 100 km pro Stunde,

• 450 km mit durchschnittlich 200 km pro Stunde.

Es sei xi die Durchschnittsgeschwindigkeit bei Kilometer i, i = 1, . . . , 600. Dann beträgt die


Durchschnittsgeschwindigkeit über die gesamte Strecke
 
1 km
1 150 450
 = 160 .
+ h
600 100 200

I.2.4 Quantile und Box-Plots

Lagemaÿe alleine reichen zur Beschreibung der Daten einer Urliste nicht aus. Vergleicht man
etwa eine Einkommenserhebung in zwei Ländern, so können die Durchschnittseinkommen
gleich sein, jedoch in einem Land gröÿere Einkommensunterschiede bestehen als im anderen
Land. Daher benötigt man zusätzliche Kennzahlen, um die Lage der Daten möglichst ezient
erfassen zu können. Eine wichtige Methode sind Box-Plots, die mit Hilfe von Quantilen
deniert werden.

Denition. Es sei x(1) ≤ x(2) ≤ . . . ≤ x(n) eine geordnete Urliste und q ∈ (0; 1]. Jeder Wert
xq mit der Eigenschaft
1
( Anzahl der Messwerte ≤ xq ) ≥ q
n
und
1
( Anzahl der Messwerte ≥ xq ) ≥ 1 − q.
n
heiÿt q -Quantil (genauer: empirisches q -Quantil).
Damit folgt
xq = x(bnqc+1) falls nq nicht ganzzahlig,

xq ∈ [x(nq) ; x(nq+1) ] falls nq ganzahlig.

Der gemäÿ Abschnitt I.2.3 denierte Median xMed ist also ein 0.5-Quantil.

Spezialfälle: Das untere Quartil ist deniert durch:


(
x falls n · 0.25 nicht ganzzahlig,
x0.25 := 1 (bn·0.25c+1) 
2 x(n·0.25) + x(n·0.25+1) falls n · 0.25 ganzahlig,
I.2 Analyse eindimensionaler Datensätze 15

und analog für das obere Quartil x0.75 . Dies sind spezielle Quantile zu q = 0.25 bzw. q = 0.75.
Die Distanz dQ = x0.75 − x0.25 heiÿt Quartilsabstand (engl.: inter quartile range, IQR). Der
Quartilsabstand beschreibt die Breite der mittleren 50 % und ist somit ein Streuungsmaÿ
(siehe Abschnitt I.2.5).

Aufbau eines zugehörigen Box-Plots:

xmax
x0.75
6
dQ xMed
?x0.25

s
s
xmin

Die Länge der Linien (engl. whiskers, Barthaare) ober- bzw. unterhalb der Box können
variieren. Eine gängige Variante (vgl. Abbildung) besteht darin, die untere von

max{x0.25 − 1.5 ∗ dQ , xmin } bis x0.25


und die obere von
x0.75 bis min{x0.75 + 1.5 ∗ dQ , xmax }
zu führen. Messwerte, die darunter bzw. darüber liegen, werden als potentielle Ausreiÿer durch
einzelne Punkte explizit kenntlich gemacht.

I.2.5 Streuungsmaÿe

Neben der absoluten Lage der Messdaten ist auch ihre Streuung von groÿer Bedeutung. Ein
sehr leicht interpretierbares Streuungsmaÿ ist der Quartilsabstand, siehe Abschnitt I.2.4.

Die bekannteste Maÿzahl für die Streuung einer Messreihe ist aber die empirische Varianz
(oder auch mittlere quadratische Abweichung von x̄):
n s
2 1 X
2
X
s := (xi − x) = (aj − x)2 fj . (I.2)
n
i=1 j=1
16 I DESKRIPTIVE STATISTIK

Sie ist also deniert als das arithmetische Mittel der quadratischen Abstände der einzelnen
Messwerte zu ihrem Mittelwert. Die Wurzel hieraus
v
u n
u1 X
s=t (xi − x)2
n
i=1

heiÿt Standardabweichung.

Der Zusammenhang zwischen der Standardabweichung s und der Streuung der Messwerte
kann folgendermaÿen präzisiert werden:

k ≥ 1 liegen mindestens 100 · 1 − k12 Prozent der



Für Messwerte x1 , . . . , x n im Intervall
[x̄ − k · s; x̄ + k · s] ( k -σ -Bereich). Insbesondere gilt:
Im Intervall
√ √
- [x − 2s; x + 2s] liegen mindestens 50 % der Daten,

- [x − 2s; x + 2s] liegen mindestens 75 % der Daten,

- [x − 3s; x + 3s] liegen mindestens 88 % der Daten.

Begründung der Abschätzung: Diese beruht auf der empirischen Variante der Unglei-
chung von Tschebyschow, wie wir sie in Abschnitt II.3.3 behandeln werden.

Die obige Abschätzung ist allgemeingültig und daher in vielen Fällen relativ ungenau.

Zur Erinnerung: Mit Hilfe von Quartilen und Quartilsabstand, siehe Abschnitt I.2.4,
kann man stets eine exakte Aussage treen:

Im Intervall [x0.25 ; x0.75 ] liegen 50 % der Daten, seine Breite ist dQ = x0.75 − x0.25 .

Bemerkung

In der induktiven Statistik verwendet man statt (I.2) die modizierte Form

n
1 X
s2 = (xi − x)2 .
n−1
i=1

Sie heiÿt Stichprobenvarianz und ist in vielen Statistikprogrammpaketen voreingestellt. Für


groÿen Stichprobenumfang n ist der Unterschied zwischen den beiden Normalisierungsfaktoren
1 1 1 1
n und n−1 vernachlässigbar. Die Normierung mit n−1 statt mit n liegt darin begründet, dass
die Stichprobenvarianz ein sog. erwartungstreuer Schätzer für die wahre Varianz ist, siehe
Abschnitt III.1.1.

Eigenschaften der empirischen Varianz

(i) Transformationsregel: Werden die Daten gemäÿ

yi = a + bxi
1 Pn
linear transformiert, so folgt für die empirische Varianz s2y = n
2
i=1 (y1 − y) der trans-
formierten Daten
s2y = b2 s2x .

Beweis:
n n
1X 1X
s2y = (yi − y)2 = b2 (xi − x)2 .
n | {z } n
i=1 i=1
(a+bxi )−(a+bx)

Insbesondere folgt für die Standardabweichungen:

sy = |b| sx .
I.2 Analyse eindimensionaler Datensätze 17

(ii) Verschiebungssatz:
n
!
1 X
s2 = x2i − x2 ,
n
i=1

denn

n n n n
2 1X 1X 2 1X 1X 2
s = (xi − x)2 = xi − 2 xi x + x2 = xi − x2 .
n | {z } n n n
i=1 i=1 i=1 i=1
=x2i −2xi x+x2

I.2.6 Konzentration von Häugkeitsverteilungen

Als Ausgangspunkt betrachten wir folgende aus [1] entnommene Statistik zu monatlichen
Umsätzen der Möbelbranche in 1000 Euro in den drei Städten G, M und V:

Einrichtungshäuser G M V
1 40 180 60
2 40 5 50
3 40 5 40
4 40 5 30
5 40 5 20

In der Stadt G ist der Umsatz unter den 5 Möbelhäusern völlig ausgeglichen, man spricht von
einer Gleichverteilung. Dagegen besitzt in der Stadt M das Möbelhaus 1 quasi eine Mo-
nopolstellung (perfekte Konzentration läge vor, wenn die Konkurrenten keinerlei Umsatz
erwirtschaften würden). Zur Quantizierung solcher Konzentrationen gibt es Konzentrations-
maÿe. Zur Diskussion solcher Maÿe betrachten wir folgende Ausgangsposition:

Gegeben sei ein kardinalskaliertes Merkmal mit nichtnegativen Merkmalsausprägungen. Wei-


terhin sei x(1) ≤ x(2) ≤ .P
. . ≤ x(n) eine bereits geordnete Stichprobe der Länge n mit positiver
Merkmalssumme x• := ni=1 x(i) > 0.
Lorenzkurve

Es sei Pk
i=1 x(i)
vk := , k = 0, 1, 2, . . . , n,
x•
der Anteil der k kleinsten Merkmalsträger an der gesamten Merkmalssumme. Trägt man die
Punkte  
k
, vk , k = 0, 1, 2, . . . , n,
n
in das Einheitsquadrat ein und verbindet sie durch einen Streckenzug, so erhält man die
zugehörige Lorenzkurve.

In obigem Beispiel erhält man:

Stadt G Stadt M Stadt V


k vk vk vk
1 0.2 0.025 0.10
2 0.4 0.050 0.25
3 0.6 0.075 0.45
4 0.8 0.100 0.70
5 1.0 1.0 1.0
18 I DESKRIPTIVE STATISTIK

Man erhält als zugehörige Lorenzkurven:

6 6 6
− s − s − s

− s −  −
 s
− s −  − 

s

− s −  − 
s

− s − −
(s((s

s

s
s (s|( |

s s
(( 
| | | | | - ( | | | -  | | | | | -

Stadt G Stadt M Stadt V

Eigenschaften der Lorenzkurve:

• Die Lorenzkurve ist immer monoton wachsend und konvex (d.h. nach unten gewölbt).

• Die Stärke der Wölbung, also ihre Abweichung von der Winkelhalbierenden, ist ein
Maÿ für Konzentration. Verläuft die Kurve auf der Winkelhalbierenden, so liegt ein
ausgewogener Markt (Gleichverteilung) vor.

Der Gini-Koezient G ist deniert durch

Fläche zwischen Diagonale und Lorenzkurve


G=
Fläche zwischen Diagonale und horizontaler Achse

=2· Fläche zwischen Diagonale und Lorenzkurve.

Für die Berechnung des Gini-Koezienten gilt die folgende Formel:


Pn
2 i=1 ix(i) n+1
G= − ∈ [0; 1 − n1 ].
n x• n
G=0 entspricht dem ausgewogenen Markt, und je stärker G von 0 abweicht, desto höher ist
1
die Konzentration. Perfekte Konzentration ergibt G=1− n.
Beweis
6

 s
 #
s
 #
s
 
 -
I1 I2 I3 I4

Die Fläche unter der Lorenzkurve im Intervall Ii beträgt gerade

1 1
Ii = vi−1 + (vi − vi−1 ).
n 2n
Also summiert sich die Gesamtäche unter der Lorenzkurve zu

n n n−1
1X 1 X 1X 1
vi−1 + (vi − vi−1 ) = vi + .
n 2n n 2n
i=1 i=1 i=1
| {z }
=vn −v0 =1
I.2 Analyse eindimensionaler Datensätze 19

Beachtet man noch, dass

n−1 n−1 i
!
1X 1 1 XX
vi = Pn x(k)
n n j=1 x(j)
i=1 i=1 k=1
n Pn
1 1 X 1 k=1 kx(k)
= Pn (n − k)x(k) = 1 − Pn ,
n j=1 x(j) n j=1 x(j)
k=1

so erhält man nach Einsetzen in die obere Gleichung:

Pn !! Pn
1 1 j=1 jx(j) 1 2 j=1 jx(j) n + 1
G=2 − 1 − Pn + = Pn − .
2 n j=1 x(j) 2n n j=1 x(j) n

Beispiel: In obigem Beispiel erhält man die Werte 0, 0.7 und 0.2 für die Gini-Koezienten
der Städte G, M und V.
20 I DESKRIPTIVE STATISTIK

I.3 Analyse zwei- und mehrdimensionaler Datensätze


Zweidimensionale Datensätze

Werden bei einer Erhebung zwei Merkmale zugleich erhoben, so besteht die Urliste aus Wer-
tepaaren (bivariate Daten)

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).

Typische Fragestellungen im Zusammenhang zweier Merkmale sind die nach Abhängigkei-


ten/Unabhängigkeiten zwischen den beiden erhobenen Merkmalen. Zur Darstellung der zwei-
dimensionalen Daten gibt es zunächst zwei Möglichkeiten:

• Kontingenztabelle: geeignet für nominalskalierte Merkmale, siehe Abschnitt I.3.1,

• Streuungsdiagramm: geeignet für kardinalskalierte Merkmale, siehe Abschnitt I.3.3.

Ausblick auf mehrdimensionale Datensätze

Bei einer statistischen Erhebung von mindestens zwei Merkmalen zugleich entstehen als Urliste
Tupel (d.h. geordnete Mengen) von Messwerten (multivariate Daten)

(x11 , . . . , x1m ) , (x21 , . . . , x2m ) , . . . (xn1 , . . . , xnm ) ,

die man in einer Datenmatrix zusammenfasst:


 
x11 . . . x1m
 x21 . . . x2m 
. .
 
 .. . 
 . .
xn1 . . . xnm

Die grasche Darstellung der Urliste als Streuungsdiagramm ist für m ≥ 4 nicht mehr möglich.
Zur Aufklärung von Abhängigkeiten zwischen den erhobenen Merkmalen könnte man zwar für
jedes Paar von Merkmalen das zweidimensionale Streuungsdiagramm bzw. die zweidimensio-
nale Kontingenztabelle aufstellen. Da aber die Anzahl der Merkmalspaare mit der Anzahl m
der erhobenen Merkmale sehr schnell anwächst, ist dieser Ansatz sehr aufwändig. Ezientere
Methoden sind Gegenstand weiterführender Veranstaltungen in der Statistik.

I.3.1 Kontingenztabelle

Bei diesem Verfahren werden die absoluten Häugkeiten der möglichen Paare von Ausprägun-
gen der Merkmale 1 und 2 tabellarisch aufgelistet:

Ausprägungen von Merkmal 2:


b1 ... bJ
Ausprägungen von Merkmal 1: a1 n11 ... n1J
. . .
. . .
. . .
aI nI1 ... nIJ
Hierbei steht nij für die absolute Häugkeit des Wertepaares (ai , bj ).
I.3 Analyse zwei- und mehrdimensionaler Datensätze 21

Beispiel. Wir unter suchen die Abhängigkeiten zwischen dem Ergebnis in der Klausur Einfüh-
rung in die Stochastik (Merkmal 1) und den Gesamtpunkten in den Hausübungen (Merkmal
2). Hier eine Andeutung des Datensatzes (Matrikelnummern ausschlieÿlich zur Illustration):

Matrikelnummer Note Punkte in Hausübungen


3406435 2.7 65.5
3407234 1.0 115
3408908 1.3 130
3409043 1.0 121.5
. .
. .
. .
6373034 1.3 0

Zuerst vergröbern (klassieren) wir den Datensatz. Merkmal 1 wird reduziert auf die Ausprä-
gungen 1, 2, . . . , 5 (gerundete Noten); Merkmal 2 wird reduziert auf die Ausprägungen fast
nichts (Punkte zwischen 0 und 20), aufgegeben (Punkte zwischen 20 und 100), Bonus
erreicht (Punkte zwischen 100 und 120) und Streber (mehr als 120 Punkte).
Damit erhalten wir folgende Kontingenztabelle:

Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 3 8 11
Note 2 0 2 7 3
Note 3 1 1 15 2
Note 4 0 2 4 0
Note 5 5 11 11 2

Die Einträge in der Kontigenztabelle heiÿen gemeinsame Häugkeiten. Statt der absoluten
Häugkeiten lassen sich hier natürlich auch die relativen Häugkeiten betrachten:

nij
fij = .
n
Fragt man nach der absoluten Häugkeit einer Merkmalsausprägung ai (bzw. bj ), so hat man
die gemeinsamen Häugkeiten nij der entsprechenden Zeile (bzw. der entsprechenden Spalte)
aufzusummieren:
J
X I
X
ni• := nij n•j := nij
j=1 i=1

Diese Häugkeiten werden auch als Randhäugkeiten bezeichnet. Die Summe der Rand-
häugkeiten wiederum ist jeweils gleich der Gröÿe des Datensatzes, n.

In obigem Beispiel:

Punkte in Hausübungen
P
fast nichts aufgeben Bonus Streber
Note 1 0 3 8 11 22
Note 2 0 2 7 3 12
Note 3 1 1 15 2 19
Note 4 0 2 4 0 6
Note 5 5 11 11 2 29
P
6 19 45 18 88

Um nun die beiden Merkmale auf Abhängigkeit/Unabhängigkeit hin zu untersuchen, bildet


man die bedingten relativen Häugkeiten (vgl. auch Abschnitt II.1.5)
nij
f1 (ai |bj ) := der Ausprägung ai gegeben die Ausprägung bj
n•j
22 I DESKRIPTIVE STATISTIK

und
nij
f2 (bj |ai ) = der Ausprägung bj gegeben die Ausprägung ai .
ni•

Die bedingte relative Häugkeit f1 (ai |bj ) gibt also die relative Häugkeit der Ausprägung ai
an unter allen Merkmalsträgern, die bzgl. des anderen Merkmals die Ausprägung bj besitzen.
In obigem Beispiel:
Wir betrachten die bedingten relativen Häugkeiten, bedingt auf Note (f1 (., .)):

Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 0.136 0.364 0.500
Note 2 0 0.167 0.583 0.250
Note 3 0.053 0.053 0.789 0.105
Note 4 0 0.333 0.667 0
Note 5 0.172 0.379 0.379 0.069

Man beachte, dass hierbei die Spaltensummen gleich eins sind. Umgekehrt erhält man auch
die bedingten relative Häugkeiten, bedingt auf Punkte in den Hausübungen (f2 (., .)):

Punkte in Hausübungen
fast nichts aufgeben Bonus Streber
Note 1 0 0.158 0.178 0.611
Note 2 0 0.105 0.155 0.167
Note 3 0.167 0.053 0.333 0.111
Note 4 0 0.105 0.089 0
Note 5 0.833 0.579 0.244 0.111

Hierbei addieren sich also die Zeileneinträge zu eins.

Sind die bedingten relativen Häugkeiten

f1 (a1 |bj ), f1 (a2 |bj ), . . . , f1 (aI |bj )

der Ausprägung a1 , . . . , aI des ersten Merkmals unabhängig von bj (also gleich für j =
1, . . . , J ), so beeinussen sich die Merkmale nicht und man sagt, dass sie unabhängig sind.

Dieser Fall tritt genau dann ein, wenn auch die umgekehrten bedingten relativen Häugkeiten

f2 (b1 |ai ), f2 (b2 |ai ), . . . , f2 (bJ |ai )

unabhängig sind von ai für i = 1, . . . , I , vgl. auch Abschnitt II.1.6.

Im Falle der Unabhängigkeit gilt insbesondere

f1 (ai |bj1 ) = f1 (ai |bj2 )

und damit
nij1 · n•j2 = nij2 · n•j1 .
Summation über j1 = 1, . . . , J ergibt

ni• · n•j2 = nij2 · n,

also
ni• · n•j2
nij2 =
n
und somit  da j2 beliebig (siehe auch die analoge Formel (II.11)):
I.3 Analyse zwei- und mehrdimensionaler Datensätze 23

ni• · n•j
nij = . (I.3)
n
Die gemeinsamen Häugkeiten sind in diesem Falle über (I.3) also bereits durch die Rand-
häugkeiten bestimmt.

Für die bedingten relativen Häugkeiten folgt hieraus insbesondere

nij ni• nij n•j


f1 (ai |bj ) = = bzw. f2 (bj |ai ) = = ,
n•j n ni• n

sie sind also unabhängig von der Ausprägung des jeweils anderen Merkmals.

I.3.2 Der Kontingenzkoezient

Um die Abhängigkeit zwischen zwei Merkmalen 1 und 2 quantitativ erfassen zu können, bildet
man die folgende, als Chi-Quadrat Koezient bezeichnete Gröÿe:

I X
J
2
X (nij − ñij )2
χ = .
ñij
i=1 j=1

ni• n•j
Hierbei ist ñij = n .

χ2 ist genau dann 0, wenn die Merkmale unabhängig sind, also wennnij = ñij für alle i, j gilt.
χ2 -Koezient, umso stärker spricht dies für die Unabhängigkeit der beiden
Je kleiner also der
2
Merkmale. Allerdings hängt die Gröÿenordnung des χ -Koezienten von der Dimension der
2
Kontingenztafel ab. Daher geht man vom χ -Koezienten über zum Kontingenzkoezien-
ten s
χ2
K= .
n + χ2

Der Kontingenzkoezient K nimmt Werte an zwischen 0 und

r
M −1
Kmax = , wobei M = min{I, J} .
M

Durch Normierung mit Kmax erhält man hieraus schlieÿlich den normierten Kontingenz-
koezienten
K
K∗ = ∈ [0; 1].
Kmax

Beispiel. Im obigen Beispiel der Merkmale Klausurnote und Punkte in den Hausübungen
erhält man χ2 = 34.0 und mit n = 88 berechnet man K = 0.5278; und da I = 5 und J = 4
erhält man M = 4 und berechnet K∗ = 0.6094. Dies spricht für eine gewisse Abhängigkeit der
beiden Merkmale.

I.3.3 Streuungsdiagramm und Korrelation

Bei kardinalskalierten Merkmalen kann man die Wertepaare

(x1 , y1 ), . . . , (xn , yn )

der Urliste als Punkte der Ebene auassen und somit ein zugehöriges Streuungsdiagramm
(auch: Scatterplot) erstellen:
24 I DESKRIPTIVE STATISTIK

6
4
2
y

0
−2
−4

2 4 6 8 10

Beispiel.

In einem Krankenhaus wurden von 5 Neugeborenen Körperlänge (Merkmal 1) und Kopfumfang


(Merkmal 2), jeweils in cm, gemessen. Es ergab sich folgende nach Köperlänge geordnete
Messreihe:

(48.6, 35.1), (49.5, 34.1), (50.7, 36.8), (51.1, 35.7), (52.4, 37.4)

Zu den jeweiligen Messwerten bildet man zunächst die beiden Mittelwerte

n n
1X 1X
x= xi , y= yi .
n n
i=1 i=1

1 1
Im Beispiel: x= 5 252.3 = 50.46, y= 5 179.1 = 35.82.
Liegt bei einem Wertepaar (xi , yi ) der erste Wert um den Durchschnitt xi ∼ x, aber der
zweite Wert yi deutlich über oder unter dem Durchschnitt y, so spricht dies eher für die
Unkorreliertheit der beiden Merkmale Körperlänge und Kopfumfang. Liegen jedoch bei diesem
Wertepaar bei beiden Merkmalen deutliche Abweichungen vom Durchschnitt vor, so spricht
dies für Korrelation. Folglich liefert das Produkt

(xi − x)(yi − y)

einen brauchbaren Ansatz für ein Korrelationsmaÿ.

Aufsummieren über die gesamte Stichprobe und Normierung ergibt die empirische Kovari-
anz
n n
1X 1X
sxy = (xi − x)(yi − y) = . . . = xi yi − x y.
n n
i=1 i=1

Nach Normierung mit den jeweiligen Standardabweichungen

n
!1 n
!1
2 2
1X 1X
sx = (xi − x)2 und sy = (yi − y)2
n n
i=1 i=1

erhält man den empirischen Korrelationskoezienten


Pn
sxy (xi − x)(yi − y)
rxy = = pPn i=1 Pn .
sx sy i=1 (xi − x)
2
i=1 (yi − y)
2

Im Beispiel: sxy ≈ 1.24, s2x ≈ 1.72, s2y ≈ 1.39, rxy ≈ 0.80.


I.3 Analyse zwei- und mehrdimensionaler Datensätze 25

Eigenschaften:

• −1 ≤ rxy ≤ 1.

• rxy = −1 (bzw. rxy = +1) genau dann wenn die Wertepaare (xi , yi ) auf einer Geraden
mit negativer (bzw. positiver) Steigung liegen.

• rxy = 0 spricht für die Unkorreliertheit der beiden Merkmale. In diesem Falle sind die
Wertepaare (xi , yi ) oft regellos verteilt.

• Die Merkmale 1 und 2 heiÿen

 positiv korreliert, falls rxy > 0;


 negativ korreliert, falls rxy < 0.

rxy = 0.9461 rxy = −0.1336 rxy = −0.9999

0.0
4
2.0

−0.5
2
1.5

−1.0
0

−1.5
y

y
1.0

−2

−2.0
−4
0.5

−2.5
−6

−3.0
0.0

0 2 4 6 8 10 0 2 4 6 8 0 2 4 6 8 10

x x x

• Eine rechentechnisch günstigere Darstellung für den Korrelationskoezienten ist


Pn
i=1 xi yi − n x y
rxy = q P .
( ni=1 x2i − nx2 )( ni=1 yi2 − ny 2 )
P

Später in Abschnitt III.2.6 werden wir uns u. a. mit statistischen Testverfahren basierend
auf rxy befassen.

I.3.4 Lineare Regression

Liegen die Wertepaare der n Beobachtungen (xi , yi ) annähernd auf einer Geraden, so kann
man von einem linearen Zusammenhang der Form

y = a + bx (I.4)

sprechen. Die Koezienten a und b wählt man dabei so, dass sich die zugehörige Gerade der
gegebenen Punktwolke am besten anpasst. Beste Anpassung bedeutet dabei, dass die Summe
der quadratischen Abstände

n
X
Q(a, b) = [yi − (a + bxi )]2 ,
i=1

zwischen Messwert yi und entsprechendem Punkt a + bxi auf der Geraden y = a + bx minimal
wird. (Prinzip der kleinsten Quadrate nach C.F. Gauÿ).

Diejenige Gerade, die sich der Punktwolke dabei am besten anpasst, heiÿt Ausgleichsgerade
oder Regressionsgerade. Ihre Koezienten sind bestimmt durch
sxy
b̂ = , â = ȳ − b̂x̄ . (I.5)
s2x
26 I DESKRIPTIVE STATISTIK

Beispiel. In obigem Beispiel ist

sxy = 51 (9043.6 − 9037.386) ≈ 1.24

und damit rxy ≈ 0.80 (d. h. Körpergröÿe und Kopfumfang sind (erwartungsgemäÿ) stark po-
sitiv korreliert). Die Koezienten der zugehörigen Regressionsgeraden sind gegeben durch

b̂ ≈ 0.72 und â ≈ −0.59.

Also hat die angepasste Regressionsgerade die Form

ŷ = −0.59 + 0.72x .

Mit Hilfe der Regressionsgeraden können wir nun zum Beispiel einen Vorhersagewert (Pro-
gnose) für den Kopfumfang eines Neugeborenen bei einer Körperlänge von 50 cm bestimmen:
ŷ(50) = 35.49.

Zu gegebenem Wertepaar (xi , yi ) heiÿt die Dierenz

ui := yi − ŷi = yi − (â + b̂xi )

zwischen beobachtetem Wert yi und dem durch die Regressionsgerade erklärten Ausgleichswert
ŷi = â + b̂xi das Residuum. Die Summe der quadratischen Residuen

n
X n
X
2
(yi − ŷi ) = u2i
i=1 i=1

ist ein Maÿ für die Güte der Approximation der Punktewolke des Streuungsdiagramms durch
die Regressionsgerade. Den Quotienten

Pn
(yˆi − ȳ)2
Pn
u2
R2 = Pi=1
n 2 = 1 − 2
Pn i=1 i 2 = rxy ∈ [0; 1] (I.6)
i=1 (yi − ȳ) i=1 (yi − ȳ)

bezeichnet man als Bestimmtheitsmaÿ. Er ist eine dimensionslose Gröÿe für die Güte der
Approximation, die mit dem Quadrat des Korrelationskoezienten übereinstimmt: Je näher
R2 an 1 liegt, desto besser die Approximation.

Die Gleichheit (I.6) ergibt sich unter Beachtung von

n
X n 
X  2 n
X
2
(ŷi − ȳ) = â + b̂xi − â + b̂x̄ = b̂ 2
(xi − x̄)2 = nb̂2 s2x
i=1 i−1 i=1

wegen
Pn 2
− ȳ)2 b̂2 s2x

2 (ŷi sxy 2
R = Pi=1
n = = = rxy .
i=1 (yi − ȳ)2 s2y sx · sy

Zur Optimalität der Regressionsgeraden:

Satz. Es sei s2x 6= 0 und â, b̂ wie in (I.5). Dann gilt:

Q(a, b) > Q(â, b̂) für alle (a, b) 6= (â, b̂) .

Beweis:
n
X
Q(a, b) = [yi − (a + bxi )]2
i=1
I.3 Analyse zwei- und mehrdimensionaler Datensätze 27

ist ein Polynom vom Grad 2 mit Gradient

 
∂ ∂
grad Q(a, b) = Q(a, b), Q(a, b)
∂a ∂b
n n
!
X X
= −2 [yi − (a + bxi )], xi [yi − (a + bxi )]
i=1 i=1

und Hesse-Matrix
" #
∂2 ∂2
 
∂a22
Q(a, b) ∂a∂b Q(a, b) n P nx
HQ (a, b) = ∂ ∂2 =2 n 2 .
∂a∂b Q(a, b) Q(a, b) nx i=1 xi
∂b2

Also
n
!
X
det HQ (a, b) =4 n x2i 2 2
− n x̄ = 4n2 s2x > 0 ,
i=1

damit ist HQ positiv denit und somit Q gleichmäÿig strikt konvex.

Folglich besitzt Q genau ein eindeutig bestimmtes Minimum, und dieses wird an der Null-
stelle (bzw. der kritischen Stelle) des Gradienten angenommen:

∂ ∂
grad Q(a, b) = (0, 0) ⇔ Q(a, b) = 0 und Q(a, b) = 0
∂a ∂b
⇔ y = a + bx und
Xn Xn
0= xi (yi − (a + bxi )) = xi (yi − bxi − (y − bx))
i=1 i=1
n
X n
X
= xi yi − b x2i − n x y + n b x2
i=1 i=1
⇔ a = y − bx und
Pn
xi yi − n x y sxy
b = Pi=1n 2 2 = 2 .
i=1 xi − n x sx

I.3.5 Nichtlineare Regression

Bei vielen zweidimensionalen Messreihen ist von vorneherein klar, dass kein linearer Zusam-
menhang zwischen den beobachteten Messwerten erwartet werden kann, sondern ein funktio-
naler Zusammenhang der Form
y = f (x)
für eine geeignete nichtlineare Funktion f, z.B.

y = aebx für b ∈ R, a > 0.

Gesucht sind wieder diejenigen Parameter a und b, für die sich der zugehörige Funktionsgraph
der gegebenen Punktwolke am besten anpasst. Manchmal kann man durch geeignete Trans-
formation der Daten das Problem auf einen linearen Zusammenhang zurückführen, wie etwa
im Beispiel y = aebx via
ln y = ln a + bx,
und zu bestimmen ist dann die Regressionsgerade zu den transformierten Beobachtungswerten

(x1 , ln y1 ), (x2 , ln y2 ), . . . , (xn , ln yn ) .


28 I DESKRIPTIVE STATISTIK

Beispiel (sinngemäÿ entnommen aus [1]).


Gegeben seien folgende Tabelle mit eingesetzter Geldmenge xi und erzieltem Ertrag yi (in ge-
eigneten Einheiten) für sechs Werbemaÿnahmen zur Ermittlung der Auswirkung von Werbe-
maÿnahmen auf den Produktertrag. Hierbei werden die xi als zentriert angenommen (x̄ = 0).
i 1 2 3 4 5 6
xi - 5 - 3 - 1 1 3 5
yi 127 151 379 421 460 426

Nach dem Prinzip vom abnehmenden Grenznutzen sollte eine funktionale Abhängigkeit zwi-
schen den beiden Merkmalen durch einen konkaven Funktionsverlauf beschrieben werden, was
auf den Ansatz
y = f (x|a, b, c) = a + be−cx für a, b ∈ R , c > 0
führt, mit zu schätzenden Parametern a, b und c. Der Parameter a steht dabei für den (asymp-
totisch für x → ∞ maximal zu erzielenden) Grenzertrag, b für die Dierenz zwischen Durch-
schnittsertrag y(0) und Grenzertrag, und c für die exponentielle Rate der Ertragsminderung.

Gemäÿ dem Prinzip der kleinsten Quadrate werden die zu schätzenden Parameter für die
Regressionskurve durch Minimierung von

n
X
Q(a, b, c) := (yi − f (xi | a, b, c))2
i=1

ermittelt. Im Unterschied zum Fall der linearen Regression ist in diesem Falle keine explizite
Berechnung des Minimums von Q möglich. Man verwendet stattdessen numerische Verfahren
zur approximativen Bestimmung des Minimums, die in Statistiksoftwarepaketen enthalten
sind. In obigem Beispiel ergibt sich als approximatives Minimum â = 523.3, b̂ = −156.9 und
ĉ = 0.1997.
500
400
300
200
100
0

−6 −4 −2 0 2 4 6
29

II Wahrscheinlichkeitsrechnung
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume
II.1.1 Zufällige Ereignisse

Unter einem Zufallsexperiment versteht man zunächst einmal einen zeitlich wie örtlich fest
umrissenen Vorgang mit unbestimmtem Ausgang.

Beispiele:

• Werfen eines Würfels oder Werfen einer Münze;

• Wahlergebnis der nächsten Landtagswahl;

• Temperatur oder Windgeschwindigkeit am Luisenplatz an xiertem Tag/Uhrzeit;

• Körpergröÿe oder Kopfumfang eines Neugeborenen.

Die Gesamtheit aller möglichen Ausgänge eines Zufallsexperiments heiÿt Ergebnismenge


(oder auch Stichprobenraum) und wird mit Ω bezeichnet.
Ein einzelnes Element ω ∈Ω heiÿt Elementarereignis (oder auch Stichprobe). Es stellt
einen möglichen Ausgang des zugrundeliegenden Zufallsexperiments dar.

Beispiele:

(i) Einmaliges Würfeln: Ω = {1, 2, . . . , 6}, |Ω| = 6.


(Nebenbemerkung: Hierbei bezeichnet |Ω| die Mächtigkeit der Menge Ω, also die Anzahl
der Elemente in Ω.)

(ii) Zweimaliges Würfeln:

Ω = {(i, j) | i, j ∈ {1, . . . , 6}} = {1, 2, . . . , 6} × {1, 2, . . . , 6} = {1, 2, . . . , 6}2 ,

also |Ω| = 36.

(iii) Münzwurf: Ω = {Kopf , Zahl }.

(iv) Autos am Darmstädter Kreuz in vorgegebener Zeitspanne: Ω = {0, 1, 2, 3, . . .} = N0 .

(v) Temperatur in Grad Celsius am Luisenplatz zu vorgegebenem Tag/Uhrzeit: Ω = [−273.15; ∞)


oder realistischer [−20; 40] (0◦ C = 273.15◦ K).

In den ersten vier Fällen sind die Ergebnisräume endlich oder abzählbar unendlich. Solche
Ergebnisräume nennt man auch diskret. Im fünften Fall ist der Ergebnisraum nicht mehr
abzählbar, sondern eine kontinuierliche Menge.
Die Wahrscheinlichkeitstheorie zu kontinuierlichen Ergebnisräumen ist mathematisch anspruchs-
voller als die zu diskreten Ergebnisräumen. Daher betrachten wir zunächst nur diskrete
Ergebnisräume Ω.

Ereignisse

Teilmengen A ⊂ Ω von Ω heiÿen Ereignisse. Die Gesamtheit aller Ereignisse ist somit nichts
weiter als P(Ω), also die Potenzmenge von Ω. Unter der Potenzmenge von Ω versteht man
die Gesamtheit aller Teilmengen von Ω einschlieÿlich der leeren Menge ∅ und der Menge Ω
selber.
Beachten Sie: Ereignisse sind Elemente der Potenzmenge P(Ω) von Ω, also Teilmengen von
Ω, während Elementarereignisse Elemente von Ω sind.
30 II WAHRSCHEINLICHKEITSRECHNUNG

Beispiele

(i) A = {1, 3, 5} = Augenzahl ungerade;

(ii) A = {(5, 6), (6, 5), (6, 6)} = Augensumme gröÿer als 10;

(iv) A = {22.000, 22.001, . . .} = {n | n ≥ 22.000} = sehr hohes Verkehrsaufkommen.

Zwei Ereignisse sind besonders hervorzuheben:

• Ω = das sichere Ereignis;

• ∅ = das unmögliche Ereignis.

Die bekannten Mengenoperationen lassen sich als Operationen auf Ereignissen interpre-
tieren:

A ∪ B = A oder B tritt ein;


Sn
A1 ∪ A2 ∪ . . . ∪ An =: k=1 Ak = mindestens eines der Ak tritt ein;

A ∩ B = A und B treten ein;


Tn
A1 ∩ A2 ∩ . . . ∩ An =: k=1 Ak = alle Ak treten ein;

Ac := Ω\A := {ω ∈ Ω | ω ∈
/ A} =  A tritt nicht ein.

Ac heiÿt Komplement der Menge A (in Ω). Es gilt:

Ωc = ∅ und ∅c = Ω .

II.1.2 Wahrscheinlichkeitsmaÿe

Für jedes Ereignis A legen wir im nächsten Schritt eine Wahrscheinlichkeit P (A) zwischen 0
und 1 fest. P (A) soll ein Maÿ dafür sein, dass das Ereignis A eintritt:

• Tritt A niemals ein, so setzt man P (A) = 0. Insbesondere ist P (∅) = 0.

• Tritt A sicher ein, so setzt man P (A) = 1. Insbesondere ist P (Ω) = 1.

Zusätzlich sollte gelten: Sind A und B disjunkte Ereignisse, d.h. A und B besitzen keine
gemeinsamen Elementarereignisse, also A ∩ B = ∅, so ist

P (A ∪ B) = P (A) + P (B) . (II.1)

Diese Eigenschaft von P bezeichnet man als Additivität.


Aus (II.1) folgt unmittelbar: Sind A1 , . . . , A n paarweise disjunkte Ereignisse, d.h. Ak ∩ Al = ∅
für k 6= l, so folgt:

P (A1 ∪ . . . ∪ An ) = P (A1 ) + . . . + P (An ) . (II.2)

Gilt schlieÿlich auch für jede unendliche Folge (An ) paarweiser disjunkter Ereignisse

∞ ∞
!
[ X
P Ak = P (Ak ), (II.3)
k=1 k=1

so spricht man von σ -Additivität.


II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 31

Denition.
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei

• Ω eine nichtleere, diskrete (d.h. endliche oder abzählbar unendliche) Menge, und

• P ein diskretes Wahrscheinlichkeitsmaÿ auf Ω ist, d.h. eine Abbildung

P : P(Ω) → R

mit den folgenden Eigenschaften:

 P (A) ≥ 0 für alle A ∈ P(Ω); (Nichtnegativität)

 P (Ω) = 1; (Normiertheit)
S∞ P∞
 P ( k=1 Ak ) = k=1 P (Ak ) für jede Folge (Ak ) paarweise disjunkter Ereignisse.

(σ -Additivität)

Rechenregeln für P

• P ist insbesondere auch endlich additiv, d.h. für A1 , . . . , A n paarweise disjunkt, ist

n
X
P (A1 ∪ . . . ∪ An ) = P (A1 ) + . . . + P (An ) = P (Ak ) .
k=1

• Allgemeiner gilt für beliebige Ereignisse A und B (d. h. A und B könnten auch nicht
disjunkt sein), dass

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

• P (Ac ) = 1 − P (A), denn A und Ac sind disjunkt, A ∪ Ac = Ω, also

1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ) .

• P (∅) = 0, denn ∅c = Ω, also

P (∅) = 1 − P (Ω) = 1 − 1 = 0 .

• A⊂B impliziert P (A) ≤ P (B)


denn B = A ∪ (B ∩ Ac ) und A und B ∩ Ac sind disjunkt, also

P (B) = P (A) + P (B ∩ Ac ) ≥ P (A) .

II.1.3 Wahrscheinlichkeitsmaÿe und Wahrscheinlichkeitsfunktionen

Eine Wahrscheinlichkeitsfunktion (auf Ω) ist eine Funktion p : Ω → [0; 1] mit

X
p(ω) = 1. (II.4)
ω∈Ω

Bemerkung. Beachten Sie, dass es sich bei (II.4) um eine unendliche Summe handelt, falls
Ω unendlich viele Elemente enthält. Gemeint ist mit (II.4) also, dass die (möglicherweise
P
unendliche) Reihe ω∈Ω p(ω) konvergiert und ihr Wert gleich 1 ist. Hierbei kommt es auf die
Reihenfolge, in der die Wahrscheinlichkeiten p(ω) aufsummiert werden, nicht an, denn die
Reihe ist wegen der Nichtnegativität der Summanden p(ω) absolut konvergent.
32 II WAHRSCHEINLICHKEITSRECHNUNG

Zu gegebener Wahrscheinlichkeitsfunktion p denieren wir die Wahrscheinlichkeit P (A) eines


Ereignisses A durch

X
P (A) := p(ω) . (II.5)
ω∈A

Die Wahrscheinlichkeit von A ist also gleich der Summe der Wahrscheinlichkeiten all jener
Elementarereignisse ω, die in A liegen. Die so denierte Abbildung P ist ein diskretes Wahr-
scheinlichkeitsmaÿ auf Ω, d.h. nichtnegativ, normiert und σ -additiv.
Umgekehrt können wir zu jedem diskreten Wahrscheinlichkeitsmaÿ P auf Ω durch

p(ω) := P ({ω}) für alle ω∈Ω (II.6)

eine Wahrscheinlichkeitsfunktion auf Ω denieren.

Durch (II.5) und (II.6) ist also eine 1:1-Beziehung zwischen allen diskreten Wahrscheinlich-
keitsmaÿen über Ω und allen Wahrscheinlichkeitsfunktionen über Ω gegeben.

Beispiele

(i) Beim Würfeln mit einem fairen Würfel ist jede der sechs möglichen Augenzahlen gleich-
wahrscheinlich. Man setzt daher

1
p(ω) = für ω ∈ Ω = {1, 2, 3, 4, 5, 6} .
6

Es folgt z.B.

 3 1
P (Augenzahl ungerade ) = P {1, 3, 5} = p(1) + p(3) + p(5) = = .
6 2

(ii) Beim zweimaligen Würfeln mit einem fairen Würfel ist wiederum jedes der 36 Elementa-
1
rereignisse aus Ω = {1, 2, 3, 4, 5, 6}2 gleichwahrscheinlich, also p(ω) = 36 für alleω ∈ Ω.
Es folgt z.B.

 3 1
P (Augensumme > 10) = P {(5, 6), (6, 5), (6, 6)} = = .
36 12
Beide Beispiele sind Spezialfälle eines Laplaceschen Wahrscheinlichkeitsraumes.

II.1.4 Laplacescher Wahrscheinlichkeitsraum und Urnenmodelle

Ist Ω eine endliche Menge, so deniert

1
p(ω) := für alle ω∈Ω
|Ω|

eine Wahrscheinlichkeitsfunktion auf Ω. Für die Wahrscheinlichkeit P (A) eines beliebigen


Ereignisses folgt hieraus sofort

X X 1 |A|
P (A) = p(ω) = = . (II.7)
|Ω| |Ω|
ω∈A ω∈A

P (A) heiÿt Laplace-Wahrscheinlichkeit von A. Da jedes Elementarereignis gleichwahr-


scheinlich ist, spricht man von P auch als der Gleichverteilung auf Ω.
Die Berechnung der Wahrscheinlichkeit P (A) in (II.7) führt auf das Problem der Abzählung
der Elemente in A, also auf ein Abzählproblem. Die wichtigsten Abzählprobleme sollen
im Folgenden anhand einfacher Urnenmodelle illustriert werden.
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 33

Eine Urne enthalte n unterscheidbare Kugeln 1, 2, . . . , n. Wir unterscheiden dann das k -malige
Ziehen einer Kugel aus der Urne mit/ohne Zurücklegen, wobei es auf die Reihenfolge der
gezogenen Kugeln ankommt/nicht ankommt:

1) In Reihenfolge und mit Zurücklegen:

|Ω| = nk ,

Ω = ω = (x1 , . . . , xk ) xi ∈ {1, . . . , n} ,

d.h., ein Elementarereignis ω = (x1 , . . . , xk ) ist ein k -Tupel, d.h. eine geordnete Menge
der Länge k, wobei xi für die Nummer der i-ten gezogenen Kugel steht.

2) In Reihenfolge und ohne Zurücklegen:


Ω = ω = (x1 , . . . , xk ) xi ∈ {1, . . . n}, xi 6= xj für i 6= j ,

n!
|Ω| = n · (n − 1) · (n − 2) · . . . · (n − k + 1) = .
(n − k)!

Zur Erinnerung: Die Fakultätsfunktion ist deniert wie folgt:

m! := m(m − 1) · (m − 2) · . . . · 2 · 1 = Πm
k=1 k , und 0! := 1 .

Insbesondere

n! = n · (n − 1)! = n · (n − 1) · (n − 2)! = . . . = n · (n − 1) · . . . · (n − k + 1) · (n − k)! ,

also
n!
= n · (n − 1) · . . . · (n − k + 1) .
(n − k)!

Für k=n erhält man als Spezialfall

n! n!
|Ω| = = = n! .
(n − n)! 0!

n! ist also gleich der Anzahl aller möglichen Anordnungen (oder auch Permutationen)
der n-elementigen Menge {1, . . . , n}.

3) Ohne Reihenfolge und ohne Zurücklegen:


Ω = ω = {x1 , . . . , xk } xi ∈ {1, 2, . . . , n}, xi 6= xj für i 6= j .

Im Unterschied zum Ziehen in Reihenfolge werden nun alle k -Tupel (x1 , . . . , xk ), die zu
derselben Menge der gezogenen Kugeln führen, zu einem Elementarereignis zusammen-
gefasst. Insgesamt gibt es k! solcher Tupel (das entspricht also gerade der Anzahl der
Permutationen der Menge der k gezogenen Kugeln). Also erhalten wir insgesamt

 
n! 1 n
· =
(n − k)! k! k
Elementarereignisse. Es gilt also

 
n
|Ω| = .
k
34 II WAHRSCHEINLICHKEITSRECHNUNG

n

Insbesondere: k ist gleich der Anzahl aller k -elementigen Teilmengen aus einer n-
elementigen Grundmenge.

Alternative Darstellung der Ergebnismente: Unter allen k -Tupeln, die zur selben
Menge {x1 , . . . , xk } führen, gibt es genau ein Tupel (x(1) , . . . , x(k) ), in dem die Elemente
ihrer Gröÿe nach angeordnet sind:

x(1) < x(2) < . . . < x(k) .

Wir können daher auch folgende Ergebnismenge benutzen:


Ω̃ = (x1 , . . . , xk ) xi ∈ {1, . . . , n} , x1 < x2 < . . . < xk .

4) Ohne Reihenfolge und mit Zurücklegen:


Die intuitive Darstellung

Ω = ω = {x1 , . . . , xk } xi ∈ {1, 2, . . . , n} .
macht keinen Sinn, da ja z.B. gilt {3, 3} = {3}.
Deshalb ordnen wir analog zu 3) die Nummern der gezogenen Kugeln der Gröÿe nach
an:
x(1) ≤ x(2) ≤ . . . ≤ x(k) , (II.8)

wobei wegen des Zurücklegens Kugeln mehrfach gezogen werden können.

Durch Übergang von x(i) zu x(i) + i − 1 erhält man aus (II.8) eine streng monoton
aufsteigende Folge

x(1) < x(2) + 1 < x(3) + 2 < . . . < x(k) + k − 1 .


Wir erhalten als Stichprobenraum in diesem Falle also

Ω̃ = (x1 , . . . , xk ) xi ∈ {1, . . . , n, n + 1, . . . , n + k − 1} , x1 < x2 < . . . < xk .

Für die Mächtigkeit |Ω̃| von Ω̃ ergibt sich nach 3)


 
n+k−1
|Ω̃| = .
k

II.1.5 Bedingte Wahrscheinlichkeiten

Ist über den Ausgang eines Zufallsexperiments bereits eine Teilinformation verfügbar, ändern
sich entsprechend die Wahrscheinlichkeiten der Ereignisse.

Beispiel.

Beim zweimaligen Würfeln eines fairen Würfels ist

1
P (Augensumme > 10) = .
12
Wie ändert sich diese Wahrscheinlichkeit, wenn bereits bekannt ist, dass beim ersten Würfeln
eine 6 gewürfelt wurde? Unter dieser Annahme bleiben nur noch sechs gleichwahrscheinliche
Möglichkeiten für die zweite Augenzahl übrig, von denen die Augenzahlen 5 und 6 insgesamt zu
einer Augensumme gröÿer als 10 führen. Für die Wahrscheinlichkeit des Ereignisses Augenzahl
> 10 unter der Bedingung 1. Augenzahl ist 6 ergibt sich somit

2 1
P (Augensumme > 10 | 1. Augenzahl = 6) = = .
6 3
Die bedingte Wahrscheinlichkeit ist also viermal höher als die ursprüngliche a priori-Wahr-
scheinlichkeit. Die folgende Denition erfolgt in vollständiger Analogie zu Abschnitt I.3.1.
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 35

Denition.
Für Ereignisse A, B mit P (B) > 0 heiÿt

P (A ∩ B)
P (A | B) :=
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B (oder auch: die be-
dingte Wahrscheinlichkeit von A gegeben B ). Im Falle P (B) = 0 setzen wir einfach
P (A | B) := 0 (dies ist in der Literatur nicht üblich, vereinfacht aber die Notation in diesem
Skript).

Eigenschaften der bedingten Wahrscheinlichkeit:

• P (A | B) ∈ [0; 1].
• P (∅ | B) = 0.
• Gilt P (B) > 0, so ist P (Ω | B) = 1 und

P (· | B) : P(Ω) → [0; 1] , A 7→ P (A | B)

ist wieder eine diskrete Wahrscheinlichkeitsverteilung auf Ω. P (· | B) heiÿt bedingte


Wahrscheinlichkeitsverteilung unter der Bedingung B.

Beispiel. (Laplacescher Wahrscheinlichkeitsraum)


|A|
Ω sei endlich, P (A) = |Ω| sei die Gleichverteilung auf Ω. Dann folgt für B 6= ∅
|A∩B|
P (A ∩ B) |Ω| |A ∩ B|
P (A | B) = = |B|
= .
P (B) |B|
|Ω|

Insbesondere: Die bedingte Wahrscheinlichkeitsverteilung ist im Falle des Laplaceschen


Wahrscheinlichkeitsraumes gerade die Gleichverteilung auf B.

Beispiel.
Wir betrachten eine Urne mit vier weiÿen Kugeln und zwei schwarzen Kugeln. Wir ziehen
zweimal aus der Urne, ohne Zurücklegen. Was ist die Wahrscheinlichkeit, im zweiten Zug eine
schwarze Kugel zu ziehen?
Schritt 1 ist es, relevante Ereignisse bezeichnen. Wir bezeichnen

W 1 := weiÿ im ersten Zug

W 2 := weiÿ im zweiten Zug

S1 := schwarz im ersten Zug

S2 := schwarz im zweiten Zug

Im Schritt 2 können wir nun einige (bedingte) Wahrscheinlichkeiten sehr leicht ablesen. Zum
Beispiel: Unter der Bedingung, dass im ersten Zug eine weiÿe Kugel gezogen wurde, ist die
3
Wahrscheinlichkeit, im zweiten Zug nochmals eine weiÿe Kugel zu ziehen gerade
5 , denn es
benden sich (nach Entnahme der weiÿen Kugel im ersten Zug) drei weiÿe und zwei scharze
(also insgesamt 5) Kugeln in der Urne. Auf diese Weise erhalten wir:

3 2
P (W 2|W 1) = P (S2|W 1) =
5 5
4 1
P (W 2|S1) = P (S2|S1) =
5 5
2 4
P (S1) = P (W 1) = .
6 6
36 II WAHRSCHEINLICHKEITSRECHNUNG

In einem dritten Schritt identizieren wir die gesuchten Wahrscheinlichkeiten, gesucht ist in
diesem Fall P (W 2). Nun rechnen wir

P (W 2) = P (W 2 ∩ W 1) + P (W 2 ∩ S1)
P (W 2 ∩ W 1) P (W 2 ∩ S1)
= · P (W 1) + · P (S1)
P (W 1) P (S1)
= P (W 2|W 1) · P (W 1) + P (W 2|S1) · P (S1)
3 4 4 2 12 + 8 20 2
= · + · = = = .
5 6 5 6 30 30 3
Zusätzlich kann man nun fragen, was z.B. P (S1|W 2) ist, also die Wahrscheinlichkeit, dass im
ersten Zug eine schwarze Kugel gezogen wurde, wenn wir wissen, dass im zweiten Zug eine
weiÿe Kugel gezogen wurde. Dies kann man wie folgt berechnen:

P (S1 ∩ W 2) P (W 2 ∩ S1) P (S1)


P (S1|W 2) = = ·
P (W 2) P (S1) P (W 2)
2
P (S1) 4 6 2
= P (W 2|S1) · = · 2 = .
P (W 2) 5 3
5

Der folgende Satz fasst die relevanten Rechnungen des letzten Beispiels in allgemeinerer Form
zusammen.
Satz.

Es seien B1 , . . . , B n disjunkte Teilmengen von Ω und A ⊂ B1 ∪ . . . ∪ Bn . Dann folgt:

(i) (Formel von der totalen Wahrscheinlichkeit)

n
X
P (A) = P (A | Bk ) · P (Bk ) . (II.9)
k=1

(ii) (Formel von Bayes) Für P (A) > 0 gilt

P (A | Bi ) · P (Bi ) P (A | Bi ) · P (Bi )
P (Bi | A) = = Pn . (II.10)
P (A) k=1 P (A | Bk ) · P (Bk )

Mitunter liefert die Formel von Bayes scheinbar überraschende Aussagen wie im Falle des
folgenden Tests auf eine seltene Krankheit.

Beispiel. Angenommen, 5 Promille der Bevölkerung haben eine seltene Krankheit K, d.h.

P (K) = 0.005 .

Ein medizinischer Test zeigt bei 99% der Erkrankten eine positive Reaktion, d.h.

P (Test positiv | K) = 0.99 .

Allerdings zeigt besagter Test auch bei 2% der Gesunden eine positive Reaktion, d.h.

P (Test positiv | K c ) = 0.02 .

Von besonderem Interesse ist nun oenbar folgende

Frage: Angenommen, der Test ist positiv. Wie groÿ ist die Wahrscheinlichkeit, dass die getes-
tete Person tatsächlich an K erkrankt ist? Wie groÿ ist also die bedingte Wahrscheinlichkeit

P (K | Test positiv )?
II.1 Zufallsexperimente und Wahrscheinlichkeitsräume 37

Die Formel von Bayes liefert

P (Test positiv | K) · P (K)


P (K | Test positiv )=
P (Test positiv | K) · P (K) + P (Test positiv | K c ) · P (K c )
0.99 · 0.005 495
= = ≈ 0.2 .
0.99 · 0.005 + 0.02 · 0.995 2485
Also: Nur in 2 von 10 Fällen mit postivem Testergebnis ist die getestete Person auch wirklich
an K erkrankt.

II.1.6 Unabhängigkeit

Ist P (A) = P (A|B), d.h. die Wahrscheinlichkeit von A unabhängig davon, ob das Ereignis
B eingetreten ist oder nicht, so folgt:

P (A ∩ B)
P (A) = P (A | B) =
P (B)
und damit
P (A ∩ B) = P (A) · P (B) . (II.11)

Zwei Ereignisse A und B mit (II.11) heiÿen (stochastisch) unabhängig (erneut in Analogie
zu Abschnitt I.3.1).

Allgemeiner gilt:

Denition.
Die Ereignisse A1 , . . . , An heiÿen (stochastisch) unabhängig, falls für jede nichtleere Teilmenge
{i1 , . . . , ik } ⊂ {1, . . . , n} gilt:
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik ).

Man beachte, dass zum Nachweis der Unabhängigkeit dreier Ereignisse A, B und C, der
Nachweis der paarweisen Unabhängigkeit je zweier Ereignisse nicht ausreicht. Als Beispiel
betrachten wir beim zweimaligen Werfen einer fairen Münze die Ereignisse

A = 1. Wurf Zahl ,

B = 2. Wurf Zahl ,

C = 1. und 2. Wurf gleich .


Diese sind paarweise unabhängig, aber nicht vollständig unabhängig, denn P (A) = P (B) =
1 1
P (C) = 2, P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 4 , aber
1
P (A ∩ B ∩ C) = 6= P (A) · P (B) · P (C) .
4

Beispiel.
Beim zweimaligen Würfeln eines fairen Würfels ist die erste Augenzahl oenbar unabhängig
von der zweiten Augenzahl, also jedes Ereignis A, das nur von der ersten Zahl abhängt,
unabhängig von jedem Ereignis B, das nur von der zweiten Augenzahl abhängt, etwa:

1
A = 1. Augenzahl gerade , P (A) =
2
1
B = 2. Augenzahl ≥ 5 , P (B) = .
3
Dann gilt

P (A ∩ B) = P {(2, 5), (2, 6), (4, 5), (4, 6), (6, 5), (6, 6)}
6 1 1 1
= = · = P (A) · P (B) .
36 6 2 3
38 II WAHRSCHEINLICHKEITSRECHNUNG

II.2 Zufallsvariablen und Verteilungen


Im ganzen Abschnitt sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum.

II.2.1 Das Konzept der Zufallsvariablen

Eine Funktion
X : Ω→R
heiÿt Zufallsvariable (auf Ω ). Da Ω abzählbar, ist auch das Bild


X(Ω) = X(ω) | ω ∈ Ω ⊂ R

abzählbar.

Für x∈R betrachten wir insbesondere das Ereignis


{X = x} := ω ∈ Ω | X(ω) = x =  X nimmt den Wert x an.

Durch
pX (x) := P (X = x) für x ∈ X(Ω)
wird dann eine neue Wahrscheinlichkeitsfunktion auf
 X(Ω) deniert. Das zugehörige diskrete
Wahrscheinlichkeitsmaÿ PX auf P X(Ω) heiÿt Verteilung von X (unter P ).
Für beliebige Ereignisse A ⊂ X(Ω) gilt oenbar
X X
PX (A) = pX (x) = P (X = x)
x∈A x∈A
[ 
=P {ω | X(ω) = x} = P (X ∈ A) .
x∈A
| {z }
={ω | X(ω)∈A}

Beispiel.
Beim zweimaligen Würfel eines fairen Würfels sei X die Augensumme. X ist eine Zufallsva-
riable mit Werten in der Menge {2, 3, . . . , 12}, von denen aber nicht alle Werte mit gleicher
Wahrscheinlichkeit von X angenommen werden. Vielmehr gilt:

  1
pX (2) = P {(k, l) ∈ Ω | k + l = 2} = P {(1, 1)} = ,
36
 1
pX (12) = P {6, 6} = ,
36
und für die übrigen Werte

2 3
pX (3) = pX (11) = , pX (4) = pX (10) =
36 36
4 5
pX (5) = pX (9) = , pX (6) = pX (8) =
36 36
6
pX (7) = .
36
II.2 Zufallsvariablen und Verteilungen 39

Graphische Veranschaulichung der Verteilung von X mit Hilfe eines Stabdiagramms:

Verteilung der Augensumme


Verteilung der Augensumme

1.0
0.16

0.8
0.12

0.6
0.08

0.4
0.2
0.04

0.0
2 4 6 8 10 12
2 4 6 8 10 12

II.2.2 Die Verteilungsfunktion einer Zufallsvariablen

Die Funktion
F (x) := P (X ≤ x) für x∈R
heiÿt Verteilungsfunktion von X . Sie besitzt, genau wie die empirische Verteilungsfunktion
(siehe Abschnitt I.2.2), folgende Eigenschaften:

• F ist monoton wachsend;

• 0 ≤ F ≤ 1, limx→−∞ F (x) = 0, limx→∞ F (x) = 1;

• F ist rechtsseitig stetig.

In Analogie zu Abschnitt I.2.4 nennen wir jeden Wert xq mit q ∈ (0; 1) und

P (X ≤ xq ) = F (xq ) ≥ q sowie P (X ≥ xq ) ≥ 1 − q

ein q -Quantil der diskreten Zufallsvariable X mit Verteilungsfunktion F.

II.2.3 Unabhängigkeit von Zufallsvariablen

Denition.
Es seien X1 , X2 , . . . , Xn Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, P ). X1 , . . . , Xn
heiÿen (stochastisch) unabhängig, falls für alle Teilmengen B1 , . . . , Bn von R gilt:

P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) . (II.12)

Die Zufallsvariablen X1 , . . . , Xn sind also genau dann (stochastisch) unabhängig, wenn für
beliebige Teilmengen B1 , . . . , Bn die Ereignisse

{X1 ∈ B1 } , . . . , {Xn ∈ Bn }

(stochastisch) unabhängig sind.

Äquivalent zu (II.12) ist folgende, in der Praxis einfacher zu überprüfende Bedingung: Für
alle x1 , . . . , xn ∈ R ist

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · · · P (Xn = xn ) . (II.13)

Beachten Sie, dass P (Xk = xk ) = 0 für die weitaus meisten Werte xk ∈ R gilt, nämlich
mindestens für alle xk ∈ R \ Xk (Ω).
40 II WAHRSCHEINLICHKEITSRECHNUNG

Die Unabhängigkeit bleibt unter Transformationen erhalten, d.h., sind f1 , . . . , fn : R → R


Abbildungen, so sind auch die Zufallsvariablen

f1 (X1 ), . . . , fn (Xn )

unabhängig. Um dies einzusehen beachte man, dass {fi (Xi ) = xi } = {Xi ∈ fi−1 (xi )} und
somit

= P X1 ∈ f1−1 (x1 ), . . . , Xn ∈ fn−1 (xn )


 
P f1 (X1 ) = x1 , . . . , fn (Xn ) = xn
= P X1 ∈ f1−1 (x1 ) · · · P Xn ∈ fn−1 (xn )
 
 
= P f1 (X1 ) = x1 · · · P fn (Xn ) = xn .

Aufgrund des Kriteriums (II.13) folgt die Unabhängigkeit von f1 (X1 ), . . . , fn (Xn ).
Ein weiteres, zu (II.12) äquivalentes Kriterium ergibt sich auf Basis der Verteilungsfunktionen,
siehe Abschnitt II.2.2: Für alle x1 , . . . , x n ∈ R ist

P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn ) . (II.14)

(II.14) folgt aus (II.12), indem man Bi := (−∞; xi ] setzt.

Beispiel.
Beim zweimaligen Würfeln sei X1 die erste Augenzahl und X2 die zweite. Mit (II.13) ist dann
einfach zu sehen, dass X1 und X2 unabhängig sind. Ebenso sind auch die Zufallsvariablen
sin(X1 ) 2
und X2 unabhängig.

II.2.4 Spezielle Verteilungen

Bernoulli-Verteilung

Wir xieren eine Teilmenge A ⊂ Ω, und denieren die binäre Zufallsvariable


(
1 für ω ∈ A,
X(ω) :=
0 für ω ∈ Ac .

X heiÿt Bernoulli-Zufallsvariable. Wir interpretieren das Ereignis {X = 1} = A als Er-


folg. Dementsprechend bezeichnen wir

π := P (X = 1) = P (A)

als Erfolgswahrscheinlichkeit. Entsprechend gilt für die Wahrscheinlichkeit eines Misser-


folges
P (X = 0) = P (Ac ) = 1 − P (A) = 1 − π .

Denition.
Es sei π ∈ [0; 1]. Das durch die Wahrscheinlichkeitsfunktion p : {0, 1} → [0; 1] mit

p(1) = π und p(0) = 1 − π

denierte Wahrscheinlichkeitsmaÿ auf {0, 1} heiÿt Bernoulli-Verteilung zu π. Zufallsex-


perimente, die nur zwei mögliche Ausgänge kennen, nennt man entsprechend Bernoulli-
Experimente.

Beispiele für Bernoulli-Experimente:

1
• Werfen einer fairen Münze: P (Kopf  ) = P (Zahl ) = 2.

• Geschlecht eines Neugeborenen: P (weiblich ) = 0.47, P (männlich ) = 0.53.


II.2 Zufallsvariablen und Verteilungen 41

• Ziehen einer Kugel aus einer Urne mit s schwarzen und w weiÿen Kugeln:

s
P (gezogene Kugel schwarz ) = .
s+w

• Meinungsumfrage, Konfrontation mit Aussage (z. B. Atomausstieg, Präimplantations-


diagnostik, . . . ): Zustimmung ja/nein.

• Funktionsfähigkeit eines Produkts: ja/nein.

Binomialverteilung

Es seien X1 , . . . , Xn unabhängige Zufallsvariablen, die alle Bernoulli-verteilt sind zu π; man


spricht von einer Bernoulli-Kette. Wir können Xi als Ausgang eines Bernoulli-Experiments
mit Erfolgswahrscheinlichkeit π interpretieren, wobei die Folge der n Experimente unabhängig
ist (Beispiel: Meinungsumfrage, befrage n Personen). Dann zählt die Zufallsvariable

Sn := X1 + . . . + Xn ∈ {0, . . . , n}

die Gesamtanzahl der Erfolge.

Für die Verteilung PSn


Sn gilt dann
der Summe

 
n k
pSn (k) = P (Sn = k) = π (1 − π)n−k =: b(k; n, π), k ∈ {0, 1, . . . , n}.
k
n

Begründung: k ist gerade die Anzahl der n-Tupel mit genau k Einsen (und n − k Nullen),
siehe das dritte Urnenmodell in Abschnitt II.1.4, d. h. die Anzahl an Möglichkeiten, die k
benötigten Einsen auf die n Positionen unserer Bernoulli-Kette X1 , . . . , Xn zu vergeben. Die
Wahrscheinlichkeit für jede derartige Kombination von k Einsen und n − k Nullen ergibt
k
sich aufgrund der Unabhängigkeitsannahme als Produkt aus π , der Wahrscheinlichkeit für k
Erfolge, und (1 − π)
n−k , der Wahrscheinlichkeit für n − k Misserfolge.

Denition. Es sei n∈N und π ∈ [0; 1]. Das durch die Wahrscheinlichkeitsfunktion

b(·; n, π) : {0, . . . , n} → [0; 1]


 
n k
k 7→ π (1 − π)n−k
k

denierte Wahrscheinlichkeitsmaÿ auf {0, . . . , n} heiÿt Binominalverteilung zu n und


π und wird mit Bin(n, π) bezeichnet. Die Verteilung Bin(1, π) entspricht dabei gerade der
Bernoulli-Verteilung.

Wir haben insbesondere gesehen: Bei einer Folge von n unabhängigen Bernoulli-Experimenten
mit Erfolgswahrscheinlichkeit π ist die Summe der Erfolge binominalverteilt mit Parametern
n und π.
Bin(20,0.2) Bin(20,0.5) Bin(20,0.9)
0.20

0.15

0.20
0.15

0.10
0.10

0.10
0.05
0.05
0.00

0.00

0.00

0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
42 II WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung.
Für den Fall, dass die Erfolgswahrscheinlichkeit π eine rationale Zahl ist, können wir die Bino-
mialverteilung durch die Stichprobenziehung aus einer Urne mit zwei Arten von Kugeln (z. B.
weiÿ oder schwarz) repräsentieren. Die Gesamtzahl N von Kugeln (weiÿ oder schwarz) und
K
die Anzahl K weiÿer Kugeln ist dabei so zu wählen, dass π = N ist, d. h. die Erfolgswahr-
scheinlichkeit π wird in der Urne durch den Anteil weiÿer Kugeln repräsentiert. Aus dieser
Urne gilt es nun n Kugeln zufällig zu ziehen, und wir zählen die zufällige Zahl X von weiÿen
Kugeln unter den n gezogenen Kugeln.
Damit, wie von der Bernoulli-Kette gefordert, bei jedem Ziehen einer Kugel die Erfolgswahr-
scheinlichkeit gleich π ist, muss nach jedem Ziehen einer Kugel (und dem Notieren des Ergeb-
nisses) diese Kugel wieder in die Urne zurückgelegt werden. Das Ziehen mit Zurücklegen
führt also gerade zur Binomialverteilung. Würden wir aus unserer Urne dagegen die Stichpro-
be durch Ziehen ohne Zurücklegen gewinnen, so würde dies zur hypergeometrischen
Verteilung führen. Diese besprechen wir zum Ende dieses Abschnitts.

Geometrische Verteilung

Wie groÿ ist die Wahrscheinlichkeit, dass man mit einem fairen Würfel genau k Versuche
benötigt, bis zum ersten Mal eine 6 gewürfelt wird?

1
Für k = 1 ist die gesuchte Wahrscheinlichkeit oensichtlich 6 , für k = 2 ist sie gleich 56 · 16 , denn
die gesuchte Wahrscheinlichkeit ist aufgrund der Unabhängigkeit der beiden Würfe gleich dem
Produkt aus der Wahrscheinlichkeit, beim ersten Würfeln keine 6 zu würfeln (= 65 ), und der
1
Wahrscheinlichkeit, beim zweiten Würfeln eine 6 zu würfeln (= 6 ).
Für allgemeines k können wir wie folgt vorgehen: Wir denieren eine Folge von Zufallsvariablen
X1 , X2 , X3 , . . . durch

Xk := 1 falls beim k -ten Wurf eine 6 gewürfelt wird

und Xk := 0 sonst. Oenbar sind die Zufallsvariablen X1 , X2 , X3 , . . . unabhängig Bernoulli-


1
verteilt mit Erfolgswahrscheinlichkeit π= 6 . Das Ereignis Ak , im k -ten Wurf zum ersten Mal
eine 6 zu würfeln, kann mit Hilfe dieser Zufallsvariablen nun wie folgt beschrieben werden:

Ak = {X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1} .

Aufgrund der Unabhängigkeit der Zufallsvariablen ergibt sich für die gesuchte Wahrschein-
lichkeit
P (Ak ) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1)
= P (X1 = 0) · P (X2 = 0) · . . . · P (Xk−1 = 0) · P (Xk = 1)
 k−1
5 5 5 1 5 1
= · · ... · · = .
6 6 6 6 6 6

Allgemeiner:
Gegeben sei eine Folge von unabhängigen Zufallsvariablen X1 , X2 , X3 , . . ., die alle Bernoulli-
verteilt sind zu π > 0. Deniere die Wartezeit auf den ersten Erfolg als

T := min{k ≥ 1 | Xk = 1} .

Wie in obigem Fall der Wartezeit auf die erste 6 beim Würfeln mit einem fairen Würfel,
erhalten wir für die Verteilung von T

P (T = k) = P (X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1)
= P (X1 = 0) · P (X2 = 0) · . . . · P (Xk−1 = 0) · P (Xk = 1)
= (1 − π)k−1 · π für k = 1, 2, 3, . . .
II.2 Zufallsvariablen und Verteilungen 43

Denition.
Es sei π ∈ (0; 1]. Das durch die Wahrscheinlichkeitsfunktion

gπ : N 7→ [0; 1]
k 7→ (1 − π)k−1 π

denierte Wahrscheinlichkeitsmaÿ auf N heiÿt geometrische Verteilung zu π und wird mit


Geom(π ) bezeichnet.

Poisson-Verteilung

Für λ>0 deniert


λk
pλ (k) := e−λ für k ∈ N0
k!
eine Wahrscheinlichkeitsfunktion auf N0 , denn aus der Reihenentwicklung der Exponential-
funktion

x
X xk
e = für x∈R
k!
k=0
folgt
∞ ∞
X X λk
pλ (k) = e−λ = e−λ · eλ = e0 = 1 .
k!
k=0 k=0

Denition.
Es sei λ > 0. Das durch die Wahrscheinlichkeitsfunktion

pλ : N0 → [0; 1]
λk
k 7→ e−λ
k!
denierte Wahrscheinlichkeitsmaÿ auf N0 heiÿt Poisson-Verteilung zu λ und wird mit
Poi(λ) bezeichnet.

Die Poisson-Verteilung empehlt sich als Näherung der Binomialverteilung Bin(n, π) für groÿe
n und kleine π . Die Approximation ist umso besser, je kleiner der Wert nπ 2 ist. Diese Näherung
wird gerechtfertigt durch die folgende Beobachtung:

Poissonscher Grenzwertsatz

Es sei (πn ) ⊂ [0; 1] eine Folge von Erfolgsparametern mit limn→∞ nπn = λ > 0. Dann folgt

lim b(k; n, πn ) = pλ (k) für alle k ∈ N0 .


n→∞

Mit anderen Worten: Die Wahrscheinlichkeitsfunktion der Binomialverteilung Bin(n, πn ) kon-


vergiert punktweise gegen die Wahrscheinlichkeitsfunktion der Poisson-Verteilung Poi(λ). Im
Folgenden eine Illustration dieser Konvergenz für λ = 2.5.

Bin(5,0.5) Bin(10,0.25) Bin(20,0.125)


0.25

0.20
0.20
0.15

0.10
0.10
0.05

0.00

0.00

0 1 2 3 4 5 0 2 4 6 8 10 0 5 10 15 20
44 II WAHRSCHEINLICHKEITSRECHNUNG

Zum Beweis des Poissonschen Grenzwertsatzes beachte man, dass unter der Annahme limn→∞ nπn =
λ folgt

 
n k
lim b(k; n, πn ) = lim πn (1 − πn )n−k
n→∞ n→∞ k

1 n (n − 1) (n − k + 1)  nπn n−k
= lim ·... · (nπn )k 1 −
n→∞ k! n n } n n
|{z} | {z | {z } | {z k} | {z }
−→1 −→1 −→1 −→λ λ n
∼(1− n ) −→e−λ
1
= λk e−λ = pλ (k) .
k!

Eine näherungsweise Berechnung von Wahrscheinlichkeiten gewisser Ereignisse mit Hilfe ei-
ner Poisson-Verteilung ist immer dann gerechtfertigt, wenn es sich um seltene Ereignisse
handelt.

Beispiel.
Bei der Herstellung von Bauteilen ist ein Anteil von π = 0.002 bereits bei der Produktion de-
fekt. Wie groÿ ist die Wahrscheinlichkeit, dass in einem Warenposten mit n = 1.000 Bauteilen
mindestens fünf Schreiben defekt sind?
Zur Beantwortung dieser Frage sei X die Anzahl der defekten Bauteile. Da es sich bei der
Produktion eines defekten Bauteils (eher) um ein seltenes Ereignis handelt, empehlt sich
eine Näherung der Verteilung von X mit Hilfe einer Poisson-Verteilung. Den Parameter λ
wählt man gemäÿ der Regel

λ = nπ = 1000 · 0.002 = 2 .

Damit folgt für die gesuchte Wahrscheinlichkeit

20 21 22 23 24
 
−2
P (X ≥ 5) = 1 − P (X ≤ 4) = 1 − e + + + +
0! 1! 2! 3! 4!
 
4 2
= 1 − e−2 1 + 2 + 2 + + ≈ 0.05 .
3 3

Hypergeometrische Verteilung

Es sei eine Grundgesamtheit mit N Elementen gegeben, von denen K Elemente die Eigenschaft
E besitzen. Aus dieser Grundgesamtheit werde n-mal ohne Zurücklegen gezogen. Wir sind
interessiert an der Anzahl k der gezogenen Elemente, die die Eigenschaft E besitzen. Hierzu
denieren wir

X= Anzahl der gezogenen Elemente mit Eigenschaft E.


Beispiel. (Hochrechnungen)
Ein See enthalte eine (unbekannte) Anzahl N von Fischen. Um N zu schätzen, markiere man
zunächst K Fische mit rot. Danach ziehe man n (n ≤ N ) Fische aus dem See. Dann ist X die
Anzahl der markierten Fische aus dieser Stichprobe und

n
N̂ := K
X
ist eine natürliche Schätzung für die unbekannte Gesamtanzahl N. Zur Begründung beachte
X K
man, dass der Anteil
n an rot markierten Fischen in der Stichprobe dem Anteil N aller rot
markierten Fische an der Gesamtpopulation entsprechen sollte, d.h.

X K n
≈ und damit N≈ K = N̂ .
n N X
II.2 Zufallsvariablen und Verteilungen 45

n
Ist
N klein, so gibt es keinen groÿen Unterschied zwischen dem Ziehen ohne Zurücklegen und
dem Ziehen mit Zurücklegen. Daher empehlt sich in diesem Falle eine Approximation der
K
Verteilung von X durch die Binomialverteilung Bin(n, π) mit π= N , also

K
P (X = k) ≈ b(k; n, ). (II.15)
N
n
Ist
N jedoch vergleichsweise groÿ, so muss die gesuchte Verteilung exakt berechnet werden:

K N −K
 
k n−k
P (X = k) = N
 für k = 0, . . . , n . (II.16)
n

K

Zur Herleitung der Formel (II.16) für die gesuchte Wahrscheinlichkeit beachte man, dass
k
N −K

(bzw.
n−k ) gerade die Anzahl der k (bzw. n − k )-elementigen Teilmengen einer K (bzw.
N

N − K )-elementigen Grundmenge ist, wogegen n die Anzahl aller n-elementigen Teilmengen
der Grundgesamtheit aus N Elementen ist, siehe Abschnitt II.1.4.

Denition.
Es sei K ≤ N, n ≤ N. Das durch die Wahrscheinlichkeitsfunktion

h(·; n, N, K) : {0, . . . , n} → [0; 1]


K N −K
 
k n−k
k 7→ N

n

denierte Wahrscheinlichkeitsmaÿ auf {0, . . . , n} heiÿt hypergeometrische Verteilung zu


n, N und K und wird mit H(n, N, K) bezeichnet.

Begründung von (II.15):


K
Für N, K → ∞ mit π := N konstant, gilt

K N −K
 
k n−k
P (X = k) = N

n
 
n K! (N − K)! (N − n)!
=
k (K − k)! ((N − K) − (n − k))! N!
 
n K K −1 K −k+1 N −K N −K −1 N − K − (n − k) + 1
= ... ...
k N N N N N N
 
N N N n k
... → π (1 − π)n−k .
N N −1 N −n+1 k
46 II WAHRSCHEINLICHKEITSRECHNUNG

II.2.5 Die wichtigsten diskreten Verteilungen im Überblick

Bernoulli-Verteilung
P (X = 1) = π = 1 − P (X = 0)
@
@
@
Anzahl der Erfolge in @ Wartezeit auf ersten Erfolg
n unabhängigen Bernoulli-Exp. @ in unabhängigen Bernoulli-Exp.
@
@
@
@
R
@
Binomialverteilung Bin(n, π) Geometrische Verteilung Geom(π)
n
π k (1 π)n−k P (X = k) = (1 − π)k−1 π

P (X = k) = k −
 A
 A
 A
Poisson-Approximation  A Normalapproximation
nπn → λ  A (siehe Abschnitt II.5)
 A
 A
 AU
Poisson-Verteilung Poi(λ) Normalverteilung
k
P (X = k) = e−λ λk! (siehe Abschnitt II.5)

Hypergeometrische Verteilung H(n, N, K)


−K
(Kk )(Nn−k )
P (X = k) = N
(n)

Binomialapproximation
N, K → ∞, KN
→π

?
Binomialverteilung Bin(n, π)
n
π k (1 − π)n−k

P (X = k) = k
II.3 Erwartungswert und Varianz 47

II.3 Erwartungswert und Varianz


Erwartungswert und Varianz sind die beiden wichtigsten Kennzahlen einer Zufallsvariablen.
Im ganzen Abschnitt sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, p die zugehörige Wahr-
scheinlichkeitsfunktion.

II.3.1 Erwartungswert

Der Erwartungswert E[X] einer Zufallsvariablen X wird deniert als der Mittelwert

X
E[X] := X(ω)p(ω) (II.17)
ω∈Ω

der Funktionswerte X(ω) gewichtet mit den Einzelwahrscheinlichkeiten p(ω).


Bemerkung. Ist Ω endlich, so bereitet diese Denition keine Probleme. Im Falle Ω unendlich
muss man noch Sorge tragen, dass die Reihe (II.17) absolut konvergiert. Dies ist dann der
Fall, wenn die Reihe
X
|X(ω)|p(ω)
ω∈Ω

konvergiert, und man sagt in diesem Fall, dass der Erwartungswert E[X] von X existiert.

Beispiel.
X sei die Augenzahl beim Würfeln eines fairen Würfels. Dann gilt

1 1 1 1 1 1 7
E[X] = 1 · +2· +3· +4· +5· +6· = .
6 6 6 6 6 6 2
Der Erwartungswert stimmt also in diesem Falle mit dem arithmetischen Mittel der Funkti-
onswerte überein.

Es sei X eine Zufallsvariable, deren Erwartungswert existiert. Ist x1 , x2 , . . . eine Aufzählung


des Bildes X(Ω) von X, so folgt

X X X
E[X] = X(ω)p(ω) = X(ω)p(ω)
ω∈Ω k ω∈Ω : X(ω)=xk
X X
= xk P (X = xk ) = xk pX (xk ) .
k k

Insbesondere gilt also, dass der Erwartungswert einer Zufallsvariablen X nur von ihrer
Verteilung pX abhängt!

Rechenregeln für Erwartungswerte

Es seien X, Y Zufallsvariablen, deren Erwartungswerte existieren. Dann gilt:

• Linearität: E[aX + bY ] = aE[X] + bE[Y ] für alle a,b ∈ R.

• Nichtnegativität: X ≥ 0 (d.h. X(ω) ≥ 0 für alle ω ∈ Ω)

=⇒ E[X] ≥ 0 .

• Monotonie: X ≤ Y (d.h. Y − X ≥ 0)

=⇒ E[X] ≤ E[Y ] .

• Ist X konstant, also X=c für eine Konstante c (d.h. X(ω) = c für alle ω ∈ Ω), so folgt

E[X] = c .
48 II WAHRSCHEINLICHKEITSRECHNUNG

• Transformationssatz: Ist h : R → R und ist x1 , x2 , x3 , . . . eine Aufzählung des Bildes


X(Ω), so gilt:
PDer Erwartungswert der Zufallsvariablen h(X) existiert genau dann, wenn
die Summe k |h(xk )|pX (xk ) < ∞ konvergiert, und in diesem Fall ist
X
E [h(X)] = h(xk )pX (xk ). (II.18)
k

• Sind X ,Y unabhängig, so existiert auch der Erwartungswert von XY , und es gilt

E[XY ] = E[X] E[Y ] .

Beispiel: Bernoulli-Verteilung und Binomialverteilung.


Sind X1 , . . . , Xn unabhängig Bernoulli-verteilt mit Erfolgswahrscheinlichkeit π, so folgt

E[Xk ] = 0 · P (Xk = 0) + 1 · P (Xk = 1) = π .

Insbesondere gilt für den Erwartungswert der Summe Sn = X1 + . . . + Xn , dass

E[Sn ] = E[X1 ] + . . . + E[Xn ] = π + . . . + π = nπ .

Da Sn binomialverteilt ist mit Parameter n und π , folgt insbesondere: Für den Erwartungswert
einer binomialverteilten Zufallsvariablen Sn mit Parametern n und π gilt:

E[Sn ] = nπ .

Beispiel: Momenterzeugende Funktion der Binomialverteilung.


Die Anwendung des Transformationssatzes ergibt, dass für α∈R

E e i = eα0 P (Xi = 0) + eα1 P (Xi = 1)


 αX 

= e0 (1 − π) + eα1 π = (1 − π) + πeα ,

also
E eαXi = (1 − π) + πeα
 
für i = 1, . . . , n
ist. Damit folgt wegen der Unabhängigkeitsannahme, dass
h Pn i
E eαSn = E eα i=1 Xi = E eαX1 eαX2 . . . eαXn
   

= E eαX1 E eαX2 · · · E eαXn = (1 − π + πeα )n .


     

Beispiel: Poisson-Verteilung.
Ist X Poi(λ)-verteilt, so folgt

∞ ∞
X X λk
E[X] = kP (X = k) = ke−λ
k!
k=0 k=0
∞ ∞
X λ λk−1 X λk
= e−λ = λe−λ = λ.
(k − 1)! k!
k=1 k=0

Für die momenterzeugende Funktion folgt mit dem Transformationssatz:

∞ ∞
 X X λk
E eαX = eαk P (X = k) = eαk e−λ

k!
k=0 k=0

X (eα λ)k αλ α)
= e−λ = e−λ ee = e−λ(1−e .
k!
k=0
II.3 Erwartungswert und Varianz 49

II.3.2 Varianz

Ein Maÿ für die Streuung der Funktionswerte X(ω) um ihren Erwartungswert E[X] ist die
mittlere quadratische Abweichung

h i X
V [X] := E (X − E[X])2 = (X(ω) − E[X])2 p(ω) . (II.19)
ω∈Ω

Sie heiÿt Varianz von X. Gängige Kurzschreibweisen:


2 := V [X].
µX := E[X], σX
Bemerkung.
h Damit der Ausdruck (II.19) wohldeniert ist, müssen die Erwartungswerte E[X]
i
und E (X − E[X])2 existieren. Man kann zeigen, dass beide existieren, falls der Erwartungs-
2
wert E[X ] von X 2 existiert.

Unter der Standardabweichung von X versteht man die Gröÿe


p
σX := V [X] .
Wie der Erwartungswert, so hängt auch die Varianz (und damit auch die Standardabweichung)
nur von der Verteilung PX von X unter P ab. Ist nämlich x1 , x2 , x3 . . . eine Aufzählung der
Werte von X, so folgt aus dem Transformationssatz
h i X
V [X] = E (X − E[X])2 = (xk − E[X])2 pX (xk ) .
k

Beispiel: X sei die Augenzahl beim Würfeln eines fairen Würfels. Dann folgt

7 2 1 7 2 1 7 2 1
     
35
V [X] = 1 − · + 2− · + ... + 6 − · = .
2 6 2 6 2 6 12

Rechenregeln für Varianzen

Es seien X, Y, X1 , . . . , Xn Zufallsvariablen, für die die Erwartungswerte E[X 2 ] und E[Y 2 ],


E[X12 ], . . . , E[Xn2 ] existieren. Dann gilt:
• V [aX + b] = a2 V [X] für alle a, b ∈ R.
Begründung: Aus E[aX + b] = aE[X] + b folgt
h i h i
V [aX + b] = E (aX + b − E[aX + b])2 = E (aX − aE[X])2 = a2 V [X] .

• Verschiebungssatz: V [X] = E[X 2 ] − (E[X])2 .


Begründung:
h i h i
V [X] = E (X − E[X])2 = E X 2 − 2X · E[X] + (E[X])2
= E[X 2 ] − 2(E[X])2 + (E[X])2 = E[X 2 ] − (E[X])2 .

• X, Y unabhängig ⇒ V [X + Y ] = V [X] + V [Y ].
Begründung:

V [X + Y ] = E (X + Y )2 − (E[X + Y ])2
 

= E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2


= E[X 2 ] + 2E[XY ] + E[Y 2 ] − (E[X])2 + 2E[X]E[Y ] + (E[Y ])2


= E[X 2 ] − (E[X])2 + E[Y 2 ] − (E[Y ])2 + 2 (E[XY ] − E[X]E[Y ])


= V [X] + V [Y ] + 2 (E[XY ] − E[X]E[Y ]) .
Da X und Y unabhängig, folgt E[XY ] = E[X]E[Y ], und damit verschwindet der dritte
Term auf der rechten Seite.
50 II WAHRSCHEINLICHKEITSRECHNUNG

Allgemeiner gilt die Identität von Bienaymé:

Sind X1 . . . , Xn unabhängig, so folgt

V [X1 + . . . + Xn ] = V [X1 ] + . . . + V [Xn ] .

Beispiel: Bernoulli-Verteilung und Binomialverteilung.

Sind X1 , . . . , Xn unabhängig Bernoulli-verteilt mit Erfolgswahrscheinlichkeit π, so folgt für


die Varianz der Summe Sn = X1 + . . . + Xn , dass

V [Sn ] = V [X1 + . . . + Xn ] = V [X1 ] + . . . + V [Xn ] .

Für die Varianz der Bernoulli-verteilten Zufallsvariablen Xk errechnet man sofort

V [Xk ] = E[Xk2 ] − (E[Xk ])2 = 02 · P (Xk = 0) + 12 · P (Xk = 1) − (π)2 = π − π 2 = π(1 − π) ,

so dass

V [Sn ] = nπ(1 − π) .

Da Sn binomialverteilt ist mit Parameter n und π, folgt insbesondere: Für die Varianz einer
binomialverteilten Zufallsvariablen Sn mit Parameter n und π gilt

V [Sn ] = nπ(1 − π) .

Beispiel: Poisson-Verteilung.

Ist X Poi(λ)-verteilt, so folgt

∞ ∞
X X λk
E[X 2 ] = k 2 P (X = k) = k 2 e−λ
k!
k=0 k=1

X λ · λk−1
= (k − 1 + 1)e−λ
(k − 1)!
k=1
∞ ∞
X
−λ λk−1 X λk−1
=λ (k − 1)e +λ e−λ
(k − 1)! (k − 1)!
k=1 k=1

X λk
=λ ke−λ + λ = λ2 + λ ,
k!
k=0

also

V [X] = E[X 2 ] − (E[X])2 = λ2 + λ − λ2 = λ .

Tabelle: Erwartungswerte und Varianzen diskreter Verteilungen.

E[X] V [X]
X ∼ Bernoulli(π) π π(1 − π)
X ∼ Bin(n, π) nπ nπ(1 − π)
1 1−π
X ∼ Geom(π)
π π2
X ∼ Poi(λ) λ λ
K N −n
X ∼ H(n, N, K) nK
N nK
N (1 − N ) N −1
II.3 Erwartungswert und Varianz 51

II.3.3 Die Ungleichung von Tschebyschow

In Abschnitt II.3.1 hatten wir den Erwartungswert µ einer Zufallsvariablen X als ein mit
Wahrscheinlichkeiten gewichtetes Mittel deniert, welches die Lage einer Verteilung cha-
rakterisiert. Die Varianz σ2, als mittlere quadratische Abweichung um den Erwartungswert,
haben wir in Abschnitt II.3.2 als ein Streuungsmaÿ kennengelernt, welches im genannten
Sinne quantiziert, wie stark die Realisationen einer Zufallsvariable vom Erwartungswert ab-
weichen können. Wir fragen uns nun: Bei gegebenen Wert σ2, mit welcher Wahrscheinlichkeit
wird man ein gewisses Ausmaÿ von Abweichung vom Erwartungswert µ beobachten? In der
Praxis betrachtet man im Zusammenhang mit dieser Frage gerne sog.  k -σ -Bereiche, siehe
etwa folgendes Beispiel eines 2-σ -Bereichs (µ =5 und σ = 3):

0.2 E@X D =5
V@X D =9, d.h. Σ=3
0.15
2-Σ-Bereich
0.1

0.05

x
0 5 10 15 20

Mit welcher Wahrscheinlichkeit wird man Beobachtungen erhalten, die um mindestens das
k -fache der Standardabweichung σ von µ abweichen (oben grau markiert), d. h.


P |X − µ| ≥ k · σ =? (II.20)

Satz (Tschebyschowsche Ungleichung)1

Es sei X eine Zufallsvariable, für die der Erwartungswert von X2 existiert, es sei E[X] = µ
und V [X] = σ 2 . Dann gilt für alle k > 0, dass

 1
P |X − µ| ≥ k · σ ≤ . (II.21)
k2

Beweis: Wir denieren die Hilfszufallsvariable



0, falls |X − µ| < k · σ,
Y :=
k2 σ2 , falls |X − µ| ≥ k · σ.

Y ist eine diskrete Zufallsvariable mit den zwei möglichen Werten 0 und k2 σ2 . Ihren Erwar-
tungswert errechnen wir somit gemäÿ Abschnitt II.3.1 zu

E[Y ] = 0 · P (Y = 0) + k 2 σ 2 · P (Y = k 2 σ 2 ) = 0 + k 2 σ 2 · P |X − µ| ≥ k · σ .


Ferner wurde Y so deniert, dass stets Y ≤ (X − µ)2 ist, vgl. folgende Abbildung:

1
Die Ungleichung ist nach dem russischen Mathematiker Pafnuti Tschebyschow benannt. Dessen Nach-
name wird oft auch als Tschebyschew, Tschebysche, Tschebyshev oder Chebyshev (Letzteres vor allem im
Englischen) transkribiert.
52 II WAHRSCHEINLICHKEITSRECHNUNG

HX - ΜL2

Y
k 2 Σ2

X- Μ
-k Σ 0 kΣ

Entsprechend ist auch


E[Y ] ≤ E (X − µ)2 = V [X] = σ 2 .
 

Wir erhalten also insgesamt die Ungleichung

k 2 σ 2 · P |X − µ| ≥ k · σ ≤ σ2,


woraus nach Division durch k2 σ2 die Behauptung folgt.

Analog zur empirischen Tschebyschow-Ungleichung (siehe Abschnitt I.2.5) quantizert die


Tschebychev-Ungleichung (II.21) die Streuung der Funktionswerte von X um ihren Erwar-
tungswert, insbesondere:

√ √  1
• P µ− 2σ ≤ X ≤ µ + 2σ ≥ 2 = 0, 5,
3
• P (µ − 2σ ≤ X ≤ µ + 2σ) ≥ 4 = 0, 75,
8
• P (µ − 3σ ≤ X ≤ µ + 3σ) ≥ 9 = 0, 889 (gerundet).

Begründung: Aus der Tschebyschowschen Ungleichung (II.21) folgt

P (µ − kσ ≤ X ≤ µ + kσ) = P (|X − µ| ≤ kσ)


≥ P (|X − µ| < kσ)
= 1 − P (|X − µ| ≥ kσ)
1
≥1− 2 .
k

Bemerkung. Abgesehen von der Forderung nach Existenz von Erwartungswert und Vari-
anz stellt die Ungleichung von Tschebyschow keinerlei weitere Bedingungen an die Verteilung
von X , d. h. sie ist eine in diesem Sinne allgemeingültige Gesetzmäÿigkeit! Andererseits liefert
sie auf Grund ihrer Allgemeingültigkeit auch nur eine grobe Abschätzung der Wahrscheinlich-
keit (II.20). Kennt man neben Erwartungswert und Varianz sogar die komplette Verteilung
von X, dann kann man die Wahrscheinlichkeit (II.20) natürlich exakt berechnen, siehe etwa
Abschnitt II.4.6 für den Fall einer normalverteilten Zufallsvariable.

II.3.4 Kovarianz und Korrelation

Sind X und Y zwei Zufallsvariablen, deren Varianzen existieren, so ist die Kovarianz
  
Cov[X, Y ] := E X − E[X] Y − E[Y ]

wohldeniert. Sie ist das Analogon zur empirischen Kovarianz einer zweidimensionalen Mess-
reihe, siehe Abschnitt I.3.3. Die Gröÿe

Cov[X, Y ]
ρXY := Corr[X, Y ] := p p
V [X] V [Y ]
II.3 Erwartungswert und Varianz 53

heiÿt dementsprechend der Korrelationskoezient von X und Y. Ist ρXY = 0, so heiÿen


X und Y unkorreliert.

Die Kovarianz hängt nur von der gemeinsamen Verteilung pXY der Zufallsvariablen X
und Y unter P ab. Hierunter versteht man die diskrete Wahrscheinlichkeitsverteilung zur
Wahrscheinlichkeitsfunktion

pXY (x, y) := P (X = x, Y = y) für x ∈ X(Ω) und y ∈ Y (Ω)

auf dem Produktraum X(Ω) × Y (Ω) := {(x, y) | x ∈ X(Ω), y ∈ Y (Ω)} ⊂ R2 .


Ist nämlich x1 , x2 , x3 , . . . eine Aufzählung der Werte von X und y1 , y2 , y3 , . . . eine Aufzählung
der Werte von Y , so folgt
X
Cov[X, Y ] = (X(ω) − E[X]) (Y (ω) − E[Y ]) · p(ω)
ω∈Ω
XX X
= (xk − E[X]) (yl − E[Y ]) p(ω)
k l ω∈Ω : X(ω)=xk ,Y (ω)=yl
XX
= (xk − E[X]) (yl − E[Y ]) pXY (xk , yl ) .
k l

Rechenregeln für Kovarianzen:

• Cov[aX + b, cY + d] = ac · Cov[X, Y ] für alle a, b, c, d ∈ R.


Begründung:

Cov[aX + b, cY + d] = E [(aX + b − E[aX + b])(cY + d − E[cY + d])]


= E [a(X − E[X])c(Y − E[Y ])] = ac · Cov[X, Y ] .

• Verschiebungssatz: Cov[X, Y ] = E[XY ] − E[X]E[Y ].


Begründung:
 
Cov[X, Y ] = E (X − E[X])(Y − E[Y ])
 
= E XY − X · E[Y ] − E[X] · Y + E[X]E[Y ]
= E[XY ] − 2E[X]E[Y ] + E[X]E[Y ] = E[XY ] − E[X]E[Y ].

• Insbesondere: X, Y unabhängig ⇒ Cov[X, Y ] = 0. Die Umkehrung gilt im Allgemeinen


nicht.
54 II WAHRSCHEINLICHKEITSRECHNUNG

II.4 Stetige Verteilungen


In vielen Fällen ist der Wertebereich einer Zufallsvariablen X nicht diskret (z.B. Wartezeiten,
Laufzeiten, Körpergröÿe, Lufttemperatur, . . . ), sondern muss als Intervall [a; b] oder gleich
ganz R gewählt werden. Eine solche Zufallsvariable kann natürlich nicht auf einem diskre-
ten Wahrscheinlichkeitsraum (Ω, P ) deniert sein. Es bedarf hierzu also einer Erweiterung
des Begries des Wahrscheinlichkeitsraumes auf überabzählbare Ergebnismengen Ω. Die ma-
thematische Theorie zur rigorosen Durchführung dieser Erweiterung sprengt eindeutig den
Rahmen dieser Vorlesung, man ndet sie in Büchern zur Wahrscheinlichkeitstheorie.

Im Folgenden betrachten wir nur den für die Anwendungen enorm wichtigen Fall stetig ver-
teilter Zufallsvariablen X.

II.4.1 Stetige Verteilungen: Dichte und Verteilungsfunktion

Wir nennen X stetig verteilt mit Dichte f , falls gilt

Z b
P (X ≤ b) = f (x) dx für alle b ∈ R. (II.22)
−∞

Hierbei ist f : R→R eine uneigentlich Riemann-integrierbare Funktion mit

• f (x) ≥ 0 für alle x ∈ R,


R +∞
• −∞ f (x) dx = 1.

Für eine mit Dichte f stetig verteilte Zufallsvariable X wird also die Wahrscheinlichkeit der
Ereignisse
{ω | X(ω) ≤ b}
durch die folgende, schraerte Fläche angegeben:
2.0
1.5
1.0
f(x)

0.5
0.0

−2 −1 0 1 2

Wie im Falle diskreter Zufallsvariablen heiÿt die Funktion


Z x
F (x) = P (X ≤ x) = f (t) dt für x∈R
−∞

die Verteilungsfunktion von X, vgl. Abschnitt II.2.2. Sie besitzt genau dieselben Eigen-
schaften wie im diskreten Fall, d.h.

• F ist monoton wachsend;

• 0 ≤ F ≤ 1, limx→−∞ F (x) = 0, limx→∞ F (x) = 1;

• F ist (rechtsseitig) stetig.


II.4 Stetige Verteilungen 55

Ist X stetig verteilt mit Verteilungsfunktion F und ist q ∈ (0; 1), so heiÿt jede Zahl xq ∈ R
mit
F (xq ) = q
q -Quantil der Verteilung von X , vgl. Abschnitt I.2.4. Ist F streng monoton steigend, d.h.,
F (x) < F (y) für alle x < y , so ist xq = F −1 (q) eindeutig bestimmt durch den Wert der
Umkehrfunktion F
−1 von F in q .

Mit Hilfe von (II.22) können wir dann auch sofort die Wahrscheinlichkeit des Ereignisses
{ω | a < X(ω) ≤ b} berechnen, denn

P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a)


Z b Z a Z b
(II.23)
= f (x) dx − f (x) dx = f (x) dx .
−∞ −∞ a

Für eine stetig verteilte Zufallsvariable X gilt

P (X = x) = 0 für alle x ∈ R,

d.h. X nimmt einen bestimmten Wert x nur mit Wahrscheinlichkeit 0 an. Dies ist ein fun-
damentaler Unterschied zu diskreten Zufallsvariablen. Damit gilt insbesondere

P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) für alle a, b ∈ R .


(II.24)

II.4.2 Stochastische Unabhängigkeit

Der Begri der stochastischen Unabhängigkeit aus Abschnitt II.2.3 lässt sich unmittelbar auf
stetig verteilte Zufallsvariablen übertragen. Zwei (stetig verteilte) Zufallsvariablen X und Y
heiÿen stochastisch unabhängig, falls

P (X ≤ x , Y ≤ y) = P (X ≤ x) · P (Y ≤ y) für alle x, y ∈ R ,

in Analogie zu Formel (II.14).

Allgemeiner: Die (stetig verteilten) Zufallsvariablen X1 , . . . , Xn heiÿen stochastisch unab-


hängig, falls

P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn ) (II.25)

für alle x1 , x2 , . . . , xn ∈ R.

II.4.3 Erwartungswert, Varianz und Kovarianz

Ist X f , so sagen wir, dass der Erwartungswert E[X] von X


stetig verteilt mit Dichte
existiert, falls die Funktion |x|f (x) uneigentlich Riemann-integrierbar ist (dann ist auch xf (x)
uneigentlich Riemann-integrierbar). Man setzt in diesem Falle

Z +∞
E[X] := xf (x) dx .
−∞

Ist zusätzlich auch die Funktion (x − E[X])2 f (x) uneigentlich Riemann-integrierbar, so de-
niert man die Varianz V [X] durch

Z +∞
V [X] := (x − E[X])2 f (x) dx,
−∞
56 II WAHRSCHEINLICHKEITSRECHNUNG

und die Standardabweichung wie im diskreten Fall durch


p
σX := V [X] .

Die Rechenregeln für Erwartungswerte und Varianz diskret verteilter Zufallsvariablen (siehe
Abschnitt II.3) übertragen sich unmittelbar auf den Fall stetig verteilter Zufallsvariablen. Der
Transformationssatz überträgt sich dabei wie folgt:

Ist h : R → R eine stückweise stetige Funktion, so gilt: Der Erwartungswert der Zufalls-
variablen h(X) existiert genau dann, wenn die Funktion |h(x)|f (x) uneigentlich Riemann-
integrierbar ist, und in diesem Fall ist

Z +∞
E [h(X)] = h(x)f (x) dx . (II.26)
−∞

Tabelle: Gegenüberstellung: diskret und stetig verteilte Zufallsvariablen.

diskrete Zufallsvariable X stetige Zufallsvariable X


diskreter Wertebereich stetiger Wertebereich
{x1 , x2 , . . .} ⊆R
Wahrscheinlichkeitsfunktion Dichte f : R → R+
0 ≤ pX (xk ) ≤ 1 f (x) ≥ 0
P R +∞
k pX (xk ) = 1 −∞ f (x) dx = 1

P Verteilungsfunktion F (x) = P (X ≤ x)
Rx
F (x) = k:xk ≤x pX (xk ) F (x) = −∞ f (t) dt
Wahrscheinlichkeiten
P Rb
P (a ≤ X ≤ b) = k:a≤xk ≤b pX (xk ) P (a ≤ X ≤ b) = a f (x) dx
Erwartungswert
P R +∞
E[X] = k xk pX (xk ) E[X] = −∞ x · f (x) dx
Varianz
2 R +∞
(x − E[X])2 f (x) dx
P
V [X] = k (xk − E[X]) pX (xk ) V [X] = −∞
II.4 Stetige Verteilungen 57

Zwei Zufallsvariablen X und Y heiÿen gemeinsam stetig verteilt mit gemeinsamer ste-
tiger Dichte fXY , falls gilt:

Z a Z b
P (X ≤ a, Y ≤ b) = fXY (x, y) dy dx für alle a, b ∈ R,
−∞ −∞

wobei fXY : R2 → R eine integrierbare Funktion ist mit

• fXY (x, y) ≥ 0 für alle x, y ∈ R, und


R +∞ R +∞
• −∞ −∞ fXY (x, y) dx dy = 1.

Die Berechnung der Kovarianz Cov[X, Y ] erfolgt dann über die gemeinsame Dichte mit Hilfe
der Formel
Z +∞ Z +∞
Cov[X, Y ] = (x − E[X])(y − E[Y ])fXY (x, y) dx dy .
−∞ −∞

Die Rechenregeln für die Kovarianzen für diskret verteilte Zufallsvariablen übertragen sich
Wort für Wort auf den gemeinsam stetig verteilten Fall.

II.4.4 Wichtige stetige Verteilungen

Gleichverteilung

Für a<b heiÿt eine Zufallsvariable mit Dichte


(
1
b−a für x ∈ [a; b],
f (x) =
0 sonst,

(stetig) gleichverteilt auf [a; b]. Die zugehörige Verteilungsfunktion ist


0
 für x < a,
x−a
F (x) = für x ∈ [a; b],
 b−a
1 für x > b.

Für alle Teilintervalle [c; d] folgt aus (II.23) und (II.24)

d−a c−a d−c


P (c ≤ X ≤ d) = F (d) − F (c) = − = .
b−a b−a b−a
Mit anderen Worten: X überdeckt Teilintervalle derselben Länge d−c mit jeweils derselben
Wahrscheinlichkeit. Dies erklärt die Bezeichnung Gleichverteilung.

X nimmt mit Wahrscheinlichkeit 1 nur Werte in [a; b] an, denn

b−a
P (X ∈ [a; b]) = P (a ≤ X ≤ b) = = 1.
b−a
Für Erwartungswert und Varianz einer auf [a; b] gleichverteilten Zufallsvariablen gilt

+∞ b
1 x2 b
Z Z
1 1
E[X] = xf (x) dx = dx = x
= (a + b),
−∞ a b−a 2b−a a 2
Z +∞  2 Z b 2
1 1 1 1
V [X] = x − (a + b) f (x) dx = x − (a + b) dx = (b − a)2 .
−∞ 2 a 2 b−a 12
58 II WAHRSCHEINLICHKEITSRECHNUNG

Exponentialverteilung

Für λ>0 ist


(
λe−λx für x ≥ 0,
fλ (x) =
0 sonst,

eine Dichte. Die zugehörige Verteilung heiÿt Exponentialverteilung zum Parameter λ. Sie
wird mit Exp(λ) bezeichnet.

2.0 Exponentialverteilung

λ=2
1.5
1.0
f(x)

0.5

λ=1
0.0

0 1 2 3 4 5

Die zugehörige Verteilungsfunktion ist

(
0 für x < 0,
F (x) =
1 − e−λx für x ≥ 0.

Die Exponentialverteilung ist das stetige Analogon der geometrischen Verteilung, die ja die
Verteilung von Wartezeiten auf den ersten Erfolg in einer Folge von unabhängigen Bernoul-
li Experimenten beschreibt. Dementsprechend verwendet man die Exponentialverteilung zur
Modellierung von stetig verteilten Wartezeiten (Lebensdauern).

Ist X verteilt gemäÿ Exp(λ), so gilt

Z +∞
1
E[X] = λ xe−λx dx = ,
0 λ
Z +∞  2
1 1
V [X] = λ x− e−λx dx = 2 .
0 λ λ

Normalverteilung

Für µ∈R und σ>0 ist


2
1 1 (x−µ)
fµ,σ2 (x) = √ e− 2 σ2
2πσ

eine Dichte. Die zugehörige Verteilung heiÿt Normalverteilung mit Erwartungswert µ und
Varianz σ2. Sie wird mit N(µ, σ
2 ) bezeichnet. Im Falle µ=0 und σ2 = 1 spricht man von der
Standardnormalverteilung.
II.4 Stetige Verteilungen 59

Normalverteilung

0.8
σ = 0.5

0.6
0.4
f(x)
σ=1

0.2
σ=2
0.0

−4 −2 0 2 4

fµ,σ2 besitzt ein absolutes Maximum in x=µ und Wendepunkte in µ ± σ. Wegen ihrer Form
wird f auch als Gauÿsche Glockenkurve bezeichnet. σ bestimmt Breite und Höhe der
Glockenkurve.

Eine Zufallsvariable X mit Dichte fµ,σ2 heiÿt normalverteilt mit Erwartungswert µ und Vari-
2
anz σ , denn es gilt
Z +∞ 2
1 1 (x−µ)
E[X] = √ xe− 2 σ2 dx = µ,
2πσ −∞
Z +∞ 2
1 1 (x−µ)
V [X] = √ (x − µ)2 e− 2 σ2 dx = σ 2 .
2πσ −∞
Aufgrund der Symmetrie der Dichte fµ,σ2 bzgl. µ stimmt der Median von N(µ, σ
2 ) mit dem

Erwartungswert µ überein.

II.4.5 Weitere Eigenschaften normalverteilter Zufallsvariablen

Standardnormalverteilung

Die Werte der Verteilungsfunktion der Standardnormalverteilung,


Z x
1 t2
Φ(x) := P (Y ≤ x) = √ e− 2 dt für x ≥ 0,
2π −∞

ndet man tabelliert in Formelsammlungen und in jeder guten Programmbibliothek. Da die


Dichte f0,1 der Standardnormalverteilung eine gerade Funktion ist (also f0,1 (−x) = f0,1 (x)),
ergibt sich
Z −x Z ∞ Z x
1 − t2
2 1 − t2
2 1 t2
Φ(−x) = √ e dt = √ e dt = 1 − √ e− 2 dt = 1 − Φ(x) ,
2π −∞ 2π x 2π −∞

also
Φ(−x) = 1 − Φ(x) für alle x ∈ R, (II.27)

woraus sich dann auch die Werte Φ(x) für x≤0 berechnen lassen.

Für die q -Quantile zq der Standardnormalverteilung gilt wegen (II.27)

zq = −z1−q .

Ist X eine N(µ, σ


2 )-verteilte Zufallsvariable, so ist

X −µ
Y =
σ
60 II WAHRSCHEINLICHKEITSRECHNUNG

eine N(0, 1)-verteilte, also standardnormalverteilte, Zufallsvariable. Man kann also die Berech-
nung der Wahrscheinlichkeiten P (X ≤ b) zurückfü hren auf die Berechnung entsprechender
Wahrscheinlichkeiten einer standardnormalverteilten Zufallsvariablen
   
X −µ b−µ b−µ
P (X ≤ b) = P ≤ =P Y ≤ . (II.28)
σ σ σ

Mit Hilfe der Verteilungsfunktion Φ der Standardnormalverteilung berechnet man dann

 
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Y ≤
σ σ
    (II.29)
b−µ a−µ
=Φ −Φ .
σ σ

Insbesondere erhält man das q -Quantil der Verteilung N(µ, σ


2 ) aus dem q -Quantil der Stan-
dardnormalverteilung, zq , als µ + σ · zq .

Linearität

Ist X N(µ, σ
2 )-verteilt, und sind a, b ∈ R mit a 6= 0, so ist a·X +b N(a · µ + b, a
2 σ 2 )-verteilt.

Additivität

Xi , i = 1, . . . , n, unabhängig normalverteilt mit Erwartungswert µi und Varianz 2


Sind
Pn σi , so
ist die Summe Sn = X1 + . . . + Xn wieder normalverteilt mit Erwartungswert i=1 µi und
Pn 2.
Varianz σ
i=1 i

II.4.6 Anwendungen der Normalverteilung

Anwendung: k -σ -Bereiche.
In Abschnitt II.3.3 hatten wir die Ungleichung von Tschebychev kennengelernt, um Wahr-
scheinlichkeiten der Form P (µ − kσ ≤ X ≤ µ + kσ) abzuschätzen. Für normalverteilte Zu-
fallsvariablen erhält man präzisere Abschätzungen für die k -σ -Bereiche: Ist X ∼ N(µ, σ
2 )-

verteilt, so folgt

 
X −µ
P (µ − kσ ≤ X ≤ µ + kσ) = P ≤k = 2Φ(k) − 1,
σ

und damit insbesondere


√ √ 
• P µ− 2σ ≤ X ≤ µ + 2σ ≈ 0.8427,

• P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.9545,

• P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.9973.

Eine weitere wichtige Anwendung der Normalverteilung in der Statistik werden wir in Ab-
schnitt III.1.3 diskutieren: Kondenzintervalle.
II.4 Stetige Verteilungen 61

II.4.7 Aus der Normalverteilung abgeleitete Verteilungsmodelle

Zum Abschluss dieses Abschnitts werden noch einige weitere stetige Verteilungen eingeführt,
welche für die induktive Statistik wichtig sind.

χ2 -Verteilung
Es seien X1 , . . . , Xn unabhängig N(0, 1)-verteilte Zufallsvariablen. Dann heiÿt die Verteilung
der Zufallsvariablen
Zn = X12 + . . . + Xn2
χ2n -Verteilung (oder χ2 -Verteilung mit n Freiheitsgraden).
Aus den Rechenregeln für Erwartungswert und Varianz folgt sofort

E[Zn ] = n , V [Zn ] = V [X12 ] + . . . + V [Xn2 ] = 2n .


| {z } | {z }
=2 =2

Die Dichte gn der χ2n -Verteilung hat die Form


 n x
 n
1
x 2 −1 e− 2 für x > 0,
gn (x) = 2 2 Γ( n
2 )
0 sonst.

Für wachsendes n nähern sich die Dichten gn der Gauÿschen Glockenkurve an, siehe Ab-
schnitt II.5.3, weshalb man ab n > 30 eine Normalapproximation wählt.

χ2−Verteilung
0.30

n=1
0.25

n=3
0.20

n=6
0.15
f(x)

0.10
0.05
0.00

0 2 4 6 8 10 12

Hinweis zur Normalapproximation für n > 30:


2
Die naheliegende Approximation der χn -Verteilung durch N(n, 2n) impliziert eine Approxi-
2 2
mation der q -Quantile χn;q der χn -Verteilung durch die entsprechenden q -Quantile der Nor-

malverteilung N(n, 2n), d.h. durch n+ 2n · zq . Eine bessere Approximation ist aber

1 √ 2
χ2n;q ≈ zq + 2n − 1 ,
2
siehe [1] (Seite 303).

√ 1
√ 2
n χ2n;0.95 n+ 2n · z0.95 2 z0.95 + 2n − 1
5 11.07050 10.20148 10.78733
15 24.99579 24.00923 24.71058
30 43.77297 42.74098 43.48713
40 55.75848 54.71202 55.47255
50 67.50481 66.44854 67.21886
100 124.3421 123.2617 124.0563
62 II WAHRSCHEINLICHKEITSRECHNUNG

t-Verteilung
Es seien X und Zn unabhängige Zufallsvariablen, X sei N(0, 1)-verteilt und Zn sei χ2n -verteilt.
Dann heiÿt die Verteilung der Zufallsvariablen

X
Tn := p
Zn /n

tn -Verteilung (oder t-Verteilung mit n Freiheitsgraden).


Es gilt
n
E[Tn ] = 0 , V [Tn ] = für n ≥ 3.
n−2

Die Dichte hn der tn -Verteilung ist gegeben durch

n+1
 − n+1
x2

Γ 1 2
hn (x) = n
2 1
√ 1+ .
Γ 2 Γ 2 n n

Die Dichte hn hat eine ähnliche Form wie die Gauÿsche Glockenkurve, jedoch für kleine n
breitere Enden (heavy tails) als die Standardnormalverteilung. Für n ≥ 30 ist jedoch eine
Approximation durch die Standardnormalverteilung bereits sehr gut.

t−Verteilung
0.5

n=2
n=20
0.4
0.3
f(x)

0.2
0.1
0.0

−4 −2 0 2 4

Wie für die Quantile der Standardnormalverteilung gilt auch für die Quantile tn;q der tn -
Verteilung

tn;q = −tn;1−q .

Wichtige Anwendung: (vgl. Abschnitte III.1.3 und III.2.2)


SeienX1 , . . . , Xn unabhängige Zufallsvariablen, jeweils verteilt gemäÿ N(µ, σ
2 ). Sei X :=
1 Pn 2 1 Pn
2
n i=1 Xi das empirische Mittel, sei SX := n−1 i=1 Xi − X die Stichprobenvarianz.
Dann gilt (siehe [7]):

• X und
2
SX sind unabhängig voneinander;

• X ist N(µ, σ
2 /n)-verteilt;

2 /σ 2
• (n − 1) · SX ist χ2n−1 -verteilt;

• n · (X − µ)/SX ist tn−1 -verteilt.
II.4 Stetige Verteilungen 63

F -Verteilung (Fisher-Verteilung)
Es seien Zm und Z̃n unabhängig, Zm χ2m -verteilt, Z̃n χ2n -verteilt. Dann heiÿt die Verteilung
der Zufallsvariablen
 
Zm,n := (Zm /m) Z̃n /n

Fm,n -Verteilung (oder F -Verteilung mit m und n Freiheitsgraden).


Es gilt
n
E[Zm,n ] = für n ≥ 3,
n−2
2n2 (n + m − 2)
V [Zm,n ] = für n ≥ 5.
m(n − 4)(n − 2)2

Die Dichte fm,nFm,n -Verteilung ist gegeben durch


der

(
Γ((m+n)/2) m/2 nn/2 xm/2−1 (n + mx)−(m+n)/2
fm,n (x) = Γ(m/2)Γ(n/2) m für x > 0,
0 sonst.

F−Verteilung, m=10 F−Verteilung, m=100


1.0

2.0

n=100
0.8

1.5

n=10
0.6
f(x)

f(x)

1.0

n=2 n=100
0.4

n=10
0.5

n=2
0.2
0.0

0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0

x x

Für die Quantile Fm,n;q der Fm,n -Verteilung gilt

1
Fm,n;q = ,
Fn,m;1−q

denn !
Zm . Z̃n
q = P (Zm,n ≤ Fm,n;q ) = P ≤ Fm,n;q
m n
! !
Z̃n . Zm 1 Z̃n . Zm 1
=P ≥ =1−P ≤ .
n m Fm,n;q n m Fm,n;q

Tabelle: Erwartungswerte und Varianzen stetiger Verteilungen.

E[X] V [X]
a+b (b−a)2
X gleichverteilt
2 12
auf [a; b]
1 1
X ∼ Exp(λ) λ λ2
X ∼ N(µ, σ 2 ) µ σ2
X ∼ χ2n n 2n
n
X ∼ tn 0 n−2 für n ≥ 3
n 2n2 (n+m−2)
X ∼ Fm,n n−2 für n≥3 m(n−4)(n−2)2
für n ≥5
64 II WAHRSCHEINLICHKEITSRECHNUNG

II.5 Grenzwertsätze
II.5.1 Das Gesetz der groÿen Zahlen

Werfen wir eine faire Münze n mal und setzen wir Xk = 1 (bzw. Xk = 0) falls beim k -ten
Münzwurf Kopf (bzw. Zahl) oben liegt, so nähert sich die relative Häugkeit für Kopf,

n
1X
Xk ,
n
k=1

1
für wachsendes
Pn n immer stärker der Wahrscheinlichkeit für Kopf, nämlich
2 . Man bezeichnet
1
n k=1 Xk auch als empirisches Mittel. In der folgenden Grak ist als Illustration die Folge
der empirischen Mittel für insgesamt 1000 (simulierte) Münzwürfe aufgetragen.

Relative Häufigkeit von Kopf


0.6
0.4
Y

0.2
0.0

0 200 400 600 800 1000

Diese Beobachtung gilt ganz allgemein für die relativen Häugkeiten eines beliebigen Ereig-
nisses bzw. das empirische Mittel in einer unabhängigen Wiederholung ein und desselben
Zufallsexperimentes. Sie wird als Gesetz der groÿen Zahlen bezeichnet.

Satz (Gesetz der groÿen Zahlen)


Es sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariablen mit gemeinsamem Erwartungswert
E[Xk ] = µ < ∞ und gemeinsamer Varianz V [Xk ] = σ 2 < ∞. Sei X n := n1 nk=1 Xk das
P
empirische Mittel zu Stichprobengröÿe n.

Dann folgt für alle ε > 0: 


lim P Xn − µ ≥ ε = 0 .
n→∞

Bemerkung:
Die obige Aussage zur Asymptotik der relativen Häugkeiten eines Ereignisses A leitet sich
aus dem Satz wie folgt ab: Es sei

(
1 falls A in der k -ten Wiederholung eintritt,
Xk :=
0 sonst.

Dann sind die X1 , X2 , . . . eine Folge unabhängig Bernoulli-verteilter Zufallsvariablen mit Para-
π := P (A) = E[Xk ]. Für die relativen Häugkeiten rn (A) := n1 nk=1 Xk des Ereignisses
P
meter
A in n Wiederholungen gilt dann die Aussage des Gesetzes der groÿen Zahlen:

lim P (|rn (A) − π| ≥ ε) = 0 für alle ε > 0.


n→∞
II.5 Grenzwertsätze 65

Beweis des Gesetzes der groÿen Zahlen:

Es sei n fest gewählt. Wir denieren die Zufallsvariable

n
1X
X n := Xk .
n
k=1

Da E[Xk ] = µ für alle k , folgt aus der Linearität des Erwartungswertes (vgl. Abschnitt II.3.1),
dass " n n
#
1X 1X
E[X n ] = E Xk = E[Xk ] = µ .
n n
k=1 k=1

Die Zufallsvariablen X1 , . . . , Xn sind nach Annahme unabhängig, also besagt die Identität von
Bienaymé (vgl. Abschnitt II.3.2), dass

n n
" #
1X 1 X 1 σ2
V [X n ] = V Xk = 2 V [Xk ] = 2 nσ 2 = .
n n n n
k=1 k=1

Die Tschebyschowsche Ungleichung aus Abschnitt II.3.3, angewandt auf X n, ergibt die Ab-
schätzung

  V [X n ] σ2
P Xn − µ ≥ ε = P X n − E[X n ] ≥ ε ≤ = .
ε2 ε2 n
σ2
Da
ε2 n
→0 für n → ∞, folgt schlieÿlich auch


lim P Xn − µ ≥ ε = 0 .
n→∞

II.5.2 Der Hauptsatz der Statistik (Satz von Glivenko-Cantelli)

Es sei X eine Zufallsvariable mit Verteilungsfunktion F und es bilden X1 , X2 , . . . eine Folge


von unabhängig und identisch verteilten Zufallsvariablen mit derselben Verteilungsfunktion
F. Dann gilt für die Folge der zugehörigen empirischen Verteilungsfunktionen (vgl. Ab-
schnitt I.2.2)

1 
Fn (x) := · i ∈ {1, . . . , n} | Xi ≤ x
n
= relative Häugkeit rn (A) des Ereignisses A = {X ≤ x}  ,

der ersten n Realisierungen X1 , . . . , Xn , dass

 
lim P sup |Fn (x) − F (x)| ≥ ε = 0 für alle ε > 0,
n→∞ x∈R

d.h. die maximale Abweichung zwischen empirischer Verteilungsfunktion rn und Verteilungs-


funktion F konvergiert mit wachsendem n in Wahrscheinlichkeit gegen 0.
66 II WAHRSCHEINLICHKEITSRECHNUNG

II.5.3 Der zentrale Grenzwertsatz

X1 , X2 , . . . eine Folge unabhängiger und identisch


Es sei verteilter Zufallsvariablen mit E[Xk ] =
2 1 Pn
µ < ∞ und Varianz V [Xk ] = σ < ∞. Sei X n := n k=1 Xk das empirische Mittel zu Stich-
probengröÿe n. Betrachtet man die standardisierten Summen
Pn
Sn − E[Sn ] X − nµ √ X n − µ

Sn := p = k=1 √ k = n ,
V [Sn ] nσ 2 σ

so kann man beweisen, dass die zugehörigen Verteilungsfunktionen

√ Xn − µ
 
FSn∗ (x) := P (Sn∗ ≤ x) = P n ≤x
σ
punktweise für alle x gegen die Verteilungsfunktion der Standardnormalverteilung konvergie-
ren, d.h. es gilt:
Z x
1 t2
lim FSn∗ (x) = √ e− 2 dt = Φ(x) für alle x ∈ R.
n→∞ 2π −∞

Man sagt auch, dass die standardisierten Summen asymptotisch normalverteilt sind und
bezeichnet die Aussage als zentralen Grenzwertsatz .

Die Bedeutung des zentralen Grenzwertsatzes für die induktive Statistik besteht vor allem dar-
in, dass man aufgrund der Aussage dieses Satzes die Verteilung einer standardisierten Summe
Sn∗ von unabhängig und identisch verteilten Zufallsvariablen (in der induktiven Statistik: die
Stichprobenvariablen) mit wachsendem n (in der induktiven Statistik: mit wachsender Stich-
probenlänge) zunehmend besser durch eine Standardnormalverteilung approximieren kann.
Diese Approximation heiÿt Normalapproximation. Insbesondere impliziert dies, dass die
in Abschnitt II.4.6 getroenen Aussagen zu Kondenzintervallen, welche ja exakt nur für
normalverteilte Stichproben gelten, in guter Näherung auch ganz allgemein gelten, wenn n
ausreichend groÿ ist (gängige Faustregel: n ≥ 30, siehe etwa [10]).

II.5.4 Der Satz von de Moivre-Laplace

Man kann den zentralen Grenzwertsatz insbesondere auf die n-fache unabhängige Wiederho-
lung ein und desselben Bernoulli-Experimentes anwenden. Ist A ein Ereignis mit Wahrschein-
lichkeit π := P (A) und
(
1 falls A in der k -ten Wiederholung eintritt,
Xk :=
0 sonst,

so sind X1 , X2 , . . . unabhängig Bernoulli-verteilt (Bernoulli-Kette) mit µ = E[Xk ] = π und


σ 2 = V [Xk ] = π(1 − π), siehe die Abschnitte II.2.4 und II.3. Die Stichprobensumme Sn =
X1 + . . . + Xn ist dann binominalverteilt gemäÿ Bin(n, π).
Für die standardisierten Häugkeiten

Sn − nπ √ Xn − π
Sn∗ = p = np
nπ(1 − π) π(1 − π)
folgt dann aus dem zentralen Grenzwertsatz, dass diese asymptotisch normalverteilt sind, d.h.

lim P (Sn∗ ≤ x) = Φ(x) für alle x ∈ R.


n→∞

Diese Aussage wird als Satz von de Moivre-Laplace bezeichnet, und er impliziert, die Bino-
mialverteilung Bin(n, π) für groÿe n durch die Normalverteilung zu approximieren (Normal-
approximation). Eine gängige Faustregel besagt, dass diese Normalapproximation dann aus-
reichend gut ist, wenn V [Sn ] = nπ(1 − π) > 9 erfüllt ist.
II.5 Grenzwertsätze 67

Bemerkung: In der Literatur wird häug eine Stetigkeitskorrektur zur Verbesserung der
Normalapproximation der Binomialverteilung vorgeschlagen, d. h. statt

!
k − nπ
P (Sn ≤ k) ≈ Φ p
nπ(1 − π)

approximiert man !
k − nπ + 0.5
P (Sn ≤ k) ≈ Φ p .
nπ(1 − π)

Zum Abschluss des Kapitels die beiden Approximationen der Binomialverteilung im Überblick:

Binomialverteilung Bin(n, π)
n
π k (1 − π)n−k

P (X = k) = k
 A
 A
 A
Poisson-Approximation  A Normalapproximation für
nπn → λ
√Sn −nπ , π konstant, n → ∞
 A
 A nπ(1−π)
 A
 AU
Poisson-Verteilung Poi(λ) Normalverteilung N(0, 1)
k
P (X = k) = e−λ λk! P (X ≤ x) = Φ(x)
68 III INDUKTIVE STATISTIK

III Induktive Statistik


Im Gegensatz zur deskriptiven Statistik, die sich auf die Beschreibung von Daten anhand von
Kennzahlen und Graken beschränkt, versucht die induktive (d.h. die schlieÿende) Statistik,
von beobachteten Daten auf deren Verteilungen (oder Eigenschaften ihrer Verteilungen) zu
schlieÿen. Dies kann zum Beispiel dann notwendig sein, wenn eine vollständige Datenerhebung
unmöglich, zu zeitaufwändig oder zu kostspielig ist, wie es etwa bei Umfragen der Fall ist.

In der schlieÿenden Statistik gibt es im Wesentlichen drei zu bearbeitende Problemstellungen:

1. Konstruktion eines Schätzers für einen Parameter der unbekannten Verteilung;

2. Berechnung von Kondenzintervallen, d.h. von Schranken, die einen unbekannten


Parameter mit vorgegebener Wahrscheinlichkeit einfangen;

3. Entwicklung statistischer Tests, mit denen vorgegebene Parameter auf Verträglichkeit


mit Beobachtungen überprüft werden können.

III.1 Schätzen
III.1.1 Punktschätzer

Ausgangspunkt ist eine Grundgesamtheit G von Merkmalsträgern. Unter einer Stichprobe-


nerhebung versteht man eine zufällige Entnahme von endlich vielen Objekten aus G. Dabei
bedeutet zufällig, dass für jedes Objekt die Wahrscheinlichkeit der Entnahme gleich ist.
In der Sprache der Wahrscheinlichkeitstheorie handelt es sich bei der Stichprobenerhebung
um Zufallsexperimente, deren Ausgang man durch Zufallsvariablen

X1 , X2 , . . . , Xn

beschreiben kann. In diesem Zusammenhang nennt man die Xi auch Stichprobenvariablen.


In der Regel betrachtet man nur unabhängige Wiederholungen desselben Zufallsexperiments,
d.h. die Stichprobenvariablen X1 , . . . , Xn sind stochastisch unabhängig und identisch ver-
teilt (i.i.d.).

Unter dem Stichprobenergebnis oder der Stichprobenrealisation versteht man dann das
n-Tupel (x1 , . . . , xn ) der Realisierung von (X1 , . . . , Xn ).
Eine Punktschätzung ist eine Funktion g : Rn → R. Sie ordnet der Stichprobenrealisation
x1 , . . . , x n den Schätzwert g(x1 , . . . , xn ) zu.
Der zugehörige Schätzer (auch: Schätzfunktion, Statistik) g(X1 , . . . , Xn ) ist diejenige Zu-
fallsvariable, die man durch Einsetzen der Stichprobenvariablen Xi für xi in die Funktion g
erhält.

Beispiele: X1 , . . . , Xn seien i.i.d. mit Erwartungswert µ und Varianz σ2.


Schätzfunktion Bezeichnung Erwartungswert Varianz

1 Pn σ2
X= n i=1 Xi Stichprobenmittel µ n

√ X−µ
n· σ Gauÿ-Statistik 0 1

1 Pn n−1
n i=1 (Xi − X)2 mittlere quadratische
n · σ2
Abweichung

1 Pn
S2 = n−1 i=1 (Xi − X)2 Stichprobenvarianz σ2
√ √ X−µ
für die Stichprobenstandardabweichung S = S2 und die t-Statistik n· S liegen keine
einfachen, geschlossenen Ausdrücke für Erwartungswert und Varianz vor.
III.1 Schätzen 69

Im Folgenden wollen wir annehmen, dass die (unbekannte) Verteilung der Stichprobenva-
riablen aus einer Menge möglicher Verteilungen stammt, die über einen Parameter θ ∈Θ
parametrisiert sind.

Beispiel: Die Xi seien N(µ, σ 2 )-verteilt mit unbekanntem Erwartungswert µ und unbekann-
2
ter Varianz σ . In diesem Falle ist also θ = (µ, σ )
2 > aus Θ = R × (0; ∞) eine (mögliche)

Parametrisierung der zugrundeliegenden Verteilungen.

Ist nun T = g(X1 , . . . Xn ) ein Schätzer, so wird der Erwartungswert E[T ] abhängen von der
Verteilung der Zufallsvariablen Xi . Um diese Abhängigkeit im Folgenden kenntlich zu machen,
schreiben wir Eθ [T ] für E[T ], wenn die zu θ gehörende Verteilung die tatsächliche Verteilung
der Xi ist.

Ein einzelner, zu Schätzender Parameter aus der Menge der zugrundeliegenden Verteilungen
kann nun realisiert werden als Abbildung

τ: Θ → R,
d.h. τ (θ) ist der wahre Parameterwert, falls die zugrundeliegende Verteilung durch den Wert θ
bestimmt ist.

Eigenschaften von Schätzern

Erwartungstreue

Ein Schätzer T = g(X1 , . . . , Xn ) heiÿt erwartungstreu für den Parameter τ, falls

Eθ [T ] = Eθ [g(X1 , . . . , Xn )] = τ (θ)
für jedes θ ∈ Θ.

Mit anderen Worten: Bestimmt man den Erwartungswert von T unter der Voraussetzung,
dass der Parameter θ zugrundeliegt, ergibt sich τ (θ) als Erwartungswert.

Beispiele: X1 , . . . , Xn seien i.i.d. Wiederholungen von X.


1 Pn
(i) Das Stichprobenmittel X= n i=1 Xi ist ein erwartungstreuer Schätzer für den Erwar-
tungswert µ = Eθ [X], denn

n
1X
Eθ [X] = Eθ [Xi ] = µ .
n
i=1

(ii) Die mittlere quadratische Abweichung

n
1X 2
T = Xi − X
n
i=1

σ 2 = Vθ [X] = Eθ (X − Eθ [X])2 ,
 
ist kein erwartungstreuer Schätzer für die Varianz
denn
n h i n−1
1 X 2

2
Eθ [T ] = Eθ [Xi2 ] − 2Eθ [Xi X] + Eθ [X ] = Eθ [X12 ] − Eθ X = · σ2 ,
n n
i=1

denn
n
h i
2 1 X n−1 1
Eθ X = 2 Eθ [Xi Xj ] = · Eθ [X]2 + · Eθ [X 2 ] .
n n n
i,j=1

n
Im Gegensatz hierzu ist die Stichprobenvarianz S2 = n−1 ·T ein erwartungstreuer Schät-
zer für σ2, denn
n
Eθ S 2 = · Eθ [T ] = σ 2 .
 
n−1
70 III INDUKTIVE STATISTIK

Als Abschwächung der Erwartungstreue betrachtet man asymptotische Erwartungstreue


bei wachsender Stichprobenlänge. Dazu nimmt man an, dass zu jeder Stichprobenlänge n ein
Tn = gn (X1 , . . . , Xn ) für τ (θ) gegeben ist. Die Folge T1 , T2 . . .
Schätzer heiÿt asymptotisch
erwartungstreu (für τ ), falls
lim Eθ [Tn ] = τ (θ)
n→∞

für jedes θ ∈ Θ.

Beispiel: Die mittlere quadratische Abweichung

n
1X 2
Tn = Xi − X
n
i=1

ist asymptotisch erwartungstreu für die Varianz, denn

 
1
Eθ [Tn ] = 1− · Vθ [X] −→ Vθ [X] .
n n→∞

für einen nicht erwartungstreuen Schätzer T bezeichnet man die Abweichung

Biasθ [T ] := Eθ [T ] − τ (θ)

als Verzerrung (oder Bias), ein erwartungstreuer Schätzer heiÿt auch unverzerrt.

Der mittlere quadratische Fehler

M SE[T ] := Eθ (T − τ (θ))2
 

ist ein Maÿ für die Schätzgüte. M SE steht dabei für mean squared error.

Struktur des mittleren quadratischen Fehlers:

M SE[T ] = Eθ (T − τ (θ))2 = Vθ [T ] + Biasθ [T ]2 ,


 

d.h. der M SE kann als eine Art übergeordnetes Gütemaÿ verstanden werden, welches Aus-
kunft gibt sowohl über die Streuung des Schätzers als auch über dessen Verzerrung.

Beweis:

Eθ [(T − τ (θ))2 ] = Eθ [T 2 ] − 2Eθ [T ] · τ (θ) + τ (θ)2


= Eθ [T 2 ] − (Eθ [T ])2 + (Eθ [T ])2 − 2Eθ [T ] · τ (θ) + τ (θ)2
= Vθ [T ] + (Eθ [T ] − τ (θ))2 .

Es sei T1 , T2 , . . . wieder eine Folge von Schätzern für τ (θ). Dann heiÿt diese Folge

• konsistent im quadratischen Mittel, falls

lim M SE[Tn ] = lim Eθ (Tn − τ (θ))2 = 0;


 
n→∞ n→∞

• schwach konsistent, falls

lim Pθ (|Tn − τ (θ)| ≥ ε) = 0 für alle ε > 0.


n→∞
III.1 Schätzen 71

Aufgrund der Ungleichung von Tschebyschow aus Abschnitt II.3.3 ist klar, dass aus Konsistenz
im quadratischen Mittel immer schwache Konsistenz folgt. Im Fall Eθ [Tn ] = τ (θ) sieht man
das sofort, da

1
· Eθ (Tn − τ (θ))2 → 0
 
Pθ (|Tn − τ (θ)| ≥ ε) ≤ 2
für n → ∞.
ε

1 Pn
Beispiel: Das Stichprobenmittel X = n i=1 Xi ist konsistent im quadratischen Mittel für
den Erwartungswert µ = Eθ [X] (und damit auch schwach konsistent), denn

1
Eθ [(X − µ)2 ] = · Vθ [X] → 0 für n → ∞.
n
Analog ist die Stichprobenvarianz S2 schwach konsistent für die Varianz σ2.

Ezienz von Schätzern

Der mittlere quadratische Fehler eines Schätzers liefert ein Vergleichskriterium zwischen den
verschiedenen Schätzern für τ. Von zwei Schätzern T1 , T2 mit

M SE[T1 ] ≤ M SE[T2 ]

nennen wir den Schätzer T1 mit dem kleineren mittleren quadratischen Fehler wirksamer für
die Schätzung von τ (θ) als T2 .
Beschränkt man sich beim Vergleich zweier Schätzer auf erwartungstreue Schätzer, also Schät-
zer mit
Bias[Ti ] = 0 und damit M SE[Ti ] = V [Ti ] ,
so reduziert sich der Vergleich der mittleren quadratischen Fehler auf den Vergleich der Vari-
anzen.

Sind T1 , T2 zwei erwartungstreue Schätzer für τ (θ), so heiÿt T1 ezienter (bzw. wirksamer)
als T2 , falls
V [T1 ] ≤ V [T2 ].

Bemerkung. (Cramér-Rao Schranke)


Die Varianz eines erwartungstreuen Schätzers kann nicht beliebig klein werden, sondern wird
nach unten beschränkt durch die sog. Cramér-Rao Schranke. Wir wollen diese Schranke
hier nicht angeben, sondern nur bemerken, dass sie von der Variation der Verteilungen in
Abhängigkeit von θ abhängt. Ein erwartungstreuer Schätzer, dessen Varianz diese untere
Schranke annimmt, heiÿt ezient (oder wirksamst).

Beispiel:
1 Pn
X= n i=1 Xi ist ein ezienter Schätzer für den Erwartungswert, wenn man

• alle Verteilungen mit endlicher Varianz zulässt;

• alle Normalverteilungen zulässt.


72 III INDUKTIVE STATISTIK

III.1.2 Prinzipien zur Konstruktion von Schätzern

Maximum-Likelihood-Schätzer

Es seien X1 , . . . , Xn zunächst diskret verteilt und

f (x1 , . . . , xn | θ) = Pθ (X1 = x1 , . . . , Xn = xn )

die Wahrscheinlichkeitsfunktion zur gemeinsamen Verteilung der Stichprobenvariablen bei zu-


grundeliegender Verteilung zum Parameter θ. Zu gegebener Stichprobe x1 , . . . , xn heiÿt die
Funktion
L : θ 7−→ f (x1 , . . . , xn | θ) , θ ∈ Θ,
die Likelihood-Funktion, denn sie gibt an, wie wahrscheinlich die gewonnene Stichprobe
x1 , . . . , x n bei angenommener zugrundeliegender Verteilung zum Parameter θ ist.

Die Grundidee der Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) besteht darin,


als Schätzer für θ gerade denjenigen Wert θ̂ zu wählen, für den die gewonnene Stichprobe am
wahrscheinlichsten ist, also θ̂ mit

L(θ̂) = max L(θ) = max f (x1 , . . . , xn | θ) .


θ∈Θ θ∈Θ

Der Einfachheit halber betrachten wir im Folgenden nur unabhängig und identisch verteilte
Stichprobenvariablen. Dann bekommt die Likelihood-Funktion die Produktgestalt

L(θ) = f (x1 , . . . , xn | θ) = f (x1 | θ) · · · f (xn | θ) (III.1)

mit f (xi | θ) = Pθ (Xi = xi ).

Sind die Stichprobenvariablen zu θ ∈ Θ stetig verteilt mit Dichte f (x | θ), so ersetzt man
in der Likelihood-Funktion (III.1) die Wahrscheinlichkeitsfunktion der Verteilung durch die
entsprechende Dichte.

Bemerkung: über Existenz (und Eindeutigkeit) des Maximums der Likelihood-Funktion wird
hier keine Aussage gemacht! Insbesondere muss i. Allg. der Maximum-Likelihood-Schätzer
nicht existieren, oder er muss nicht eindeutig bestimmt sein.

Die Bestimmung der Maximum-Likelihood-Schätzung erfolgt in der Regel durch Nullsetzen


der Ableitung der Likelihood-Funktion L. Wegen der Produktgestalt von L in (III.1) ist es
zweckmäÿig, L zunächst zu logarithmieren (ln (·) ist streng monoton wachsend),

n
X
`(θ) := ln L(θ) = ln f (xi | θ), (III.2)
i=1

und dann zu maximieren. ` heiÿt Log-Likelihood-Funktion.

Beispiel: Bernoulli-Kette.

X1 , . . . , Xn sei eine Bernoulli-Kette mit unbekannter Erfolgswahrscheinlichkeit π ∈ (0; 1).

sn = x1 + . . . + xn

sei die beobachtete Anzahl der Erfolge. Die (Log-)Likelihood-Funktion hat die Form

L(π) = π sn · (1 − π)n−sn bzw. `(π) = sn · ln (π) + (n − sn ) · ln (1 − π).


sn
In diesem Falle ist π̂ = n das eindeutig bestimmte Maximum, also die (eindeutig bestimmte)
Maximum-Likelihood-Schätzung für π.
III.1 Schätzen 73

sn 1
Insbesondere: Die Maximum-Likelihood-Schätzung π̂ = n = n (x1 + . . . + xn ) ist gerade
das Stichprobenmittel!

Beispiel: Normalverteilung.

X1 , . . . , Xn seien unabhängig N(µ, σ


2 )-verteilt, also θ = (µ, σ)> . Die zugehörige Likelihood-
Funktion hat dann die Gestalt

n
n !
1 X (xi − µ)2

1
L(µ, σ) = Πni=1 fµ,σ2 (xi ) = √ exp − .
2πσ 2 σ2
i=1

Logarithmieren ergibt

√ n
 1X (xi − µ)2
`(µ, σ) = ln L(µ, σ) = −n ln 2πσ − ,
2 σ2
i=1

mit den partiellen Ableitungen

n n
∂ X xi − µ ∂ n X (xi − µ)2
`(µ, σ) = , `(µ, σ) = − + .
∂µ σ2 ∂σ σ σ3
i=1 i=1

Nullsetzen der partiellen Ableitungen liefert die Maximum-Likelihood-Schätzung

n n
1X 1X
µ̂ = xi = x̄ und σ̂ 2 = (xi − µ̂)2 . (III.3)
n n
i=1 i=1

Hier hat man schlieÿlich noch zu überprüfen, dass (III.3) tatsächlich (eindeutig bestimmtes)
Maximum der Likelihood-Funktion ist.

Insbesondere: Die Maximum-Likelihood-Schätzung µ̂ für µ entspricht dem Stichprobenmit-


tel, diejenige für σ2 der mittleren quadratischen Abweichung der Beobachtungswerte von µ̂.

Tabelle: Maximum-Likelihood-Schätzer.

• X1 , . . . , Xn seien stochastisch unabhängig und identisch verteilt,

• x1 , . . . , xn die zugehörigen Realisierungen,

• x̄ = n1 ni=1 xi sei Stichprobenmittel, sn := ni=1 xi


P P
die Stichprobensumme.

Likelihood-Funktion ML-Schätzer
Xi ∼ Bernoulli(π) L(π) = π sn · (1 − π)n−sn π̂ = X̄
π ∈ [0; 1] unbekannt
Xi ∼ Geom(π) L(π) = (1 − π)sn −n · π n π̂ = 1

π ∈ (0; 1] unbekannt
Qn
Xi ∼ Poi(λ) L(λ) = e−nλ λsn 1
i=1 xi ! λ̂ = X̄
λ > 0 unbekannt  n  
(xi −µ)2
2) √1 exp − 12 ni=1
P
Xi ∼ N(µ, σ L(µ, σ) = 2πσ σ2
µ̂ = X̄
Pn
µ∈ R, σ 2
> 0 unbek. σ̂ 2 = n1 i=1 (Xi − X̄)2
Xi ∼ Exp(λ) L(λ) = λn e−λsn λ̂ = X̄1
λ > 0 unbekannt
74 III INDUKTIVE STATISTIK

Kleinste-Quadrate-Schätzung

Ein weiteres Prinzip der ParameterSchätzung besteht in der Minimierung der Summe der
quadratischen Abweichungen zwischen Beobachtungswerten und zu Schätzendem Wert. Dieses
Prinzip haben wir bereits bei der Regression in Abschnitt I.3.4 kennengelernt.

Beispiel: Arithmetisches Mittel.

Minimierung der quadratischen Abweichung Q(µ) vom Erwartungswert µ,


n
X
min Q(µ) = min (xi − µ)2 ,
µ∈R µ∈R
i=1
1 Pn
führt wieder auf das Stichprobenmittel µ̂ = n i=1 xi ,
n n
! !
X X
denn Q0 (µ) = −2 · (xi − µ) = −2 · xi − nµ und Q00 (µ) = 2n > 0.
i=1 i=1

III.1.3 Intervall-Schätzungen

Die bisher konstruierten Schätzer liefern zu gegebenen Beobachtungen x1 , . . . , x n eine Schät-


zung g(x1 , . . . , xn ) für den unbekannten Parameter τ (θ). Daher spricht man auch von Punkt -
Schätzungen. In den seltensten Fällen wird die Schätzung exakt mit τ (θ) übereinstimmen,
sondern bestenfalls in der Nähe liegen. Daher ist es zweckmäÿiger, zu gegebener Beobach-
tung ein Intervall
I(x1 , . . . , xn ) = [U (x1 , . . . , xn ) ; O(x1 , . . . , xn )]
anzugeben, in dem der wahre Parameter τ (θ) mit einer vorgegebenen Sicherheit 1−α
(Kondenzniveau) liegt. Dies erreicht man durch folgende Konstruktion:

Es liege noch keine Realisation vor, die Zufalls variablen X1 , . . . , Xn seien noch nicht beobach-
tet. Dann denieren wir ein Intervall so, dass der wahre Parameter τ (θ) mit Wahrscheinlichkeit
1−α darin liegen wird, also:
 
Pθ τ (θ) ∈ [U (X1 , . . . , Xn ); O(X1 , . . . , Xn )] ≥ 1 − α für alle θ ∈ Θ.

1−α heiÿt Kondenzniveau (Kondenzwahrscheinlichkeit), das Intervall I(X1 , . . . , Xn )


Kondenzintervall für τ (θ) zum Kondenzniveau 1 − α.
Wurde eine konkrete Stichprobe x1 , . . . , x n realisiert und das zug. Intervall I(x1 , . . . , xn ) aus-
gerechnet, so können wir gemäÿ Konstruktionsprinzip mit einer Sicherheit von 1 − α darauf
vertrauen, dass der wahre Parameterwert von τ (θ) im berechneten Intervall I(x1 , . . . , xn )
liegt.

Beispiel: für 100 simulierte Datensätze der Gröÿe 40, wobei alle Stichprobenvariablen unab-
hängig und N(1, 1)-verteilt sind, wurde jeweils ein Kondenzintervall für den unbekannten
Erwartungswert µ gemäÿ Formel (III.5) (siehe unten) zum Kondenzniveau 95 % berechnet.
Die grasche Darstellung,
2.5

Μ=1, Treffer: 94
2.0

1.5

1.0

0.5

0.0
20 40 60 80 100

zeigt, dass im konkreten Fall 94 % der Kondenzintervalle den wahren Wert µ = 1 überdecken.
III.1 Schätzen 75

Kondenzintervalle für unabhängige normalverteilte Stichprobenvariablen

Es seien X1 , . . . , Xn unabhängig N(µ, σ


2 )-verteilt.

(i) Kondenzintervall für µ bei bekannter Varianz σ 2 = σ02 .

Θ = {(µ, σ0 )> | µ ∈ R}, τ (µ, σ0 ) = µ .

Eine Punktschätzung für τ ist das Stichprobenmittel

n
1X
x= xi .
n
i=1

Der zugehörige Schätzer,


n
1X
X= Xi ,
n
i=1
σ02
ist bei zugrundeliegendem Parameter θ = (µ, σ0 )> gemäÿ Abschnitt II.4.7 N(µ,
n )-
verteilt. Damit ist die zugehörige Gauÿ-Statistik

√ X −µ
Y = n· N(0, 1)-verteilt. (III.4)
σ0

Zu gegebenem Kondenzniveau 1−α ist also

 
Pθ −z1− α2 ≤ Y ≤ z1− α2 = 1 − α ,

wobei zq das q -Quantil der Standardnormalverteilung bezeichnet, denn


 
Pθ −z1− α2 ≤ Y ≤ z1− α2 = Φ(z1− α2 ) − Φ(−z1− α2 ) = 2 Φ(z1− α2 ) −1 = 1 − α .
| {z }
=1− α
2

Das zugehörige Kondenzintervall hat also die Form

 
σ0 σ0
I(X1 , . . . , Xn ) = X − z1− α2 √ ; X + z1− α2 √ .
n n

(ii) Kondenzintervall für µ bei unbekannter Varianz σ 2 .

Θ = {(µ, σ)> | µ ∈ R, σ > 0} , τ (µ, σ) = µ .

Bei unbekannter Varianz σ2 muss diese erst anhand der Stichprobe x1 , . . . , x n geSchätzt
werden. Dafür bietet sich die Stichprobenvarianz an,

n
2 1 X
s = (xi − x)2 ,
n−1
i=1

mit zugehörigem Schätzer

n
1 X
S2 = (Xi − X)2 .
n−1
i=1
76 III INDUKTIVE STATISTIK

Einsetzen in (III.4) liefert als Schätzfunktion

√ X −µ
n· ,
S
und diese ist gemäÿ Abschnitt II.4.7 tn−1 -verteilt. Zu gegebenem Kondenzniveau 1−α
ist also
√ X −µ
 
Pµ,σ −tn−1,1− α2 ≤ n · ≤ tn−1,1− α2 = 1 − α ,
S
wobei tn−1,q das q -Quantil der t-Verteilung mit n − 1-Freiheitsgraden bezeichnet. Das
zugehörige Kondenzintervall hat somit die Form
 
S S
I(X1 , . . . , Xn ) = X − tn−1,1− α2 √ ; X + tn−1,1− α2 √ . (III.5)
n n

(iii) Kondenzintervall für σ2.

Θ = {(µ, σ)> | σ > 0} , τ (µ, σ) = σ 2 .

Eine Punktschätzung für die Varianz σ2 ist die Stichprobenvarianz

n
1 X
s2 = (xi − x)2
n−1
i=1
mit zugehörigem Schätzer

n
1 X
S2 = (Xi − X)2 .
n−1
i=1

Xi −µ
Da X1 , . . . , Xn unabhängig N(µ, σ 2 )-verteilt sind, also die Yi = σ unabhängig N(0, 1)-
verteilt sind, folgt, dass

n  2 n
n−1 2
X Xi − X X
· S = = (Yi − Y )2
σ2 σ
i=1 i=1

χ2n−1 -verteilt ist, vgl. Abschnitt II.4.7. Zu gegebenem Kondenzniveau 1−α ist also

 
n−1
P χ2n−1, α ≤ · S 2 ≤ χ2n−1,1− α = 1 − α,
2 σ2 2

wobei χ2n−1,q das q -Quantil χ2n−1 -Verteilung bezeichnet, denn


der

 
n−1    
P χ2n−1, α ≤ · S 2
≤ χ 2
α
n−1,1− 2 = F 2
χn−1 χ 2
α
n−1,1− 2 − F 2
χn−1 χ 2
n−1, 2 = 1 − α .
α
2 σ2
Es ergibt sich als Kondenzintervall zum Kondenzniveau 1 − α somit
" #
(n − 1)S 2 (n − 1)S 2
I(X1 , . . . , Xn ) = ; .
χ2n−1,1− α χ2n−1, α
2 2

Bemerkung.
Ist die Normalverteilungsannahme an die Stichprobenvariablen X1 , . . . , Xn nicht gerechtfer-
tigt, so kann man unter Ausnutzung des zentralen Grenzwertsatzes (vgl. Abschnitt II.5.3) eine
√ X−µ
Normalapproximation für die standardisierte Summe n· σ betrachten.
III.1 Schätzen 77

Dazu noch der wichtige Spezialfall von unabhängig Bernoulli-verteilten Stichprobenvariablen

X1 , . . . , Xn .

In diesem Falle ist die Summe


Sn = X1 + . . . + Xn
Bin(n, π)-verteilt, bei unbekannter Erfolgswahrscheinlichkeit π . Nach dem Satz von de Moivre-
Laplace (vgl. Abschnitt II.5.4) ist

Sn − nπ √ X −π
Sn∗ := p = n· p
nπ(1 − π) π(1 − π)

näherungsweise N(0, 1)-verteilt, also

 
P −z1− α2 ≤ Sn∗ ≤ z1− α2 ≈ 1 − α .

Hierbei bezeichnet zq wieder das q -Quantil der N(0, 1)-Verteilung. Auösen der Ungleichungen

√ X −π
−z1− α2 ≤ n· p ≤ z1− α2
π(1 − π)

nach π liefert r r
π(1 − π) π(1 − π)
X − z1− α2 ≤ π ≤ X + z1− α2 .
n n
Approximiert man ferner π(1 − π) durchX(1 − X), so ist
 s s 
X(1 − X) X(1 − X) 
I(X1 , . . . , Xn ) = X − z1− α2 ; X + z1− α2
n n

ein approximatives Kondenzintervall für π zum Kondenzniveau 1 − α.

Beispiel. In einem Warenposten mit Bauteilen soll der Anteil der defekten Bauteile geschätzt
werden. Dazu wird eine Stichprobe von 200 Bauteilen überprüft. Angenommen, es werden
dabei 6 defekte Bauteile gefunden, so ergibt sich für den Ausschussanteil bei Kondenzniveau
0.95, also α = 0.05, das approximative Kondenzintervall

[0.0064; 0.0536] .

Interpretation: Mit einer Sicherheit von etwa 95% liegt der tatsächliche Anteil der defekten
Bauteile im getesteten Warenposten zwischen 0.64 Prozent und 5.36 Prozent.
78 III INDUKTIVE STATISTIK

III.2 Testen
III.2.1 Grundlagen aus der Testtheorie

Ein zentrales Problem der Statistik ist die Frage, wie eine Vermutung über eine Eigenschaft
der Verteilung einer Grundgesamtheit anhand einer Stichprobe überprüft werden kann. Eine
solche Vermutung bezeichnet man als Nullhypothese H0 . Ein statistischer Test ist dann
zunächst einmal eine Entscheidungsregel

ϕ(x1 , . . . , xn ) ∈ {0, 1},

die als Funktion der n Beobachtungen x1 , . . . , xn die Hypothese H0 verwirft (falls ϕ(x1 , . . . , xn ) =
1) ϕ(x1 , . . . , xn ) = 0). Demnach ist ein Test durch seinen Verwer-
oder nicht verwirft (falls
fungsbereich (auch: kritischer Bereich), also durch die Menge

K = {(x1 , . . . , xn ) | ϕ(x1 , . . . , xn ) = 1},

eindeutig bestimmt.

Beispiel.
Wir betrachten wieder das Beispiel der Lieferung der Bauteile. Als Vermutung über den Anteil
der defekten Bauteile soll die Nullhypothese

H0 : Anteil der defekten Bauteile beträgt höchstens 10%


mit Hilfe eines statistischen Tests anhand einer Stichprobe von n = 100 Bauteile überprüft
werden. In diesem Fall wird man den Verwerfungsbereich mit Hilfe einer kritischen Schranke
P100
c denieren, ab der man sagt: Ist die beobachtete Anzahl S100 = i=1 Xi > c, so wird die
Nullhypothese verworfen.

Es kann nun allerdings vorkommen, dass die Hypothese in Wahrheit zutrit, aber aufgrund
der getroenen Entscheidungsregel verworfen wird, da die beobachtete Anzahl sn der defekten
Bauteile die kritische Schranke übersteigt (Fehler 1. Art). Die Wahrscheinlichkeit für eine
solche fälschliche Ablehnung von H0 soll möglichst klein sein. Dazu gibt man sich ein Niveau
α vor (etwa α = 0.05) und bestimmt die kritische Schranke c so, dass die Wahrscheinlichkeit
für eine fälschliche Ablehnung der Hypothese maximal α ist.

Man könnte natürlich c so wählen, dass die Wahrscheinlichkeit eines Fehlers 1. Art Null ist
(einfach: Hypothese niemals ablehnen!). Dann wird der statistische Test aber sinnlos, da er
nicht mehr zwischen guter und schlechter Warenprobe unterscheidet. Deshalb wählt man
c minimal, um damit die Wahrscheinlichkeit dafür, die Nullhypothese zu verwerfen, wenn
sie tatsächlich nicht zutrit, zu maximieren. Diese Wahrscheinlichkeit nennt man die Macht
(engl.: power) oder Trennschärfe des statistischen Tests. Das zug. Komplementärereignis,
d.h. die Nullhypothese nicht abzulehnen, obwohl sie gar nicht zutrit, heiÿt Fehler 2. Art.

Die möglichen Ausgänge eines statistischen Tests im überblick:

Entscheidung
für H0 gegen H0
H0 wahr richtig falsch
Fehler 1. Art
H0 falsch falsch richtig
Fehler 2. Art

• Niveau = maximale Wahrscheinlichkeit für einen Fehler 1. Art

• Macht = Komplementärwahrscheinlichkeit für einen Fehler 2. Art


III.2 Testen 79

Ein Signikanztest zum Signikanzniveau α , 0 < α < 1, ist ein statistischer Test zum
Niveau α, d.h. ein Test mit
P (Fehler 1. Art ) ≤ α.

Beispiel. Im obigen Beispiel geht man also wie folgt vor: Zu α wähle c minimal mit

P0.1 (S100 > c) ≤ α .

Hierbei deutet der Index 0.1 an, dass S100 unter H0 im schlechtesten Fall gerade Bin(100, 0.1)-
verteilt ist. Die Normalapproximation für

∗ S100 − 100 · 0.1 S100 − 10


S100 =p =
100 · 0.1(1 − 0.1) 3

ergibt    
∗ c − 10 c − 10
P0.1 (S100 > c) = P0.1 S100 > ≈1−Φ .
3 3
Also ist c minimal zu wählen mit
 
c − 10
Φ = 1 − α, und das liefert c = 3z1−α + 10 .
3

Setzen wir etwa ein Niveau von 5 % an, so ist 3z1−α +10 ≈ 14.9, d.h. die Normalapproximation
führt zu folgender Entscheidungsregel:

Lehne H0 ab, wenn S100 ≥ 15 ist.

tatsächlich erhält man unter Verwendung der exakten Bin (100, 0.1)-Verteilung jedoch, dass
P0.1 (S100 ≥ 15) ≈ 0.073 > 0.05 ist, d.h. das geforderte Niveau α = 0.05 wird nicht eingehalten.
Grund: Die Normalapproximation der Bin (100, 0.1)-Verteilung ist im betrachteten Beispiel
nicht ausreichend gut, vgl. auch die Faustregel in Abschnitt ??.

Unter Verwendung der exakten Bin (100, 0.1)-Verteilung folgt aber, dass P0.1 (S100 > 15) ≈
0.0399 ≤ 0.05 ist. Also sollte c = 15 gewählt werden.

Allgemein: Approximativer Binomialtest. (Gut-Schlecht-prüfung)

Gegeben sei die Summe


Sn = X1 + . . . + Xn
von n unabhängig Bernoulli-verteilten Zufallsvariablen Xi mit unbekanntem Parameter π. Es
bestehe die Nullhypothese
H0 : π ≤ π0
zu fest gewähltem Parameter π0 ∈ [0; 1].
Zu gegebenem Niveau α bestimme man dann die kritische Schranke

p
c= nπ0 (1 − π0 ) · z1−α + nπ0 .
Pn
Die Hypothese ist zu verwerfen, falls die Stichprobensumme sn = i=1 xi gröÿer als c ist.

Die hierbei gemachte Normalapproximation ist für praktische Bedürfnisse als hinreichend zu
erachten, wenn nπ0 (1 − π0 ) > 9 gilt.
80 III INDUKTIVE STATISTIK

Bemerkung. (Zweiseitiger approximativer Binomialtest)


tatsächlich haben wir bei obigem Test nur getestet, ob der Anteil der defekten Bauteile gleich
10% ist, wenn der unbekannte Parameter π aus der Menge [0.1; 1] stammt. Ist allerdings auch
π < 0.1 relevant, so setzt sich der Verwerfungsbereich aus einer unteren kritischen Schranke
cu und einer oberen kritischen Schranke co zusammen:

K = {(x1 , . . . , xn ) | sn < cu } ∪ {(x1 , . . . , xn ) | sn > co },

und man spricht von einem zweiseitigen Ablehnungsbereich.

Zweckmäÿigerweise wählt man dann zu gegebenem Niveau α


p
cu = − nπ0 (1 − π0 ) · z1− α2 + nπ0
p
co = nπ0 (1 − π0 ) · z1− α2 + nπ0 ,

d.h., die Nullhypothese wird verworfen, wenn die Stichprobensumme kleiner cu oder gröÿer co
ist, oder in Gröÿen der standardisierten Summe

Sn − nπ0
Sn∗ = p ,
nπ0 (1 − π0 )

falls |Sn∗ | > z1− α2 ist.

Der approximative Binomialtest im Überblick:

Test auf den Parameter π einer Binomialverteilung.

Annahme:
X1 , . . . , Xn unabhängig Bernoulli-verteilt, also Sn = X1 + . . . + Xn binomialverteilt.

Hypothese:

(a) H0 : π = π0 ; (b) H0 : π ≤ π0 ; (c) H0 : π ≥ π0 .


Entscheidungsregel: Betrachte als Teststatistik

Sn − nπ0 √ X − π0
T (X1 , . . . , Xn ) = p = n· p ,
nπ0 (1 − π0 ) π0 (1 − π0 )

welche approximativ N(0, 1)-verteilt ist, falls


Pn π = π0 (und nπ0 (1 − π0 ) > 9) ist.
1
Hierbei ist X := n i=1 Xi das Stichprobenmittel.

Ablehnung von H0 , falls

(a) |T | > z1− α2 ; (b) T > z1−α ; (c) T < −z1−α .

Will man die Annahme an die Verteilung der Stichprobenvariablen fallenlassen, muss man sich
im Allgemeinen auf das Testen einiger weniger Kennzahlen beschränken. Im Folgenden wol-
len wir einige grundlegende Testverfahren besprechen, eine umfassendere Methodensammlung
bietet [8].
III.2 Testen 81

III.2.2 Ein-Stichproben-Tests

Gauÿ-Test

Test auf den Erwartungswert µ einer Verteilung bei bekannter Varianz.

Annahme:
X1 , . . . , Xn i.i.d. mit bekannter Varianz V [Xi ] = σ02 , und Xi ∼ N(µ, σ02 ).
Ist n ≥ 30, so kann Xi beliebig verteilt sein (vgl. Abschnitt II.5.3), aber mit E[Xi ] = µ.

Hypothese:

(a) H0 : µ = µ0 ; (b) H0 : µ ≤ µ0 ; (c) H0 : µ ≥ µ0 .


Entscheidungsregel: Betrachte als Teststatistik

√ X − µ0
T (X1 , . . . , Xn ) = n· ,
σ0
welche (approximativ) N(0, 1)-verteilt ist, falls µ = µ0 , wobei

n
1X
X := Xi
n
i=1

das Stichprobenmittel bezeichnet.

Ablehnung von H0 , falls

(a) |T | > z1− α2 ; (b) T > z1−α ; (c) T < −z1−α .

t-Test
Test auf den Erwartungswert µ einer Verteilung bei unbekannter Varianz.

Annahme:
X1 , . . . , Xn i.i.d., und Xi ∼ N(µ, σ 2 ), σ 2 unbekannt.
Ist n ≥ 30, so kann Xi beliebig verteilt sein (vgl. Abschnitt II.5.3), aber mit E[Xi ] = µ.
Hypothese:

(a) H0 : µ = µ0 ; (b) H0 : µ ≤ µ0 ; (c) H0 : µ ≥ µ0 .


Entscheidungsregel: Betrachte als Teststatistik

√ X − µ0
T (X1 , . . . , Xn ) = n· ,
S
welche (approximativ) tn−1 -verteilt ist, falls µ = µ0 , wobei

n
1 X
S2 = (Xi − X)2
n−1
i=1

die Stichprobenvarianz bezeichnet.

Ablehnung von H0 , falls

(a) |T | > tn−1,1− α2 ; (b) T > tn−1,1−α ; (c) T < −tn−1,1−α .


Für n ≥ 30 kann man die Quantile der t-Verteilung durch die entsprechenden Quantile der
Standardnormalverteilung ersetzen (vgl. Abschnitt II.4.7).
82 III INDUKTIVE STATISTIK

χ2 -Test für die Varianz


Annahme:
X1 , . . . , Xn i.i.d., und Xi ∼ N(µ, σ 2 ), µ unbekannt.

Hypothese:

(a) H0 : σ 2 = σ02 ; (b) H0 : σ 2 ≤ σ02 ; (c) H0 : σ 2 ≥ σ02 .


Entscheidungsregel: Betrachte als Teststatistik

n−1
T (X1 , . . . , Xn ) = · S2,
σ02

welche χ2n−1 -verteilt ist, falls σ 2 = σ02 .


Ablehnung von H0 , falls

(a) T < χ2n−1, α oder T > χ2n−1,1− α ; (b) T > χ2n−1,1−α ; (c) T < χ2n−1,α .
2 2

III.2.3 P-Werte und Gütefunktion

Anhand des Gauÿ-Tests lassen sich zwei weitere wichtige Begrisbildungen eines Signikanz-
testes veranschaulichen, nämlich Überschreitungswahrscheinlichkeiten (P-Werte) und die Gü-
tefunktion.

überschreitungswahrscheinlichkeiten (P-Werte)

P-Werte spielen bei Signikanztests eine wichtige Rolle und werden von statistischen Soft-
warepaketen standardmäÿig ausgegeben. Anhand des Gauÿ-Tests lässt sich ihre Bedeutung
besonders einfach erläutern. Betrachtet werden soll im Folgenden die Hypothese H0 : µ ≥ µ0
über den unbekannten Erwartungswert µ einer Normalverteilung, deren Varianz σ02 bekannt
sei. Anhand der Teststatistik

n
√ X − µ0 1X
T = n· , X= Xi ,
σ0 n
i=1

kann die Hypothese zum Signikanzniveau α überprüft werden. In diesem Fall ergibt sich als
Ablehnungsbereich das Intervall (−∞; zα ).
Ist t nun der tatsächlich beobachtete Wert der Teststatistik T, so ist der P-Wert deniert
durch
p := Pµ0 (T ≤ t) .
Hierbei deutet der Index µ0 an, dass für die Verteilung der Stichprobenvariablen die N(µ0 , σ0 )-
2

Verteilung angenommen wird, wie sie der Nullhypothese H0 entspricht. Die Teststatistik T ist
unter dieser Annahme gerade N(0, 1)-verteilt, und damit

p = Pµ0 (T ≤ t) = Φ(t) .

Der P-Wert gibt also die Wahrscheinlichkeit dafür an, unter der Hypothese H0 den tatsächlich
beobachteten Wert der Teststatistik, t, oder einen in Richtung der Alternative µ < µ0 noch
extremeren Wert zu erhalten. Ein sehr kleiner P-Wert impliziert also, dass die Nullhypothese
H0 unplausibel ist und entsprechend abgelehnt werden sollte.

Der P-Wert ist also das gröÿte Niveau α0 , bei dem der beobachtete Wert t noch zur Annahme
der Nullhypothese H0 führt. Mit Hilfe des ermittelten P-Wertes p lässt sich die Entschei-
dungsregel im Falle der Hypothese H0 : µ ≥ µ0 und bei Signikanzniveau α wie folgt
formulieren:
III.2 Testen 83

Ablehnung der Hypothese H0 , falls p < α.

Beispiel. In der Abfüllanlage einer Brauerei werden 0.5-Liter Flaschen befüllt. Die tätsächli-
che Füllmenge X 3
pro Flasche (in cm ) kann als normalverteilt mit gewissem Erwartungswert µ
und mit bekannter Standardabweichung σ0 = 1.5 [cm3 ] betrachtet werden. Eine Verbraucher-
schutzorganisation will nun überprüfen, ob die tatsächliche Abfüllmenge den Sollwert µ0 = 500
im Mittel nicht unterschreitet, d. h. die folgende Nullhypothese wird betrachtet:

H0 : µ ≥ µ0 , d. h. µ ≥ 500.

Ein Ablehnen von H0 würde dem Hersteller also eine signikante Verletzung seiner eigenen
Versprechen nachweisen.

Die Verbraucherschutzorganisation plant daher, eine Stichprobe der Länge n = 25 zu erheben,


die zugehörige Teststatistik ist gemäÿ Abschnitt III.2.2

X − 500
T = T (X1 , . . . , X25 ) = 5 · .
1.5
Der Test soll zum Signikanzniveau α = 0.01 ausgeführt werden, also ergibt sich wegen z0.01 =
−2.326 der Ablehnungsbereich (−∞; −2.326).
Nun wurden die Daten erhoben. Angenommen, als Stichprobenmittel ergibt sich der Wert
x̄ = 499.28, also eine leichte Unterschreitung der geforderten Füllmenge. Der zugehörige Wert
der Teststatistik ist dann

499.28 − 500
t=5· = −2.4 < −2.326,
1.5
und damit kann die Hypothese µ ≥ 500 verworfen werden. Die Verbraucherschutzorganisation
kann also auf Basis ihres Testergebnisses behaupten, dass der Brauereibesitzer die geforderte
Füllmenge aufgrund ihres Testergebnisses zum Signikanzniveau α = 0.01 nicht einhält.

Als P-Wert ergibt sich in diesem Fall

p = P500 (T ≤ −2.4) = Φ(−2.4) = 0.008,

d.h. zum Signikanzniveau α = 0.008 (oder kleiner) wäre die Hypothese nicht abgelehnt
worden.

Warnung: Ein nachträgliches Anpassen des Signikanzniveaus α, welches zur Annahme der
Hypothese führt, ist unzulässig!

Gütefunktion

Die Gütefunktion eines statistischen Tests ist deniert als die Wahrscheinlichkeit für die Ab-
lehnung der Nullhypothese H0 . Die Gütefunktion eines idealen Tests hat folgende Form:

1− (

]
H0 H1
84 III INDUKTIVE STATISTIK

Bei diesem Ideal-Test sind sowohl die Wahrscheinlichkeit für einen Fehler 1. Art als auch die
Wahrscheinlichkeit für einen Fehler 2. Art beide gleich 0.
Als konkretes Beispiel eines realen Tests betrachten wir erneut den Gauÿ-Test mit normal-
verteilten Stichprobenvariablen und der Hypothese H0 : µ ≤ µ0 zum Signikanzniveau α.
Der Ablehnungsberereich ist diesmal das Intervall (z1−α ; ∞) (vgl. Abschnitt III.2.2), und wir
können die Wahrscheinlichkeit für eine Ablehnung der Nullhypothese H0 als Funktion des
unbekannten Erwartungswertes µ schreiben, d.h.


 
X − µ0
g(µ) = Pµ (T > z1−α ) = Pµ n· > z1−α .
σ0

Zur Berechnung dieser Wahrscheinlichkeit beachte man, dass, falls µ den wahren Erwartungs-
wert bezeichnet,
√ X −µ
n· N(0, 1) − verteilt ist,
σ0
also

√ √ µ0 − µ √
   
X −µ µ0 − µ
g(µ) = Pµ n· > z1−α + n · = 1 − Φ z1−α + n· .
σ0 σ0 σ0

Insbesondere ist g monoton wachsend in µ und g(µ0 ) = α.

g
1−

α−
|
µ µ
0

Mit wachsender Stichprobenlänge n wird die Gütefunktion optimal:

(
0 für µ < µ0 ,
lim gn (µ) =
n→∞ 1 für µ > µ0 .

Zusammenfassung:

• für Parameterwerte aus dem Bereich der Nullhypothese H0 ist die Gütefunktion ≤ α,
für Parameterwerte aus dem Bereich der Alternativhypothese heiÿt die Gütefunktion
auch Macht oder Trennschärfe.

• Die Macht eines Tests wird gröÿer, wenn α wächst (man also den Fehler 1. Art öfter
zulässt), oder wenn n wächst (man also mehr Aufwand in die Datenerhebung investiert).
III.2 Testen 85

III.2.4 Tests basierend auf Häugkeiten

Statt Verteilungen nur auf Erwartungswerte oder Varianzen zu überprüfen, kann man auch
Hypothesen untersuchen, die sich direkt auf eine oder mehrere Verteilungen beziehen, vgl.
auch Abschnitt I.2.1. Entsprechend werden hier Teststatistiken auf Basis von Häugkeiten
deniert. Auch der zu Beginn von Abschnitt III.2.5 zu besprechende χ2 -Homogenitätstest
verwendet diesen Ansatz, um eine Mehrstichproben-Hypothese zu überprüfen.

χ2 -Anpassungstest
Häug ist man daran interessiert zu untersuchen, ob die unbekannte Verteilung einer Grundge-
samtheit gleich einer gegebenen hypothetischen Verteilung ist (mit gegebener Verteilungsfunk-
tion F0 ). Bei den obigen Testverfahren wurde z. B. oft gefordert, dass die Grundgesamtheit
normalverteilt ist.

Annahme:
X1 , . . . , Xn i.i.d. mit einer (unbekannten) Verteilungsfunktion F.
Hypothese: H0 : F = F0 .
Im nächsten Schritt unterteilen wir die X-Achse in k>2 disjunkte Intervalle

A1 = (−∞; z1 ], A2 = (z1 ; z2 ], . . . , Ak = (zk−1 ; ∞),


und bestimmen für jedes Intervall Aj

• die Anzahl Nj der in Aj liegenden Stichprobenvariablen,

Nj = {Xi | Xi ∈ Aj } ;

• die theoretische Wahrscheinlichkeit pj dafür, dass eine Stichprobenvariable X mit Ver-


teilungsfunktion F0 einen Wert in Aj annimmt, also

pj = P (X ∈ Aj ) = F0 (zj ) − F0 (zj−1 ) .

Hierbei setzt man F0 (z0 ) = 0 und F0 (zk ) = 1.

Hinweis: Ist der Wertebereich der Stichprobenvariablen endlich, etwa {a1 , . . . , ak }, so kann
man auf die Klassierung verzichten und Nj , pj denieren durch

Nj = {Xi | Xi = aj } , pj = P (X = aj ) .

Entscheidungsregel: Betrachte als Teststatistik


   
k k 2
X (Nj − npj )2 =  1
X Nj 
T (X1 , . . . , Xn ) = − n .
npj n pj
j=1 j=1

Ablehnung von H0 , falls


T > χ2k−1,1−α .
Dieser Test hat dann das approximative Niveau α.
Hinweis: Diese Approximation ist für praktische Bedürfnisse als hinreichend zu erachten,
wenn die erwartete Anzahl der Beobachtungen pro Intervall mindestens 5 ist, d. h. wenn npj ≥
5 für alle j = 1, . . . , k gilt.
86 III INDUKTIVE STATISTIK

χ2 -Test auf unabhängigkeit (Kontingenztest)


Ausgangspunkt des Tests auf unabhängigkeit ist die Frage, ob zwei Merkmale X und Y in
einer gegebenen Grundgesamtheit voneinander unabhängig sind oder nicht. Es ist also ein
statistischer Test zu konstruieren, der aufgrund einer zweidimensionalen Stichprobe

(x1 , y1 ), . . . , (xn , yn )
entscheidet, ob die folgende Hypothese abzulehnen ist oder nicht (siehe auch Abschnitt I.3.1):

Hypothese: H0 : X und Y sind unabhängig.

Im nächsten Schritt unterteilen wir die X-Achse in I≥2 disjunkte Intervalle

A1 = (−∞; z1 ], A2 = (z1 ; z2 ], . . . , AI = (zI−1 ; ∞),


und die Y-Achse in J ≥2 disjunkte Intervalle

B1 = (−∞; z̃1 ], B2 = (z̃1 ; z̃2 ], . . . , BJ = (z̃J−1 ; ∞).


Hierzu stellen wir dann die zughörige Kontingenztabelle mit Randhäugkeiten auf,

Y :
B1 B2 . . . BJ
X : A1 N11 N12 . . . N1J N1•
A2 N21 N22 . . . N2J N2•
. . . .
. . . .
. . . .
AI NI1 NI2 · · · NIJ NI•
N•1 N•2 . . . N•J n
und bilden die Gröÿen (siehe auch Formel (I.3) in Abschnitt I.3.1)

Ni• N•j
Ñij := für i = 1, . . . , I und j = 1, . . . , J .
n
Idee: Unter der Hypothese H0 sind die Merkmale X und Y unabhängig, und damit gilt

P (X ∈ Ai , Y ∈ Bj ) = P (X ∈ Ai ) · P (Y ∈ Bj ) . (III.6)

Bei groÿer Stichprobenlänge n sollten zudem die relativen Häugkeiten in der Nähe der theo-
retischen Wahrscheinlichkeiten liegen (vgl. Abschnitt II.5.1), also

Nij Ni• N•j


≈ P (X ∈ Ai , Y ∈ Bj ) , ≈ P (X ∈ Ai ) und ≈ P (Y ∈ Bj ) .
n n n
Insgesamt sollte also gelten

Nij Ni• N•j


≈ P (X ∈ Ai , Y ∈ Aj ) = P (X ∈ Ai ) · P (Y ∈ Aj ) ≈ · ,
n n n
also Nij ≈ Ñij .
Entscheidungsregel: Betrachte als Teststatistik
 2  
I X
X J Nij − Ñij I X
X J
Nij2
T (X1 , . . . , Xn ) = =  − n.
i=1 j=1
Ñij i=1 j=1
Ñij

Ablehnung von H0 , falls


T > χ2(I−1)(J−1),1−α .
Dieser Test hat dann das approximative Niveau α.
Hinweis: Diese Approximation ist für praktische Bedürfnisse als hinreichend zu erachten,
Ni• N•j
wenn Ñij = n ≥5 für alle i = 1, . . . , I und j = 1, . . . , J gilt.
III.2 Testen 87

III.2.5 Ergänzung: Mehr-Stichproben-Tests

Bei Mehr-Stichproben-Tests sollen Zusammenhänge mehrerer unabhängiger Stichproben mit


möglicherweise verschiedenen Längen,

(1) (1)
X1 , . . . , Xn1 ,
(2) (2)
X1 , . . . , Xn2 ,
.
.
.
(k) (k)
X1 , . . . , Xnk ,

getestet werden. Die zentrale Frage in diesem Zusammenhang ist dann die nach der Gleich-
heit der zugrundeliegenden Verteilungen bzw. nach der Gleichheit gewisser Kennzahlen der
zugrundeliegenden Verteilungen.

χ2 -Homogenitätstest
Annahme:
(1) (1)
X1 , . . . , Xn1 i.i.d. mit Verteilungsfunktion F1 ,
(2) (2)
X1 , . . . , Xn2 i.i.d. mit Verteilungsfunktion F2 ,
.
.
.
(k) (k)
X1 , . . . , Xnk i.i.d. mit Verteilungsfunktion Fk .

Hypothese: H0 : F1 = F2 = . . . = Fk .
Im nächsten Schritt unterteilen wir zunächst die X-Achse in m≥2 disjunkte Intervalle

A1 = (−∞; z1 ], A2 = (z1 ; z2 ], . . . , Am = (zm−1 ; ∞),

und bestimmen für jedes Intervall die Häugkeiten

(i) (i)
Nij = {Xl | Xl ∈ Aj } für i = 1, . . . , k und j = 1, . . . , m.

Anschlieÿend bilden wir hierzu die Spaltensummen

N•j = N1j + . . . + Nkj für j = 1, . . . , m.

Idee: Unter der Hypothese H0 sind die Stichprobenvariablen allesamt identisch verteilt, und
damit sollten für alle j die relativen Häugkeiten

Nij
für i = 1, . . . , k
ni
nahezu übereinstimmen, d.h.

Nij N•j ni N•j


≈ oder Nij − ≈ 0.
ni n n
Hierbei ist n = n1 + . . . + nk .
Entscheidungsregel: Betrachte als Teststatistik
 2
ni N•j
k X
m Nij − n
(1)
X
T (X1 , . . . , Xn(k)
k
)= ni N•j
.
i=1 j=1 n

Ablehnung von H0 , falls


T > χ2(k−1)(m−1),1−α .
88 III INDUKTIVE STATISTIK

Dieser Test hat dann das approximative Niveau α.


Hinweis: Diese Approximation ist für praktische Bedürfnisse als hinreichend zu erachten,
ni N•j
wenn
n ≥5 für alle i = 1, . . . , k und j = 1, . . . , m gilt.
Zwei-Stichproben-Gauÿ-Test

Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei bekannten Vari-
anzen.

Annahme:
2 , und X ∼ N(µ , σ 2 );
X1 , . . . , Xm i.i.d. mit bekannter Varianz σX,0 i X X,0
2 , und Y ∼ N(µ , σ 2 ).
Y1 , . . . , Yn i.i.d. mit bekannter Varianz σY,0 i Y Y,0
Sind m, n ≥ 30, so können Xi , Yj jeweils beliebig verteilt sein, aber mit

2 2
E[Xi ] = µX , V [Xi ] = σX,0 , E[Yj ] = µY , V [Yj ] = σY,0 .

Hypothese:

(a) H0 : µX = µY ; (b) H0 : µX ≤ µY ; (c) H0 : µX ≥ µY .


Entscheidungsregel: Betrachte als Teststatistik

X̄ − Ȳ
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = q 2 2
,
σX,0 σY,0
m + n

welche (approximativ) N(0, 1)-verteilt ist, falls µX = µY .


Ablehnung von H0 , falls

(a) |T | > z1− α2 ; (b) T > z1−α ; (c) T < −z1−α .

Zwei-Stichproben-t-Test

Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei unbekannten
aber gleichen Varianzen (Varianzhomogenität).

Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2 2 = σ 2 unbekannt.
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); σX Y
Sind m, n ≥ 30, so können Xi , Yj jeweils beliebig verteilt sein, aber mit

2
E[Xi ] = µX , E[Yj ] = µY , V [Xi ] = σX = V [Yj ] = σY2 .

Hypothese:

(a) H0 : µX = µY ; (b) H0 : µX ≤ µY ; (c) H0 : µX ≥ µY .


Entscheidungsregel: Betrachte als Teststatistik
r
mn(m + n − 2) X̄ − Ȳ
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = ·q ,
m+n (m − 1)SX2 + (n − 1)S 2
Y

welche (approximativ) tm+n−2 -verteilt ist, falls µ X = µY , wobei

m n
2 1 X 1 X
SX = (Xi − X̄)2 und SY2 = (Yi − Ȳ )2 .
m−1 n−1
i=1 i=1

Ablehnung von H0 , falls


III.2 Testen 89

(a) |T | > tm+n−2,1− α2 ; (b) T > tm+n−2,1−α ; (c) T < −tm+n−2,1−α .


Welch-Test

Test auf Gleichheit der Erwartungswerte µX und µY zweier Verteilungen bei unbekann-
ten (und möglicherweise verschiedenen) Varianzen (Varianzheterogenität, Behrens-Fisher-
Problem).

Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2 2 , σ2
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); σX unbekannt.
Y

Hypothese:

(a) H0 : µX = µY ; (b) H0 : µX ≤ µY ; (c) H0 : µX ≥ µY .

Entscheidungsregel: Betrachte als Teststatistik

X̄ − Ȳ
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = q 2 ,
SX SY2
m + n

welche approximativ tν -verteilt ist, falls µX = µY , wobei

2
SX SY2 2
m + n
ν = 2 /m)2
(SX (SY2 /n)2
.
m−1 + n−1

Ablehnung von H0 , falls

(a) |T | > tν,1− α2 ; (b) T > tν,1−α ; (c) T < −tν,1−α .

F-Test

Test auf Gleichheit der Varianzen zweier Normalverteilungen (wie es beim Zwei-Stichproben-
t-Test vorausgesetzt wird).

Annahme:
X1 , . . . , Xm i.i.d., und Xi ∼ N(µX , σX 2 );
2
Y1 , . . . , Yn i.i.d., und Yi ∼ N(µY , σY ); µX , µY unbekannt.

Hypothese:

(a)
2 = σ2 ;
H0 : σX (b)
2 ≤ σ2 ;
H0 : σX (c)
2 ≥ σ2 .
H0 : σX
Y Y Y

Entscheidungsregel: Betrachte als Teststatistik

2
SX
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = ,
SY2

welche Fm−1,n−1 -verteilt ist, falls


2 = σ2 .
σX Y

Ablehnung von H0 , falls

(a) T < Fm−1,n−1, α2 oder T > Fm−1,n−1,1− α2 ; (b) T > Fm−1,n−1,1−α ; (c) T < Fm−1,n−1,α .
90 III INDUKTIVE STATISTIK

III.2.6 Ergänzung: Bivariate Normalverteilung und Korrelationstest

In den Abschnitten II.4.4 und II.4.5 haben wir die (univariate) Normalverteilung und einige
ihrer Eigenschaften kennengelernt. Eine N(µ, σ
2 )-verteilte Zufallsvariable X ist dabei durch
die Dichte
1 (x − µ)2
 
1
fµ,σ2 (x) = √ · exp −
2πσ 2 σ2
bestimmt. Nun wollen wir wieder, wie in den Abschnitten II.4.2 und II.4.3 schon betrach-
tet, zum Fall zweier gemeinsam stetig verteilter Zufallsvariablen (X, Y ) übergehen. Ist die
gemeinsame stetige Dichte fXY gegeben durch

fXY (x, y) =

(x − µX )2 (y − µY )2
  
1 1 (x − µX )(y − µY )
· exp − 2 + − 2ρ ,
2(1 − ρ2 ) σY2
p
2πσX σY 1 − ρ2 σX σX σY

wobei µX , µY ∈ R, σX , σY > 0 und ρ ∈ [−1; 1] sind, so nennen wir (X, Y ) bivariat normalver-
teilt.
Eigenschaften der bivariaten Normalverteilung:

• Es sind E[X] = µX und E[Y ] = µY ,

• ferner
2
V [X] = σX und V [Y ] = σY2 ,

• und die Korrelation zwischen X und Y gegeben durch ρXY = ρ.

• X und Y sind unabhängig genau dann, wenn sie unkorreliert sind.

Achtung: Die letztgenannte Eigenschaft gilt ansonsten i. Allg. nicht!


Allgemein gilt nur unabhängig ⇒ unkorreliert.

χ2 -Test auf Unabhängigkeit kennengelernt, der bei


Im vorigen Abschnitt III.2.4 hatten wir den
zwei Zufallsvariablen X und Y die Nullhypothese  H0 : X und Y sind unabhängig untersucht.
Das eben präsentierte Resultat impliziert, dass man im Fall von bivariat normalverteilten Zu-
fallsvariablen X, Y alternativ auch einen Test auf Basis des empirischen Korrelationskoezi-
enten rXY , vgl. Abschnitt I.3.3, konstruieren kann, um die Nullhypothese  H0 : X und Y sind
unabhängig zu überprüfen.
Korrelationstest

Annahme:
(X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. bivariat normalverteilt.

Hypothese:

(a) H0 : ρXY = ρ0 ; (b) H0 : ρXY ≥ ρ0 ; (c) H0 : ρXY ≤ ρ0 .


Entscheidungsregel: Betrachte als Teststatistik
√  
n−3 1 + rXY 1 + ρ0
Z(X1 , . . . , Yn ) = · ln − ln ,
2 1 − rXY 1 − ρ0

welche approximativ N(0, 1)-verteilt ist, falls ρXY = ρ0 .


Ablehnung von H0 , falls

(a) |Z| > z1− α2 ; (b) Z < −z1−α ; (c) Z > z1−α .
Dieser Test hat dann das (approximative) Niveau α.
Hinweis: Diese Approximation ist für praktische Bedürfnisse als hinreichend zu erachten,
wenn n > 25 ist.
III.2 Testen 91

für den wichtigen Spezialfall ρ0 = 0, d.h. wenn X und Y auf Unkorreliertheit und damit de
facto auf Unabhängigkeit (da bivariat normalverteilt!) hin untersucht werden, gibt es folgende
Alternative:

Annahme:
(X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. bivariat normalverteilt.

Hypothese:

(a) H0 : ρXY = 0; (b) H0 : ρXY ≥ 0; (c) H0 : ρXY ≤ 0.


Entscheidungsregel: Betrachte als Teststatistik
√ rXY
T (X1 , . . . , Yn ) = n−2· q ,
2
1 − rXY

welche tn−2 -verteilt ist, falls ρXY = 0.


Ablehnung von H0 , falls

(a) |T | > tn−2,1− α2 ; (b) T < −tn−2,1−α ; (c) T > tn−2,1−α .


Dieser Test hat dann das Niveau α.

Kondenzintervall für die Korrelation

Die oben angeführten Eigenschaften der Teststatistik Z(X1 , . . . , Yn ) des Korrelationstests le-
gen nahe, ein approximatives Kondenzintervall für ρXY zum Niveau 1 − α wie folgt zu
konstruieren:

f (z) := (e2z − 1)/(e2z + 1), d.h. es gelte f 21 ln 1+ρ



Sei
1−ρ = ρ. Das approximative Kondenz-
intervall für ρXY ist gegeben durch

z1−α/2 z1−α/2
    
1 1 + rXY 1 1 + rXY
I(X1 , . . . , Yn ) = f ln −√ ; f ln +√ .
2 1 − rXY n−3 2 1 − rXY n−3

III.2.7 Ergänzung: Nichtparametrische Testverfahren

Die in den Abschnitten III.2.2 und III.2.5 besprochenen Ein- und Zwei-Stichproben-Tests set-
zen zumindest bei kleinen Stichprobenumfüngen eine Normalverteilung der betrachteten X-
und Y -Merkmale voraus. In vielen Situationen ist diese Annahme aber nicht einmal nähe-
rungsweise erfüllt, so weisen etwa Lebensdauern häug eine stark unsymmetrische Verteilung
(z. B. Exponentialverteilung) auf. für derartige Fälle wurden sog. nichtparametrische Tests
(auch verteilungsfreie Tests ) entwickelt, die beispielsweise nur ganz allgemein verlangen, dass
die untersuchten Merkmale stetig sind, die aber nicht fordern, dass die Merkmale einer spe-
ziellen parametrischen Verteilungsfamilie folgen. Solche nichtparametrischen Tests wollen wir
im Folgenden exemplarisch für den Ein-Stichproben-Fall betrachten.

Vorzeichentest

In Analogie zum Gauÿ- oder t-Test soll der Vorzeichentest eine Hypothese bzgl. des Medians
M ed[X] = x0.5 einer stetig verteilten Zufallsvariable X untersuchen. Abgesehen von der For-
derung nach Stetigkeit werden keine weiteren Verteilungsannahmen formuliert. Die Idee ist
es nun zu zählen, wieviele der i.i.d. Stichprobenvariablen X1 , . . . , Xn unterhalb des hypothe-
tischen Medianwertes m0 liegen; gilt nämlich tatsächlich M ed[X] = m0 , so ist diese Anzahl
gerade binomialverteilt gemäÿ Bin(n, 0.5).

Test auf den Median m einer Verteilung.


92 III INDUKTIVE STATISTIK

Annahme:
X1 , . . . , Xn i.i.d. mit stetiger Verteilung.

Hypothese:

(a) H0 : M ed[X] = m0 ; (b) H0 : M ed[X] ≤ m0 ; (c) H0 : M ed[X] ≥ m0 .


Entscheidungsregel: Betrachte als Teststatistik

T (X1 , . . . , Xn ) = {Xi | Xi < m0 } ,

welche Bin(n, 0.5)-verteilt ist, falls M ed[X] = m0 .


n n
für n ≥ 25 ist T approximativ N(
2 4 )-verteilt, falls
, M ed[X] = m0 .
Ablehnung von H0 , falls

(a) T ≤ b α2 oder n − T ≤ b α2 ; (b) T ≤ bα ; (c) n − T ≤ bα .


Die Testschranke bβ wird auf Basis der Verteilungsfunktion Fn,0.5 (b) der Bin(n, 0.5)-Verteilung
wie folgt bestimmt: Fn,0.5 (bβ ) ≤ β < Fn,0.5 (bβ + 1). für n ≥ 25 approximiert man bβ durch
n n
das β -Quantil der N( , )-Verteilung.
2 4
Bemerkung: Messwerte Xi = m0 (sollten bei stetiger Verteilung ja nur mit Wahrschein-
lichkeit 0 auftreten) sagen nichts über die Richtung der Abweichung (Vorzeichen) aus und
werden deshalb in der Praxis ignoriert, d.h. die Stichprobe wird entsprechend vor Ausführung
des Tests reduziert.

Der Vorzeichentest kann für alle stetigen Verteilungen verwendet werden. Diesen Vorteil er-
kauft man sich aber dadurch, dass im Fall einer tatsächlich vorliegenden Normalverteilung
die Güte des Vorzeichentests schlechter ist als z. B. die des Gauÿ-Tests (bei einer Normal-
verteilung stimmen Erwartungswert und Median überein). Dies illustriert folgendes Beispiel
(Vorzeichentest grau-gestrichelt, Gauÿ-Test schwarz):

Α
Μ
Μ0

Wilcoxon-Vorzeichen-Rang-Test

Der Vorzeichentest ist zwar verteilungsfrei, aber er nutzt aus dem vorliegenden Datensatz le-
diglich die Information, ob die Datenwerte über oder unter dem hypothetischen Median m0
liegen. Um mehr der im Datensatz enthaltenen Information zu nutzen, basieren viele nicht-
parametrische Testverfahren auf sog. Rängen, die auf Basis der vorliegenden Daten berechnet
werden. Sind y1 , . . . , yn paarweise verschiedene, reelle Zahlen, so ist der Rang des Wertes yi
deniert als dessen Position in der aufsteigend geordneten Reihe der y -Werte. So erhält yi z. B.
den Rang 1, wenn es der kleinste Wert in y1 , . . . , yn ist, den Rang 2, wenn es der zweitkleinste
Wert in y1 , . . . , yn ist, etc.

Beispielhaft wird dieser Ansatz anhand des Wilcoxon-Vorzeichen-Rang-Tests vorgestellt, des-


sen Teststatistik T (X1 , . . . , Xn ) folgendermaÿen konstruiert wird:

1. Berechne die Dierenzen Di = Xi − m0 für i = 1, . . . , n.


III.2 Testen 93


2. Ordne den absoluten Dierenzen |D1 |, . . . , |Dn | Ränge zu, Notation: Rang |Di | .

3. Bezeichnet 1A die Indikatorfunktion, die den Wert 1 annimmt, wenn das Ereignis A
eintritt, und den Wert 0, wenn es nicht eintritt, so deniere

n
X 
T (X1 , . . . , Xn ) := 1{Di >0} · Rang |Di | ,
i=1

d.h. T ist die Summe der Ränge zu positiven Dierenzen Di .

Wilcoxon-Vorzeichen-Rang-Test

Test auf den Median m einer Verteilung.

Annahme:
X1 , . . . , Xn i.i.d. mit stetiger und symmetrischer Verteilung.

Hypothese:

(a) H0 : M ed[X] = m0 ; (b) H0 : M ed[X] ≤ m0 ; (c) H0 : M ed[X] ≥ m0 .


Entscheidungsregel: Betrachte als Teststatistik

n
X 
T (X1 , . . . , Xn ) = 1{Di >0} · Rang |Di | ,
i=1

n(n+1) n(n+1)(2n+1)
welche für n > 20 approximativ N(
4 , 24 )-verteilt ist, falls M ed[X] = m0 .
Ablehnung von H0 , falls

(a) T < w α2 T > w1− α2 ;


oder (b) T > w1−α ; (c) T < wα ,
q
n(n+1) n(n+1)(2n+1)
wobei wβ :=
4 + 24 · zβ .
für kleine Stichproben sollten die Quantile wβ auf Basis der exakten Verteilung von T bestimmt
werden (mit Hilfe statistischer Software oder entsprechender Tabellen).
Gelegentlich kann es vorkommen, dass mehrere Absolutdierenzen den gleichen Wert anneh-
men, d.h. dass |Di | = |Dj | für i 6= j ist. In einem solchen Fall kann man die Werte |D1 |, . . . , |Dn |
nicht streng aufsteigend ordnen, man spricht von Bindungen ( ties ). In diesem Fall vergibt
man allen betroenen |Di | denselben mittleren Rang, d.h. man ignoriert erst einmal die Bin-
dungen und vergibt fortlaufend Ränge, bildet dann aber den Mittelwert über all jene Ränge,
die zur gleichen Bindung gehören.

Ferner kann es vorkommen (genau wie beim Vorzeichentest), dass manche der Xi exakt mit
m0 übereinstimmen, was zur Dierenz Di = 0 führen würde. Derartige Werte werden vor
Ausführung des Tests aus der Stichprobe entfernt.

Beispiel:
Es soll die Hypothese H0 : M ed[X] ≤ 2.2 auf dem Niveau α = 0.05 getestet werden, die
vorliegenden Daten x1 , . . . , x6 seien 2.4, 2.8, 2.2, 2.1, 2.4, 2.9. Wir erstellen folgende Tabelle:

i 1 2 3 4 5 6
xi 2.4 2.8 2.2 2.1 2.4 2.9
di = xi − 2.2 0.2 0.6 0 −0.1 0.2 0.7
|di | 0.2 0.6 0 0.1 0.2 0.7

Der dritte Wert führt zur Dierenz 0 und muss deshalb von der weiteren Analyse ausgeschlos-
sen werden, d.h. der Datensatz reduziert sich auf den Umfang n = 5. führen wir zuerst den
Vorzeichentest aus. Genau eines der xi ist kleiner m0 = 2.2, d.h. die Teststatistik TV des
94 III INDUKTIVE STATISTIK

Vorzeichentests nimmt den Wert 1 an. Die Testschranke b0.05 wird auf Basis der Bin(5, 0.5)-
Verteilung bestimmt:

k 0 1 2 3 4 5
p5,0.5 (k) 0.03125 0.15625 0.3125 0.3125 0.15625 0.03125
F5,0.5 (k) 0.03125 0.1875 0.5 0.8125 0.96875 1

Also ist b0.05 = 0, und da TV = 1 > 0 = b0.05 ist, kann die Hypothese H0 : M ed[X] ≤ 2.2
nicht abgelehnt werden.

führen wir nun den Wilcoxon-Vorzeichen-Rang-Test aus. Die aufsteigend geordneten Werte der
|di | =
6 0 sind 0.1, 0.2, 0.2, 0.6, 0.7, hierbei bilden die beiden Werte 0.2 eine Bindung. Ignoriert
man diese für einen Moment, so würden wir die Ränge 2 und 3 vergeben, deren Mittelwert
2.5 ist; also erhält jedes der 0.2 den mittleren Rang 2.5. Insgesamt können wir obige Tabelle
also wie folgt ergänzen:

i 1 2 4 5 6
xi 2.4 2.8 2.1 2.4 2.9
di = xi − 2.2 0.2 0.6 −0.1 0.2 0.7
|di| 0.2 0.6 0.1 0.2 0.7
Rang |di | 2.5 4 1 2.5 5
1{di >0} 1 1 0 1 1

TW des Wilcoxon-Vorzeichen-Rang-Tests zu 2.5+4+2.5+5 =


Somit berechnet sich die Statistik
14. für n = 5 ist w0.95 = 13 (mit der Normalapproxmation erhielte man w0.95 ≈ 13.6), siehe
etwa die Tabelle in [1, Anhang F]. Da TW = 14 > 13 = w0.95 ist, muss die Hypothese
H0 : M ed[X] ≤ 2.2 abgelehnt werden.
LITERATUR 95

Literatur
[1] L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz, Statistik, 6. Auage, Springer Verlag, 2007.

[2] L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz, A. Caputo, S. Lang, Arbeitsbuch Statistik,


4. Auage, Springer Verlag, 2004.

[3] W. Linde: Stochastik für das Lehramt. De Gruyter

[4] N. Henze: Stochastik für Einsteiger. Springer.

Weitere Literatur

[5] G. Bamberg, F. Baur, M. Krapp, Statistik, 13. Auage, R. Oldenbourg Verlag, 2007.

[6] J. Bleymüller, G. Gehlert, H. Gülicher, Statistik für Wirtschaftswissenschaftler, 14. Auf-


lage, Verlag Vahlen, 2004.

[7] M. Falk, R. Becker, F. Marohn, Angewandte Statistik  Eine Einführung mit Programm-
beispielen in SAS, Springer Verlag, 1995. (Nachdruck aus dem Jahr 2004)

[8] L. Sachs, J. Hedderich, Angewandte Statistik: Methodensammlung mit R, 12. Auage,


Springer Verlag, 2006.

[9] J. Schira, Statistische Methoden der VWL und BWL: Theorie und Praxis, 2. Auage,
Pearson Studium, 2005.

[10] C. Weigand, Statistik mit und ohne Zufall, Physica Verlag, 2006.

Das könnte Ihnen auch gefallen