Einführung
Phasen der statistischen Analyse
o Formulierung der Ziele (Operationalisierung)
o Welches Ziel wird verfolgt? -> Thesen formulieren
o Planung und Durchführung der Datenerhebung
o Aufbereitung der gewonnenen Daten (deskriptive Statistik)
o Schlussfolgerungen (schließende Statistik)
Grundgesamtheit
o Gesamtheit aller relevanten Subjekte
Totalerhebung/Teilerhebung
o Alle/eine Teilmenge der Grundgesamtheit wird berücksichtigt
Stichprobe
o Bestimmte Teilmenge der Grundgesamtheit
o Einstufige Stichprobe
Jeder Merkmalsträger hat die gleiche Chance als Stichprobe gefiltert zu werden (gleiche
Wahrscheinlichkeit)
o Mehrstufige Stichprobe
Mind. 2 Vorgänge mit unterschiedlichen Auswahleinheiten
Bspw. Lastwagen wird bestimmt danach eine Kiste daraus
o Klumpenstichprobe
Grundgesamtheit wird in kleine homogene Klumpen geteilt, die ein Abbild der Grundgesamtheit
darstellen
Einige Klumpen werden ausgewählt (Teilstichprobe)
Einige davon gelangen in die endgültige Stichprobe
Primärstatistische Erhebung
o Unmittelbare Erhebung im Bezug auf die Fragestellung
Sekundärstatistische Erhebung
o Bereits vorhandene Daten werden genutzt
Tertiärstatistische Erhebung
o Bereits vorhandene und transformierte Daten werden genutzt (Mittelwerte usw)
Experiment
o Erfassung von Daten die erzeugt werden müssen
Erhebung
o Erfassung von prinzipiell vorhandenen Daten (Befragung, Beobachtung)
Merkmal
o Gegenstand der Untersuchung (Geburtsjahr, Größe, Gewicht)
Merkmalsausprägung
o Konkrete Realisation einer Variabel
Merkmalsträger
o Untersuchungseinheit
Arten von Daten
o Nominalskala
Den Beobachtungen werden Namen oder Bezeichnungen gegeben Verschiedenartigkeit wird
zum Ausdruck gebracht niedriger Informationsgehalt
Bspw. Geschlecht, Partnervorliebe, Studienfach (binäre Variablen)
o Ordinalskala/Rangskala
Verschiedenartigkeit + natürliche Rangfolge Sortierung nach Reihenfolge ist möglich (größer,
kleiner, gleich)
Keine Rechnung möglich!!
Bspw. Hotelklassen, Steuerklassen, Schulnoten (streng genommen)
o Metrische Skala
Verschiedenartigkeit + Rangfolge + messbare Unterschiede
Bspw. Gewicht, Alter, Größe
Mächtigkeit der Ausprägungsmenge
Siehe S.24 im Skript 1
o Diskretes Merkmal
Menge der Ausprägungen ist endlich oder abzählbar und der Abstand ist unauffällig Nominal-
und ordinalskalierte Daten sind immer diskret
Bspw. Geschlecht, Schulnoten
o Stetiges Merkmal
Ausprägungen sind so groß und mit einem oftmals so großen Abstand, dass die Menge nicht
zählbar ist
Bspw. Größe, Gewicht, Dauer
Deskriptive Statistik
Diskrete Häufigkeitsanalyse (Stabdiagramm)
o i = Index der verschiedenen Merkmalsausprägungen
o Xi = i-te Merkmalsausprägung des Merkmals x
o ni = absolute Häufigkeiten von x (Wie oft wurde x beobachtet?)
o hi = relative Häufigkeiten von x (Wieviel Prozent?)
o Fi = kumulierte relative Häufigkeiten (empirische Verweilungsfunktion)
o k = Anzahl der verschiedenen Merkmalsausprägungen
o Xk = bei ordinalem Skalenniveau => größte Beobachtung
o Summe Siehe Skript S. 3 (2.)
F(x) = Anzahl der Beobachtungen <= x / Anzahl der Beobachtungen
Stetige/klassierte Häufigkeitstabelle (Histogramm)
o Unterteilung in Klassen
Bspw. bei fließenden Übergängen
o Notation siehe Skript S. 6 ( „f Dach“ = empirische Daten)
o Äquidistante Klasse
Über jeder Klasse wird ein Rechteckt abgetragen, dessen Höhe der absoluten/relativen
Häufigkeiten entspricht
Möglichst sollten alle Klassen gleich groß sein
o Nicht-Äquidistante Klasse
Bei ungleichen Klassenbreiten
Berechnung der Häufigkeitsdichte fi = hi / ΔXi
Fläche der Rechtecke = relative Häufigkeit
Empirische Verteilungsfunktion S. 8 im Skript 2
Zentrale Lagemaße (Wo liegt ein Datensatz?)
o Mittelwert
Ausreißer empfindlich
o Median
Merkmalsausprägung, an der die Daten in 2 Teile geteilt werden
Bspw. jüngere/ältere Hälfte rechts und links liegen jeweils 50% der Daten
, bei n = ungerade
x + +1) * 0,5, bei n = gerade
Nicht Ausreißer empfindlich
o Modus
Diskret: Am häufigsten beobachtete Merkmalsausprägung
Stetig: Klassenmitte der am häufigsten besetzten Klasse
o Midrange
Sehr Ausreißer empfindlich, nur die Extrema werden berechnet
Mittelwert glättet Ecken und Kanten des Datensatzes Informationen können verloren gehen
Nicht-Zentrale Lagemaße
o Extremwerte
o Unteres Quartil
o Oberes Quartil
o Spezielle Quantile
Numerische Darstellung
[Link]
a. Die zentralen 50% liegen in der Box
b. Lage, Streuung, Ausreißer usw. können gut
erkannt werden
c. Perfekter Datensatz: alle 4 Bereiche sind
gleich lang
Für einen schnellen Überblick, Ausreißer identifizieren
2. Kerndichteschätzer
a. Um jeder Beobachtung wird ein kleines Intervall
gelegt
b. Mittelwert > Median : rechtsschief
c. Mittelwert = Median: symmetrisch
d. Mittelwert < Median: linksschief
3. W-Plot
a. 5 Lageparameter werden eingezeichnet
b. Horizontale = Merkmalsachse
c. Oben links = Minimum unteres Quartil Median oberes Quartil Maximum
Gut für relativ wenige Daten#
Streuungsmaße
o Relatives Streuungsmaß
Streuungsparameter wird auf ein Lageparameter bezogen
o Spannweite (Absolute Range)
Wie groß ist der Bereich auf dem die Daten liegen?
Sw = x(n) – x(1) => max. – min.
o Quartilsabstand
Wo liegen die zentralen 50% der Daten?
Sq = x0,75 – x0,25
o Mittlere Abweichung
Wie weit sind die Daten vom Mittelwert entfernt?
Formel S. 17
o Stichprobenvarianz
Formel S. 23
Symmetrieeigenschaften
Verteilung von Dichte über die Merkmalsachse
Bivariate Datenanalyse
o Verbunden
2 Beobachtungen werden durchgeführt die von demselben Objekt stammen
Korrelation: Zusammenhang vorhanden (Bspw. zwischen Größe und Gewicht)
Vorher/Nachheranalyse: Bspw. Reaktionen messen vor- und nach Einfluss von Alkohol
o Unverbunden
Beobachtungen werden an verschiedenen Objekten gemacht, auf Grund von technischen
„Problemen“
Bspw. neue Operationsmethode im Vergleich zur Alten
Nominalskalierte Daten
o 2-dimensionale Häufigkeitstabelle: Kontingenztabelle
o bei verschiedenen Basen (Siehe Bsp. S. 6) spricht man von relativen Häufigkeiten
o h (X/Y = weiblich)
y ist die Bedingung ( relative Häufigkeit des Merkmals y (Parteienvorliebe) unter der Bedingung,
dass das Merkmal x (= Geschlecht) die Ausprägung weiblich angenommen hat
ABHÄNGIGKEIT!
grafische Darstellung: Zeilen- bzw. Spaltenprofil
o Der Abstand zum mittleren Profil kann anzeigen, ob eine Abhängigkeit oder eine Unabhängigkeit vorliegt
Bei Unabhängigkeit sähen die Zeilen- bzw. Spaltenprofile dem mittleren Profil ähnlich oder das
Produkt der Einzelwahrscheinlichkeiten = die Wahrscheinlichkeit für das gemeinsame Auftreten
Zu erwartende absolute Häufigkeit für das Auftreten von X und Y
Prüfgröße: Unterschiedlichkeit zwischen der empirischen
Beobachtung und der theoretisch (bei Unabhängigkeit) zu
erwartende Beobachtung
Kontingenzkoeffizient K von Pearson als ein statistisches
Zusammenhangsmaß, die die Stärke des Zusammenhangs
zwischen 2 oder mehreren Variablen angibt
Bei 0 = völlige Unabhängigkeit
Je größer K*, desto größer ist das Ausmaß des Zusammenhangs
Metrisch Skalierte Daten
Korrelationskoeffizient von Bravis-Pearson ist ein dimensionsloses
Maß für den Grad des linearen Zusammenhangs
Wertebereich von -1 bis +1
o Rxy = 1 perfekter linearer Zusammenhang mit positiver Steigung
o Rxy = -1 perfekter linearer Zusammenhang mit negativer Steigung
o Rxy ≈ 0 kein linearer Zusammenhang
Ordinalskalierte Daten
Rangkorrelationskoeffizient von
o (rs)Merkmal
Spearman monotoner
X und Y, werden
durch Ränge ersetzt (kein linearer
Zusammenhang
o
Zusammenhang) r(xi) = Position von xi in der
Rangreihe
Korrelation
o Gemeinsames Verhalten wird gemeldet
o Scheinkorrelation:
X beeinflusst Y, aber nur unter dem Einfluss von Z
Bivariate Datenanalyse – Lineare Regression
o Vertiefung des Korrelationskoeffizienten
o Richtung des Zusammenhangs wird berücksichtigt (Bspw. ein abhängiges (Y= Regressand/endogen)
Merkmal wird auf ein unabhängiges (X= Regressor/endogen) zurückgeführt um jenes zu erklären)
o Regressionsgrade = die Grade, für die gilt, dass die quadrierten Abstände aller Punkte zur Gerade minimal
sind
o
o Beispiel
Verläuft durch den Schwerpunkt der Daten
Die Steigung (b) gibt an umwieviele Einheiten sich der Wert von y
verändert wenn x um eine Einheit erhöht wird
Der y-Achsenabschnitt (a), gibt den autonomen Wert von y an, wenn x= 0 ist
Das Bestimmheitsmaß (Güte der Anpassung) R²
R² * 100 = prozentualer Anteil der erklärten Streuung
Ob das richtige Modell gewählt wurde, erkennt man an der Streuung der
Residuen
Residuen streuen um 0 Keine Struktur in den Daten richtiges Modell
Residuen haben eine Struktur Bspw. Je größer x, desto größer y)
Prognosen können gemacht werden in dem man Werte einsetzt, die noch nicht
berücksichtigt wurden
Zeitreihen
o Menge von Daten (x1) für ein statistisches Merkmal, die in einer
zeitlichen Reihenfolge (t) angeordnet sind
o Lineare Regression kann als einfacher Trendschätzer fungieren
o Gesetzmäßigkeiten werden aufgespürt
m = Trend (langfristige system. Veränderung des mittleren Niveaus)
kt = Konjunktorkomponente (mehrjährige regelmäßige Schwankungen)
st = Saisonkomponente (jahreszeitlich bedingte Schwankungen)
ut = Störgröße = restliche Variation
Wirtschaftskennzahlen S. 22 (Skript 4)
Lorenzkurve/ Gini Koeffizient
o Ungleichverteilungen werden grafisch dargestellt
o Maßzahl für die Ungleichheit = Gini Koeffizient
Verhältnis von tatsächlicher eingenommener und der gesamten Fläche
Die Fläche zwischen der Diagonalen
(gerechte Verteilung) und der Kurve gibt
das Ausmaß der Ungleichverteilung an.
Je größer die Fläche, desto größer die
Ungleichverteilung
Wahrscheinlichkeitsrechnung
Begriffe
o Zufallsexperiment: Experiment mit ungewissem Ausgang
o Ergebnis/Elementarereignis: mögliche Ausgänge
o Ergebnismenge: Menge der Ergebnisse Ω
o Wahrscheinlichkeit (P): Jedes Elementarereignis hat eine Wahrscheinlichkeit zwischen 0 und 1
o Mächtigkeit: Anzahl der Elemente in A
o Komplementärereignis: Gegenereignis
Klassische Wahrscheinlichkeit / Laplace-Wahrscheinlichkeit
o Nur bei einer Gleichwahrscheinlichkeit der Elementarereignisse und einer endlichen Ergebnismenge =
Gleichmöglichkeitsmodell
o Bsp. Würfel = 6 verschiedenen Ergebnisse
o A = Wurf einer 1
Frequentistischer Ansatz
o Mehrmaliges Wiederholen des Experiments Erfahrungssammlung
o P wird durch die relativen Häufigkeiten abgeschätzt
Subjektivistischer Ansatz
o Persönliche oder Experteneinschätzung
o Bspw. Wie wird sich die Wirtschaft entwickeln?
Axiomatische Definition
o 3 Bedingungen müssen erfüllt sein für die Wahrscheinlichkeit P
Venn Diagramme
o Vereinigungsmenge
o Schnittmenge
o Differenzmenge
Multiplikationssatz
Bedingte Wahrscheinlichkeit
Das Gesetz der großen Zahlen
o Die Empirie strebt mit zunehmenden Stichproben gegen die Theorie
o Die Varianz des Mittelwertes strebt mit steigendem Stichprobenumfang gegen 0
o Relative Häufigkeiten ≈ Mittelwerte
o Der Mittelwert strebt gegen das Zentrum der Gesamtpopulation
o Die relative Häufigkeit strebt gegen die tatsächliche Wahrscheinlichkeit
Zufallsvariablen
o Zufallsvariable X = Abbildung von Ω in reelle Zahlen
o X = diskrete Zufallsvariable
o Bspw. Bei 4 maligem Würfelwurf eine 6 zu werfen X = 1 2 3 4
o Wahrscheinlichkeitsfunktion von X
Diskrete Zufallsvariable
Wie groß ist die Wahrscheinlichkeit, dass die
Zufallsvariable einen bestimmten Wert annimmt?
Ergebnis muss immer 100% sein
o Verteilungsfunktion von Zufallsvariablen
o Erwartungswert
Entspricht dem Mittelwert
Jede Realisation wird mit ihrer Eintrittswahrscheinlichkeit gewichtet und aufaddiert (Was erwarte
ich?)
Jeder Wert von x muss mit der Wahrscheinlichkeit multipliziert werden
o Varianz
Analog zur mittleren quadratischen Abweichung (d²)
o Standardabweichung (σ)
Statistische Modelle
o Der Bernoulli Prozess
Erfolg = Eintreten eines erwarteten Ereignisses
x = 0 oder 1
Misserfolg = Nichteintreten dieses Ereignisses
Verschiedene Vorgänge mit gleicher Wahrscheinlichkeit und Unabhängigkeit Bernoulliprozess
Benoullivorgang
o Die Binomialverteilung- diskret
Binomialkoeffizient
Auf wie viele verschieden Arten kann ich einen Erfolg verbuchen??
S = Anzahl der gewünschten Ereignisse
Bei einem Binomialkoeffizienten von ca
0.5 ist die Verteilung eben und nicht
mehr schief
o Die Normalverteilung- stetig
Beschreibt das Aussehen der Dichte
Wichtigstes Verteilungsmodell!
Anpassung von Rechen oder Messfehlern
Viele Prozesse(alle Summen) streben gegen die Normalverteilung