Formulario de Estadı́stica y Optimización
(EI1012-MT1012) Curso 2011-2012
Las notaciones generales del curso se suponen conocidas. El icono indica que
se puede calcular directamente con una calculadora estándar.
DESCRIPCIÓN DE MUESTRAS UNIVARIANTES
Se supone la muestra de datos cuantitativos expresada como {xi }i .
• Estadı́sticos de posición
P
x
◦ Media (aritmética): x = ni i ( x)
◦ Mediana:
x e. Primero ordenar los datos x1 ≤ x2 ≤ · · · ≤ xn , y entonces
x n+1 , si n impar
xe= 1 2 .
2 (x 2 + x 2 +1 ) , si n par
n n
• Estadı́sticos de dispersión
◦ Recorrido: Re = xmáx − xmı́n
◦ Recorrido intercuartı́lico:
P RQ =P x0.75 − x0.25
2 2
2 i (xi − x) i xi
◦ Varianza: s = ó − x2
n √ n
◦ Desviación tı́pica: s = + s ( 2 xσn )
P 2
P 2 2
2 i (xi − x) i xi − nx n 2
◦ Cuasivarianza: bs = ó ó s
n − 1√ n−1 n−1
◦ Cuasidesviación tı́pica: bs = + bs2 ( xσn − 1 )
s
◦ Coeficiente de variación de Pearson: CV =
|x|
DESCRIPCIÓN DE MUESTRAS MULTIVARIANTES
Si las variables son cualitativas, se supone la muestra de datos presentada en
forma de tabla de frecuencias conjuntas {xi , yj , nij }(i,j)
nij
• Frecuencias conjuntas: nij y fij =
n
• Frecuencias marginales:
◦ de X: totales por fila (denotados por ni· y fi· )
◦ de Y : totales por columna (denotados por n·j y f·j )
• Frecuencias condicionadas:
nij
◦ de X condicionada a Y = yj : fi|j =
n·j
nij
◦ de Y condicionada a X = xi : fj|i =
ni·
• Independencia: X e Y son independientes si y sólo si fij = fi· × f·j para
toda pareja (xi , yj )
Si las variables son cuantitativas, se supone la muestra de datos cuantitativos
expresada como datos {xi , yi }i .
• Estadı́sticos conjuntos
P P P P
i j (x i − x)(y i − y) i j xi yi
◦ Covarianza: sxy = ó −x·y
n n
sxy
◦ Coeficiente de correlación lineal: rxy = ( r)
sx sy
• Recta de regresión de Y sobre X: Ecuación Y = a + bX, con
sxy
◦ b= 2 ( B)
sx
◦ a = y − bx ( A)
◦ Coeficiente de determinación lineal: R2 = r2xy
PROBABILIDAD
Sea E el espacio muestral, y A, B, . . . sucesos de E.
• Definición:
◦ P (A) ≥ 0 para cualquier A
◦ P (E) = 1
◦ P (A ∪ B) = P (A) + P (B) si A y B son disjuntos
• Interpretación de P (A):
◦ Frecuencialista: Frecuencia relativa a largo plazo del suceso A
◦ Subjetivo: Valor subjetivo de la credibilidad del suceso A
‘tamaño’ de A
◦ Clásico (equiprobabilidad):
‘tamaño’ de E
• Propiedades:
◦ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) para cualesquiera A y B
◦ P (A) = 1 − P (A) para cualquier A
P (B ∩ A)
• Probabilidad de B condicionada a A: P (B|A) =
P (A)
• Independencia: A y B son independientes si y sólo si P (A ∩ B) =
P (A)P (B)
• Probabilidad total: Si E es la unión disjunta de A1 , . . . , An y se conoce
cada P (Ai ) y cada P (B|Ai ), entonces
n
X
P (B) = P (B|Ai )P (Ai ) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + · · ·
i=1
• Teorema de Bayes: Si E es la unión disjunta de A1 , . . . , An y se conoce
cada P (Ai ) y cada P (B|Ai ), entonces
P (B ∩ Aj ) P (B|Aj )P (Aj )
P (Aj |B) = = Pn
P (B) i=1 P (B|Ai )P (Ai )
VARIABLE ALEATORIA UNIDIMENSIONAL
X e Y indican variables aleatorias, y x, y, a y b posibles valores concretos.
• Variable discreta
◦ Definiciones:
f (x) = P (X = x) (func. de prob. masa o cuantı́a)
F (x) = P (X ≤ x) (func. de distribución (acumulada))
◦ Propiedades:
P (a < X ≤ b) = F (b) − F (a)
P
F (x) = y≤x f (y) = f (x) + f (x − 1) + · · ·
f (x) = F (x) − F (x − 1)
P
x f (x) = 1
P
◦ Esperanza (valor esperado o media): E(X) = µ = x x · f (x)
P
◦ Varianza: V ar(X) = σ 2 = x (x − µ)2 f (x) ó E(X 2 ) − E(X)2
• Variable continua
◦ Definiciones:
F (x) = P (X ≤ x) (func. de distribución (acumulada))
◦ Propiedades:
P (X = x) = 0
P (a < X ≤ b) = F (b) − F (a)
Rb
P (a < X ≤ b) = a f (x)dx
Rx
F (x) = −∞ f (y)dy
f (x) := F 0 (x) (func. de densidad de probabilidad)
R +∞
−∞ f (x)dx = 1
R +∞
◦ Esperanza (valor esperado o media): E(X) = µ = −∞ xf (x)dx
R +∞
◦ Varianza: V ar(X) = σ 2 = −∞ (x − µ)2 f (x)dx ó E(X 2 ) − E(X)2
• Propiedades:
◦ E(X + Y ) = E(X) + E(Y )
◦ E(a + bX) = a + bE(X)
◦ V ar(a + bX) = b2 V ar(X)
1
• Desigualdad de Tchebychev: P (|X − µ| < kσ) ≥ 1 − k2
VARIABLE ALEATORIA MULTIDIMENSIONAL
X e Y indican variables aleatorias, y x, y, a y b posibles valores concretos. Z
representa las v.a. conjunta (X, Y )
• Probabilidades conjuntas:
◦ P (X = x, Y = y) = f (x, y) (sólo en discreta)
◦ P (X ≤ x, Y ≤ y) = F (x, y)
◦ Propiedades:
f (x, y) = F (x, y) − F (x − 1, y) − F (x, y − 1) + F (x − 1, y − 1)
(discreta)
∂ 2F
f (x, y) = (x, y) (continua)
∂x∂y
XX
F (x, y) = f (u, v) (discreta)
u≤x v≤y
Z u=x Z v=y
F (x, y) = f (u, v)dudv (continua)
u=−∞ Zv=−∞
Z
P ((X, Y ) ∈ A) = f (x, y)dxdy (continua) donde A es cualquier
A
suceso de R2
• Marginales:
discreta continua
P R +∞
fX (x) f (x, y) −∞ f (x, y)dy
Py R +∞
fY (y) x f (x, y) −∞ f (x, y)dx
f (x, y) f (x, y)
• Condicionadas: fX|Y =y (x) = y fY |X=x (y) =
fY (y) fX (x)
• Independencia: X e Y son independientes si y sólo si f (x, y) = fX (x)fY (y)
para todos los valores x de X e y de Y
• Covarianza: Cov(X, Y ) = E((X − µX )(Y − µY )) = E(XY ) − µX µY .
En particular:
P P P P
◦ Cov(X, Y ) = x y xyf (x, y) − ( x xfX (x)) y yfY (y) (dis-
creta)
R R R R
◦ Cov(X, Y ) = x y xyf (x, y)dxdy − x xfX (x) y yfY (y) (con-
tinua)
Cov(X, Y )
• Correlación: ρ(X, Y ) = p .
V ar(X)V ar(Y )
• Propiedades:
◦ V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
◦ X e Y independientes implica Cov(X, Y ) = 0 (pero no necesaria-
mente al revés)
◦ Cov(a + bX, c + dY ) = bdCov(X, Y )
◦ ρ(a + bX, c + dY ) = ρ(X, Y )
MODELOS DE VARIABLE ALEATORIA
• Modelo binomial de parámetros n y p Bin(n, p)
◦ X = “número de éxitos al realizar n pruebas de Bernoulli indepen-
dientes de parámetro p”
◦ f (x) = nx px (1 − p)n−x , para x ∈ {0, 1, . . . , n} ( o tablas)
P
◦ F (x) = x0 ≤x f (x0 ) ( o tablas)
◦ E(X) = np, V ar(X) = np(1 − p)
◦ Propiedad: si X1 ∼ Bin(n1 , p), X2 ∼ Bin(n2 , p), son independientes e
Y = X1 + X2 , entonces Y ∼ Bin(n1 + n2 , p)
◦ Propiedad: si X ∼ Bin(n, p), n es muy ‘grande’, p muy pequeño y
np > 10, entonces X ∼aprox. Po(µ = np)
◦ Propiedad: si X ∼ Bin(n, p), n es muy ‘grande’, con np > 5 y n(1 −
p) > 5, entonces X ∼aprox. N(µ = np, σ 2 = np(1−p)) (correc. cont.)
• Modelo binomial negativo de parámetros r y p BinNeg(r, p)
◦ X = “número de pruebas de Bernoulli independientes de parámetro p
realizadas hasta observar el r-ésimo éxito”
r
◦ f (x) = x−1
r−1 p (1 − p)x−r , para x ∈ {r, r + 1, . . .} ( )
P
◦ F (x) = x0 ≤x f (x0 ) ( )
◦ E(X) = r/p, V ar(X) = r(1 − p)/p2
◦ Si r = 1, se llama modelo geométrico y F (x) = 1 − (1 − p)x ( )
• Modelo hipergeométrico de parámetros n, N y K Hyper(n, N, K)
◦ X = “número de bolas tipo éxito encontradas al extraer n bolas de
una urna de N bolas de las que K son de tipo éxito”
(K )(N −K )
◦ f (x) = x Nn−x , para los posibles x ( )
P( n )
◦ F (x) = x0 ≤x f (x0 ) ( )
K N −n
◦ E(X) = n K N , V ar(X) = n K
N 1 − N N −1
• Modelos asociados a un proceso de Poisson de intensidad λ
◦ Modelo de Poisson en un intervalo de longitud T Po(µ = λT )
X = “número de observaciones del proceso de Poisson en un in-
tervalo de longitud T ” (T y λ deben ‘concordar’ en unidades de
medida, µ = λT )
x
f (x) = (λTx!) e−λT , para x ∈ {0, 1, . . .} ( o tablas)
P
F (x) = x0 ≤x f (x0 ) ( o tablas)
E(X) = µ, V ar(X) = µ
Propiedad: si X1 ∼ Po(µ1 ), X2 ∼ Po(µ2 ), son independientes e
Y = X1 + X2 , entonces Y ∼ Po(µ1 + µ2 )
Propiedad: si X ∼ Po(µ) y µ > 10, entonces X ∼aprox. N(µ, µ)
(correc. cont.)
◦ Modelo exponencial de parámetro λ Exp(λ)
X = “longitud del intervalo hasta la próxima observación del pro-
ceso de Poisson” (X debe ‘concordar’ en unidades de medida con
λ)
f (x) = λe−λx , para x ∈ (0, +∞)
F (x) = 1 − e−λx , para x ∈ (0, +∞)
E(X) = 1/λ, V ar(X) = 1/λ2
¡Atención!: En algunas ocasiones se proporciona la media E(X), y
de ella se obtiene λ = 1/E(X).
• Modelo uniforme en (a, b) U(a, b)
1
◦ f (x) = b−a , para x ∈ (a, b)
x−a
◦ F (x) = b−a , para x ∈ (a, b)
a+b (b−a)2
◦ E(X) = 2 ,V ar(X) = 12
• Modelo normal de parámetros µ y σ 2 N(µ, σ 2 )
(x−µ)2
◦ f (x) = σ√12π e− 2σ2 , para x ∈ (−∞, +∞)
Rx
◦ F (x) = −∞ f (y)dy, para x ∈ (−∞, +∞) (tablas)
◦ E(X) = µ, V ar(X) = σ 2
◦ Propiedad: si X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ), son independientes,
a, b, c ∈ R e Y = a + bX1 + cX2 , entonces Y ∼ N (a + bµ1 +
cµ2 , b2 σ12 + c2 σ22 )
X −µ
◦ Corolario: si X ∼ N (µ, σ 2 ) y hacemos Z = , entonces Z ∼
σ
N (0, 1) (y se llama normal tipificada)
• Teorema del lı́mite central:
◦ Si X1 , . . . , Xn son ‘muchas’ [Link]. independientes, cada una con su
media µi y su varianza σi2 , entonces
n
X Xn n
X
Xi ∼aprox. N( µi , σi2 )
i=1 i=1 i=1
◦ Si X1 , . . . , Xn es una m.a.s. de una v.a. X con media µX y varianza
2
σX , entonces
2
σX
X n ∼aprox. N (µX , )
n
TABLAS DE FUNCIONES DE PROBABILIDAD Y CUANTILES
Adjunta a este formulario copia de las tablas de...
• ... la F de los modelos binomial, Poisson y normal tipificada.
• ... cuantiles de la chi-cuadrado, t-Student y F -Snedecor.
Estadı́stica y Optimización Formulario Parte 2
Distribuciones Muestrales
(Exactas en poblaciones normales y aproximadas cuando la muestra es grande)
(Se supondrá m.a.s. a menos que se especifique lo contrario)
Media muestral con σ 2 conocida.
Si X1 , X2 , . . . , Xn son una m.a.s. con E[Xi ] = µ y var[Xi ] = σ 2 entonces
σ2 σ2
X̄n ,→ N (µ, ) E[X̄n ] = µ var[X̄n ] =
n n
σ2 N − n
Si el muestreo es irrestricto (población de tamaño N ): E[X̄n ] = µ var[X̄n ] = ·
n N −1
Varianza muestral.
Si X1 , X2 , . . . , Xn son una m.a.s. con var[Xi ] = σ 2 entonces
ns2n n−1 2 2(n − 1)σ 4
,→ χ2n−1 con E[s2n ] = σ var[s2n ] =
σ2 n n2
(n − 1)s∗2 2σ 4
n
,→ χ2n−1 con E[s∗2
n ] = σ
2
var[s∗2
n ] =
σ 2 n−1
Media muestral con σ 2 desconocida.
Si X1 , X2 , . . . , Xn son una m.a.s. con E[Xi ] = µ entonces
X̄n − µ X̄n − µ
√ ,→ t(n − 1) ó √ ,→ t(n − 1)
sn / n − 1 s∗n / n
1
Proporción muestral.
Si tenemos una m.a.s. de tamaño n de una población Bernouilli: nP ,→ Bi(n, p)
Si n es grande aproximamos por una distribución Normal.
Diferencia de proporciones muestrales.
p1 (1 − p1 ) p2 (1 − p2 )
P1 − P2 ,→ N (p1 − p2 , + )
n1 n2
Diferencia de medias muestrales con σ 2 ’s conocidas.
2
Si X1 , X2 , . . . , Xn son una m.a.s. con E[Xi ] = µX y var[Xi ] = σX e Y1 , Y2 , . . . , Ym son una
2
m.a.s. con E[Yj ] = µY y var[Yj ] = σY entonces
2
σX σ2
X̄n − Ȳm ,→ N (µX − µY , + Y)
n m
Diferencia de medias muestrales con σ 2 ’s desconocidas pero iguales.
Si X1 , X2 , . . . , Xn son una m.a.s. con E[Xi ] = µX e Y1 , Y2 , . . . , Ym son una m.a.s. con E[Yj ] =
µY entonces
X̄n − Ȳm − (µX − µY )
√ ,→ t(n + m − 2)
ns2n +ms2m 1 1
n+m−2 n
( + m)
Cociente de varianzas muestrales.
2
Sean X1 , X2 , . . . , Xn m.a.s. con var[Xi ] = σX e Y1 , Y2 , . . . , Ym m.a.s. con var[Yj ] = σY2
entonces
ns2n /σX
2
(n − 1) s∗2 2
n /σX
,→ F (n − 1, m − 1) ó ,→ F (n − 1, m − 1)
msm /σY (m − 1)
2 2
s∗2 2
m /σY
2
Intervalos de Confianza al nivel de confianza 1 − α
• Para µ, con σ 2 conocida:
σ σ
[X n − z1− α2 √ , X n + z1− α2 √ ]
n n
• Para µ, con σ 2 desconocida:
sn sn
[X n − t1− α2 (n − 1) √ , X n + t1− α2 (n − 1) √ ]
n−1 n−1
s∗ s∗
[X n − t1− α2 (n − 1) √n , X n + t1− α2 (n − 1) √n ]
n n
• Para p, (n grande): √ √
PQ PQ
[P − z1− α2 , P + z1− α2 ]
n n
• Para µ1 − µ2 , con σ12 y σ22 conocidas:
√ √
σ12 σ22 σ12 σ22
[X n − Y m − z1− α2 + , X n − Y m + z1− α2 + ]
n m n m
• Para µ1 − µ2 , con σ12 y σ22 desconocidas pero iguales:
√ √
ns21 + ms22 1 1 ns21 + ms22 1 1
[X n −Y m −t1− α2 (n+m−2) ( + ), X n −Y m +t1− α2 (n+m−2) ( + )]
n+m−2 n m n+m−2 n m
• Para p1 − p2 :
√ √
P1 Q1 P2 Q2 P1 Q1 P2 Q2
[P1 − P2 − z1− α2 + , P1 − P2 + z1− α2 + ]
n1 n2 n1 n2
3
• Para σ 2 , (:: Si n > 100 utilizar intervalo (A)):
ns2n ns2n (n − 1)s∗2n (n − 1)s∗2
n
[ , ] ó [ , ]
χ21− α (n − 1) χ2α (n − 1) χ21− α (n − 1) χ2α (n − 1)
2 2 2 2
ns2n ns2n
(A) [ √ , √ ]
(n − 1) + z1− α2 2n (n − 1) − z1− α2 2n
• Para el cociente de varianzas:
σ12 s∗2 1 s∗2 1
∈ [ n
· , n
· ] ó
σ22
s∗2
m F1− α2 (n − 1, m − 1) s∗2
m F α2 (n − 1, m − 1)
σ12 ns2n (m − 1) 1 ns2n (m − 1) 1
∈ [ · , · ]
σ22
msm (n − 1) F1− 2 (n − 1, m − 1) msm (n − 1) F 2 (n − 1, m − 1)
2 α 2 α
Tamaño muestral para obtener intervalos de precisión determinada
Para la media, si conocemos σ 2 :
σ σ
E = z1− α2 √ =⇒ n = (z1− α2 )2
n E
Para la media, si desconocemos σ 2 : cuando n > 30 obtendremos
s∗n 2
n = (z1− α2 )
E
Para la proporción:
√
PQ
2
P Qz1− α 0′ 5z1− α2 2
E = z1− α2 =⇒ n = 2
≤( )
n E2 E
En la primera expresión de n utilizaremos estimaciones de p y q obtenidas en estudios
previos (P y Q). En la segunda expresión utilizamos el máximo producto p · q ≤ 0′ 5 · 0′ 5
Para la varianza: √
2 2 2 σ4
E = z1− α2 σ =⇒ n = 2z1− α
n 2 E2
Utilizaremos estimación de σ 2 .
4
Estadı́sticos en Contrastes Paramétricos
Suponemos que la población es normal o que trabajamos con muestra grande.
X n −µ
a) con σ 2 conocida, H0 : µ = µ0 T = σ/ n
√ 0 ,→ N (0, 1)
X n√−µ0
b) con σ 2 desconocida, H0 : µ = µ0 T = sn / n−1
,→ t(n − 1)
c) con varianzas conocidas (poblaciones independientes)
X n − Y n − D0
H0 : µx − µy = D0 T = √ ,→ N (0, 1)
σx2 σy2
n
+m
d) con varianzas desconocidas pero iguales (poblaciones independientes)
X n − Y n − D0
H0 : µx − µy = D0 T =√ 2 ,→ t(n + m − 2)
nsn +ms2m 1 1
n+m−2 n
( + m)
e) para igualdad de medias (poblaciones relacionadas), Di = Xi − Yi
D − d0
con varianza de las diferencias conocida H0 : µx −µy = d0 T = σD ,→ N (0, 1)
√
n
D − d0
con varianza de las diferencias desconocida H0 : µx −µy = d0 T = ,→ t(n−1)
√sD
n−1
0′ 5
P −p ± ′
f) para una proporción, H0 : p = p0 T = √ 0 n
,→ N (0, 1) (± 0n5 = correc. continuidad)
p0 q0 /n
g) para la diferencia de proporciones (algunos libros utilizan corrección por continuidad)
P x − P y − D0
H0 : px − py = D0 T =√ ,→ N (0, 1)
Px Qx Py Qy
n
+ m
′
nPx + mPy Px − Py ± n+m 05
0′ 5
Si D0 = 0 se utiliza P̂ = =⇒ T = √ (± = c. cont.)
n+m P̂ Q̂( n1 + m1 ) n+m
sumamos cuando la diferencia sea negativa y restamos cuando la diferencia sea positiva
5
ns2n
h) para la varianza, H0 : σ 2 = σ02 T = σ02
,→ χ2 (n − 1)
s∗2
i) para la igualdad de varianzas, H0 : σx2 = σy2 T = x
s∗2
,→ F (n − 1, m − 1)
y
(La población X es la de mayor varianza muestral, y siempre se contrasta la alternativa
σx2 > σy2 )
√
j) para el coeficiente de correlación lineal, H0 : ρ = 0 r
T = √1−r 2 n − 2 ,→ t(n − 2)
Regiones de aceptación
Para las distribuciones simétricas de la normal y t de Student:
En los contrastes unilaterales a izquierda (H1 : θ < θ0 )
la región de aceptación será R0 =] − vc1−α , +∞[
En los contrastes unilaterales a derecha (H1 : θ > θ0 )
la región de aceptación será R0 =] − ∞, vc1−α [
En los contrastes bilaterales (H1 : θ ̸= θ0 )
la región de aceptación será R0 =] − vc1− α2 , +vc1− α2 [
Para las distribuciones χ2 y F de Snedecor:
En los contrastes unilaterales a izquierda (H1 : θ < θ0 )
la región de aceptación será R0 =]vcα , +∞[
En los contrastes unilaterales a derecha (H1 : θ > θ0 )
la región de aceptación será R0 =]0, vc1−α [
En los contrastes bilaterales (H1 : θ ̸= θ0 )
la región de aceptación será R0 =]vc α2 , vc1− α2 [
donde vc es el valor crı́tico que buscaremos según la distribución que siga el estadı́stico y el
nivel de significación correspondiente.
6
ANOVA 1 factor, completamente aleatorizado
Hipótesis que se contrasta: H0 : αj = 0 ∀j (no influye el factor)
Fórmulas para calcular sumas de cuadrados:
J ∑
∑ nj
1 ∑∑
J nj
SCT = Yij2 − ( Yij )2 = a − b
j=1 i=1
N j=1 i=1
∑J
1 ∑
nj
1 ∑∑
J nj
SCE = ( Yij ) − (
2
Yij )2 = c − b
n
j=1 j i=1
N j=1 i=1
∑
J ∑
nj
∑J
1 ∑
nj
SCR = SCT − SCE = Yij2 − ( Yij )2 = a − c
j=1 i=1
n
j=1 j i=1
Grados de libertad de las sumas de cuadrados:
SCT SCE SCR
N −1 J −1 N −J
Prueba de Bartlett-Box: H0 : σ12 = σ22 = . . . = σJ2
El estadı́stico de contraste es B = CA → χ2J−1 con
∑J
(nj −1)s∗2 ∑
C = 2′ 3026[(N − J)log j=1N −J j − Jj=1 (nj − 1)logs∗2
j ]
donde s∗2
j es la cuasivarianza muestral en cada nivel del factor
∑
1
A = 1 + 3(J−1) [( Jj=1 nj1−1 ) − N −J
1
]
Prueba de Scheffé: (Hay que calcularlo para cada par de diferencias)
H0 : µ.j = µ.l H1 : µ.j ̸= µ.l
|Ȳ.j −Ȳ.l |
Calculamos S= √
M CR( n1 + n1 )
j l
√
Si S≥ (J − 1) · F1−α (J − 1, N − J) entonces rechazamos H0 .
****** Si todos los niveles tienen la misma cantidad de datos (n) entonces no es necesario
calcular S.
Las medias poblacionales de los niveles j y l serán diferentes si
√
2
|Ȳ.j − Ȳ.l | ≥ · M CR · (J − 1) · F1−α (J − 1, N − J)
n