UNIVERSIDAD AUTÓNOMA DE ASUNCIÓN
Formulario de Estadística Descriptiva e Inferencial (Mat–250)
MEDIDAS DE TENDENCIA CENTRAL
Datos no agrupados n 25
Media aritmética
x n : cantidad de valores (tamaño de la muestra )
x
n x : valores observados
Media aritmética ponderada
( wx ) w : ponderació n
x
w x : valores de la variable
Mediana (necesita ordenación en forma ascendente o descendente)
Mediana para datos sin agrupar
Para n impar: Me = valor que ocupa el centro de la ordenación
Para n par: Me = semisuma de los dos valores centrales de la ordenación
n 1
Posición que ocupa la mediana =
2
Moda
Mo = valor que mas veces se repite
Datos agrupados n > 25
Media aritmética
x : media aritmética
fx
x x : marca de clase
f f : frecuencia
Mediana
f faa : frecuencia acumulada anterior
faa
Me LRI 2 c c : tamaño de clase
f LRI : límite real inf erior de la clase de la mediana
f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
2
Percentiles o Centiles
k f faa : frecuencia acumulada anterior
100 faa
Pk LRI c c : tamaño de clase
f LRI : límite real inf erior de la clase del percentil
k f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
100
Deciles
k f faa : frecuencia acumulada anterior
10 faa c : tamaño de clase;
Dk LRI c
f LRI : límite real inf erior de la clase del percentil
k f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
10
Moda
1 f fant
2 f fpost
f : mayor frecuencia simple
1
Mo LRI c fant : frecuencia anterior a la mayor
1 2 fpost : frecuencia posterior a la mayor
c : Tamaño del intervalo de clase
LRI : límite real inf erior de la clase modal
MEDIDAS DE DISPERSIÓN O VARIACIÓN
Datos no agrupados n 25
Rango o amplitud
R = Xmax – Xmin
Desviación cuartílica o rango semicuartílico
Q3 Q1
DC
2
cuartiles para datos no agrupados
n2
Posición de Q1
4
para n par
3n 2
Posición de Q3
4
n 1
Posición de Q1
4
para n impar
3n 1
Posición de Q3
4
Desviación media
xx x
DM Media aritmética x
n n
Desviación típica
x x
2
S
n
Varianza
V = S2
Coeficiente de variación
S
CV *100
x
Datos agrupados n > 25
Rango o amplitud
R = LRSuc – LRIPC LRSuc Limite Real superior de la ultima clase; LRIPC Limite Real inferior de la
primera clase
Desviación cuartílica
f
Q3 Q1 4 faa
DC Q1 LRI c
2 f
f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
4
3 f
4 faa
Q3 LRI c
f
3 f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
4
Desviación media
f xx
DM
f
Desviación típica
S
f x x 2
f
Intervalos en donde se encuentran los valores de la variables
El 68% de los datos se encuentra entre X S
El 95% de los datos se encuentra entre X 2.S
El 99% de los datos se encuentra entre X 3.S
Coeficiente de Asimetría
3( X Me)
As Si As > 0, Asimetría (+), Si As< 0, Asimetría (-), Si As = 0, distrib..Normal.
S
Varianza
2
V=S
Coeficiente de variación
S
CV *100
x
PROBABILIDADES
Probabilidad Simple
P
f f : casos favorables
n n : casos posibles
p q 1 p : probabilidad que ocurra el suceso esperado
q : probabilidad que no ocurra el suceso esperado
Probabilidad total o de la Suma: Regla de la suma
Sucesos compatibles Sucesos incompatibles
P(A B) = P(A) + P (B) – P(A B) P(A B) = P(A) + P (B)
Probabilidad Compuesta o de la Multiplicación: Regla de la multiplicación
Sucesos independientes Sucesos dependientes
P(A B) = P(A) P (B) P(A B) = P(A) P (B/A)
Permutaciones Combinaciones
n! n!
nPx nCx
(n x)! x! (n x)!
P(Al menos uno) = 1 – P(Ninguno)
Probabilidad Condicional Teorema de Bayes
PA B PA / Bk PBk
PA / B PBk / A
PB PA / B1 PB1 PA / B2 PB2 ... PA / Bn PBn
Distribución binomial 5 n 30
P(x ) = nCx px qn –x x = 0, 1, 2, 3, …. ,n x : Numero de êxito
P(x a) + P(x < a) = 1 p+q=1 q=1–p p = Prob. de que ocurra el suceso
P(x a) + P(x > a) = 1 q = Prob. de que no ocurra el suceso
Distribución de Poisson n > 30
= Miu
e 2,71828
x e
P ( X x) np x = 0, 1, 2, 3,…. x: Numero de éxito
x! : promedio
Distribución normal de Probabilidades – Esperanza Matemática
x
z x : Valor cuantitati vo pedido
: media poblaciona l E( x) n. p N . p
: desviacíon típica poblaciona l
Usar tabla " Z "
Intervalo de confianza para la media
x Zc Muestreo de una población infinita o de una finita con reposición.
n
N n
x Zc Muestreo de una población finita de tamaño N muestreo sin reposición.
n N 1
ANÁLISIS DE REGRESIÓN SIMPLE
Método de mínimos cuadrados
Ecuación de regresión
x 2 y x xy
a n x 2 ( x ) 2
yabx
b n xy x y
n x 2 ( x ) 2
Coeficiente de correlación
n xy x y
r
n x 2
( x) 2 n y 2 ( y ) 2
Coeficiente de determinación
r2 x 100
Interpretación del coeficiente de correlación (-1 a 1)
Valores del coeficiente Correlación Relación entre las variables
0 r < 0,20 pequeña muy poco intensa
0,20 r < 0,40 Baja pequeña pero significativa
0,40 r < 0,60 regular Considerable
0,60 r < 0,80 Alta Intensa
0,80 r 1 muy alta muy intensa
NUMEROS DE INDICE
ÍNDICES SIMPLES
Pn
a) De precios I 100
P0
Q
b) De cantidad I n 100
Q0
Vn
c) De valor I 100 Obs.: valor = precio cantidad
V0
Índices agregados simples
Pn
a) De precios I 100
P0
Qn
b) De cantidad I 100
Q0
Vn
c) De valor I 100
V0
Índices ponderados
( Pn Q0 )
a) De Laspeyres I 100
( P0 Q0 )
( Pn Qn )
b) De Paasche I 100
( P0 Qn )
Obs.: Período base: período en el que se inicia el estudio y registro de la variable en cuestión
TABLA DE LA DISTRIBUCION NORMAL
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
CLASE 4
MEDIDAS DE TENDENCIA CENTRAL
(Datos agrupados)
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
En la clase anterior vimos que: Las medidas de tendencia central
corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos, que nos ayudan a resumir la
información en un sólo número.
Además, aprendimos cómo calcular las medidas de tendencia central en
un conjunto de datos simples, también conocidos como datos no
agrupados.
En esta clase, veremos cómo calcular las medidas de tendencia
central en un conjunto de datos agrupados.
Los datos agrupados son aquellos que se presentan en tablas de
frecuencias. Por ejemplo, el peso de un conjunto de individuos:
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
Peso (kg) Nº individuos En esta tabla:
70 – 74 8 el número de clases es 6.
el tamaño de clases es 5, puesto que
75 – 79 12
la diferencia entre el límite inferior (o
80 – 84 18 superior) de una clase y la siguiente
85 – 89 6 clase es 5.
90 – 94 4 las frecuencias corresponden al
número de individuos de cada clase.
95 – 99 2
Empezaremos calculando la media aritmética. Para datos agrupados,
la fórmula es la siguiente:
x : mediaaritmética
x f x x : marcadeclase
f
f : frecuencia
El símbolo ∑ indica sumatoria.
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
Para esta fórmula necesitaremos calcular para cada clase: la marca de
clase (x) y también el producto de cada frecuencia por su marca de clase
(f.x). Recordemos que la marca de clase es el punto medio entre los límites
de cada clase. Nos queda:
LI LS f x f.x
70 74 8 (70 + 74) / 2 = 72 8 x 72 = 576
75 79 12 (75 + 79) / 2 = 77 12 x 77 = 924
80 84 18 (80 + 84) / 2 = 82 18 x 82 = 1476
85 89 6 (85 + 89) / 2 = 87 6 x 87 = 522
90 94 4 (90 + 94) / 2 = 92 4 x 92 = 368
95 99 2 (95 + 99) / 2 = 97 2 x 97 = 194
50 4060
4060
Entonces la media aritmética será: 𝑥̅ = = 81,2
50
El peso promedio de este grupo de individuos será 81,2 kg
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
Ahora vamos a calcular la mediana. Para datos agrupados, la fórmula
es la siguiente:
f faa
2
Me LRI c
f
En esta fórmula:
LRI es el límite real inferior de la clase mediana.
faa es la frecuencia acumulada anterior a la de la clase mediana.
c es el tamaño de clases.
f es la frecuencia de la clase mediana.
La clase mediana es la clase en la que se encuentra la primera frecuencia
∑𝑓 ∑𝑓
acumulada mayor o igual a ( = la mitad del total de frecuencias).
2 2
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
LI LS f fa
70 74 8 8
75 79 12 8 + 12 = 20
80 84 18 20 + 18 = 38
85 89 6 38 + 6 = 44
90 94 4 44 + 4 = 48
95 99 2 48 + 2 = 50
50
¿Cómo sabemos cuál será la clase mediana? Buscamos la clase en la
∑𝑓
que esté la primera frecuencia acumulada mayor o igual a , es decir,
2
mayor o igual a 50 / 2 = 25. Entonces:
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
LRI LI LS f fa
70 74 8 8
75 79 12 20
Clase mediana (porque 38 es la primera
79,5 80 84 18 38 frecuencia acumulada mayor o igual a 25)
85 89 6 44
90 94 4 48
95 99 2 50
50
50
−20
2
Entonces, reemplazando todo tendremos: 𝑀𝑒 = 79,5 + [ ] × 5 = 80,9
18
La mitad de las personas de este grupo pesan menos que 80,9 kg
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
Finalmente calcularemos la moda. Para datos agrupados, la fórmula es
la siguiente:
MoLRI 1 c
12
En esta fórmula:
LRI es el límite real inferior de la clase modal.
Δ1 = f – f anterior
Δ2 = f – f posterior
f es la mayor frecuencia
f anterior es la frecuencia anterior a la mayor.
f posterior es la frecuencia posterior a la mayor.
c es el tamaño de clases.
La clase modal es la clase que tiene la mayor frecuencia.
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados
En esta tabla tendremos:
LRI LI LS f
70 74 8
75 79 12
79,5 80 84 18 Clase modal Δ1 = 18 – 12 = 6
85 89 6 Δ2 = 18 – 6 = 12
90 94 4
95 99 2
Reemplazando nos queda:
6
𝑀𝑜 = 79,5 + [ ] × 5 = 81,2
6 + 12
El valor más frecuente entre estos individuos es 81,2 kg
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
CLASE 6
MEDIDAS DE DISPERSION
(Datos agrupados)
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
En la clase anterior, estudiamos las medidas de dispersión, y el cálculo
de las mismas para conjuntos de datos no agrupados. Ahora,
estudiaremos cómo calcular estas medidas en conjuntos de datos
agrupados.
Conviene aclarar que las medidas son las mismas:
Desviación media
Desviación típica
Varianza
Coeficiente de variación
Rango o recorrido
También la interpretación de estas medidas es igual en el caso de los
datos agrupados.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Desviación media (DM): Es la media aritmética de los valores absolutos
de las desviaciones respecto al promedio.
( | ̅ |)
Fórmula para datos agrupados:
En esta fórmula: es cada marca de clase, ̅ es el promedio del
conjunto de datos, es la sumatoria de las frecuencias de todas las
clases. La expresión | ̅ | es la desviación de cada valor respecto al
promedio. Las barras que rodean a la resta indican valor absoluto, es
decir, el resultado de la resta, ya sea positivo o negativo, se escribe
como un número positivo.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Ejemplo. En la siguiente tabla se detalla la cantidad de horas extras
trabajadas por un grupo de empleados de una empresa durante el mes
de febrero:
Hs extra 20 – 22 23 – 25 26 – 28 29 – 31 32 – 34
Nº empleados 9 12 18 7 4
Primeramente, para hallar la desviación media de la distribución de
frecuencias, debemos calcular el promedio. Recordemos que, para un
conjunto de datos agrupados, el promedio se calcula mediante la
( )
siguiente fórmula: ̅
Con esto, nuestra tabla de frecuencias quedará de la siguiente manera:
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
LI LS f x f·x | ̅|
20 22 9 21 189 9 | 21 – 26,1 | = 45,9
23 25 12 24 288 12 | 24 – 26,1 | = 25,2
26 28 18 27 486 18 | 27 – 26,1 | = 16,2
29 31 7 30 210 7 | 30 – 26,1 | = 27,3
32 34 4 33 132 4 | 33 – 26,1 | = 27,6
50 1305 142,2
Primeramente se calculó la media aritmética: ̅
Con este resultado, se agregó la última columna de la tabla, que es la
que nos sirve para obtener la desviación media:
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Desviación típica o estándar (S): Es una medida que se usa para
cuantificar la variación o dispersión de un conjunto de datos numéricos.
Una desviación típica baja indica que la mayor parte de los datos de una
muestra tienden a estar agrupados cerca de su media, mientras que una
desviación típica alta indica que los datos se extienden sobre un rango
de valores más amplio.
[ ( ̅) ]
Fórmula para datos agrupados: √
En esta fórmula: es cada marca de clase, ̅ es el promedio del
conjunto de datos, es la sumatoria de las frecuencias de todas las
clases. La expresión ( ̅ ) es el cuadrado de la desviación de cada
valor respecto al promedio.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Ejemplo. En la siguiente tabla se registran los kilómetros recorridos por
una muestra de atletas, como preparación durante la semana previa a
una maratón:
Kilómetros 10 – 16 17 – 23 24 – 30 31 – 37 38 – 44
Nº atletas 5 10 13 8 4
Primeramente, para hallar la desviación típica de la distribución de
frecuencias, debemos calcular el promedio. Recordemos que, para un
conjunto de datos agrupados, el promedio se calcula mediante la
( )
siguiente fórmula: ̅
Con esto, nuestra tabla de frecuencias quedará de la siguiente manera:
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
LI LS f x f·x ( ̅)
10 16 5 13 65 5 (13 – 26,3)2 = 884,45
17 23 10 20 200 10 (20 – 26,3) 2 = 396,9
24 30 13 27 351 13 (27 – 26,3) 2 = 6,37
31 37 8 34 272 8 (34 – 26,3) 2 = 474,32
38 44 4 41 164 4 (41 – 26,3) 2 = 864,36
40 1052 2626,4
Primeramente se calculó la media aritmética: ̅
Con este resultado, se agregó la última columna de la tabla, que es la
que nos sirve para obtener la desviación típica:
√
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Varianza (V): Es el promedio del cuadrado de cada desviación respecto
a la media aritmética, o bien, es el cuadrado de la desviación típica de un
conjunto de datos.
Fórmula: . En esta fórmula, S representa la desviación típica.
Ejemplo. Tomando los datos del ejemplo anterior, vemos que la
desviación típica resultó igual a 8,1. Por tanto, la varianza será:
Coeficiente de variación (CV): Es una magnitud relativa de la
desviación típica con respecto al promedio. Nos da el porcentaje de
variación de los datos con respecto al promedio.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Fórmula:
̅
En esta fórmula: es la desviación típica del conjunto, ̅ es el promedio
del conjunto de datos. El resultado es expresado como porcentaje.
El resultado del coeficiente de variación indica si existe una baja o alta
dispersión de los datos, siendo la media aritmética o promedio de este
conjunto representativo o no del mismo.
Interpretación del coeficiente de variación
Valores del CV Dispersión Representatividad de la media
0% ≤ CV < 20% Pequeña Muy representativa
20% ≤ CV < 50% Regular Representativa
50% ≤ CV < 70% Alta Poco representativa
70% ≤ CV ≤ 100% Muy alta No representativa
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados
Nuevamente, tomando el ejemplo anterior, vemos que:
Calculamos el coeficiente de variación de la siguiente forma:
En este caso, el coeficiente de variación nos indica que la dispersión es
regular, y la media es representativa.
Universidad Autónoma de Asunción Distribución binomial
CLASE 12
DISTRIBUCION BINOMIAL
Universidad Autónoma de Asunción Distribución binomial
Distribución binomial (o de Bernoulli)
La distribución binomial es una distribución de probabilidad discreta que nos
dice el porcentaje en que es probable obtener un resultado entre dos posibles al
realizar un número de pruebas (para estos casos, consideraremos que
será como máximo 30, es decir, ).
La probabilidad de cada suceso no puede ser más grande que 1 y tampoco
puede ser negativa.
En estas pruebas podremos tener solamente dos resultados posibles, como por
ejemplo, que salga cara o cruz al lanzar una moneda, o que salga rojo o negro
en una ruleta francesa.
Cada experimento es independiente de los otros que hagamos y no influye en
las probabilidades de los siguientes, en cada uno la probabilidad de darse uno
de los dos resultados será exactamente la misma.
Universidad Autónoma de Asunción Distribución binomial
Por ejemplo, si lanzamos un dado cuyas caras están numeradas del 1 al 6, la
probabilidad de que el resultado sea par (2, 4, 6) o impar (1, 3, 5) será
exactamente la misma si el dado está bien equilibrado, el 50% y por muchas
veces que lo lancemos, esta probabilidad seguirá siendo el 50% en cada una de
las veces.
En una distribución binomial tenemos tres variables:
es el número de veces que repetimos el experimento.
es uno de los dos resultados al que llamaremos éxito.
es el otro resultado posible al que llamaremos fracaso.
La relación que existe entre y es , esto implica que
Si es la probabilidad de que ocurra un suceso en un solo ensayo, y es la
probabilidad de que no ocurra el suceso, entonces la probabilidad de que el
suceso ocurra veces en ensayos viene dada por la fórmula:
Universidad Autónoma de Asunción Distribución binomial
Observaciones:
La expresión se lee “combinación de elementos tomados de a ”. En la
calculadora encontraremos una tecla, que usualmente está representada como
…nCr…, la cual utilizamos de la siguiente manera: Por ejemplo, para calcular
la combinación de 5 elementos tomados de a 3, introducimos 5, luego …nCr…,
y finalmente el 3. En este caso, el resultado será 10.
En la fórmula para hallar , la x solamente puede tomar valores enteros no
negativos, es decir: 0, 1, 2, 3, 4, …
Ejemplo 1. Supongamos que se lanza 15 veces un dado (con 6 caras) y
queremos conocer la probabilidad de que el número 5 salga 3 veces. Entonces,
en este caso:
El número de lanzamientos es 15, por tanto,
La probabilidad de que salga 5 (éxito) es
La probabilidad de que no salga 5 será
Universidad Autónoma de Asunción Distribución binomial
Entonces, la probabilidad de que el número 5 salga 3 veces, será:
( ) ( )
Esto quiere decir que, si lanzamos 15 veces un dado, la probabilidad de que
salga 5 en 3 oportunidades, es 23,63%.
Siguiendo con el mismo ejemplo, vamos a calcular también la probabilidad de:
Que en ninguna ocasión salga 5:
Esto quiere decir que el número esperado de éxitos, es decir , es 0:
( ) ( )
Universidad Autónoma de Asunción Distribución binomial
Que salga 5 menos de 4 veces:
Esto implica que el número 5 puede salir 3, 2, 1, y también 0 veces. Entonces,
dado que ya tenemos los valores de y , primeramente
aplicamos la fórmula para obtener también y :
( ) ( )
( ) ( )
Luego, sumamos los resultados obtenidos:
Universidad Autónoma de Asunción Distribución binomial
Que salga 5 más de 2 veces:
Esto implica que el número 5 puede salir 3, 4, 5, …, hasta un total de 15 veces.
En este caso, una opción es calcular todas las probabilidades desde hasta
, pero esto sin duda resultará muy trabajoso.
Nuestra otra opción es la siguiente: Recordemos que la suma de todas las
probabilidades de un espacio muestral es igual a 1, en este caso:
La probabilidad de que salga 5 más de 2 veces, es decir va desde
hasta , entonces podemos escribir esto resumidamente como:
Como solamente nos interesa calcular , entonces podemos despejar
esta expresión de la siguiente manera:
[ ]
Universidad Autónoma de Asunción Distribución binomial
Entonces, utilizando los resultados ya obtenidos, y sin necesidad de hallar cada
una de las probabilidades desde hasta , tendremos:
Ejemplo 2. Un cuestionario está compuesto por 10 preguntas, cada una de las
cuales tiene 4 respuestas posibles y solamente una de ellas es correcta. Un
alumno tiene prisa por acabar la prueba y decide contestar aleatoriamente. En
este caso, entonces tenemos que , y por lo tanto . Vamos a
calcular probabilidades de:
Contestar correctamente todas las preguntas:
En este caso, , entonces:
( ) ( )
Universidad Autónoma de Asunción Distribución binomial
Contestar correctamente la mitad de las preguntas:
En este caso, , entonces: ( ) ( )
Contestar correctamente menos de la mitad de las preguntas:
En este caso, , entonces debemos considerar hasta :
( ) ( )
( ) ( )
( ) ( )
( ) ( )
( ) ( )
Universidad Autónoma de Asunción Distribución binomial
Luego:
Contestar correctamente más de la mitad de las preguntas:
En este caso, , entonces debemos considerar hasta , o bien,
utilizar los resultados obtenidos, de manera similar a lo que vimos en el ejemplo
anterior:
[ ]
Contestar correctamente por lo menos la mitad de las preguntas:
Aquí lo que cambia es que, en lugar de , debemos utilizar , ya que se
incluye desde hasta . En este caso, también podemos aplicar lo
siguiente:
Universidad Autónoma de Asunción Distribución binomial
[ ]
Contestar correctamente entre 2 y 5 preguntas:
Esto quiere decir que debemos considerar desde hasta . Entonces:
Contestar correctamente entre inclusive 2 y 5 preguntas:
Aquí debemos considerar desde hasta , por lo tanto:
Universidad Autónoma de Asunción Distribución de Poisson
CLASE 13
DISTRIBUCION DE POISSON
Universidad Autónoma de Asunción Distribución de Poisson
Distribución de Poisson
La distribución de Poisson se utiliza para determinar la probabilidad de que
ocurra un número designado de eventos, cuando éstos ocurren en un continuo
de tiempo o espacio.
A un proceso como éste se le denomina proceso Poisson; es similar a lo que
ocurre en una distribución binomial, excepto que los eventos ocurren en un
continuo (por ejemplo, en un intervalo de tiempo) en vez de ocurrir en ensayos u
observaciones fijas.
Un ejemplo es la entrada de llamadas en una central telefónica. Al igual que en
el caso de la distribución binomial, se supone que los eventos son
independientes y que el proceso es estacionario.
Sólo se requiere un valor para determinar la probabilidad de que ocurra un
número designado de eventos en un proceso de Poisson: el número promedio
a largo plazo de eventos para el tiempo o dimensión especifico de interés. Por lo
general, esta media se representa mediante (la letra griega "mu").
Universidad Autónoma de Asunción Distribución de Poisson
La fórmula para determinar la probabilidad de un número determinado de éxitos
en una distribución de Poisson es:
En esta fórmula:
es la constante 2,7183… que es la base de los logaritmos naturales
es la función factorial de , que es el producto de todos los números
enteros positivos desde 1 hasta x (por ejemplo, si , entonces
. Como casos particulares, tenemos y )
En algunos modelos de calculadoras podemos
encontrar la función y la función según se
muestra en la gráfica.
La función solamente puede ser calculada para
valores enteros no negativos.
Universidad Autónoma de Asunción Distribución de Poisson
Ejemplo 1. Un departamento de reparación de máquinas recibe un promedio de
cuatro solicitudes de servicio por hora (esto quiere decir que ).
a) La probabilidad de que se reciban exactamente tres solicitudes (esto quiere
decir que ) en una hora seleccionada al azar es:
b) La probabilidad de que se reciban menos de tres solicitudes (esto quiere
decir que ) en una hora seleccionada al azar es:
Universidad Autónoma de Asunción Distribución de Poisson
Ejemplo 2. En promedio, 12 personas hacen preguntas cada hora a un
consultor de decoración en una tienda de telas. La probabilidad de que tres o
más personas acudan en un periodo de 10 minutos (1/6 de hora) se determina
de la siguiente manera:
Promedio por horas = 12, entonces:
= Promedio por 10 minutos = =2
Luego: (podemos observar
que no hay un valor máximo para , como ocurría con la distribución binomial).
O bien: [ ]
O bien: [ ]
O bien:
O bien:
Universidad Autónoma de Asunción Distribución de Poisson
Aproximación de Poisson a probabilidades binomiales
Cuando el número de observaciones o ensayos , en una distribución binomial
es grande, los cálculos resultan ser bastante laboriosos.
Por fortuna, la distribución Poisson es apropiada como aproximación de las
probabilidades binomiales cuando es grande y o son pequeñas. Una regla
conveniente consiste en afirmar que puede realizarse esa aproximación cuando
. En estos casos, el valor de será
Ejemplo 3. Se sabe que 1% de los artículos de un envío grande de artículos de
un proveedor tiene defectos. Si se elige una muestra de 30 de estos artículos al
azar, podemos determinar la probabilidad de que menos de dos artículos tengan
defectos, de la siguiente manera:
En este caso, tenemos y ; entonces:
Entonces:
Entonces:
Universidad Autónoma de Asunción Distribución Normal
CLASE 14
DISTRIBUCION NORMAL
Universidad Autónoma de Asunción Distribución Normal
Variables aleatorias continuas
Anteriormente, vimos distribuciones de probabilidad como la distribución
binomial y la distribución de Poisson. Estas dos son distribuciones de
probabilidad para variables aleatorias discretas, es decir, variables que
solamente puede tomar valores enteros no negativos, como son 0, 1, 2, …., por
tanto, solamente es posible hallar , , , ….
A diferencia de una variable aleatoria discreta, una variable aleatoria continua
es la que puede tomar cualquier valor fraccionario en un rango determinado de
valores. Como existe un número infinito de posibles mediciones fraccionarias, no
pueden enlistarse todos los valores posibles con una probabilidad
correspondiente. Más bien, se define una función de densidad de probabilidad.
Esta expresión matemática da la función de , y se representa mediante el
símbolo , para cualquier valor designado de la variable aleatoria . A la
gráfica de una función de este tipo se le denomina curva de probabilidad y el
área entre dos puntos cualesquiera bajo la curva nos da la probabilidad de la
ocurrencia aleatoria de un valor entre esos dos puntos.
Universidad Autónoma de Asunción Distribución Normal
Distribución normal
Una variable aleatoria continua , sigue una distribución normal de media y
desviación típica , y se designa por , si se cumplen las siguientes
condiciones:
La variable puede tomar cualquier valor: desde hasta
La función de densidad, que es la expresión matemática de la curva de
Gauss o Campana de Gauss está dada por la siguiente fórmula:
Propiedades
El campo de existencia o dominio es cualquier valor real, es decir,
Es simétrica respecto a la media
Tiene un máximo en la media
Crece hasta la media y decrece a partir de ella
Universidad Autónoma de Asunción Distribución Normal
En los puntos y presenta puntos de inflexión
El eje de abscisas es una asíntota de la curva
El área encerrada por la función y el eje de abscisas es igual a la unidad
Al ser simétrica respecto al eje que pasa por , deja un área igual a 0,5
a la izquierda y otra igual a 0,5 a la derecha
La probabilidad equivale al área encerrada bajo la curva
Como cualquier combinación distinta de y genera una distribución normal de
probabilidad distinta, las tablas de las probabilidades normales se basan en una
distribución específica: la distribución normal estándar. Esta es una
distribución normal en la que y . Cualquier valor de una
población con distribución normal puede convertirse a su valor normal
estándar equivalente , mediante la fórmula:
Universidad Autónoma de Asunción Distribución Normal
En el material adjunto vamos a encontrar una tabla con el valor de las áreas
bajo la curva normal entre y , para diferentes valores de (hasta dos
decimales). A continuación veremos un ejemplo de cómo hallar probabilidades
en una distribución normal.
Ejemplo. La vida útil de cierta marca de focos sigue una distribución normal que
tiene como media 38 meses y desviación típica 4 meses. Si disponemos de una
muestra de 1500 focos, halla la probabilidad y la cantidad de focos que tendrían
una duración de:
(a) Menos de 43 meses
(b) Más de 35 meses
(c) Menos 33 meses
(d) Más de 40 meses
(e) Entre 36 y 44 meses
(f) Entre 32 y 36 meses
Universidad Autónoma de Asunción Distribución Normal
Primeramente, debemos distinguir nuestros datos: y
(a) Menos de 43 meses (esto indica que )
En primer lugar debemos hallar con la fórmula
Luego graficamos la curva normal,
marcando el área total que está a la
izquierda de (marcamos a la
izquierda porque la probabilidad que
buscamos es menos de 43 meses)
Universidad Autónoma de Asunción Distribución Normal
La probabilidad de que un foco dure menos de 43 meses será el valor del área
marcada en el gráfico. Para saber cuánto vale el área total, tendremos en
cuenta lo siguiente:
El área a la izquierda de vale 0,5 (por definición de la curva normal)
El área entre y vale 0,3944 (según la tabla de áreas)
Entonces, la probabilidad de que un foco dure menos de 43 meses será:
Universidad Autónoma de Asunción Distribución Normal
(b) Más de 35 meses
En primer lugar debemos hallar con la fórmula
Luego graficamos la curva normal,
marcando el área total que está a la
derecha de (marcamos a la
derecha porque la probabilidad que
buscamos es más de 35 meses)
Universidad Autónoma de Asunción Distribución Normal
La probabilidad de que un foco dure más de 35 meses será el valor del área
marcada en el gráfico. Para saber cuánto vale el área total, tendremos en
cuenta lo siguiente:
El área a la derecha de vale 0,5 (por definición de la curva normal)
El área entre y vale 0,2734 (según la tabla de áreas)
Entonces, la probabilidad de que un foco dure más de 35 meses será:
Universidad Autónoma de Asunción Distribución Normal
(c) Menos 33 meses
Buscamos la probabilidad de que dure menos de
33 meses, por lo tanto, debemos marcar el área a
la izquierda de
En este caso, el área que podemos encontrar
mediante nuestra tabla es la que vemos
pintada en amarillo:
Universidad Autónoma de Asunción Distribución Normal
La probabilidad de que un foco dure menos de 33 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:
El área a la izquierda de vale 0,5 (por definición de la curva normal)
El área entre y vale 0,3944 (según la tabla de áreas)
Como el área a la izquierda de encierra al área entre y ,
debemos restar estas dos áreas para obtener el área que buscamos.
Entonces, la probabilidad de que un foco dure menos de 33 meses será:
(d) Más de 40 meses
Universidad Autónoma de Asunción Distribución Normal
Buscamos la probabilidad de que dure más de 40
meses, por lo tanto, debemos marcar el área a la
derecha de
En este caso, el área que podemos encontrar
mediante nuestra tabla es la que vemos
pintada en amarillo:
La probabilidad de que un foco dure más de 40 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:
Universidad Autónoma de Asunción Distribución Normal
El área a la derecha de vale 0,5 (por definición de la curva normal)
El área entre y vale 0,1915 (según la tabla de áreas)
Como el área a la izquierda de encierra al área entre y ,
debemos restar estas dos áreas para obtener el área que buscamos.
Entonces, la probabilidad de que un foco dure menos de 33 meses será:
(e) Entre 36 y 44 meses
En este caso, tendremos que hallar dos valores de z:
Universidad Autónoma de Asunción Distribución Normal
Luego graficamos la curva normal, marcando el
área total que está entre y
La probabilidad de que un foco dure entre 36 y 44 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:
El área entre y vale 0,1915 (según la tabla de áreas)
El área entre y vale 0,4332 (según la tabla de áreas)
Debemos sumar estas dos áreas para obtener el área que buscamos.
Universidad Autónoma de Asunción Distribución Normal
Entonces, la probabilidad de que un foco dure entre 36 y 44 meses será:
(f) Entre 32 y 36 meses
Aquí también tendremos que hallar dos valores de z:
Luego graficamos la curva normal, marcando el
área total que está entre y
Universidad Autónoma de Asunción Distribución Normal
En este caso, el área que está entre y encierra al área que está
entre y , por tanto, para obtener el área marcada en púrpura,
debemos restar el área mayor menos el área menor:
El área entre y vale 0,4332 (según la tabla de áreas)
El área entre y vale 0,1915 (según la tabla de áreas)
Debemos restar estas dos áreas para obtener el área que buscamos.
Entonces, la probabilidad de que un foco dure entre 32 y 36 meses será:
Finalmente vamos a calcular la cantidad de focos con las duraciones
correspondientes a cada punto del ejercicio. Para esto, utilizaremos la fórmula
de lo que se conoce como esperanza matemática, denotada por . Esta
fórmula es:
Universidad Autónoma de Asunción Distribución Normal
En este caso, (cantidad total de focos) y el valor de es la
probabilidad hallada en cada punto del ejercicio. Entonces, la cantidad de focos
cuya duración sea:
(a) Menos de 43 meses será focos
(b) Más de 35 meses será focos
(c) Menos 33 meses será focos
(d) Más de 40 meses será focos
(e) Entre 36 y 44 meses será focos
(f) Entre 32 y 36 meses será focos
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
CLASE 15
ANALISIS DE REGRESION Y
CORRELACION LINEAL
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Todos los días, tomamos decisiones personales y profesionales basadas en
predicciones de sucesos futuros. Para hacer estos pronósticos, nos basamos en
la relación (intuitiva y calculada) entre lo que ya sabemos y lo que debemos
estimar. Si los responsables de tomar decisiones pueden determinar cómo lo
conocido se relaciona con el evento futuro, pueden ayudar considerablemente a
un proceso de toma de decisiones. En esta clase veremos cómo determinar la
relación entre variables.
Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la
naturaleza como la fuerza de una relación entre dos variables. De esta forma,
aprenderemos a pronosticar, con cierta precisión, el valor de una variable
desconocida basándonos en observaciones anteriores de ésa y otras variables.
En el análisis de regresión, desarrollaremos una ecuación de estimación, esto
es, una fórmula matemática que relaciona las variables conocidas con la
variable desconocida. Después de conocer el patrón de esta relación, podremos
aplicar el análisis de correlación para determinar el grado en el que las variables
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la
ecuación de estimación describe realmente la relación.
Tipos de relaciones
Los análisis de regresión y de correlación se basan en la relación, o asociación,
entre dos (o más) variables. La variable (o variables) conocida(s) se llaman
variable(s) independiente(s); la que tratamos de predecir es la variable
dependiente.
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Se puede esperar, por ejemplo, que las ventas de una compañía se incrementen
al aumentar el presupuesto de publicidad. Podemos graficar una relación directa
de este tipo colocando la variable independiente en el eje X y la variable
dependiente en el eje Y. La gráfica (a) de la figura anterior muestra esto.
Podemos notar cómo la pendiente de la recta sube cuando X toma valores cada
vez más grandes. Se dice que la pendiente de esta recta es positiva, porque Y
crece si X crece. Este tipo de relación en el que la variable dependiente
aumenta al aumentar la variable independiente se llama relación directa.
Una relación es inversa cuando la variable dependiente disminuye al aumentar
la variable independiente. Por ejemplo, el gobierno supone que existe una
asociación inversa entre un mayor gasto anual de una compañía en dispositivos
anticontaminantes y menores emisiones contaminantes. La gráfica (b) de la
figura anterior nos muestra este tipo de relación, que se caracteriza por una
pendiente negativa (la variable dependiente Y disminuye al aumentar la variable
independiente X).
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Ejemplo. Para verificar el supuesto de que existe algún tipo de relación entre el
tiempo en horas dedicadas al estudio fuera del aula y las calificaciones
obtenidas en un examen final de Estadística, se llevó a cabo una pequeña
encuesta a alumnos de un semestre anterior y se obtuvieron los siguientes
datos:
Horas de estudio (x) 12 20 16 29 22 25 28
Calificación obtenida (y) 50 64 58 96 75 83 81
a) Diagrama de dispersión
Un diagrama de dispersión es una gráfica en la que se traza cada uno de los
puntos que representan un par de valores observados para las variables
independiente y dependiente. El valor de la variable independiente se gráfica
con respecto al eje horizontal, y el valor de la variable dependiente Y se traza
con respecto al eje vertical. En este caso, el diagrama de dispersión será el
siguiente:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Diagrama de dispersión A primera vista, podemos notar que la
100 relación que existe entre las dos variables
90 es una relación directa, ya que a medida
80
que aumenta la cantidad de horas de
70
estudio, aumentan las calificaciones.
60
50
40
10 12 14 16 18 20 22 24 26 28 30
b) Recta de regresión (método de mínimos cuadrados)
Podemos trazar, o “ajustar” una línea recta a través de nuestro diagrama de
dispersión para representar la relación. La ecuación para hallar la recta donde la
variable dependiente Y está determinada por la variable independiente X es:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Los valores de a y b se calculan mediante las siguientes fórmulas:
Entonces, necesitaremos construir la siguiente tabla:
𝒙 𝒚 𝒙𝒚 𝒙𝟐 𝒚𝟐
12 50 600 144 2500
20 64 1280 400 4096
16 58 928 256 3364
29 96 2784 841 9216
22 75 1650 484 5625
25 83 2075 625 6889
28 81 2268 784 6561
152 507 11585 3534 38251
El valor de 𝑛 es 7, ya que tenemos 7 pares de datos. Luego, tendremos que:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
(3534)(507) − (152)(11585) 30818
𝑎= = = 18,86
(7)(3534) − (152)2 1634
(7)(11585) − (152)(507) 4031
𝑏= = = 2,47
(7)(3534) − (152)2 1634
Finalmente, nos queda la siguiente ecuación de regresión: 𝒚 = 𝟏𝟖, 𝟖𝟔 + 𝟐, 𝟒𝟕𝒙
Esto quiere decir que, para estimar la calificación de un alumno en base a las
horas de estudio, simplemente debemos asignar una cantidad de horas de
estudio a la 𝑥 en la ecuación. Por ejemplo, la calificación estimada para un
alumno que dedicó 24 horas de estudio a la materia, será:
𝒚 = 𝟏𝟖, 𝟖𝟔 + 𝟐, 𝟒𝟕(𝟐𝟒) = 𝟕𝟖, 𝟏𝟒
Para representar gráficamente esta recta en el diagrama de dispersión anterior,
simplemente debemos asignar dos valores distintos a la variable 𝑥, por ejemplo:
Para 𝑥 = 12, tendremos 𝑦 = 48,5; para 𝑥 = 29, tendremos 𝑦 = 90,49
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
Luego, estos dos pares de datos se representan como dos puntos en el
diagrama de dispersión, los cuales se unen mediante una línea recta,
obteniéndose lo siguiente:
Diagrama de dispersión
100
90
80
y = 18,86 + 2,47x
70
60
50
40
10 12 14 16 18 20 22 24 26 28 30
c) Coeficiente de correlación
El coeficiente es la medida que podemos usar para describir qué tan bien
explica una variable a la otra. Este coeficiente se denota por 𝑟 y se obtiene
mediante la siguiente fórmula:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal
El valor de este coeficiente estará entre -1 y 1. Cuando la correlación es inversa,
el valor de 𝑟 es negativo, mientras que en una correlación directa el valor de 𝑟
es positivo. Dependiendo del valor obtenido, la interpretación es la siguiente:
Valores del coeficiente Correlación Relación entre las variables
0 ≤ 𝑟 < 0,20 Pequeña Muy poco intensa
0,20 ≤ 𝑟 < 0,40 Baja Pequeña pero significativa
0,40 ≤ 𝑟 < 0,60 Regular Considerable
0,60 ≤ 𝑟 < 0,80 Alta Intensa
0,80 ≤ 𝑟 ≤ 1 Muy alta Muy intensa
En el ejemplo que estamos viendo, el valor de 𝑟 será:
(7)(11585) − (152)(507) 4031
𝑟= = = 0,96
√[(7)(3534) − (152)2 ][(7)(38251) − (507)2 ] √(1634)(10708)
Esto quiere decir que la correlación es muy alta, y la relación entre ambas variables es
muy intensa.