0% encontró este documento útil (0 votos)
21 vistas70 páginas

Estadística Con Formulario

El documento proporciona un compendio de fórmulas y métodos para calcular medidas de tendencia central, dispersión y probabilidades en estadística, tanto para datos no agrupados como agrupados. Incluye definiciones y cálculos para media, mediana, moda, rango, varianza, y coeficientes de variación, así como conceptos de probabilidad y análisis de regresión. También se abordan índices simples y ponderados, así como la distribución normal y el intervalo de confianza para la media.

Cargado por

aramiv10
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
21 vistas70 páginas

Estadística Con Formulario

El documento proporciona un compendio de fórmulas y métodos para calcular medidas de tendencia central, dispersión y probabilidades en estadística, tanto para datos no agrupados como agrupados. Incluye definiciones y cálculos para media, mediana, moda, rango, varianza, y coeficientes de variación, así como conceptos de probabilidad y análisis de regresión. También se abordan índices simples y ponderados, así como la distribución normal y el intervalo de confianza para la media.

Cargado por

aramiv10
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD AUTÓNOMA DE ASUNCIÓN

Formulario de Estadística Descriptiva e Inferencial (Mat–250)

MEDIDAS DE TENDENCIA CENTRAL

Datos no agrupados n  25
Media aritmética
x n : cantidad de valores (tamaño de la muestra )
x 
n  x : valores observados
Media aritmética ponderada
 ( wx ) w : ponderació n
x 
w  x : valores de la variable
Mediana (necesita ordenación en forma ascendente o descendente)
Mediana para datos sin agrupar
Para n impar: Me = valor que ocupa el centro de la ordenación
Para n par: Me = semisuma de los dos valores centrales de la ordenación

n 1
Posición que ocupa la mediana =
2
Moda
Mo = valor que mas veces se repite

Datos agrupados n > 25


Media aritmética
 x : media aritmética
 fx 
x  x : marca de clase
f  f : frecuencia

Mediana

 f   faa : frecuencia acumulada anterior


  faa  
Me  LRI   2 c  c : tamaño de clase
 f   LRI : límite real inf erior de la clase de la mediana
  
f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
2
Percentiles o Centiles
 k f   faa : frecuencia acumulada anterior
 100  faa  
Pk  LRI   c  c : tamaño de clase
 f  LRI : límite real inf erior de la clase del percentil
  
k f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
100
Deciles

 k f   faa : frecuencia acumulada anterior


 10  faa   c : tamaño de clase;

Dk  LRI   c 
 f   LRI : límite real inf erior de la clase del percentil
  
k f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
10
Moda

 1  f  fant
  2  f  fpost

 f : mayor frecuencia simple
 1  
Mo  LRI   c  fant : frecuencia anterior a la mayor
 1   2   fpost : frecuencia posterior a la mayor

c : Tamaño del intervalo de clase
 LRI : límite real inf erior de la clase modal

MEDIDAS DE DISPERSIÓN O VARIACIÓN

Datos no agrupados n  25
Rango o amplitud
R = Xmax – Xmin
Desviación cuartílica o rango semicuartílico
Q3  Q1
DC 
2
cuartiles para datos no agrupados
n2 
Posición de Q1  
4
 para n par
3n  2 
Posición de Q3  
4

n 1 
Posición de Q1  
4
 para n impar
3n  1 
Posición de Q3  
4
Desviación media
 xx x
DM  Media aritmética x 
n n
Desviación típica
 x  x 
2
S
n
Varianza
V = S2
Coeficiente de variación
S
CV  *100
x

Datos agrupados n > 25


Rango o amplitud
R = LRSuc – LRIPC LRSuc Limite Real superior de la ultima clase; LRIPC Limite Real inferior de la
primera clase

Desviación cuartílica
 f 
Q3  Q1  4  faa 
DC  Q1  LRI   c
2  f 
 
f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
4
3 f 
 4  faa 
Q3  LRI   c
 f 
 
3 f
Buscar la frecuencia acumulada mayor o igual a en la tabla de distribución de frecuencias
4

Desviación media
 f xx 
DM 
f
Desviación típica

S

 f x  x  2 
f
Intervalos en donde se encuentran los valores de la variables
El 68% de los datos se encuentra entre X  S
El 95% de los datos se encuentra entre X  2.S
El 99% de los datos se encuentra entre X  3.S
Coeficiente de Asimetría
3( X  Me)
As  Si As > 0, Asimetría (+), Si As< 0, Asimetría (-), Si As = 0, distrib..Normal.
S
Varianza
2
V=S
Coeficiente de variación
S
CV  *100
x
PROBABILIDADES
Probabilidad Simple
P
f  f : casos favorables
n  n : casos posibles


p  q 1  p : probabilidad que ocurra el suceso esperado
 q : probabilidad que no ocurra el suceso esperado

Probabilidad total o de la Suma: Regla de la suma


Sucesos compatibles Sucesos incompatibles
P(A  B) = P(A) + P (B) – P(A  B) P(A  B) = P(A) + P (B)

Probabilidad Compuesta o de la Multiplicación: Regla de la multiplicación


Sucesos independientes Sucesos dependientes
P(A  B) = P(A) P (B) P(A  B) = P(A) P (B/A)

Permutaciones Combinaciones
n! n!
nPx nCx
(n  x)! x! (n  x)!
P(Al menos uno) = 1 – P(Ninguno)
Probabilidad Condicional Teorema de Bayes
PA B PA / Bk PBk 
PA / B  PBk / A  
PB PA / B1 PB1   PA / B2 PB2   ...  PA / Bn PBn 
Distribución binomial 5  n  30

P(x ) = nCx px qn –x x = 0, 1, 2, 3, …. ,n x : Numero de êxito

P(x  a) + P(x < a) = 1 p+q=1 q=1–p p = Prob. de que ocurra el suceso


P(x  a) + P(x > a) = 1 q = Prob. de que no ocurra el suceso

Distribución de Poisson n > 30

 = Miu
 e  2,71828
 x e  
P ( X  x)    np x = 0, 1, 2, 3,…. x: Numero de éxito
x!   : promedio

Distribución normal de Probabilidades – Esperanza Matemática

x
z  x : Valor cuantitati vo pedido
 
  : media poblaciona l E( x)  n. p  N . p
  : desviacíon típica poblaciona l
Usar tabla " Z " 

Intervalo de confianza para la media



  x  Zc Muestreo de una población infinita o de una finita con reposición.
n

 N n
  x  Zc Muestreo de una población finita de tamaño N muestreo sin reposición.
n N 1

ANÁLISIS DE REGRESIÓN SIMPLE

Método de mínimos cuadrados


Ecuación de regresión

  x 2  y   x  xy
 a  n  x 2  ( x ) 2

yabx 
 b  n  xy   x  y
 n  x 2  ( x ) 2

Coeficiente de correlación

n  xy   x  y
r
n x 2
 ( x) 2  n  y 2  ( y ) 2 
Coeficiente de determinación

r2 x 100
Interpretación del coeficiente de correlación (-1 a 1)

Valores del coeficiente Correlación Relación entre las variables


0  r < 0,20 pequeña muy poco intensa
0,20  r < 0,40 Baja pequeña pero significativa
0,40  r < 0,60 regular Considerable
0,60  r < 0,80 Alta Intensa
0,80  r  1 muy alta muy intensa

NUMEROS DE INDICE

ÍNDICES SIMPLES

Pn
a) De precios I  100
P0
Q
b) De cantidad I  n  100
Q0

Vn
c) De valor I  100 Obs.: valor = precio  cantidad
V0

Índices agregados simples

 Pn
a) De precios I  100
 P0

 Qn
b) De cantidad I  100
 Q0

 Vn
c) De valor I  100
 V0
Índices ponderados

 ( Pn Q0 )
a) De Laspeyres I  100
 ( P0 Q0 )

 ( Pn Qn )
b) De Paasche I  100
 ( P0 Qn )

Obs.: Período base: período en el que se inicia el estudio y registro de la variable en cuestión
TABLA DE LA DISTRIBUCION NORMAL
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

CLASE 4

MEDIDAS DE TENDENCIA CENTRAL


(Datos agrupados)
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

En la clase anterior vimos que: Las medidas de tendencia central


corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos, que nos ayudan a resumir la
información en un sólo número.

Además, aprendimos cómo calcular las medidas de tendencia central en


un conjunto de datos simples, también conocidos como datos no
agrupados.

En esta clase, veremos cómo calcular las medidas de tendencia


central en un conjunto de datos agrupados.

Los datos agrupados son aquellos que se presentan en tablas de


frecuencias. Por ejemplo, el peso de un conjunto de individuos:
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

Peso (kg) Nº individuos En esta tabla:


70 – 74 8  el número de clases es 6.
 el tamaño de clases es 5, puesto que
75 – 79 12
la diferencia entre el límite inferior (o
80 – 84 18 superior) de una clase y la siguiente
85 – 89 6 clase es 5.
90 – 94 4  las frecuencias corresponden al
número de individuos de cada clase.
95 – 99 2

Empezaremos calculando la media aritmética. Para datos agrupados,


la fórmula es la siguiente:
 x : mediaaritmética
x  f x  x : marcadeclase
f 

 f : frecuencia

El símbolo ∑ indica sumatoria.


Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

Para esta fórmula necesitaremos calcular para cada clase: la marca de


clase (x) y también el producto de cada frecuencia por su marca de clase
(f.x). Recordemos que la marca de clase es el punto medio entre los límites
de cada clase. Nos queda:
LI LS f x f.x
70 74 8 (70 + 74) / 2 = 72 8 x 72 = 576
75 79 12 (75 + 79) / 2 = 77 12 x 77 = 924
80 84 18 (80 + 84) / 2 = 82 18 x 82 = 1476
85 89 6 (85 + 89) / 2 = 87 6 x 87 = 522
90 94 4 (90 + 94) / 2 = 92 4 x 92 = 368
95 99 2 (95 + 99) / 2 = 97 2 x 97 = 194
50 4060
4060
Entonces la media aritmética será: 𝑥̅ = = 81,2
50

El peso promedio de este grupo de individuos será 81,2 kg


Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

Ahora vamos a calcular la mediana. Para datos agrupados, la fórmula


es la siguiente:
 f  faa
2 
Me LRI c
 f 
 

En esta fórmula:
 LRI es el límite real inferior de la clase mediana.
 faa es la frecuencia acumulada anterior a la de la clase mediana.
 c es el tamaño de clases.
 f es la frecuencia de la clase mediana.

La clase mediana es la clase en la que se encuentra la primera frecuencia


∑𝑓 ∑𝑓
acumulada mayor o igual a ( = la mitad del total de frecuencias).
2 2
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

LI LS f fa
70 74 8 8
75 79 12 8 + 12 = 20
80 84 18 20 + 18 = 38
85 89 6 38 + 6 = 44
90 94 4 44 + 4 = 48
95 99 2 48 + 2 = 50
50

¿Cómo sabemos cuál será la clase mediana? Buscamos la clase en la


∑𝑓
que esté la primera frecuencia acumulada mayor o igual a , es decir,
2
mayor o igual a 50 / 2 = 25. Entonces:
Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

LRI LI LS f fa
70 74 8 8
75 79 12 20
Clase mediana (porque 38 es la primera
79,5 80 84 18 38 frecuencia acumulada mayor o igual a 25)
85 89 6 44
90 94 4 48
95 99 2 50
50

50
−20
2
Entonces, reemplazando todo tendremos: 𝑀𝑒 = 79,5 + [ ] × 5 = 80,9
18

La mitad de las personas de este grupo pesan menos que 80,9 kg


Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

Finalmente calcularemos la moda. Para datos agrupados, la fórmula es


la siguiente:
MoLRI 1 c
12

En esta fórmula:
 LRI es el límite real inferior de la clase modal.
 Δ1 = f – f anterior
 Δ2 = f – f posterior
 f es la mayor frecuencia
 f anterior es la frecuencia anterior a la mayor.
 f posterior es la frecuencia posterior a la mayor.
 c es el tamaño de clases.

La clase modal es la clase que tiene la mayor frecuencia.


Universidad Autónoma de Asunción Medidas de tendencia central – Datos agrupados

En esta tabla tendremos:


LRI LI LS f
70 74 8
75 79 12
79,5 80 84 18 Clase modal Δ1 = 18 – 12 = 6
85 89 6 Δ2 = 18 – 6 = 12
90 94 4
95 99 2

Reemplazando nos queda:


6
𝑀𝑜 = 79,5 + [ ] × 5 = 81,2
6 + 12

El valor más frecuente entre estos individuos es 81,2 kg


Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

CLASE 6

MEDIDAS DE DISPERSION
(Datos agrupados)
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

En la clase anterior, estudiamos las medidas de dispersión, y el cálculo


de las mismas para conjuntos de datos no agrupados. Ahora,
estudiaremos cómo calcular estas medidas en conjuntos de datos
agrupados.

Conviene aclarar que las medidas son las mismas:


 Desviación media
 Desviación típica
 Varianza
 Coeficiente de variación
 Rango o recorrido

También la interpretación de estas medidas es igual en el caso de los


datos agrupados.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Desviación media (DM): Es la media aritmética de los valores absolutos


de las desviaciones respecto al promedio.

( | ̅ |)
Fórmula para datos agrupados:

En esta fórmula: es cada marca de clase, ̅ es el promedio del


conjunto de datos, es la sumatoria de las frecuencias de todas las
clases. La expresión | ̅ | es la desviación de cada valor respecto al
promedio. Las barras que rodean a la resta indican valor absoluto, es
decir, el resultado de la resta, ya sea positivo o negativo, se escribe
como un número positivo.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Ejemplo. En la siguiente tabla se detalla la cantidad de horas extras


trabajadas por un grupo de empleados de una empresa durante el mes
de febrero:
Hs extra 20 – 22 23 – 25 26 – 28 29 – 31 32 – 34
Nº empleados 9 12 18 7 4

Primeramente, para hallar la desviación media de la distribución de


frecuencias, debemos calcular el promedio. Recordemos que, para un
conjunto de datos agrupados, el promedio se calcula mediante la
( )
siguiente fórmula: ̅

Con esto, nuestra tabla de frecuencias quedará de la siguiente manera:


Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

LI LS f x f·x | ̅|
20 22 9 21 189 9 | 21 – 26,1 | = 45,9
23 25 12 24 288 12 | 24 – 26,1 | = 25,2
26 28 18 27 486 18 | 27 – 26,1 | = 16,2
29 31 7 30 210 7 | 30 – 26,1 | = 27,3
32 34 4 33 132 4 | 33 – 26,1 | = 27,6
50 1305 142,2

Primeramente se calculó la media aritmética: ̅

Con este resultado, se agregó la última columna de la tabla, que es la


que nos sirve para obtener la desviación media:
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Desviación típica o estándar (S): Es una medida que se usa para


cuantificar la variación o dispersión de un conjunto de datos numéricos.
Una desviación típica baja indica que la mayor parte de los datos de una
muestra tienden a estar agrupados cerca de su media, mientras que una
desviación típica alta indica que los datos se extienden sobre un rango
de valores más amplio.

[ ( ̅) ]
Fórmula para datos agrupados: √

En esta fórmula: es cada marca de clase, ̅ es el promedio del


conjunto de datos, es la sumatoria de las frecuencias de todas las
clases. La expresión ( ̅ ) es el cuadrado de la desviación de cada
valor respecto al promedio.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Ejemplo. En la siguiente tabla se registran los kilómetros recorridos por


una muestra de atletas, como preparación durante la semana previa a
una maratón:
Kilómetros 10 – 16 17 – 23 24 – 30 31 – 37 38 – 44
Nº atletas 5 10 13 8 4

Primeramente, para hallar la desviación típica de la distribución de


frecuencias, debemos calcular el promedio. Recordemos que, para un
conjunto de datos agrupados, el promedio se calcula mediante la
( )
siguiente fórmula: ̅

Con esto, nuestra tabla de frecuencias quedará de la siguiente manera:


Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

LI LS f x f·x ( ̅)
10 16 5 13 65 5 (13 – 26,3)2 = 884,45
17 23 10 20 200 10 (20 – 26,3) 2 = 396,9
24 30 13 27 351 13 (27 – 26,3) 2 = 6,37
31 37 8 34 272 8 (34 – 26,3) 2 = 474,32
38 44 4 41 164 4 (41 – 26,3) 2 = 864,36
40 1052 2626,4

Primeramente se calculó la media aritmética: ̅

Con este resultado, se agregó la última columna de la tabla, que es la


que nos sirve para obtener la desviación típica:


Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Varianza (V): Es el promedio del cuadrado de cada desviación respecto


a la media aritmética, o bien, es el cuadrado de la desviación típica de un
conjunto de datos.

Fórmula: . En esta fórmula, S representa la desviación típica.

Ejemplo. Tomando los datos del ejemplo anterior, vemos que la


desviación típica resultó igual a 8,1. Por tanto, la varianza será:

Coeficiente de variación (CV): Es una magnitud relativa de la


desviación típica con respecto al promedio. Nos da el porcentaje de
variación de los datos con respecto al promedio.
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Fórmula:
̅

En esta fórmula: es la desviación típica del conjunto, ̅ es el promedio


del conjunto de datos. El resultado es expresado como porcentaje.

El resultado del coeficiente de variación indica si existe una baja o alta


dispersión de los datos, siendo la media aritmética o promedio de este
conjunto representativo o no del mismo.

Interpretación del coeficiente de variación


Valores del CV Dispersión Representatividad de la media
0% ≤ CV < 20% Pequeña Muy representativa
20% ≤ CV < 50% Regular Representativa
50% ≤ CV < 70% Alta Poco representativa
70% ≤ CV ≤ 100% Muy alta No representativa
Universidad Autónoma de Asunción Medidas de dispersión – Datos agrupados

Nuevamente, tomando el ejemplo anterior, vemos que:

Calculamos el coeficiente de variación de la siguiente forma:

En este caso, el coeficiente de variación nos indica que la dispersión es


regular, y la media es representativa.
Universidad Autónoma de Asunción Distribución binomial

CLASE 12

DISTRIBUCION BINOMIAL
Universidad Autónoma de Asunción Distribución binomial

Distribución binomial (o de Bernoulli)

La distribución binomial es una distribución de probabilidad discreta que nos


dice el porcentaje en que es probable obtener un resultado entre dos posibles al
realizar un número de pruebas (para estos casos, consideraremos que
será como máximo 30, es decir, ).

La probabilidad de cada suceso no puede ser más grande que 1 y tampoco


puede ser negativa.

En estas pruebas podremos tener solamente dos resultados posibles, como por
ejemplo, que salga cara o cruz al lanzar una moneda, o que salga rojo o negro
en una ruleta francesa.

Cada experimento es independiente de los otros que hagamos y no influye en


las probabilidades de los siguientes, en cada uno la probabilidad de darse uno
de los dos resultados será exactamente la misma.
Universidad Autónoma de Asunción Distribución binomial

Por ejemplo, si lanzamos un dado cuyas caras están numeradas del 1 al 6, la


probabilidad de que el resultado sea par (2, 4, 6) o impar (1, 3, 5) será
exactamente la misma si el dado está bien equilibrado, el 50% y por muchas
veces que lo lancemos, esta probabilidad seguirá siendo el 50% en cada una de
las veces.

En una distribución binomial tenemos tres variables:

 es el número de veces que repetimos el experimento.


 es uno de los dos resultados al que llamaremos éxito.
 es el otro resultado posible al que llamaremos fracaso.

La relación que existe entre y es , esto implica que

Si es la probabilidad de que ocurra un suceso en un solo ensayo, y es la


probabilidad de que no ocurra el suceso, entonces la probabilidad de que el
suceso ocurra veces en ensayos viene dada por la fórmula:
Universidad Autónoma de Asunción Distribución binomial

Observaciones:

 La expresión se lee “combinación de elementos tomados de a ”. En la


calculadora encontraremos una tecla, que usualmente está representada como
…nCr…, la cual utilizamos de la siguiente manera: Por ejemplo, para calcular
la combinación de 5 elementos tomados de a 3, introducimos 5, luego …nCr…,
y finalmente el 3. En este caso, el resultado será 10.
 En la fórmula para hallar , la x solamente puede tomar valores enteros no
negativos, es decir: 0, 1, 2, 3, 4, …

Ejemplo 1. Supongamos que se lanza 15 veces un dado (con 6 caras) y


queremos conocer la probabilidad de que el número 5 salga 3 veces. Entonces,
en este caso:

 El número de lanzamientos es 15, por tanto,


 La probabilidad de que salga 5 (éxito) es
 La probabilidad de que no salga 5 será
Universidad Autónoma de Asunción Distribución binomial

Entonces, la probabilidad de que el número 5 salga 3 veces, será:

( ) ( )

Esto quiere decir que, si lanzamos 15 veces un dado, la probabilidad de que


salga 5 en 3 oportunidades, es 23,63%.

Siguiendo con el mismo ejemplo, vamos a calcular también la probabilidad de:

 Que en ninguna ocasión salga 5:

Esto quiere decir que el número esperado de éxitos, es decir , es 0:

( ) ( )
Universidad Autónoma de Asunción Distribución binomial

 Que salga 5 menos de 4 veces:

Esto implica que el número 5 puede salir 3, 2, 1, y también 0 veces. Entonces,


dado que ya tenemos los valores de y , primeramente
aplicamos la fórmula para obtener también y :

( ) ( )

( ) ( )

Luego, sumamos los resultados obtenidos:


Universidad Autónoma de Asunción Distribución binomial

 Que salga 5 más de 2 veces:

Esto implica que el número 5 puede salir 3, 4, 5, …, hasta un total de 15 veces.


En este caso, una opción es calcular todas las probabilidades desde hasta
, pero esto sin duda resultará muy trabajoso.

Nuestra otra opción es la siguiente: Recordemos que la suma de todas las


probabilidades de un espacio muestral es igual a 1, en este caso:

La probabilidad de que salga 5 más de 2 veces, es decir va desde


hasta , entonces podemos escribir esto resumidamente como:

Como solamente nos interesa calcular , entonces podemos despejar


esta expresión de la siguiente manera:
[ ]
Universidad Autónoma de Asunción Distribución binomial

Entonces, utilizando los resultados ya obtenidos, y sin necesidad de hallar cada


una de las probabilidades desde hasta , tendremos:

Ejemplo 2. Un cuestionario está compuesto por 10 preguntas, cada una de las


cuales tiene 4 respuestas posibles y solamente una de ellas es correcta. Un
alumno tiene prisa por acabar la prueba y decide contestar aleatoriamente. En
este caso, entonces tenemos que , y por lo tanto . Vamos a
calcular probabilidades de:

 Contestar correctamente todas las preguntas:

En este caso, , entonces:

( ) ( )
Universidad Autónoma de Asunción Distribución binomial

 Contestar correctamente la mitad de las preguntas:

En este caso, , entonces: ( ) ( )

 Contestar correctamente menos de la mitad de las preguntas:

En este caso, , entonces debemos considerar hasta :

( ) ( )

( ) ( )

( ) ( )

( ) ( )

( ) ( )
Universidad Autónoma de Asunción Distribución binomial

Luego:

 Contestar correctamente más de la mitad de las preguntas:

En este caso, , entonces debemos considerar hasta , o bien,


utilizar los resultados obtenidos, de manera similar a lo que vimos en el ejemplo
anterior:
[ ]

 Contestar correctamente por lo menos la mitad de las preguntas:

Aquí lo que cambia es que, en lugar de , debemos utilizar , ya que se


incluye desde hasta . En este caso, también podemos aplicar lo
siguiente:
Universidad Autónoma de Asunción Distribución binomial

[ ]

 Contestar correctamente entre 2 y 5 preguntas:

Esto quiere decir que debemos considerar desde hasta . Entonces:

 Contestar correctamente entre inclusive 2 y 5 preguntas:

Aquí debemos considerar desde hasta , por lo tanto:


Universidad Autónoma de Asunción Distribución de Poisson

CLASE 13

DISTRIBUCION DE POISSON
Universidad Autónoma de Asunción Distribución de Poisson

Distribución de Poisson

La distribución de Poisson se utiliza para determinar la probabilidad de que


ocurra un número designado de eventos, cuando éstos ocurren en un continuo
de tiempo o espacio.

A un proceso como éste se le denomina proceso Poisson; es similar a lo que


ocurre en una distribución binomial, excepto que los eventos ocurren en un
continuo (por ejemplo, en un intervalo de tiempo) en vez de ocurrir en ensayos u
observaciones fijas.

Un ejemplo es la entrada de llamadas en una central telefónica. Al igual que en


el caso de la distribución binomial, se supone que los eventos son
independientes y que el proceso es estacionario.

Sólo se requiere un valor para determinar la probabilidad de que ocurra un


número designado de eventos en un proceso de Poisson: el número promedio
a largo plazo de eventos para el tiempo o dimensión especifico de interés. Por lo
general, esta media se representa mediante (la letra griega "mu").
Universidad Autónoma de Asunción Distribución de Poisson

La fórmula para determinar la probabilidad de un número determinado de éxitos


en una distribución de Poisson es:

En esta fórmula:
 es la constante 2,7183… que es la base de los logaritmos naturales
 es la función factorial de , que es el producto de todos los números
enteros positivos desde 1 hasta x (por ejemplo, si , entonces
. Como casos particulares, tenemos y )

En algunos modelos de calculadoras podemos


encontrar la función y la función según se
muestra en la gráfica.

La función solamente puede ser calculada para


valores enteros no negativos.
Universidad Autónoma de Asunción Distribución de Poisson

Ejemplo 1. Un departamento de reparación de máquinas recibe un promedio de


cuatro solicitudes de servicio por hora (esto quiere decir que ).

a) La probabilidad de que se reciban exactamente tres solicitudes (esto quiere


decir que ) en una hora seleccionada al azar es:

b) La probabilidad de que se reciban menos de tres solicitudes (esto quiere


decir que ) en una hora seleccionada al azar es:
Universidad Autónoma de Asunción Distribución de Poisson

Ejemplo 2. En promedio, 12 personas hacen preguntas cada hora a un


consultor de decoración en una tienda de telas. La probabilidad de que tres o
más personas acudan en un periodo de 10 minutos (1/6 de hora) se determina
de la siguiente manera:

Promedio por horas = 12, entonces:


= Promedio por 10 minutos = =2

Luego: (podemos observar


que no hay un valor máximo para , como ocurría con la distribución binomial).

O bien: [ ]
O bien: [ ]
O bien:
O bien:
Universidad Autónoma de Asunción Distribución de Poisson

Aproximación de Poisson a probabilidades binomiales

Cuando el número de observaciones o ensayos , en una distribución binomial


es grande, los cálculos resultan ser bastante laboriosos.

Por fortuna, la distribución Poisson es apropiada como aproximación de las


probabilidades binomiales cuando es grande y o son pequeñas. Una regla
conveniente consiste en afirmar que puede realizarse esa aproximación cuando
. En estos casos, el valor de será

Ejemplo 3. Se sabe que 1% de los artículos de un envío grande de artículos de


un proveedor tiene defectos. Si se elige una muestra de 30 de estos artículos al
azar, podemos determinar la probabilidad de que menos de dos artículos tengan
defectos, de la siguiente manera:

En este caso, tenemos y ; entonces:

Entonces:
Entonces:
Universidad Autónoma de Asunción Distribución Normal

CLASE 14

DISTRIBUCION NORMAL
Universidad Autónoma de Asunción Distribución Normal

Variables aleatorias continuas

Anteriormente, vimos distribuciones de probabilidad como la distribución


binomial y la distribución de Poisson. Estas dos son distribuciones de
probabilidad para variables aleatorias discretas, es decir, variables que
solamente puede tomar valores enteros no negativos, como son 0, 1, 2, …., por
tanto, solamente es posible hallar , , , ….

A diferencia de una variable aleatoria discreta, una variable aleatoria continua


es la que puede tomar cualquier valor fraccionario en un rango determinado de
valores. Como existe un número infinito de posibles mediciones fraccionarias, no
pueden enlistarse todos los valores posibles con una probabilidad
correspondiente. Más bien, se define una función de densidad de probabilidad.
Esta expresión matemática da la función de , y se representa mediante el
símbolo , para cualquier valor designado de la variable aleatoria . A la
gráfica de una función de este tipo se le denomina curva de probabilidad y el
área entre dos puntos cualesquiera bajo la curva nos da la probabilidad de la
ocurrencia aleatoria de un valor entre esos dos puntos.
Universidad Autónoma de Asunción Distribución Normal

Distribución normal

Una variable aleatoria continua , sigue una distribución normal de media y


desviación típica , y se designa por , si se cumplen las siguientes
condiciones:
 La variable puede tomar cualquier valor: desde hasta
 La función de densidad, que es la expresión matemática de la curva de
Gauss o Campana de Gauss está dada por la siguiente fórmula:

Propiedades

 El campo de existencia o dominio es cualquier valor real, es decir,


 Es simétrica respecto a la media
 Tiene un máximo en la media
 Crece hasta la media y decrece a partir de ella
Universidad Autónoma de Asunción Distribución Normal

 En los puntos y presenta puntos de inflexión


 El eje de abscisas es una asíntota de la curva
 El área encerrada por la función y el eje de abscisas es igual a la unidad
 Al ser simétrica respecto al eje que pasa por , deja un área igual a 0,5
a la izquierda y otra igual a 0,5 a la derecha
 La probabilidad equivale al área encerrada bajo la curva

Como cualquier combinación distinta de y genera una distribución normal de


probabilidad distinta, las tablas de las probabilidades normales se basan en una
distribución específica: la distribución normal estándar. Esta es una
distribución normal en la que y . Cualquier valor de una
población con distribución normal puede convertirse a su valor normal
estándar equivalente , mediante la fórmula:
Universidad Autónoma de Asunción Distribución Normal

En el material adjunto vamos a encontrar una tabla con el valor de las áreas
bajo la curva normal entre y , para diferentes valores de (hasta dos
decimales). A continuación veremos un ejemplo de cómo hallar probabilidades
en una distribución normal.

Ejemplo. La vida útil de cierta marca de focos sigue una distribución normal que
tiene como media 38 meses y desviación típica 4 meses. Si disponemos de una
muestra de 1500 focos, halla la probabilidad y la cantidad de focos que tendrían
una duración de:

(a) Menos de 43 meses


(b) Más de 35 meses
(c) Menos 33 meses
(d) Más de 40 meses
(e) Entre 36 y 44 meses
(f) Entre 32 y 36 meses
Universidad Autónoma de Asunción Distribución Normal

Primeramente, debemos distinguir nuestros datos: y

(a) Menos de 43 meses (esto indica que )

En primer lugar debemos hallar con la fórmula

Luego graficamos la curva normal,


marcando el área total que está a la
izquierda de (marcamos a la
izquierda porque la probabilidad que
buscamos es menos de 43 meses)
Universidad Autónoma de Asunción Distribución Normal

La probabilidad de que un foco dure menos de 43 meses será el valor del área
marcada en el gráfico. Para saber cuánto vale el área total, tendremos en
cuenta lo siguiente:

 El área a la izquierda de vale 0,5 (por definición de la curva normal)


 El área entre y vale 0,3944 (según la tabla de áreas)

Entonces, la probabilidad de que un foco dure menos de 43 meses será:


Universidad Autónoma de Asunción Distribución Normal

(b) Más de 35 meses

En primer lugar debemos hallar con la fórmula

Luego graficamos la curva normal,


marcando el área total que está a la
derecha de (marcamos a la
derecha porque la probabilidad que
buscamos es más de 35 meses)
Universidad Autónoma de Asunción Distribución Normal

La probabilidad de que un foco dure más de 35 meses será el valor del área
marcada en el gráfico. Para saber cuánto vale el área total, tendremos en
cuenta lo siguiente:

 El área a la derecha de vale 0,5 (por definición de la curva normal)


 El área entre y vale 0,2734 (según la tabla de áreas)

Entonces, la probabilidad de que un foco dure más de 35 meses será:


Universidad Autónoma de Asunción Distribución Normal

(c) Menos 33 meses

Buscamos la probabilidad de que dure menos de


33 meses, por lo tanto, debemos marcar el área a
la izquierda de

En este caso, el área que podemos encontrar


mediante nuestra tabla es la que vemos
pintada en amarillo:
Universidad Autónoma de Asunción Distribución Normal

La probabilidad de que un foco dure menos de 33 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:

 El área a la izquierda de vale 0,5 (por definición de la curva normal)


 El área entre y vale 0,3944 (según la tabla de áreas)

Como el área a la izquierda de encierra al área entre y ,


debemos restar estas dos áreas para obtener el área que buscamos.

Entonces, la probabilidad de que un foco dure menos de 33 meses será:

(d) Más de 40 meses


Universidad Autónoma de Asunción Distribución Normal

Buscamos la probabilidad de que dure más de 40


meses, por lo tanto, debemos marcar el área a la
derecha de

En este caso, el área que podemos encontrar


mediante nuestra tabla es la que vemos
pintada en amarillo:

La probabilidad de que un foco dure más de 40 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:
Universidad Autónoma de Asunción Distribución Normal

 El área a la derecha de vale 0,5 (por definición de la curva normal)


 El área entre y vale 0,1915 (según la tabla de áreas)

Como el área a la izquierda de encierra al área entre y ,


debemos restar estas dos áreas para obtener el área que buscamos.

Entonces, la probabilidad de que un foco dure menos de 33 meses será:

(e) Entre 36 y 44 meses

En este caso, tendremos que hallar dos valores de z:


Universidad Autónoma de Asunción Distribución Normal

Luego graficamos la curva normal, marcando el


área total que está entre y

La probabilidad de que un foco dure entre 36 y 44 meses será el valor del área
marcada en púrpura en el gráfico. Para saber cuánto vale esta área,
tendremos en cuenta lo siguiente:

 El área entre y vale 0,1915 (según la tabla de áreas)


 El área entre y vale 0,4332 (según la tabla de áreas)

Debemos sumar estas dos áreas para obtener el área que buscamos.
Universidad Autónoma de Asunción Distribución Normal

Entonces, la probabilidad de que un foco dure entre 36 y 44 meses será:

(f) Entre 32 y 36 meses

Aquí también tendremos que hallar dos valores de z:

Luego graficamos la curva normal, marcando el


área total que está entre y
Universidad Autónoma de Asunción Distribución Normal

En este caso, el área que está entre y encierra al área que está
entre y , por tanto, para obtener el área marcada en púrpura,
debemos restar el área mayor menos el área menor:

 El área entre y vale 0,4332 (según la tabla de áreas)


 El área entre y vale 0,1915 (según la tabla de áreas)

Debemos restar estas dos áreas para obtener el área que buscamos.

Entonces, la probabilidad de que un foco dure entre 32 y 36 meses será:

Finalmente vamos a calcular la cantidad de focos con las duraciones


correspondientes a cada punto del ejercicio. Para esto, utilizaremos la fórmula
de lo que se conoce como esperanza matemática, denotada por . Esta
fórmula es:
Universidad Autónoma de Asunción Distribución Normal

En este caso, (cantidad total de focos) y el valor de es la


probabilidad hallada en cada punto del ejercicio. Entonces, la cantidad de focos
cuya duración sea:

(a) Menos de 43 meses será focos


(b) Más de 35 meses será focos
(c) Menos 33 meses será focos
(d) Más de 40 meses será focos
(e) Entre 36 y 44 meses será focos
(f) Entre 32 y 36 meses será focos
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

CLASE 15

ANALISIS DE REGRESION Y
CORRELACION LINEAL
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Todos los días, tomamos decisiones personales y profesionales basadas en


predicciones de sucesos futuros. Para hacer estos pronósticos, nos basamos en
la relación (intuitiva y calculada) entre lo que ya sabemos y lo que debemos
estimar. Si los responsables de tomar decisiones pueden determinar cómo lo
conocido se relaciona con el evento futuro, pueden ayudar considerablemente a
un proceso de toma de decisiones. En esta clase veremos cómo determinar la
relación entre variables.

Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la


naturaleza como la fuerza de una relación entre dos variables. De esta forma,
aprenderemos a pronosticar, con cierta precisión, el valor de una variable
desconocida basándonos en observaciones anteriores de ésa y otras variables.

En el análisis de regresión, desarrollaremos una ecuación de estimación, esto


es, una fórmula matemática que relaciona las variables conocidas con la
variable desconocida. Después de conocer el patrón de esta relación, podremos
aplicar el análisis de correlación para determinar el grado en el que las variables
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la


ecuación de estimación describe realmente la relación.

Tipos de relaciones

Los análisis de regresión y de correlación se basan en la relación, o asociación,


entre dos (o más) variables. La variable (o variables) conocida(s) se llaman
variable(s) independiente(s); la que tratamos de predecir es la variable
dependiente.
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Se puede esperar, por ejemplo, que las ventas de una compañía se incrementen
al aumentar el presupuesto de publicidad. Podemos graficar una relación directa
de este tipo colocando la variable independiente en el eje X y la variable
dependiente en el eje Y. La gráfica (a) de la figura anterior muestra esto.
Podemos notar cómo la pendiente de la recta sube cuando X toma valores cada
vez más grandes. Se dice que la pendiente de esta recta es positiva, porque Y
crece si X crece. Este tipo de relación en el que la variable dependiente
aumenta al aumentar la variable independiente se llama relación directa.

Una relación es inversa cuando la variable dependiente disminuye al aumentar


la variable independiente. Por ejemplo, el gobierno supone que existe una
asociación inversa entre un mayor gasto anual de una compañía en dispositivos
anticontaminantes y menores emisiones contaminantes. La gráfica (b) de la
figura anterior nos muestra este tipo de relación, que se caracteriza por una
pendiente negativa (la variable dependiente Y disminuye al aumentar la variable
independiente X).
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Ejemplo. Para verificar el supuesto de que existe algún tipo de relación entre el
tiempo en horas dedicadas al estudio fuera del aula y las calificaciones
obtenidas en un examen final de Estadística, se llevó a cabo una pequeña
encuesta a alumnos de un semestre anterior y se obtuvieron los siguientes
datos:
Horas de estudio (x) 12 20 16 29 22 25 28
Calificación obtenida (y) 50 64 58 96 75 83 81

a) Diagrama de dispersión

Un diagrama de dispersión es una gráfica en la que se traza cada uno de los


puntos que representan un par de valores observados para las variables
independiente y dependiente. El valor de la variable independiente se gráfica
con respecto al eje horizontal, y el valor de la variable dependiente Y se traza
con respecto al eje vertical. En este caso, el diagrama de dispersión será el
siguiente:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Diagrama de dispersión A primera vista, podemos notar que la


100 relación que existe entre las dos variables
90 es una relación directa, ya que a medida
80
que aumenta la cantidad de horas de
70
estudio, aumentan las calificaciones.
60

50

40
10 12 14 16 18 20 22 24 26 28 30

b) Recta de regresión (método de mínimos cuadrados)

Podemos trazar, o “ajustar” una línea recta a través de nuestro diagrama de


dispersión para representar la relación. La ecuación para hallar la recta donde la
variable dependiente Y está determinada por la variable independiente X es:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Los valores de a y b se calculan mediante las siguientes fórmulas:

Entonces, necesitaremos construir la siguiente tabla:


𝒙 𝒚 𝒙𝒚 𝒙𝟐 𝒚𝟐
12 50 600 144 2500
20 64 1280 400 4096
16 58 928 256 3364
29 96 2784 841 9216
22 75 1650 484 5625
25 83 2075 625 6889
28 81 2268 784 6561
152 507 11585 3534 38251

El valor de 𝑛 es 7, ya que tenemos 7 pares de datos. Luego, tendremos que:


Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

(3534)(507) − (152)(11585) 30818


𝑎= = = 18,86
(7)(3534) − (152)2 1634

(7)(11585) − (152)(507) 4031


𝑏= = = 2,47
(7)(3534) − (152)2 1634

Finalmente, nos queda la siguiente ecuación de regresión: 𝒚 = 𝟏𝟖, 𝟖𝟔 + 𝟐, 𝟒𝟕𝒙

Esto quiere decir que, para estimar la calificación de un alumno en base a las
horas de estudio, simplemente debemos asignar una cantidad de horas de
estudio a la 𝑥 en la ecuación. Por ejemplo, la calificación estimada para un
alumno que dedicó 24 horas de estudio a la materia, será:

𝒚 = 𝟏𝟖, 𝟖𝟔 + 𝟐, 𝟒𝟕(𝟐𝟒) = 𝟕𝟖, 𝟏𝟒

Para representar gráficamente esta recta en el diagrama de dispersión anterior,


simplemente debemos asignar dos valores distintos a la variable 𝑥, por ejemplo:
Para 𝑥 = 12, tendremos 𝑦 = 48,5; para 𝑥 = 29, tendremos 𝑦 = 90,49
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

Luego, estos dos pares de datos se representan como dos puntos en el


diagrama de dispersión, los cuales se unen mediante una línea recta,
obteniéndose lo siguiente:
Diagrama de dispersión
100

90

80

y = 18,86 + 2,47x
70

60

50

40
10 12 14 16 18 20 22 24 26 28 30

c) Coeficiente de correlación

El coeficiente es la medida que podemos usar para describir qué tan bien
explica una variable a la otra. Este coeficiente se denota por 𝑟 y se obtiene
mediante la siguiente fórmula:
Universidad Autónoma de Asunción Análisis de regresión y correlación lineal

El valor de este coeficiente estará entre -1 y 1. Cuando la correlación es inversa,


el valor de 𝑟 es negativo, mientras que en una correlación directa el valor de 𝑟
es positivo. Dependiendo del valor obtenido, la interpretación es la siguiente:
Valores del coeficiente Correlación Relación entre las variables
0 ≤ 𝑟 < 0,20 Pequeña Muy poco intensa
0,20 ≤ 𝑟 < 0,40 Baja Pequeña pero significativa
0,40 ≤ 𝑟 < 0,60 Regular Considerable
0,60 ≤ 𝑟 < 0,80 Alta Intensa
0,80 ≤ 𝑟 ≤ 1 Muy alta Muy intensa

En el ejemplo que estamos viendo, el valor de 𝑟 será:


(7)(11585) − (152)(507) 4031
𝑟= = = 0,96
√[(7)(3534) − (152)2 ][(7)(38251) − (507)2 ] √(1634)(10708)

Esto quiere decir que la correlación es muy alta, y la relación entre ambas variables es
muy intensa.

También podría gustarte