Estadistica Clases 2021
Estadistica Clases 2021
Introducción
Etapas de un estudio estadístico
Introducción
Esquema de las etapas de un estudio estadístico
ORGANIZAR Y RESUMIR
INFERENCIA ESTADÍSTICA
Población
CONCLUSIONES
Probabilidad
INFORMACIÓN
12
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
13
Objetivo de la estadística
•Es tan importante que casi no existe actividad humana en que no esté
involucrada la Estadística. Las decisiones más importantes de nuestra vida
se toman con base en la aplicación de la Estadística. Pongamos algunos
ejemplos.
La estadística es de gran importancia en la investigación científica debido a que:
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
21
Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
EJERCICIOS EN CLASE
Indica que variables son cualitativas y cuales cuantitativas:
Número Frecuencia
1 3
2 1
3 2
4 1
5 1 Al sumar la columna frecuencia, se
6 2 obtiene el total de datos (n).
Redondeando se obtiene: i = 4
Calculando el nuevo rango se obtiene:
El exceso de 3 que se tiene en este caso se distribuye entre xmáx y xmín. Por
lo general se agrega al mayor y se quita al menor. Como por ejemplo, se podría
agregar 2 al valor mayor y quitar 1 al valor menor, obteniéndose los siguientes
nuevos valores:
36 30 47 60 32 35 40 50
54 35 45 52 48 58 60 38
32 35 56 48 30 55 49 39
58 50 65 35 56 47 37 56
58 50 47 58 55 39 58 45
Distribución de frecuencias (Datos agrupados) para
variables cuantitativas continuas
Calificaciones:
En una clase de 30
alumnos, 12 juegan
a baloncesto, 3
practican la
natación, 4 juegan
al fútbol y el resto
no practica ningún
deporte.
Un diagrama de barras se utiliza para
representar datos cualitativos o datos
cuantitativos de tipo discreto.
Diagrama de barras
Hora
Histograma
Un histograma es una representación gráfica
de una variable en forma de barras.
Se utilizan para variables continuas o para
variables discretas, con un gran número de datos,
y que se han agrupado en clases.
En el eje abscisas se construyen unos
rectángulos que tienen por base la amplitud del
intervalo, y por altura, la frecuencia absoluta de
cada intervalo.
La superficie de cada barra es proporcional a la
frecuencia de los valores representados.
Ejemplo
El peso de 65 personas adultas viene dado
por la siguiente tabla:
i
indica la suma de todos
los Xi desde i=1 hasta
i=N. X
i 1
Notación de Sumatoria
• Es decir:
N
X
i 1
i X 1 X 2 ... X N
• Propiedades:
N
X Y
i 1
i i X 1Y1 X 2Y2 ... X nYn
N N
aX
i 1
i aX 1 aX 2 ... aX n a X i
i 1
Notación de Sumatoria
• Propiedades:
n n n n
aX
i 1
i bYi cZ i a X i b Yi c Z i
i 1 i 1 i 1
Medidas de tendencia central para
datos no agrupados: La Media
• La Media Aritmética: la media de un conjunto N de
números X1, X2,X3,…,XN se denota X (o “X barra”) y
se define por:
N
X 1 X 2 X 3 ... X N X i
X
X i 1
N N N
Medidas de tendencia central para
datos no agrupados: La Media
• Ejemplo:
• Tenemos los siguientes números:
• 19, 80, 21, 74, 66
• La media se calcula:
19 80 21 74 66 260
x 52
5 5
• Calcular la media para los siguientes números:
• 70, 98, 54, 97, 26
Medidas de tendencia central para
datos no agrupados: La Media
• La Media Aritmética Ponderada: A veces se asocia a
los números X1, X2,…, XN ciertos factores de peso (o
pesos) w1, w2,…, wN, dependiendo de la influencia
asignada a cada número. En tal caso,
w1 X 1 w2 X 2 ... wN X N w X i i
X i 1
w1 w2 ... wN N
w
i 1
i
• Ejemplo:
En el curso de estadística del Prof. Hidalgo la nota bimestral se calcula
como una media ponderada. Por cuanto que el promedio de laboratorios
representa el 30% de la nota semestral. El promedio de ejercicios
parciales representa el 30% y el examen semestral el restante 40%.
Mediana : X N 1
2
Medidas de tendencia central para
datos no agrupados: La Mediana
• Ejemplo:
• Si tenemos el siguiente conjunto de datos:
• 344, 190, 399, 473, 170, 363, 43, 671, 75, 421, 702,
846, 74, 652, 216, 304, 390, 457, 652, 700, 636, 934,
77, 444, 238, 78, 429,65, 927
• para obtener la mediana, primero debemos
ordenarlos:
• 43, 65, 74, 75, 77, 78, 170, 190, 216, 238, 304, 344,
363, 390, 399, 421, 429, 444, 457, 473, 636, 652,
652, 671, 700, 702, 846, 927, 934.
Medidas de tendencia central para
datos no agrupados: La Mediana
• una vez ordenados, se deben contar:
• 43, 65, 74, 75, 77, 78, 170, 190, 216, 238,
304, 344, 363, 390, 399, 421, 429, 444,
457, 473, 636, 652, 652, 671, 700, 702,
846, 927, 934.
• Son 29 observaciones.
• Entonces, la observación del medio es la
número 15 (ya que (29+1)/2=15).
• Y esa observación es 399.
Medidas de tendencia central para
datos no agrupados: La Mediana
• Obtener la mediana para los siguientes
datos:
• 0, 7, 15, 18, 24, 44, 45, 49, 50, 68, 70, 75,
86, 88, 93, 97, 99.
• el número de observaciones es 17, por lo
que el valor mediano va a ser el noveno,
es decir:
• Me=50.
Medidas de tendencia central para
datos no agrupados: La Mediana
• Cuando N es par se calcula el promedio entre los
dos valores del medio:
XN XN
1
Mediana 2 2
2
Medidas de tendencia central para
datos no agrupados: La Mediana
• Ejemplo:
• 2, 4, 9, 16, 29, 45, 60, 65, 67, 68
• Aquí hay 10 observaciones, luego, se debe
obtener el promedio de las que están “en el
medio”.
• Es decir las obs. 5 y la 6.
29 45 74
Me 37
2 2
Medidas de tendencia central para
datos no agrupados: La Mediana
• Ejercicio: Obtener la mediana de:
• 3, 19, 33, 38, 40, 40, 45, 50, 55, 58, 74, 98
Medidas de tendencia central para
datos no agrupados: La Moda
• La Moda: la moda de un conjunto de
números es el valor que ocurre con
mayor frecuencia; es decir, el valor más
frecuente. La moda puede no existir e
incluso no ser única.
• La distribución con una sola moda se
llama unimodal y con dos es bimodal.
Medidas de tendencia central para
datos no agrupados: La Moda
• Ejemplo: determinar la moda de los
siguientes datos:
• 10, 19, 21, 21, 32, 47, 47, 47, 71, 71,
73, 84, 89, 98
• Dado que el valor que más se repite es
el 47,
• Moda = 47
Ejercicio, determinar la moda de los
siguientes datos:
•15, 23, 25, 30, 30, 41, 67, 78, 78, 79, 81, 84,
87, 89, 99.
Moda = ?
•11, 14, 21, 36, 38, 39, 41, 42, 43, 48, 51, 65,
72, 95
Moda = ?
Medidas de tendencia central para
datos agrupados: La Media
• Media aritmética para datos agrupados:
Cuando se cuenta con datos agrupados
en una distribución de frecuencia, todos
los valores que caen dentro de un
intervalo de clase dado se consideran
igual a la marca de clase, o punto
medio del intervalo.
Medidas de tendencia central para
datos agrupados: La Media
• Con Xj como marca de la clase j y fj como
frecuencia de la misma, se tiene que:
M
f
j 1
j Xj
X
N
• Nótese que se asume que hay M clases
Medidas de tendencia central para
datos agrupados: La Media
• Ejemplo:
• A partir de la LI LS Marca fi fr
siguiente tabla de 0 150 75 285 0.012
distribución de
150 300 225 5850 0.244
frecuencia, encuentre
la media. 300 450 375 4655 0.194
450 600 525 7382 0.308
600 750 675 856 0.036
750 900 825 4948 0.206
N 23976
Medidas de tendencia central para
datos agrupados: La Media
• Se puede hacer de dos maneras. Ambas
provienen de la definición de promedio
ponderado.
• La primera suma las frecuencias
multiplicadas por su marca y se divide por N.
• La segunda simplemente suma la
multiplicación de las marcas por las
frecuencias relativas.
Medidas de tendencia central para
datos agrupados: La Media
LI LS Marca fi fr M*fi
0 150 75 285 0.012 21375
150 300 225 5850 0.244 1316250
300 450 375 4655 0.194 1745625
450 600 525 7382 0.308 3875550
600 750 675 856 0.036 577800
750 900 825 4948 0.206 4082100
N 23976 11618700
Medidas de tendencia central para
datos agrupados: La Media
11618700
x 484.60
23976
Calcular la media para los datos distribuidos en la siguiente
tabla de frecuencia :
N Lm Ls f Mc
i
1 40,0 48,1 3 44,1
2 48,1 56,1 8 52,1
3 56,1 64,1 11 60,1
4 64,1 72,1 32 68,1
5 72,1 80,1 21 76,1
6 80,1 88,1 18 84,1
7 88,1 96,1 14 92,1
8 96,1 104,0 1 100,1
Medidas de tendencia central para
datos agrupados: La Media
LI LS Marca fi fr marca*fr
0 150 75 285 0.012 0.892
150 300 225 5850 0.244 54.899
300 450 375 4655 0.194 72.807
450 600 525 7382 0.308 161.643
600 750 675 856 0.036 24.099
750 900 825 4948 0.206 170.258
N 23976 484.60
Medidas de tendencia central para
datos agrupados: La Mediana
• La mediana se obtiene por interpolación y está
dada por:
N
2
1
f a
Mediana L1 A
f mediana
L1 Frontera inferior de la clase mediana (la que contiene a la mediana)
N Número de datos (frecuencia total)
fa 1
Suma de las frecuencias de las clases inferiores a la mediana
f mediana Frecuencia de la clase mediana
A Ancho de la clase mediana
Medidas de tendencia central para
datos agrupados: La Mediana
• Es una interpolación debido a que en
esta fórmula está implícito el supuesto
de que los datos se distribuyen de
manera lineal en el intervalo.
Medidas de tendencia central para
datos agrupados: La Mediana
• Ejemplo
LI LS Marca fi fa
0 150 75 285 285
150 300 225 5850 6135
300 450 375 4655 10790
450 600 525 7382 18172
600 750 675 856 19028
750 900 825 4948 23976
N 23976
Medidas de tendencia central para
datos agrupados: La Mediana
• Lo primero que se debe hacer es determinar la
clase donde está la mediana.
• Lo anterior se realiza dividiendo N por 2, es
decir:
• 23976/2=11988
• A continuación se debe encontrar la clase
mediana, la cual es la que tiene la frecuencia
acumulada mayor a la observación mediana.
• En este caso:
Medidas de tendencia central para
datos agrupados: La Mediana
• Ejemplo
LI LS Marca fi fa
0 150 75 285 285
150 300 225 5850 6135
300 450 375 4655 10790
450 600 525 7382 18172
600 750 675 856 19028
750 900 825 4948 23976
N 23976
Medidas de tendencia central para
datos agrupados: La Mediana
• Luego se debe aplicar la fórmula: Frecuencia
acumulada
N
23976 anterior a la
10790 frec. mediana
Mediana 450 2 *150
7382
Ancho del Intervalo
Frecuencia Mediana
Límite Inferior de
la frecuencia
mediana
Medidas de tendencia central para
datos agrupados:
23976
La Mediana
10790
Mediana 450 2 *150
7382
11988 10790
Mediana 450 *150
7382
1198
Mediana 450 *150
7382
Mediana 450 0.162 *150
Mediana 450 24.323
Mediana 474.323
Medidas de tendencia central para
datos agrupados: La Moda
• La moda, para datos agrupados es simplemente la
marca de la clase con mayor frecuencia.
Ejemplo:
Rango
Varianza
Desviación estándar
Coeficiente de variación
RANGO
Mide la amplitud de los valores de la muestra y se
calcula por diferencia entre el valor más elevado (Límite
superior) y el valor más bajo (Límite inferior).
FÓRMULA
2 1 2 4 1 3
2 3 2 0 5 1
Solución.
Taipei
Rango 305mm 66mm 239mm En este caso se puede
observar que el rango
es el mismo para
Seúl Rango 252mm 13mm 239mm
ambos casos aunque
las cantidades sean
diferentes.
Cantidad de lluvia en Taipei y Seúl 1998
Mes
VARIANZA (Datos no agrupados)
Mide la distancia existente entre los valores de la serie y la
media. Se calcula como sumatoria de las diferencias al
cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tamaño de la muestra. n
FÓRMULA i
( x x ) 2
Muestral s2 i 1
n 1
Poblacional
i x
( x ) 2
2 i 1
N
La varianza siempre será mayor que cero. Mientras más se aproxima a
cero, más concentrados están los valores de la serie alrededor de la
media. Por el contrario, mientras mayor sea la varianza, más dispersos
están.
Ejemplo 1.
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
12 1
21.6672
s2 1.9697
11
Ejemplo 2.
Solución.
Estudiante A 8 12 7 9 3 10 12 11 12 14
x 9.8
10
Estudiante B 7 6 7 15 12 11 9 9 13 11
x 10
10
Estudiante A
(8 9.8)2 (12 9.8) 2 (7 9.8) 2 (9 9.8) 2 (3 9.8) 2 (10 9.8) 2 (12 9.8) 2 (11 9.8) 2 (12 9.8) 2 (14 9.8) 2
s
2
10 1
91.6
s2 9.16
10
Estudiante B
(7 10)2 (6 10)2 (7 10)2 (15 10)2 (12 10)2 (11 10) 2 (9 10) 2 (9 10)2 (13 10)2 (11 10)2
s
2
10 1
76
s2 7.6
10
DESVIACIÓN ESTÁNDAR (Datos no agrupados)
También llamada desviación típica, es una medida de dispersión usada en
estadística que nos dice cuánto tienden a alejarse los valores puntuales del
promedio en una distribución.
Una desviación estándar grande indica que los puntos están lejos de la media, y
una desviación pequeña indica que los datos están agrupados cerca de la
media.
n
FÓRMULA i
( x x ) 2
s i 1
Muestral n 1
N
Poblacional
(x i x )2
i 1
N
Ejemplo 1.
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz cuadrada de
la varianza.
x 2.16
21.6672
s2 1.9697
11
Ejemplo 2.
Solución.
Una vez que has calculado la media y la varianza, es necesario calcular la desviación
estándar a partir de la obtención de la raíz cuadrada de la varianza.
Estudiante A 91.6
s2 9.16
10
Estudiante B 76
s2 7.6
10
COEFICIENTE DE VARIACIÓN
Es una medida de dispersión que se utiliza para poder
comparar las desviaciones estándar de poblaciones con
diferentes medias y se calcula como cociente entre la
desviación típica y la media.
FÓRMULA
S
CV 100%
Muestral x
Poblacional
CV 100%
Ejemplo 1.
En dos cursos los promedios que sacaron sus alumnos
fueron 6.1 y 4.3 y las desviaciones estándar respectivas
fueron 0.6 y 0.45 respectivamente. ¿En qué curso hay mayor
dispersión?
Solución
Para responder esto, debemos obtener el coeficiente de
variación aplicando la fórmula S
CV 100%
x
0.6
CVA (100%) 9.8%
6.1
0.45
CVB (100%) 10.4%
4.3
Claramente, el curso A tiene una dispersión menor que el B,
pese a presentar una mayor desviación estándar.
VARIANZA Y DESVIACIÓN ESTÁNDAR (Datos agrupados)
FÓRMULA
k
f i ( xi x ) 2
Muestral s
2 i 1
n 1
k k
Poblacional
fi ( xi ) 2
fi xi2
2 i 1 i 1 2
N N
DESVIACIÓN MEDIA
La desviación media es la media aritmética de
los valores absolutos de las desviaciones
respecto a la media
• Datos Agrupados
• Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos
casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de
datos agrupados es la siguiente:
• k= 1,2,3
• Donde:
• Lk = Límite real inferior de la clase del cuartil k
• n = Número de datos
• Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
• fk = Frecuencia de la clase del cuartil k
• c = Longitud del intervalo de la clase del cuartil k
HALLAR : CUARTIL 1, 2 Y 3
• DECILES
• Los deciles son ciertos números que dividen la sucesión de datos ordenados
en diez partes porcentualmente iguales. Son los nueve valores que dividen al
conjunto de datos ordenados en diez partes iguales, son también un caso
particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se
leen primer decil, segundo decil, etc.
• Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.
• Datos Agrupados
• Para datos agrupados los deciles se calculan mediante la fórmula.
• k= 1,2,3,... 9
• Donde:
• Lk = Límite real inferior de la clase del decil k
• n = Número de datos
• Fk = Frecuencia acumulada de la clase que antecede a la
clase del decil k.
• fk = Frecuencia de la clase del decil k
• c = Longitud del intervalo de la clase del decil k
•
Medidas de forma: Grado de concentración
• Las medidas de forma permiten conocer que forma
tiene la curva que representa la serie de datos de la
muestra. En concreto, podemos estudiar las
siguientes características de la curva:
[Link]ía
[Link]
[Link]ón
Medidas de forma:
• a) Asimetría: mide si la curva tiene una forma simétrica,
es decir, si respecto al centro de la misma (centro de
simetría) los segmentos de curva que quedan a derecha
e izquierda son similares.
Donde:
• = media aritmética.
• Md = Mediana.
• s = desviación típica o estándar.
• Nota:
• El Coeficiente de Pearson varía entre -3 y 3
• Si As < 0 ? la distribución será asimétrica negativa.
• Si As = 0 ? la distribución será simétrica.
• Si As > 0 ? la distribución será asimétrica positiva.
Ejemplo ilustrativo:
Calcular el Coeficiente de Pearson, y la Medida de Fisher
dada la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17
Solución:
Solución:
• b) Curtosis
• g2 = 0 (distribución mesocúrtica).
INTRODUCCIÓN A LA PROBABILIDAD
[Link] niñas escogerán una flor; la que tenga el papelito que dice “reina”,
ganará…………………………………….............................................
Características
Clasificación
a) Finito: cuando el espacio muestral es un conjunto de
eventos numerable.
b) Infinito: cuando el espacio muestral es un conjunto
eventos no numerable.
Ejemplos
EXPERIMENTO ALEATORIO ESPACIO MUESTRAL
a) Analizar 5 solicitudes de crédito y
registrar el número de las que S= {0,1,2,3,4,5}
resultaron aprobadas.
b) Analizar solicitudes de crédito hasta S= {a, ra, rra,rrra,…,rrrrrrrrrra}
que por primera vez se obtenga una
solicitud aprobada. a: aprobada, r: rechazada
Tipos
a) Simples: son sucesos indivisibles; es decir, aquellos que están
compuestos por un solo punto muestral. Ejemplo: en el
experimento aleatorio lanzar un dado, cualquiera de los lados
del dado es un suceso simple.
b) Compuestos: son sucesos formados por dos o más
sucesos simples. Es cualquier subconjunto no unitario del
espacio muesral. Ejemplo: en el experimento aleatorio
lanzar un dado, el suceso “que salga un número par” es
compuesto.
Regla de Laplace:
La probabilidad de un suceso A es igual al cociente del número
de casos favorables al suceso, sobre el número total de casos
posibles.
Ejemplos
Solución: 36,0%
Solución: 17,8%
3.- Enfoque Subjetivo
La Probabilidad de ocurrencia de un suceso es cuantificada por
una persona (o un grupo de personas) catalogada (s) como
experta (s) utilizando la información que posee (n).
Ejemplo
Un ingeniero de transporte a cargo de un nuevo sistema de
circulación, expresa que la probabilidad que el sistema
funcionará correctamente el 80,0% de las veces.
Con base en esta convicción, ¿cuál es la probabilidad de que el
sistema funcione apropiadamente?
Solución: 80,0%
Definición Axiomática de Kolmogorov
Dado un experimento aleatorio cualquiera (E) que tiene
asociado un espacio muestral (S), se llama probabilidad P
(A) que asigna a cada suceso o evento (A) un número real. Tal
que satisfaga con las siguientes propiedades o axiomas:
Axioma 1: 0 P ( A ) 1
Axioma 2: P(S)=1
Axioma 3: Si dos sucesos A y B son mutuamente excluyentes
(mex) entonces P (AUB)=P(A) +P(B)
Axioma 4: Si A1, A2,…,A4 son sucesos o eventos mex dos a
dos entonces, n n
P (U A i ) P ( A1 ) P ( A 2 ) ... P ( A 4 ) P ( A i )
i 1 i 1
,
conocida como regla aditiva para sucesos o eventos mex.
Teoremas Fundamentales
Teorema 1
Si A es el conjunto vacio entonces su probabilidad es cero.
Es decir, P ( ) 0
Teorema 2
Si A es un evento y A su complemento, entonces,
P(A) 1 P(A)
Teorema 3
Sean A y B dos sucesos mutuamente No Excluyentes de un
espacio muestral (S), entonces,
P (A B ) P (A ) P (B ) P (A B )
Teoremas Fundamentales
Teorema 4
Si A B P (A) P (B )
Leyes
a.- Ley de Probabilidad Condicional
Sea S un espacio muestral asociado a un experimento aleatorio.
Sean Ay B dos sucesos cualesquiera de S, tales que P(B) = 0. Se
define la probabilidad condicional de A dado B, P(A/B), como:
P(A B)
P(A / B)
P(B)
Leyes
b.- Ley Multiplicativa para Sucesos o Eventos Independientes.
Sea S un espacio muestral asociado a un experimento aleatorio.
Sean A y B sucesos de S. Se dice que A y B son sucesos
independientes si y sólo si:
Ejemplo.-
En cierta ciudad, las mujeres representan el 50%
de la población y los hombres el otro 50%. Se
sabe que el 20% de las mujeres y el 5% de
hombres están sin trabajo. Un economista
estudia la situación de empleo, elige al azar una
persona desempleada. Si la población total es
de 8000 personas,
¿ Cuál es la probabilidad de que la persona
escogida sea ?:
PROBABILIDAD
a).- Mujer
b).- Hombre
c).- Mujer dado que está empleado
d).- Desempleado dado que es hombre
e).- Empleado dado que es mujer
D E Total
M 800/8000 = .1 3200/8000= .4 4000/8000= .5
P(M) = .50
P(H) = .50
P(E) = .875
P(D) = .125
P(M/E) = P(ME)/P(E) = .40/.875 = .4571
P(D/H) = P(DH)/P(H) = .025/.5 = .05
P(E/M) = P(ME)/P(M) = .40/.5 = .8
P(M/D) = P(MD)/P(D) = .10/.125 = .8
P(H/D) = P(HD)/P(D) = .025/.125 = .2
PROBABILIDAD
TABLA # 1
En la figura 1 se muestra una gráfica
de los datos, llamada diagrama de
dispersión. y
4
Figura 1. 2
0 1 2 3 4 X
y
0 1 2 3 4 X
y
4
0 1 2 3 4 X
y
4
3
Supongamos que
creemos que el
2
valor de y tiende a
1
aumentar de forma
0 1 2 3 4 5 X lineal conforme x
aumenta
Entonces, podríamos escoger un modelo
que relacione a y con x trazando una
línea recta a través de los puntos de la
figura.
y
4
0 1 2 3 4 5 X
2
ˆ 1 p e n d i e n t e
1
ˆ 0 o r d e n a d a a l o r i g e n
0
1 2 3 4 X
Modelo de regresión lineal simple
(probabilístico)
y 0 1x
Donde: y = variable dependiente
x = variable independiente
E ( y ) 0ˆ +
E(y)= 0
x
1 1
ˆ x es el componente
determinístico (la ecuación de una línea
recta) = componente de error aleatorio
̂
00 = punto en que la línea corta el eje y
1 = pendiente de la línea
Si queremos ajustar un modelo de
regresión lineal simple a un conjunto
de datos, debemos encontrar
estimadores para los parámetros
̂
desconocidos, 00 y 1.
Los supuestos, que se resumirán a
continuación, son básicos para todo
análisis de regresión estadístico.
SUPUESTO 1:
La media de la distribución de
probabilidad de es cero. Es decir, la
media de los errores a lo largo de una
serie infinitamente larga de
experimentos es cero para cada valor de
la variable independiente x. Este
supuesto implica que el valor medio de
y, E(y), para un valor dado de x es
( y ) ˆ 00 + 1ˆ x
EE(y)= 1x
SUPUESTO 2:
La varianza de la distribución de
probabilidad de es constante para
todos los valores de la variable
independiente x
SUPUESTO 3:
La distribución de probabilidad de es
normal
SUPUESTO 4:
0
1 2 3 4 X
y
4
0
1 2 3 4 X
y
4
0
1 2 3 4 X
n
S S xx (x
i 1
i x) 2
Ejercicio:
A continuación tenemos las estaturas en
centímetros (muestra x) y el peso en
kilogramos (y) de niños de 6 años.
Niño 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y
Ejercicio:
Calcular: las medidas centrales, el
primero y segundo cuartil, los percentiles
30 y 70, el diagrama de dispersión
Ejercicio:
Con esta información encontrar la
ecuación de la línea recta E(y)=?
Niño 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y
CORRELACIÓN Y
REGRESIÓN LINEAL
CORRELACIÓN LINEAL
• RELACION TIPO ESTADISTICO ENTRE DOS
VARIABLES.
• EJEMPLOS
Horas de estudio (x) Calificación obtenida (y)
Libros leídos (x) Errores ortográficos (y)
Medidas preventivas (x) Núm. Lesiones (y)
Edad (x) Respuestas inadecuadas(y)
Contaminación(x) Enfermedades(y)
Características
La correlación se encuentra entre (-1, 1)
La correlación puede ser positiva.
La correlación puede ser negativa.
La correlación puede ser nula.
CORRELACIÓN POSITIVA
Significa que individuos que
tienen puntuaciones ALTAS en
una variable tienden a obtener
puntuaciones ALTAS en la otra
variable y viceversa.
Ejemplos
45 36
CORRELACIÓN NEGATIVA
Significa que individuos que
tienen puntuaciones ALTAS en
una variable tienden a obtener
puntuaciones BAJAS en la otra
variable y viceversa.
Ejemplos
Edad Respuestas
Enfermedades
(x)
inadecuadas Vacunas
(y) (x) (y)
2 11 10 0
3 12 9 1
4 10
5 11 9 0
5 9 8 4
7 3
7 3
9 8
10 3 6 3
11 6
5 5
11 5
CORRELACIÓN NULA
Significa que no
existe dependencia
entre las variables.
Ejemplos
Edad Ventas (y) Utilidades
Calif.(x)
(x) (y)
10 0
2 11
3 12 9 1
4 10
9 0
5 11
5 9 8 4
7 3 7 3
9 8
10 3 6 3
11 6 5 5
11 5
DIAGRAMA DE 4,5
DISPERSIÓN
4
Representació 3,5
n en un 3
sistema de
Utilidades
2,5
coordenadas 2
rectangulares, 1,5
donde (x, y)
1
son los valores
0,5
de las variables
0
correlacionada 0 1 2 3
s años
Correlación positiva
120
G 100
A
80
N
A 60
N 40
C
I 20
A 0
S 0 20 40 60 80 100
VENTAS
CORRELACIÓN NEGATIVA
E
M
B
A
R
A
Z
O
S
ANTICONCEPTIVOS (x)
CORRELACIÓN NULA
3,5
Pa 3
rtid 2,5
os
2
ga 1,5
na 1
do 0,5
s 0
0 0,5 1 1,5 2 2,5 3
Calificaciones
COEFICIENTE DE CORRELACIÓN
DE PEARSON
• Sirve para medir la relación existente
entre las variables correlacionadas.
Se agregan tres columnas
más.
x y xy x y 2 2