EAclase03 ESTADISTICA
EAclase03 ESTADISTICA
APLICADA
Sesión 03
Ing. William Jaime León Velásquez
2
MEDIDAS DE
DISPERSIÓN
Y DE FORMA
CONTENIDO TEMATICO
Medidas de dispersión
Medidas de forma
Variables Estadísticas Bidimensionales
Ecuación de regresión
3
MEDIDAS
DE
DISPERSION
4
MEDIDAS DE DISPERSIÓN
5
MEDIDAS DE DISPERSIÓN
6
MEDIDAS DE DISPERSIÓN.
EJEMPLO 1
▸ En una institución educativa, se selecciona dos grupos de estudiantes
que sometidos a una prueba arrojaron los siguientes puntajes:
GRUPO A GRUPO B
Puntaje Nº estudiantes Puntaje Nº estudiantes
9 2 11 5
10 4 12 10
11 6 13 5
13 4 Total 20
15 2
17 2 7
Total 20
MEDIDAS DE DISPERSIÓN
El promedio aritmético para ambos grupos es 12
Es decir:
x A x B 12
Este resultado puede conducir a
conclusiones equivocadas cuando se
está comparando distribuciones,
Se podría pensar que ambas
secciones son idénticas en su
rendimiento,
8
MEDIDAS DE DISPERSIÓN
10
FUNCIONES DE LAS MEDIDAS DE
DISPERSIÓN
2.- Para apreciar cuán dispersas están dos o más
distribuciones:
Para poder comparar dos distribuciones de frecuencias
entre sí, no sólo necesitamos la medida de tendencia
central, sino también la dispersión entre las
observaciones para no elaborar conclusiones erróneas.
A mayor medida de dispersión el grupo es más
heterogéneo.
A menor medida de dispersión el grupo es más
homogéneo o uniforme.
11
TIPOS DE MEDIDAS DE DISPERSIÓN
MEDIDAS MEDIDAS DE
DISPERSIÓN DISPERSIOB
ABSOLUTA RELATIVA
Coeficiente
Rango de
variación
Varianza
Desviación 12
estándar
MEDIDAS DE DISPERSIÓN ABSOLUTA
▸Rango o Recorrido : R
▸Varianza : S2
▸Desviación Estándar: S 13
RANGO O RECORRIDO: R
Es la diferencia entre los valores máximo y mínimo de los datos.
R X máx X mín
Esta medida es muy fácil de calcular sin embargo no
es muy recomendable porque sólo toma en cuenta
los valores extremos, sin considerar los demás
valores.
Interpretación de Rango:
El Rango se puede interpretar como la amplitud
existente entre una serie de datos,
Es decir, mide cuán lejos está el valor más pequeño y 14
el valor más grande de la muestra o población.
VARIANZA S2 , VX
▸ Es un valor numérico que cuantifica el grado de
dispersión de los valores de una variable respecto a su
media aritmética.
▸ Es el promedio de los cuadrados de las desviaciones
de la variable respecto a su media aritmética.
VX M
Xi x 2
15
VARIANZA S2 , VX
Notación:
S2 : Varianza muestral.
2
: Varianza poblacional.
Nota:
▸ La varianza nunca es negativa.
▸ Cuando la variable toma un único valor; es decir
cuando es constante entonces la varianza es cero.
▸ Mientras más se aproxima a cero, más
concentrados están los valores de la serie
alrededor de la media. Por el contrario, mientras 16
mayor sea la varianza, más dispersos están.
7
2
1 2 Xi
V( x ) Xi n
n 1 n
S2 para datos no agrupados:
Ejemplo 2:
▸ Calcular e interpretar la varianza de los pesos de un grupo de personas.
Los datos son los siguientes:
56 65 68 70 72 76 78 80
18
S2 para datos no agrupados:
x x2
Ejemplo 2: 56 3136
65 4225
n = 8 68
70
4624
4900
8 72 5184
8 2
X i 565 X i 40 329 76 5776
i 1 i 1 78 6084
80 6400
2 ∑ 565 40329
1 565
S2
X 7 40 329 8 8
60,84 61 kilos 2
En promedio los pesos del grupo de personas, se alejan con respecto al
promedio aritmético en aproximadamente 61 kg al cuadrado.
19
S2 para datos agrupados
a) Si n < 30 :
2
k
fi X i
2 1 k 2 i 1
SX fi X i n
n 1 i 1 n
20
S2 para datos agrupados
Ejemplo 3:
23
S2 para datos agrupados
Ejemplo 4:
Calcular e interpretar la varianza de la siguiente tabla.
Peso Nº de
Ii ingenieros
fi n = 40
50 - 60 6
60 - 70 8
70 - 80 10 n > 30
80 - 90 9
90 -100 7
Total n = 40
24
S2 para datos agrupados
Ejemplo:
Intervalo X f fx fx2
50 - 60 55 6 330 18150
60 - 70 65 8 520 33800
70 - 80 75 10 750 56250
80 - 90 85 9 765 65025
90 -100 95 7 665 63175
∑ 3030 236400
2
k 2 k
fi X i fi X i 2
2 i 1 i 1 236 400 3030
S 171,94
n n 40 40
n1 n2 ……….. nk
x1 x2 ………. xk
………..
S12 S 22 S k2
26
VARIANZA TOTAL O GLOBAL
2
k k
2
n i ( x i S2
i )
ni x i
donde
S2 i 1 i 1 k
n n
ni
T
n
i 1
27
VARIANZA TOTAL O GLOBAL
Ejemplo 5:
Se tienen tres grupos, de seis, nueve y siete estudiantes respectivamente. Si las
notas correspondientes a cada uno de ellos son:
Grupo 1: 12 16 08 11 10 12
Grupo 2: 17 14 07 13 11 18 13 15 14
Grupo 3: 10 13 11 08 12 09 12
28
VARIANZA TOTAL O GLOBAL
6 (11,5 2
7,1) 9 (13,56 2 10,53 ) 7 (10,712 3,24)
12,09
2
S T2 i 1
8,89
22
S2 = 8,89
En promedio las notas de los estudiantes de los tres grupos se alejan
con respecto al promedio total en aproximadamente 9 puntos al 29
cuadrado.
DESVIACIÓN ESTÁNDAR
S V ( X)
30
DESVIACIÓN ESTÁNDAR
La desviación estándar o desviación típica se obtiene para simplificar la
interpretación de la varianza.
Cuando se calcula la varianza, se basa en datos elevados al cuadrado, por
lo que, el resultado obtenido debe interpretarse en unidades al cuadrado;
Ejemplo 6:
12 07 14 11 16
18 09 14 10
32
DESVIACIÓN ESTÁNDAR
Ejemplo 6: x x2
12 144 9
n=9 7
14
49
Xi 111
11
196
121
i 1
16 256
Por lo tanto: 18 324 9 2
9 81 Xi 1 467
14 196 i 1
10 100
∑ 111 1467
1 111 2
VX 1 467 9 12,25 S 12,25 3,5 puntos
8 9 X
En promedio las notas de los estudiantes se alejan con respecto al
promedio en aproximadamente 3.5 puntos 33
DESVIACIÓN ESTÁNDAR
Nota:
La varianza y la desviación estándar se utilizan para
comparar grupos cuya variable está expresada en las
mismas unidades.
Así, el grupo más homogéneo, más uniforme o en el que
la media aritmética es más representativa será aquel en
el cual la varianza o la desviación estándar es menor.
34
DESVIACIÓN ESTÁNDAR
Ejemplo 7:
En varias semanas consecutivas, los oficiales de policía: Martínez y Castro
aplicaron las siguientes infracciones por exceso de velocidad:
Martínez 31 38 42 32 39 26
Castro 35 43 38 37 33 28 27
35
DESVIACIÓN ESTÁNDAR
37
PROPIEDADES DE LA DESVIACIÓN
ESTÁNDAR
2.- Si todos los valores de la variable se multiplican por un número la
desviación estándar queda multiplicada por dicho número.
38
MEDIDAS DE DISPERSIÓN
RELATIVA
39
COEFICIENTE DE VARIACIÓN
▸ Es la desviación estándar dividida sobre la media
aritmética multiplicada por 100. El mismo nos permite
comparar desviaciones típicas de variables con unidades
de medición distintas.
S
CV 100
x
El coeficiente de variación se expresa en unidades
independientes de la naturaleza de la variable.
▸ Interpretación del Coeficiente de Variación:
El Coeficiente de Variación, mide la variabilidad relativa
a la Media. Expresa la proporción de variabilidad de una
40
característica por cada unidad de la Media.
COEFICIENTE DE VARIACIÓN
▸ En la práctica, se acostumbra considerar que un coeficiente de
variación según la tabla.
41
COEFICIENTE DE VARIACIÓN
Ejemplo 8:
42
COEFICIENTE DE VARIACIÓN
Empresa A Empresa B
Sueldos Nº trabajadores Sueldos Nº trabajadores
($) ( S/.)
380 10 600-650 7
410 9 650-700 9
450 12 700-750 14
480 8 750-800 6
500 7 800-850 4
43
COEFICIENTE DE VARIACIÓN
Cálculo de la Media y la Desviación Estándar de los dos grupos
Empresa A Empresa B
2
X f Xf Xf X f Xf X2f
380 10 3800 1444000 600-650 625 7 4375 2734375
410 9 3690 1512900 650-700 675 9 6075 4100625
450 12 5400 2430000 700-750 725 14 10150 7358750
480 8 3840 1843200 750-800 775 6 4650 3603750
500 7 3500 1750000 800-850 825 4 3300 2722500
46 20230 8980100 40 28550 20520000
k
X
2
k 2 k
fi fi X i fi X i
i 1
i
i 1
2
S
Empresa A Empresa B x i 1
n n
Media 439.78 713.75 n 44
Desv Est 42.55 59.67
COEFICIENTE DE VARIACIÓN
x 439,78 x 713,75
A B
SA 42,55 S 59,67
B
59,67
CVA
42,55
100 9,68 %
CVB 100 8,36%
439,78 713,75
REGLA EMPIRICA
46
TIPIFICACIÓN. VALOR Z
▸ La tipificación es el proceso de restar la media y dividir
entre su desviación típica a una variable X.
▸ De este modo se obtiene una nueva variable
𝑋 − 𝑥ҧ
𝑧=
𝜎
Con media 0 y desviación estándar σ z = 1, que se denomina variable
tipificada.
Esta nueva variable carece de unidades y permite hacer
comparables dos medidas que en un principio no lo son, 47
por aludir a conceptos diferentes.
TIPIFICACIÓN. VALOR Z.
Ejemplo 9:
▸ Comparar el nivel académico de dos estudiantes de diferentes
Universidades para la concesión de una beca de estudios.
49
Tipificación. Valor Z. Ejemplo
▸ Solución
▹ No se puede comparar directamente 8 puntos de
A frente a los 80 de B,
▹ Pero como ambas poblaciones se comportan de
modo normal,
▹ Entonces se puede tipificar y observar las
puntuaciones sobre una distribución de
referencia N(0,1)
50
Tipificación. Valor Z.
Ejemplo
xA A 86
zA 2
A 1
xB B 80 70
zB 1
B 10
Como ZA>ZB, se puede decir que el porcentaje de compañeros del
mismo sistema de estudios que ha superado en calificación el
estudiante A es mayor que el que ha superado el estudiante B.
Se puede concluir que el estudiante A es mejor candidato para
la beca.
51
TEOREMA DE CHEBYSHEV
1- 12
k
Estadística Básica
TEOREMA DE CHEBYSHEV
X-2s x X+2s
Estadística Básica
REGLA EMPÍRICA
Si una variable está distribuida normalmente, entonces: a menos de una
desviación estándar de la media hay aproximadamente 68% de los datos;
a menos de dos desviaciones estándar de la media hay aproximadamente
95% de los datos; y a menos de tres desviaciones estándar de la media
hay aproximadamente 99.7% de los datos. Esta regla es válida
específicamente para una distribución normal.
99.7%
95%
68%
Por tanto, 75% de los estudiantes como mínimo debió obtener una
calificación de entre 60 y 80.
EJEMPLOS
Por tanto
MEDIDAS
DE
FORMA
57
MEDIDAS DE FORMA
MEDIDAS DE • Coeficiente
ASIMETRIA de asimetría
MEDIDAS
DE FORMA
MEDIDA • Coeficiente
DE de curtosis
CURTOSIS
Son medidas que recogen dos aspectos de la distribución
de datos:
▸ Su asimetría alrededor de una medida de tendencia
central 58
▸ Su curtosis o grado de apuntamiento de la
distribución
ASIMETRÍA O SESGO
▸ Una distribución es asimétrica cuando sus datos tienden a agruparse hacia
uno de los extremos de la distribución.
▸ Cuando una curva es asimétrica, tiene un sesgo.
El sesgo puede ser de dos tipos:
▸ Si los datos tienden a agruparse en las primeras clases, se dice que el
distribución tiene un sesgo positivo o que es asimétrica positiva.
▸ Si los datos tienden a agruparse en las últimas clases de la distribución, se
dice que esta tiene sesgo negativo o que es asimétrica negativa.
59
𝑥ҧ − 𝑀𝑜
𝑆𝐾 =
𝑆
▸ Si la media es mayor que la moda, entonces, SK es positivo Sk>0.
Es decir, el sesgo es positivo.
▸ Si la media es menor que la moda, SK es negativo Sk<0, es decir
el sesgo es negativo. 60
▸ Si la media es igual a la moda, SK=0 y la distribución es simétrica.
EJEMPLO 12
Las edades de las personas tiene un distribución casi simétrica con una ligera
asimétrica negativa
Es decir las edades de las personas tienden a agruparse al centro de la
distribución 63
CURTOSIS O APUNTAMIENTO
64
TIPOS DE CURVAS
a) En la medida en que los diferentes tramos de la variable
presenten frecuencias muy similares en todo su
recorrido, entonces podemos afirmar que existe poca
curtosis o concentración de los datos. Esta situación
contribuye a que la dispersión sea alta. Una distribución
con éstas características, se denomina PLATICÚRTICA
O ACHATADA
b) Por el contrario, si existe una cantidad muy
significativa de datos que se encuentran
concentrados en algún tramo de la variable,
entonces decimos que la distribución es altamente
concentrada o que tiene alta curtosis. Una
distribución de éstas características se denomina 65
LEPTOCÚRTICA O APUNTADA.
TIPOS DE CURVAS
c) Si la concentración es intermedia entre las
dos situaciones anteriores, se dice que la
distribución es MESOCÚRTICA o
MODERADA CONCENTRACIÓN DE LOS
DATOS. Una distribución con esta
característica es propia de la distribución
normal,
66
COEFICIENTE DE CURTOSIS A4
Éste coeficiente, resulta del cociente existente entre el
momento de orden cuatro respecto a la media y la
desviación estándar elevada a la cuarta.
σ 4
4
𝑓 ∗ 𝑥𝑖 − 𝑥ҧ /𝑛
𝐴 = 4
▸ La mayoría de los autores consideran que: 𝑆
a) Si A4 - 3 = 0, la distribución es mesocúrtica o moderada
concentración de los datos. Tal es el caso de la distribución
normal
b) Si A4 - 3 > 0, la distribución es apuntada o leptocúrtica o alta
concentración de los datos.
67
c) Si A4 - 3 < 0, la distribución es achatada o platicúrtica o baja
concentración de los datos.
COEFICIENTE DE CURTOSIS A4
Ejemplo 14
▸ Unos grandes almacenes disponen de un estacionamiento para sus
clientes.
▸ Los siguientes datos que se refieren al número de horas que permanecen
en el estacionamiento una serie de vehículos:
1 2 3 4 5 6
Tiempo (h)
vehiculos 5 8 12 20 10 6
Media 3.625
69
COEFICIENTE DE CURTOSIS A4
Ejemplo 14
▸ Se calcula la desviación estándar
x f x2 f
1 5 5
2 8 32
2
3 12 108 k 2 k
fi X i fi X i
4 15 240 i 1 i 1
S2
5 10 250 n n
6 6 216
56 851
851
S= ------------ - 13.140625 = 1.43380737
70
56
COEFICIENTE DE CURTOSIS A4
σ 𝑓 ∗ 𝑥 − 𝑥ҧ 4 /𝑛
▸ Reemplazando en la fórmula 4 𝑖
𝐴 =
𝑆4
18971
------
56 338.767857
A4 = --------------- = ------------- = 80.15654
4.22632832 4.22632832
A4 - 3 =
80.1565 - 3 = 77.1565404
En éste caso, la distribución es bien apuntada o leptocurtica o con
bastante concentración de los datos. 71
VARIABLES
ESTADÍSTICAS
BIDIMENSIONALES
72
DISTRIBUCIONES BIDIMENSIONALES
Ejemplo:
• Peso y altura de un grupo de
estudiantes;
• Superficie y precio de las viviendas de
una ciudad;
• Potencia y velocidad de una grupo de
autos deportivos.
74
Ing. William Jaime León Velásquez
CÁLCULO DE LOS PARÁMETROS
MEDIA X xn i i
Y
y n i i
n n
2
ni x 2 i n y i
Y
2 i 2
VARIANZA X
2
S 2
x S y
n n
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)
76
Ing. William Jaime León Velásquez
VARIABLES ESTADÍSTICAS
BIDIMENSIONALES
▸ Se puede llamar X a la talla e Y al peso.
▸ Se obtiene la variable bidimensional (X, Y) que toma 10
valores, que son las 10 parejas de valores de la tabla
anterior: (160,55), (165,58), etc.
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs) 55 58 58 61 67 62 66 74 79 83
77
Ing. William Jaime León Velásquez
TABLA DE FRECUENCIAS
BIDIMENSIONALES
▸En algunos casos el número de "parejas" de valores (x,y) es grande y además
muchos de ellos aparecen repetidos; en este caso se utiliza una "Tabla de doble
entrada" o Tabla de frecuencias bidimensionales, tal como se muestra en el figura
siguiente
X1 X2 Xi
Y1
Y2
Yj
# de hijas (Y)
# de hijos (x) 0 1 2 3
0 10 15 15 3
1 10 12 7 2
2 8 4 3 1
3 3 2 1 0
4 2 1 1 0 79
Ing. William Jaime León Velásquez
TABLAS BIDIMENSIONALES
DE FRECUENCIAS
# de hijas (Y)
# de hijos (x) 0 1 2 3
0 10 15 15 3
1 10 12 7 2
2 8 4 3 1
3 3 2 1 0
4 2 1 1 0
▸ La lectura de esta tabla es sencilla.
▸ Por ejemplo:
▸ habría 7 familias que tendrían 1 hijo y 2 hijas y ninguna familia tendría 3
hijos y 3 hijas. 80
Ing. William Jaime León Velásquez
DIAGRAMAS DE
DISPERSIÓN O NUBES DE
▸ La PUNTOS
gráfica de este tipo de variables es en realidad semejante a la
representación de puntos en el plano, usando unos ejes de
coordenadas.
81
Ing. William Jaime León Velásquez
DIAGRAMAS DE DISPERSIÓN O
NUBES DE PUNTOS
82
Ing. William Jaime León Velásquez
DIAGRAMAS DE DISPERSIÓN
O NUBES DE PUNTOS
▸ Se puede ver en el figura anterior del diagrama de talla - peso
que la serie de puntos presenta una tendencia "ascendente" .
▸ Existe entre las dos variables una "dependencia directa"
▸ Si la tendencia es "descendente" existe una "dependencia
inversa "
83
Ing. William Jaime León Velásquez
DIAGRAMAS DE DISPERSIÓN O
NUBES DE PUNTOS
▸ Del ejemplo 1 sobre la talla y el peso de 10 personas se obtiene el siguiente
tabla:
▸ El eje X representa la talla en cm. y el eje Y el peso en kg.)
Talla (cms) X Peso (kgs) Y 𝑋 − 𝑋ത 𝑌 − 𝑌ത
160 55 -12.6 -11.3
165 58 -7.6 -8.3
168 58 -4.6 -8.3
170 61 -2.6 -5.3
171 67 -1.6 0.7
175 62 2.4 -4.3
175 66 2.4 -0.3
180 74 7.4 7.7
180 79 7.4 12.7
182 83 9.4 16.7
Suma 1726 663
n 10 10
Media 172.6 66.3 84
DIAGRAMAS DE DISPERSIÓN O
NUBES DE PUNTOS
15
10
PESO
0
-15 -10 -5 0 5 10 15
-5
-10
-15
85
TALLA
COVARIANZA
▸ La covarianza mide la forma en que varía conjuntamente dos
variables X e Y
Es el estudio simultaneo de dos variables, lo que interesa
saber es si existe algún tipo de relación entre ellas.
▸ Sean (x yi ) pares de observaciones de
i, dos características X y
Y, y sean 𝑋ത 𝑦 𝑌ത sus respectivas medias.
▸ La covarianza entre las dos variables se define por :
σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
Donde:
𝑛
xi e yi representan los pares de valores de la variable y el producto 𝑋ത 𝑌ത 86
corresponde al producto de las medias aritméticas de las variables X e Y respectivamente.
COVARIANZA
Otras formas de expresar la covarianza:
FORMULA 2
Se utiliza cuando se tiene una tabla
σ𝑟𝑖=1 σ𝑠𝑗=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑗 − 𝑦ത 𝑛𝑖𝑗 que se hallado las diferencias de
𝑆𝑥𝑦 = cada dato con su respectiva media.
𝑁 En gráficos de dispersión de puntos
FORMULA 3
Se utiliza cuando las dos variables
σ𝑟𝑖=1 σ𝑠𝑗=1 𝑥𝑖 𝑦𝑖 𝑛𝑖𝑗 están representadas mediante una
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത tabla bidimensional de frecuencias
𝑁
87
Ing. William Jaime León Velásquez
COVARIANZA:
Si Sxy >0 hay dependencia directa (positiva), es decir las
variaciones de las variables tienen el mismo sentido
Si Sxy = 0 l Las variables están incorrelacionadas, es decir no hay
relación lineal, pero podría existir otro tipo de relación.
Si Sxy < 0 hay dependencia inversa o negativa, es decir las
variaciones de las variables tienen sentido opuesto.
Talla
(cm) 160 165 168 170 171 175 175 180 180 182
Peso
(kg) 55 58 58 61 67 62 66 74 79 83
Mediante la fórmula 1
σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
𝑛 89
Ing. William Jaime León Velásquez
EJEMPLO. FORMULA 1
Paso 1:
La suma de todos los productos de los valores de Talla (cm) Peso (kg)
x (talla) por los de y (peso) sería: X Y XY
∑ xi y i 160
165
55
58
8800
9570
168 58 9744
170 61 10370
171 67 11457
175 62 10850
∑ xi yi= 114,987 175 66 11550
180 74 13320
180 79 14220
Paso 2: 182 83 15106
114987
90
Ing. William Jaime León Velásquez
EJEMPLO. FORMULA 1
Paso 3:
A este valor se resta el producto de las medias de ambas variables:
Talla (cm) Peso (kg)
X Y
160 55
165 58
168 58
170 61
171 67
175 62
175 66 Media de x (talla): 172.6
180 74 Media de y (peso): 66.3
180 79
182 83 𝑋ത 𝑌ത = 172.6 * 66.3 = 11443.38
Suma 1726 663
n 10 10
Mx 172.6 66.3 91
Ing. William Jaime León Velásquez
EJEMPLO. FORMULA 1
Paso 3:
∑ xi yi= 114,987
n=10
𝑋ത 𝑌ത = 11443.38 σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
𝑛
De acuerdo a la formula se tiene que:
114,987
𝑆𝑥𝑦 = − 11,443.38 = 55.32
10
Se ha obtenido un valor positivo para la covarianza que corresponde a una
dependencia directa como ya se había intuido con la nube de puntos 92
Ing. William Jaime León Velásquez
CON LA FORMULAS DEL DIAGRAMA DE
DISPERSIÓN
EJEMPLO. FORMULA 2
Talla (cms) Peso (kgs)
𝑋 − 𝑋ത 𝑌 − 𝑌ത ni 𝑋𝑖 − 𝑋ത 𝑌𝑗 − 𝑌ത 𝑛𝑖𝑗
X Y
160 55 -12.6 -11.3 2 284.76
165 58 -7.6 -8.3 2 126.16
168 58 -4.6 -8.3 2 76.36
170 61 -2.6 -5.3 2 27.56
171 67 -1.6 0.7 2 -2.24
175 62 2.4 -4.3 2 -20.64
175 66 2.4 -0.3 2 -1.44
180 74 7.4 7.7 2 113.96
180 79 7.4 12.7 2 187.96
182 83 9.4 16.7 2 313.96
Suma 1726 663 20 1106.4
n 10 10
Media 172.6 66.3 93
CON LA FORMULAS DEL DIAGRAMA DE
DISPERSIÓN
EJEMPLO. FORMULA 2
N=ni
X 1 2 1 2 3 2 2 2 3 1
Y 3 5 2 3 5 4 3 5 5 3
95
Ing. William Jaime León Velásquez
CON LA FORMULAS DE LA TABLA
BIDIMENSIONAL
EJEMPLO. FORMULA 3
▸ Cálculos
X 1 2 3 n’j nj’yj nijxiyj
Y
2 1 1 2 2
3 2 2 4 12 18
4 1 1 4 8
5 2 2 4 20 50
ni 3 5 2 10 38 78
nixi 3 10 6 19
nijxiyj 8 40 30 78
97
Ing. William Jaime León Velásquez
CON LA FORMULAS DE LA TABLA
BIDIMENSIONAL
EJEMPLO. FORMULA 3
σ𝑟𝑖=1 σ𝑠𝑗=1 𝑥𝑖 𝑦𝑖 𝑛𝑖𝑗
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
▸ Cálculos 𝑁
σ𝑟𝑖=1 σ𝑠𝑗=1 𝑥𝑖 𝑦𝑖 𝑛𝑖𝑗
=7.8
𝑁
ത
𝑋= 1.9
ത
𝑌= 3.8
Sxy= 7.8 - 1.9 3.8 = 0.58
99
EL COEFICIENTE DE CORRELACIÓN
DE PEARSON
▸ El coeficiente de correlación, creado por Karl Pearson
alrededor de 1900, describe la fuerza de la relación entre
dos conjuntos de variables .
▸ Se nombra con la letra r, y frecuentemente se le conoce
como r de Pearson y coeficiente de correlación producto-
momento.
▸ Puede adoptar cualquier valor de -1.00 a +1.00, inclusive.
▸ Un coeficiente de correlación de -1.00 o bien de +1.00
indica una correlación perfecta.
100
Ing William León Velásquez
EL COEFICIENTE DE
CORRELACIÓN DE PEARSON
101
Ing William León Velásquez
EL COEFICIENTE DE
CORRELACIÓN DE PEARSON
rxy = 1
−1 ≤ 𝑟𝑥𝑦 ≤ +1
rxy = 0.88 rxy = 0
9
25 12
8
10
20 7
6 8
15 5
6
10 4
3 4
5 2
2
1
0
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
0 2 4 6 8 10
0
0 2 4 6 8 10 12
-5
-10
-15
-20
σ𝑁 ത ത
𝑖=1 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌
𝑟𝑥𝑦 =
σ𝑁 ത
𝑖=1 𝑋𝑖 − 𝑋
2 σ𝑁 ത
𝑖=1 𝑌𝑖 − 𝑌
2
σ 𝐗−𝐗 ഥ 𝐘−𝐘 ത
𝐫=
(𝐧 − 𝟏)𝐒𝐗 𝐒𝐘 103
Ing William León Velásquez
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1
104
Calificación Ventas
Vendedor x2 xy y2
(x) (y)
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
María 10 11 100 110 121
total 30 40 210 274 370
106
𝐧 σ 𝐱𝐲 − σ 𝐱 σ 𝐲
𝐫=
𝐧 σ 𝐱𝟐 − σ 𝐱 𝟐 𝐧 σ 𝐲𝟐 − σ 𝒚 𝟐
𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎)
𝐫=
(𝟓) 𝟐𝟏𝟎 − (𝟑𝟎)𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎)𝟐
r=0.88 107
108
109
Ing William León Velásquez
INTRODUCCIÓN
INTRODUCCIÓN
111
Ing William León Velásquez
INTRODUCCIÓN
Se estudiará la estimación de parámetros para el modelo
de regresión lineal simple.
Es decir, un modelo con un solo regresor X que tiene una
relación con una respuesta Y y que es una línea recta.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Donde
Yi es la i esima observación de la variable aleatoria dependiente Y.
Xi es la i esima observación de la variable fija dependiente X
βo es el intercepto y es una constante (parámetro)
β1 es llamado la pendiente y es una constante (parámetro)
ε es la componente aleatoria error
112
Ing. William león Velásquez
ഥ 𝐘𝐢 − 𝐘
σ𝐧𝐢=𝟏 𝐗 𝐢 − 𝐗 ഥ
n(ΣXY) – (ΣX)(ΣY) 𝒃=
b= ഥ 𝟐
n(ΣX²) – (ΣX)² σ𝐧𝐢=𝟏 𝐗 𝐢 − 𝐗
ΣY ΣX ഥ−𝐛𝐗
𝒂=𝐘 ഥ
a= – b
n n
113
COEFICIENTE DE DETERMINACIÓN
114
En el ejemplo,
el coeficiente de determinación (r2) es de 0.77,
encontrado por (0.88)2.
115
FIN
wjleonv@[Link]