Importancia de la Estadística en Decisiones Empresariales
Importancia de la Estadística en Decisiones Empresariales
INTRODUCCIÓN
OBJETIVOS DEL CAPÍTULO
Mostrar la importancia y aplicación de la estadística.
Presentar los conceptos iniciales de la estadística.
1.1. ANÁLISIS CUANTITATIVO PARA LA TOMA DE DECISIONES.
El análisis cuantitativo para la toma de decisiones es un proceso por medio del cual
la Gerencia, al enfrentarse a un problema, selecciona un curso de acción específico
ó “solución” de un conjunto de alternativas. Puesto que por lo general hay
incertidumbre (probabilidad) con respecto al futuro, no es posible estar seguro de
las consecuencias de la decisión que se tome, y tampoco se puede asegurar que la
decisión que se elija produzca los mejores resultados. Además, el problema puede
ser muy complejo, ya sea porque existen muchas alternativas o cursos de acción
por considerar ó porque un gran número de factores deben tomarse en cuenta.
El Gerente de una empresa quiere escoger la acción más efectiva para alcanzar las
metas de la organización. Al juzgar la eficiencia de las distintas decisiones posibles,
hay que utilizar algún criterio o medida del rendimiento.
Establecer Criterio
Que se usará para evaluar
Soluciones alternativas.
Seleccionar la(s)
Alternativa(s) más adecuada(s).
Dado que en los negocios, las empresas se plantean metas y objetivos para
identificar áreas de oportunidad y mejora, el pensamiento estadístico debe usarse
como un medio para lograr la meta planteada.
El pensamiento estadístico es la forma en que la información se ve, se
procesa y se convierte en pasos de acción. Es una filosofía de pensamiento,
no una forma de realizar cálculos matemáticos. El pensamiento estadístico utiliza
el concepto de que toda actividad consiste en un conjunto de pasos
interconectados que deben complementarse y completarse para lograr una meta
planteada, donde se debe investigar cada paso para identificar áreas de
oportunidad y mejora a fin de lograr el éxito personal o profesional. La
identificación y minimización de la variación en cada uno de los pasos llevarán al
logro de la meta planteada.
1. La apreciación de un sistema.
2. El conocimiento sobre la variación.
3. La teoría del conocimiento.
4. La psicología.
Finalmente, se resalta la importancia de encontrar el valor y los beneficios de
utilizar las Nuevas Tecnologías de Información y Comunicación para un
pensamiento estadístico en diferentes ámbitos de la vida profesional y de la
empresa.
En la ASQC (1996b) se plantea primero que el pensamiento estadístico es una
filosofía, o sea es una forma de pensar, o un proceso de pensamiento, en lugar de
4
Métodos Estadísticos.
Finalidad de la estadística.
Población Objetivo.
Muestra.
RAMAS DE LA ESTADISTICA:
Es aquella que tiene por objeto describir y analizar las características de una
población o de una muestra, deduciendo de ésta descripción conclusiones sobre su
estructura y composición.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.
CAPITULO 2
ANÁLISIS DE DATOS
2.1. DATOS.
Antes de aplicar cualquier técnica de análisis es preciso realizar un análisis previo
de los datos de que se dispone.
Algunas definiciones de datos:
Es importante observar que el objeto utilizado para el análisis estadístico son los
datos y las observaciones científicas por sí mismas.
Para el investigador, los datos constituyen el recurso básico para cualquier trabajo
estadístico. Por ello, la recolección correcta de éstos es importante.
Para que sean de utilidad los datos estadísticos tienen que tener dos
características básicas:
1) Deben ser pertinentes: deben guardar una relación con el tema en cuestión.
2) Deben ser insesgados: no deben tener deformaciones provenientes de
prejuicios o de errores de los instrumentos empleados.
DATOS CATEGÓRICOS.
8
DATOS NUMÉRICOS.
Son aquellos originados por variables numéricas.
DISCRETOS.
Son aquellos que resultan de un proceso de conteo. Ejemplo: ¿Cuántos
libros de estadística tiene usted en su biblioteca? 0, 1, 2,3....
CONTINUOS.
Son aquellos que resultan de un proceso de medición.
Una variable continua es aquella que toma cualquier valor dentro de
cierto intervalo (a < X < b). Ej. Ingresos, salarios, Rentabilidad de un
titulo valor, resistencia entre otros.
MÉTODOS DE MUESTREO
De acuerdo al conocimiento o no que se tenga de la población el muestreo puede
ser:
Muestreo Probabilísitico y No Probabilísitico.
PROBABILISTICOS NO PROBABILISTICOS
Muestreo aleatorio simple Muestreo por conveniencia
Muestreo estratificado Muestreo según criterio (juicio)
Muestreo por conglomerados Muestreo por cuotas
Muestreo polietápico
Muestreo por áreas
Muestreo Sistemático
11
MUESTREO PROBABILISTICO
Método con el cual es posible determinar la probabilidad que tiene cada elemento
de la población de ser escogido en la muestra. Cuando las muestras son
aleatorias, se pueden hacer generalizaciones acerca de la población bajo estudio.
MUESTREO NO PROBABILÍSTICO
Método con el cual no es posible establecer de una manera exacta la probabilidad
de que un elemento de la población participe en la muestra.
Tiene su aplicación en los estudios exploratorios.
Cuando las muestras se seleccionen de manera NO ALEATORIA, sólo es posible
hacer afirmaciones de tipo descriptivo sobre la muestra.
Los procedimientos NO ALEATORIOS de muestreo nunca deben usarse cuando
el objetivo del muestreo es hacer inferencias.
MUESTREOS PROBABILÍSTICOS
que cada uno de los elementos de la población tenga igual oportunidad de caer en
la muestra. Se requiere tener un listado de la población.
En el M.A.S. la muestra es sacada al azar unidad por unidad.
La muestra puede ser seleccionada utilizando muestreo con reemplazo o sin
reemplazo.
El muestreo sin reemplazo es aquel en el que un elemento que ha sido sacado no
es remplazado, ya que esto daría lugar a que el mismo elemento entrara en la
muestra más de una vez.
El muestreo con reemplazo es un caso contrario. Se selecciona el elemento y
después de ser inspeccionado regresa a la población teniendo la posibilidad de
volver a salir.
12
Procedimiento:
1. Enumerar los elementos de la población según el tamaño de ésta.
Ejemplos:
Si la población es de N=1000, enumeramos como sigue: 001, 002,
003,...., 000 donde 001 representa el primer elemento, 002 el segundo,
003 el tercero,..., y el 000 representa el elemento 1 000.
Si la población es de N=347, enumeramos como sigue: 001, 002, 003,...,
347, y se procede en forma similar.
2. De la tabla de números aleatorios se elige un punto arbitrario de partida y
siguiendo la secuencia se van determinando los elementos de la muestra.
Si un número aleatorio ocurre dos veces se omite la segunda ocurrencia y se
selecciona otro número aleatorio para reemplazarlo.
3. Determinar el valor de los elementos de la muestra.
MUESTREOS NO PROBABILÍSTICOS.
Las escalas de medición o sea, los diferentes procedimientos que podemos usar
para medir los datos, según se trate de variables categóricas o numéricas son:
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5
1 2 4 8 16
En la primera vemos que los intervalos son iguales, pues la distancia que
hay de 1 a 2 es igual a la distancia que hay entre 2 y 3, etc., todo lo cual,
dicho matemáticamente, equivale a afirmar que 1-2 = 2-3, etc. Por la misma
razón en la segunda escala las distancias también son iguales aunque
hayamos tomado intervalos mayores. En la tercera ya parecería que los
intervalos no son iguales pues van aumentando cada vez más hacia la
derecha, pero si consideramos que se trata de una escala logarítmica (y no
lineal como las dos anteriores), veremos que también sus intervalos son
iguales según la siguiente serie de igualdades, donde en vez de restar,
dividimos:
1 2 4 8
------ = ------ = ------ = ------ = etc.
2 4 8 16
Las escalas de intervalos iguales sólo nos pueden dar la información (a),
mientras que la escala de cocientes o razones, además, nos suministra
la información (b), con lo cual esta última resulta ser más precisa o con
mayor contenido informativo.
En Las escalas de intervalos iguales el punto cero es arbitrario, y no
refleja en ningún momento ausencia de la magnitud que estamos
midiendo,
Ejemplos: la temperatura de cero en una ciudad.
Una vez que se recolectan los datos, se les debe dar una presentación tabular y
diagramático para su análisis e interpretación. El proceso de recolección,
organización, codificación y presentación es importante para la toma de decisiones.
18
CAPITULO 3.
PRESENTACIÓN DE DATOS NUMÉRICOS.
3.1. INTRODUCCIÓN.
Clasificación Ordenada.
Consiste en ordenar los datos sin procesar desde el valor más pequeño hasta el
más grande y así facilitar la evaluación de sus principales características.
Los datos ordenados, reciben el nombre de arreglo ordenado.
Cuando únicamente se usa el primer dígito para agrupar las medidas, el primer
dígito es el tallo, mientras que cada una de las medidas con valor a partir de ese
primer dígito pasa a ser una hoja.
Cada renglón es una posición de tallo y cada dígito de la derecha es una hoja.
78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86
6 1 6 4
7 80 4 2 3 6 0 7
8 38 1 3 6
9 3 7 1
10 0
El primer renglón que dice 6 | 1 6 4 quiere decir que entre la lista de datos se
encuentran los valores 61, 66 y 64.
6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
20
Ejemplo 2.
8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
11.0 4.9 3.9 4.9 4.4 4.9 4.9 7.4 8.0 3.6
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9
Solución en computador:
Consiste en incluir los datos en una tabla donde la variable se organiza de menor a
mayor con sus correspondientes frecuencias1.
Xi ni Ni hi Hi
X1 n1 N1=n1 h1 H1=h1
X2 n2 N2=n1+n2 h2 H2=h1+h2
X3 n3 N3=n1+n2+n3 h3 H3=h1+h2+h3
• • • • •
• • • • •
• • • • •
Xn nn Nn=n hn Hn=1.0
n 1.0
PROPIEDADES:
1
. En adelante, la doble barra (║) en cada cuadro nos indica que a la izquierda están los datos
Para construir dicha tabla, agrupando por intervalos, se realizan los siguientes
pasos:
Ordeno los valores de la variable de menor a mayor.
Determino la amplitud del intervalo. Si deseo que los intervalos tengan igual
amplitud (a), entonces
a = (Ra /S), donde S=Nº de intervalos deseados, dependiendo de el
número de datos.
El número de intervalos en los que se agrupa la información es una
decisión que debe tomar el analista: la regla es que mientras más
intervalos se utilicen menos información se pierde, pero puede que menos
representativa e informativa sea la tabla.
Otra posibilidad es la de construir, siempre que sea posible, intervalos de amplitud
constante, sugiriendo sobre el número S de intervalos a considerar el propuesto
por Sturges
S = 1 + 3'322 log 10 n
Ejercicio 1.
En encuesta realizada a 100 personas, una de las preguntas que se hizo fue
¿A cuantas revistas esta usted suscrito?
Las respuestas originaron una tabla de frecuencias donde la variable es numérica
discreta.
23
Revistas ni Ni hi Hi
0 20 20 0.20 0.20
1 15 35 0.15 0.35
2 10 45 0.10 0.45
3 25 70 0.25 0.70
4 17 87 0.17 0.87
5 13 100 0.13 1.00
100 1.00
25
20
p
e
r 15
s
o
n 10
a
s
5
0 1 2 3 4 5
revistas
Ejercicio 2.
Considere el número de hombres y mujeres empleados por una entidad oficial
durante los primeros cuatro meses.
24
BARRAS VERTICALES
Ejercicio 3.
Suponga que Xi, es el valor de una acción en la bolsa de valores y ni, es el número
de acciones vendidas.
25
Solución:
R = 5.30 - 5.10 = 0.20
Ra= 0.20 + 0.04 = 0.24
a = (0.24 / 6) = 0.04
Valor Acciones Acciones Marcas
Acciones vendidas Acumulada hi Hi Clase
5.08 - 5.12 60 60 0.115 0.115 5.10
5.12 - 5.16 86 146 0.165 0.281 5.14
5.16 - 5.20 105 251 0.202 0.483 5.18
5.20 - 5.24 119 370 0.229 0.712 5.22
5.24 - 5.28 83 453 0.160 0.871 5.26
5.28 - 5.32 67 520 0.129 1.000 5.30
520 1.000
h1 = 0.115 quiere decir, que el 11.5% de las acciones tienen un valor entre $ 5.08
Y menos de $ 5.12.
H2 = 0.281 quiere decir, que el 28.1% de las acciones tienen un valor inferior a
$ 5.16.
MARCAS DE CLASE.
Es el punto medio de los intervalos de clase; es un valor representativo de ese
intervalo.
Li Ls
Marca de clase = , en cada intervalo.
2
HISTOGRAMA DE FRECUENCIA.
POLÍGONO DE FRECUENCIA.
Gráfico que se construye con las marcas de clase en el eje de las abscisas(X), y las
frecuencias absolutas o relativas en el eje de las ordenadas (Y).
27
FRECUENCIAS RELATIVAS
24
20
%
16
a
c
ci 12
o
n
8
e
s
4
FRECUENCIAS ABSOLUTAS
120
100
A
c 80
c
i 60
o
n
e 40
s
20
a 600
c
c
i 500
o
n
e 400
s
300
a
c
u
200
m
u
l
100
a
d
a
0
s
5.12 5.16 5.20 5.24 5.28 5.32
precios
29
CAPITULO 4.
PRESENTACIÓN DE DATOS CATEGÓRICOS.
4.1. INTRODUCCIÓN.
Ejemplo.
Al ser consultadas 100 personas sobre su ocupación se obtuvieron datos que
originaron la siguiente tabla resumen:
DIAGRAMA HORIZONTAL
sin empleo
t. parcial
t. completo
0 10 20 30 40 50 60
personas
DIAGRAMA DE PASTEL
Son utilizados en aquellos casos donde nos interesa no sólo mostrar el número de
veces que se da una característica o atributo de manera tabular sino más bien de
manera gráfica, de tal manera que se pueda visualizar mejor la proporción en
que aparece esa característica respecto del total.
Muestran la cantidad de datos que pertenecen a cada categoría como una parte
proporcional de un círculo.
31
Ejemplo 1.
Tabla de clasificación laboral.
DIAGRAMA DE PASTEL
Ejemplo 2.
Calificación del bienestar universitario.
Con el fin de obtener una medición del servicio en una universidad desde el punto
de vista del estudiante se diseñó una encuesta de opinión. La encuesta fue de
carácter voluntario, y se diseñó para ser diligenciada una única vez por cada
estudiante.
Una de las preguntas de la encuesta fue:
Califique de 1 a 5 su nivel de satisfacción con el proceso como excelente (5),
bueno (4), regular (3), deficiente (2) y malo (1).
La calificación del servicio tuvo un promedio total de 3.94 sobre 5 entre todos los
4781 estudiantes que respondieron la encuesta. El promedio, según el año de
ingreso de los estudiantes, se comportó como se muestra en la siguiente tabla.
32
DIAGRAMA DE PARETO
Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi
todas las pérdidas, concentrándonos en esas causas particulares y dejando de lado
por el momento otros muchos defectos triviales. El uso del diagrama de Pareto
permite solucionar este tipo de problemas con eficiencia.
Los diagramas de Pareto expresan, por lo general, 80/20: el 80% de todos los
problemas son debidos al 20% de las causas.
Ejemplo.
El supervisor de una factoría diseña una tabla para registrar el tipo de defecto en un
producto manufacturado.
Ejemplo.
Ocupación
Profesión desempleado empleado subempleado Total general
administrador 1 2 2 5
contador 2 2 1 5
economista 1 2 2 5
ingeniero 1 2 2 5
Total general 5 8 7 20
35
CAPITULO 5
MEDIDAS DESCRIPTIVAS
5.1. INTRODUCCIÓN.
Si se dispone de varias series estadísticas, es importante hacer un estudio y
comparación entre ellas .En tal caso, además de la presentación tabular y gráfica,
es necesario obtener indicadores de cada una de las características que nos
proporcionen información sobre los valores de cada serie y así hacer un análisis
más significativo.
Se obtendrán medidas descriptivas a partir de una muestra de n datos
denominadas estadísticas y no de toda la población.
Ejemplo.
Se obtienen datos sobre las notas correspondientes a seis estudiantes de un curso.
Determine la media aritmética.
Nota (Xi)
4.0
3.0 18.9
2.5 X 3.15
2.7 6
3.6
3.1
Si se tiene una serie de frecuencia (cada valor de la variable se repite más de una
vez), la media aritmética, denominada media aritmética ponderada, se calcula
multiplicando cada valor por el número de veces que se repite. La suma de todos
estos productos se divide por el total de datos de la muestra.
n
Xi * ni
X i 1
n
Ejemplo.
Se obtienen datos sobre las notas correspondientes a 17 estudiantes de un
curso .Determine la media aritmética.
(Marcasdeclase)n i
X i 1
Ejemplo:
Precio Acciones ni M de C MdeC* ni
5.08 - 5.12 60 5.10 306.00
5.12 - 5.16 86 5.14 442.04
5.16 - 5.20 105 5.18 543.90
5.20 - 5.24 119 5.22 621.18
5.24 - 5.28 83 5.26 436.58
5.28 - 5.32 67 5.30 355.10
520 2704.80
2704.80
X
520
5.20
G n
x1n1 x2n2 x3n3 ...... xknk
La Media Geométrica también se puede representar como:
1
G ( x 1n1 x 2n2 x 3n3 ....... x knk ) n
Se pueden utilizar los logaritmos:
1 n lg xi
lg G (n1 lg x1 n2 lg x2 n3 lg x3 ...... nk lg xk ) i
n n
ni lg xi
G = antilogaritmo n
La media geométrica es la media aritmética de los logaritmos de los valores de la
variable. El problema se presenta cuando algún valor es 0 ó negativo.
Sólo es relevante la media geométrica si todos los números son positivos. Si uno
de ellos es 0, entonces el resultado es 0.
Ejemplo:
Hallar la Media Geométrica de la siguiente distribución:
xi ni
100 10
120 5
125 4
140 3
n = 22
Solución:
39
lg G
n i lg x i
n
Xi ni Log xi ni Log xi
100 10 Log 100 = 2 20
120 5 Log 120 = 2.079 10,396
125 4 Log 125 = 2.097 8,387
140 3 Log 140 = 2.146 6,438
n = 22 45.221
lg G
n i lg x i
45,221
2,056
n 22
LA MEDIANA.
La mediana es el valor central de la variable ordenada, es decir, supuesta la
muestra ordenada en orden creciente o decreciente, la me es el valor que divide
en dos partes la muestra.
40
Ejemplo1.
Xi Xi me = 4
1 1 Quiere decir que un 50% de los datos está por
debajo de 4.
7 2
5 3
6 4
4 5
2 6
3 7
Ejemplo2.
Xi Xi
4 4
6 6
9 7 7 8
7
10
8
9 m 2 75
e .
8 10
41
Xi ni Xi ni
1 4 1 4
5 2 2 5
4 3 3 1 me = 2
3 1 4 3
2 5 5 2
n =15 n = 15
Ejemplo 4.
Xi ni Xi ni
4 3 2 3
5 2 3 4 4+4
3 4 4 3 me = --------- = 4
2 3 5 2 2
6 4 6 4
n =16 n = 16
Ejemplo 5.
Me = (9+12)/2=10.5 Me=12
(n / 2) ( Ni 1)
me Li *a
ni
Donde:
Li : Límite inferior del intervalo que contiene la mediana.
ni : Frecuencia absoluta del intervalo que contiene la mediana.
Ni-1 : Frecuencia absoluta acumulada anterior a la del intervalo que contiene la
mediana
a : Amplitud del intervalo que contiene la mediana.
Ejemplo1.
n 520
Clase Mediana = 260
2 2
Ejemplo2.
55 65 10 16 es el (65-75).
Luego la Mediana será:
65 75 19 35
25 16
me 65 *10 69.74
75 85 11 46
85 95 4 50 19
Ventajas de La Mediana.
La mediana no es afectada por los valores extremos.
Se puede utilizar para datos categóricos cuando n es impar y si hay un orden
jerárquico.
LA MODA
nr n r 1
Mo Li *a
2 nr nr 1 n r 1
nr: frecuencia absoluta del intervalo que contiene la Mo
44
45 55 6 6
55 65 10 16
19 10
65 75 19 35
Mo 65 *10 70.29
75 85 11 46 2 *19 11 10
85 95 4 50
Ventajas de La Moda.
(nr / 4) ( Ni 1)
Qr Li *a
ni
DECILES.
(nr / 10) ( Ni 1)
Dr Li *a
ni
PERCENTILES.
Medida de localización que divide la población o muestra en cien partes iguales.
Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.
Caso I: Variable cuantitativa discreta:
( nr / 100) ( Ni 1)
Pr Li *a
ni
Ejemplo 1.
Solución:
a.
Xi Ni Q3: (n*3)/4 = (6*3)/4 = 4.5; primera Ni >4.5=5
3 1 Luego Q3 = 14
5 2 El 75% de los trabajadores ganan menos de $
9 3 14000 diarios.
11 4 b.
14 5 D5: (n*5)/10 = (6*5)/10 = 3; primera Ni >3=4
16 6 Luego D5 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.
c.
P50: (n*50)/100 = (6*50)/100 = 3; primera Ni >3=4
Luego P50 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.
Ejemplo 2.
Determinar:
Solución: a. me = 6
Xi ni Ni
4 3 3 b. Q2 : (15*2)/4 = 7.5 ; primera Ni >7.5=9
5 4 7 Luego Q2 = 6
6 2 9
7 5 14 c. D5 : (15*5)/10 = 7.5 ; primera Ni >7.5=9
9 1 15 Luego D5 = 6
n = 15
d. P50 : (15*50)/100 = 7.5 ; primera Ni >7.5=9
Luego P50 = 6
Me = Q2 = D5 = P50
48
Ejemplo 3.
Li Ls ni Ni
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50
(12.5) 6
Q1 55 *10 61.5
10
Q3: (n*3)/4 = (50*3)/4 = 37.5; primera Ni >37.5=46
(37.5) (35)
Q3 75 *10 77.27
11
D3: (n*3)/10 = (50*3)/10 = 15; primera Ni >15=16
Luego el intervalo que contiene el D3 es (55-65)
49
(15) (6)
D3 55 *10 64
10
(22.5) (16)
P45 65 *10 68.421
19
5.4. MEDIDAS DE DISPERSIÓN O VARIABILIDAD
AMPLITUD O RANGO
mínimo. Sería deseable utilizar también los valores intermedios del conjunto
de observaciones.
R = Xn - X1
RANGO INTERCUARTIL.
RIC = Q3 - Q1
DESVIACIÓN MEDIA
Esta medida es más acorde que la de amplitud, ya que involucra a todos los
valores del conjunto de observaciones corrigiendo la desviación. Una medida
como ésta tiene la ventaja de que utiliza cada observación y corrige la
variación en el número de observaciones al hacer la división final. Y por
último también se expresa en las mismas unidades que las observaciones
mismas.
LA VARIANZA.
( Xi X ) 2
s 2
i 1
n 1
( Xi X ) n 2
i
s 2
i 1
n 1
Ejemplo 1. Considere una variable cuyos datos son: 5, 4,[Link] la varianza.
Xi (Xi - X )² X =5
5 0
4 1 s² = (2/2) = 1
6 1
2
Xi
4
ni
2
Xini
8
(Xi - X )²ni
0.08
Xini 19
5 1 5 1.44 X 3.8
n 5
4 0.7
3 2 6 1.28
5 19 2.80
s 2
2.8
(X X ) ni
2
i
s 2
i 1
n 1
n
(X i
2
X 2 2 XiX )ni
s 2
i 1
n 1
n
X i
2
ni nX 2 2nX 2
s 2
i 1
n 1
n
X i
2
ni nX 2
s 2
i 1
n 1
Propiedades de La Varianza.
En éste caso se toma como Xi las marcas de clase y se procede de igual forma.
La fórmula para calcular la varianza tiene una desventaja, y es que sus unidades
no son las mismas que las de las observaciones, ya que son unidades cuadradas.
Si la serie es simple:
Ejemplo:
s = 0.7 = 0.836
Mientras más pequeña sea la desviación estándar más representativa será la media
aritmética.
Σ (pi - qi)
IG = ----------------------------
Σ pi
n1 + n2 + n3 + ... + ni
pi = ---------------------------- x 100
qi = -------------------------------------------- x 100
Por lo tanto:
Xi ni Ni Hi= pi Xi * ni Σ Xi * ni qi pi - qi
x x x x x x x x
3,5 10 10 25,0 35 35 11,7 13,3
3 X Me
Coeficiente de asimetria Muestral s
Si es igual a cero indica que los datos se distribuyen en forma simétrica
(Media igual a la Mediana).
Si es mayor que cero se dice los datos se distribuyen en forma asimétrica
positiva o sesgada a la derecha. (Media mayor a Mediana).
Si es menor que cero se dice que los datos se distribuyen en forma asimétrica
negativa o sesgada a la izquierda. (Media menor a Mediana).
c) Curtosis
g
Teniendo en cuenta que 2 vale 3 para una distribución normal tipificada se
acostumbra calcular el Coeficiente de Curtosis con la fórmula:
(1 / n) ( X i X ) 4 ni
g2 4
3
S
Los resultados pueden ser los siguientes:
(1/30) * 0,00004967
- 3 = -1,39
g2 = ---------------------------------------
((1/30) * (0,03046667))^2
X min Q 1 Mediana Q 3
X max
Permite tener una idea visual de la distribución de los datos. O sea, determinar si
hay simetría, ver el grado de variabilidad existente y finalmente detectar
“outliers”.
Es una representación gráfica de los datos mediante el resumen de los cinco
números.
Gráfico 1
Distribución Simétrica
Tukey (citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de
los [Link] esto calcula 4 barreras, dos interiores y dos exteriores:
Cuartil 1: 5,6
62
Cuartil 3: 8,8
RIC: 3,2
Las barreras son:
Barrera exterior inferior=Q1 - 3.0 RIC=5,6 - 3.0 (3,2)=-4,0
Barrera exterior superior=Q3 + 3.0 RIC=8,8 + 3.0 (3,2)=18,4
Barrera interior inferior=Q1 - 1.5 RIC=5,6 - 1.5 (3,2)=0,8
Gráfico 2
Rendimiento de Inversiones
[El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido]
64
CAPITULO 6.
MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES NUMÉRICAS
Yj
Xi y1 • • • yj • • • ys TOTAL
Tal como se puede ver, en cada casilla se recoge el número de veces que se
presenta conjuntamente cada par de valores (x, y).
Al analizar una distribución bidimensional, uno puede centrar su estudio en el
comportamiento de una de las variables, con independencia de como se comporta
la otra. Estaríamos así en el análisis de una distribución marginal.
Distribución marginal de X
X ni.
x1 n1.
x2 n2.
..... ...
x r-1 n r-1.
xr n r.
Distribución marginal de Y
Y n.j
y1 n.1
y2 n.2
..... ...
ys-1 n.s-1
ys n.s
66
Estatura / Peso 31 Kg 32 kg 33 kg 34 kg 35 kg
1,21 cm 0 0 1 2 0
1,22 cm 0 1 1 0 1
1,23 cm 0 0 0 0 0
1,24 cm 0 2 1 0 0
1,25 cm 1 1 1 0 0
1,26 cm 0 0 0 0 0
1,27 cm 2 1 0 2 1
1,28 cm 0 1 1 0 1
1,29 cm 3 0 1 1 1
1,30 cm 0 0 0 2 1
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
En ocasiones, quien toma las decisiones, le interesa saber la relación entre dos
variables. En tales condiciones se hace necesario conocer los conceptos de
covarianza y correlación como medidas de relación entre las dos variables.
LA COVARIANZA.
Es una medida estadística del grado en que dos variables varían juntas. Por
ejemplo: medir el grado de relación entre los rendimientos de un título valor y los
rendimientos del mercado.
69
Covarianza de la muestra
Para una muestra de n pares de valores (x1, y1), (x2, y2),…, (xn, yn), la covarianza
de la muestra se define como:
x x y y
n
t t t t
s t 1
xy
n 1
Resolviendo la sumatoria y simplificando, se obtiene otra manera de hallar la
covarianza, dada por:
xt y n x y t
s
xy n 1
Interpretación:
CORRELACIÓN
Mide el grado de correlación lineal entre las variables. Nos muestra efectivamente
qué relación existe entre las variables.
S xy
r xy
SS
x y
Donde;
rxy : Coeficiente de correlación lineal muestral.
Sxy : covarianza de la muestra
Sx : desviación estándar muestral de X
Sy : desviación estándar muestral de Y
Interpretación:
Si rxy tiende a 1, quiere decir que existe correlación lineal alta y directa entre las
variables.
Si rxy tiende a -1, quiere decir que existe correlación lineal alta e inversa entre las
variables.
Si rxy = 0, quiere decir que no existe correlación lineal entre las variables.
Nota: Cuando las variables X e Y son independientes, Sxy =0, y por tanto rxy =0.
No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen
covarianza cero, no podemos decir que son independientes. Sabemos que
linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser
independientes.
S2X=33000/9=3666,66 S2Y=987,77
SXY =1866,66 Indica que las variables ingreso y gasto se mueven en la misma
dirección (al crecer el ingreso, crece el gasto).
r = 0,98 Indica que existe correlación lineal alta y directa entre el ingreso y el
gasto.
72
CAPITULO 7.
7.1. INTRODUCCIÓN.
En la relación entre las ventas y la publicidad con el objeto de predecir las ventas
según la inversión en publicidad.
En la relación entre los rendimientos de un título valor y los rendimientos del
mercado con el objeto de predecir los rendimientos de dicho título.
En medir la relación entre las tasas de variación en el salario nominal y la tasa de
desempleo.
En medir la relación entre la demanda de un bien con relación al precio.
En medir la relación entre la demanda monetaria con relación a las tasas de
interés.
Análisis de Regresión.
Análisis de Correlación.
yt = 1+2 xt+ut
Se acostumbra utilizar el subíndice t cuando los datos están a través del tiempo y
el subíndice i cuando los datos son de corte transversal.
ŷt = a + b xt
y n a b x
t t
x y a x b x
2
t t t
n y t
x t x y t t
b
n x t
x x
2
t t
n x y ( x ) y
b
t t
n x x
t t
2 2
t t
Y a b X , luego a Y b X
Diagrama de dispersión
ŷt = a + b xt
S xy 1866.66
b = 2 = 3666.66 =0.509
Sx
a Y b X = 111-0.509*170=24.47
ŷt = 24.47 + 0.509 xt
STC = ∑ ( yt y )2
SEC = ∑ (ŷt y )2
SRC = ∑ ( y t - ŷt)2
El coeficiente de determinación, denotado por r2, se define como:
SEC
r2 = STC
0 < r2 < 1.
78
2
El r indica: Qué proporción ó qué % de la variabilidad de la variable dependiente
(Y) es explicado por la variable independiente(X).
Otra forma:
2
2
S xy
r xy 2 2
S S x y
EJEMPLO. Utilizando los datos e información de la tabla 1 y la ecuación de
regresión estimada, determinar el coeficiente de determinación.
SEC 8549.673
r2 = STC
= = 0.96
8890
Otra forma:
Conocido el coeficiente de correlación lineal se eleva al cuadrado.
S
r xy
xy
Pearson) es definido por:
SS x y
Figura 2. La relación lineal entre las variables es muy pequeña y no parece que
exista otro tipo de relación entre ellas, la nube de puntos indica que las variables
son “casi” independientes.
Figura 5. Existe una fuerte dependencia lineal negativa entre las dos variables y
la correlación es muy alta (próxima a 1).
337.273
Se = 6.493
10 2
Se = 6.493 Indica que la dispersión media entre el consumo observado y el
consumo estimado es de 6493$
RESIDUALES VS. X
9
1
et
-3
-7
-11
80 110 140 170 200 230 260
X
30
Porcentage
20
10
0
-12 -8 -4 0 4 8 12
et
EJEMPLO.
1
et
-3
-7
-11
65 85 105 125 145 165
Yt estimado
EJEMPLO.
1
et
-3
-7
-11
0 2 4 6 8 10
Quincena
Y = A + BX + CX2
Donde:
Y = Valores de la variable dependiente
A, B, C = constantes numéricas
X = Valores de la variable independiente.
Los valores "A", "B" y "C" se encuentran resolviendo el siguiente sistema de tres
ecuaciones con tres incógnitas.
88
X Y
1 10
2 5
3 4
4 8
5 15
89
X2 X3 X4
X Y 2
X*Y X *Y
1 10 1 1 1 10 10
2 5 4 8 16 10 20
3 4 9 27 81 12 36
4 8 16 64 256 32 128
5 15 25 125 625 75 375
SUMA 15 42 55 225 979 139 569
Ŷ= 19-11.12857X+2.07142X2
REGRESIÓN EXPONENCIAL
Y = ABX
La regresión exponencial es una función no lineal pero puede ser linealizada
aplicando logaritmos a ambos miembros. Resultado de ello se tiene la relación
siguiente:
X Y
1 1
2 4
3 8
4 16
x y Log Y X*Log Y X2
1 1 0 0 1
2 4 0,602059991 1,204119983 4
3 8 0,903089987 2,709269961 9
4 16 1,204119983 4,816479931 16
SUMA 10 29 2,709269961 8,729869874 30
Solución:
Log ŷ = -0.29768 + 0.39*5
Log ŷ = 1.65232
Ŷ= antilog (1.65232)
Ŷ= 44.9
REGRESIÓN POTENCIAL
Y =AXB
Para Linealizar esta función se aplica logaritmos a ambos miembros, mediante
este procedimiento se obtiene una ecuación logarítmica lineal:
Log ŷ =4.798377
Ŷ=ANTILOG (4.798377)
Ŷ=62860 UNIDADES