Libro Estadistica
Libro Estadistica
ASIGNATURA:
ESTUDIANTE:
CURSO:
4/2
DOCENTE:
II SEMESTRE 2017
1
Contenido
UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA.......................................... 1
CAPITULO I ..................................................................................................................................... 4
INTRODUCCIÓN ............................................................................................................... 4
1.1 Elaboración de una distribución de frecuencias. .......................................................... 11
Tipos de variables: .................................................................................................................. 11
Escalas de medición: ............................................................................................................... 12
La representación de los datos ............................................................................................... 14
Variables Discretas .................................................................................................................. 15
Variables Continuas ................................................................................................................ 16
1.2 Intervalos de clases y puntos medios ........................................................................ 18
Los intervalos de clase............................................................................................................. 19
El Punto Medio ........................................................................................................................ 20
1.3 Distribución de frecuencias relativas. ........................................................................... 21
Tipos de distribuciones de frecuencias .................................................................................. 22
1.4 Representaciones Gráficas de la Distribución de Frecuencias ...................................... 23
Cuadros estadísticos:............................................................................................................... 23
Gráficos Estadísticos: .............................................................................................................. 24
1.4.1 Histograma................................................................................................................ 24
1.4.2 polígonos de frecuencia ............................................................................................. 28
EJERCICIOS .................................................................................................................................. 30
CAPITULO 2................................................................................................................................... 46
CONCEPTOS GENERALES ............................................................................................ 46
Elementos conceptuales de estadística descriptiva ............................................................. 46
MEDIDAS DE TENDENCIA CENTRAL ......................................................................... 47
MEDIDAS DE VARIABILIDAD ...................................................................................... 48
COEFICIENTE DE VARIACIÓN .................................................................................... 52
SESGO Y CURTOSIS. ...................................................................................................... 53
Para detallar un poco más revisemos los tipos de sesgos .................................................... 54
CURTOSIS (o KURTOSIS)............................................................................................... 56
EJERCICIOS .................................................................................................................................. 57
CAPITULO 3................................................................................................................................... 73
Distribuciones muéstrales, estimación y muestreo. ............................................................ 73
2
DISTRIBUCIONES MUESTRALES PARA UNA POBLACIÓN NORMAL .................... 73
DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ......................................................... 73
Distribución de la media muestral con varianza desconocida ............................................ 74
Propiedades de los estimadores puntuales. ........................................................................ 74
Estimación puntual. ........................................................................................................... 74
Estimadores puntuales insesgados. ..................................................................................... 76
Intervalos de confianza para muestras grandes.................................................................... 78
Definición de intervalo de confianza .................................................................................. 79
Métodos de construcción de intervalos de confianza. ......................................................... 81
Intervalos de confianza en poblaciones que no son normales. ............................................ 84
Estimación del tamaño muestral. ....................................................................................... 85
Precisión, error y amplitud de un intervalo de confianza. .................................................. 86
Selección del Tamaño de la Muestra.................................................................................... 86
Tipos de muestreo .............................................................................................................. 88
Intervalos de confianza para sigma. ..................................................................................... 88
EJERCICIOS .................................................................................................................................. 92
CAPITULO IV ................................................................................................................................ 96
Estimación mediante la línea de regresión. .......................................................................... 96
Diagrama de dispersión....................................................................................................... 97
Método de mínimos cuadrados. .......................................................................................... 98
Intervalo de predicción. ...................................................................................................... 99
Intervalos de predicción para la distribución binomial ........................................................100
Intervalos de predicción para la distribución de Poisson .....................................................102
Intervalos de predicción aproximados. .............................................................................104
Análisis de correlación .......................................................................................................105
Relación Entre las Variables .............................................................................................105
Coeficiente de correlación .................................................................................................106
EJERCICIO: ................................................................................................................................. 108
BIBLIOGRAFIA: ......................................................................................................................... 129
3
CAPITULO I
DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA
INTRODUCCIÓN
La estadística es tanto una disciplina teórica como una herramienta práctica y
como toda ciencia cuantitativa, la estadística emplea las matemáticas como
lenguaje.
4
Técnicas Estadísticas.
AREAS DE APLICACION
NEGOCIOS.
Se pueden predecir los volúmenes de ventas, medir las reacciones de los
consumidores ante los nuevos productos, tomar decisiones en cuanto a la forma
de invertir el presupuesto para publicidad y determinar el mejor método para
utilizar las habilidades y aptitudes de sus empleados. Con la planeación se mira
al futuro con los ojos del pasado, se hacen proyecciones de demandas con
5
información cuantitativa y cualitativa, pues con base en ella se hará la
programación de la producción. Dicha demanda puede ser estimada con
modelos estadísticos de series de tiempo. Del huésped, que conduzcan a la
explicación de la historia natural de la enfermedad.
INGENIERIA.
En este campo y en el de todas las ciencias experimentales, el empleo de valores
estadísticos se hace necesario cuando se efectúan pruebas rutinarias de
laboratorio, al igual que en los trabajos de investigación de producción y
construcción. Quizás se quiera saber si las pruebas son precisas ó si la
variabilidad de los resultados es mayor que lo esperado, o mayor que en
cualquier otra prueba. Tal vez de desee conocer si un cambio en los ingredientes
afecta el resultado, compara la eficacia de los procesos ó la eficiencia de la
máquina. El conocimiento de la variabilidad de las observaciones, causadas por
un cierto factor nos capacita para saber si en términos económicos, es
conveniente controlar más estrechamente ese facto
6
Muestreo estadístico: Es un método de investigación estadística, que consiste
en obtener resultados y conclusiones válidos para la población con base en la
observación de una muestra; Se realiza un muestreo por los costos,
imposibilidad de hacer censo debido a que la población es infinita ó cuando la
observación del elemento implica su destrucción, también por tiempo y por
mejor control y supervisión del trabajo.
Sesgo: Son errores no debido al azar, que hacen que el resultado del muestreo
difiera del verdadero, es de naturaleza sistemática ó sea en el mismo sentido,
generalmente no son cuantificables y a lo sumo se pueden prevenir con medidas
de tipo administrativo al realizar la encuesta.
7
Algunos sesgos se pueden producir por que no se da respuesta a todas las
unidades de observación, el encuestador hace mal su trabajo, no se enumeran
bien los elementos, se escoge mal el tipo de muestreo y estimación, por errores
de cálculo, omisiones, etc.
8
Variables continuas: Cuando existe un valor cualquiera en un
intervalo ó que sea divisible en la unidad, por ejemplo, El peso, la
estatura, el ingreso por familia. Parámetro de una población: Es una
constante numérica que actúa como indicador, simbolizadas con letras
griegas, que define una característica de una población, por ejemplo, Si
la característica de interés es el ingreso por familias, entonces un
parámetro ó constante de interés, que ayuda a definir es el Ingreso
Medio de la población.
10
de hijos por familia y una de las familias podría decir que tiene cero hijos
y significa que no tienen hijos en la familia
Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, serán los
siguientes:
A. Variables Cuantitativas o Cardinales: susceptibles de medición
cuantitativa; o sea son las que se describen por medio de números y las
que a su vez comprenden:
B. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores
es a lo sumo numerable. Sus valores pueden representarse siempre por
X1, X2, … , Xn.; y sólo se pueden asociar a un número entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la
unidad
Ejemplos:
Número de hijos en el hogar
.Páginas de un libro
Escalas de medición:
a. Escala Nominal:
Es una escala en que se establece un número determinado de clases o categorías
de tal modo que cada elemento de la población pertenece a una y sólo una clase.
Matemáticamente se dice que se ha establecido una relación de equivalencia
entre los elementos de la población. Si sólo existen dos clases se denomina
escala dicotómica. La única operación matemática que se puede realizar con
las clases de cualquier escala nominal es determinar las cantidades de elementos
que les corresponden determinar sus frecuencias.
12
Por ejemplo:
Sexo: las clases son masculino o femenino.
Especialidad: las diferentes especialidades (carreras) del CRUSAM.
Número de cedula de identidad personal.
Temperatura de una persona: sanguíneo, flemático, melancólico,
colérico.
Número de placa de automóviles del país.
b. Escala Ordinal:
Es una escala nominal entre cuyas clases está definido un orden, de modo que
cualesquiera que sean dos de ellas, una será mayor o superior, en algún
sentido, que la otra.
Por ejemplo:
Evaluaciones en un examen: 5, 4, 3 y 2.
Grado de satisfacción de una necesidad: alto, medio, bajo
Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es más que una escala ordinal con una distancia, una unidad de medida entre
sus clases de modo tal que, dado dos puntajes cualesquiera, se puede saber cuan
distante está uno del otro. La unidad de medida es arbitraria, pero común y el
punto de inicio (cero) es también arbitrario. Cuando se tiene una escala de
intervalo se pueden realizar las operaciones de adición y sustracción, pero no
necesariamente la multiplicación y división dentro de la escala.
Por ejemplo:
La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la ausencia
total del atributo en estudio. La proporción entre los atributos de dos individuos
cualesquiera es independiente de la escala de medida utilizada. En ella la razón
entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformación de la escala de razón, o sea ante toda transformación del tipo
y=Φ(x). De aquí que siempre el cero de la escala transformada coincide con el
cero de la escala original.
13
En las escalas de razones es posible realizar todas las operaciones aritméticas
con los puntajes.
Por ejemplo:
Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
Peso de los alumnos: (en libras o kilogramos)
El tiempo invertido en una prueba de velocidad en educación física (en
minutos o segundos).
14
frecuencia relativa, que se definirá como: el coeficiente entre la frecuencia
absoluta del dato considerado y la frecuencia total (fr=fi/ΣXi).
Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias:
frecuencias absolutas: es el número de veces que aparece en la muestra
dicho valor de la variable y se representa por fi.
frecuencias relativas: es el cociente entre la frecuencia absoluta y el
tamaño de la muestra. La denotaremos por fri
frecuencias absoluta acumulada: para poder calcular este tipo de
frecuencias hay que tener en cuenta que la variable estadística ha de ser
cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido
el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un
valor de la variable, es el número de veces que ha aparecido en la muestra
un valor menor o igual que el de la variable y lo representaremos por fa,
se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o
descendente (fa↓).
frecuencia relativa acumulada: al igual que en el caso anterior se
calcula como el cociente entre la frecuencia absoluta acumulada dividido
por el tamaño de la muestra (N) y la denotaremos por fra.
Resumiendo lo expuesto, si Xi es un valor de la variable, podemos representar
por fi a su frecuencia y por fi/ΣXi a su frecuencia relativa (siendo ΣXi=N o la
frecuencia total). Para el conjunto de los valores de la variable X i tendríamos,
así la tabla #1, compresiva de la información sobre dicha variable, a través de
las respectivas frecuencias:
Variables Discretas
Valores de la variable frecuencias absolutas frecuencias relativas
Xi fi fi/N
(datos)
X1 F1 f1/N
X2 F2 f2/N
… … …
Xn fn fn/N
Dónde:
N=Σfi y Σfi/N=1
15
Otro es el caso de las clases representadas en forma de intervalos, variables
continuas, llamados intervalos de clases que poseen extremos llamados límite
inferior y límite superior, Un intervalo se dice que es abierto o no cerrado, por
un extremo si no contiene el límite correspondiente.
En el caso de variables continuas será necesario fijar intervalos de frecuencias
para llegar a un resumen efectivo de la información original. A menudo es
necesario representar una clase, o más particularmente, un intervalo por un
único valor, este representará a todo el intervalo y se denominará marca de
clases. Matemáticamente el punto medio de cada intervalo corresponde a lo
que denominamos marca de clase, se denotará por Xi, y constituirá el valor
representativo de cada intervalo. El número de observaciones que correspondan
a cada intervalo se denominará frecuencias absolutas.
Variables Continuas
Intervalos Marcas de Clases Frecuencias
(C) Xi Absolutas
fi
X1-X2 X1 f1
X2-X3 X2 f2
… … …
… … …
Xn-1-Xn Xn fn
Donde
𝑋´−𝑋´´
𝑋𝑚 = Marca de clases
2
N = Σfi = Número de observaciones
C = X’ – X” = Amplitud del intervalo
Variable Ordinales
Variable Frecuencias
Característica A fA
16
Característica B fB
… …
… …
Característica Z fZ
Ejemplo:
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solución:
1- Efectuar el arreglo ordenado de la población o muestra:
A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 )
dónde: X1 = valor mínimo = 7.42
Xn= valor máximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: “w”
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o
sea como los datos están dados en centésimos, se calculo C hasta los
milésimos para evitar que algún dato coincida con el límite de clases
Simbología utilizada:
X mi = Punto medio o marca de clases
fi = frecuencia absoluta
fr = frecuencia relativa
fa↓ = frecuencia absoluta acumulada descendente
fa↑ = frecuencia absoluta acumulada ascendente
fra↓ = frecuencia relativa acumulada descendente
fra↑ = frecuencia relativa acumulada ascendente
18
Los intervalos de clase
Los intervalos son los límites a los extremos a los que llega una función. Son utilizados a
modo de resumen cuando la cantidad de datos es muy grande. Los límites extremos de cada
clase se les llaman Límite Inferior y Superior de clase respectivamente. Los intervalos de
clase se emplean si las variables toman un número grande de valores o la variable es continua,
es el Rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con
grandes cantidades de datos. Por ejemplo, si los valores están entre 1 y 100, se podrían definir
grupos por medio de los intervalos 1-25, 26-50, 51-75, 76-100 cuando el intervalo de la clase
es 25..
Límites de la clase: Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase.
Abiertos: se colocan entre paréntesis (por ejemplo (-3;5)). Esto quiere decir que la
función no toca los puntos -3 y 5 sino que llega a -2.99999 y a 4.9999.
Cerrados: se expresan entre corchetes (por ejemplo [-3;5]). Esto significa que la
función empieza en -3 y termina en 5).
19
El Punto Medio
Marca de Clase es la semisuma de los límites de una clase, estos límites son el
inferior y el superior. La Marca de Clase se obtiene sumando el límite inferior
(LI) y superior de una clase (LS) y dividiendo el resultado entre dos (2). La
marca de clase en este caso la representaremos como MC.
Formula:
MC = (LI + LS) / 2
Ejemplo:
MC = (LI + LS) / 2
MC = (8 + 16) / 2
MC = 24 / 2
MC = 12
Paso 1.
Los primeros que tenemos que hacer es comenzar a contar de una manera
consecutiva desde el límite inferior hasta el límite superior.
Ejemplo:
En este caso: 8 – 16
Ya que tenemos la secuencia de números: 8, 9, 10, 11, 12, 13, 14, 15, 16. Lo
que tenemos que hacer es comenzar a contar desde la MC hacia los límites
inferior y superior. Los resultados de los límites deben ser iguales:
Ejemplo:
8, 9, 10, 11,= 4
12,
13, 14, 15, 16 = 4
Nota:
MC = Marca de Clase
LI = Límite Inferior
LS = Límite Superior
22
1.4 Representaciones Gráficas de la Distribución de Frecuencias
Cuadros estadísticos:
La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las
muestras tomadas, las características de la población investigada. Los cuadros
o tablas corresponden a arreglos sistemáticos de los datos por filas y columnas
y son un buen complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a
representar la información a través de tablas que de forma general contiene las
siguientes partes fundamentales:
23
Gráficos Estadísticos:
1.4.1 Histograma
24
frecuencias, y en el eje horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del intervalo en el que están
agrupados los datos.
Tipos de histograma
25
Diagramas de barras agrupadas
Polígono de frecuencias
Ojiva porcentual
Construcción de un histograma
Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el
dato menor.
Paso 2
Obtener los números de clases, existen varios criterios para determinar el
número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo
ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince
clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio
26
usado frecuentemente es que el número de clases debe ser aproximadamente
a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30
( número de artículos) es mayor que cinco, por lo que se seleccionan seis
clases.
Paso 3
Establecer la longitud de clase: es igual al rango dividido por el número de
clases.
Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango
de los datos en relación al resultado del PASO 2 en intervalos iguales.
Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma
amplitud, se hace un gráfico de barras, las bases de las barras son los
intervalos de clases y altura son la frecuencia de las clases. Si se unen los
puntos medios de la base superior de los rectángulos se obtiene el polígono
de frecuencias.
El histograma de una imagen representa la frecuencia relativa de los niveles
de gris de la imagen. Las técnicas de modificación del histograma de una
imagen son útiles para aumentar el contraste de imágenes con histogramas
muy concentrados.
Sea u una imagen de tamaño NxN, la función de distribución del histograma
es:
Dado el valor y la utilidad que tienen los citados polígonos hay que resaltar que
estos se pueden confeccionar de una manera muy sencilla y rápida. En concreto,
se da la oportunidad de acometerlos mediante un programa informático que se
ha convertido en uno de los ejes claves del funcionamiento de cualquier
empresa. Nos estamos refiriendo al software conocido como Excel.
29
En concreto, para conseguir crear los mismos con Excel se tiene que partir de
la existencia de una serie de gráficos que se hayan confeccionado previamente
para seguidamente desarrollar un conjunto de acciones que den lugar a aquellos.
EJERCICIOS
1.- Sea una distribución estadística que viene dada por la siguiente tabla:
xi 61 64 67 70 73
fi 5 18 42 27 8
xi fi Fi xi · fi
61 5 5 305
64 18 23 1152
67 42 65 2184
71 27 92 1890
73 8 100 584
100 6745
Moda
Mo = 67
30
Mediana
102/2 = 51
Media
31
2.- Calcular la media, la mediana y la moda de la siguiente serie de números: 5, 3, 6, 5, 4,
5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.
xi fi Fi xi · fi
2 2 2 4
3 2 4 6
4 5 9 20
5 6 15 30
6 2 17 12
8 3 20 24
20 96
Moda
Mo = 5
Mediana
20/2 = 10 Me = 5
Media
32
[10, 15) [15, 20) [20, 25) [25, 30) [30, 35)
fi 3 5 7 4 2
Hallar:
xi fi Fi xi · fi
21 457.5
Moda
Mediana
Media
33
4.- Dada la distribución estadística:
[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, ∞)
fi 3 5 7 8 2 6
Calcular:
La mediana y moda.
Media.
xi fi Fi
[0, 5) 2.5 3 3
[25, ∞) 6 31
31
Moda
Mediana
34
Media
No se puede calcular la media, porque no se puede hallar la marca de clase del último
intervalo.
5.- Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:
Altura [170, 175) [175, 180) [180, 185) [185, 190) [190, 195) [195, 2.00)
Nº de jugadores 1 3 4 8 5 2
Calcular:
1. La media.
2. La mediana.
xi fi Fi xi · fi
23 42.925
35
Media
Mediana
2. Calcular la moda.
3. Hallar la mediana.
36
1
xi fi Fi
[60,63 ) 61.5 5 5
100
Moda
Mediana
37
7.- Completar los datos que faltan en la siguiente tabla estadística:
xi fi Fi ni
1 4 0.08
2 4
3 16 0.16
4 7 0.14
5 5 28
6 38
7 7 45
Tabla
Primera fila:
F1 = 4
Segunda fila:
F2 = 4 + 4 = 8
Tercera fila:
Cuarta fila:
38
N4 = 16 + 7 = 23
Quinta fila:
Sexta fila:
28 + n8 = 38 n8 = 10
Séptima fila:
Octava fila:
N8 = N = 50 n8 = 50 − 45 = 5
xi fi Fi ni xi · fi
1 4 4 0.08 4
2 4 8 0.08 8
3 8 16 0.16 24
4 7 23 0.14 28
5 5 28 0.1 25
6 10 38 0.2 60
7 7 45 0.14 49
39
8 5 50 0.1 40
50 238
Media artmética
Mediana
50/2 = 25 Me = 5
Moda
Mo = 6
7.- Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta
en el momento de andar por primera vez:
Meses Niños
9 1
10 4
11 9
12 16
13 11
14 8
15 1
40
2. Calcular la moda, la mediana, la media y la varianza.
Polígono de frecuencias
41
xi fi Ni xi · fi
9 1 1 9
10 4 5 40
11 9 14 99
12 16 30 192
13 11 41 143
14 8 49 112
15 1 50 15
50 610
Moda
Mo = 12
Mediana
50/2 = 25
Media aritmética
42
8.- Un dentista observa el número de caries en cada uno de los 100 niños de cierto colegio.
La información obtenida aparece resumida en la siguiente tabla:
Nº de caries fi ni
0 25 0.25
1 20 0.2
2 x z
3 15 0.15
4 y 0.05
1. Tabla
0.65 + z = 1 z = 0.35
La frecuencia relativa de un dato es igual su frecuencia absoluta dividida entre 100, que es
la suma de las frecuencias absolutas.
43
Nº de caries fi ni fi · ni
0 25 0.25 0
1 20 0.2 20
2 35 0.35 70
3 15 0.15 45
4 5 0.05 20
155
2. Diagrama de sectores
3. Media aritmética
9.- Se escogió un salón de clases de cuarto grado, con un total de 25 estudiantes, y se les
pidió que calificaran del 1 al 5 un programa televisivo.
44
Estos fueron los resultados:
1 3 3 4 1
2 2 2 5 1
4 5 1 5 3
5 1 4 1 2
2 1 2 3 5
Media:
1 + 3 + 3 + 4 + 1 + 2 + 2 + 2 + 5 + 1+ 4 + 5 + 1+ 5+ 3 + 5 + 1+ 4 + 1 + 2 + 2 + 1 + 2 + 3
+ 5 = 68
Mediana:
1111111222222333344455555
Moda:
El que más se repite es el 1.
45
CAPITULO 2
CONCEPTOS GENERALES
Si bien no hay una definición de estadística exacta, se puede decir que la
"estadística es el estudio de los métodos y procedimientos para recoger,
clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo
de tales datos". Esta definición cubre gran parte de la actividad del científico.
Es importante observar que el objeto del que realiza el análisis estadístico son
los datos y las observaciones científicas por sí mismos, más que el material que
interviene en el estudio.
La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la
"inferencia estadística”. La estadística descriptiva implica la abstracción de
varias propiedades de conjuntos de observaciones, mediante el empleo de
métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la
frecuencia con que se dan varios valores en la observación, la noción de un valor
típico o usual, la cantidad de variabilidad en un conjunto de datos observados y
la medida de relaciones entre 2 ó mas variables.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.
Media aritmética:
X i
x i 1
n
Es la medida de tendencia central más obvia que se puede elegir, y es el simple
promedio de las observaciones del grupo, el cual se obtiene sumando todas las
observaciones y dividiendo esta suma por el número de observaciones que hay
en el grupo.
En realidad hay muchas clases de promedios y ésta se la llama media aritmética
para denotar la suma de un grupo de observaciones dividida por su número.
Mediana me : es otra medida de tendencia central que se utiliza con mucha
frecuencia es la mediana, que es el valor situado en medio en un conjunto de
observaciones ordenadas por magnitud.
47
Moda mo :
Es otra medida de tendencia central es la moda o modo y es el valor que
ocurre con más frecuencia en un conjunto de observaciones.
i * n 1
Qi x
4 2
i * n 1
Di x
10 2
i * n 1
Pi x
100 2
MEDIDAS DE VARIABILIDAD
48
unidades son las mismas que las de la variable que se mide. La amplitud no
toma en consideración el número de observaciones de la muestra estadística,
sino solamente la observación del valor máximo y la del valor mínimo. Sería
deseable utilizar también los valores intermedios del conjunto de observaciones.
( xi x ) * f i
n
DM x i 1
n
( xi x) 2 * f i
S 2
i 1
n 1
x
Varianza muestral:
( xi x ) 2 * f i
n
2
x i 1
Varianza Poblacional: N
49
Esta fórmula tiene una desventaja, y es que sus unidades no son las mismas que
las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación anterior,
que es la desviación típica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la población (N) y para
las muestras por (n-1), que es el numero de observaciones de la muestra menos
uno. Ello, por desgracia ahora no podemos analizarlo, ni dar una respuesta
entendible, tema que se analizará en la unidad correspondiente a estimadores.
n
( xi m x ) 2 * f i
Sx S 2 i 1
n 1
x
Desvío muestral:
( xi x ) 2 * f i
n
x 2
x
i 1
Desvío poblacional: N
x mi * fi
x i 1
Media maestral: n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
50
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
x mi * fi
x i 1
Media Poblacional: n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
(x
i 1
mi x) 2 * f i
Varianza muestral: (n 1)
Donde:
k = cantidad de intervalos; n= número de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
(x
i 1
mi mx ) 2 * f i
Varianza poblacional: n
Donde:
k = cantidad de intervalos; n= número de observaciones.
xmi = valor medio del intervalo i.
mx media poblacional.
n
( f an ) * I
Li 2
Mediana: fa =
51
d1
Li ( )*I
Modo: d1 d 2 =
Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior.
d2 = diferencia entre la frecuencia de la clase modal y la posterior.
I = longitud del intervalo modal (o clase modal).
Li = límite inferior del intervalo modal.
i*n
( Fant )
Qi Linf [ 4 ]* I
fa ;
i*n
( Fant )
Di Linf [ 10 ]* I
fa ;
i*n
( Fant )
Qi Linf [ 100 ]* I
fa
Donde:
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = número de cuartil / decil /
percentil; n= total de observaciones.
Linf Límite exactamente inferior del intervalo que contiene el cuartil / decil/
percentil.
Fant Frecuencia acumulada simple del intervalo anterior al que contiene el
COEFICIENTE DE VARIACIÓN
52
variabilidad que la desviación típica o estándar. Por otro lado presenta
problemas ya que a diferencia de la desviación típica este coeficiente es variable
ante cambios de origen. Por ello es importante que todos los valores sean
positivos y su media dé, por tanto, un valor positivo. A mayor valor del
coeficiente de variación mayor heterogeneidad de los valores de la variable; y a
menor C.V., mayor homogeneidad en los valores de la variable. Suele
representarse por medio de las siglas C.V.
SESGO Y CURTOSIS.
53
Un objetivo en todo estudio epidemiológico, en el que se desea conocer la
frecuencia con la que ocurre un evento o estimar la asociación entre un factor
de riesgo y una enfermedad, debe ser el de medir y calcular con la mayor
precisión y exactitud posibles dichas determinaciones.
54
Puede observarse en diseños de investigación experimentales (ensayos clínicos
controlados), en los cuales no se respeta el principio de aleatoriedad en la
asignación a los grupos de experimentación y de estudio.
SESGO DEL PROCEDIMIENTO DE SELECCIÓN
Sesgo de procedimientos: ocasionalmente el grupo que presenta la variable
dependiente resulta ser más interesante para el investigador que el grupo que
participa como control, lo cual puede concitar mayor preocupación e interés por
conseguir la información.
SESGOS DE MEDICIÓN
Error sistemático debido a diferencias en el recuerdo de hechos o experiencias
previos. En estudios de casos y controles puede que los casos recuerden más
que los controles algunas experiencias previas, lo que en principio da lugar a
una sobreestimación de la razón de ventajas.
SESGO DE MEMORIA
Ocurre por falta de sensibilidad de un instrumento (sujetos positivos, realmente
positivos), porque si no se cuenta con adecuados métodos de recolección de la
información. Hace que las mediciones puedan detectar la presencia de la
variable en estudio.
SESGO DE DETECCIÓN
Su ocurrencia se explica por la introducción de metodologías diagnósticas
diferentes a las inicialmente utilizadas al comienzo de un estudio.
Se produce especialmente en estudios de intervención experimentales o cuasi
experimentales.
CURTOSIS (o KURTOSIS)
( )4
n
Resultados posibles:
56
K = 0 la distribución es MESOCÚTICA (posee la misma altura que una
distribución normal estándar).
K > 0 la distribución es LEPTOCÚRTICA (posee MAYOR altura que una
distribución normal estándar).
K < 0 la distribución es PLATOCÚRTICA (posee MENOR altura que una
distribución normal estándar).
As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones
negativas superan a las positivas.
EJERCICIOS
EJEMPLO 1
Las notas de inglés de una clase de 40 alumnos han sido las siguientes:
1 7 9 2 5 4 4 3 7 8
4 5 6 7 6 4 3 1 5 9
2 6 4 6 5 2 2 8 3 6
4 5 2 4 3 5 6 5 2 4
Calcula la nota media.
Solución:
4,6.
57
EJEMPLO 2
En una clase de un IES hemos medido la altura de los 25 alumnos. Sus medidas,
en cm, son:
167 159 168 165 150 170 172 158 163 156
151 173 175 164 153 158 157 164 169 163
160 159 158 174 164
Elabora una tabla que represente estos resultados con sus frecuencias absolutas,
relativas y porcentajes. Toma intervalos de amplitud 5 cm comenzando por 150.
Solución:
EJEMPLO 3
Calificaciones Nº alumnos
[0,1) 2
[1,2) 2
[2,3) 3
[3,4) 6
[4,5) 7
[5,6) 6
[6,7) 1
[7,8) 1
[8,9) 1
[9,10) 1
Solución:
58
Varianza = 4,23 Desviación típica = 2,06.
EJEMPLO 4
14, 14, 15, 13, 15, 14, 14, 14, 14, 15, 13, 14, 15, 16, 14, 15, 13, 14, 15, 13, 14,
14, 14, 15, 14
Haz una tabla donde aparezcan las frecuencias absolutas acumuladas y las
frecuencias relativas acumuladas.
Solución:
EJEMPLO 5
4, 7, 5, 3, 6.
Solución:
Varianza = 2
EJEMPLO 6
59
Calcula el percentil P65 de los siguientes datos:
xi f
i
2 12
4 10
6 8
8 7
10 5
12 8
14 10
Solución:
P65 = 10.
EJEMPLOS 7
Mes Viajeros
Enero 2.775.738
Febrero 3.205.892
Marzo 4.143.343
Abril 4.931.385
Mayo 5.724.555
Junio 5.834.331
Julio 6.415.298
Agosto 6.986.211
Septiembre 6.349.504
Octubre 5.447.890
Noviembre 3.570.715
Diciembre 3.204.082
(Fuente: INE)
Solución:
EJEMPLO 8
Sueldo en ptas.
Sector Varones Mujeres
Industria 284.363 206.204
Construcción 214.446 205.372
Servicios 263.554 195.447
Solución:
300,000
250,000
200,000
Varones
150,000
Mujeres
100,000
50,000
0
Construcción
Servicios
Industria
EJEMPLO 9
61
Procedencia
Europa 353.556
América 166.709
Asia 66.340
África 213.012
Oceanía 1.013
Desconocida 699
Solución:
Oceanía
Desconocida
África
Europa
Asia
América
EJEMPLO 10
0 2 1 2 5 2 1 1 1 4 0 0 2
0 4 4 1 1 2 2 3 1 2 3 0
3 1 3 2 2 3 3 1 5 4 3 3
1 2 2 2 3 2 2 1 0 2 2 1
1
62
Haz una tabla donde se recojan estos datos con sus frecuencias absolutas
acumuladas y relativas acumuladas.
Solución:
EJEMPLO 11
Las edades de los jugadores de un equipo de baloncesto son: 27, 18, 28, 26, 25,
19, 31, 19, 24 y 26 años. ¿Cuál es la edad media?
Solución:
EJEMPLO 12
5, 3, 2, 6, 5, 1, 2, 3, 2, 1, 5, 1, 5, 2, 4, 5, 6, 1, 2, 4, 4, 2, 2, 4, 3.
Solución:
P30 = 2.
EJEMPLO 13
63
Representa mediante un diagrama de barras las ciudades más pobladas (en
2015):
Solución:
Habitantes (en millones)
30
25
20
15
10
5
0
C. de México (México)
Bombay (India)
Shangai (China)
Pekín (China)
Sao Paulo (Brasil)
Calcuta (India)
EJEMPLO 14
64
Alturas Nº alumnos (fi)
[150,155) 3
[155,160) 7
[160,165) 6
[165,170) 4
[170,175) 5
Solución:
Varianza = 42,96
EJEMPLO 16
Solución:
65
Peso F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada
[61, 62) 1 1 0,025 0,025
[62, 63) 0 1 0 0,025
[63, 64) 7 8 0,175 0,2
[64, 65) 10 18 0,25 0,45
[65, 66) 10 28 0,25 0,7
[66, 67) 8 36 0,2 0,9
[67, 68) 2 38 0,05 0,95
[68, 69) 2 40 0,05 1
EJEMPLO 17
Solución:
66
Total electores con derecho a voto Votantes
GUAYAS 5.916.783 4.068.793
PICHINCHA 1.019.845 728.060
MANABI 981.504 657.553
EL ORO 652.009 400.559
LOS RIOS 1.393.410 845.348
STO DOMINGOI 468.607 336.508
CHIMBORAZO 2.186.659 1.586.950
TUNGURAHUA 1.420.894 1.084.236
CARCHI 5.293.465 3.388.128
CAÑAR 3.366.210 2.447.384
AZUAY 878.292 662.393
LOJA 2.547.784 1.656.662
SANTA ELENA 4.317.146 3.111.662
BOLIVAR 917.217 674.516
IMBABURA 463.892 306.494
PASTAZA 1.810.666 1.155.999
ORELLANA 230.427 170.997
ZAMORA 55.848 30.801
NAPO 48.985 26.450
ECUADOR 16.969.640 13.339.490
EJEMPLO 18
67
Solución:
Escaños
874
15 PP
8
PSOE
CIU
IU
183
125 EAJ-PNV
CC
Otros*
.
CÁLCULO DE LOS CUARTILES
.
Número impar de datos
2, 5, 3, 6, 7, 4, 9
68
En primer lugar buscamos la clase donde se encuentra , en la
tabla de las frecuencias acumuladas.
EJERCICIO DE CUARTILES
Calcular los cuartiles de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer cuartil
69
CÁLCULO DE LOS DECILES
EJERCICIO DE DECILES
70
Cálculo del cuarto decil
71
EJERCICIO DE PERCENTILES
Calcular el percentil 35 y 60 de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
72
CAPITULO 3
De todas las posibles distribuciones básicas es ,sin duda ,la distribución normal
la más importante por el gran número de poblaciones que se distribuyen así, real
o asintóticamente ,(en virtud de los Teoremas Límite).
Así pues ,en los subapartados siguientes ,consideraremos que conocemos la
distribución de la población y que ‚ ésta , es normal . Consideraremos
igualmente muestreo aleatorio simple (m.a.s.)
Estimación puntual.
74
afirmara “Nuestros datos actuales indican que en la materia de matemáticas
tendremos 350 estudiantes el siguiente semestre.
Propiedades.
Antes de utilizar un estadístico muestral como estimador puntual, se verifica si
el estimador puntual tiene ciertas propiedades que corresponden a un buen
estimador puntual.
Como hay distintos estadísticos muéstrales que se usan como estimadores
puntuales de sus correspondientes parámetros poblacionales, se usará la
notación general siguiente:
θ = Es el parámetro poblacional de interés.
= Es el estadístico muestral o estimador puntual de θ
75
Cuando se muestrean poblaciones normales, el error estándar de la media
muestral es menor que el error estándar de la mediana muestral. Por tanto, la
media muestral es más eficiente que la mediana muestral.
SESGO
76
Tirador insesgado Tirador sesgado
77
Por tanto
Introducción:
Se ha visto que un estimador es una función de las v. a. que integran una
muestra, por tanto, es una variable aleatoria con una determinada distribución.
Una estimación del parámetro es el valor que toma el estimador ante una
realización muestral concreta (recordar el ejemplo del gasto diario en transporte
de una empresa que, una vez extraída una muestra, se obtuvo como estimación
78
del gasto 279€). La estimación puntual, generalmente no coincide con el
verdadero valor del parámetro, (pero si el estimador tiene buenas propiedades,
se obtendrá un valor muy próximo a en la mayoría de las realizaciones
muestrales que se obtengan). Por tanto, sería deseable acompañar la estimación
del parámetro con una medida asociada al posible error que se pueda cometer.
Ejemplo:
Se trata de encontrar un intervalo de confianza del 95% para estimar el gasto en
transporte de una determinada empresa, gasto que sabemos se distribuye de
forma normal de media µ y desviación típica 300.
Para ello se toma una muestra aleatoria simple de tamaño 100, por ejemplo, y
utilizamos la media muestral como el mejor estimador de la media poblacional
que sabemos que se distribuye
300 X
X N ( , ) N ( ,30) o, lo que es lo mismo, Z N (0,1)
100 30
79
X
Entonces buscamos dos valores 1 y 2 tales que P(1 2 ) 0,95 y
30
observamos que, para que el intervalo sea lo más estrecho posible, es
necesario que 1 = -2 O sea, que 1 z / 2 1,96 y 2 z / 2 1,96 con lo
X
que P(1,96 1,96) 0,95 que despejando µ se obtiene
30
P(1,96.30 X 1,96.30 X ) 0,95 O sea P( X 58,8 X 58,8) 0,95 que
quiere decir que hemos encontrado dos estimadores ˆ X 58,8 y ˆ X 58,8
1 2
Se verifica que la amplitud del intervalo vendrá determinado por las anteriores
características verificándose que, manteniendo el estimador escogido.
80
Y si se mantiene constante la amplitud del intervalo, para aumentar la
confianza hay que aumentar el tamaño muestral.
Ejemplos.
Siguiendo con el ejemplo anterior, obtener un intervalo de confianza para la
media poblacional, con la misma muestra obtenida antes, pero para una
confianza del 99,7%. Determinar el intervalo de confianza que se obtendría si
aumentamos el tamaño de la muestra a 625.
1 n
1.- Se elige el mejor estimador de que es X Xi
n i 1
81
X
2.- Nos fijamos en la función h( X ) N (0,1) que no depende del
n
parámetro.
X
3.- Se construye el intervalo P( z z1 2 ) 1
2
n
4.- Se despeja el parámetro y queda:
P( X z 2 X z1 2 ) 1 con lo que el intervalo de confianza es
n n
( X z 2 , X z1 2 ) que es el que aparece en el libro de tablas.
n n
Ejemplo:
El peso de los cocos producidos por los arboles de una granja se distribuye de
forma normal, con media desconocida pero con = 13 g. Se toma una muestra
de ellos y se obtiene que los pesos son: 700, 700, 680, 680, 690, 710, 670 y 700
gramos. Hallar un intervalo de confianza para la media con un nivel del 95%.
1 n
1.- Se elige el mejor estimador de que es X Xi
n i 1
82
X
2.- Nos fijamos en la función h( X ) Tn1 que no depende del
Sc
n
parámetro .
X
3.- Se construye el intervalo P(t t1 2 ) 1
2 Sc
n
4.- Se despeja el parámetro y queda:
P( X t 2 Sc X t1 2 Sc ) 1 con lo que el intervalo de confianza
n n
es ( X t Sc
, X t1 2 Sc ) que es el que aparece en el libro de tablas.
2
n n
Ejemplo:
X X
n
2
i
1.- Se elige el mejor estimador de 2 que es ˆ 2 Sc 2 i 1
n 1
(n 1) Sc 2
2.- Nos fijamos en la función h(ˆ 2 ) 2 n1 que no depende del
2
parámetro 2.
(n 1) Sc 2
3.- Se construye el intervalo P(1 2 ) 1 y se acepta que
2
83
4.- Se despeja el parámetro 2 y queda:
(n 1) Sc 2 (n 1) Sc 2
P( 2 ) 1 con lo que el intervalo de confianza es
n21;1 / 2 n21; / 2
(n 1) Sc 2 (n 1) Sc 2
, 2 que es el que aparece en el libro de tablas.
2
n 1;1 / 2 n 1; / 2
Ejemplo:
Utilizar los datos del ejercicio anterior para obtener un intervalo de
confianza para la varianza con un nivel del 95%.
pˆ p
P z / 2 z / 2 1 de donde se obtiene el intervalo
pq
n
84
pq pq
P pˆ z / 2 p pˆ z / 2 1 pero al ser p y q desconocidos se
n n
emplea la expresión anterior pero tomando como valor de p su estimación. Es
pˆ qˆ pˆ qˆ
decir, que el intervalo quedaría: P pˆ z / 2 p pˆ z / 2 1
n n
Ejemplo:
La longitud de los tornillos fabricados por una determinada máquina se
distribuye según una distribución normal con desviación típica = 2 mm. Con
el fin de obtener un intervalo del 99% de confianza para la longitud media de
los tornillos producidos durante un día determinado se toma una muestra
aleatoria de 10 tornillos cuya longitud media resultó ser de 96 mm. Calcular el
correspondiente intervalo con estos datos y determinar el tamaño de la muestra
para construir un intervalo al 99% de confianza para la longitud de los tornillos
pero que tenga una amplitud de 2 mm.
85
Precisión, error y amplitud de un intervalo de confianza.
Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor
con una determinada probabilidad alta. Por ejemplo, un intervalo de confianza
de 95% significa que los resultados de una acción probablemente cubrirán las
expectativas el 95% de las veces.
86
La desviación estándar. Es un índice numérico de la dispersión de un conjunto
de datos (o población). Mientras mayor es la desviación estándar, mayor es la
dispersión de la población.
En donde
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)
En donde,
N = tamaño de la población
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (Error máximo admisible en términos de proporción).
87
Tipos de muestreo
Muestreo probabilístico
Se basa en el principio de equiprobabilidad, esto quiere decir que todos los
individuos de la muestra seleccionada, tendrán las mismas probabilidades de ser
elegidos. Lo anterior nos asegura que la muestra extraída contará con
representatividad.
Definición:
Una tabla de números aleatorios es una lista de los dígitos 0, 1, ..., 9, que tiene
las siguientes propiedades:
# de mujeres población
P
N
89
Resultados de la muestra aleatoria simple de tamaño n=3 ...
# de mujeres en muestra
pˆ
n
Pensemos:
Es siempre posible?
Cuando es difícil?
Como será numerar las unidades si el tamaño de la población fuera 78? 292?
4000?
Muestreo sistemático.
90
El procedimiento del muestreo aleatorio sistemático es muy fácil y se puede
hacer manualmente. Los resultados son representativos de la población a menos
que se repitan ciertas características de la población por cada enésimo individuo,
lo que es muy poco probable.
Número de inicio:
El investigador selecciona un número entero que debe ser menor al número total
de individuos en la población. Este número entero corresponderá al primer
sujeto.
Intervalo:
El investigador elige otro número entero que servirá como la diferencia
constante entre dos números consecutivos en la progresión.
El número entero se selecciona típicamente de modo que el investigador
obtenga el tamaño de la muestra correcto.
91
Otra ventaja del muestreo aleatorio sistemático sobre el muestreo aleatorio
simple es la garantía de que el muestreo se hará equitativamente sobre la
población. Existe una posibilidad de un muestreo aleatorio simple que permite
una selección por conglomerados de sujetos. Esto es eliminado
sistemáticamente en el muestreo sistemático.
EJERCICIOS
92
:
Para ello se toma una muestra aleatoria simple de tamaño 100, por ejemplo,
y utilizamos la media muestral como el mejor estimador de la media
poblacional que sabemos que se distribuye
300 X
X N ( , ) N ( ,30) o, lo que es lo mismo, Z N (0,1)
100 30
93
X
Entonces buscamos dos valores 1 y 2 tales que P(1 2 ) 0,95 y
30
observamos que, para que el intervalo sea lo más estrecho posible, es necesario
que 1 = -2 O sea, que
X
1 z / 2 1,96 y 2 z / 2 1,96 con lo que P(1,96 1,96) 0,95 que
30
despejando µ se obtiene P(1,96.30 X 1,96.30 X ) 0,95 O sea
P( X 58,8 X 58,8) 0,95 que quiere decir que hemos encontrado dos
estimadores ˆ X 58,8 y ˆ X 58,8 tales que P(ˆ ˆ ) 1 =0,95
1 2 1 2
94
C. I. Multiplicador Z/2
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282
El ancho del intervalo de confianza decrece con la raiz cuadrada del tamaño de
la muestra.
4.- Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi
Estimar la media puntual
X media = 28.08 con S = 1.02
95
CAPITULO IV
ANÁLISIS DE REGRESIÓN SIMPLE.
Estimación mediante la línea de regresión.
Diagrama de dispersión.
Se emplea cuando una variable está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente
y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas).
La variable medida o dependiente usualmente se representa a lo largo del eje
vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier
variable se puede representar en cada eje y el diagrama de dispersión mostrará
el grado de correlación (no causalidad) entre las dos variables.
97
estas relaciones son visualmente evidentes como patrones superpuestos.
98
esperado, con el mínimo de operaciones (por iteración), pero requiere un gran
número de iteraciones para converger.
Intervalo de predicción.
Para los datos de tipo atributo, la distribución binomial es una de las más
importantes y más ampliamente aplicadas en toda la práctica estadística. Se usa
cuando hay una probabilidad de "evento" fija p, un tamaño de muestra n una
variable aleatoria r igual a la cantidad de ítems en la muestra que tienen la
característica definida para el "evento". La probabilidad p se llama probabilidad
de "éxito" pero no es necesario que sea un tipo de evento deseable. En el
contexto de intervalo de predicción, el valor de p es desconocido. Para n objetos
en una muestra, uno puede observar como mínimo 0 y como
máximo n "éxitos". A menudo, un evento de "éxito" está relacionado con un
atributo de calidad como por ejemplo no cumplir con un requisito. Los
profesionales también llaman a esto tipo de muestreo pasa/no pasa.
100
El problema puede plantearse de la siguiente manera. Tenemos una muestra
inicial de tamaño n y se han observado r "eventos" entre n inspecciones. En
una futura muestra de tamaño m, observaremos cierta cantidad de eventos y. Es
recomendable construir un intervalo que contenga y con alguna confianza
indicada, por ejemplo C. El intervalo se llama intervalo de predicción para la
observación futura y. Supongamos que = r/n es la estimación del promedio de
proceso desconocido p, basada en el tamaño inicial de la muestra n. Y m es el
tamaño futuro de la muestra, y el coeficiente de confianza es C = 1 - α. La
siguiente fórmula se utiliza para construir el intervalo de predicción de dos lados
para la cantidad de eventos futuros.
(1)
Ejemplo 1
101
inspecciones del mes próximo con un 90% de confianza? En este caso, n =
107, m = 84, = 7/107 = 0.0654, α = 0.1 y Z0.05 = 1.645. Usando la Ecuación 1,
el intervalo de predicción resultante para y es:
En este método, suponemos que r es como mínimo 10-15 o más. Esto garantiza
que la estadística se distribuirá aproximadamente de manera normal. Seguimos
utilizando un coeficiente de confianza de C = 1 - α. El intervalo de predicción
para y, la cantidad de eventos futuros en la región de tamaño t, se construye
según la Ecuación 2 a continuación.
102
𝜆𝑡(𝑠 + 𝑡)
𝜆𝑡 ± 𝑍𝛼⁄2 √
𝑆
Ejemplo 2
Redondeamos este resultado a números enteros como 10≤ y ≤ 19. De este modo,
podemos esperar aproximadamente entre 10 y 19 reemplazos en los próximos
12 meses en la medida que el proceso siga bajo control estadístico y no cambie
el promedio (índice) del proceso. Es importante destacar que al trabajar con
índices, s, t y la estimación del índice deben estar expresados en la misma
unidad para poder usar la Ecuación 2. En este ejemplo, las unidades eran meses.
103
Intervalos de predicción aproximados.
^
Y 3Se = Límite superior del intervalo de predicción
Y 3Se = Límite inferior del intervalo de predicción
104
Análisis de correlación
En probabilidad y estadística, la correlación indica la fuerza y la dirección de
una relación lineal y proporcionalidad entre dos variables estadísticas. Se
considera que dos variables cuantitativas están correlacionadas cuando los
valores de una de ellas varían sistemáticamente con respecto a los valores
homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre
ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La
correlación entre dos variables no implica, por sí misma, ninguna relación de
causalidad (Véase cum hoc ergo propter hoc).
Por ejemplo, considera que las variables son el ingreso familiar y el gasto
familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos. Por
lo tanto, están relacionados en el sentido de que el cambio en cualquier variable
estará acompañado por un cambio en la otra variable.
De la misma manera, los precios y la demanda de un producto son variables
relacionadas; cuando los precios aumentan la demanda tenderá a disminuir y
viceversa.
105
utiliza para entender:
1. Si la relación es positiva o negativa
2. La fuerza de la relación.
La correlación es una herramienta poderosa que brinda piezas vitales de
información.
En el caso del ingreso familiar y el gasto familiar, es fácil ver que ambos suben
o bajan juntos en la misma dirección. Esto se denomina correlación positiva.
Coeficiente de correlación
Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de
la relación entre las variables.
Como norma general, las siguientes directrices sobre la fuerza de la relación son
útiles (aunque muchos expertos podrían disentir con la elección de los límites).
Desventajas
Si bien 'r' (coeficiente de correlación) es una herramienta poderosa, debe ser
utilizada con cuidado.
1. Los coeficientes de correlación más utilizados sólo miden una relación lineal.
Por lo tanto, es perfectamente posible que, si bien existe una fuerte relación
no lineal entre las variables, r está cerca de 0 o igual a 0. En tal caso, un
diagrama de dispersión puede indicar aproximadamente la existencia o no de
una relación no lineal.
2. Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podría
calcular 'r' entre el número de calzado y la inteligencia de las personas, la
altura y los ingresos. Cualquiera sea el valor de 'r', no tiene sentido y por lo
tanto es llamado correlación de oportunidad o sin sentido.
107
3. 'R' no debe ser utilizado para decir algo sobre la relación entre causa y efecto.
Dicho de otra manera, al examinar el valor de 'r' podríamos concluir que las
variables X e Y están relacionadas. Sin embargo, el mismo valor de 'r no nos
dice si X ínfluencia a Y o al revés. La correlación estadística no debe ser la
herramienta principal para estudiar la causalidad, por el problema con
las terceras variables.
EJERCICIO:
108
20 69.00 470.014272 138.2976 1,597.3771 63.1686 34.0052
1 10.30 135.625472 52.4176 350.9178 8.0172 5.2111
10 34.93 10.379072 3.0976 34.7770 34.1416 0.6216
15 46.59 118.686672 45.6976 308.2553 48.6551 4.2646
15 44.88 107.127072 45.6976 251.1337 48.6551 14.2512
16 54.12 194.676672 60.2176 629.3676 51.5578 6.5649
17 56.63 241.751472 76.7376 761.6054 54.4605 4.7068
6 22.13 15.462272 5.0176 47.6486 22.5307 0.1606
5 21.15 25.540272 10.4976 62.1385 19.6280 2.3164
206 725.82 2,027.7132 698.5600 6,105.9447 220.0926
SX SY Sxy Sxx Syy = SST SSE
X promedio Y Promedio SXi-X)*(Yi-Y) S(Xi-X)^2 S(Yi-Y)^2
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
b1 ̂1
( Xi X )(Yi Y ) S XY
= 2.902704421
( Xi X ) 2
S XX
109
b0 ˆ0
Y
i ˆ1 X i
Y ˆX = 5.114515575
n
r r 2 = 0.9816
110
El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia
estadística para afirmar que el tiempo de atención esta relacionado con el
número de servicios atendidos.
EJERCICIO 2
Suponga que el gerente de una cadena de servicios de entrega de
paquetería desea desarrollar un modelo para predecir las ventas semanales (en
miles de dólares) para las tiendas individuales basadas en el número de clientes
que realizan las compras. Se seleccionó una muestra aleatoria entre todas las
tiendas de la cadena con los siguientes resultados
Pronostique las ventas semanales (en miles de dólares) para las tiendas que
tienen 600 clientes. Las ventas serian de algunos 7,500 dólares por como se ve
en la tabla la posición de las ventas y de los clientes.
Xi= ∑ X/ n
14623/20= 731.15
111
Yi=∑ Y/ n
176.02/20= 8.801
√ ² Σ(x-xi)2 /n-1
√ ² =11298592.6 /19 = 594662.7684
S= √ 7.8283
Covarianza
Sxy = Σ (xi - x)(yi - y) / n -1
Coeficiente de correlación
r = Sxy / SxSy
270.1254/ (771.1438)(7.8283) = 0.0447468
Ejercicio 3
Representa los datos mediante una nube de puntos e indica cuál de estos
números te parece más apropiado para el coeficiente de correlación: 0,87;
0,2; 0,87; 0,2.
Solución:
112
Vemos que la relación entre las variables es ligeramente positiva, pero muy
baja. Por tanto,
r 0,2.
Ejercicio 4
Solución:
113
Medias:
3800
x 633,33
6
370
y 61,67
6
Desviaciones típicas:
2408.050
x 633,33 2 234,78 15,32
6
26000
y 61,67 2 530,14 23,02
6
Covarianza:
234650
xy 633,33 61,67 50,87 xy 50,87
6
Coeficiente de correlación:
50,87
r 0,14 r 0,14
15,32 23,02
La relación entre las variables es muy débil. Podemos decir que no están
relacionadas.
Ejercicio 5
Solución:
a)
Medias:
81
x 13,5
6
394
y 65,67
6
Varianza de X:
1211
x2 13,5 2 19,58
6
Covarianza:
5986
xy 13,5 65,67 111,12
6
Coeficiente de regresión:
xy 111,12
myx 5,68
x2 19,58
Ejercicio 6
Solución:
a)
116
Medias:
27
x 4,5
6
37
y 6,17
6
Desviaciones típicas:
151
x 4,5 2 4,92 2,22
6
247
y 6,17 2 3,1 1,76
6
Covarianza:
184
xy 4,5 6,17 2,9
6
Coeficientes de regresión:
2,9
y sobre x m yx 0,59
4,92
2,9
x sobre y m xy 0,94
3,1
Rectas de regresión:
Representación:
117
APROBADO xy sobre
10
yx sobre
8
2 4 6 8 10 ASISTENCIAS
b) La correlación entre las variables no es demasiado fuerte, pues las dos rectas
no están muy próximas. Con los datos obtenidos comprobamos que el
coeficiente de correlación es: r 0,74
Ejercicio 7
Representa los datos mediante una nube de puntos e indica cuál de estos
valores te parece más apropiado para el coeficiente de correlación: 0,92;
0,44; 0,92; 0,44.
Solución:
118
Ejercicio 8
Solución:
Medias:
23
x 3,83
6
20
y 3,33
6
Desviaciones típicas:
95
x 3,83 2 1,16 1,08
6
70
y 3,33 2 0,58 0,76
6
Covarianza:
119
77
xy 3,83 3,33 0,079 σ xy 0,079
6
Coeficiente de correlación:
0,079
r 0,096 r 0,096
1,08 0,76
Ejercicio 9
Solución:
a)
Medias:
120
590
x 98,33
6
40
y 6,67
6
Varianza de X:
58166
x2 98,33 2 25,54
6
Covarianza:
3946 ,5
xy 98,33 6,67 1,89
6
Coeficiente de regresión:
xy 1,89
myx 0,07
x2 25,54
Ejercicio 10
121
Solución:
a)
Medias:
15
x 2,5
6
18
y 3
6
Desviaciones típicas:
43
x 2,5 2 0,92 0,96
6
62
y 3 2 1,33 1,15
6
Covarianza:
44
xy 2,5 3 0,17
6
Coeficientes de regresión:
0,17
y sobre x m yx 0,18
0,92
0,17
x sobre y m xy 0,13
1,33
Rectas de regresión:
122
y sobre x y 3 0,18 x 2,5 y 0,18 x 3,45
Representación:
Ejercicio 11
Representa los datos mediante una nube de puntos y di cuál de estos valores
te parece más apropiado para el coeficiente de correlación: 0,99; 0,4;
0,83; 0,4.
Solución:
123
Vemos que hay una relación positiva entre las variables, pero es baja. Por tanto,
r 0,4.
Ejercicio 12
Solución:
Medias:
124
27
x 4,5
6
19
y 3,17
6
Desviaciones típicas:
127
x 4,5 2 0,92 0,96
6
63
y 3,17 2 0,45 0,67
6
Covarianza:
88
xy 4,5 3,17 0,40 xy 0,40
6
Coeficiente de correlación:
0,40
r 0,62 r 0,62
0,96 0,67
Hay una relación positiva, aunque no demasiado fuerte, entre las variables.
Ejercicio 13
Solución:
a)
125
Medias:
37,2
x 6,2
6
35,5
y 5,92
6
Varianza de X:
232,54
x2 6,22 0,32
6
Covarianza:
223
xy 6,2 5,92 0,46
6
Coeficiente de regresión:
xy 0,46
myx 1,44
x2 0,32
Solución:
a)
Medias:
25
x 4,17
6
23
y 3,83
6
Desviaciones típicas:
107
x 4,17 2 0,44 0,67
6
91
y 3,83 2 0,498 0,71
6
127
Covarianza:
98
xy 4,17 3,83 0,36
6
Coeficientes de regresión:
0,36
y sobre x m yx 0,82
0,44
0,36
x sobre y m xy 0,72
0,498
Rectas de regresión:
x 1,41
y y 1,39 x 1,96
0,72
Representación:
b) La correlación entre las dos variables no es demasiado fuerte, pues las dos
rectas no están muy
0,36
próximas. Comprobamo s que el coeficient e de correlació n es: r 0,76
0,67 0,71
128
BIBLIOGRAFIA:
129