0% encontró este documento útil (0 votos)
1K vistas129 páginas

Libro Estadistica

Este documento presenta un resumen de tres capítulos sobre estadística para ingenieros. El Capítulo 1 introduce conceptos como distribuciones de frecuencias, escalas de medición, variables discretas y continuas, intervalos de clases y puntos medios. El Capítulo 2 cubre medidas de tendencia central, variabilidad, sesgo y curtosis. El Capítulo 3 trata sobre distribuciones muestrales, estimación, intervalos de confianza y tipos de muestreo. El documento proporciona una introducción general a estos temas estadísticos

Cargado por

Markos F. Sls
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
1K vistas129 páginas

Libro Estadistica

Este documento presenta un resumen de tres capítulos sobre estadística para ingenieros. El Capítulo 1 introduce conceptos como distribuciones de frecuencias, escalas de medición, variables discretas y continuas, intervalos de clases y puntos medios. El Capítulo 2 cubre medidas de tendencia central, variabilidad, sesgo y curtosis. El Capítulo 3 trata sobre distribuciones muestrales, estimación, intervalos de confianza y tipos de muestreo. El documento proporciona una introducción general a estos temas estadísticos

Cargado por

Markos F. Sls
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA

FACULTAD DE CIENCIAS DE LA INGENIERÍA


CARRERA DE INGENIERÍA EN PETRÓLEO

ASIGNATURA:

ESTADISTICA PARA INGENEROS

ESTUDIANTE:

SALAS CUADRADO MARCOS FABRIZIO

CURSO:

4/2

DOCENTE:

ING. GERARDO HERRERA

II SEMESTRE 2017

SANTA ELENA – LA LIBERTAD- ECUADOR

1
Contenido
UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA.......................................... 1
CAPITULO I ..................................................................................................................................... 4
INTRODUCCIÓN ............................................................................................................... 4
1.1 Elaboración de una distribución de frecuencias. .......................................................... 11
Tipos de variables: .................................................................................................................. 11
Escalas de medición: ............................................................................................................... 12
La representación de los datos ............................................................................................... 14
Variables Discretas .................................................................................................................. 15
Variables Continuas ................................................................................................................ 16
1.2 Intervalos de clases y puntos medios ........................................................................ 18
Los intervalos de clase............................................................................................................. 19
El Punto Medio ........................................................................................................................ 20
1.3 Distribución de frecuencias relativas. ........................................................................... 21
Tipos de distribuciones de frecuencias .................................................................................. 22
1.4 Representaciones Gráficas de la Distribución de Frecuencias ...................................... 23
Cuadros estadísticos:............................................................................................................... 23
Gráficos Estadísticos: .............................................................................................................. 24
1.4.1 Histograma................................................................................................................ 24
1.4.2 polígonos de frecuencia ............................................................................................. 28
EJERCICIOS .................................................................................................................................. 30
CAPITULO 2................................................................................................................................... 46
CONCEPTOS GENERALES ............................................................................................ 46
Elementos conceptuales de estadística descriptiva ............................................................. 46
MEDIDAS DE TENDENCIA CENTRAL ......................................................................... 47
MEDIDAS DE VARIABILIDAD ...................................................................................... 48
COEFICIENTE DE VARIACIÓN .................................................................................... 52
SESGO Y CURTOSIS. ...................................................................................................... 53
Para detallar un poco más revisemos los tipos de sesgos .................................................... 54
CURTOSIS (o KURTOSIS)............................................................................................... 56
EJERCICIOS .................................................................................................................................. 57
CAPITULO 3................................................................................................................................... 73
Distribuciones muéstrales, estimación y muestreo. ............................................................ 73

2
DISTRIBUCIONES MUESTRALES PARA UNA POBLACIÓN NORMAL .................... 73
DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ......................................................... 73
Distribución de la media muestral con varianza desconocida ............................................ 74
Propiedades de los estimadores puntuales. ........................................................................ 74
Estimación puntual. ........................................................................................................... 74
Estimadores puntuales insesgados. ..................................................................................... 76
Intervalos de confianza para muestras grandes.................................................................... 78
Definición de intervalo de confianza .................................................................................. 79
Métodos de construcción de intervalos de confianza. ......................................................... 81
Intervalos de confianza en poblaciones que no son normales. ............................................ 84
Estimación del tamaño muestral. ....................................................................................... 85
Precisión, error y amplitud de un intervalo de confianza. .................................................. 86
Selección del Tamaño de la Muestra.................................................................................... 86
Tipos de muestreo .............................................................................................................. 88
Intervalos de confianza para sigma. ..................................................................................... 88
EJERCICIOS .................................................................................................................................. 92
CAPITULO IV ................................................................................................................................ 96
Estimación mediante la línea de regresión. .......................................................................... 96
Diagrama de dispersión....................................................................................................... 97
Método de mínimos cuadrados. .......................................................................................... 98
Intervalo de predicción. ...................................................................................................... 99
Intervalos de predicción para la distribución binomial ........................................................100
Intervalos de predicción para la distribución de Poisson .....................................................102
Intervalos de predicción aproximados. .............................................................................104
Análisis de correlación .......................................................................................................105
Relación Entre las Variables .............................................................................................105
Coeficiente de correlación .................................................................................................106
EJERCICIO: ................................................................................................................................. 108
BIBLIOGRAFIA: ......................................................................................................................... 129

3
CAPITULO I
DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA

INTRODUCCIÓN
La estadística es tanto una disciplina teórica como una herramienta práctica y
como toda ciencia cuantitativa, la estadística emplea las matemáticas como
lenguaje.

La teoría de la estadística está fuertemente ligada a la teoría de la probabilidad,


tanto que se puede decir que esta unión es indisoluble.

Vistas en detalle, las técnicas estadísticas son numerosas y variadas, pero en


suma constituyen un enfoque unificado, sistemático y lógico para el estudio de
las cuestiones humanas y del orden de la naturaleza.

En sus aplicaciones cotidianas, tales técnicas proporcionan a investigadores,


administradores y científicos, recopilaciones descriptivas resumidas de masas
de observaciones. Es decir, en la investigación una persona se encontrará a
menudo en la situación de disponer de tantos datos, que le resulte difícil
absorber la información entera. Puede haber reunido por ejemplo 5.000 datos u
observaciones y preguntarse ¿Qué hago con todo esto?. Con tamaña
información habría de resultar excesivamente difícil, captar intuitivamente lo
que los datos contienen.

En una forma u otra, la información ha de reducirse hasta que pueda verse y


analizar lo que ella contiene, resumiéndose con el empleo de medidas de
cálculo, tales como porcentajes, promedios, desviaciones estándar, coeficientes
de variación y correlación, etc.

Todos estos aspectos concernientes a la toma, organización, recopilación,


presentación y análisis de datos, se refieren a la Estadística Descriptiva, la otra
parte de la estadística, se interesa en dos tipos de problemas: La estimación de
los parámetros de la población y las pruebas de hipótesis, Estadística Inferencial

4
Técnicas Estadísticas.

 Describen y Resumen una colección de datos con propósitos de


análisis, como es el caso de la Estadística Descriptiva.

 Las técnicas que nos permiten tomar decisiones, en condiciones de


incertidumbre con base a unos cuantos datos representativos es la
Estadística analítica.

Los conceptos y las técnicas de la estadística se utilizan actualmente en muchos


campos, donde juegan un papel muy importante, constituyendo una parte
integral tanto de las actividades investigativas, de la recopilación de datos, como
de sus análisis, originados por actividades desarrolladas por instituciones y
organizaciones.

Es posible que un trabajador no necesite conocer de la estadística sino, aquello


que lo faculte para saber cuando se requieren los servicios de un experto y para
poderse comunicar eficazmente con él, cuando trabajen juntos en la planeación,
dirección e interpretación de los resultados de una actividad que requiera la
metodología de esta ciencia.

El profesional que comprenda los conceptos estadísticos y su metodología


sacará mejor provecho de ellos. Este profesional estará preparado para evaluar
los resultados de una investigación y demás informaciones que se obtengan

AREAS DE APLICACION

NEGOCIOS.
Se pueden predecir los volúmenes de ventas, medir las reacciones de los
consumidores ante los nuevos productos, tomar decisiones en cuanto a la forma
de invertir el presupuesto para publicidad y determinar el mejor método para
utilizar las habilidades y aptitudes de sus empleados. Con la planeación se mira
al futuro con los ojos del pasado, se hacen proyecciones de demandas con
5
información cuantitativa y cualitativa, pues con base en ella se hará la
programación de la producción. Dicha demanda puede ser estimada con
modelos estadísticos de series de tiempo. Del huésped, que conduzcan a la
explicación de la historia natural de la enfermedad.

INGENIERIA.
En este campo y en el de todas las ciencias experimentales, el empleo de valores
estadísticos se hace necesario cuando se efectúan pruebas rutinarias de
laboratorio, al igual que en los trabajos de investigación de producción y
construcción. Quizás se quiera saber si las pruebas son precisas ó si la
variabilidad de los resultados es mayor que lo esperado, o mayor que en
cualquier otra prueba. Tal vez de desee conocer si un cambio en los ingredientes
afecta el resultado, compara la eficacia de los procesos ó la eficiencia de la
máquina. El conocimiento de la variabilidad de las observaciones, causadas por
un cierto factor nos capacita para saber si en términos económicos, es
conveniente controlar más estrechamente ese facto

TERMINOLOGÍA BASICA EN ESTADÍSTICA

Unidad Estadística: Es el elemento objeto de estudio en una investigación


estadística, por ejemplo, una persona, una familia, una vivienda, un producto
industrial, una fábrica, un árbol, etc.
Observación: Es el valor numérico ó el código asignado a cada característica,
por ejemplo, en la variable número de hijos una observación será 4 hijos, en la
variable ingreso una observación será $1´500.000.

Población: Es el conjunto de todos los posibles elementos que tienen una


propiedad común ó característica.

Muestra: Es cuando se toma solamente una parte bien seleccionada de la


población, la cual debe ser aleatoria y lo más representativa posible.

6
Muestreo estadístico: Es un método de investigación estadística, que consiste
en obtener resultados y conclusiones válidos para la población con base en la
observación de una muestra; Se realiza un muestreo por los costos,
imposibilidad de hacer censo debido a que la población es infinita ó cuando la
observación del elemento implica su destrucción, también por tiempo y por
mejor control y supervisión del trabajo.

Tipos de muestreos: existen dos tipos de muestreos, el aleatorio y el no


aleatorio, entre los no aleatorios están el por conveniencia, el cual es muy
sesgado, el de selección intencional o de juicio, el cual lo hace un investigador
de mucha experiencia y conocimiento de la población en estudio, en algunos
casos se logran muestras muy representativas, el de bola de nieve, el de por
cuota, etc.

Los muestreos aleatorios logran controlar el sesgo y el error de muestreo, la


selección de la muestra es al azar, brindando así la misma probabilidad a cada
elemento objeto de estudio de la población, de salir escogido en la muestra.

Por su procedimiento se difieren los muestreos aleatorios, como son: Muestreo


simple aleatorio y sistemático, si los elementos son homogéneos, pero si existe
alguna característica que los diferencie se recurrirá al muestreo estratificado ó
por conglomerados. Se pueden combinar algunos muestreos en un mismo
estudio (procesos multietápicos).
Error de muestreo: Se produce solo en el muestreo, por la naturaleza aleatoria
de la muestra, lo cual hace que ésta no sea representativa de la población. Está
dada por la diferencia producida por el azar, entre la estimación hecha con base
en la muestra y el valor tomado de la población. Estos errores pueden
cuantificarse y pueden ser limitados en magnitud con muestras más grandes.

Sesgo: Son errores no debido al azar, que hacen que el resultado del muestreo
difiera del verdadero, es de naturaleza sistemática ó sea en el mismo sentido,
generalmente no son cuantificables y a lo sumo se pueden prevenir con medidas
de tipo administrativo al realizar la encuesta.

7
Algunos sesgos se pueden producir por que no se da respuesta a todas las
unidades de observación, el encuestador hace mal su trabajo, no se enumeran
bien los elementos, se escoge mal el tipo de muestreo y estimación, por errores
de cálculo, omisiones, etc.

Tipos de características a estudiar:

 Cualitativas: Si sus observaciones corresponden a atributos o


cualidades de los objetos en consideración, por ejemplo, el estado civil,
la preferencia por un determinado partido político, el género, variedad
de un árbol, sondeos de opinión en general, las distintas alternativas de
una variable cualitativa se llaman Atributos.

 Cuantitativas: Son aquellas que vienen dadas por mediciones y


observaciones numéricas en los objetos de interés, por ejemplo, El peso,
la edad, el ingreso, costo de construcción, cantidad de madera
aprovechable, etc.

Atributo: Son todos aquellos fenómenos que pueden ser descritos


cualitativamente, es decir, mediante palabras, por ejemplo, la clasificación de
alumnos del tecnológico por ciudad de origen, la clasificación de un grupo
árboles por su variedad, etc.

Variable: Son todas aquellas características ó fenómeno susceptibles de ser


expresados cuantitativamente, es decir mediante números, por ejemplo, el
diámetro de un árbol, el peso de una persona, el ingreso familiar, etc.

Dentro de las variables cuantitativas, se definen dos grupos.

 Variables Discretas: tienen su recorrido numerable con valores


enteros, que no son divisibles en la unidad, por ejemplo: El Número de
hijos por familia, Número de personas que llegan a un banco en una
hora pico, la producción anual de camisas en una fábrica.

8
 Variables continuas: Cuando existe un valor cualquiera en un
intervalo ó que sea divisible en la unidad, por ejemplo, El peso, la
estatura, el ingreso por familia. Parámetro de una población: Es una
constante numérica que actúa como indicador, simbolizadas con letras
griegas, que define una característica de una población, por ejemplo, Si
la característica de interés es el ingreso por familias, entonces un
parámetro ó constante de interés, que ayuda a definir es el Ingreso
Medio de la población.

 Estadígrafo: Es una función numérica dada, evaluada por los datos de


una muestra, actúa como estimador y es simbolizada por letras latinas.

 Fuente de información primaria: Es cuando se proporcionan datos


originales de información, producidos por ella misma, por ejemplo, El
DANE.

 Fuente de información secundaria: Es cuando se trabaja o resume


información publicada por otros, por ejemplo, Boletines informativos
sobre Colombia de la ONU, basados en datos del DANE.

 Recolección de información: Es cuando se recopila o produce


información no existente, puede ser por Observación, por entrevista a
informantes sobre los datos de las unidades de observación, por correo
y la de registro, como por ejemplo los nacimientos, defunciones,
matrimonios, comercio exterior, etc.

La información de los datos resultantes de las observaciones, se presenta en


diferentes tipos de escalas.

 Escala nominal: Cuando se utilizan cualidades para generar categorías


y estas no generan un orden explícito, sólo se usan como una etiqueta,
además, cuando se trabaja en una base de datos se utilizan números para
dar nombre o caracterizar una opción o cualidad y estos números no
generan un orden. Ejemplo, Definir cuál es el color que más le gusta, 1
azul, 2 verde, 3 rojo, 4 amarillo.
9
Se debe tener presente que las operaciones elementales aritméticas no
tiene resultado lógico, por ejemplo si sumamos 1 + 2 (azul más verde)
nos daría 3 que no equivale a que sea rojo, por lo tanto como la operación
aritmética de la suma no tiene un resultado lógico para este caso, la
variable es cualitativa y no cuantitativa (aunque tenga números)

 Escala ordinal: En este caso las categorías generan un orden explícito


sirven para comparar, si se usa una base de datos los números (o códigos)
sirven para nombrar como etiquetas las categorías y comparar.

Ejemplo, Cómo considera el triunfo de la selección Colombia, 1 muy


pequeño, 2 pequeño, 3 medio, 4 grande, 5 muy grande, en este caso las
operaciones elementales aritméticas no tienen sentido lógico (por lo cual
se define como cualitativa aunque tenga números), pero las respuestas
expresan un orden de importancia.

 Escala de intervalo: Las opciones son valores numéricos y estos


números se pueden utilizar para hacer comparaciones de valores, el cero
es un valor arbitrario en una escala y no absoluto

Ejemplo, la temperatura en grados centígrados, si se tiene 0 grados de


temperatura no significa que hay ausencia de temperatura, sino que es un
valor arbitrario en la escala de la temperatura.
También se define que una variable que depende en su resultado de otras
estaría medida en escala de intervalo (adición o resta)

 Escala de razón: igual que la escala de intervalos, pero el cero es un


punto natural, absoluto, además se puede expresar con sentido lógico la
razón entre dos valores, por ejemplo, la variable peso corporal, si una
persona pesa 100 kilos y otra persona pesa 50 kilos, tiene sentido decir
que una persona es el doble de pesada que la otra persona. El cero actúa
como ausencia de la variable que se mide, Ejemplo, se consulta el número

10
de hijos por familia y una de las familias podría decir que tiene cero hijos
y significa que no tienen hijos en la familia

1.1 Elaboración de una distribución de frecuencias.

La población puede ser según su tamaño de dos tipos


:
 Población finita: cuando el número de elementos es finito, por ejemplo
el número de estudiantes de la Universidad de Panamá, o de una facultad
o especialidad.
 Población infinita: cuando el número de elementos es infinito, o tan
grande que pudiese considerarse infinitos. Como por ejemplo si se
realizase un estudio sobre los productos disponibles en el mercado, hay
tantos y de tantas cualidades y precios que esta población podría
considerarse infinita.

Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, serán los
siguientes:
A. Variables Cuantitativas o Cardinales: susceptibles de medición
cuantitativa; o sea son las que se describen por medio de números y las
que a su vez comprenden:
B. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores
es a lo sumo numerable. Sus valores pueden representarse siempre por
X1, X2, … , Xn.; y sólo se pueden asociar a un número entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la
unidad
Ejemplos:
Número de hijos en el hogar
.Páginas de un libro

C. Variable Cuantitativa Continua: son aquellas que pueden tomar todos


los valores de un intervalo de números reales, o sea que no se pueden
expresar mediante un número entero, es decir, aquellas que por su
11
naturaleza admiten que entre dos valores cualesquiera la variable puede
tomar cualquier valor intermedio.
Ejemplos:
variable temperatura en grados Celsius (escala de intervalos).
variable longitud en cm. (escala de razón).
variable peso.
variable tiempo

D. Variables Cualitativas (Atributos) o Ordinales: susceptibles de


ordenación, pero no de medición cuantitativa, reflejan generalmente los
atributos del fenómeno. Los atributos son aquellos caracteres que para
su definición precisan de palabras, es decir, no le podemos asignar un
número, y a su vez las podemos clasificar en:
a) Ordenables: aquellas que sugieren una ordenación, por ejemplo
la graduación militar, el nivel de estudios, etc.
b) No Ordenables: aquellas que sólo admiten un ordenamiento
alfabético, pero no establece orden por su naturaleza,, por ejemplo
el color del cabello, sexo, estado civil, etc.
Nota: en muchos casos el tratamiento estadístico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas –variable continua- se trabaja en años cumplidos –variable discreta-.
En otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema
de calificación por puntos.

Escalas de medición:

a. Escala Nominal:
Es una escala en que se establece un número determinado de clases o categorías
de tal modo que cada elemento de la población pertenece a una y sólo una clase.
Matemáticamente se dice que se ha establecido una relación de equivalencia
entre los elementos de la población. Si sólo existen dos clases se denomina
escala dicotómica. La única operación matemática que se puede realizar con
las clases de cualquier escala nominal es determinar las cantidades de elementos
que les corresponden determinar sus frecuencias.
12
Por ejemplo:
 Sexo: las clases son masculino o femenino.
 Especialidad: las diferentes especialidades (carreras) del CRUSAM.
 Número de cedula de identidad personal.
 Temperatura de una persona: sanguíneo, flemático, melancólico,
colérico.
 Número de placa de automóviles del país.

b. Escala Ordinal:
Es una escala nominal entre cuyas clases está definido un orden, de modo que
cualesquiera que sean dos de ellas, una será mayor o superior, en algún
sentido, que la otra.
Por ejemplo:
 Evaluaciones en un examen: 5, 4, 3 y 2.
 Grado de satisfacción de una necesidad: alto, medio, bajo
 Conocimiento de un idioma: excelente, bien, regular, mal

c. Escala de Intervalos:
No es más que una escala ordinal con una distancia, una unidad de medida entre
sus clases de modo tal que, dado dos puntajes cualesquiera, se puede saber cuan
distante está uno del otro. La unidad de medida es arbitraria, pero común y el
punto de inicio (cero) es también arbitrario. Cuando se tiene una escala de
intervalo se pueden realizar las operaciones de adición y sustracción, pero no
necesariamente la multiplicación y división dentro de la escala.
Por ejemplo:
 La temperatura del aire. (caluroso, fresco, agradable, etc.)

d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la ausencia
total del atributo en estudio. La proporción entre los atributos de dos individuos
cualesquiera es independiente de la escala de medida utilizada. En ella la razón
entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformación de la escala de razón, o sea ante toda transformación del tipo
y=Φ(x). De aquí que siempre el cero de la escala transformada coincide con el
cero de la escala original.
13
En las escalas de razones es posible realizar todas las operaciones aritméticas
con los puntajes.
Por ejemplo:
 Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
 Peso de los alumnos: (en libras o kilogramos)
 El tiempo invertido en una prueba de velocidad en educación física (en
minutos o segundos).

La representación de los datos


Frecuencias.
Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases
y categorías y determinar las frecuencias de las clases, o sea, el número de
elementos que pertenecen a una clase. El ordenamiento tabular de los datos por
clases conjuntamente con las frecuencias de clases se denomina distribución de
frecuencias
El caso que se describe a continuación, variables discretas se denomina
distribución por conteo de valores individuales. Supongamos que un
determinado colectivo, representado por la variable estadística Xi, que para
mayor sencillez consideraremos como unidimensional; sean los datos de esta
variable (representativo cada uno de ellos de un suceso) X1, X2, … , Xn
(supuesto que sean n los valores de la variable considerada.)
Definiremos como frecuencia de un dato el número de veces que este aparece
en el colectivo; consecuentemente, si una variable estadística toma r valores,
cada uno de los cuales puede repetirse un cierto número de veces, podríamos
decir que el número de datos representado por la variable serían N, siendo N la
suma de las respectivas frecuencias de cada dato (N=ΣXi).
Este valor N será denominado como frecuencia total, mientras que la frecuencia
de cada dato recibirá el nombre de frecuencia absoluta o simplemente
frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un
dato aparece en un colectivo, más ello no nos dice demasiado en orden al
establecimiento de comparaciones sobre la importancia de este dato. Para
obtener una idea de la importancia que un dato posee en el seno de un colectivo,
puesto que no es suficiente concepto de frecuencia, se utiliza el concepto

14
frecuencia relativa, que se definirá como: el coeficiente entre la frecuencia
absoluta del dato considerado y la frecuencia total (fr=fi/ΣXi).
Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias:
 frecuencias absolutas: es el número de veces que aparece en la muestra
dicho valor de la variable y se representa por fi.
 frecuencias relativas: es el cociente entre la frecuencia absoluta y el
tamaño de la muestra. La denotaremos por fri
 frecuencias absoluta acumulada: para poder calcular este tipo de
frecuencias hay que tener en cuenta que la variable estadística ha de ser
cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido
el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un
valor de la variable, es el número de veces que ha aparecido en la muestra
un valor menor o igual que el de la variable y lo representaremos por fa,
se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o
descendente (fa↓).
 frecuencia relativa acumulada: al igual que en el caso anterior se
calcula como el cociente entre la frecuencia absoluta acumulada dividido
por el tamaño de la muestra (N) y la denotaremos por fra.
Resumiendo lo expuesto, si Xi es un valor de la variable, podemos representar
por fi a su frecuencia y por fi/ΣXi a su frecuencia relativa (siendo ΣXi=N o la
frecuencia total). Para el conjunto de los valores de la variable X i tendríamos,
así la tabla #1, compresiva de la información sobre dicha variable, a través de
las respectivas frecuencias:

Variables Discretas
Valores de la variable frecuencias absolutas frecuencias relativas
Xi fi fi/N
(datos)
X1 F1 f1/N
X2 F2 f2/N
… … …
Xn fn fn/N

Dónde:
N=Σfi y Σfi/N=1
15
Otro es el caso de las clases representadas en forma de intervalos, variables
continuas, llamados intervalos de clases que poseen extremos llamados límite
inferior y límite superior, Un intervalo se dice que es abierto o no cerrado, por
un extremo si no contiene el límite correspondiente.
En el caso de variables continuas será necesario fijar intervalos de frecuencias
para llegar a un resumen efectivo de la información original. A menudo es
necesario representar una clase, o más particularmente, un intervalo por un
único valor, este representará a todo el intervalo y se denominará marca de
clases. Matemáticamente el punto medio de cada intervalo corresponde a lo
que denominamos marca de clase, se denotará por Xi, y constituirá el valor
representativo de cada intervalo. El número de observaciones que correspondan
a cada intervalo se denominará frecuencias absolutas.

Variables Continuas
Intervalos Marcas de Clases Frecuencias
(C) Xi Absolutas
fi
X1-X2 X1 f1
X2-X3 X2 f2
… … …
… … …
Xn-1-Xn Xn fn

Donde
𝑋´−𝑋´´
𝑋𝑚 = Marca de clases
2
N = Σfi = Número de observaciones
C = X’ – X” = Amplitud del intervalo

Por último, en el caso de variables no mensurables, dicha tabla adoptará una


forma como la siguiente:

Variable Ordinales
Variable Frecuencias
Característica A fA

16
Característica B fB
… …
… …
Característica Z fZ

Ejemplo:

La tienda CANTORAS Y ASOC. estaba interesada en efectuar un análisis de


sus cuentas por comprar. Uno de los factores que más interesaba a la
administración de la tienda era el de los saldos de las cuentas de crédito. Se
escogió al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada
cuenta (en unidades monetarias) como sigue:

77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68

Solución:
1- Efectuar el arreglo ordenado de la población o muestra:
A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 )
dónde: X1 = valor mínimo = 7.42
Xn= valor máximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: “w”

w = valor mayor – valor menor = Xn – X1 = 93.91 – 7.42 = 86.49

3- Encontrar en número de clases “k”, según la fórmula del logaritmo, dado


que n<100. :
k=1+3.322(log N)

Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la


muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido según calculadora
= 1+ 4.9069
17
= 5.9069 ~6 aproximado al siguiente entero

4- Determinar la amplitud de la clase: “h”


𝑤 86.49
ℎ= = = 14.415
𝑘 6

Clases X mi fi fr fa↓ fa↑ fra↓ fra↑

7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00


21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67
36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54
50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37
65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27
79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17
Total XXX 30 1.00 XXX XXX XXX XXX

Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o
sea como los datos están dados en centésimos, se calculo C hasta los
milésimos para evitar que algún dato coincida con el límite de clases

Simbología utilizada:
X mi = Punto medio o marca de clases

fi = frecuencia absoluta
fr = frecuencia relativa
fa↓ = frecuencia absoluta acumulada descendente
fa↑ = frecuencia absoluta acumulada ascendente
fra↓ = frecuencia relativa acumulada descendente
fra↑ = frecuencia relativa acumulada ascendente

1.2 Intervalos de clases y puntos medios

18
Los intervalos de clase

Los intervalos son los límites a los extremos a los que llega una función. Son utilizados a
modo de resumen cuando la cantidad de datos es muy grande. Los límites extremos de cada
clase se les llaman Límite Inferior y Superior de clase respectivamente. Los intervalos de
clase se emplean si las variables toman un número grande de valores o la variable es continua,
es el Rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con
grandes cantidades de datos. Por ejemplo, si los valores están entre 1 y 100, se podrían definir
grupos por medio de los intervalos 1-25, 26-50, 51-75, 76-100 cuando el intervalo de la clase
es 25..

Se agrupan los valores en intervalos que tengan la misma amplitud denominados


clases. A cada clase se le asigna su frecuencia correspondiente.

Límites de la clase: Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase.

Amplitud de la clase: La amplitud de la clase es la diferencia entre el límite superior


e inferior de la clase.

Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor


que representa a todo el intervalo para el cálculo de algunos parámetros.

Existen 3 clases de intervalos:

Abiertos: se colocan entre paréntesis (por ejemplo (-3;5)). Esto quiere decir que la
función no toca los puntos -3 y 5 sino que llega a -2.99999 y a 4.9999.

Cerrados: se expresan entre corchetes (por ejemplo [-3;5]). Esto significa que la
función empieza en -3 y termina en 5).

Semiabiertos: se expresan con un paréntesis de un lado y un corchete del otro (por


ejemplo (-3;5]; esto quiere decir que la función empieza en -2.99999 y termina en 5).

19
El Punto Medio
Marca de Clase es la semisuma de los límites de una clase, estos límites son el
inferior y el superior. La Marca de Clase se obtiene sumando el límite inferior
(LI) y superior de una clase (LS) y dividiendo el resultado entre dos (2). La
marca de clase en este caso la representaremos como MC.
Formula:

La fórmula de la marca de clase es la siguiente:

MC = (LI + LS) / 2

Ejemplo:

¿Cuál es el punto medio de los siguientes límites: 8 - 16

MC = (LI + LS) / 2

MC = (8 + 16) / 2

MC = 24 / 2

MC = 12

¿Cómo confirmar que el resultado finar es el punto medio?

Paso 1.

Los primeros que tenemos que hacer es comenzar a contar de una manera
consecutiva desde el límite inferior hasta el límite superior.

Ejemplo:

En este caso: 8 – 16

8, 9, 10, 11, 12, 13, 14, 15, 16.


20
Paso 2.

Ya que tenemos la secuencia de números: 8, 9, 10, 11, 12, 13, 14, 15, 16. Lo
que tenemos que hacer es comenzar a contar desde la MC hacia los límites
inferior y superior. Los resultados de los límites deben ser iguales:

Ejemplo:

8, 9, 10, 11,= 4
12,
13, 14, 15, 16 = 4

Ya de esta manera comprobamos que la marca de clase es: 12.

Nota:

MC = Marca de Clase
LI = Límite Inferior
LS = Límite Superior

1.3 Distribución de frecuencias relativas.

Una de los primeros pasos que se realizan en cualquier estudio estadístico es la


tabulación de resultados, es decir, recoger la información de la muestra
resumida en una tabla, que denominaremos distribución de frecuencias, en la
que cada valor de la variable se le asocian determinados números que
representan el número de veces que ha aparecido, su proporción con respecto a
otros valores de la variable, etc.
Por tanto, llamaremos distribución de frecuencias a un agrupamiento de datos
en clases acompañada de sus frecuencias: frecuencias absolutas, frecuencias
relativa o frecuencia porcentuales. En caso de que las variables estén al menos
en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas,
y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias
21
varían en dependencia si corresponden a una variable discreta o a una variable
continua.

Tipos de distribuciones de frecuencias

Las curvas de frecuencia presentan determinadas formas características que


les distinguen

a) Las curvas de frecuencia simétricas o bien formadas se caracterizan por


el hecho de que las observaciones que equidistan del máximo central
tienen la misma frecuencia. Un ejemplo importante es la curva normal.
b) En las curvas de frecuencia moderadamente asimétricas o sesgadas la
cola de la curva a un lado del máximo central es mayor que al otro lado.
Si la cola mayor se presenta a la derecha de la curva se dice que ésta está
sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo
contrario se dice que la curva está sesgada a la izquierda o que tiene un
sesgo negativo.
c) En las curvas en forma de J o de J invertida, el máximo se presenta en un
extremo.
d) Las curvas de frecuencias en forma de U tienen el máximo en ambos
extremos.
e) Una curva de frecuencias bimodal tiene dos máximos.
f) Una curva de frecuencias multimodal tiene más de dos máximos.

22
1.4 Representaciones Gráficas de la Distribución de Frecuencias

Cuadros estadísticos:

La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las
muestras tomadas, las características de la población investigada. Los cuadros
o tablas corresponden a arreglos sistemáticos de los datos por filas y columnas
y son un buen complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a
representar la información a través de tablas que de forma general contiene las
siguientes partes fundamentales:

i. Numeración (siempre que se presenten dos o más cuadros)


ii. Título: es la descripción que precede al cuadro, la cuál deberá estar
redactada en forma breve y clara, de tal manera que exprese su contenido,
siguiendo el ordenamiento del mismo. Es necesario abarcar las
características: Qué, Dónde, Cómo y Cuándo

23
Gráficos Estadísticos:

El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos


estadísticos, este elemento no le añade novedad a las tablas o cuadros
estadísticos, es de fácil comprensión y accesible a un número mayor de
usuarios. El gráfico además de expresar visualmente los hechos más
importantes de la información numérica, permite una mejor y más fácil
comprensión y ahorra tiempo y esfuerzo en el análisis de datos estadísticos al
facilitar su apreciación visual en forma conjunta:

1.4.1 Histograma

En estadística, un histograma es una representación gráfica de una variable en


forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje vertical se representan las

24
frecuencias, y en el eje horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del intervalo en el que están
agrupados los datos.

En términos matemáticos, puede ser definida como una función inyectiva (o


mapeo) que acumula (cuenta) las observaciones que pertenecen a cada
subintervalo de una partición. El histograma, como es tradicionalmente
entendido, no es más que la representación gráfica de dicha función.

Se utiliza cuando se estudia una variable continua, como franjas de edades o


altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es
decir, valores continuos. En los casos en los que los datos son cualitativos (no-
numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un
diagrama de sectores.

Los histogramas son más frecuentes en ciencias sociales, humanas y


económicas que en ciencias naturales y exactas. Y permite la comparación de
los resultados de un proceso.

Tipos de histograma

 Diagramas de barras simples

Representa la frecuencia simple (absoluta o relativa) mediante la altura de la


barra la cual es proporcional a la frecuencia simple de la categoría que
representa.

 Diagramas de barras compuesta

Se usa para representar la información de una tabla de doble entrada o sea a


partir de dos variables, las cuales se representan así; la altura de la barra
representa la frecuencia simple de las modalidades o categorías de la variable y
esta altura es proporcional a la frecuencia simple de cada modalidad.

25
 Diagramas de barras agrupadas

Se usa para representar la información de una tabla de doble entrada o sea a


partir de dos variables, el cual es representado mediante un conjunto de barras
como se clasifican respecto a las diferentes modalidades.

 Polígono de frecuencias

Es un gráfico de líneas que de las frecuencias absolutas de los valores de una


distribución en el cual la altura del punto asociado a un valor de las variables
es proporcional a la frecuencia de dicho valor.

 Ojiva porcentual

Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el


rango porcentual de cada valor en una distribución de frecuencias. En los
gráficos las barras se encuentran juntas y en la tabla los números poseen en el
primer miembro un corchete y en el segundo un parentesis, por ejemplo: [10-
20)

Construcción de un histograma

 Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el
dato menor.

 Paso 2
Obtener los números de clases, existen varios criterios para determinar el
número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo
ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince
clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio
26
usado frecuentemente es que el número de clases debe ser aproximadamente
a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30
( número de artículos) es mayor que cinco, por lo que se seleccionan seis
clases.

 Paso 3
Establecer la longitud de clase: es igual al rango dividido por el número de
clases.

 Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango
de los datos en relación al resultado del PASO 2 en intervalos iguales.

 Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma
amplitud, se hace un gráfico de barras, las bases de las barras son los
intervalos de clases y altura son la frecuencia de las clases. Si se unen los
puntos medios de la base superior de los rectángulos se obtiene el polígono
de frecuencias.
El histograma de una imagen representa la frecuencia relativa de los niveles
de gris de la imagen. Las técnicas de modificación del histograma de una
imagen son útiles para aumentar el contraste de imágenes con histogramas
muy concentrados.
Sea u una imagen de tamaño NxN, la función de distribución del histograma
es:

Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde


se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia
absoluta) hay en cada una de ellas. En algunas variables (variables
cualitativas) las clases están definidas de modo natural, p.e sexo con dos
clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las
variables cuantitativas, las clases hay que definirlas explícitamente (intervalos
de clase).
27
Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y
las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).

A veces es más útil representar las frecuencias acumuladas.


O representar simultáneamente los histogramas de una variable en dos
situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable
en dos situaciones distintas.

En las variables cuantitativas o en las cualitativas ordinales se pueden


representar polígonos de frecuencia en lugar de histogramas, cuando se
representa la frecuencia acumulativa, se denomina ojiva.

1.4.2 polígonos de frecuencia

Polígono de frecuencia es el nombre que recibe una clase de gráficoque se crea


a partir de un histograma de frecuencia. Estos histogramas emplean columnas
verticales para reflejar frecuencias): el polígono de frecuencia es realizado
uniendo los puntos de mayor altura de estas columnas.

Es decir, por tanto, podríamos establecer que un polígono de frecuencia es aquel


que se forma a partir de la unión de los distintos puntos medios de las cimas de
las columnas que configuran lo que es un histograma de frecuencia. Este se
caracteriza porque utiliza siempre lo que son columnas de tipo vertical y porque
nunca debe haber espacios entre lo que son unas y otras.
En las ciencias sociales, en las ciencias naturales y también en las económicas
es donde con más frecuencia se hace uso de estos mencionados histogramas ya
que se emplean para llevar a cabo lo que es la comparación de los resultados de
un proceso determinado.

Se conoce como polígonos de frecuencia para datos agrupados a aquellos


que se desarrollan mediante la marca de clase que tiene coincidencia con el
28
punto medio de las distintas columnas del histograma. En el momento de la
representación de todas las frecuencias que forman parte de una tabla de datos
agrupados, se genera el histograma de frecuencias acumuladas que posibilita
la diagramación del polígono correspondiente.

Un polígono de frecuencia, por ejemplo, permite reflejar las temperaturas


máximas promedio de una ciudad en un determinado periodo temporal. En
el eje X (horizontal), deben indicarse los meses del año (enero, febrero, marzo,
abril, etc.). En el eje Y (vertical), en cambio, se registran las temperaturas más
altas promedio de cada mes (28º, 26º, 22º…). El polígono de frecuencia se
creará al unir, mediante un segmento, las diversas temperaturas más elevadas
promedio. Los polígonos de frecuencia se suelen usar cuando se pretende
retratar varias distribuciones distintas o la clasificación cruzada de una variable
cuantitativa continua con una cualitativa o cuantitativa discreta en el mismo
dibujo.
El punto de más altura de un polígono de frecuencia equivale a la mayor
frecuencia, mientras que el área que se sitúa debajo de la curva incluye todos
los datos que existen. Cabe recordar que la frecuencia es la repetición mayor
o menor de un evento, o el número de veces que un acontecimiento periódico
se reitera en una unidad temporal.

Dado el valor y la utilidad que tienen los citados polígonos hay que resaltar que
estos se pueden confeccionar de una manera muy sencilla y rápida. En concreto,
se da la oportunidad de acometerlos mediante un programa informático que se
ha convertido en uno de los ejes claves del funcionamiento de cualquier
empresa. Nos estamos refiriendo al software conocido como Excel.

Este es un programa, de Microsoft Office, que se confeccionó con el claro


objetivo de que sus usuarios pudieran trabajar con lo que son hojas de cálculo.
Por tal motivo, es lógico que también permita la posibilidad de crear polígonos
de frecuencia a la hora de comparar cifras y tomar decisiones en base a las
mismas.

29
En concreto, para conseguir crear los mismos con Excel se tiene que partir de
la existencia de una serie de gráficos que se hayan confeccionado previamente
para seguidamente desarrollar un conjunto de acciones que den lugar a aquellos.

EJERCICIOS

Ejercicios de media, moda y mediana

1.- Sea una distribución estadística que viene dada por la siguiente tabla:

xi 61 64 67 70 73

fi 5 18 42 27 8

Calcular: La moda, mediana y media.

xi fi Fi xi · fi

61 5 5 305

64 18 23 1152

67 42 65 2184

71 27 92 1890

73 8 100 584

100 6745

Moda

Mo = 67

30
Mediana

102/2 = 51

Media

31
2.- Calcular la media, la mediana y la moda de la siguiente serie de números: 5, 3, 6, 5, 4,
5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.

xi fi Fi xi · fi

2 2 2 4

3 2 4 6

4 5 9 20

5 6 15 30

6 2 17 12

8 3 20 24

20 96

Moda

Mo = 5

Mediana

20/2 = 10 Me = 5

Media

3.- Una distribución estadística viene dada por la siguiente tabla:

32
[10, 15) [15, 20) [20, 25) [25, 30) [30, 35)

fi 3 5 7 4 2

Hallar:

La moda, mediana y media.

xi fi Fi xi · fi

[10, 15) 12.5 3 3 37.5

[15, 20) 17.5 5 8 87.5

[20, 25) 22.5 7 15 157.5

[25, 30) 27.5 4 19 110

[30, 35) 32.5 2 21 65

21 457.5

Moda

Mediana

Media

33
4.- Dada la distribución estadística:

[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, ∞)

fi 3 5 7 8 2 6

Calcular:

La mediana y moda.

Media.

xi fi Fi

[0, 5) 2.5 3 3

[5, 10) 7.5 5 8

[10, 15) 12.5 7 15

[15, 20) 17.5 8 23

[20, 25) 22.5 2 25

[25, ∞) 6 31

31

Moda

Mediana

34
Media

No se puede calcular la media, porque no se puede hallar la marca de clase del último
intervalo.

5.- Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:

Altura [170, 175) [175, 180) [180, 185) [185, 190) [190, 195) [195, 2.00)

Nº de jugadores 1 3 4 8 5 2

Calcular:

1. La media.

2. La mediana.

xi fi Fi xi · fi

[1.70, 1.75) 1.725 1 1 1.725

[1.75, 1.80) 1.775 3 4 5.325

[1.80, 1.85) 1.825 4 8 7.3

[1.85, 1.90) 1.875 8 16 15

[1.90, 1.95) 1.925 5 21 9.625

[1.95, 2.00) 1.975 2 23 3.95

23 42.925

35
Media

Mediana

6.- El histograma de la distribución correspondiente al peso de 100 alumnos de Bachillerato


es el siguiente:

1. Formar la tabla de la distribución.

2. Calcular la moda.

3. Hallar la mediana.

36
1

xi fi Fi

[60,63 ) 61.5 5 5

[63, 66) 64.5 18 23

[66, 69) 67.5 42 65

[69, 72) 70.5 27 92

[72, 75) 73.5 8 100

100

Moda

Mediana

37
7.- Completar los datos que faltan en la siguiente tabla estadística:

xi fi Fi ni

1 4 0.08

2 4

3 16 0.16

4 7 0.14

5 5 28

6 38

7 7 45

Calcular la media, mediana y moda de esta distribución.

Tabla

Primera fila:

F1 = 4

Segunda fila:

F2 = 4 + 4 = 8

Tercera fila:

Cuarta fila:

38
N4 = 16 + 7 = 23

Quinta fila:

Sexta fila:

28 + n8 = 38 n8 = 10

Séptima fila:

Octava fila:

N8 = N = 50 n8 = 50 − 45 = 5

xi fi Fi ni xi · fi

1 4 4 0.08 4

2 4 8 0.08 8

3 8 16 0.16 24

4 7 23 0.14 28

5 5 28 0.1 25

6 10 38 0.2 60

7 7 45 0.14 49

39
8 5 50 0.1 40

50 238

Media artmética

Mediana

50/2 = 25 Me = 5

Moda

Mo = 6

7.- Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta
en el momento de andar por primera vez:

Meses Niños

9 1

10 4

11 9

12 16

13 11

14 8

15 1

1. Dibujar el polígono de frecuencias.

40
2. Calcular la moda, la mediana, la media y la varianza.

Polígono de frecuencias

41
xi fi Ni xi · fi

9 1 1 9

10 4 5 40

11 9 14 99

12 16 30 192

13 11 41 143

14 8 49 112

15 1 50 15

50 610

Moda

Mo = 12

Mediana

50/2 = 25

Media aritmética

42
8.- Un dentista observa el número de caries en cada uno de los 100 niños de cierto colegio.
La información obtenida aparece resumida en la siguiente tabla:

Nº de caries fi ni

0 25 0.25

1 20 0.2

2 x z

3 15 0.15

4 y 0.05

1. Completar la tabla obteniendo los valores x, y, z.

2. Hacer un diagrama de sectores.

3. Calcular el número medio de caries.

1. Tabla

La suma de las frecuencias relativas ha de ser igual a 1:

0.25 + 0.2 + z + 0.15 + 0.05 = 1

0.65 + z = 1 z = 0.35

La frecuencia relativa de un dato es igual su frecuencia absoluta dividida entre 100, que es
la suma de las frecuencias absolutas.

43
Nº de caries fi ni fi · ni

0 25 0.25 0

1 20 0.2 20

2 35 0.35 70

3 15 0.15 45

4 5 0.05 20

155

2. Diagrama de sectores

Calculamos los grados que corresponden a cara frecuencia absoluta.

25 · 3.6 = 90º 20 · 3.6 = 72º 35 · 3.6 = 126º

15 · 3.6 = 54º 5 · 3.6 = 18º

3. Media aritmética

9.- Se escogió un salón de clases de cuarto grado, con un total de 25 estudiantes, y se les
pidió que calificaran del 1 al 5 un programa televisivo.

(5 = Excelente 4 = Bueno 3 = Regular 4 = No muy bueno 1 = Fatal)

44
Estos fueron los resultados:

1 3 3 4 1
2 2 2 5 1
4 5 1 5 3
5 1 4 1 2
2 1 2 3 5

Buscar la media, la moda y la mediana e indicar si es muestra o población.

Media:
1 + 3 + 3 + 4 + 1 + 2 + 2 + 2 + 5 + 1+ 4 + 5 + 1+ 5+ 3 + 5 + 1+ 4 + 1 + 2 + 2 + 1 + 2 + 3
+ 5 = 68

68/25 = 2.72 El promedio es de 2.72

Mediana:

1111111222222333344455555

El elemento intermedio es 2 , así que la mediana es 2

Moda:
El que más se repite es el 1.

Es población, ya que la información fue recogida de todos los estudiantes de un salón de


clases.

45
CAPITULO 2

CONCEPTOS GENERALES
Si bien no hay una definición de estadística exacta, se puede decir que la
"estadística es el estudio de los métodos y procedimientos para recoger,
clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo
de tales datos". Esta definición cubre gran parte de la actividad del científico.
Es importante observar que el objeto del que realiza el análisis estadístico son
los datos y las observaciones científicas por sí mismos, más que el material que
interviene en el estudio.
La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la
"inferencia estadística”. La estadística descriptiva implica la abstracción de
varias propiedades de conjuntos de observaciones, mediante el empleo de
métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la
frecuencia con que se dan varios valores en la observación, la noción de un valor
típico o usual, la cantidad de variabilidad en un conjunto de datos observados y
la medida de relaciones entre 2 ó mas variables.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.

Elementos conceptuales de estadística descriptiva

Como se ha señalado anteriormente, el objetivo de la estadística descriptiva, es


la descripción mediante el empleo de técnicas que permitan obtener una síntesis
de la información con el objetivo de conocer el fenómeno en estudio y extraer
los aspectos importantes.
Todo estudio estadístico ha de estar referido a un conjunto o colección de
elementos. Al conjunto de todas las unidades objeto de estudio es lo que se
denomina población. En sentido estadístico un elemento puede ser algo con
existencia real (tangible y observable), como un automóvil o una casa, o algo
más abstracto como la temperatura, un voto, o un intervalo de tiempo.
A su vez cada elemento de la población tiene una serie de característica que
puede ser objeto del estudio estadístico. Así por ejemplo, si consideramos como
46
elemento a una persona, podemos distinguir en ella los siguientes caracteres:
sexo, edad, nivel de estudios, profesión, peso, altura, color de cabellos, etc.
Luego por tanto de cada elemento de la población podremos estudiar uno o más
aspectos cualidades o caracteres.

MEDIDAS DE TENDENCIA CENTRAL

Al describir grupos de observaciones, con frecuencia se desea describir el grupo


con un solo número. Para tal fin, desde luego, no se usará el valor más elevado
ni el valor más pequeño como único representante, ya que solo representan los
extremos, más bien que valores típicos. Entonces sería más adecuado buscar un
valor central.
Las medidas que describen un valor típico en un grupo de observaciones suelen
llamarse medidas de tendencia central. Es importante tener en cuenta que estas
medidas se aplican a grupos más bien que a individuos. Un promedio es una
característica de grupo, no individual.

Media aritmética:

Por lo general si la media se refiera a una población se lo denota con la letra


griega  x y si proviene de una muestra con la letra x .
n

X i
x i 1

n
Es la medida de tendencia central más obvia que se puede elegir, y es el simple
promedio de las observaciones del grupo, el cual se obtiene sumando todas las
observaciones y dividiendo esta suma por el número de observaciones que hay
en el grupo.
En realidad hay muchas clases de promedios y ésta se la llama media aritmética
para denotar la suma de un grupo de observaciones dividida por su número.

Mediana me  : es otra medida de tendencia central que se utiliza con mucha
frecuencia es la mediana, que es el valor situado en medio en un conjunto de
observaciones ordenadas por magnitud.
47
Moda mo  :
Es otra medida de tendencia central es la moda o modo y es el valor que
ocurre con más frecuencia en un conjunto de observaciones.

Cuartiles, Deciles y Percentiles:


Son medidas similares a la mediana. Mientras la mediana divide la población
en dos mitades, los cuarteles la dividen en cuatro cuartos, los deciles en 10
partes y los percentiles en 100 partes. Si denotamos a los cuartiles, deciles y
percentiles respectivamente como Qi ; Di yPi , donde el subíndice i hace referencia
al orden o número del cuartil (decil o percentil). Por ejemplo: el cuarlil 1 (Q1 )
representa el valor de x, tal que conforme a un ordenamiento ascendente de las
observaciones, contiene al primer cuarto de las observaciones (25% de la
población).

i * n 1 
Qi  x   
 4 2
i * n 1 
Di  x  
 10 2 
i * n 1 
Pi  x  
 100 2 

Las fórmulas nos dan el número de la observación, según el ordenamiento


ascendente que represente el cuartil (decil, percentil). Así, por ejemplo, si Q3=6,
nos indica que el cuartil 3 está representado por el sexto valor según el
ordenamiento ascendente. P40=62,5, nos indica que el percentil 40 está ubicado
entre el valor 62 y 63 del ordenamiento ascendente.
Nótese que la mediana se corresponde con Q2, D5 y P50.

MEDIDAS DE VARIABILIDAD

Amplitud: Se obtiene restando el valor mínimo del máximo en un conjunto de


observaciones. La amplitud tiene la ventaja de que es fácil de calcular y sus

48
unidades son las mismas que las de la variable que se mide. La amplitud no
toma en consideración el número de observaciones de la muestra estadística,
sino solamente la observación del valor máximo y la del valor mínimo. Sería
deseable utilizar también los valores intermedios del conjunto de observaciones.

Desviación media: Esta medida es más acorde que la de amplitud, ya que


involucra a todos los valores del conjunto de observaciones corrigiendo la
desviación. Ésta medida se obtiene calculando la media aritmética de la
muestra, y luego realizando la sumatoria de valor absoluto de las diferencias de
todos los valores con respecto de la media. Luego se divide por el número de
observaciones.
Una medida como ésta tiene la ventaja de que utiliza cada observación y corrige
la variación en el número de observaciones al hacer la división final. Y por
último también se expresa en las mismas unidades que las observaciones
mismas.

 ( xi   x ) * f i
n

DM x  i 1

Varianza: Ésta medida se obtiene calculando la media aritmética de la muestra,


y luego realizando la sumatoria de las diferencias al cuadrado de todos los
valores con respecto de la media. Luego se divide por el número de
observaciones, el cual es otro mecanismo para solucionar el efecto de
cancelación para entre diferencias positivas y negativas. Si elevamos al
cuadrado cada diferencia antes de sumar, desaparece la cancelación.


n
( xi  x) 2 * f i
S 2
 i 1

n 1
x
Varianza muestral:

 ( xi   x ) 2 * f i
n

 2
x  i 1

Varianza Poblacional: N

49
Esta fórmula tiene una desventaja, y es que sus unidades no son las mismas que
las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación anterior,
que es la desviación típica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la población (N) y para
las muestras por (n-1), que es el numero de observaciones de la muestra menos
uno. Ello, por desgracia ahora no podemos analizarlo, ni dar una respuesta
entendible, tema que se analizará en la unidad correspondiente a estimadores.

Desviación típica: Es la raíz cuadrada de la varianza.


n
( xi  m x ) 2 * f i
Sx  S  2 i 1

n 1
x
Desvío muestral:

 ( xi   x ) 2 * f i
n

x    2
x
i 1

Desvío poblacional: N

Entonces en este caso la unidad de  x o S x es la misma que la del conjunto de


observaciones de la muestra estadística.

Coeficiente De variación: Es el cociente entre la desviación típica y la meria


aritmética. Al ser un cociente entre magnitudes que están expresadas en las
mismas unidades, tla cociente no posee unidades y es una medida de razón, lo
cual permite la comparación entre datos alternativos que presentad diferentes
unidades de medida.

FÓRMULAS PARA DATOS AGRUPADOS

x mi * fi
x i 1

Media maestral: n

Donde:
k = cantidad de intervalos; n= nº de observaciones;
50
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i

x mi * fi
x i 1

Media Poblacional: n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i

 (x
i 1
mi  x) 2 * f i

Varianza muestral: (n  1)
Donde:
k = cantidad de intervalos; n= número de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados

 (x
i 1
mi  mx ) 2 * f i

Varianza poblacional: n
Donde:
k = cantidad de intervalos; n= número de observaciones.
xmi = valor medio del intervalo i.
mx  media poblacional.

n
(  f an ) * I
Li  2
Mediana: fa =

Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la


mediana.
I = longitud del intervalo o clase que contiene la median.
Li = límite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.

51
d1
Li  ( )*I
Modo: d1  d 2 =
Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior.
d2 = diferencia entre la frecuencia de la clase modal y la posterior.
I = longitud del intervalo modal (o clase modal).
Li = límite inferior del intervalo modal.

Cuartiles, Deciles y Percentiles para datos agrupados:

i*n
(  Fant )
Qi  Linf [ 4 ]* I
fa ;
i*n
(  Fant )
Di  Linf [ 10 ]* I
fa ;
i*n
(  Fant )
Qi  Linf  [ 100 ]* I
fa
Donde:
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = número de cuartil / decil /
percentil; n= total de observaciones.
Linf  Límite exactamente inferior del intervalo que contiene el cuartil / decil/
percentil.
Fant  Frecuencia acumulada simple del intervalo anterior al que contiene el

cuartil / decil / percentil.


fa 
Frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.
I= amplitud del intervalo que contiene el cuartil /decil / percentil.

COEFICIENTE DE VARIACIÓN

En estadística, cuando se desea hacer referencia a la relación entre el tamaño de


la media y la variabilidad de la variable, se utiliza el coeficiente de variación.
Su fórmula expresa la desviación estándar como porcentaje de la media
aritmética, mostrando una mejor interpretación porcentual del grado de

52
variabilidad que la desviación típica o estándar. Por otro lado presenta
problemas ya que a diferencia de la desviación típica este coeficiente es variable
ante cambios de origen. Por ello es importante que todos los valores sean
positivos y su media dé, por tanto, un valor positivo. A mayor valor del
coeficiente de variación mayor heterogeneidad de los valores de la variable; y a
menor C.V., mayor homogeneidad en los valores de la variable. Suele
representarse por medio de las siglas C.V.

El coeficiente de variación es la relación entre la desviación típica de una


muestra y su media.

El coeficiente de variación se suele expresar en porcentajes:

El coeficiente de variación permite comparar las dispersiones de dos


distribuciones distintas, siempre que sus medias sean positivas.
Se calcula para cada una de las distribuciones y los valores que se obtienen se
comparan entre sí.
La mayor dispersión corresponderá al valor del coeficiente de variación mayor.

SESGO Y CURTOSIS.

ERROR SISTEMÁTICO O SESGO


Es aquel que se produce de igual modo en las mediciones, que se realizan de
una magnitud, en otras palabras, es el efecto de un error que ocurre de manera
persistente o constante. Puede estar originado en un defecto del instrumento, en
una particularidad del operador o del proceso de medición u observación.
En Estadística se llama sesgo de un estimador a la diferencia entre su esperanza
matemática y el valor numérico del parámetro que estima. Un estimador cuyo
sesgo es nulo se llama
insesgado o centrado. SESGO •En Epidemiología Analítica, se refiere a todo
error sistemático que lleva a una interpretación errónea de la causalidad o
propagación de la enfermedad.

53
Un objetivo en todo estudio epidemiológico, en el que se desea conocer la
frecuencia con la que ocurre un evento o estimar la asociación entre un factor
de riesgo y una enfermedad, debe ser el de medir y calcular con la mayor
precisión y exactitud posibles dichas determinaciones.

Para detallar un poco más revisemos los tipos de sesgos

SESGO DE SELECCIÓN Los errores de selección pueden ser originados por


el mismo investigador o ser el resultado de relaciones complejas en la población
en estudio que pueden no ser evidentes para el investigador y pasar
desapercibidas.
Los sesgos de selección pueden ocurrir en cualquier estudio epidemiológico, sin
embargo, ocurren con mayor frecuencia en estudios retrospectivos y, en
particular, en estudios transversales o de encuesta. Una posible fuente de sesgo
de selección puede ser cualquier factor que influya sobre la posibilidad de los
sujetos seleccionados, esté relacionado con la exposición o con el evento en
estudio.
Sesgo de Neymann (de prevalencia o incidencia): Se produce cuando la
condición en estudio determina pérdida prematura por fallecimiento de los
sujetos afectados por ella.
Tipo de sesgo de selección, que puede darse en estudios de casos y controles.
SESGO DE BERKSON O DE ADMISIÓN (I) Estar enfermo y haber estado
expuesto al factor de riesgo en estudio, aumenta la probabilidad de ser ingresado
en un hospital. Lo anterior genera una conclusión paradójica, pues la variable
independiente acerca del factor de riesgo, se convierte en un factor de
protección.
El grado de interés o motivación que pueda tener un individuo que participa
voluntariamente en una investigación puede diferir sensiblemente en relación
con otros sujetos.
SESGO DE NO RESPUESTA O EFECTO DEL VOLUNTARIO
Se produce cuando entre los sujetos evaluados se presentan subgrupos de
sujetos que comparten algún atributo en particular, relacionado positiva o
negativamente con la variable en estudio
SESGO DE MEMBRESÍA O DE PERTENENCIA

54
Puede observarse en diseños de investigación experimentales (ensayos clínicos
controlados), en los cuales no se respeta el principio de aleatoriedad en la
asignación a los grupos de experimentación y de estudio.
SESGO DEL PROCEDIMIENTO DE SELECCIÓN
Sesgo de procedimientos: ocasionalmente el grupo que presenta la variable
dependiente resulta ser más interesante para el investigador que el grupo que
participa como control, lo cual puede concitar mayor preocupación e interés por
conseguir la información.
SESGOS DE MEDICIÓN
Error sistemático debido a diferencias en el recuerdo de hechos o experiencias
previos. En estudios de casos y controles puede que los casos recuerden más
que los controles algunas experiencias previas, lo que en principio da lugar a
una sobreestimación de la razón de ventajas.
SESGO DE MEMORIA
Ocurre por falta de sensibilidad de un instrumento (sujetos positivos, realmente
positivos), porque si no se cuenta con adecuados métodos de recolección de la
información. Hace que las mediciones puedan detectar la presencia de la
variable en estudio.

SESGO POR FALTA DE SENSIBILIDAD

SESGO DE DETECCIÓN
Su ocurrencia se explica por la introducción de metodologías diagnósticas
diferentes a las inicialmente utilizadas al comienzo de un estudio.
Se produce especialmente en estudios de intervención experimentales o cuasi
experimentales.

SESGO DE ADAPTACIÓN (I)


En los cuales individuos asignados inicialmente a un grupo particular deciden
migrar de grupo por preferir un tipo de intervención por sobre otro.
Se refiere a los errores que se introducen durante la medición de la exposición,
de los eventos u otras covariables en la población en estudio. Una posible fuente
de sesgo de información, puede ser cualquier factor que influya de manera
diferencial sobre la calidad de las mediciones, por ejemplo en el grupo expuesto
y el no expuesto.
55
SESGO DE INFORMACIÓN
Los resultados derivados de estudios observacionales, están potencialmente
influenciados por este tipo de sesgo.
SESGOS DE CONFUSIÓN
El sesgo de confusión puede resultar en una sobre o subestimación de la
asociación real.
Existe sesgo de confusión cuando observamos una asociación no causal entre la
exposición y el evento en estudio. O cuando no observamos una asociación real
entre la exposición y el evento en estudio por la acción de una tercera variable
que no es controlada. Esta(s) variable(s) se denomina(n) factor(es) de confusión
o confusor(es).
Los resultados de un estudio estarán confundidos cuando los resultados
obtenidos en la población en estudio apoyan una conclusión falsa o espuria
sobre la hipótesis en evaluación, debido a la influencia de otras variables, que
no fueron controladas adecuadamente ya sea durante la fase de diseño o de
análisis. Por lo tanto, son fuente posible de sesgo de confusión cualquier
variable asociada con la exposición que, además, esté causalmente asociada con
el evento en estudio.
En los estudios observacionales el sesgo de confusión se puede entender como
un problema de comparabilidad cuyo origen está ligado a la imposibilidad de
realizar una asignación aleatoria de la exposición en los sujetos de estudio

CURTOSIS (o KURTOSIS)

Se refiere al apuntamiento de una distribución comparada con el de una normal.


Permite comparar la altura de la distribución con la de una normal. Para calcular
la curtosis, normalmente se utiliza la siguiente fórmula:

n
i 1
( xi  x) 4 * fi
4 n
K 3  3
4

n
i 1
( xi  x) * fi
2

( )4
n
Resultados posibles:

56
K = 0 la distribución es MESOCÚTICA (posee la misma altura que una
distribución normal estándar).
K > 0 la distribución es LEPTOCÚRTICA (posee MAYOR altura que una
distribución normal estándar).
K < 0 la distribución es PLATOCÚRTICA (posee MENOR altura que una
distribución normal estándar).
As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones
negativas superan a las positivas.

Al igual que en la asimetría, en algunos paquetes estadísticos la curtosis se


calcula como:
n(n  1) xi  x 4 3(n  1) 2

n
K { ( ) } 
(n  1)(n  2)(n  3) i 1 s (n.  2)(n  3) , cuyos resultados representan
lo mismo que el caso anterior.

EJERCICIOS

EJEMPLO 1

Las notas de inglés de una clase de 40 alumnos han sido las siguientes:

1 7 9 2 5 4 4 3 7 8
4 5 6 7 6 4 3 1 5 9
2 6 4 6 5 2 2 8 3 6
4 5 2 4 3 5 6 5 2 4
Calcula la nota media.

Solución:

4,6.

57
EJEMPLO 2

En una clase de un IES hemos medido la altura de los 25 alumnos. Sus medidas,
en cm, son:

167 159 168 165 150 170 172 158 163 156
151 173 175 164 153 158 157 164 169 163
160 159 158 174 164

Elabora una tabla que represente estos resultados con sus frecuencias absolutas,
relativas y porcentajes. Toma intervalos de amplitud 5 cm comenzando por 150.

Solución:

Alturas F. absolutas F. relativas Porcentajes


[150, 155) 3 0,12 12%
[155, 160) 7 0,28 28%
[160, 165) 6 0,24 24%
[165, 170) 4 0,16 16%
[170, 175) 5 0,2 20%

EJEMPLO 3

En un examen de matemáticas los 30 alumnos de una clase han obtenido las


puntuaciones recogidas en la siguiente tabla:

Calificaciones Nº alumnos
[0,1) 2
[1,2) 2
[2,3) 3
[3,4) 6
[4,5) 7
[5,6) 6
[6,7) 1
[7,8) 1
[8,9) 1
[9,10) 1

Halla la varianza y la desviación típica.

Solución:

58
Varianza = 4,23 Desviación típica = 2,06.

EJEMPLO 4

En una clase de 25 alumnos hemos preguntado la edad de cada uno, obteniendo


estos resultados:

14, 14, 15, 13, 15, 14, 14, 14, 14, 15, 13, 14, 15, 16, 14, 15, 13, 14, 15, 13, 14,
14, 14, 15, 14

Haz una tabla donde aparezcan las frecuencias absolutas acumuladas y las
frecuencias relativas acumuladas.

Solución:

Edad F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada


13 4 4 0,16 0,16
14 13 17 0,52 0,68
15 7 24 0,28 0,96
16 1 25 0,04 1

EJEMPLO 5

Calcula la varianza y la desviación típica de los siguientes datos:

4, 7, 5, 3, 6.

Solución:

Varianza = 2

Desviación típica = 1,41.

EJEMPLO 6

59
Calcula el percentil P65 de los siguientes datos:

xi f
i

2 12
4 10
6 8
8 7
10 5
12 8
14 10

Solución:

P65 = 10.

EJEMPLOS 7

Calcula la media de viajeros en establecimientos hoteleros durante 2017.


Después calcula la desviación típica para ver si esa media es representativa de
todos los meses del año.

Mes Viajeros
Enero 2.775.738
Febrero 3.205.892
Marzo 4.143.343
Abril 4.931.385
Mayo 5.724.555
Junio 5.834.331
Julio 6.415.298
Agosto 6.986.211
Septiembre 6.349.504
Octubre 5.447.890
Noviembre 3.570.715
Diciembre 3.204.082
(Fuente: INE)

Solución:

Media = 4.882.412 viajeros.

Desviación típica = 1.390.381 viajeros.


60
La desviación típica es alta, por lo que podemos deducir que hay algunos meses
que difieren mucho de la media.

EJEMPLO 8

Representa mediante diagrama de barras las ganancias medias de los


trabajadores, según el sexo, en el cuarto trimestre de 2018, que se recogen en la
siguiente tabla:

Sueldo en ptas.
Sector Varones Mujeres
Industria 284.363 206.204
Construcción 214.446 205.372
Servicios 263.554 195.447

Solución:

Sueldo medio en ptas.

300,000
250,000
200,000
Varones
150,000
Mujeres
100,000
50,000
0
Construcción

Servicios
Industria

EJEMPLO 9

Haz un diagrama de sectores que represente la procedencia de los extranjeros


residentes en España, en diciembre de 2017, recogidos en la siguiente tabla:

61
Procedencia
Europa 353.556
América 166.709
Asia 66.340
África 213.012
Oceanía 1.013
Desconocida 699

Solución:

Procedencia de extranjeros en España

Oceanía
Desconocida

África
Europa

Asia

América

EJEMPLO 10

Se ha hecho una encuesta sobre el número de hijos en 50 familias, con los


siguientes resultados:

0 2 1 2 5 2 1 1 1 4 0 0 2
0 4 4 1 1 2 2 3 1 2 3 0
3 1 3 2 2 3 3 1 5 4 3 3
1 2 2 2 3 2 2 1 0 2 2 1
1

62
Haz una tabla donde se recojan estos datos con sus frecuencias absolutas
acumuladas y relativas acumuladas.

Solución:

Nº hijos F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada


0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1

EJEMPLO 11

Las edades de los jugadores de un equipo de baloncesto son: 27, 18, 28, 26, 25,
19, 31, 19, 24 y 26 años. ¿Cuál es la edad media?

Solución:

24'3 (redondeando, 24 años).

EJEMPLO 12

Lanzamos un dado 25 veces y obtenemos los siguientes resultados:

5, 3, 2, 6, 5, 1, 2, 3, 2, 1, 5, 1, 5, 2, 4, 5, 6, 1, 2, 4, 4, 2, 2, 4, 3.

Calcula el percentil P30.

Solución:

P30 = 2.

EJEMPLO 13

63
Representa mediante un diagrama de barras las ciudades más pobladas (en
2015):

Ciudad Habitantes (en millones)


Tokio (Japón) 26,8
Sao Paulo (Brasil) 16,4
Nueva York ([Link].) 16,3
C. De México (México) 15,6
Bombay (India) 15,1
Shangai (China) 15,1
Los Ángeles ([Link].) 12,4
Pekín (China) 12,4
Calcuta (India) 11,7
Seúl (Corea del Sur) 11,6

Solución:
Habitantes (en millones)

30
25
20
15
10
5
0
C. de México (México)

Bombay (India)

Shangai (China)

Los Ángeles (EEUU)


Tokio (Japón)

Pekín (China)
Sao Paulo (Brasil)

Nueva York (EEUU)

Calcuta (India)

Seúl (Corea del Sur)

EJEMPLO 14

En una clase de la UPSE hemos medido la altura de los 25 alumnos. Sus


medidas, en cm, se reflejan en la siguiente tabla agrupados en intervalos:

64
Alturas Nº alumnos (fi)
[150,155) 3
[155,160) 7
[160,165) 6
[165,170) 4
[170,175) 5

Calcula la varianza y la desviación típica.

Solución:

Varianza = 42,96

Desviación típica = 6,55.

EJEMPLO 16

Se han pesado 40 piezas. Los resultados de las pesadas, expresados en gramos,


son:

64,1 66,4 64 66,7 65,3 64,4 63,9 63 65,4 64,3


68,8 66,6 65,1 64,2 68,5 65,7 65,8 63,1 64,6 63,5
65 66,4 67,3 65,7 64 61,5 64,1 65 63 63,2
66,9 66,3 67 66,1 66,8 65,3 64,4 64,5 63,1 65,5

Confecciona una tabla estadística para presentar los resultados agrupando en


intervalos los valores observados y donde aparezcan también las frecuencias
absolutas acumuladas y las frecuencias relativas acumuladas. Toma intervalos
de amplitud de 1 cm. comenzando por 61.

Solución:

65
Peso F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada
[61, 62) 1 1 0,025 0,025
[62, 63) 0 1 0 0,025
[63, 64) 7 8 0,175 0,2
[64, 65) 10 18 0,25 0,45
[65, 66) 10 28 0,25 0,7
[66, 67) 8 36 0,2 0,9
[67, 68) 2 38 0,05 0,95
[68, 69) 2 40 0,05 1

EJEMPLO 17

Calcula el porcentaje de participación en las elecciones febrero 2017, teniendo


en cuenta los datos de la tabla siguiente:

Total electores con derecho a voto Votantes


GUAYAS 5.916.783 4.068.793
PICHINCHA 1.019.845 728.060
MANABI 981.504 657.553
EL ORO 652.009 400.559
LOS RIOS 1.393.410 845.348
STO DOMINGOI 468.607 336.508
CHIMBORAZO 2.186.659 1.586.950
TUNGURAHUA 1.420.894 1.084.236
CARCHI 5.293.465 3.388.128
CAÑAR 3.366.210 2.447.384
AZUAY 878.292 662.393
LOJA 2.547.784 1.656.662
SANTA ELENA 4.317.146 3.111.662
BOLIVAR 917.217 674.516
IMBABURA 463.892 306.494
PASTAZA 1.810.666 1.155.999
ORELLANA 230.427 170.997
ZAMORA 55.848 30.801
NAPO 48.985 26.450
ECUADOR 16.969.640 13.339.490

Solución:

66
Total electores con derecho a voto Votantes
GUAYAS 5.916.783 4.068.793
PICHINCHA 1.019.845 728.060
MANABI 981.504 657.553
EL ORO 652.009 400.559
LOS RIOS 1.393.410 845.348
STO DOMINGOI 468.607 336.508
CHIMBORAZO 2.186.659 1.586.950
TUNGURAHUA 1.420.894 1.084.236
CARCHI 5.293.465 3.388.128
CAÑAR 3.366.210 2.447.384
AZUAY 878.292 662.393
LOJA 2.547.784 1.656.662
SANTA ELENA 4.317.146 3.111.662
BOLIVAR 917.217 674.516
IMBABURA 463.892 306.494
PASTAZA 1.810.666 1.155.999
ORELLANA 230.427 170.997
ZAMORA 55.848 30.801
NAPO 48.985 26.450
ECUADOR 16.969.640 13.339.490

EJEMPLO 18

Representa mediante un gráfico de sectores la distribución de escaños en las


elecciones de 2017.

Partidos políticos Escaños


PP 183
PSOE 125
CIU 15
IU 8
EAJ-PNV 7
CC 4
Otros* 8

67
Solución:

Escaños

874
15 PP
8
PSOE

CIU

IU
183
125 EAJ-PNV

CC

Otros*

.
CÁLCULO DE LOS CUARTILES

2 Ordenamos los datos de menor a mayor.


3 Buscamos el lugar que ocupa cada cuartil mediante la expresión

.
 Número impar de datos
2, 5, 3, 6, 7, 4, 9

 Número par de datos


2, 5, 3, 4, 6, 7, 1, 9

CÁLCULO DE LOS CUARTILES PARA DATOS AGRUPADOS

68
En primer lugar buscamos la clase donde se encuentra , en la
tabla de las frecuencias acumuladas.

EJERCICIO DE CUARTILES
Calcular los cuartiles de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer cuartil

Cálculo del segundo cuartil

Cálculo del tercer cuartil

69
CÁLCULO DE LOS DECILES

En primer lugar buscamos la clase donde se encuentra , en la


tabla de las frecuencias acumuladas.

EJERCICIO DE DECILES

Calcular los deciles de la distribución de la tabla:


fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer decil

Cálculo del segundo decil

Cálculo del tercer decil

70
Cálculo del cuarto decil

Cálculo del quinto decil

Cálculo del sexto decil

Cálculo del séptimo decil

Cálculo del octavo decil

Cálculo del noveno decil

CÁLCULO DE LOS PERCENTILES

En primer lugar buscamos la clase donde se encuentra , en


la tabla de las frecuencias acumuladas.

71
EJERCICIO DE PERCENTILES
Calcular el percentil 35 y 60 de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35

Percentil 60

72
CAPITULO 3

Distribuciones muéstrales, estimación y muestreo.

Una estadística muestral proveniente de una muestra aleatoria simple tiene un


patrón de comportamiento (predecible) en repetidas muestras. Este patrón es
llamado la distribución muestral de la estadística. Si conocemos la distribución
maestral podemos hacer inferencia. Las distribuciones muestrales adoptan
diferentes formas según las estadísticas investigadas y las características de la
población estudiada.

La distribución muestral de la proporción muestral es la distribución de los


valores de las proporciones muestrales de todas las posibles muestras del mismo
tamaño n tomadas de la misma población.

DISTRIBUCIONES MUESTRALES PARA UNA POBLACIÓN


NORMAL

De todas las posibles distribuciones básicas es ,sin duda ,la distribución normal
la más importante por el gran número de poblaciones que se distribuyen así, real
o asintóticamente ,(en virtud de los Teoremas Límite).
Así pues ,en los subapartados siguientes ,consideraremos que conocemos la
distribución de la población y que ‚ ésta , es normal . Consideraremos
igualmente muestreo aleatorio simple (m.a.s.)

DISTRIBUCIÓN DE LA VARIANZA MUESTRAL

En lugar de obtener la distribución muestral del estadístico varianza muestral


L [S2] que nos llevaría a conclusiones próximas a las anteriormente descritas en
el apartado en el que la población no era normal, es más conveniente la
utilización de la variable aleatoria que recordemos, no es un estadístico, y que
contiene en su expresión a la varianza muestral y a la poblacional, de ahí su
utilidad dado que ambas quedan relacionadas con una distribución conocida; la
jhi-dos.
73
No demostramos la relación pero la recordamos dada su importancia posterior.

Distribución de la media muestral con varianza desconocida

En apartados anteriores estudiamos el comportamiento de la media muestral y


vimos que ésta dependía tanto del valor de la media poblacional, como de la
varianza poblacional, parece lógico pensar que si nuestro interés radica en
inferir comportamientos de la población partiendo de la muestra parece ilógico
pensar que conozcamos la varianza. De ahí la importancia de establecer una
distribución para la media muestral que la relacione únicamente con la
poblacional, lo que hará que conocida la muestral concreta podamos aventurar
el comportamiento de la poblacional.

Propiedades de los estimadores puntuales.

Un estimador es un estadístico (esto es, una función de la muestra) usado para


estimar un parámetro desconocido de la población. La media de la muestra ( )
puede ser un estimador de la media de la población µ, y la proporción de la
muestra se puede utilizar como un estimador de la proporción de la población.

Una estimación es un valor específico observado de un estadístico (estimador).


Podemos hacer dos tipos de estimaciones concernientes a una población: una
estimación de intervalo y una estimación puntual.

Estimación puntual.

Es un solo valor o número que se utiliza para estimar un parámetro de población


desconocido. A menudo una estimación puntual es insuficiente debido a que
solo se tienen dos opciones: es correcta o está equivocada. Se estaría haciendo
un estimación puntal si por ejemplo, un je de departamento de una universidad

74
afirmara “Nuestros datos actuales indican que en la materia de matemáticas
tendremos 350 estudiantes el siguiente semestre.

Propiedades.
Antes de utilizar un estadístico muestral como estimador puntual, se verifica si
el estimador puntual tiene ciertas propiedades que corresponden a un buen
estimador puntual.
Como hay distintos estadísticos muéstrales que se usan como estimadores
puntuales de sus correspondientes parámetros poblacionales, se usará la
notación general siguiente:
θ = Es el parámetro poblacional de interés.
= Es el estadístico muestral o estimador puntual de θ

En esta notación θ es la letra griega theta y la notación se lee “theta sombrero”.


En general θ representa cualquier parámetro poblacional como, por ejemplo, la
media poblacional, la desviación estándar poblacional, etc.; representa el
correspondiente estadístico muestral, por ejemplo la media muestral, la
desviación estándar muestral y la proporción muestral.

Las propiedades son:


 Insesgadez: Si el valor del estadístico muestral es igual al parámetro
poblacional que se estudia, se dice que el estudio muestral es una
estimador insesgado del parámetro poblacional.

PROPIEDADES DE LOS ESTIMADORES PUNTUALES.

Por lo tanto, el valor esperado, o media, de todos los posibles valores de un


estadístico maestral insesgado es igual al parámetro poblacional que se
estudia.

 Eficiencia: Se dice que el estimador puntual con menor error estándar


tiene mayor eficiencia relativa que los otros.

El estadístico muestral es un estimado insesgado del parámetro poblacional θ si


E ( ) = θ, donde E ( ) = valor esperado del estadístico muestral.

75
Cuando se muestrean poblaciones normales, el error estándar de la media
muestral es menor que el error estándar de la mediana muestral. Por tanto, la
media muestral es más eficiente que la mediana muestral.

 Consistencia: Un estimador puntual es consistente si el valer del


estimador puntual tiende a estar más cerca del parámetro poblacional
a medida que el tamaño de la muestra aumenta. En otras palabras, una
muestra grande tiende a proporcionar mejor estimación puntual que
una pequeña.

Estimadores puntuales insesgados.

SESGO

Otra propiedad razonable que podemos pedir al estimador de un parámetro θ es


que, en promedio, sus valores coincidan con θ. Cuando sucede esto decimos que
el estimador es centrado o insesgado.

Un símil coloquial que suele aplicarse a la estimación puntual es considerarla


como un ejercicio de tiro a una diana. En este sentido, el centro de la diana sería
el parámetro a estimar (θ). De manera los disparos de un tirador insesgado
estarían centrados alrededor del centro de la diana. Mientras que los disparos de
un tirador sesgado estarían sistemáticamente desviados de la diana (como
sucedería si el cañón de nuestra arma no estuviese recto).

76
Tirador insesgado Tirador sesgado

Podemos fijarnos que en la diana del tirador insesgado, el centro de masas de


los disparos coincide con el centro de la diana (que representa el verdadero valor
del parámetro). Como ya vimos anteriormente, el concepto de centro de masas
está relacionado con la esperanza de una variable aleatoria y, precisamente así,
obtenemos la definición formal de estimador insesgado: un estimador T de un
parámetro θ diremos que es centrado o insesgado si su esperanza es
precisamente θ.

Si, al contrario, tenemos un estimador U sesgado, la desviación respecto al


verdadero valor a estimar se mide por el sesgo:

De manera que el sesgo de un estimador puede ser:

 Positivo: Si producen, en promedio, estimaciones por exceso.


 Cero: Si es un estimador centrado o insesgado.
 Negativo: Si producen, en promedio, estimaciones por defecto.

 Un ejemplo de estimador insesgado es la media aritmética, que es un


estimador insesgado de la esperanza de una variable aleatoria.

 Un ejemplo de estimador sesgado es la varianza muestral, que es un


estimador sesgado de la varianza poblacional.

77
Por tanto

Con lo que el sesgo de este estimador será

Es decir, el sesgo es negativo y, por tanto, la varianza muestral es un estimador


de la varianza poblacional sesgado por defecto. Por dicha razón, suele utilizarse
la llamada varianza muestral corregida como estimador de la varianza
poblacional:

Que se comprueba trivialmente que sí es un estimador insesgado.

Intervalos de confianza para muestras grandes.

Introducción:
Se ha visto que un estimador es una función de las v. a. que integran una
muestra, por tanto, es una variable aleatoria con una determinada distribución.
Una estimación del parámetro  es el valor que toma el estimador ante una
realización muestral concreta (recordar el ejemplo del gasto diario en transporte
de una empresa que, una vez extraída una muestra, se obtuvo como estimación
78
del gasto 279€). La estimación puntual, generalmente no coincide con el
verdadero valor del parámetro, (pero si el estimador tiene buenas propiedades,
se obtendrá un valor muy próximo a  en la mayoría de las realizaciones
muestrales que se obtengan). Por tanto, sería deseable acompañar la estimación
del parámetro con una medida asociada al posible error que se pueda cometer.

Definición de intervalo de confianza

Un intervalo de confianza es un intervalo aleatorio cuyos extremos son


funciones de la muestra que nos garantiza con una confianza del (1-)% que el
verdadero valor del parámetro va a estar dentro del intervalo obtenido.

En realidad se trata de “dada una v.a. poblacional X cuya distribución depende


de  y dada una Muestra Aleatoria Simple (MAS) X1, X2, ... , Xn Obtener dos
estimadores ˆ1 y ˆ2 tales que P(ˆ1    ˆ2 )  1  
En donde (1-)% es el nivel de confianza y 1- es el coeficiente de confianza.

Obsérvese que el intervalo es aleatorio porque los extremos son variables


aleatorias, ya que el parámetro es desconocido pero fijo.

Ejemplo:
Se trata de encontrar un intervalo de confianza del 95% para estimar el gasto en
transporte de una determinada empresa, gasto que sabemos se distribuye de
forma normal de media µ y desviación típica 300.
Para ello se toma una muestra aleatoria simple de tamaño 100, por ejemplo, y
utilizamos la media muestral como el mejor estimador de la media poblacional
que sabemos que se distribuye

300 X 
X  N ( , )  N (  ,30) o, lo que es lo mismo, Z   N (0,1)
100 30

79
X 
Entonces buscamos dos valores 1 y 2 tales que P(1   2 )  0,95 y
30
observamos que, para que el intervalo sea lo más estrecho posible, es
necesario que 1 = -2 O sea, que 1   z / 2  1,96 y 2  z / 2  1,96 con lo
X 
que P(1,96   1,96)  0,95 que despejando µ se obtiene
30
P(1,96.30  X    1,96.30  X )  0,95 O sea P( X  58,8    X  58,8)  0,95 que
quiere decir que hemos encontrado dos estimadores ˆ  X  58,8 y ˆ  X  58,8
1 2

tales que P(ˆ1    ˆ2 )  1   =0,95

Por tanto, un intervalo de confianza viene determinado por:


a) El estimador del parámetro que se haya escogido.
b) El nivel de confianza 1 -  (generalmente del 90%, 95% o 99%)
c) La amplitud del intervalo L.
d) El tamaño de la muestra n.

Se verifica que la amplitud del intervalo vendrá determinado por las anteriores
características verificándose que, manteniendo el estimador escogido.

 A mayor nivel de confianza, mayor amplitud del intervalo.


 A mayor tamaño de la muestra, menor amplitud del intervalo.

80
 Y si se mantiene constante la amplitud del intervalo, para aumentar la
confianza hay que aumentar el tamaño muestral.

La precisión de un intervalo viene dada por su amplitud. Interesa que un


intervalo de confianza tenga la menor amplitud posible y la máxima confianza,
pero como ambas son contradictorias, se opta por soluciones intermedias.

Ejemplos.
Siguiendo con el ejemplo anterior, obtener un intervalo de confianza para la
media poblacional, con la misma muestra obtenida antes, pero para una
confianza del 99,7%. Determinar el intervalo de confianza que se obtendría si
aumentamos el tamaño de la muestra a 625.

Métodos de construcción de intervalos de confianza.

Hay varios métodos pero únicamente se va a exigir el denominado “método


del pivote”.

Se parte de una v.a. poblacional X  F ( x,  ) y se dan los siguientes pasos:


1.- Se elige el mejor estimador posible ˆ del parámetro .
2.- Se busca una función h(ˆ) del estimador cuya distribución sea conocida y
no dependa del parámetro .
3.- Se construye el intervalo tal que P(G  h(ˆ)  G1 )  1  

2

2

4.- Se obtiene el intervalo despejando el parámetro.

Nota: generalmente se van a obtener 1 y 2 que dejan a su izquierda y


derecha, respectivamente, una probabilidad de /2.

Intervalos de confianza en poblaciones normales.

a) Intervalo de confianza para la media con  conocida.

1 n
1.- Se elige el mejor estimador de  que es X   Xi
n i 1

81
X 
2.- Nos fijamos en la función h( X )    N (0,1) que no depende del
n
parámetro.

X 
3.- Se construye el intervalo P( z   z1 2 )  1  


2

n
4.- Se despeja el parámetro  y queda:
P( X  z 2     X  z1 2  )  1   con lo que el intervalo de confianza es
n n
( X  z 2  , X  z1 2  ) que es el que aparece en el libro de tablas.
n n

Ejemplo:
El peso de los cocos producidos por los arboles de una granja se distribuye de
forma normal, con media desconocida pero con  = 13 g. Se toma una muestra
de ellos y se obtiene que los pesos son: 700, 700, 680, 680, 690, 710, 670 y 700
gramos. Hallar un intervalo de confianza para la media con un nivel del 95%.

De una población normal N(,6) se selecciona una muestra aleatoria cuya


media es 25. Obtener un intervalo de confianza para la media poblacional 
en los siguientes casos.
a) Cuando el tamaño de la muestra es 16 y el nivel de confianza es del
90%.
b) Igual que antes pero con tamaño de muestra igual a 64.
c) Con tamaño de la muestra igual a 16, nivel de confianza del 90% pero
 = 10.
Con tamaño de la muestra n = 16, confianza del 95% y  = 6.

b) Intervalo de confianza para la media con  desconocida.

1 n
1.- Se elige el mejor estimador de  que es X   Xi
n i 1

82
X 
2.- Nos fijamos en la función h( X )   Tn1 que no depende del
Sc
n
parámetro .

X 
3.- Se construye el intervalo P(t    t1 2 )  1  
2 Sc
n
4.- Se despeja el parámetro  y queda:
P( X  t 2 Sc    X  t1 2 Sc )  1   con lo que el intervalo de confianza
n n

es ( X  t Sc
 , X  t1 2 Sc ) que es el que aparece en el libro de tablas.
2
n n

Ejemplo:

Un fabricante de una determinada marca de vehículos de lujo sabe que el


consumo de gasolina de sus vehículos se distribuye normalmente. Se selecciona
una muestra aleatoria de 6 coches y se observa el consumo cada 100 Km.
obteniendo las siguientes observaciones: 19,2, 19,4, 18,4, 18,6, 20,5 y 20,8
Obtener los intervalos de confianza para el consumo medio de gasolina de
todos los vehículos de esa marca, a los niveles de confianza del 90, 95 y 99%.

c) Intervalo de confianza para la varianza con media desconocida.

 X X
n
2
i
1.- Se elige el mejor estimador de 2 que es ˆ 2  Sc 2  i 1
n 1
(n  1) Sc 2
2.- Nos fijamos en la función h(ˆ 2 )    2 n1 que no depende del
2
parámetro 2.
(n  1) Sc 2
3.- Se construye el intervalo P(1   2 )  1   y se acepta que
2

1   n21; / 2 y que 2  n21;1   / 2 con lo que:

83
4.- Se despeja el parámetro 2 y queda:

(n  1) Sc 2 (n  1) Sc 2
P( 2  )  1   con lo que el intervalo de confianza es
 n21;1  / 2  n21; / 2

 (n  1) Sc 2 (n  1) Sc 2 
 , 2  que es el que aparece en el libro de tablas.
 2  
 n 1;1  / 2 n 1; / 2 

Ejemplo:
Utilizar los datos del ejercicio anterior para obtener un intervalo de
confianza para la varianza con un nivel del 95%.

Análogamente se procede en todos los demás casos que aparecen en el


libro de tablas cuando la población se distribuye según una distribución
normal.

Intervalos de confianza en poblaciones que no son normales.

Intervalo de confianza para una proporción (muestras grandes)


X
Como el mejor estimador de la proporción es la proporción muestral pˆ  en
n
donde X es una distribución binomial de parámetros n y p, que al ser n muy
grande, se puede aproximar por una normal. Se verifica que
 p(1  p)  pˆ  p
pˆ  N  p,  O sea:
  N (01) con lo que
 n  pq
n

 
 
 pˆ  p
P  z / 2   z / 2   1   de donde se obtiene el intervalo
 pq 
 
 n 

84
 pq pq 
P pˆ  z / 2  p  pˆ  z / 2   1   pero al ser p y q desconocidos se
 n n 
emplea la expresión anterior pero tomando como valor de p su estimación. Es
 pˆ qˆ pˆ qˆ 
decir, que el intervalo quedaría: P pˆ  z / 2  p  pˆ  z / 2   1
 n n 

Estimación del tamaño muestral.

Muchas veces interesa elegir, junto con el nivel de confianza, un intervalo de


confianza de una determinada longitud y determinar cuál debería ser el tamaño
muestral adecuado.

El procedimiento es sencillo, basta obtener la longitud del intervalo y despejar


n. Por ejemplo:

Caso de intervalo de confianza para la media con  conocida.


2
La longitud L  X  z    ( X  z 2  )  2 z 2  luego n  4 z 2 
L2
2
2
n n n

Ejemplo:
La longitud de los tornillos fabricados por una determinada máquina se
distribuye según una distribución normal con desviación típica  = 2 mm. Con
el fin de obtener un intervalo del 99% de confianza para la longitud media de
los tornillos producidos durante un día determinado se toma una muestra
aleatoria de 10 tornillos cuya longitud media resultó ser de 96 mm. Calcular el
correspondiente intervalo con estos datos y determinar el tamaño de la muestra
para construir un intervalo al 99% de confianza para la longitud de los tornillos
pero que tenga una amplitud de 2 mm.

85
Precisión, error y amplitud de un intervalo de confianza.

Generalmente, se emplea el término precisión para referirse a la amplitud del


intervalo y, en el caso de intervalos correspondientes a distribuciones
simétricas, el error de un intervalo es la mitad de la amplitud.

Selección del Tamaño de la Muestra.

Determinar el tamaño de la muestra que se va a seleccionar es un paso


importante en cualquier estudio de investigación de mercados, se debe justificar
convenientemente de acuerdo al planteamiento del problema, la población, los
objetivos y el propósito de la investigación.
¿De qué depende el tamaño muestral?
El tamaño muestral dependerá de decisiones estadísticas y no estadísticas,
pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el
equipo que estará en campo.
Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

Tamaño de la población. Una población es una colección bien definida de


objetos o individuos que tienen características similares. Hablamos de dos tipos:
población objetivo, que suele tiene diversas características y también es
conocida como la población teórica. La población accesible es la población
sobre la que los investigadores aplicaran sus conclusiones.

Margen de error (intervalo de confianza). El margen de error es una estadística


que expresa la cantidad de error de muestreo aleatorio en los resultados de una
encuesta, es decir, es la medida estadística del número de veces de cada 100 que
se espera que los resultados se encuentren dentro de un rango específico.

Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor
con una determinada probabilidad alta. Por ejemplo, un intervalo de confianza
de 95% significa que los resultados de una acción probablemente cubrirán las
expectativas el 95% de las veces.

86
La desviación estándar. Es un índice numérico de la dispersión de un conjunto
de datos (o población). Mientras mayor es la desviación estándar, mayor es la
dispersión de la población.

Cálculo del tamaño de la muestra desconociendo el tamaño de la población

La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño


de la población es la siguiente:

En donde

Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)

Cálculo del tamaño de la muestra conociendo el tamaño de la población

La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de


la población es la siguiente:

En donde,
N = tamaño de la población
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (Error máximo admisible en términos de proporción).

87
Tipos de muestreo

El muestreo es una herramienta para determinar qué parte de una población


debemos analizar cuando no es posible realizar un censo. Depende de los
objetivos del estudio el elegir una muestra probabilística o no probabilística.

Muestreo probabilístico
Se basa en el principio de equiprobabilidad, esto quiere decir que todos los
individuos de la muestra seleccionada, tendrán las mismas probabilidades de ser
elegidos. Lo anterior nos asegura que la muestra extraída contará con
representatividad.

Intervalos de confianza para sigma.

La desviación típica o desviación estándar (denotada con el símbolo σ o s,


dependiendo de la procedencia del conjunto de datos) es una medida de
dispersión para variables de razón (variables cuantitativas o cantidades
racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de
la variable.
Para conocer con detalle un conjunto de datos, no solo basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que presentan los datos en su distribución respecto de la media
aritmética de dicha distribución, con objeto de tener una visión de los mismos
más acorde con la realidad al momento de describirlos e interpretarlos para la
toma de decisiones.

Muestreo aleatorio simple.

Definición:

Un muestreo aleatorio simple de tamaño n es una muestra de n unidades


seleccionadas de tal manera que cada muestra posible de tamaño n tiene la
misma probabilidad de ser seleccionada.

Muestras de distinto tamaño pueden tener diferentes probabilidades de ser


seleccionadas.
88
Números aleatorios

Una tabla de números aleatorios es una lista de los dígitos 0, 1, ..., 9, que tiene
las siguientes propiedades:

1. Cualquier dígito en cualquier posición de la tabla tiene la misma


probabilidad de ser 0, 1, ..., 9.

2. Los dígitos en posiciones diferentes son independientes en el sentido de


que el valor de uno no tiene influencia en el valor del otro.

Muestreo Aleatorio Simple

Suponga que nos interesa estudiar el número de mujeres en un


población.

Formen grupos de 10 estudiantes.


La población de interés es su grupo.

Seleccione una m.a.s. de tamaño n=3 de su grupo.


Pasos:

1. Escriban los nombres de las personas en el grupo.


2. Asignen un número de identificación a cada persona del grupo.
3. Seleccione la muestra usando la tabla de números aleatorios.

Tabla: Comiencen en la fila 13, columna 1

Denotaremos por P la proporción de mujeres en su población.


Número de mujeres en su población
Calcule la proporción de mujeres en su población:

# de mujeres población
P 
N

89
Resultados de la muestra aleatoria simple de tamaño n=3 ...

Proporción de mujeres en la muestra:

# de mujeres en muestra
pˆ  
n

Pensemos:

Parece simple seleccionar una m.a.s.?

Es siempre posible?

Cuando es difícil?

Como será numerar las unidades si el tamaño de la población fuera 78? 292?
4000?

Será simple usar la tabla o la calculadora o computador?

Muestreo sistemático.

El muestreo sistemático es una técnica de muestreo aleatorio que los


investigadores eligen con frecuencia por su sencillez y calidad regular.

En el muestreo aleatorio sistemático, el investigador primero escoge


aleatoriamente la primera pieza o sujeto de la población. A continuación, el
investigador seleccionará a cada enésimo sujeto de la lista.

90
El procedimiento del muestreo aleatorio sistemático es muy fácil y se puede
hacer manualmente. Los resultados son representativos de la población a menos
que se repitan ciertas características de la población por cada enésimo individuo,
lo que es muy poco probable.

El proceso de obtención de la muestra sistemática es muy similar a una


progresión aritmética.

Número de inicio:
El investigador selecciona un número entero que debe ser menor al número total
de individuos en la población. Este número entero corresponderá al primer
sujeto.
Intervalo:
El investigador elige otro número entero que servirá como la diferencia
constante entre dos números consecutivos en la progresión.
El número entero se selecciona típicamente de modo que el investigador
obtenga el tamaño de la muestra correcto.

Por ejemplo, el investigador tiene una población total de 100 individuos y


necesita 12 sujetos. Primero elige su número de partida, 5.

Luego, el investigador elige su intervalo, 8. Los miembros de su muestra serán


los individuos 5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93.

Otros investigadores utilizan una técnica de muestreo aleatorio sistemático


modificada en donde primero identifican el tamaño de la muestra necesario. A
continuación, dividen el número total de la población por el tamaño de la
muestra para obtener la fracción de muestreo. La fracción de muestreo luego se
utiliza como la diferencia constante entre los sujetos.

Ventajas del muestreo sistemático


La principal ventaja de utilizar un muestreo sistemático sobre un muestreo
aleatorio simple es su sencillez. Permite que el investigador añada un grado de
sistema o proceso en la selección aleatoria de los sujetos.

91
Otra ventaja del muestreo aleatorio sistemático sobre el muestreo aleatorio
simple es la garantía de que el muestreo se hará equitativamente sobre la
población. Existe una posibilidad de un muestreo aleatorio simple que permite
una selección por conglomerados de sujetos. Esto es eliminado
sistemáticamente en el muestreo sistemático.

EJERCICIOS

1. Una muestra aleatoria de 9 tarrinas de helado proporciona los siguientes pesos


en gramos: 88 90 90 86 87 88 91 92 89.
Hallar un intervalo de confianza al 95% para la media de la población, sabiendo
que el peso de las tarrinas tiene una distribución normal con una desviación
típica de 1,8 gramos.

2. El tiempo de conexión a internet de los alumnos de cierta universidad, sigue


una distribución normal con una desviación típica de 15 minutos. Para estimar
la media del tiempo de conexión, se quiere calcular un intervalo de confianza
que tenga una amplitud menor o igual a 6 minutos, con un nivel de confianza
del 95 %.
Determina cuál es el tamaño mínimo de la muestra que es necesario observar.

92
:

2.- Se trata de encontrar un intervalo de confianza del 95% para estimar el


gasto en transporte de una determinada empresa, gasto que sabemos se
distribuye de forma normal de media µ y desviación típica 300.

Para ello se toma una muestra aleatoria simple de tamaño 100, por ejemplo,
y utilizamos la media muestral como el mejor estimador de la media
poblacional que sabemos que se distribuye
300 X 
X  N ( , )  N (  ,30) o, lo que es lo mismo, Z   N (0,1)
100 30

93
X 
Entonces buscamos dos valores 1 y 2 tales que P(1   2 )  0,95 y
30
observamos que, para que el intervalo sea lo más estrecho posible, es necesario
que 1 = -2 O sea, que
X 
1   z / 2  1,96 y 2  z / 2  1,96 con lo que P(1,96   1,96)  0,95 que
30
despejando µ se obtiene P(1,96.30  X    1,96.30  X )  0,95 O sea
P( X  58,8    X  58,8)  0,95 que quiere decir que hemos encontrado dos
estimadores ˆ  X  58,8 y ˆ  X  58,8 tales que P(ˆ    ˆ )  1   =0,95
1 2 1 2

3.- Si la media de la muestra es 100 y la desviación estándar es 10, el


intervalo de confianza al 95% donde se encuentra la media para una
distribución normal es:
100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025

El 95% de Nivel de Confianza significa que sólo tenemos un 5% de


oportunidad de obtener un punto fuera de ese intervalo.

Esto es el 5% total, o 2.5% mayor o menor. Si vamos a la tabla Z veremos


que para un área de 0.025, corresponde a una Z de 1.960.

94
C. I. Multiplicador Z/2
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282

Para tamaños de muestra >30, o  conocida usar la distribución Normal


Para muestras de menor tamaño, o  desconocida usar la distribución t

El ancho del intervalo de confianza decrece con la raiz cuadrada del tamaño de
la muestra.

4.- Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi
Estimar la media puntual
X media = 28.08 con S = 1.02

Estimar el intervalo de confianza para un nivel de confianza del 95% (t =


3.182 con n-1=3 grados de libertad)
Xmedia±3.182*S/√n = 28.08±3.182*1.02/2=(26.46, 29.70)

95
CAPITULO IV
ANÁLISIS DE REGRESIÓN SIMPLE.
Estimación mediante la línea de regresión.

Con frecuencia, las variables que constituyen una distribución


bidimensional muestran un cierto grado de dependencia entre ellas. Un ejemplo
típico de esta relación aparece en las tablas de peso y altura de los grupos de
población: aunque no existe una ley causal que relacione ambas variables, en
términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la
altura, suele hacerlo también el peso). Esta dependencia se refleja en la nube de
puntos que representa a la distribución, de modo que los puntos de esta gráfica
aparecen condensados en algunas zonas.

La concentración de puntos en algunas regiones de la nube refleja la existencia


de una dependencia estadística, y la posibilidad de definir una ecuación de
regresión.
En tales casos, se pretende definir una ecuación de regresión que sirva para
relacionar las dos variables de la distribución. La representación gráfica de esta
ecuación recibe el nombre de línea de regresión, y puede adoptar diversas
formas: lineal, parabólica, cúbica, hiperbólica, exponencial, etcétera.
Regresión lineal
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede
ajustarse a esta forma geométrica por medio de un método general conocido
como método de los mínimos cuadrados. La recta de ajuste tendrá por ecuación
y = ax + b, donde los coeficientes a y b se calculan teniendo en cuenta que:
 La recta debe pasar por el punto ( ).
 La separación de los puntos de la gráfica de dispersión con respecto a la
recta de regresión debe ser mínima.
Estas dos condiciones conducen a una recta de ajuste expresada por la ecuación:
96
Donde es la media aritmética de la primera variable, la media aritmética de
la segunda variable, sx la desviación típica de la primera variable y sxy un valor
denominado covarianza, que se define por la expresión:

Diagrama de dispersión.

Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un


tipo de diagrama matemático que utiliza las coordenadas cartesianas para
mostrar los valores de dos variables para un conjunto de datos.

Se emplea cuando una variable está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente
y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas).
La variable medida o dependiente usualmente se representa a lo largo del eje
vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier
variable se puede representar en cada eje y el diagrama de dispersión mostrará
el grado de correlación (no causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las


variables con un intervalo de confianza determinado. La correlación puede ser
positiva (aumento), negativa (descenso), o nula (las variables no están
correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea
de tendencia") con el fin de estudiar la correlación entre las variables. Una
ecuación para la correlación entre las variables puede ser determinada por
procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste
es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.

Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es


su capacidad para mostrar las relaciones no lineales entre las variables. Además,
si los datos son representados por un modelo de mezcla de relaciones simples,

97
estas relaciones son visualmente evidentes como patrones superpuestos.

El diagrama de dispersión es una de las herramientas básicas de control de


calidad, que incluyen además el histograma, el diagrama de Pareto, la hoja de
verificación, los gráficos de control, el diagrama de Ishikawa y el diagrama de
flujo.

Método de mínimos cuadrados.

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la


optimización matemática, en la que, dados un conjunto de pares ordenados
variable independiente, variable dependiente y una familia de funciones, se
intenta encontrar la función continua, dentro de dicha familia, que mejor se
aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo
error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las


diferencias en las ordenadas (llamadas residuos) entre los puntos generados por
la función elegida y los correspondientes valores en los datos. Específicamente,
se llama mínimos cuadrados promedio (LMS) cuando el número de datos
medidos es 1 y se usa el método de descenso por gradiente para minimizar el
residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado

98
esperado, con el mínimo de operaciones (por iteración), pero requiere un gran
número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el


método de mínimos cuadrados es que los errores de cada medida estén
distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los
estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos
no tiene que ajustarse, por ejemplo, a una distribución normal. También es
importante que los datos a procesar estén bien escogidos, para que permitan
visibilidad en las variables que han de ser resueltas (para dar más peso a un dato
en particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas.


Muchos otros problemas de optimización pueden expresarse también en forma
de mínimos cuadrados, minimizando la energía o maximizando la entropía.

Intervalo de predicción.

El concepto de intervalo predictivo es muy similar al de intervalo de confianza.


En este caso, una vez que hemos estimado el valor de la población a partir de
una muestra, el intervalo predictivo nos dirá entre que límites estará una
99
proporción de sujetos elegidos al azar de esa población, con un grado de
probabilidad determinada.
Si la variable que estamos midiendo sigue una distribución normal
(generalmente podemos aproximar a una normal si el tamaño de la muestra es
grande), el valor del 95% de los sujetos estará entre la media ± dos veces la
desviación típica. Bastante parecido al intervalo de confianza, pero con dos
diferencias claras.

Primero, el predictivo utiliza la desviación estándar en lugar del error estándar


del intervalo de confianza. Como la desviación típica es siempre mayor que el
error estándar, los intervalos predictivos serán siempre más amplios que los de
confianza para el mismo nivel de incertidumbre. Segundo, para calcular el
intervalo de confianza tenemos que medir previamente el valor en una o varias
muestras, mientras que el intervalo predictivo se calcula a priori, antes de
extraer el sujeto o sujetos de la población.

Intervalos de predicción para la distribución binomial

Para los datos de tipo atributo, la distribución binomial es una de las más
importantes y más ampliamente aplicadas en toda la práctica estadística. Se usa
cuando hay una probabilidad de "evento" fija p, un tamaño de muestra n una
variable aleatoria r igual a la cantidad de ítems en la muestra que tienen la
característica definida para el "evento". La probabilidad p se llama probabilidad
de "éxito" pero no es necesario que sea un tipo de evento deseable. En el
contexto de intervalo de predicción, el valor de p es desconocido. Para n objetos
en una muestra, uno puede observar como mínimo 0 y como
máximo n "éxitos". A menudo, un evento de "éxito" está relacionado con un
atributo de calidad como por ejemplo no cumplir con un requisito. Los
profesionales también llaman a esto tipo de muestreo pasa/no pasa.
100
El problema puede plantearse de la siguiente manera. Tenemos una muestra
inicial de tamaño n y se han observado r "eventos" entre n inspecciones. En
una futura muestra de tamaño m, observaremos cierta cantidad de eventos y. Es
recomendable construir un intervalo que contenga y con alguna confianza
indicada, por ejemplo C. El intervalo se llama intervalo de predicción para la
observación futura y. Supongamos que = r/n es la estimación del promedio de
proceso desconocido p, basada en el tamaño inicial de la muestra n. Y m es el
tamaño futuro de la muestra, y el coeficiente de confianza es C = 1 - α. La
siguiente fórmula se utiliza para construir el intervalo de predicción de dos lados
para la cantidad de eventos futuros.

(1)

En la Ecuación 1, la cantidad Zα/2 es un cuantil seleccionado de una distribución


normal estándar que deja un área de α/2 a la derecha deZα/2. De este modo, si se
desea un 95% de confianza, α = 0.05 y Z0.025 = 1.96. La Ecuación 1 surge del
hecho que la estimación tendrá una distribución normal en aplicaciones
repetidas, siempre que el número de eventos observados en la muestra inicial
sea cinco o más. Para obtener más detalles, ver Referencia 3 ó 4.

Ejemplo 1

Una medición de la calidad para una determinada operación en una gran


empresa es medir la cantidad de lotes de material rechazados por la operación
de inspección de recepción de la empresa. Esta información se mide y se
informa a la gerencia mensualmente. El registro reciente indica que el último
mes siete de 107 envíos fueron rechazados. El mes próximo, la empresa espera
recibir 84 lotes. Suponiendo que la calidad de los lotes entrantes siga siendo la
misma, ¿qué cantidad y de lotes rechazados anticipamos que ocurrirá en las

101
inspecciones del mes próximo con un 90% de confianza? En este caso, n =
107, m = 84, = 7/107 = 0.0654, α = 0.1 y Z0.05 = 1.645. Usando la Ecuación 1,
el intervalo de predicción resultante para y es:

5.42 ± 4.95 o alrededor de 0.47 a 10.37.

Redondeamos este resultado a números enteros como 0≤ y ≤ 11. Así, podemos


esperar entre 0 y 11 mientras el proceso siga en control estadístico, y el
promedio de proceso desconocido pno cambie.

Intervalos de predicción para la distribución de Poisson

Para la distribución de Poisson, las observaciones se hacen en una región de


inspección que puede basarse en tiempo, área, espacio, cantidad de objetos o
alguna otra descripción de región. La cantidad de eventos que observamos
puede ser cualquier número entero como mínimo 0. El parámetro desconocido
en esta distribución es el índice de ocurrencia de eventos λ. Si se
observan r eventos en una región inicial de tamaño s, la estimación de este
índice es λ = r/s. En una región de inspección futura de tamaño t, observaremos
algún número y de eventos. Se desea construir un intervalo de predicción para
la variable y.

En este método, suponemos que r es como mínimo 10-15 o más. Esto garantiza
que la estadística se distribuirá aproximadamente de manera normal. Seguimos
utilizando un coeficiente de confianza de C = 1 - α. El intervalo de predicción
para y, la cantidad de eventos futuros en la región de tamaño t, se construye
según la Ecuación 2 a continuación.
102
𝜆𝑡(𝑠 + 𝑡)
𝜆𝑡 ± 𝑍𝛼⁄2 √
𝑆

Ejemplo 2

Una compañía que está planificando futuros reemplazos de ciertos componentes


usados en torres de telefonía celular, desearía usar los datos de los últimos dos
años para hacer una predicción para el año próximo. En los últimos 24 meses
han sido necesarios 29 reemplazos. Si todo sigue igual, ¿cuántos reemplazos
podemos esperar para el año próximo con una confianza del 95%?

En este caso, los datos actuales provienen de un intervalo de longitud s = 24


meses. La cantidad de eventos observada en este periodo es r = 29. La
proporción estimada es por lo tanto λ = 29/24 = 1.208 eventos por mes. El
periodo futuro es t = 12 meses y la confianza deseada es C = 95%. El valor
de Z es Z0.025 = 1.96. Usando la Ecuación 2, el intervalo de predicción se
construye como:

14.5 ± 4.7 o alrededor de 9.8 a 19.2.

Redondeamos este resultado a números enteros como 10≤ y ≤ 19. De este modo,
podemos esperar aproximadamente entre 10 y 19 reemplazos en los próximos
12 meses en la medida que el proceso siga bajo control estadístico y no cambie
el promedio (índice) del proceso. Es importante destacar que al trabajar con
índices, s, t y la estimación del índice deben estar expresados en la misma
unidad para poder usar la Ecuación 2. En este ejemplo, las unidades eran meses.

103
Intervalos de predicción aproximados.

Una forma de ver el error estándar de la estimación es concebirla como la


herramienta estadística que podemos usar para hacer un enunciado de
probabilidad sobre el intervalo alrededor del valor
^
Estimado de Y , dentro del cual cae el valor real de Y.

Cuando la muestra es mayor de 30 datos, se calcula los intervalos de


predicción aproximados de la siguiente manera: si queremos estar seguros en
aproximadamente 65% de que el valor real de Y caerá dentro de + 1 error
estándar de Y . Podemos calcular los límites superior e inferior de este
intervalo de predicción de la siguiente manera:
^
Y 1Se = Límite superior del intervalo de predicción
Y 1Se = Límite inferior del intervalo de predicción

Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de que el


dato real estar dentro de + 2 errores estándar de la estimación de Y . Podríamos
calcular los límites de este intervalo de la siguiente manera:

Y 2Se = Límite superior del intervalo de predicción


Y 2Se = Límite inferior del intervalo de predicción

y por último decimos que estamos seguros en aproximadamente el 99.7%


cuando usamos + 3 errores estándar de la estimación de Y Podríamos calcular
los límites de este intervalo de la siguiente manera:

^
Y 3Se = Límite superior del intervalo de predicción
Y 3Se = Límite inferior del intervalo de predicción

104
Análisis de correlación
En probabilidad y estadística, la correlación indica la fuerza y la dirección de
una relación lineal y proporcionalidad entre dos variables estadísticas. Se
considera que dos variables cuantitativas están correlacionadas cuando los
valores de una de ellas varían sistemáticamente con respecto a los valores
homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre
ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La
correlación entre dos variables no implica, por sí misma, ninguna relación de
causalidad (Véase cum hoc ergo propter hoc).

La correlación estadística constituye una técnica estadística que nos indica si


dos variables están relacionadas o no.

Por ejemplo, considera que las variables son el ingreso familiar y el gasto
familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos. Por
lo tanto, están relacionados en el sentido de que el cambio en cualquier variable
estará acompañado por un cambio en la otra variable.
De la misma manera, los precios y la demanda de un producto son variables
relacionadas; cuando los precios aumentan la demanda tenderá a disminuir y
viceversa.

Si el cambio en una variable está acompañado de un cambio en la otra, entonces


se dice que las variables están correlacionadas. Por lo tanto, podemos decir que
el ingreso familiar y gastos familiares y el precio y la demanda están
correlacionados.

Relación Entre las Variables

La correlación puede decir algo acerca de la relación entre las variables. Se

105
utiliza para entender:
1. Si la relación es positiva o negativa
2. La fuerza de la relación.
La correlación es una herramienta poderosa que brinda piezas vitales de
información.

En el caso del ingreso familiar y el gasto familiar, es fácil ver que ambos suben
o bajan juntos en la misma dirección. Esto se denomina correlación positiva.

En caso del precio y la demanda, el cambio se produce en la dirección opuesta,


de modo que el aumento de uno está acompañado de un descenso en el otro.
Esto se conoce como correlación negativa.

Fuerza, sentido y forma de la correlación

La relación entre dos variables cuantitativas queda representada mediante la


línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una línea de ajuste y, por lo tanto, de una
correlación, son la fuerza, el sentido y la forma:

 La fuerza.- Extrema según el caso, mide el grado en que la línea


representa a la nube de puntos: si la nube es estrecha y alargada, se
representa por una línea recta, lo que indica que la relación es fuerte; si
la nube de puntos tiene una tendencia elíptica o circular, la relación es
débil.
 El sentido.- Mide la variación de los valores de B con respecto a A: si al
crecer los valores de A lo hacen los de B, la relación es directa (pendiente
positiva); si al crecer los valores de A disminuyen los de B, la relación es
inversa (pendiente negativa).
 La forma.- Establece el tipo de línea que define el mejor ajuste: la línea
recta, la curva monotónica o la curva no monotónica

Coeficiente de correlación

La es medida por lo que se denomina coeficiente de correlación (r). Su valor


numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
106
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa,
mientras que r = 0 indica que no hay relación (o que las variables son
independientes y no están relacionadas). Aquí, r = 1,0 describe una correlación
positiva perfecta y r = -1,0 describe una correlación negativa perfecta.

Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de
la relación entre las variables.

Como norma general, las siguientes directrices sobre la fuerza de la relación son
útiles (aunque muchos expertos podrían disentir con la elección de los límites).

Valor de r Fuerza de relación


-1,0 A -0,5 o 1,0 a 0,5 Fuerte
-0,5 A -0,3 o 0,3 a 0,5 Moderada
-0,3 A -0,1 o 0,1 a 0,3 Débil
-0,1 A 0,1 Ninguna o muy débil

La correlación es solamente apropiada para examinar la relación entre datos


cuantificables significativos (por ejemplo, la presión atmosférica o la
temperatura) en vez de datos categóricos, tales como el sexo, el color favorito,
etc

Desventajas
Si bien 'r' (coeficiente de correlación) es una herramienta poderosa, debe ser
utilizada con cuidado.

1. Los coeficientes de correlación más utilizados sólo miden una relación lineal.
Por lo tanto, es perfectamente posible que, si bien existe una fuerte relación
no lineal entre las variables, r está cerca de 0 o igual a 0. En tal caso, un
diagrama de dispersión puede indicar aproximadamente la existencia o no de
una relación no lineal.
2. Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podría
calcular 'r' entre el número de calzado y la inteligencia de las personas, la
altura y los ingresos. Cualquiera sea el valor de 'r', no tiene sentido y por lo
tanto es llamado correlación de oportunidad o sin sentido.

107
3. 'R' no debe ser utilizado para decir algo sobre la relación entre causa y efecto.
Dicho de otra manera, al examinar el valor de 'r' podríamos concluir que las
variables X e Y están relacionadas. Sin embargo, el mismo valor de 'r no nos
dice si X ínfluencia a Y o al revés. La correlación estadística no debe ser la
herramienta principal para estudiar la causalidad, por el problema con
las terceras variables.

EJERCICIO:

Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo


está relacionado con su número. Calcular el coeficiente de correlación y
graficar. Los datos de tiempo tomados para n = 25 servicios se muestran a
continuación:

X Servicios Y Tiempo (Xi-X)*(Yi-Y) (Xi-X)^2 (Yi-Y)^2 Yest Error


2 9.95 119.076672 38.9376 364.1533 10.9199 0.9408
8 24.45 1.099872 0.0576 21.0021 28.3362 15.1022
11 31.75 7.499472 7.6176 7.3832 37.0443 28.0292
10 35.00 10.502272 3.0976 35.6075 34.1416 0.7369
8 25.02 0.963072 0.0576 16.1026 28.3362 10.9969
4 16.86 51.612672 17.9776 148.1771 16.7253 0.0181
2 14.38 91.433472 38.9376 214.7045 10.9199 11.9721
2 9.60 121.260672 38.9376 377.6337 10.9199 1.7422
9 24.35 -3.558928 0.5776 21.9286 31.2389 47.4563
8 27.50 0.367872 0.0576 2.3495 28.3362 0.6991
4 17.08 50.679872 17.9776 142.8694 16.7253 0.1258
11 37.00 21.989472 7.6176 63.4763 37.0443 0.0020
12 41.95 48.568672 14.1376 166.8541 39.9470 4.0121
2 11.66 108.406272 38.9376 301.8142 10.9199 0.5477
4 21.65 31.303072 17.9776 54.5057 16.7253 24.2523
4 17.89 47.245472 17.9776 124.1620 16.7253 1.3564

108
20 69.00 470.014272 138.2976 1,597.3771 63.1686 34.0052
1 10.30 135.625472 52.4176 350.9178 8.0172 5.2111
10 34.93 10.379072 3.0976 34.7770 34.1416 0.6216
15 46.59 118.686672 45.6976 308.2553 48.6551 4.2646
15 44.88 107.127072 45.6976 251.1337 48.6551 14.2512
16 54.12 194.676672 60.2176 629.3676 51.5578 6.5649
17 56.63 241.751472 76.7376 761.6054 54.4605 4.7068
6 22.13 15.462272 5.0176 47.6486 22.5307 0.1606
5 21.15 25.540272 10.4976 62.1385 19.6280 2.3164
206 725.82 2,027.7132 698.5600 6,105.9447 220.0926
SX SY Sxy Sxx Syy = SST SSE
X promedio Y Promedio SXi-X)*(Yi-Y) S(Xi-X)^2 S(Yi-Y)^2

Sxy Sxx Syy

Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal


sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal
forma que se minimice la distancia total entre puntos y la recta. Los cálculos
tomando las sumas de cuadrados siguientes se muestran a continuación:

Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94

Las ecuaciones para el cálculo manual son las siguientes:

b1  ̂1 
 ( Xi  X )(Yi  Y )  S XY
= 2.902704421
 ( Xi  X ) 2
S XX

109
b0  ˆ0 
Y
i  ˆ1  X i
 Y  ˆX = 5.114515575
n

Las sumas de cuadrados son:

SST   (Yi  Y ) 2  6,105.9447

SSE   (Yi  Yˆi ) 2  (Yi  (bo  b1* X i )) 2  220.0926

SSR  SST  SSE  5,885.8521

El coeficiente de determinación r2 y el coeficiente de correlación r se calculan


a continuación:

SSE ( SST  SSE ) SSR


r2  1   = 0.9639
SST SST SST

El coeficiente de determinación indica el porcentaje de la variación total que es


explicada por la regresión.

r  r 2 = 0.9816

El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos


a la línea recta indicando el nivel de influencia de una variable en la otra. El
factor de correlación r es un número entre –1 (correlación negativa evidente) y
+1 (correlación positiva evidente), y r = 0 indicaría correlación nula.

110
El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia
estadística para afirmar que el tiempo de atención esta relacionado con el
número de servicios atendidos.
EJERCICIO 2
Suponga que el gerente de una cadena de servicios de entrega de
paquetería desea desarrollar un modelo para predecir las ventas semanales (en
miles de dólares) para las tiendas individuales basadas en el número de clientes
que realizan las compras. Se seleccionó una muestra aleatoria entre todas las
tiendas de la cadena con los siguientes resultados

Pronostique las ventas semanales (en miles de dólares) para las tiendas que
tienen 600 clientes. Las ventas serian de algunos 7,500 dólares por como se ve
en la tabla la posición de las ventas y de los clientes.

Xi= ∑ X/ n
14623/20= 731.15

111
Yi=∑ Y/ n
176.02/20= 8.801

√ ² Σ(x-xi)2 /n-1
√ ² =11298592.6 /19 = 594662.7684

S=√ 594662.7684= 771.1438


√ ² Σ (y-yi)2/n-1
√ ²=1164.3893 / 19 =61.2836

S= √ 7.8283

Covarianza
Sxy = Σ (xi - x)(yi - y) / n -1

Sxy = 5132.3837 / 19 = 270.1254

Coeficiente de correlación
r = Sxy / SxSy
270.1254/ (771.1438)(7.8283) = 0.0447468

Ejercicio 3

En una empresa de televenta se ha anotado el plazo de entrega, en días, que


anunciaban en los productos y el plazo real, también en días, de entrega de estos,
obteniendo la siguiente tabla:

Representa los datos mediante una nube de puntos e indica cuál de estos
números te parece más apropiado para el coeficiente de correlación: 0,87;
0,2; 0,87; 0,2.

Solución:

112
Vemos que la relación entre las variables es ligeramente positiva, pero muy
baja. Por tanto,
r 0,2.

Ejercicio 4

En seis modelos de zapatillas deportivas se ha estudiado el peso, en gramos, que


tiene (para el número 42) y su precio, en euros. La información obtenida se
recoge en esta tabla:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación


entre las dos variables?

Solución:

113
Medias:

3800
x   633,33
6
370
y   61,67
6

Desviaciones típicas:

2408.050
x   633,33 2  234,78  15,32
6
26000
y   61,67 2  530,14  23,02
6

Covarianza:

234650
 xy   633,33  61,67  50,87   xy  50,87
6

Coeficiente de correlación:

50,87
r   0,14  r  0,14
15,32  23,02

La relación entre las variables es muy débil. Podemos decir que no están
relacionadas.

Ejercicio 5

Se ha analizado en distintos modelos de impresoras cuál es el coste por página


(en céntimos de euro) en blanco y negro y cuál es el coste por página si esta es
en color. La siguiente tabla nos da los seis primeros pares de datos obtenidos:

a) Halla la recta de regresión de Y sobre X.


114
b) ¿Cuánto nos costaría imprimir una página en color en una impresora en
la que el coste por página en blanco y negro fuera de 12 céntimos de euro?
¿Es fiable la estimación? (Sabemos que r 0,97).

Solución:

a)

Medias:

81
x  13,5
6
394
y   65,67
6

Varianza de X:

1211
 x2   13,5 2  19,58
6

Covarianza:

5986
 xy   13,5  65,67  111,12
6

Coeficiente de regresión:

 xy 111,12
myx    5,68
 x2 19,58

Ecuación de la recta de regresión de Y sobre X:


115
y  65,67  5,68 x  13,5  y  5,68 x  11,01

b) yˆ  12   5,68  12  11,01  yˆ  12   57,15 céntimos de euro

Como la correlación es alta, r 0,97, y x 12 queda dentro del intervalo de


valores que tenemos, la estimación sí es fiable. Si el coste de la página en blanco
y negro es de 12 céntimos de euro, muy probablemente costará 57,15 céntimos
de euro imprimirla en color.

Ejercicio 6

En una academia para aprender a conducir se han estudiado las semanas de


asistencia a clase de sus alumnos y las semanas que tardan en aprobar el examen
teórico (desde que se apuntaron a la autoescuela). Los datos correspondientes a
seis alumnos son:

a) Halla las dos rectas de regresión y represéntalas.


b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees
que será la correlación entre las dos variables?

Solución:

a)

116
Medias:

27
x  4,5
6
37
y   6,17
6

Desviaciones típicas:

151
x   4,5 2  4,92  2,22
6
247
y   6,17 2  3,1  1,76
6

Covarianza:

184
 xy   4,5  6,17  2,9
6

Coeficientes de regresión:

2,9
y sobre x  m yx   0,59
4,92
2,9
x sobre y  m xy   0,94
3,1

Rectas de regresión:

y sobre x  y  6,17  0,59 x  4,5  y  0,59 x  3,52

x sobre y  x  4,5  0,94 y  6,17 


x  4,5  0,94y  5,80
x  0,94 y  1,3
x  1,3  0,94 y
x  1,3
y   y  1,06 x  1,38
0,94

Representación:

117
APROBADO xy sobre

10
yx sobre
8

2 4 6 8 10 ASISTENCIAS

b) La correlación entre las variables no es demasiado fuerte, pues las dos rectas
no están muy próximas. Con los datos obtenidos comprobamos que el
coeficiente de correlación es: r 0,74

Ejercicio 7

Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron


el número de horas que dedicaron a estudiar la semana antes del examen y la
nota obtenida en la prueba. La información se recoge en la siguiente tabla:

Representa los datos mediante una nube de puntos e indica cuál de estos
valores te parece más apropiado para el coeficiente de correlación: 0,92;
0,44; 0,92; 0,44.

Solución:

Observando la representación, vemos que el coeficiente de correlación es


positivo y bajo. Por tanto, r 0,44.

118
Ejercicio 8

Se han realizado unas pruebas de habilidad (puntúan de 0 a 5) en un grupo de


alumnos. Las siguientes puntuaciones corresponden a las obtenidas por seis
alumnos en dos de ellas:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación


entre las variables?

Solución:

Medias:

23
x  3,83
6
20
y   3,33
6

Desviaciones típicas:

95
x   3,83 2  1,16  1,08
6
70
y   3,33 2  0,58  0,76
6

Covarianza:

119
77
 xy   3,83  3,33  0,079  σ xy  0,079
6

Coeficiente de correlación:

0,079
r  0,096  r  0,096
1,08  0,76

La relación entre las variables es prácticamente nula.

Ejercicio 9

Se ha medido el peso, en kilogramos, y el volumen, en litros, de distintos tipos


de maletas, obteniendo los resultados que se recogen en esta tabla:

a) Halla la recta de regresión de Y sobre X.


b) Calcula yˆ  120 . ¿Es fiable esta estimación ? (Sabemos que r  0,79).

Solución:

a)

Medias:

120
590
x  98,33
6
40
y   6,67
6

Varianza de X:

58166
 x2   98,33 2  25,54
6

Covarianza:

3946 ,5
 xy   98,33  6,67  1,89
6

Coeficiente de regresión:

 xy 1,89
myx    0,07
 x2 25,54

Ecuación de la recta de regresión de Y sobre x:

y  6,67  0,07 x  98,33   y  0,07 x  0,21

b) yˆ  120   0,07  120  0,21  8,19

Como x 120 está alejado del intervalo que estamos considerando, la


estimación no es fiable.

Ejercicio 10

Se ha preguntado en seis familias por el número de hijos y el número medio de


días que suelen ir al cine cada mes. Las respuestas han sido las siguientes:

a) Halla las dos rectas de regresión y represéntalas.


b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees
que será la correlación entre las dos variables?

121
Solución:

a)

Medias:

15
x  2,5
6
18
y  3
6

Desviaciones típicas:

43
x   2,5 2  0,92  0,96
6
62
y   3 2  1,33  1,15
6

Covarianza:

44
 xy   2,5  3  0,17
6

Coeficientes de regresión:

0,17
y sobre x  m yx   0,18
0,92
0,17
x sobre y  m xy   0,13
1,33

Rectas de regresión:

122
y sobre x  y  3  0,18 x  2,5  y  0,18 x  3,45

x sobre y  x  2,5  0,13 y  3


x  0,13 y  2,89
0,13 y  2,89  x
 x  2,89
y  y  7,69 x  22,23
0,13

Representación:

b) La correlación es prácticamente nula; las rectas son casi perpendiculares.

Ejercicio 11

Considera la siguiente distribución:

Representa los datos mediante una nube de puntos y di cuál de estos valores
te parece más apropiado para el coeficiente de correlación: 0,99; 0,4;
0,83; 0,4.

Solución:

123
Vemos que hay una relación positiva entre las variables, pero es baja. Por tanto,
r 0,4.

Ejercicio 12

Se ha realizado una encuesta preguntando por el número de personas que


habitan el hogar familiar y el número de habitaciones que tiene la casa. La tabla
siguiente recoge la información obtenida:

Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación


entre las dos variables?

Solución:

Medias:

124
27
x  4,5
6
19
y   3,17
6

Desviaciones típicas:

127
x   4,5 2  0,92  0,96
6
63
y   3,17 2  0,45  0,67
6

Covarianza:

88
 xy   4,5  3,17  0,40   xy  0,40
6

Coeficiente de correlación:

0,40
r   0,62  r  0,62
0,96  0,67

Hay una relación positiva, aunque no demasiado fuerte, entre las variables.

Ejercicio 13

En seis institutos de la misma zona se ha estudiado la nota media de los


estudiantes de 1º de bachillerato en Matemáticas y en Inglés, obteniéndose la
información que se recoge en la siguiente tabla:

a) Halla la recta de regresión de Y sobre X.


b) Calcula ŷ  5, 5 . ¿Es fiable esta estimación ? (Sabemos que r  0,87).

Solución:

a)

125
Medias:

37,2
x  6,2
6
35,5
y   5,92
6

Varianza de X:

232,54
 x2   6,22  0,32
6

Covarianza:

223
 xy   6,2  5,92  0,46
6

Coeficiente de regresión:

 xy 0,46
myx    1,44
 x2 0,32

Ecuación de la recta de regresión de Y sobre X:

y  5,92  1,44 x  6,2  y  1,44 x  3

b) yˆ  5, 5   1,44  5,5  3  4,92


Sí es fiable la estimación, puesto que la correlación es fuerte, r 0,87, y x
5,5 está dentro del intervalo de valores que estamos considerando. Por tanto,
estimamos que si la nota de Matemáticas es 5,5, la de Inglés será muy
probablemente 4,9.
126
Ejercicio 14

Un grupo de seis atletas ha realizado pruebas de salto de longitud y de altura.


Las dos se han puntuado en una escala de 0 a 5. Los resultados obtenidos han
sido los siguientes:

a) Halla las dos rectas de regresión y represéntalas.


b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees
que será la correlación entre las dos variables?

Solución:

a)

Medias:

25
x  4,17
6
23
y   3,83
6

Desviaciones típicas:

107
x   4,17 2  0,44  0,67
6
91
y   3,83 2  0,498  0,71
6

127
Covarianza:

98
 xy   4,17  3,83  0,36
6

Coeficientes de regresión:

0,36
y sobre x  m yx   0,82
0,44

0,36
x sobre y  m xy   0,72
0,498

Rectas de regresión:

y sobre x  y  3,83  0,82 x  4,17   y  0,82 x  0,41

x sobre y  x  4,17  0,72 y  3,83   x  0,72 y  1,41

x  1,41
y  y  1,39 x  1,96
0,72

Representación:

b) La correlación entre las dos variables no es demasiado fuerte, pues las dos
rectas no están muy
0,36
próximas. Comprobamo s que el coeficient e de correlació n es: r   0,76
0,67  0,71

128
BIBLIOGRAFIA:

1. Probabilidad y Estadística para ingeniería y ciencias, Ronald E. Walpole


y Raymond H. Myers
2. Probabilidad y Estadística, Alejandro D. Zylberberg
3. Probabilidad y Estadística Schaums, Murray R. Spiegel
4. Problemas de Estadística (Economía y Empresa), Juan Lopez De La Manzanara Barbero
5. Probabilidad y Estadística para ingenieros y ciencias, Pearson Educación
6. Probabilidad y Aplicaciones Estadísticas, Paul L. Meyer

129

También podría gustarte