Estadística Inferencial I
1
Ernesto A. ROSA / Nora B. CADENAS / Giselle RAMAGNANO
Universidad Nacional de Tres de Febrero (UNTREF)
Departamento de Metodología, Estadística y Matemática
Carrera de Estadística
1
Estadística Inferencial I
Contenido
I. Repaso de Fundamentos de Probabilidad
II. Introducción a la Inferencia Estadística
III. Estimación Puntual - Distribución de los Estimadores
IV. Estimación por Intervalos de Confianza
V. Nociones de Muestreo Aleatorio
VI. Nociones de Prueba,”Test” o Ensayo de Hipótesis
VII. Nociones de Pruebas de Hipótesis No Paramétricas
VIII. Funciones Bivariadas
2
II. Introducción a la
Inferencia Estadística
1. Aspectos Generales Previos
a. Métodos de Obtención de Datos
b. Datos Originados a partir de Censos y Muestras
A. Población
B. Muestra
C. Censo y Encuesta Muestral
c. Estadística Descriptiva y Estadística Inferencia
d. Clasificación de los Métodos de Inferencia Estadística
2. Inferencia Estadística Paramétrica
a. Parámetros
b. Estimadores
c. Estimación de Parámetros
3
CONCEPTO DE ESTADÍSTICA
La ciencia formada por un conjunto de teorías y
técnicas cuantitativas, que tienen por objeto la
organización, presentación, descripción, resumen y
comparación de conjunto de datos numéricos,
obtenidos de poblaciones en su conjunto de individuos
o fenómenos o bien de muestras que representan las
poblaciones estudiadas, así como el estudio de su
variación, propiedades, relaciones, comportamiento
probabilístico de dichos datos y la generalización de
los resultados obtenidos de muestras, respecto a las
poblaciones que aquéllas representan.
4
OBJETIVOS FUNDAMENTALES
DE LA INVESTIGACIÓN CIENTÍFICA
Describir la realidad: mediante técnicas y métodos para
recopilar datos y hechos, y establecer generalizaciones
empíricas.
Explicar la realidad: reflejar las propiedades y regularidades
esenciales y estables de los fenómenos, así como los factores
causales que los determinan.
Predecir la realidad: predecir los comportamientos futuros de
los fenómenos, establecer pronósticos dentro de un determinado
límite de la probabilidad.
5
Una vez establecido el objeto de estudio se inicia la etapa de
Diseño Metodológico (Diseño)
Se define el proceso de recolección de datos:
• Unidades bajo estudio
• Variables a medirse
que permitan contestar las preguntas formuladas, en el proyecto
de investigación científica.
LOS MÉTODOS ESTADÍSTICOS CUMPLEN FUNCIONES
IMPORTANTES COMO HERRAMIENTA DE INVESTIGACIÓN
CIENTÍFICA
6
Un Experimento o Estudio Estadístico, constituye
“una serie de pasos o etapas cuya finalidad principal
es la observación de los resultados que se obtienen”.
Ejemplos :
• Arrojar un dado y observar los puntos que salen en la cara
de arriba (su realización toma unos pocos segundos).
• Realizar un Censo Nacional de Población (desde que se
comienza a programar hasta que se publican los últimos
resultados pasan varios años).
7
Estos Experimentos o Estudios Estadísticos se
realizan sobre Unidades Estadísticas:
Son aquellas sobre las que se realizan las observaciones o
mediciones, o que responden las consultas que se realizan.
• Las Personas: en un censo de población, en una encuesta de opinión,
etc.
• Las Empresas: en un censo económico, en una encuesta sobre el
sistema de riesgos del trabajo, en un estudio sobre insumos de
producción, etc.
• Los Países: en un estudio sobre exportaciones agropecuarias, en una
encuesta sobre la natalidad de la población, etc.
8
En las Unidades Estadísticas se miden
Variables Estadísticas
Unidades Estadísticas Variables
Personas Edad
Estado Civil
Cantidad de Hermanos
Nivel de Estudios alcanzado
Empresas Producción (en $ o Tn)
Rama de Actividad
Tamaño
Cantidad de Personal Ocupado
Países Exportaciones (en millones de U$S o Tn)
Rubro principal de exportaciones
Nivel de “Riesgo País”
Cantidad de Países Acreedores
9
Primera clasificación Segunda clasificación
Discretas: solo toman algunos
valores del campo de
definición de la variable.
Ejemplos: Cantidad de
CUANTITATIVAS
hermanos, Personal
Ocupado, Cantidad de
Países Acreedores, etc.
Continuas: pueden tomar como
cuyos resultados se expresan resultado cualquier valor
en forma numérica dentro del campo de
definición de la variable.
Ejemplos: Edad, Producción,
Exportaciones, etc.
10
Primera clasificación Segunda clasificación
Nominales: cuyos resultados no
expresan dimensión ni
orden entre las variables.
Ejemplos: Estado Civil, Rama de
CUALITATIVAS
Actividad, Rubro principal
de Exportaciones, etc.
Ordinales: cuyos resultados
cuyos resultados se expresan en
expresan dimensión u
palabras (con cualidades)
orden entre las variables.
Ejemplos: Nivel de Estudios
Alcanzado, Tamaño, Nivel
de “Riesgo País”.
11
A. FUENTES DE INFORMACIÓN
ESTADÍSTICA
• Fuentes Primarias
• Fuentes Secundarias
B. MÉTODOS DE OBTENCIÓN DE DATOS
• Censos
• Encuestas Muestrales
• Registros
• Otros
12
Fuentes de información de datos estadísticos
Fuentes Primarias: aquellas en las que los datos se obtienen
directamente de las unidades originales o iniciales (personas,
empresas, organismos, etc.)
Ejemplos: Censo de Población; Encuesta de Opinión, etc.
Fuentes Secundarias: los datos se obtienen de informes,
publicaciones, registros, la utilización de datos proporcionados
por el Registro Civil (nacimientos, defunciones) etc.; efectuados
por otras entidades.
Ejemplos: datos extraídos de un Anuario; cifras de una
Encuesta Política publicadas en un diario; etc.
13
Censos
• Se aplican al total de la población.
• Espaciados en el tiempo
• Su temática es limitada
• Son costosos
• Su procesamiento y difusión es complejo por el volumen
de la información
• Dan una fotografía en un momento del tiempo
• Permiten una amplia desagregación de la información
• Son comparables internacionalmente
• Sirven para la definición de marcos muestrales
14
Registros
• Recopilación continua de datos que se van
actualizando en forma permanente
• No son costosos
• Permiten desagregación espacial y temporal
• Su temática es reducida
• Requiere adecuación para su uso estadístico
15
Encuestas
•Se aplican a una Muestra de la población
•Brindan información en períodos intercensales
•Permiten mayor profundidad y flexibilidad
temática
•Son menos costosas que los censos
•Mas fáciles y rápidas de procesar que los censos
•La desagregación espacial es limitada
•Están sujetas a errores de muestreo (medibles)
16
Censo: “cuando se observa en forma exhaustiva a todos los
elementos de la población en estudio”.
Muestra: “cuando se observa sólo a una parte de la
población”.
Desventajas de las Muestras respecto a los Censos:
• La utilización de Muestras conlleva el riesgo de cometer un
error debido al procedimiento inductivo que involucra.
• Este es el denominado error debido al muestreo que no es
posible anular a menos que la muestra sea exhaustiva.
• La teoría del muestreo (con el aporte de la probabilidad), hace
posible su medición e inclusive el análisis de las alternativas
para reducir este error.
17
Ventajas de las Muestras sobre los Censos:
Menor costo operativo
Menor tiempo de recolección y procesamiento
de los datos
Mayor facilidad de controlar la calidad de la
información que se obtiene
Es alternativa única, en caso de que la
observación destruya o modifique al
elemento
18
II. Introducción a la Inferencia
Estadística
RECOPILACIÓN TOMA DE
DECISIONES
ANÁLISIS
ESTADÍSTICA
USO DE DATOS RESOLUCIÓN
DE
PROBLEMAS
DESCRIBIR
LA
VARIABILIDAD
19
ESTADÍSTICA
Descriptiva Inferencial
Permite inferir,
Métodos extrapolar o generalizar
para resumir desde un subconjunto de
y organizar datos datos (Muestra) a un
conjunto total de datos
(Población)
La mayor parte del uso moderno de la Estadística se
dirige más hacia la Inferencia que a la Descripción
20
Definición de Estadística Inferencial:
“Conjunto de técnicas estadísticas que a partir de una
situación dada, tienden a realizar estimaciones, pronósticos,
comprobaciones, proyecciones, etc., que permiten en
definitiva sacar conclusiones y tomar decisiones utilizando
métodos inductivos, considerando el nivel de confianza o
riesgo, mediante el uso del cálculo de probabilidades”.
• Inferencia Estadística Paramétrica
• Inferencia Estadística No Paramétrica
21
IMPORTANTE
Para que la Estadística Inferencial proporcione
buenos resultados debe:
• Basarse en una técnica estadístico-
matemática adecuada al problema y
suficientemente validada.
• Utilizar una muestra que realmente sea
representativa de la población y de un
tamaño suficiente.
22
EJEMPLO 1
Se realiza un estudio para comparar tres métodos para
enseñar técnicas de comprensión lectora en inglés a
escolares de segundo año de Educación Secundaria:
1. El método de la enseñanza recíproca.
2. El método de instrucción directa.
3. La combinación de métodos de instrucción directa y enseñanza
recíproca.
23
Las preguntas por resolver son:
• ¿Cuál de los métodos mejora la comprensión
lectora? (un caso de incertidumbre)
• ¿Para el próximo año el método identificado como el
mejor, dará buenos resultados, para el alumno Juan
Pérez, quién realizará el segundo año de Educación
Secundaria? (un caso de toma de decisión)
Los casos de incertidumbre y toma de decisiones son
resueltos por la Estadística Inferencial, apoyado por la
probabilidad.
24
A. POBLACIÓN
“Es un conjunto de elementos definidos en el tiempo
y en el espacio, sobre los cuales se realizarán las
observaciones en el caso de una encuesta exhaustiva
o censo, o a los cuales se referirán los resultados de
la investigación en el caso de un estudio por
muestreo”.
.
Usualmente su cantidad se simboliza con N
25
Ejemplo 2
Sea X , una variable aleatoria que representa la
calificación obtenida en la prueba de conocimientos sobre
educación ambiental de los alumnos de la Facultad de
Educación.
Si la población consta de 300 alumnos, entonces:
X 1 , X 2 , X 3 ,..., X 300
Es una población en términos de la variable que se lee así:
La calificación que ha obtenido el alumno 1, el alumnos 2,
sucesivamente hasta la calificación que ha obtenido el
alumno 300. 26
B. MUESTRA
“Es el subconjunto de unidades seleccionadas de la
población definida. En ésta recae la realización de las
observaciones, mediciones, etc.”.
“ Una muestra aleatoria en general, es toda parte
representativa de la población, cuyas características
debe reproducir en pequeño lo más exactamente
posible”.
Usualmente su cantidad se simboliza con n.
27
Inferencias válidas
Muestra representativa
Mecanismo aleatorio
La selección es un experimento aleatorio
Cada observación de la muestra
es el valor observado de una variable aleatoria
28
C. MUESTRA ALEATORIA
Sea X la v.a. que representa el resultado de tomar una observación
de la población.
Y las observaciones de la muestra se obtienen al observar X de
manera independiente bajo condiciones que no cambian, n veces
Siendo Xi la variable aleatoria que representa la i-ésima observación,
Entonces X1, X2..., Xn constituyen una MUESTRA ALEATORIA
x
s2
Ejemplo 3
En el ejemplo 2, la variable de interés es X, calificación obtenida en
la prueba de conocimientos de los alumnos de la Facultad de
Educación.
X tiene distribución de probabilidad con media μx y Varianza sx 2
cuyos valores numéricos pueden determinarse con precisión si se
revisa cada una de las calificaciones de los 300 alumnos.
Para tener una idea del valor de μ x se extrae una muestra
aleatoria de tamaño n = 6 de la población.
Ejemplo 3 Cont.
x 1 : La calificación que ha obtenido en la prueba de conocimientos
sobre el primer alumno seleccionado en la muestra.
…
x 6 : La calificación que ha obtenido en la prueba de conocimientos
el sexto alumno seleccionado en la muestra.
x 1 , x 2 , x 3 , x 4 , x 5 , x 6 son variables aleatorias asociadas con los
alumnos. Son independientes y cada una con la misma distribución que
la variable aleatoria X.
Una vez identificados los seis alumnos, podemos determinar los
valores numéricos de las seis variables aleatorias x1 , x 2 , x 3 , x 4
,x5,x6.
“Muestreo Aleatorio Simple (MAS)”
Una muestra aleatoria simple de tamaño n de una población
X está constituida por un conjunto de n-variables aleatorias
X 1, ..., X independientes e idénticamente distribuidas a la
población X.
Extracción
1° 2° n°
Muestreo con
reemplazamiento 1/N 1/N 1/N
Muestreo sin
reemplazamiento 1/N 1/N-1 1 /N - n + 1
32
a. Parámetros
Un Parámetro, es una característica medible de
los elementos de una población, también
llamado valor poblacional, que la caracteriza e
identifica con relación a otras poblaciones.
Ejemplos:
• Promedios
• Totales
• Proporciones
• Cantidad de Casos Favorables
• Razones (Proporciones, Promedios, Tasas, etc.).
• Variancias y Desvíos Estándar
33
b. Estimadores
Se denomina Estimador a una expresión matemática,
que se construye con los valores correspondientes a
los elementos que integran una muestra, y que como
su nombre lo indica, sirven para obtener
estimaciones del correspondiente valor poblacional o
parámetro desconocido que se intenta estimar o
verificar.
Diferencia sustancial dentro de la Inferencia Estadística:
En el muestreo probabilístico los Parámetros deben ser
considerados constantes usualmente desconocidas,
en cambio los Estimadores son siempre variables aleatorias.
34
c. Concepto de Estimación
“La Estimación de Parámetros, es la
acción de aproximarse a los valores
característicos y desconocidos de una
Población, mediante la aplicación de los
resultados de una muestra a un
Estimador”.
35
Estimación Puntual
Como su nombre lo indica, la “estimación puntual”,
consiste en aplicar la fórmula o definición de un
Estimador a los resultados obtenidos en una muestra, y
obtener una cifra o valor como Estimación del Parámetro
en estudio.
Todos los Parámetros de una población son factibles de ser
estimados en forma puntual.
Las fórmulas o definiciones a aplicar difieren de acuerdo al tipo
de muestreo.
Caso a utilizar en la materia: “MAS”.
36
Propiedades de los Estimadores
• Estimador Insesgado (o No Viciado)
“Un estimador es insesgado si la esperanza del
estimador es igual al parámetro”.
En símbolos: E ( x* ) = X
E ( x* ) - X Sesgo del estimador
x = Σ xi /n es un estimador insesgado de µ
Sx2 = Σ (xi–x)2 / n–1 es un estimador insesgado de σ2
37
• Estimador Eficiente
“Un estimador es eficiente (o también más preciso
que otros), si tiene la menor variancia, o el menor
error estándar”.
Como tiene menor varianza que , es más probable que el
estimador produzca una estimación más cercana al verdadero valor de µ
38
Eficiencia relativa
ECM(x*) = E (x*- X)2 = ECM(x*) =V(x*) +(sesgo)2
39
• Estimador Consistente
“Un estimador es consistente cuando es insesgado en
el límite, es decir que el sesgo tiende a cero cuando
aumenta el tamaño de la muestra”.
En símbolos: lím E ( x* ) = X
n→∞
Robustez: los Estimadores que se ven menos influidos por
valores extremos o alejados de una variable.
Suficiencia: Un estimador será suficiente si utiliza toda la
información muestral disponible.
40
• Diseño de Estimadores
No existen reglas fijas en el diseño y confección de Estimadores.
En el pasado los investigadores de temas referidos a Inferencia
Estadística, desarrollaron métodos que satisfaciendo ciertas bondades
matemáticas lógicas y deseables, permitieron calcular Estimadores
para la mayoría de los Parámetros que resultaron de interés.
Existen diversos métodos para el diseño de Estimadores, pudiéndose
mencionar entre los más difundidos:
•Método de Simple Expansión
•Método de los Momentos
•Método de Máxima Verosimilitud
41
Método de Simple Expansión o por analogía
Consiste en aplicar la misma expresión formal del Parámetro poblacional
a la Muestra.
O bien, partiendo de los resultados de la Muestra, se aplica una “regla de
tres simple” para expandirlos a los de la Población objetivo.
Promedio Promedio
Poblacional μ = Σ xi / N Muestral x = Σ xi / n
Total Promedio Muestral
Poblacional X = Σ xi Expandido X =N.x
Proporción P = NA / N = Proporción p = P = nA / n
Poblacional Σ xi / N Muestral = Σ xi / n
Cantidad de Proporción
Casos A = Σ xi Muestral A=N.p
Favorables Expandida
42
Método de los Momentos
La idea básica consiste en igualar ciertas características
muestrales con las correspondientes características poblacionales.
Momento de orden k (k ∈ N) o Momento poblacional de orden k
Dada una muestra aleatoria X1 , X2 ,..., X n , el Momento muestral de orden k es
43
Los estimadores de momentos se obtienen igualando m
momentos poblacionales con los correspondientes momentos
muestrales.
Ejemplo 1:
Sea X1 , X2 ,..., X n , una m.a. de una distribución exponencial de parámetro λ.
44
Ejemplo 2:
Sea X1 , X2 ,..., X n , una m.a. de una distribución Γ(α, λ).
X ~ Γ(α, λ), E(X ) = α/λ V(x) = α/λ2
Dos parámetros a estimar 2 sistemas de ecuaciones
45
Método de Máxima Verosimilitud
• Interpretación : el estimador de máxima verosimilitud es aquel valor del parámetro
que maximiza la probabilidad de ocurrencia de los valores muestrales.
• Consiste en encontrar el valor del Parámetro que maximiza la llamada función de
verosimilitud.
Función de verosimilitud: es la función de distribución conjunta de las
observaciones
Al ser una muestra aleatoria las Observaciones son IID
La probabilidad conjunta entonces es el Producto de las probabilidades
marginales.
46
Para encontrar EMV se debe derivar y buscar el valor de θ
que maximiza la función:
Se iguala a cero y se despeja el valor de θ.
Se toma la segunda derivada que debe dar
negativa por la condición de máximo.
47
Ejemplo
Se realiza una encuesta de opinión a una m.a. de 20 personas. Se les
formula una única pregunta que será respondida por SI o por NO.
Sean X 1 , X 2 ,..., X 20 correspondientes a la respuesta, tales que:
Xi = 1 si la persona i responde que SI
0 si la persona i responde que NO
para i =1, 2, ..., 20 y sea p = P( X i = 1) .
Las v.a. X i son independientes y cada una ~ Bi(1,p).
a) La función de probabilidad conjunta del vector (X1 , X2 ,..., X20 ) es
48
Si en la muestra obtenida se observan 7 NO’s (0) y 13 SI’s (1):
b) La función a maximizar es: g( p) = ln p( x1 , x2 ,..., x20 ) =
13 ln( p) + 7 ln(1 - p)
c) Posibles puntos críticos, igualando a 0 la derivada primera
valor que maximiza g(p)
derivada segunda negativa
49
Estimación de la Media o Promedio
Usualmente se toma como punto de partida para analizar el tema de
Estimación de Parámetros.
Parámetro a estimar.
μ = Σ xi / N Con i = 1 - N
Estimador: Media muestral
x = Σ xi / n Con i = 1 - n
Problemas (Guía de Aspecto
Conceptuales)
50
Estimación del Total
Parámetro a estimar X = Σ xi
Estimador: X = N .x Media muestral expandida por la población
Estimación de la Variancia
Parámetro a estimar σx2 = Σ (xi – μ)2 / N
Uno de sus estimadores es:
Sx2 = Σ (xi – x )2 / n – 1
51
Estimación de la Proporción
Parámetro a estimar P = NA / N = Σ xi / N
Estimador: p = P = nA / n = Σ xi / n
Estimación de la Cantidad de Casos
Parámetro a estimar NA = A = Σ xi
Estimador: A=N.p 52
RESUMEN
Parámetros Estimadores
Promedio Promedio
Poblacional μ = Σ xi / N Muestral x = Σ xi / n
Total Promedio
Poblacional X = Σ xi Muestral X =N.x
Expandido
Proporción P = NA / N = Proporción p = P = nA / n
Poblacional Σ xi / N Muestral = Σ xi / n
Cantidad de Proporción
Casos A = Σ xi Muestral A=N.p
Favorables Expandida
Variancia σx2 = Variancia
Poblacional Σ (xi – μ)2 / N Muestral Sx2 = Σ (xi–x)2 / n–1
53
ERRORES DEBIDOS AL MUESTREO
La desventaja de toda muestra, es que siempre presenta
errores debidos al proceso de Muestreo, los que surgen
como consecuencia de observar parcialmente a la población.
En general, como se verá más adelante, si se aumenta el
tamaño de la muestra este error disminuye, pero no es
posible hacerlo nulo, ni aún cuando se extrajera una sola
unidad menos que las de la población completa. Excepto
que la muestra coincida con la población, este error no se
anula.
No obstante, si la muestra es probabilística, este tipo de
error puede ser estimado mediante el cálculo del error del
estimador.
54
• Errores debidos al Muestreo
Los errores debidos al muestreo solo pueden afectar a los
resultados provenientes de una Muestra (no a los de un
Censo).
Los Estimadores son calculados a partir de los resultados
de una Muestra, por lo que son pasibles de estos errores.
Estos errores se deben a que de una Población pueden
obtenerse diversas Muestras diferentes, y cada una de ellas
puede originar un resultado diferente en un Estimador.
Las diferencias entre cada Estimación y el Parámetro que
se intenta estimar es el Error Muestral o Error debido al
Muestreo.
Si la Muestra es aleatoria, estos errores pueden medirse.
55
• Errores No debidos al Muestreo
También existen los errores no debidos al muestreo, que pueden
afectar tanto a un censo como a una muestra. Este tipo de errores pueden
tener diferentes causas, entre ellas:
Información, suministrada u obtenida, errónea o falsa, hecho adrede
o por falta de recordación o mala interpretación de una pregunta.
Falta de respuesta, por: negativa a responder, respondente ausente o
desconocer la respuesta, etc.
Información mal cargada en la base de datos.
Errores de procesamiento de la información de la base.
Errores de diseño de la muestra, por ejemplo marcos de selección
incompletos, etc.
Los errores no debidos al muestreo producen sesgos que en casos
extremos pueden llegar a anular la confiabilidad de los resultados, y
además son difíciles de evaluar.
56
Fin del Archivo 1
57