UNIVERSIDAD VIRTUAL DE LIVERPOOL
MAESTRÍA EN FINANZAS CORPORATIVAS
ESTADÍSTICA AVANZADA
ENSAYO: IMPORTANCIA SOBRE LOS FUNDAMENTOS DE
ESTADÍSTICA AVANZADA
PROFESOR: EDUARDO PAZOS GUTIERREZ
ALUMNO:
ALICIA LORENA DÍAZ CHAN
INTRODUCCION
La regresión lineal es una técnica estadística utilizada para modelar la relación entre una variable dependiente
y una o más variables independientes. Su objetivo principal es predecir el valor de la variable dependiente
basándose en las variables independientes. El modelo se representa mediante una ecuación lineal, que puede
expresarse en la forma 𝑌=𝑎+𝑏𝑋+𝜖, donde Y es la variable dependiente, 𝑋 es la variable independiente, a es
la intersección en el eje Y, 𝑏 es la pendiente de la línea y 𝜖 es el error. La regresión lineal es ampliamente
utilizada en diversos campos, como la economía, la biología y las ciencias sociales, debido a su simplicidad
y facilidad de interpretación.
En cuanto al análisis multivariado es una de las técnicas estadísticas utilizadas para examinar y entender
relaciones entre múltiples variables al mismo tiempo. A diferencia del análisis univariado, que se centra en
una sola variable, el análisis multivariado permite explorar interacciones y patrones complejos en conjuntos
de datos más ricos.
Entre las técnicas más comunes se encuentran el análisis de regresión múltiple, el análisis de factores, el
análisis de clusters y el análisis de componentes principales. Estas herramientas son útiles en diversas
disciplinas, como la psicología, la biología, la economía y el marketing, ya que permiten identificar estructuras
subyacentes, clasificar observaciones y realizar predicciones. El análisis multivariado facilita una comprensión
más profunda de los datos al considerar simultáneamente varias dimensiones y relaciones.
Otra técnica es la estadística no paramétrica que se define como el conjunto de métodos estadísticos que no
asumen una distribución específica para los datos, lo que la hace especialmente útil en situaciones donde los
supuestos de la estadística paramétrica (como la normalidad) no se cumplen. Estos métodos son ideales para
analizar datos ordinales o de intervalos que no siguen una distribución normal, así como para muestras
pequeñas.
Entre las pruebas más comunes en la estadística no paramétrica se encuentran la prueba de Mann-Whitney,
la prueba de Wilcoxon y la prueba de Kruskal-Wallis. La ventaja de estos enfoques es que son más flexibles
y robustos ante violaciones de supuestos, permitiendo realizar análisis significativos incluso en condiciones
menos que ideales. Esto los convierte en herramientas valiosas en diversas áreas, como la medicina, la
psicología y las ciencias sociales.
Y por último se hablará de los diferentes tipos de muestreo, empezando por el muestreo irrestricto aleatorio
en el cual cada individuo de una población tiene la misma probabilidad de ser seleccionado. Este enfoque se
basa en la aleatoriedad, lo que ayuda a asegurar que la muestra sea representativa de la población. Se puede
realizar mediante técnicas como la selección al azar con números o el uso de tablas de números aleatorios.
Es simple y efectivo, pero requiere que se conozca la población completa.
El muestreo estratificado implica dividir la población en grupos homogéneos, llamados estratos, que
comparten características similares. Luego, se selecciona una muestra aleatoria de cada estrato, proporcional
a su tamaño en la población total. Este método mejora la precisión y representatividad de la muestra,
especialmente cuando se desea asegurar que subgrupos importantes estén representados adecuadamente
en el análisis.
Y para finalizar está el muestreo por conglomerados, la población se divide en grupos o conglomerados, que
pueden ser naturalmente existentes (como barrios o escuelas). Se selecciona aleatoriamente un número de
conglomerados y, en lugar de muestrear a todos los individuos dentro de esos grupos, se estudia a todos o a
una muestra dentro de ellos. Este enfoque es útil cuando la población es grande y dispersa, ya que reduce
costos y tiempo de recolección de datos.
Cada uno de estos métodos tiene sus ventajas y desventajas, y la elección del método adecuado depende
de los objetivos del estudio y las características de la población.
REGRESIÓN LINEAL
Se define como un modelo matemático que describe la relación entre varias variables. Los modelos de
regresión lineal son un procedimiento estadístico que ayuda a predecir el futuro. Se utiliza en los campos
científicos y en los negocios, y en las últimas décadas se ha utilizado en el aprendizaje automático.
La tarea de la regresión en el aprendizaje automático consiste en predecir un parámetro (Y) a partir de un
parámetro conocido X.
Tipos de regresión lineal.
Dependiendo de los objetivos del estudio, puedes elegir entre diversos tipos de análisis de regresión:
Simple
En una regresión lineal, se trata de establecer una relación entre una variable independiente y su
correspondiente variable dependiente. Esta relación se expresa como una línea recta. No es posible trazar
una línea recta que pase por todos los puntos de un gráfico si estos se encuentran ordenados de manera
caótica. Por lo tanto, sólo se determina la ubicación óptima de esta línea mediante una regresión lineal.
Algunos puntos seguirán distanciados de la recta, pero esta distancia debe ser mínima. El cálculo de la
distancia mínima de la recta a cada punto se denomina función de pérdida.
La ecuación de una línea recta tiene la siguiente forma:
Y = β₀ + β₁X + ε,
donde:
Y es la variable independiente.
β₀ y β₁ son dos constantes desconocidas que representan el punto de intersección y la pendiente
respectivamente.
ε (epsilon) es la función de pérdida.
A continuación, se muestra un ejemplo gráfico de un modelo de una regresión lineal simple:
.
Aplicación de la regresión lineal simple:
Para saber qué calificación obtendrán los alumnos en función del número de horas que estudien: aquí la
cantidad de horas de estudio representa la variable independiente y las calificaciones, la dependiente.
Múltiple
La regresión lineal múltiple encuentra la relación entre dos o más variables independientes y su
correspondiente variable dependiente.
La ecuación de regresión lineal múltiple tiene la siguiente forma:
Y = β₀ + β₁X₁ + β₂X₂ +… + βₐXₐ + ε
Donde:
Y es la variable dependiente.
X es una variable independiente.
β son coeficientes.
ε (epsilon) es la función de pérdida.
A continuación, se muestra un ejemplo de gráfico de un modelo de regresión lineal múltiple:
Aplicaciones de la regresión lineal múltiple:
Este tipo de regresión permite predecir tendencias y valores futuros. El análisis de regresión lineal múltiple
ayuda a determinar el grado de influencia de las variables independientes sobre la variable dependiente, es
decir, cuánto cambiará la variable dependiente cuando cambiemos las variables independientes.
Causalidad
La causalidad significa que existe una clara relación causa-efecto entre dos variables. Por lo tanto, hay
causalidad cuando la acción A causa el resultado B. Un error común en la interpretación de los estadísticos
es inferir la causalidad cuando hay correlación, pero la correlación es simplemente una relación.
Causalidad y correlación
El análisis de correlación muestra si existe una relación entre dos variables. Sin embargo, si existe una
correlación, aún no se sabe en qué dirección va esta relación. Para ello, primero hay que comprobar si existe
causalidad. ¿Por qué la correlación no es causalidad? Si existe una correlación entre la variable X y la variable
Y, esto no significa que las dos variables estén relacionadas causalmente.
Puede ser, por ejemplo, que la correlación se deba exclusivamente a una tercera variable Z y que ni la variable
X influya en Y ni la variable Y en X.
Causalidad y regresión.
Si existe una relación causal entre dos variables, un análisis de regresión puede predecir una variable con la
otra. Por supuesto, hay que tener cuidado de que la dirección sea correcta. Sólo es posible predecir la variable
dependiente con la ayuda de la variable independiente con una regresión.
Al definir una variable como predictora y otra como criterio en la regresión, la dirección causal ya está dada,
esta dirección debe entonces justificarse en base a la teoría.
Por lo tanto, la causalidad o la dirección del efecto debe derivarse primero teóricamente antes de que pueda
asumirse en un modelo de regresión. Así pues, no se puede "buscar" la causalidad con la regresión, la
regresión sólo puede utilizarse si se asume una relación causal.
Ejercicio regresión lineal:
Un estudio de mercado trata de averiguar si es efectiva la propaganda televisada de un producto que salió a
la venta con relación al tiempo de publicidad (en horas/semana). Se recopilaron datos a partir de la segunda
semana de iniciada la publicidad resultando el cuadro que si/no se pudo recopilar datos de la cuarta semana:
a) es efectiva la publicidad del producto
b) en cuánto estimará las ventas para la semana
Resolución
Tiempo de propaganda(X): variable independiente,
Venta del producto en (Y): variable dependiente
CUADRO DE CÁLCULOS
NOTA: no se usa el dato de tiempo de propaganda para la cuarta semana ya que no se conoce las ventas de
dicha semana. Por tanto, se determinarán los cálculos en base a una muestra de 5 donde hay datos para
ambas variables:
a) Determinación de la regresión lineal:
Determinamos el coeficiente de correlación para conocer la efectividad de las propagandas.
Sabiendo que cuando 0.7 ≤ 𝑟 ≤ 1 existe un alto grado de asociación entre las variables, en este caso
concluiremos que la publicidad tiene una gran incidencia en las ventas lo que significa que es efectiva.
b) Hallamos “y” para X=22
ANALISIS MULTIVARIADO
El análisis multivariante es una técnica que se utiliza para analizar múltiples variables simultáneamente. Su
objetivo es encontrar patrones, relaciones y asociaciones entre las variables. En contraste con el análisis
univariante, que se enfoca en una sola variable, el análisis multivariante examina la interacción entre múltiples
variables.
Aunque estamos hablando de una técnica compleja, podemos dividir su funcionamiento en 5 pasos básicos:
1. Preparación de datos, el primer paso es recopilar y preparar los datos para su análisis. Esto puede
incluir la limpieza y transformación de los datos, la eliminación de valores atípicos y la normalización
de los datos si es necesario.
2. Selección de variables, es importante seleccionar las variables relevantes que se analizarán. Se
puede acudir a técnicas de selección de variables para identificar las que están más estrechamente
relacionadas con el resultado.
3. Selección de técnica, las técnicas de análisis multivariante incluyen el análisis de componentes
principales, el análisis de correspondencia, el análisis factorial, la regresión múltiple, entre otras.
4. Análisis de los resultados, una vez realizado el análisis, se deben examinar los resultados para
identificar patrones y relaciones entre las variables. Las técnicas gráficas, como los mapas de calor
y los diagramas de dispersión, pueden ayudar a visualizar las relaciones entre las variables.
5. Interpretación de los resultados, esto puede incluir la identificación de las variables que tienen el
mayor impacto en el resultado, así como la explicación de las relaciones y patrones descubiertos.
Clasificación de los métodos multivariados:
• Dirigidas o motivadas por las variables: se enfocan en las relaciones entre variables. Ejemplos:
matrices de correlación, análisis de componentes principales, análisis de factores, análisis de
regresión y análisis de correlación canónica.
• Dirigidas o motivadas por los individuos: se enfocan en las relaciones entre individuos. Ejemplos:
análisis discriminante, análisis de cúmulos y análisis multivariado de varianza.
Técnicas multivariadas.
Si bien como adelantamos hay muchas técnicas multivariadas que se pueden aplicar, a continuación,
detallaremos algunas de las más importantes:
• Gráfico de matriz.
Se utiliza para mostrar todos los pares de gráficos X-Y de un conjunto de variables cuantitativas. Es una
excelente técnica si queremos detectar pares de variables altamente correlacionadas. También puede
detectar casos con valores atípicos.
• Análisis de correlación
Tiene como objetivo resumir dos o más columnas de datos numéricos. Calcula estadísticas resumidas para
cada variable, así como la correlación y covarianza entre ambas.
• Diagrama de araña
También conocido como gráfico de radar, se utiliza para mostrar los valores de varias variables cuantitativas
según la situación.
• Análisis factorial
Produce una combinación lineal de múltiples variables cuantitativas, estas variables representan el mayor
porcentaje de variación. Estos tipos de análisis son utilizados para reducir el alcance del problema con el fin
de comprender mejor los factores que afectan estas variables.
En la mayoría de casos, una pequeña cantidad de componentes puede representar una gran parte de la
variabilidad general. La interpretación adecuada de estos factores puede proporcionar información importante
sobre los mecanismos en funcionamiento.
• Análisis de regresión logística
También conocido como modelo de selección, es una variante de regresión múltiple que permite predecir
eventos y estudia la influencia de dos tipos de variables entre sí: variables dependientes y variables no
dependientes. La primera es una variable explicativa, mientras que la segunda es una variable no explicativa.
La primera variable describe el estado actual de la base de datos y la segunda interpreta los datos a través
de la dependencia entre dos variables. Esta técnica ayuda a predecir las elecciones que los consumidores
pueden tomar al elegir alternativas.
• Análisis de conglomerados
El análisis de conglomerados o grupos se refiere a un algoritmo que agrupa objetos similares en grupos. El
análisis de conglomerados es un conjunto de grupos, donde cada uno es diferente entre sí y los objetos de
cada grupo son muy similares entre sí.
• Análisis discriminante lineal
El análisis discriminante lineal fue diseñado para ayudar a distinguir dos o más conjuntos de datos basados
en un conjunto de variables cuantitativas. Esto se logra estableciendo una función discriminante o
combinación lineal de variables.
• Análisis de correspondencias
Esta técnica proporciona una reducción de la dimensionalidad de la pendiente del objeto en un conjunto de
atributos, generando así un mapa de percepción de la pendiente. Sin embargo, la variable independiente y la
variable dependiente se verifican al mismo tiempo.
Esta es una técnica combinada que puede ser muy útil en situaciones donde hay muchos atributos. Se usa
comúnmente para evaluar la efectividad de las campañas publicitarias. También se puede utilizar cuando los
atributos son demasiado similares para el análisis factorial.
El principal enfoque estructural es el desarrollo de una tabla de contingencia, también conocida como
tabulación cruzada. Esto significa que la forma de las variables no debe ser métrica. El análisis de
correspondencias es difícil de interpretar, ya que las dimensiones son una combinación de variables
independientes y dependientes.
• Escalado multidimensional
El escalado multidimensional es una técnica que crea un mapa que muestra las posiciones relativas de varios
objetos, con solo una tabla de las distancias entre ellos. El mapa puede constar de una, dos, tres o incluso
más dimensiones y calcula la solución métrica o no métrica.
• Correlación canónica
La más flexible de las técnicas multivariadas es la correlación canónica, que asocia varias variables
independientes y dependientes al mismo tiempo. Esta poderosa técnica utiliza variables de medición
independientes como ventas, nivel de satisfacción y nivel de uso. También puede utilizar variables categóricas
no métricas.
Esta técnica es la que tiene la menor cantidad de restricciones de todas las técnicas multivariantes, por lo que
los resultados deben interpretarse con precaución. A menudo, las variables dependientes y las variables
independientes suelen estar relacionadas.
ESTADÍSTICA NO PARAMÉTRICA
La estadística no paramétrica comprende a los métodos de estadística inferencial que se aplican a los casos
en los que las variables no se ajustan a modelos teóricos (por ejemplo, la distribución normal). Su distribución
no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos
métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución
conocida o no cumplan son los supuestos correspondientes.
Distribución binomial.
La distribución binomial es una distribución discreta muy importante que surge en muchas aplicaciones
bioestadísticas. Fue obtenida por Jakob Bernoulli y publicada en su obra póstuma Ars Conjectandi en 1713.
Esta distribución aparece de forma natural al realizar repeticiones independientes de un experimento que
tenga respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este experimento recibe el nombre
de experimento de Bernoulli. Ejemplos de respuesta binaria pueden ser el hábito de fumar (sí/no), si un
paciente hospitalizado desarrolla o no una infección, o si un artículo de un lote es o no defectuoso. La variable
discreta que cuenta el número de éxitos en n pruebas independientes de ese experimento, cada una de ellas
con la misma probabilidad de “éxito” igual a p, sigue una distribución binomial de parámetros n y p, que se
denota por (Bi(n,p)). Este modelo se aplica a poblaciones finitas de las que se toman elementos al azar con
reemplazo, y también a poblaciones conceptualmente infinitas, como por ejemplo las piezas que produce una
máquina, siempre que el proceso de producción sea estable (la proporción de piezas defectuosas se mantiene
constante a largo plazo) y sin memoria (el resultado de cada pieza no depende de las anteriores). Un ejemplo
de variable binomial puede ser el número de pacientes con cáncer de pulmón ingresados en una unidad
hospitalaria. Un caso particular se tiene cuando n=1, que da lugar a la distribución de Bernoulli.
Valores:
k: 0, 1, 2, ..., n
Parámetros:
n: número de pruebas, n ≥ 1 entero
p: probabilidad de éxito, 0 < p < 1
Ejemplo
En un examen formado por 20 preguntas, cada una de las cuales se responde declarando “verdadero” o
“falso”, el alumno sabe que, históricamente, en el 75% de los casos la respuesta correcta es “verdadero” y
decide responder al examen tirando dos monedas: pone “falso” si ambas monedas muestran una cara y
“verdadero” si al menos hay una cruz. Se desea saber cuál es la probabilidad de que tenga más de 14 aciertos.
Parámetros de la distribución binomial y el punto k a partir del cual se calculará la probabilidad. En este caso
n = 20, p = 0,75 y el punto k = 14.
La probabilidad de que el alumno tenga más de 14 aciertos es del 62%.
El programa, además de calcular probabilidades, proporciona los valores característicos de la distribución
(media, varianza, asimetría y curtosis) como información complementaria. Esta información depende solo de
los parámetros de la distribución, no se ve influida por la opción elegida a la hora de realizar el cálculo
(probabilidades o puntos) ni por el punto o probabilidad sobre el que se realiza dicho cálculo.
En este ejemplo, la media indica que 15 es el número medio de aciertos mediante la técnica de tirar dos
monedas.
Distribución multinomial.
Como ya se comentó anteriormente, la distribución binomial aparece de forma natural al realizar repeticiones
independientes de un experimento que tenga respuesta binaria, es decir, dos posibles resultados, clasificados
generalmente como “éxito” o “fracaso”. La distribución multinomial generaliza esta distribución al caso en que
la población se divide en m > 2 grupos mutuamente excluyentes y exhaustivos o, equivalentemente, a
experimentos con m resultados.
Se supone un proceso estable y sin memoria que genera elementos que pueden clasificarse en m grupos
distintos o, dicho de otro modo, un experimento que tiene m posibles resultados. Supóngase que se toma una
muestra de n elementos, o que el experimento se repite n veces de forma independiente, y se definen m
variables aleatorias Xi = número de elementos del grupo i (i = 1, ..., m), entonces el vector de m-variables (X1,
X2, …, Xm) es una nueva variable aleatoria m-dimensional que sigue una distribución multinomial de
parámetros n, p1, ..., pm, donde pi (i = 1, ..., m) es la probabilidad del grupo i.
Véase un ejemplo: de acuerdo con la teoría de la genética, un cierto cruce de conejillo de indias resultará en
una descendencia roja, negra y blanca en la relación 8:4:4. Si se tienen 6 descendientes, el vector de variables
(X1, X2, X3) donde:
X1 = Número de descendientes rojos
X2 = Número de descendientes negros
X3 = Número de descendientes blancos
sigue una distribución multinomial con parámetros n = 6; p1 = 8/16 = 0,5; p2 = 4/16 = 0,25 y p3 = 4/16 = 0,25.
Una situación muy común en la práctica se da cuando se conoce el tamaño de muestra n y se quieren estimar
las probabilidades pi a partir de los valores observados. Pero también hay situaciones en las que se debe
estimar el tamaño de muestra n, además de las probabilidades pi.
Esto ocurre, por ejemplo, en el método de captura-recaptura, que fue desarrollado por zoólogos para estimar
poblaciones animales y que ha sido aplicado a poblaciones humanas en estudios epidemiológicos.
Valores:
xi = 0, 1, 2, ... (i = 1, ..., m)
Parámetros:
n: número de pruebas, n ≥ 1 entero
m: número de resultados posibles, m ≥ 3 entero
pi: probabilidad del suceso i, 0 < pi < 1 (i = 1, ..., m), donde
Ejemplo
Volviendo al ejemplo de los conejillos de indias, supóngase que se está interesado en simular una muestra
de tamaño 10 de una distribución multinomial con parámetros n = 6; p1 = 0,5; p2= 0,25 y p3 = 0,25.
Los resultados de Epidat indican que en la primera simulación los 6 conejitos de indias se organizaron de la
siguiente manera: tres de ellos fueron descendientes rojos, un descendiente negro y dos descendientes
blancos. En la segunda simulación, 4 de los conejitos fueron rojos, uno negro y otro blanco. Y así
sucesivamente hasta llegar a la décima simulación donde tres de los conejitos fueron descendientes rojos,
dos negros y uno blanco.
Prueba de bondad de ajuste.
En este tipo de prueba de hipótesis se determina si los datos “se ajustan” a una determinada distribución o
no. Por ejemplo, puede sospechar que sus datos desconocidos se ajustan a una distribución binomial. Se
utiliza una prueba de chi-cuadrado (lo que significa que la distribución para la prueba de hipótesis es chi-
cuadrado) para determinar si hay un ajuste o no. Las hipótesis nula y alternativa de esta prueba se pueden
escribir en oraciones o plantear como ecuaciones o desigualdades.
El estadístico de prueba para una prueba de bondad de ajuste es:
donde:
O = valores observados (datos)
E = valores esperados (de la teoría)
k = el número de celdas o categorías de datos diferentes
Los valores observados son los valores de los datos y los valores esperados son los valores que se esperarían
(𝑂−𝐸)2
obtener si la hipótesis nula fuera cierta. Hay n términos de la forma 𝐸
El número de grados de libertad es df = (número de categorías – 1).
La prueba de bondad de ajuste es casi siempre de cola derecha. Si los valores observados y los
correspondientes valores esperados no se aproximan entre sí, el estadístico de prueba puede ser muy grande
y se situará en la cola derecha de la curva de chi-cuadrado.
NOTA: El valor esperado de cada celda debe ser, al menos, cinco para poder utilizar esta prueba.
Ejemplo:
El ausentismo de los estudiantes universitarios a las clases de Matemáticas es una de las principales
preocupaciones de los instructores de Matemáticas, ya que ausentarse de clase parece aumentar la tasa de
abandono. Supongamos que se realiza un estudio para determinar si la tasa real de ausentismo de los
estudiantes sigue la percepción del profesorado. El profesorado esperaba que un grupo de 100 estudiantes
se ausentara de clase según se indica en la siguiente tabla:
Luego, se realizó una encuesta aleatoria en todos los cursos de Matemáticas para determinar el número real
(observado) de ausencias en un curso.
Determine las hipótesis nula y alternativa necesarias para realizar una prueba de bondad de ajuste.
H0: El ausentismo de los estudiantes se ajusta a la percepción del profesorado.
La hipótesis alternativa es la opuesta a la hipótesis nula.
Ha: El ausentismo de los estudiantes no se ajusta a la percepción del profesorado.
a. ¿Puede utilizar la información tal y como aparece en los gráficos para realizar la prueba de bondad de
ajuste? No. Tome nota que el número de ausencias previsto para la entrada “más de 12” es inferior a cinco
(es dos). Combine ese grupo con el de “9-11” para crear nuevas tablas en las que el número de estudiantes
de cada entrada sea de cinco como mínimo.
MUESTREO
El muestreo por conglomerados y muestreo estratificado son técnicas de muestreo probabilístico que tienen
diferentes enfoques en cuanto a creación y análisis de las muestras.
El muestreo por conglomerados es un método de muestreo en el que la población objetivo se divide en
múltiples conglomerados o grupos. Algunos de estos grupos se seleccionan de manera aleatoria e incluso
algunas veces, se lleva a cabo una segunda etapa o un muestreo de etapas múltiples para formar la muestra
objetivo.
Dependiendo del número de pasos seguidos para crear la muestra deseada, el muestreo de conglomerados
se divide utilizando una sola etapa, dos etapas o técnicas de muestreo de múltiples etapas.
Este método de muestreo es extremadamente rentable ya que requiere de un esfuerzo mínimo en cuanto a
la creación de las muestras y también es conveniente para en cuanto a su ejecución.
El muestreo estratificado es un método de muestreo de probabilidad, este tipo de muestreo también es
conocido como muestreo de cuota aleatoria, en este, una gran población se divide en estratos homogéneos
únicos y, los miembros de estos se seleccionan al azar para formar la muestra.
Los elementos de cada una de las muestras son distintos ya que por supuesto cada población tiene diferentes
partes. La segmentación se puede basar en edad, religión, nacionalidad, antecedentes socioeconómicos, etc.
Comparación entre el muestreo por conglomerados y muestreo estratificado
Puntos clave del muestreo por conglomerados:
✓ Los grupos naturales existentes se eligen para formar parte de la muestra final.
✓ Es uno de los muestreos más utilizados para la investigación de mercado. En esta técnica, una
población se divide en grupos y estos grupos se eligen al azar para formar parte de la muestra.
✓ La información también puede ser recopilada a partir de elementos seleccionados de cada uno de
los subgrupos.
✓ Este método generalmente se aplica en grupos donde hay diversidad dentro de los grupos y no entre
los grupos.
✓ El único requisito previo es que todos los conglomerados deben ser distintos y no deben ser
superpuestos.
Puntos clave del muestreo estratificado:
✓ Una población se divide en estratos por selección aleatoria.
✓ La explicación más simple de los estratos es: un grupo de miembros de una población.
✓ Se realiza un muestreo aleatorio simple de estos estratos para formar la muestra.
✓ Una similitud entre el muestreo por conglomerados y muestreo estratificado es que la estrategia
formada debe ser distinta y no superponerse.
✓ Si el investigador se asegura que cada estrato es distinto, los errores en los resultados son mínimos.
Muestreo irrestricto aleatorio.
Si de una población de tamaño “N” se selecciona una muestra de tamaño “n” de tal manera que cada muestra
posible de tamaño n tiene la misma probabilidad de ser seleccionada, a este procedimiento se le denomina
“Muestreo Irrestricto Aleatorio”. A la muestra así obtenida se la denomina “Muestra Irrestricta Aleatoria”.
Estimación de la proporción.
Cuando se analiza una característica o atributo, la estimación de la proporción de unidades en la población
que poseen dicha característica constituye un indicador muy útil.
Cada elemento de la muestra sólo puede tomar uno de los dos valores, cero o uno. Si el elemento posee
cierta característica en la que se está interesado, se le asigna el valor 1 y si no la posee se le asigna el valor
cero.
La proporción en la muestra se define como:
𝑥
𝑝=
𝑛
Donde X es el total de elementos en la muestra que tienen una característica determinada.
La proporción muestral es un estimador insesgado de la proporción poblacional.
El error en la estimación de la proporción o la desviación estándar de la proporción se define como:
Donde q= 1-p
El intervalo de confianza para la proporción es:
𝑃(𝑝 − 𝑍𝑠𝑦 < 𝜋 < 𝑝 + 𝑍𝑠𝑦 ) = 1 − 𝑎
Cuando se trabaja con la proporción de la muestra debe ser grande (𝑛 ≥ 30), entonces Z pertenece a una
distribución normal.
Ejemplo.
Se desea conocer la proporción de empleados en una ciudad. Se sabe que la fuerza de trabajo es e 35.250
personas. Se toma una MIA de 830, de las cuales 510 dicen que actualmente están laborando. Calcule la
proporción de empleados que tiene la ciudad y obtenga un intervalo de confianza para la proporción.
Solución. La proporción y desviación estándar de los empleados se calcula con las fórmulas.
Los anteriores resultados indican que el porcentaje de empleados en esa ciudad es del 61.45% con un margen
de error del 1.67%.
Hallar el intervalo de confianza del 95%
El intervalo de confianza se obtiene reemplazando en la expresión
𝑃(𝑝 − 𝑍𝑠𝑦 < 𝜋 < 𝑝 + 𝑍𝑠𝑦 ) = 1 − 𝑎
El valor de la Z se halla en la distribución normal, que para un nivel de confianza del 95% es 1.96:
(0.6145 − 1.96(0.0167) < 𝜋 < 0.6145 + 1.96(0.0167))
(0.5818 < 𝜋 < 0.6472)
Con una confiabilidad del 95% el porcentaje de empleados en esa ciudad, está entre el 58.18% y el 64.72%
CONCLUSIÓN
La regresión lineal es una herramienta poderosa para modelar relaciones entre variables, permitiendo hacer
predicciones y entender la influencia de diferentes factores. Es especialmente útil en situaciones donde se
busca simplificar complejidades a través de un enfoque lineal.
El análisis multivariado, por su parte, amplía esta perspectiva al considerar múltiples variables
simultáneamente. Esto permite identificar patrones y relaciones más complejas que no serían evidentes con
un enfoque univariado, ofreciendo una visión más completa de los datos.
La estadística no paramétrica proporciona flexibilidad al analizar datos que no cumplen con los supuestos de
normalidad, lo que la hace invaluable en diversas áreas donde se trabaja con datos ordinales o distribuciones
desconocidas. Su robustez permite obtener conclusiones significativas incluso en condiciones difíciles.
Finalmente, el muestreo es fundamental para la recolección de datos representativos, y elegir el método
adecuado (aleatorio, estratificado o por conglomerados) es crucial para la validez de los resultados. Un buen
muestreo asegura que las inferencias realizadas sean aplicables a la población general, lo que aumenta la
fiabilidad del análisis.
En conjunto, estas técnicas forman un marco integral para el análisis estadístico, permitiendo obtener
conclusiones sólidas y fundamentadas a partir de datos complejos.
REFERENCIAS
Saavedra, J. A. (2022, septiembre 16). Regresión Lineal: qué es, para qué sirve, por qué es importante, tipos
y ejemplos de uso. Ebac. https://ebac.mx/blog/regreson-lineal
Martínez, S. (2023, febrero 21). Análisis Multivariante: qué es y ejemplos. Inesdi.
https://www.inesdi.com/blog/analisis-multivariante-que-es-ejemplos/
García, M. (2021, septiembre 3). ¿Qué es el análisis multivariado? Aprende a dominar datos y variables.
https://www.crehana.com. https://www.crehana.com/blog/transformacion-digital/analisis-multivariado/
Illowsky, B., & Dean, S. (2022, febrero 14). 11.2 Prueba de bondad de ajuste. Introducción a la estadística;
OpenStax. https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/11-2-prueba-de-
bondad-de-ajuste
Ortega, C. (2018, julio 25). Muestreo por conglomerados y muestreo estratificado ¿Cuál debo usar?
QuestionPro. https://www.questionpro.com/blog/es/muestreo-por-conglomerados-y-muestreo-estratificado/