Universidad del Valle de México
Estadística Inferencial
Actividad 8 Proyecto Integrador etapa 1
Profesor: Leonardo Rodríguez Medina
Miércoles 24 de abril del 2024
Introducción.
Esta actividad consiste en aplicar los conocimientos adquiridos a lo largo del curso y retomar lo
aprendido en cada una de las actividades realizadas, lo que garantiza la transversalidad de los
contenidos revisados para fortalecer el desarrollo de competencias y lograr el fin de formación
planteado. Objetivo. El objetivo del proyecto integrador es aplicar las técnicas de estadística
inferencial estudiadas a una encuesta real, de tal forma que el estudiante se familiarice con fuentes
de datos de encuestas nacionales y sea capaz de obtener inferencias de la población objetivo. El
estudiante revisará el método de recopilación de datos, planteará preguntas de investigación de su
interés, elaborará un análisis exploratorio de las variables pertinentes de acuerdo con sus preguntas
de investigación y, finalmente, procederá a la aplicación de las técnicas inferenciales interpretando
sus resultados ¿Qué fuente de datos se utilizará? En este proyecto integrador trabajará con un
extracto de la General Social Survey(GSS), una encuesta sociológica diseñada y recolectada
regularmente desde el año 1972 por el Centro Nacional de Investigación sobre Opiniones de la
Universidad de Chicago,E.U.A. Su financiamiento está a cargo de la Fundación Nacional de
Ciencias. Recopila información acerca de las preocupaciones, experiencias, actitudes y prácticas de
los residentes de los Estados Unidos. Desde 1972, la GSS ha estado monitoreando el cambio
social y estudiando la creciente complejidad de la sociedad estadounidense. Es uno de los estudios
más influyentes en ciencias sociales y con frecuencia se hace referencia a él en publicaciones líderes
como The New York Times, The Wall Street Journal y The Associated Press. Los objetivos de la
GSS son recopilar datos sobre la sociedad estadounidense contemporánea para monitorear y explicar
tendencias y constantes en actitudes, comportamientos y atributos; examinar la estructura y el
funcionamiento de la sociedad en general, así como el papel desempeñado por los subgrupos
poblacionales; comparar a los Estados Unidos con otras sociedades para colocar a la sociedad
estadounidense en una perspectiva comparativa y desarrollar modelos nacionales de la sociedad;
otro de sus objetivos es hacer que datos de alta calidad sean fácilmente accesibles para académicos,
estudiantes, funcionarios públicos y otros, con un costo mínimo.
Los datos recopilados en esta encuesta incluyen tanto la información demográfica como las
opiniones de los encuestados acerca de asuntos que van desde el gasto público hasta temas como el
racismo, pasando por la existencia y la concepción individual de Dios.
Debido a la amplia gama de temas tratados y la recopilación integral de información demográfica,
los resultados de las encuestas permiten a los científicos sociales correlacionar factores
demográficos como la edad, la raza, el género y la educación urbana/rural con las creencias, y así
determinar si, por ejemplo, un encuestado masculino afroamericano de mediana edad tendría más o
menos probabilidades de mudarse a un estado diferente de los Estados Unidos por razones
económicas que una mujer blanca de edad similar encuestada; o si una persona altamente
educada con una educación rural es más propensa a creer en un Dios trascendente que una persona
con una educación sólo de nivel secundaria pero urbana.
Los resultados de la GSS están disponibles en internet para las personas interesadas, son
ampliamente utilizados en la investigación sociológica. Los datos están disponibles en distintos
formatos para programas estadísticos (por ejemplo, R/SAS/SPSS/Stata), el Explorador de Datos de
GSS permite a los usuarios buscar información de forma rápida, probar hipótesis y buscar
correlaciones interesantes directamente en el sitio web.
La GSS se vinculó recientemente al Índice Nacional de Mortalidad. Este conjunto de datos de libre
acceso permite a los investigadores explorar la asociación entre las variables en la GSS y la
longevidad humana.
Submuestra de la GSS
Utiliza el conjunto de datos de la GSS [Link] e impórtalo en MINITAB. El archivo contiene 57061
registros (personas encuestadas) y 114 variables (columnas). Es un extracto de la GSS en el periodo
1972-2012 que proporciona una muestra de variables seleccionadas de la encuesta con el objetivo
de proporcionar un archivo de datos conveniente para los estudiantes que están aprendiendo
razonamiento estadístico. A diferencia del archivo acumulativo completo de la GSS, se han
eliminado de las respuestas los valores faltantes y se han creado variables categóricas para facilitar
el análisis. Se espera que esto permita a los estudiantes centrarse en conceptos estadísticos sin tener
que (inicialmente) preocuparse por algunos de los problemas de gestión e interpretación de datos
asociados con los datos faltantes y variables categóricas. Aparte de las dos modificaciones
mencionadas anteriormente, todos los datos y la codificación proceden del conjunto de datos
original. Se invita a los estudiantes e investigadores que buscan llevar a cabo análisis más
ambiciosos a explorar el diccionario de datos completo del archivo acumulativo completo de la
GSS en el siguiente vínculo:
I. Exploración de encuesta
1.1 Identificación de variables
Realiza el tratamiento de datos mediante el programa MINITAB, el documento final debe
elaborarse en el procesador de textos Word. Para la escritura de las expresiones matemáticas se
recomienda el uso del editor de ecuaciones de dicho programa de cómputo.
a. Como primer paso, revisa el archivo que contiene el diccionario de datos
(gss_diccionario_datos.html) y estudie detenidamente el significado de cada una de las
variables (columnas) del archivo. Para ello, identifique el tipo de cada variable, cualitativas
(nominales o categóricas) o cuantitativas.
}
Nota:
Recuerda que las proporciones se aplican a las variables cualitativas y los promedios se aplican
a las variables cuantitativas, esto significa que el tipo de análisis estadístico que puede
aplicarse a una o más variables depende de su tipo. Además, revisa la unidad de medición de
las variables para que puedas expresar sus resultados en las unidades correctas que se están
planteando en la encuesta.
b. Observa que existen diversos temas como educación, salud, empleo,
ingresos, política, racismo, religión, expectativas sobre calidad de vida,
vivienda...
c. Para la realización del proyecto deberás seleccionar el tema de tu interés
utilizando
los datos de la encuesta para la aplicación de la estadística inferencial.
El tema elegido es ABANY, que habla sobre el consentimiento de que las mujeres
embarazadas pueden abortar legalmente sin una razón específica.
d. Describe la forma en que las observaciones fueron recolectadas y las
implicaciones de este método de recolección en el ámbito (alcance) de la
inferencia estadística (generalización de los resultados/causalidad). Nota que
necesitarás revisar la documentación de la GSS ([Link] para
responder esta pregunta.
Recopilación de datos (general): Las observaciones se recopilaron a través de una encuesta de
adultos (18 años y mayores) que residen en los Estados Unidos. La muestra de GSS se extrajo
utilizando un diseño de probabilidad regional, que selecciona al azar a los encuestados de los
hogares de EE. UU. para participar en la encuesta. Los encuestados que se convirtieron en
parte de la muestra de GSS provenían de áreas geográficas urbanas, suburbanas y rurales. La
participación en la investigación es totalmente voluntaria. Sin embargo, dado que solo se
entrevistó a unos pocos miles de encuestados en el estudio principal, cada entrevistado
seleccionado fue muy importante para los resultados. La encuesta se realizó cara a cara con las
entrevistas cara a cara de NORC en la Universidad de Chicago. La encuesta se realizó
anualmente desde 1972 hasta 1994 (excepto 1979, 1981 y 1992). Se ha celebrado cada dos
años desde 1994. La encuesta tarda aproximadamente 90 minutos en administrarse. A partir de
2014, se han recopilado muestras de 30 países con 59 599 encuestados y más de 5900
variables.
Recopilación de datos (particularmente sobre el aborto): Las observaciones sobre la aceptación
o no aceptación del aborto (en los diferentes contextos en que se les pregunta a las personas) se
recopilan a través de encuestas presenciales, donde las opciones de respuesta a las diferentes
preguntas incluyen: a) Sí (pro- aborto), b) no (apoya el aborto), c) no aplicable (no quiere
contestar). Este modelo de recolección de datos hace que, a partir de las muestras tomadas en
el estudio, podemos destacar que la mayoría de personas de diferentes edades se han
pronunciado al respecto, de lo cual podemos obtener una representación de cómo se siente la
población sobre el tema del aborto.
ABANY: Si una mujer embarazada desea abortar por cualquier motivo, ¿cree que debería ser
legalmente posible?
1.1 Planteamiento de preguntas de investigación
e. Identifica y expresa por escrito cuatro preguntas de investigación de su
interés similares a las preguntas que se han planteado en las distintas
actividades.
Debes
formular las preguntas de investigación de una manera consistente con los
planteamientos teóricos presentados en los libros de referencia.
a. Generamos un grupo de encuestados para cada década desde 1972 y mostramos el
porcentaje promedio de edad y género de cada persona, así como su opinión sobre el
aborto.
b. ¿Cuál es su estimación del porcentaje de adultos estadounidenses que creen que es incorrecto
tener un aborto simplemente porque la mujer eligió tenerlo?
c. Estime la proporción de todos los que no están de acuerdo utilizando un intervalo de confianza
del 90%.
d. Es decir, 12,887 de la población está a favor del aborto sin motivo ¿Qué porcentaje del grupo de
población que expresó una opinión sobre este tema acepta el aborto? Estime la proporción de todos.
Puedes crear nuevas variables a partir de las ya existentes (por ejemplo,
recodificándolas o realizando operaciones entre ellas). Junto con las preguntas de
investigación incluya una breve discusión (3 párrafos) sobre la razón por la cual
estas cuatro preguntas son de interés para usted o su audiencia. Discute con tu
profesor la pertinencia de las preguntas planteadas.
Conclusión
Según el tema, las respuestas varían según el grupo de edad debido a las nuevas tendencias
o especialmente a la tercera ola del feminismo, donde los abortos legales tienden a
realizarse en rangos de edad más jóvenes.
Es importante conocer las respuestas para cada grupo de edad, razón por la cual decidimos
generar grupos de encuestados de 10 años a partir de 1972, con ideas que cambian y el
acceso a la información probablemente cambie con el tiempo.
La encuesta se realizará en países distintos a nosotros para conocer la opinión de países
más desarrollados en comparación con el nuestro y así tener un mayor impacto en nosotros.
En ese país, el sector más joven se basa en factores que pueden limitar a personas con
objetivos a corto plazo o diferentes prioridades en la vida profesional. Algunos países
prohíben rotundamente el aborto y solo lo permiten en situaciones donde la vida de la
mujer está en riesgo (como nuestro caso), 1 de cada 4 abortos son seguros porque el secreto
multiplica el riesgo de que algo se equivoque
Esto nos intrigó en base a la información expresada en las muestras del GSS, que nos
permitió visualizar el comportamiento de poblaciones específicas, de manera probabilística
con un riesgo de error medible, e inferir a partir de estos datos (en este caso específico de
aborto) Estadísticas, por ejemplo: ¿Cómo muchos adultos piensan que el aborto es malo
para las mujeres, o cuál es el porcentaje promedio de edad y género de cada persona y qué
piensan sobre el aborto?
ETAPA 2
INTRODUCCION
Las encuestas de GSS recopilan miles de datos cualitativos y cuantitativos. Este proyecto tiene como
objetivo explicar la recopilación de información a través de herramientas estadísticas.
La fase 2 de proyecto de investigación guiara la justificación y solución a las preguntas que
plantamos en la fase 1.
El proceso incluirá la asociación de variables, métodos para encontrar tendencias centrales, la
aplicación de herramientas estadísticas inferenciales y la interpretación de resultados.
Procedimiento Estadístico
El número de encuestados fue de 57,061
Opinión de los estadounidenses en el aborto
Aplicación de técnicas inferenciales e interpretación de resultados
a) Determina el intervalo de confianza al 90,95 y 99% de una muestra grande para una
media poblacional Obteniendo las medidas de tendencia central en Minitab de la variable
edad
Es decir, la diferencia entre religión y partidos políticos pertenece a este rango al 95% de
confianza. d) Intervalo de confianza de 95% de muestra grande para una diferencia entre
dos proporciones poblacionales Se desea analizar la diferencia de medias para las
proporciones de los que apoyan y los que no el aborto en Estados Unidos
R= [0.100 , 0.110]
e) Límite de confianza superior del 98% para una media poblacional (elija una variable distinta a la
utilizada en el inciso 1) Utilizando la variable de región, se desea estudiar debido para observar el
límite superior o nivel máximo en donde un grupo de personas religioso existe bajo cierto nivel de
significancia.
Referencias
El intervalo de confianza con 98% es: [0.2070]
g) Una prueba de hipótesis de muestra grande acerca de una media poblacional en este punto se
requiere una prueba bilateral y una prueba unilateral, utilice la misma variable que en el inciso 1) 1.
Se desea probar si la edad en hombres es mayor que la edad en mujeres con un nivel de significancia
del 5%
h) Una prueba de hipótesis de muestra grande para una proporción poblacional (en este
punto se requiere una prueba bilateral y una prueba unilateral, utilice la misma variable que
en el inciso 2)
1. Se requiere saber si dentro de las personas encuetadas, la proporción de los que
están a favor y los que no.
j) Una prueba de hipótesis de muestras grandes para la diferencia entre dos proporciones
poblacionales (utilice las mismas variables que en el inciso 4)
Dado los datos siguientes:
Conclusión
La estadística es, sin duda, una herramienta poderosa para interpretar y predecir
datos, y parece que has utilizado eficazmente técnicas como las pruebas de hipótesis y
los intervalos de confianza en tu análisis.
Finalmente se clasifico el número de varones y mujeres, observándose que las
mujeres que tenían una media de edad mayor. Así como hay más hombres que
desaprueban el aborto. El porcentaje exacto de adultos que piensan que el país no es
apto para el aborto es de 33,16%. Un intervalo de confianza del 90% nos da un rango
del 10% al 11% de la muestra total que respalda esta razón.
En resumen, según la encuesta GSS, se cree que Estados Unidos no está listo para
permitir el aborto.
Referencias
Referencias: Universidad del Valle de México (2021). Unidad 4. Prueba de
hipótesis
Devore, J. L. (2016). Probabilidad y estadística para ingeniería y ciencias (9
ed.) [Versión electrónica]. Recuperado de
[Link]
Sweeney, D. J., Anderson, D. R., & Williams, T. (2011). Estadística para
negocios y economía (11 ed.) [Versión electrónica]. Recuperado de
[Link]
Triola, M. F. (2018). MINITAB Manual [Archivo PDF]. Recuperado de
[Link]
at12e_minita [Link]
OpenIntroOrg (Productor). (19 de mayo de 2015). Hypothesis Testing
Fundamentals [Archivo de video]. Recuperado de
[Link]
GSS Data Explorer | NORC at the University of Chicago. (s. f.). GSS The
General Social Survey. Recuperado 23 de agosto de 2021, de
[Link] The-GSS GSS Data Explorer | NORC at the
University of Chicago. (s. f.). GSS
Data Explorer | NORC at the University of Chicago. Recuperado 20 de agosto
2022, de [Link]