Introducción a la Estadística y Método Científico
Introducción a la Estadística y Método Científico
La Estadística y
la Investigación Social, con especial referencia a la Investigación social por Encuesta.
Fases en su desarrollo.
Siguiendo el criterio del considerado Método Científico, utilizado para que el conocimiento que se obtenga sea
considerado como científico, antes de empezar a hablar de algo se debe definir ese algo. Según este criterio, se definen
los primeros conceptos considerados clave que se van a utilizar: método, científico, investigar, método científico,
ciencia, teoría y estadística. La definición de ciencia es amplia y compleja y a veces el término hace referencia a un
proceso y en otras ocasiones es el resultado de ese proceso , se considera “la actividad intelectual y práctica que
abarca el estudio sistemático de la estructura y conducta del mundo físico y natural a través de la observación y la
experimentación”. Una teoría se trata de una colección de teoremas y principios asociados con algún objeto o concepto
matemático. Finalmente la estadística se trata del estudio de los datos cuantitativos de la población, de los recursos
naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas, o la disciplina
científica que trata de la recogida, análisis y presentación de datos.
Estos términos y las operaciones que ellos implican se consideran, lo primero, un invento y lo segundo un
descubrimiento. Las operaciones de teorización, metodología y análisis, en la forma en que se han definido se
encuentran en la naturaleza y en el encéfalo. Las neuronas del encéfalo del homo sapiens sapiens, recogen
información, la almacenan y la analizan. La compara con su información previa, y en base a ella toma una decisión SE
puede concluir que, en última instancia, en todo el proceso de adquisición de conocimiento, la herramienta analítica y
de toma de decisiones final son las neuronas del encéfalo.
Para poder comprender qué es el conocimiento primero hay que saber de dónde y por qué surge. El primer paso para
comunicar el conocimiento hay que saber de dónde viene. El conocimiento del que se dispone se va a clasificar en
varios tipos, por ejemplo el propio de la vida de relación con los familiares, amigos, el que proviene de las ideologías o
costumbres. Pero también se dispone de conocimiento que se llama teórico o teoría que corresponde con la realidad
que rodea al organismo, para poder comprenderla y por lo tanto explicarla y tratarla. El conocimiento se puede generar
por la propia experiencia de la vida cotidiana y la transmisión cultural como por ejemplo los refranes.
Hay una visión genérica del método científico del que se pueden observar variaciones dependiendo del área de
conocimiento en el que se aplica puede ser:
1
1. Plantear preguntas, temas o problemas que se quieran averiguar, investigar conocer o resolver.
2. Establecer el marco teórico de referencia (R³1).
3. Plantear hipótesis, tesis, objetivos que proponen lo que queremos saber.
4. Decidir las técnicas e instrumentos que vamos a utilizar para recoger los datos relativos o propuestos en el
punto 3.
5. Realizar las pruebas empíricas o recoger la información generada por otros, de las pruebas empíricas que han
realizado.
6. Comparar conclusiones (R⁴1) con el marco teórico de referencia (R³1) del punto 3
7. Escribir y aplicar el informe.
El denominado Método científico en sociología el autor lo divide en diseño empírico y en diseño teórico, los cuales se
dividen en 5 puntos cada uno.
1. DISEÑO TEÓRICO
[Link] A INVESTIGAR
2
1. Se expone el problema o tema de la investigación
2. Poner la diferenciación de los conceptos considerados clave que se van a investigar, para que quienes
acceden a la lectura sepan qué se ha considerado estudiar o investigar. Se deben poner con la cita de
referencia a la fuente o fuentes utilizadas. Puede que los conceptos clave no coincida con lo que se llaman
las palabras clave.
3. Se debe poner la justificación que ha llevado a realizar la investigación
Un indicador es un término polisémico, son valores puntuales pero en este caso como un conjunto de valores. Tienen
una gran característica ya que son variables complejas. En definitiva un indicador es una variable sintética, ya que
sintetiza varias variables.
1. En los objetivos y las hipótesis se plantean variables ( o ítems) y relaciones entre ellas. Los objetivos se
traducirán o implementarán en aquellas variables que permitirán comprobar su consecución o cumlimineto.
Las hipótesis, en sus definición de proposiciones afirmativas, especifican variables y establecen relación entre
ellas.
3
2. DISEÑO TÉCNICO O PRUEBA EMPÍRICA
2.1 DEFINICIÓN DE UNIVERSO
1. La realización de una investigación en sociología, precisa la definición de un universo mediante la
delimitación geográfica y las características que delimitan la población formada por los objetos de
estudio.
2. Al definir los límites geográficos o administrativos de la población y las características de la misma,
se define el objeto o unidad de observación y análisis. Se asume que la población es el conjunto de
estas unidades.
2.2 DEFINICIÓN DE LA MUESTRA
1. Al ser limitados los recursos económicos y materiales para acceder a toda la población, se opera
sobre un conjunto limitado de objetos que se denomina muestra, con la misma delimitación
geográfica que el universo, se aplica sobre la misma población y tiene el mismo objeto o unidad de
observación.
2. Los resultados obtenidos de la muestra se pretenden inferir sobre la población, por lo que aquella
debe ser representativa de ésta. Para que la muestra sea considerada representativa, es necesario
aplicar técnicas de muestreo y técnicas de cálculo de tamaño de muestra, según los requisitos o
3. criterios de la ficha técnica. Con este proceso se define a quién y cuántos se les va aplicar el
instrumento de obtención de datos .
.
TÉCNICAS DE MUESTREO
PROBABILÍSTICAS NO PROBABILÍSTICAS
TÉCNICAS DE INVESTIGACIÓN
CUANTITATIVO CUALITATIVO
Estudio de caso
4
Técnicas individuales Técnicas de grupo
Dinámicas Dinámicas
Biográfica Biográficas
Observación Entrevistas
Entrevistas Observación
INTRODUCCIÓN A LA ESTADÍSTICA
Entendemos por estadística “la disciplina científica que trata de la recolección, análisis y presentación de datos”. La
estadística se divide en estadística descriptiva y en estadística inferencial. Los datos se consideran de tres tipos: TIPO
1, TIPO 2, y TIPO 3. Los datos del primer tipo son los datos brutos , “raw data” o microdatos. Se dispone de los datos o
valores que se tiene para todos y cada uno de los casos. En los datos tipo dos, se muestra la frecuencia, el número de
casos que hay en cada categoría o valor distinto o el número de veces que se repite o a parecer cada valor o categoría
distinta (tabla de frecuencias). En los datos tipo tres, también se muestra la frecuencia o el número de casos, pero por
intervalos (tabla de frecuencias pero por intervalos).
La aplicación de los estadísticos se hace sobre los datos de tipo 1 y tipo 2. Con los datos de tipo 3 se procede
pasándose a datos de tipo 2, representando cada intervalo, estrato o categoría por el valor medio o marca de clase del
5
intervalo. En este caso a la variable se la denomina como prima (X’). Por el interés de este epígrafe se pregunta,
variable, espacio muestral, suceso elemental, respuesta y categoría
1. Variable: en las ciencias sociales, el término se refiere a atributos que son fijos para cada persona u otra
entidad social, el cual, es observado a los diferentes niveles o cantidades de las muestras y otros grupos de
agregados. Las variables miden una estructura social y en cierto modo, permite el análisis numérico. Así que
el rasgo importante de una variable es que es capaz de reflejar la variación dentro de una población y no es
una constante.
2. Suceso elemental: un suceso elemental es uno de los resultados posibles del espacio muestral. También es
cada uno de los posibles resultados de un experimento aleatorio, es decir cada uno de los elementos del
espacio muestral .
Los niveles de medida se distinguen por propiedades de distancia y orden. Las variables se clasifican en dos
grupos:variables cualitativas, categorías o de frecuencias y variables cuantitativas o numéricas. En el primer grupo se
incluyen las variables de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escalo y razón.
Nivel de medida nominal: las variables de nivel de medida nominal. Son aquellas que sus datos son valores numéricos
o códigos que se asignan a las categorías de la variable, entre los que no existe ninguna relación y cada valor define
una categoría distinta, es el nivel considerado inferior. La asignación de valores o códigos a las categorías se llama
codificación. Con estos valores no se pueden realizar operaciones aritméticas, pero sin se pueden aplicar operadores
lógicos y operaciones de clasificación. Son ejemplos de variables nominales: sexo, estado civil, carcter, religión,
deportes practicados o productos comprados.
Un tipo especial de variables nominales son las dicotómicas, variables con dos categorías, pero también se pueden
considerar variables dicotómicas a las binarias o falsas binarias. Las variables dicotómicas pueden ser consideradas
numéricas e independientes en el análisis de regresión. Las binarias y falsas binarias también se pueden considerar
numéricas porque se puede calcular funciones estadísticas.
6
La siguiente etapa considerada es el Renacimiento, que supone la crítica del aristotelismo escolástico y el inicio del
empirismo con Galileo y Bacon (método hipotético deductivo). Newton sintetiza el método inductivo en el hipotético
deductivo.
Simultáneamente, surge el racionalismo como polo opuesto del empirismo. La razón humana, también es fuente de
conocimiento. Introduce el concepto de mente o conciencia en lugar o además de alma o espíritu. La fusión de las
corrientes empiristas y racionalistas se materializa en Kant.
En el curso de filosofía positiva, Comte hace referencias directas al encéfalo y concreta la filosofía individual con las
físicas sociales. Comte destaca el servicio que hizo Descartes al instituir un completo sistema de Filosofía positiva que
aplicó al mundo inorgánico y a las funciones físicas del mundo animal,pero estima que se detuvo cuando llegó al
estudio del hombre, dejando éste al amparo de la Filosofía Metafísica y la teología, e interrumpe la posibilidad de
aplicar los principios de la filosofía positiva.
Frente al paradigma dualista de la tradición Platón-Aristóteles y Descartes, diferenciando entre espíritu y materia, se
presenta el paradigma monistamaterialista. Los seres humanos tienen un encéfalo que es material y objetivo, y de este
emerge la inmaterial y subjetiva: el comportamiento.. También se puede considerar una parte material: cuerpo y otra
inmaterial, la conciencia, y en ella se consideran: los instintos, las emociones y lo social. El denominado método
científico consiste en una serie de pasos que difieren de un autor a otro pero, básicamente, representan el mismo
proceso. La aplicación de este método es lo que diferencia el conocimiento considerado científico del considerado no
científico. Pero es necesario tener el conocimiento teórico previo, tener un paradigma, para acercarse a conocer la
realidad.
La encuesta es la técnica de investigación social más utilizada, en sus diferentes modalidades, y el instrumento que se
usa para obtener los datos es el cuestionario, aplicado en diversas modalidades como puede ser mediante entrevista
personal, telefónica, autoadministrada o a través de dispositivos electrónicos.
La encuesta se apoya en dos grandes teorías que regulan la relación entre la muestra y la población, y son: la teoría de
las probabilidades y la teoría del diseño de muestras. Para realizar una investigación social empírica por encuesta a
través de cuestionario se pueden distinguir cinco grandes bloques:
1. Formular con precisión los objetivos de la investigación, establecer hipótesis, delimitar variables,
operacionalizar conceptos y diseñar la muestra.
2. Formular las preguntas y en su caso elaborar el cuestionario.
3. Preparación del trabajo de campo y realización de las entrevistas.
4. Procesamiento de la información obtenida en el punto tercero que comporta la grabación de las respuestas
en su soporte magnético.
5. Análisis de los datos y preparación del informe final.
El diseño de un cuestionario es una tarea que se puede considerar compleja y llena de dificultades. Se trata de la
construcción de un instrumento de medida o de forma más precisa en ciencias sociales, de clasificación de las unidades
d observación, puesto que no existen instrumentos estandarizados de medida y observación de uso universal como en
otras ciencias como pueden ser cintas métricas, balanzas, microscopios, telescopios, túneles aceleradores de partículas,
7
instrumentos electroencefalográficos. La aplicación de del cuestionario orientado principalmente a la modalidad
mediante entrevista personal supone:
1. La relación entre dos personas.
2. Que no se conocen.
3. Que una de ellas extrae información de la otra y además consume su tiempo.
4. Que la persona entrevistada no obtiene ninguna contrapartida, excepto la de participar.
5. Que entre las personas existe lo que llamamos “la primera impresión” que puede condicionar la entrevista.
Para que la entrevista mediante la aplicación del cuestionario transcurra de forma que se facilite la participación del
entrevistado, es recomendable considerar los siguientes aspectos en su organización:
1. Que tenga una introducción adecuada.
2. Que tenga una transición fácil de un tema a otro.
3. Formulación de un final adecuado.
Una estructura recomendable de cuestionario puede ser dividida en tres partes. La primera como tema introductorio, la
segunda con el núcleo central del tema o temas de investigación y la tercera y última con las preguntas consideradas
de clasificación que son las de tipo socio-político-económico -demográficas. El cuestionario debe seguir un hilo
conductor desde el principio hasta el final, de manera que la introducción sea gradual y sin preguntas comprometidas
para facilitar la participación de la persona entrevistada, captando su interés. La transición a la segunda parte también
debe ser gradual. Este segundo bloque se considera que es el más importante o el que contiene la información que
constituye el objetivo principal de la investigación. Las preguntas pueden ser temas aparentemente superficiales hasta
de una gran trascendencia. Esta parte del cuestionario puede suponer que a la persona entrevistada se le someta aun
gran esfuerzo de tipo emocional y/o puede llegar incluso a producir catarsis.
Todas las preguntas deben tener sentido en el marco de la investigación que se realiza. Preguntas que no aporten
cierta utilidad van a romper el hilo conductor de la entrevista y aunque los entrevistados no son personas técnicas en
la materia, la lógica y el sentido común les indica perfectamente que preguntas son útiles y cuáles no y en estos casos
pierden el interés en participar. Un cuestionario puede tener más de tres bloques, se recomienda proceder de la misma
manera.
La formulación de las preguntas del cuestionario pueden ser tarea propia o bien utilizar cuestionarios ya testados y
utilizados por otros investigadores.
MATRIZ DE DATOS
En sociología y según el paradigma cuantitativo, una de las técnicas de investigación más utilizadas es la Encuesta y el
principal instrumento de obtención de datos es el cuestionario en sus diferentes modalidades. El trabajo de campo
consiste básicamente en aplicar el cuestionario a las unidades de observación. A partir de los cuestionarios recogidos
en campo y que se han rellenado con la información facilitada por los objetos o unidades de observación se procede a
crear la matriz de datos sobre la que posteriormente se aplicarán los procedimientos estadísticos y gráficos, a través de
un programa estadístico.
La matriz de datos es una matriz rectangular de dos dimensiones de casos por variables. Los casos definen las filas de
la matriz y equivalen a las unidades de observación u objetos y cada una de las filas es un cuestionario de los que se
8
recogió anteriormente. Las columnas están definidas por las variables que se obtienen por la interpretación u
operacionalización de las preguntas, en una relación de uno-a-uno. La cuadrícula o casilla que se define por el cruce de
cada caso con cada variable se denomina celda. Cada celda contiene un valor, característica o atributo de la unidad de
observación, que se denomina dato, y genéricamente, el dato se considera de dos tipos: válido y no válido.
Una variable toma un valor como válido, cuando se corresponde con uno de los sucesos elementales de su espacio
muestral. Él no válido, es cualquier otro valor no contemplado en el espacio muestral de la variable.
Una columna o variable es el conjunto de datos que se tiene para todos los casos, y debe ser de la misma unidad de
medida y de la misma característica.
Los distintos valores, atribuidos o categorías de una variable constituyen un espacio muestral y los denominamos
sucesos elementales del espacio muestral de la variable. El espacio muestral es el “conjunto de todos los resultados
posibles de un experimento u observación”. Se le denomina con una S o E y los posibles eventos o sucesos
elementales por letras minúsculas con subíndices.
9
TEMA 2. Las Fuentes de datos estadísticos. Fuentes. Estadísticas oficiales y Organismos
nacionales e internacionales que las suministran.
Una estrategia básica de investigación consiste en acudir a archivos de datos y fuentes bibliográficas en busca de
información. La exposición de esta estrategia de investigación antecede al resto de estrategias como la encuesta y
experimentación, por su consideración de “básica”. Esto está presente en la mayoría de los estudios, bien como
estrategia única de investigación, o bien otras estrategias diseñadas para alcanzar los objetivos de estudio. La revisión
bibliográfica de investigaciones teóricas y empíricas sobre el tema concreto de estudio y otros similares figura en los
preliminares de cualquier indagación. Porque contribuye a:
1. La familiarización con el tema de estudio, sus antecedentes y la metodología ya ensayada.
2. La estructura de las ideas originarias del estudio en un diseño de investigación concreto, al indicar:
A. Aspectos a tratar (hipótesis a comprobar)
B. Sujetos a analizar ( características de la población de interés)
C. Estrategias y técnicas de recogida y de análisis a aplicar, tras los resultados y experiencia adquirida
en indagaciones precedentes.
La información así obtenida descubrirá el conocimiento que ya se tiene sobre el tema elegido frente a los aspectos
necesitados de mayor profundización a través de investigación primaria.
Por investigación primaria se entiende cualquier tipo de indagación en la que el investigador analiza la información
que él mismo obtiene, mediante la aplicación de una o varias técnicas de obtención de datos (cuestionario, guión de
entrevista, observación). Por el contrario, la investigación secundaria se limita al análisis de datos recabados por otros
investigadores con anterioridad al momento de la investigación. Ambos tipos de investigación no constituyen
modalidades contrapuestas, sino complementarias. La investigación secundaria se considera extensión y punto de
partida habitual de la indagación primaria.
Dentro de la investigación secundaria Hakim diferencia tres variedades importantes:
A. La revisión de investigaciones
B. El meta-análisis.
C. El análisis secundario
10
2. EL META- ANÁLISIS: Es el análisis estadístico de los hallazgos de muchos análisis individuales. Proporciona
un medio de resumir los resultados de numerosos estudios cuantitativos sobre un dominio particular. Tiene
como objeto principal la obtención de un cuadro resumen, que sintetice los resultados cuantitativos
alcanzados en distintas investigaciones. Cada estudio revisado constituye una unidad de la muestra de
estudios (relevantes), extraída del total existente. Se aplican distintas técnicas de análisis estadístico
(univariable, bivariable o multivariable), para comprobar el nivel de significatividad de determinados
hallazgos.
La consecución de este objetivo supone:
A. La descripción de los hallazgos y cómo varían de un estudio a otro. Los hallazgos se
convierten en la variable dependiente (en los análisis estadísticos), mientras que las
características (sustantivas y metodológicas) de los estudios en las variables
independientes.
B. La comprobación de us significatividad
C. La determinación de su magnitud conjunta
La solidez de las conclusiones del meta-análisis depende de la calidad de los estudios revisados, de si representan
realmente la totalidad de estudios existentes (si se incluyen tanto investigaciones publicadas como no publicadas), y
de cómo se ha procedido en el análisis de cada uno de ellos.
3. EL ANÁLISIS SECUNDARIO: Es el análisis posterior de la información que ya se ha obtenido. Este análisis puede
estar relacionado con el propósito original para el que los datos se recogieron, o puede dirigirse a un asunto bastante
diferente del que instó el esfuerzo de reunión de los datos originales. Puede implicar la integración de distintas
fuentes o un reanálisis de los datos de una fuente única.
El análisis secundario facilita el análisis comparativo y el de tendencias, a partir de los datos disponibles
para un amplio periodo de tiempo. Una proporción importante de investigación económica se basa en el análisis
secundario de series temporales del nivel macro, que consisten en un gran número de indicadores estadísticos
nacionales y medidas cotejadas desde una gran variedad de encuestas oficiales y series estadísticas. Estos tipos de
análisis se han visto favorecidos por la eclosión, de las aplicaciones informáticas para la detección y utilización de la
información secundaria
11
Datos no publicados, elaborados por organismo públicos y privados, relativos a su actuación.
Todo organismo (o empresa) registra alguna información sobre su personal y aspectos relacionados con su actividad.
Esta información adquiere un gran interés en la descripción y evaluación de la actuación de estos organismos. Por
ejemplo: los informes de pacientes de centros sanitarios, los expedientes académicos de alumnos de centros de
enseñanza, etc.
El carácter privado (no “público”) de este tipo de información obstaculiza su acceso. En caso de requerirla, el
investigador tendrá que solicitarla, expresa y formalmente, al organismo en cuestión. En esta solicitud se ha de
enfatizar la trascendencia de la información requerida para los objetivos de la investigación; además de garantizar el
anonimato de las personas a las que se refieren los datos manejados.
Algunas entidades (públicas y privadas) editan estadísticas e informes como parte principal ( o complementaria) de su
actividad). La validez y fiabilidad de estas fuentes es algo que el investigador deberá comprobar contrastando, por
ejemplo, con la información que recabe de dichos organismos mediante otras fuentes: bien vía investigación primaria
(una encuesta, por ejemplo) o secundaria (estadística y/o informes elaborados por otras instancias). La razón principal
de esta necesaria contrastación reside en la posibilidad de que el organismo distorsione sus informes para crear una
buena imagen pública de sus actuaciones.
Además de las estadísticas e informes publicados por entidades particulares, por parte de las administraciones
públicas se realizan - con mayor o menor rigor- “estadísticas oficiales”. Estas describen, con cierta regularidad temporal,
algunas de las características sociodemográficas de la población.
En España, a nivel nacional, son de obligada referencia las estadísticas elaboradas y publicadas por el
Instituto Nacional de Estadística (INE). Cabe mencionar entre otros:
● Censo de población (desde 1857)
● Indicadores sociales
● Encuesta de fecundidad
● Encuesta sociodemográfica 19941
● Encuesta de migraciones (desde 1980)
Además de estas publicaciones impresas (algunas de ellas también disponibles en soporte magnético), el INE oferta
otros servicios de difusión de estadísticas:
a. El banco de datos TEMPUS, de acceso gratuito a través de la red telefónica conmutada o la red IBERPAC.
Este banco de datos reúne una colección de más de 400.000 series cronológicas (mensuales, trimestrales y anuales) de
diversas fuentes: Instituto Nacional de Estadística, Ministerio de Trabajo y Seguridad Social, Banco de España,
Ministerio de Industria y Energía, principalmente.
b. El banco de datos, VIDEOTEX, al que se accede de marcando 031 en la red IBERTEX, y tecleando *INE*. Con
este servicio se dispone de los datos del INE al momento.
12
El Banco de España y los distintos ministerios también presentan un amplio catálogo de publicaciones, sobre materias
afines a su función. Tal es el caso de las estadísticas editadas por el Ministerio de Trabajo y Seguridad Social:
● Anuario de estadísticas laborales.
● Estadísticas de acciones de trabajo y enfermedades laborales.
● Estadísticas de huelgas y cierre de patronales.
● Estadísticas de permisos de trabajo a extranjeros.
Asimismo, han de mencionarse los Boletines Estadísticos de Datos Básicos del Ministerio de Asuntos Sociales. A escala
regional, desde los años ochenta, algunas Comunidades autónomas han creado institutos de estadística propios (País
Vasco, Andalucía, Valencia, por ejemplo). En otros casos como Madrid, la producción regional de información
estadística (demográfica y económica, sobre todo) se ha organizado en un departamento de estadística, normalmente
dependientes de la Consejería de Economía.
Entre las estadísticas demográficas publicadas por la Consejería de Economía de la Comunidad de Madrid, por
ejemplo, están entre otros:
● Anuario estadístico de la Comunidad de Madrid (desde 1984)
● Censo de población de los municipios de menos de 50.000 habitantes de la Comunidad de Madrid
● Encuesta demográfica de la Comunidad de Madrid (de 1986 y de 1991)
● Proyección de población y hogares de la Comunidad de Madrid con horizonte en el año 2006
A estas poblaciones se suman los Documentos de trabajo y los Ficheros Tipo Matriz, por ámbitos geográficos (datos de
soporte magnético): los censos de población y vivienda de 1991 de la Comunidad de Madrid; las Estadísticas de
movimiento natural de la población de la Comunidad de Madrid; y los Resultados electorales de la Comunidad de
Madrid.
A escala municipal, algunos ayuntamientos generan información estadística desagregada para su ámbito
municipal (por distintos barrios y distritos administrativos). No se trata únicamente de explotaciones detalladas del
Padrón municipal de habitantes, sino también de estudios sociológicos hechos por el personal técnico del
Ayuntamiento, o encargados a profesionales externos. Cabe citar la Encuesta sobre formas de vida del Ayuntamiento de
Madrid.
Respecto a entidades privadas, han de citarse las publicaciones de los servicios de estudios de distintas
entidades bancarias, como BANESTO, el BBVA etc. A escala internacional destacan (en el contexto europeo) las
“estadísticas oficiales” efectuadas por EUROSTAT (Oficina Estadística de las Comunidades Europeas). Publicaciones:
● Estadísticas básicas de la Unión Europea.
● Anuario Eurostat ‘95. Visión estadística sobre Europa 1983-1993
● Europa 2000+. Cooperación para la ordenación del territorio europeo.
Este mismo organismo cuenta, además, con varias bases de datos. De ellas son de especial referencia:
● EUROSTAT-CD (que contiene estadísticas sociales y económicas, datos regionales y sobre comercio exterior)
● CD-ROM COMEXT (base de datos comunitarias sobre el comercio exterior)
● CD-ROM Panorama de la industria comunitaria (proporciona una amplia panorámica de la situación de la
industria y los servicios de la UE)
13
● CD-ROM REGIOMAP (que integra las estadísticas regionales oficiales de EUROSTAT procedentes de la base de
datos REGIO -Estadísticas regionales- con los datos topográficos y los límites territoriales de GISCO en un
software de estadísticas y cartografías).
También cabe mencionar aquí los informes de la Organización de Cooperación y Desarrollo Económico (OCDE) sobre
distintos temas, y sus bases de datos como, por ~ejemplo, CD-ROM OECD Statistical Compendium (que proporciona
más de 150.000, series cronológicas, actualizadas anualmente, seleccionadas de las principales bases de jatos
estadísticos de la OCDE).
En este breve repaso de fuentes principales de datos estadísticos, merecen asimismo resaltarse los Informes
sobre el Desarrollo Mundial, del Banco Mundial. Este organismo también edita soportes magnéticos sobre
investigación, análisis e información estadística de distintos aspectos del desarrollo económico y social. Entre sus
publicaciones electrónicas están:
● World Tables 1994. Disquetes (de datos económicos, demográficos y sociales sobre más de 160 economías,
así como indicadores básicos de otras 50).
● Social Indicators of Development 1994. Disquetes (que incluye estimaciones sobre fertilidad, mortalidad,
analfabetismo y salud, entre otras).
● CD-ROM World Data (el primer CD-ROM elaborado por el Banco Mundial, que contiene datos estadísticos
relativos al período 1960-1992).
● CD-ROM World Development Report 1978-1995 (que constituye un archivo de todos los World Development
Reports publicados por el Banco Mundial desde 1978 hasta 1995).
Investigaciones publicadas
Existen varias formas de acceder a estudios publicados. Tradicionalmente, la manera más rápida era recurrir a fuentes
secundarias que citan y resumen investigaciones publicadas en distintas áreas de conocimiento. Las principales fuentes
de referencias son:
a) Índices como The Social Sciences Citation index (SSCI), que compila unos 130.000 artículos de revista cada año. A su
vez contiene un índice temático: el Permuterm Subject Index.
Otros índices que cubren bibliografía especializada son: Current Index to Journals in Education, Index of
Economic Articles, Social Science Index, Population Index o The International Population Census Biblíography: revision
and updata, entre otros.
b) Abstracts, como por ejemplo: Sociological Abstracts, Psychological Abstracts, Abstracts in Anthropology, Dissertation
Abstracts International, International Polítical Science Abstracts, por ejemplo. Estos abstracts contienen breves
resúmenes (en torno a 100 palabras redactadas por el propio autor del estudio) de investigaciones publicadas en
distintos países del mundo, de las que se tiene conocimiento por la revista que los edita. Las investigaciones figuran
ordenadas por tema y autor.
Sin embargo, la generalidad de los index y abstracts presentan- siguiendo a Cooper (1984)- tres límites
importantes:
a) La larga carencia temporal (con frecuencia más de dos años) desde que el estudio concluye y éste aparece registrado
en el abstracts.
b) Se centran en disciplinas particulares, cuando las investigaciones son, con frecuencia, interdisciplinares.
14
c) Su organización. Aunque el abstract cubra, con exhaustividad, las revistas relevantes a un tema concreto, es probable
que algunos artículos se pierdan, por no ser fácilmente localizados. Esto último ocurre cuando el investigador no
conoce términos clave de los índices que se aplican a artículos, o cuando el autor de los índices omite términos que el
investigador emplea comúnmente.
De ahí que algunos autores afirmen que es difícil conocer si los estudios que figuran en los index o abstaracts
representan la mayoría de la evidencia existente sobre la cuestión que se investiga, o sólo una parte no representativa
de la misma.
La evaluación de datos secundarios debería seguir los mismos procedimientos aplicados en la evaluación de datos
primarios. Éstos se resumen en los aspectos siguientes:
a. Fuentes de datos: ¿cuál era el propósito del estudio?, ¿quién recogió la información?
b. Medidas utilizadas: la calidad de los datos secundarios no puede evaluarse sin un conocimiento previo de la
metodología empleada cuando se recopilaron los datos. Específicamente, se precisa información sobre:
1) El diseño muestral, con especial atención a la representatividad de la muestra.
2) Los porcentajes de respuesta conseguidos.
3) Las técnicas de obtención de datos empleadas (de observación, de entrevista, de documentación).
4) Las técnicas analíticas aplicadas a la información reunida.
c. El tiempo de recogida de los datos. Cuando se utilizan datos secundarios hay que cerciorarse de la fecha de
obtención de la información.
Por ejemplo, la referencia temporal de los datos de una encuesta, en la que se basa un informe
sociológico, dará la fecha de realización del trabajo de campo. Otro ejemplo se tiene en los censos
de población, cuyas estadísticas van referidas a una fecha determinada: antes a 31 de diciembre del
año censal, ahora a 1 de marzo.
d. La adecuación de los análisis y las conclusiones. Habrá que comprobar la consistencia de la información con
la proporcionada por otras fuentes. Cuando la misma información se presenta mediante varias fuentes de
datos independientes, la confianza en esos datos aumenta. De ahí que se recomiende el contraste de
información, al menos de dos fuentes distintas. En caso de no coincidencia en la información, habría que
identificar posibles razones de la discrepancia observada y determinar qué fuente se estima más fiable.
15
Tema 3. La medición en las Ciencias Sociales. Nivel de medidas de las variables.
Organización de los datos
Los niveles de medida se distinguen por propiedades de distancia y [Link] valores deben ser determinados por el
ordenador, además de los niveles de medida de los datos para poder aplicar las técnicas estadísticas apropiadas
cuando se opera con programas estadísticos.
Las variables se clasifican en dos grupos:
Variables cualitativas, categorías o de frecuencia y variables cuantitativas o numéricas. En el primer grupo se
incluyen las variables de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escala y razón.
Las variables dicotómicas pueden ser consideradas numéricas e independientes en el Análisis de Regresión. Las
binarias y falsas binarias también se pueden considerar numéricas porque se pueden calcular funciones estadísticas.
16
NIVEL DE MEDIDA ORDINAL
Las variables de nivel de medida ordinal, son aquellas que sus datos son valores numéricos o códigos que se asignan a
las categorías de la variables, cada valor define una categoría distinta, lo que le asigna la característica de las variables
nominales. Entre sus valores se puede establecer un criterio de orden. La asignación de valores o códigos a las
categorías se llama codificación. Con estos valores no se puede realizar operaciones aritméticas, pero si se pueden
aplicar criterios de ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de variables ordinales: nivel de instrucción, categoría profesional y clase social.
Las variables de nivel de medida de intervalo, son aquellas que sus datos son valores numéricos o códigos que se
asignan a las categorías de la variable, cada valor define una categoría distinta, lo que le asigna la característica de las
variables nominales. Entre sus valores se pueden establecer un criterio de orden, lo que le asigna la característica de
las variables ordinales. La característica que las diferencia es que se puede asumir distancia entre sus valores. La
asignación de valores o códigos a las categorías se llama codificación. La realización de operaciones aritméticas es
compleja de determinar, pero se acepta la aplicación de funciones estadísticas. Se pueden aplicar criterios de
ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de variables de intervalo los ítems de las escalas y las propias escalas y las escalas termométricas, con
las que se verá un ejemplo.
Un ejemplo típico es el termómetro, que mide la temperatura en grados, entre los cuales existe la misma
distancia entre dos puntos contiguos de la escala, pero no se pueden establecer magnitudes proporcionales. La
diferencia entre 30ºC y 29ºC es de un grado, pero es incorrecto decir que 30ºC sea el doble de 15ºC.
Las variables de nivel de medida de razón, son aquellas que sus datos son valores numéricos o códigos significativos.
Cada valor define una categoría distinta, lo que le asigna la característica de las variables nominales. Entre sus valores
se pueden establecer un criterio de orden, lo que le asigna la característica de las variables ordinales. Existen
distancias entre su valores, lo que le asigna la característica de variables intervalores. La característica que las
diferencia es que el cero significa “ausencia de”, “valor nulo”. A los valores de estas variables se les pueden aplicar
operaciones aritméticas, criterios de ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de medidas de razón: edad, peso, estatura, número de hijos, cantidad de productos comprados,
salario.
No obstante esta clasificación, en la etapa de tabulación y análisis, la consideración de nivel de medida de las
variables puede ajustarse en función de ciertas necesidades y consideraciones, todas ellas, argumentadas, como es el
caso de variables dicotómicas, binarias y ordinales.
La característica de ausencia de valor del cero, significa que se pueden comparar las magnitudes. Por ejemplo, es
correcto decir que un adulto que mide 1,84 cm mide el doble que un niño de 0,92 m, o que una carrera de 300m, es
tres veces más larga que una de 100m. Pero no es correcto decir que 40ºC es el doble de calor que 20ºC, pero si es
correcto decir que 40ºC es el doble del valor 20ºC en la escala centrífuga, en la que el 0ºC es por convenio y es la
17
posición en la que el agua se solidifica. Para que la temperatura se pueda comprar es necesario que esté referida a la
escala de temperatura termodinámica o Kelvin en la que el cero tiene valor absoluto y se corresponde con los
-273,16ºC.
Un ejemplo de las dificultades que se presentan en el momento de tomar la decisión de clasificar o medir a las
unidades u objetos de observación, se puede ver al determinar la característica de si el objeto fuma o no. Dependiendo
de cómo hagamos la pregunta, se considerará clasificación o medición, y determinará la implementación y
operacionalización de la variables. La diferencia entre clasificación y medición, lleva aparejada la consideración de
fiabilidad, validez (del instrumento de medida) y error de la medida.
La definición que se va a considerar de medir es la que facilita la RAE que es “comparar una cantidad con sus
respectiva unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera”
La definición considerada de la clasificación es: “Ordenar o disponer por clases” (RAE), y de manera más
amplia: “colocar (un grupo de personas o cosas) en clases o categorías según cualidades o características compartidas”
(De la Puente Viedma). Estas definiciones se pueden considerar iguales a la utilizada en Ingeniería. “Ordenación o
categorización de partículas u objetos por un criterio establecido, como el tamaño, función o color”.
Se considera validez del instrumento de medida: cuando el instrumento sirve para medir aquello que se quiere medir.
Ejemplos de instrumentos válidos son una balanza, cinta etc. La balanza sirve para medir peso, la cinta métrica,
longitudes, etc.
Se considera fiabilidad del instrumento de medida cuando al aplicar el instrumento de medida por distintos
investigadores, a iguales o distintas personas, en iguales o distintos momentos, pero en las mismas condiciones
ambientales, producen los mismos resultados si los objetos medidos son iguales en la característica medida.. Ejemplo:
si diferentes investigadores con la misma balanza pesan a la misma persona, debe obtener el mismo resultado,
entendiendo que el peso de la persona ha variado.
La validez y fiabilidad del instrumento de medida son conceptos complejos ontológica y
epistemológicamente y no se agotan con las definiciones dadas anteriormente, pero permiten saber de qué manera se
usan en este texto, y se asume que es fácil dar la definición, pero puede ser compleja su aplicación.
El error de la medición en Ciencia y Tecnología sería “cualquier diferencia entre un cálculo, observación o cantidad
medida y el verdadero específico, o teórico valor correcto de esa cantidad”
En el caso de sí se quisiera saber si una persona, grupo de personas, muestra o universo fuma o no, se puede planificar
la recogida de información de muchas maneras. Por ejemplo, diseñando una pregunta con un espacio muestral
exhaustivo, excluyente y dicotómico de tipo categórica, con dos sucesos elementales. La pregunta debe ser:
18
o el acto de fumar queda sometido al criterio de cada uno de los objetos, porque no fumar puede ser lo que entienda
cada individuo: ningún cigarro al día, fumar solo después de las comidas etc.. Por lo tanto este instrumento de
obtención de datos no sería fiable ni válido. Otra forma posible es hacer la pregunta tipo categórico pero ordinal:
Además del nivel de medida, otra diferencia es la que se da entre variables continuas y variables discretas. Una
variable se considera continua si entre cualquiera de los dos valores,puede tomar otros que se puedan considerar
infinitos. Aunque en realidad las posiciones intermedias dependen de la precisión del instrumento de medida y el
concepto infinito es más una cuestión filosófica que real. También se puede considerar como una variable continua ya
que sus valores pertenecen a los números reales que se definen de manera axiomática como el conjunto de números
19
que se encuentran en correspondencia biunívoca con los puntos de una recta infinita: la recta numérica. Ejemplos:
salario, edad,estatura, peso.
Una variable discreta sería la que entre cualesquiera dos valores contiguos no existen posiciones intermedias
y se corresponden con los números enteros, siendo que los números enteros se representan gráficamente en la recta
de números enteros como puntos a un mismo espacio entre sí, desde menos infinito hasta infinito. Ejemplos: números
de hijos, número de cigarros etc.
A veces las variables tienen la doble consideración. Por ejemplo, la edad se trata siempre como variable discreta se
dice los años cumplidos, aunque en realidad es una variable continua. Sean consideradas continuas o discretas las
variables, cuando se aplican funciones estadísticas (media [X ], varianza [S^2], desviación típica [S ], etc.), estas se
consideran valores continuos y se representarán con decimales.
En los procesos de análisis las variables se consideran según la relación entre ellas. Genéricamente se consideran
variables dependientes o independientes.
El concepto de dependencia de una variable tiene varias definiciones. “En un estudio, análisis o modelo, una
variable dependiente es el elemento social cuyas características o variaciones serán explicadas por la referencia a la
influencia de otra anterior llamada variable independiente.
En los métodos de investigación y estadísticos, “es una variable que potencialmente puede ser influida por una o más
variables independientes. El propósito de un experimento es típicamente determinar si una o más variables
independientes influyen en una o más variables dependientes de alguna manera”.
“En la regresión múltiple, un grupo de variables independientes o predictoras se combinan en un modelo lineal para
proporcionar la mejor predicción de una variable dependiente que a veces se llama variable criterio”. Matemáticamente
“si y es una función de x (y= f(x)), esto es, si la función asigna un solo valor a y por cada valor de x, entonces y es la
variable dependiente”.
La variable independiente (o explicativa) es la que “en un estudio, análisis o modelo [...] es el elemento social cuyas
características o variaciones forman y determinan la variable dependiente: En una situación experimental, pueden
manipularse las variables independientes sistemáticamente, para que se pueda observar el efecto producido en la
variable dependiente. El que una variable sea tratada como dependientes, o independiente está determinado por el
marco teórico y el enfoque del estudio, pero las variables independientes deben preceder a la variable dependiente, y
debe ser la causa”.
20
21
Tema 4. Estadística univariable. Características de una distribución univariable. Tendencia
central. Dispersión y forma. Representaciones gráficas
La decisión de qué estadístico aplicar a cada variable, está en función del nivel de medida de la misma. A las variables
cualitativas o categóricas, sólo se puede aplicar la tabla de frecuencias y el diagrama de barras, siendo posible aunque
no imprescindible la moda para las nominales y la mediana para las ordinales. El resto de los estadísticos no es
estadísticamente apropiado aplicarlos, salvo algunas excepciones como son las variables dicotómicas, las binarias y las
ordinales. Todos los demás estadísticos, el histograma y el polígono de frecuencias se pueden aplicar a las variables
cuantitativas o numéricas. La moda, mediana, tabla de frecuencias y el diagrama de barras es estadísticamente
apropiado aplicarlos aunque a veces no es conveniente por la cantidad de valores distintos que tiene los datos de las
demás variables, no resumen lo suficiente, y es una de las finalidades de la Estadística.
LA MODA
La moda es el valor o categoría de la variable que se repite más veces o que tiene una frecuencia mayor. Esta es la
moda considerada absoluta. Puede haber otras modas que se denominan relativas y su característica es que un valor de
la variable que tiene una frecuencia mayor que los valores anterior y posterior. Este estadístico se puede utilizar con
las variables de nivel de medida: nominal, ordinal, intervalo y razón. Como el cálculo se realiza a partir de la Tabla de
Frecuencias, el resultado puede variar en función del agrupamiento de los intervalos. En las variables categóricas, el
valor de la moda se calcula por observación de la Tabla de Frecuencias.
22
La fórmula que tenemos es la siguiente:
LA MEDIANA
La mediana es el valor de la variable que deja por debajo el 50,0% de los casos. por lo tanto por encima de su valor
está el otro 50,0%. La mediana se puede utilizar con variables que al menos tengan el nivel de medida ordinal, pero
su uso es más adecuado con las de intervalo y razón. Con las variables nominales no se pueden utilizar ya que ni
23
siquiera se pueden ordenar los casos. La fórmula de la medina es una derivación de la fórmula de los percentiles y se
desarrolla con una regla regla de tres simple:
LA MEDIA
La media es el valor que tendrían todos los casos, si todos los casos tuvieran el mismo valor, y entonces se puede
considerar como centro de la gravedad de la variable o el punto de apoyo que la mantiene en equilibrio, esto es, que la
suma de los valores de los casos que hay a la izquierda “pesan” lo mismo que la suma de los valores de los caso que
hay a la derecha. También, ocurre que el sumatorio de la diferencia de cada caso respecto de la media, es igual a cero.
La media es la suma de los valores de todos los casos dividida por el número de casos. El nivel de medida de las
variables debe ser de intervalo o razón.
24
En las variables categóricas no se pueden calcular funciones estadísticas como la media, porque los valores no tienen
significado al ser asignados de forma arbitraria y aleatoria. Un caso especial es el de las variables dicotómicas
codificadas como 1 y 0 y las binarias. En estos casos la media es la proporción de unos.
25
26
𝑛 𝑛 𝑛 𝑛
∑ 𝑦𝑖 ∑ 𝑥𝑖·𝐴 (𝑥1·𝐴)+(𝑥2·𝐴)+....+(𝑥10·𝐴) 𝐴·(𝑥1·𝑥2·+...+𝑥10) 𝐴· ∑ 𝑥𝑖 ∑ 𝑥𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑌= 𝑛
= 𝑛
= 𝑛
= 𝑛
= 𝑛
= 𝐴· 𝑛
= 𝑋·𝐴
27
ESTADÍSTICA DE DISPERSIÓN
La estadística de Tendencia Central representa a la variable a través de un único valor. El riesgo es que este valor sea
representativo o no de todos los casos y esta característica afecta a la media. Según la definición de la media, no
facilita información de cómo están situados todos los casos respecto de ella, pueden coincidir todas con la media y
entonces no sería una variable, sino una constante, pueden estar próximos a la media y entonces ésta se consideraría
representativa o pueden estar muy alejados.
Con las medidas de dispersión se obtiene información de cómo están situados los casos respecto a un estadístico de
tendencia central
Se define como rango o amplitud de una variable, y se denominaría por A, a la diferencia entre el valor mayor y el
menor de la variable, o sea, los valores más extremos de la variable.
28
LA VARIANZA
El concepto de dispersión es medir la distancia de todos los casos respecto a algún estadístico de tendencia central,
normalmente la media. La dispersión de un caso respecto de la media se puede ver por la distancia que hay entre ellos
a través de la diferencia.
29
Propiedades de la varianza
30
LA DESVIACIÓN TÍPICA
( )
Al tener que elevar al cuadrado la diferencia 𝑋 − 𝑥𝑖 para eliminar la igualdad a cero, la varianza es un valor elevado
al cuadrado y en unidades de la variable elevadas al cuadrado. Si se aplica la raíz cuadrada, se le quita el cuadrado al
valor y a las unidades y el valor obtenido se le llama desviación típica.
31
Propiedades de la desviación típica
Demostración:
2 2
Según la demostración de la Propiedad 6, 𝑆𝑦 = 𝑆𝑥, entonces:
EL COEFICIENTE DE VARIACIÓN
La varianza es un estadístico que se puede considerar abstracto porque el resultado es un valor de la variable elevado
al cuadrado, al hallar la raíz cuadrada, se elimina la abstracción, pero el valor está influido por la unidad de medida de
la variable.
32
Según la Propiedad 12 pág. 54 y Propiedad 13 pág.54 de la desviación típica, al multiplicar o dividir los valores de la
variable por una constante,la desviación típica queda multiplicada o dividida por esa constante. Si se cambia la unidad
de medida de una variable, se multiplica o divide por una constante y la desviación típica queda multiplicada o
dividida por esa constante, por lo que es un estadístico que no permite interpretar la dispersión de la variable ni
compararla con la de otras variables.
El coeficiente de variación es la estandarización de la desviación típica al eliminar la unidad de medida de la
variable.
Según el teorema de Tchebycheff, si la desviación típica es mayor o igual que la media, se puede dar la probabilidad de
que haya casos con valores negativos de la variable, esta circunstancia es imposible en la mayoría de las variables que
se estudian en Sociología, o que la variable tuviese un comportamiento muy anómalo. Por lo tanto un CV igual o mayor
que la unidad se interpretará como un valor que indica una dispersión anómala. Incluso por debajo de 1 se considerará
desproporcionada. Teóricamente, sólo se puede considerar una dispersión aceptable cuando la CV sea igual o incluso
inferior a 0,5 o 50,0% y cuanto más se aproxime a cero menor será la dispersión.
El CV no varía aunque cambie la unidad de medida de la variable. Esta característica permite que se pueda
relacionar la dispersión de variables de diferente magnitud y unidad de medida. La dispersión sólo no dice nada de la
distribución de la variable. La dispersión no es indicativa de la representatividad de la variable sobre la población,
aunque siempre es estadísticamente más agradable que la dispersión sea baja.
Un examen detenido de los datos y los demás estadísticos, muestran que dos variables tienen características distintas.
La estadística Descriptiva Univariable no consiste en aplicar un estadístico (la media) a una variable, sino aplicar todos
los estadísticos adecuados a cada variable.
ESTADÍSTICOS DE FORMA
Estos estadísticos permiten decir algo sobre la característica de la forma de la distribución de la variable. La forma de
la distribución se establece comparándola con la Normal, pero no significa contrastar con la Normal. El significado es
que se va a comparar si la forma de la distribución de una variable tiene características similares a la Normal. Pero no
33
se contrasta si la distribución de la variable es normal, supuestamente normal o marcadamente normal. La
comparación es descriptiva, el contraste implica cálculo de probabilidades y contraste de hipótesis
( )
Los estadísticos de forma miden la asimetría, oblicuidad o “skewness” 𝑔𝑖 y el apuntamiento, curtosis o
( )
“kurtosis” 𝑔2 de la distribución de una variable.
Los momentos describen características de un conjunto de datos que componen una o más variables. En esta ocasión
se tratan solo los momentos de una variable:
Los momentos se clasifican como: momentos respecto al origen de una variable y momentos respecto al
origen de una variable y momentos respecto a un estadístico de tendencia central, en este caso se considera respecto
de la media de la variable.
El momento a de orden r, de la variable X, respecto al origen se representa como 𝑎𝑟 y es, por definición:
ASIMETRÍA Y APUNTAMIENTO
La media de la forma de la distribución de una variable se hace respecto a la normal. Los estadísticos son asimetría
( ) ( )
𝑔1 y apuntamiento 𝑔2 .En una distribución normal o campana de Gauss los estadísticos de tendencia central
(𝑀 , 𝑀 𝑦 𝑋)tienen el mismo o similar valor y es el eje que divide la distribución en dos partes iguales y simétricas.
𝑜 𝑒
En los valores extremos de la variable se dan frecuencias bajas y están aumentando a medida que los valores se
( ) ( )
acercan a los valores medios de la misma y 𝑔1 y 𝑔2 toman el valor cero. Pero no significa que una distribución que
( ) ( )
tenga 𝑔1 y 𝑔2 igual a cero, es normal. Lo que se pretende es comparar la forma de una distribución con la normal,
no contrastar si la distribución es normal o marcadamente normal
TABLA DE FRECUENCIAS
La tabla de frecuencias o de distribución de frecuencias, es apropiada para variables categóricas y numéricas discretas,
y numéricas continuas cuando las categorías se presentan por intervalos, aunque se aplica preferentemente a las
categóricas. Es un resumen de la variable de tal manera que presenta de forma ordenada, normalmente de menor a
mayor, las categorías o valores distintos de la variable, indicando para cada uno de ellos cuantas veces se repite, o lo
que es lo mismo, cuántos casos hay en cada categoría o que tiene un determinado valor, características o atributo.
34
Esta tabla de frecuencias de la variable p2 (estado civil), de la matriz de datos de la Tabla 18. Esta variable tiene un
espacio muestral de seis categorías, características o sucesos elementales: SOLTERO/A, CASADO/A, PAREJA,
SEPARADO/A, DIVORCIADO/A Y VIUDO/A. Como las unidades de observación que han participado son jóvenes, el
espacio muestral queda reducido a: SOLTERO/A, CASADO/A PAREJA.
35
Las frecuencias acumuladas absoluta y relativa, tienen más sentido cuando se aplica con variables al menos tiene un
nivel de medida ordinal. La denominación de distribución de frecuencias se debe a que la suma de los porcentajes es
100, o sea, la suma de todas las frecuencias absolutas, coincide con el total de la tabla.
La tabla de frecuencias o distribución por intervalo es la representación de la tabla de datos Tipo I o Tipo II agrupada
en intervalos. Las categorías o estratos son intervalos definidos por un valor mínimo (límite inferior del intervalo) y un
valor máximo (límite superior del intervalo) que suma o reúne los casos que tiene los valores o datos comprendidos
dentro de cada intervalo. La amplitud del intervalo está definida por la diferencia entre el valor máximo y el mínimo y
( )
se denomina amplitud del intervalo 𝑎𝑖 , y el punto medio del intervalo se denomina marca de clase.
El cálculo de los percentiles cuartiles se realiza sobre la tabla de datos Tipo II de la variable p4_1. A efectos de cálculo,
se considera que cada intervalo tiene la amplitud de una unidad y los intervalos que no aparecen es porque no hay
casos.
Teóricamente cada uno de los estratos o categorías, debe tener 23,75 casos, según los cuartiles, que son el 25% del
total de los casos. Para calcularlos a partir de una tabla de datos Tipo II, la teoría difiere de la realidad. Si el cálculo se
hubiese realizado sobre la tabla de datos Tipo I, la situación no habría mejorado mucho, porque las frecuencias
absolutas de cada uno de los estratos o categorías, respectivamente, hubieses sido de: 25,22,25 y 27 casos. Otra
dificultad para la coincidencia de los valores teóricos y empíricos es que las unidades de observación no se pueden
dividir como es el caso del valor 23,75
36
Un problema no tratado hasta ahora es el de los límites de los intervalos, esto es, en qué intervalos se deben
considerar a aquellos casos que se encuentran justo en los límites de los intervalos. Cuando un caso coincide con el
límite de un intervalo y se asigna a ese intervalo entonces se considera que es un límite cerrado, y cuando un caso
coincide con el límite de un intervalo no es asignado a ese intervalo, entonces se considera que es un límite abierto.
Hasta ahora se ha considerado el criterio de IBM SPSS, que consiste en asignar cada caso al intervalo en el que aparece
primero su valor, procediendo de arriba a abajo de la tabla.
La tabla puede estar ordenada de forma ascendente o descendente. Si está ordenada ascendentemente, que
es el caso seguido hasta ahora, entonces el primer intervalo tiene los dos límites cerrados y el resto de los intervalos,
el límite inferior es abierto y el superior es cerrado. Si la tabla está en orden ascendente, al seguir el mismo criterio,
entonces el primer intervalo tiene los dos límites cerrados y el resto de los intervalos, el límite inferior es cerrado y el
superior es abierto, pero considerándolo sobre la tabla ordenada ascendentemente, el resultado es que el último
intervalo tiene el límite inferior cerrado y el superior abierto, que es la opción tradicional de la Estadística.
PERCENTILES
Los percentiles se pueden considerar un estadístico de tendencia central. El percentil es un valor de la variable que
deja por debajo de sí determinado porcentaje de casos, por lo tanto, el complemento a 100% es el porcentaje de casos
que quedará por encima del mencionado valor. Entonces, el percentil k, es el valor de x de la variable que deja por
debajo de si el k% de los casos, y por encima de x, deja el (100-k)% de los casos. Esta cuestión plantea proponer un
convenio, o que en el valor de x de la variable no existen casos o que el valor de x está contemplado como límite
abierto en un intervalo y cerrado en el complementario. En las variables numéricas supuestas continuas y con las
integrales definidas está resuelto matemáticamente, ya que la integral entre un valor y él mismo es igual a cero.
La mediana es un percentil tipo, ya que es el valor de la variable que deja por debajo y por encima de sí el
50% de los casos. La fórmula de los percentiles es una derivación de la fórmula de la mediana.
Los percentiles denominados tipo o típicos, son los cuartiles, deciles y centiles. Un segmento se divide en tantas partes
como puntos de corte tiene más uno Por ejemplos si el segmento le damos tres cortes, se divide en cuatro partes. Si al
segmento AB le damos tres puntos de corte: P1,P2, P3, entonces dividimos en cuatro partes a, b, c y d.
( )
Entonces definimos a los percentiles cuartiles como los tres puntos de corte 𝑄1. 𝑄2𝑦 𝑄3 que divide a la variable en
cuatro partes iguales en cuanto al número de casos que se refiere y cada uno de ellas tiene el 25% de los casos. Por
( ) (
debajo de 𝑄1quedan el 25% de los casos. Entre el 𝑄1𝑦 𝑄2 hay el otro 25% de los casos. Entre 𝑄2𝑦 𝑄3 otro 25% )
de los casos. Y por encima del 𝑄3se encuentran el restante 25% de los casos. Por lo tanto por debajo del 𝑄2están el
50% de los casos, que es la mediana. Por debajo del 𝑄3el 75% de los casos y por debajo del valor máximo de la
variable estarían el total de los casos (100%).
Los percentiles deciles de los nueve puntos de corte (𝑑1, 𝑑2,..., 𝑑9)que divide a la variable en 10 partes iguales en
cuanto al número de casos se refiere y cada una de ellas tiene el 10% de los casos. Entre el (𝑑1𝑦 𝑑2) hay otro 10% de
los casos. Entre el (𝑑2𝑦 𝑑3)el 10% de los casos, y así sucesivamente. Y por encima del 𝑑9se encuentran el último 10%
de los casos. Por lo tanto por debajo del 𝑑2 están ele 20% de los casos, por debajo del 𝑑3están el 30% de los casos.
Así sucesivamente hasta el 𝑑5que son el 50%, que es la mediana. Por debajo del valor máximo de la variable estaría el
total de los casos (100%).
37
Los percentiles centiles son los 99 puntos de corte (𝑐1, 𝑐2,..., 𝑐99)que divide a la variable en 100 partes iguales en
cuanto al número de casos se refiere y cada una de ellas tiene el 1% de los casos. Por debajo del 𝑐1queda el 1% de los
casos. Entre (𝑐1𝑦 𝑐2) hay otro 1% de los casos. Entre el (𝑐2𝑦 𝑐3)el 1% de los casos y así sucesivamente. Y por encima
del 𝑐99se encuentran el último 1% de los casos. Por lo tanto por debajo del 𝑐2 están el 2% de los casos, por debajo del
𝑐3están el 3% de los casos. Así sucesivamente hasta el 𝑐50que son el 50%, que es la mediana. Por debajo del valor
máximo de la variable estarían el total de los casos (100%). De la misma manera, la variable se podría dividir en:
5,6,7,8,... partes iguales.
GRÁFICOS
La representación gráfica de los datos se hace con el diagrama de barras y el histograma, y el polígono de frecuencias
como derivación del histograma. Son los gráficos que se pueden considerar básicos de la Estadística. No obstante, el
IBM SPSS, EXCEL, HARVARD etc. así como otros programas estadísticos, hojas de cálculo y matemáticos, pueden
facilitar la creación de otro tipo de gráficos.
Para la representación gráfica de los datos se consideran sistemas de coordenadas de dos y tres dimensiones. El
sistema de coordenadas cartesianas de dos dimensiones es un sistema de coordenadas de dos ejes ortogonales
(perpendiculares entre sí) que dividen el plano en cuatro partes que llamamos cuadrantes: I, II, III, IV. El eje horizontal
es el de abscisas o eje X y el eje vertical representa al eje y. El punto en el que se cruzan se dice que tiene coordenadas
(x,y) y se le considera el origen del sistema.
Desde el origen del sistema, coordenadas (0,0), a la derecha, el eje X tiene valores positivos y hacia la
izquierda valores negativos. El eje Y tiene valores positivos por encima del eje X y negativos por debajo. Cualquier
punto en el plano se puede representar por un par de coordenadas (x,y). Cualquier punto es el cuadrante I tiene
coordenadas x e y positivas: en el II al x es negativa y la y positiva; en el cuadrante III x e y son negativas, y en el
último cuadrante, la coordenada x es positiva y la y negativa. Cualquier punto en el eje X tiene coordenada y=0 y
cualquier punto en el eje Y tiene coordenada x=0.
El sistema de coordenadas cartesianas de tres dimensiones es un sistema de coordenadas de tres ejes ortogonales que
dividen el espacio en ocho partes que llamamos octantes: I, II, III, IV, V, VI, VII y VIII. El eje horizontal es el X, el eje
vertical es el Y, siendo el eje Z el que saldría hacia el exterior de este papel. El punto en el que se cruzan se dice que
tiene coordenadas (x,y,z), (0,0,0) y se le considera el origen del sistema. Llamamos plano XY, al plano definido por los
ejes X-Y, el plano ZY, el formado por los ejes Z-Y, y el formado por los ejes X-Z es el plano XZ.
Desde el origen del sistema, coordenadas (0,0,0), a la derecha, el eje X tiene valores positivos y hacia la izquierda
valores negativos: el eje Y tiene valores positivos por encima del origen (0,0,0) y negativos por debajo, y el eje Z tiene
valores positivos, por delante del origen (0,0,0) y negativos hacia atrás. Cualquier punto en el espacio se puede
representar por las coordenadas (x,y,z). En los octantes I,II,III,IV.
Cualquier punto en el eje X tiene coordenada cero en los ejes Y y Z. Los puntos del eje Y, el valor cero es en
los ejes X y Z. Los puntos del eje Y, el valor cero es en los ejes X y Z. Y los puntos del eje Z presentan valor cero en los
ejes X e Y. De la misma forma, cualquier puto en el plano XZ, tiene valor cero en el eje Y; los del plano XY, tienen
38
coordenada cero en el Z, y los planos ZY, el valor cero es en el X. Considerando que los ejes y los planos pasan por el
punto de coordenadas (0,0,0).
DIAGRAMA DE BARRAS
39
TEMA 5. NOCIONES BÁSICAS DE PROBABILIDAD. DISTRIBUCIONES DE PROBABILIDAD. DISTRIBUCIÓN NORMAL.
ÁREAS BAJO LA CURVA NORMAL. OTRAS DISTRIBUCIONES
Se llama puntuación directa al valor que obtiene el individuo, caso o unidad de observación i-ésimo en una variable, y
se representa por 𝑥𝑖. La puntuación diferencial (pd), es la distancia que tiene un individuo desde su puntuación directa
( )
hasta un estadístico de tendencia central, que habitualmente es la media y se representa por 𝑥𝑖 − 𝑋 . La puntuación
típica, es la relación entre la puntuación diferencial y un estadístico de dispersión, habitualmente la desviación típica, y
( )
se representa por 𝑥𝑖 − 𝑋 /S. A la relación llamada puntuación típica, se la representa con la letra minúscula 𝑧𝑖
La diferencia entre los tipos de puntuación es la información que da cada uno. La puntuación directa dice el peso de
cada uno de los individuos y por experiencia de puede saber si el peso es mucho o poco pero sin saber la estatura, por
ejemplo, no se puede decir mucho más.
La puntuación diferencial amplía la información al indicar la distancia que tiene cada uno de los casos
respecto a la media del grupo. La puntuación 𝑧𝑖o tipificada dice si el individuo está por encima o por debajo de la
media y a que distancia de la media en unidades de desviación típica. También permite comparar valores del mismo
individuo o distintos individuos en distintas variables. Otra opción es que a partir de la distribución o función de
densidad de probabilidad de 𝑧𝑖se puede saber el porcentaje o probabilidad de individuos por debajo, por encima o
entre dos valores.
40
Aplicando el criterio de puntuación 𝑧𝑖 a todos los casos, esto es, a todos los valores de una variable, se obtiene una
variable que se denomina Z. La tipificación de variables sólo se puede hacer con variables numéricas,o consideradas
numéricas. De la misma manera, se puede transformar cualquier variable a variable Z 's.
Si n es grande y p no es pequeña, la distribución binomial puede comportarse como una normal y se puede utilizar el
criterio de transformación de z simbólicamente.
Según el epígrafe anterior, cualquier variable numérica puede ser transformada en puntuación z y por consiguiente en
una variable Z. Tomando de una población o muestra grande tres variables, por ejemplo, el peso, la estatura y la edad,
y asumiendo que las tres tiene una distribución normal por tener tamaños grandes y siguiendo el criterio de la TABLA
75, al representación gráfica de la transformación en Z se ve en la Tabla 78.
41
( )
Las cuatro variables tiene una distribución normal con su media y desviación típica 𝑁(𝑋,𝑆) , estas distribuciones
tienen su función f(x) definida, de tal manera que podemos decir que la Y está en función de x simbólicamente, Y=f(x),
y se puede generalizar a toda variable con la distribución normal. Significa que para cualquier calor de la variable en el
eje de abscisas, aplicando la función, obtenemos un valor en el eje de ordenadas o vertical.
Las características del gráfico de la función de densidad de la normal tipificada o variable Z, son: su distribución es
normal; la media vale cero; la desviación típica vale la unidad; la varianza vale también la unidad; la moda, la mediana
y la media tienen el mismo valor: es simétrica por el eje que define la media, y la superficie contenida por debajo de la
curva y por encima del eje de abscisas vale la unidad. Su distribución es normal de media 0 y desviación típica igual a
la unidad, simbólicamente, 𝑁(0,1).
42
El concepto cálculo de la superficie de un rectángulo (S=b·a) no contempla dificultad debido a que un polígono de
lados paralelos. La dificultad de calcular la superficie bajo la curva de la normal y por encima del eje de abscisas, es
que la altura es variable y la base está comprendida entre − ∞ e ∞. El problema es irresoluble, porque además de
ser un polígono de altura variable, la base es infinita. Se debe proceder para simplificar el problema.
La simplificación empieza al dividir la superficie en dos partes por la línea de referencia en el punto z=1,5.
( )
Ahora se debe proceder a calcular la superficie que queda por encima de la línea de referencia 𝑆𝑖 , o por debajo
(𝑆2 + 𝑆3) y la superficie restante se puede obtener por diferencia simple con 1, ya que (𝑆1 + 𝑆2 + 𝑆3), es igual a
la unidad. La superficie por debajo de la línea de referencia se puede descomponer en (𝑆2 + 𝑆3), y como 𝑆3 vale 0,5
por ser la mitad de la curva, solo falta obtener 𝑆2. En este momento, la elección está entre hallar la superficie de 𝑆2o
𝑆1. La superficie de 𝑆2es la comprendida bajo la curva normal, el eje de abscisas y los valores de z=0 y z=1,50. Esta
superficie plantea sólo un inconveniente, que la altura es variable, ya que la base es finita y conocida (en este caso,
1,5-0). La superficie de 𝑆1tiene dos inconvenientes, que la altura es variable y la base infinita, por lo tanto, optamos
por calcular la superficie 𝑆2.
Resolviendo la integral definida se obtiene la superficie buscada. Pero para saber el resultado, no es necesario aplicar
el cálculo integral, ya que este tipo de integrales están tabuladas y a través de su Tabla se puede resolver. El proceso
seguido se considera necesario para tener el concepto de integración y de superficie, pero no es necesario saber el
cálculo diferencial-integral. Para resolver la integral se recurre a la tabla del Anexo 1 y se muestra el proceso en la
Tabla 82, y en la Tabla 83 y Tabla 84 se muestra la lectura de la superficie correspondiente a la nota de exámenes A y
B, respectivamente.
43
44
RELACIÓN ENTRE PROBABILIDAD DISCRETA Y CONTINUA
( )
La probabilidad de obtener un determinado valor 𝑃(𝑋=𝑥 , en el caso de variables discretas es igual o mayor que cero.
( )
En el caso de una variable continua la 𝑃(𝑋=𝑥 es siempre cero.
La característica del cálculo de las probabilidades en el caso discreto es la relación entre los hechos favorables y los
hechos posibles, por lo tanto siempre será igual o mayor a cero. En el caso de una variable continua al ser la
probabilidad una superficie, siempre debe estar definida por dos valores o entre un valor y el ∞, por intuición (sin
demostración matemática), la distancia o diferencia entre un valor consigo lo tomamos como cero y por lo tanto el
cálculo de una superficie que tiene de base cero, también es cero y así mismo la probabilidad.
Cualquier variable que se le asuma que tiene una distribución normal o cualquier valor de una variable que se le
( )
asume distribución normal 𝑁(𝑥=𝑆, , se le puee puede aplicar el criterio de transformación en puntuación típica o z
(𝑁(0,1) ) y calcular probabilidades o porcentajes. Además de calcular la superficie por debajo o por encima de cierto
valor de la variable, otra posibilidad es la de calcular superficies entre dos valores que llamaremos intervalos.
Si una variable tiene la distribución normal según f(x) conocida, se puede calcular la superficie para
determinados valores y tomar la superficie para determinados valores y tomar la superficie como una probabilidad o
porcentaje. Los resultados obtenidos a través de la función de la normal y la función de la normal tipificada son
iguales. Se utiliza la f(z) por estar tabulada y su criterio de estandarización se puede aplicar a otras variables
numéricas.
Para el cálculo de intervalos se plantea cuál es la probabilidad de que un caso esté en el intervalo de la media
más/menos n-veces la desviación típica, como aplicación del Teorema de Tchebycheff, la fórmula y el gráfico (Tabla 85)
45
La superficie contemplada dentro del intervalo de confianza se denomina Nivel de Confianza (Simbólicamente 𝑁𝑐) y la
superficie que queda por fuera a ambos lados del intervalo de confianza se denomina Nivel de Significación (𝑁𝑠). La
superficie total debajo de la curva normal, es la unidad, por lo tanto 𝑁𝑐 + 𝑁𝑠 − 1, 𝑁𝑠 − 1 − 𝑁𝑐 y
𝑁𝑐 − 1 − 𝑁𝑠. El 𝑁𝑠 se distribuye por igual a ambos lados del intervalo de confianza. La superficie
correspondiente al 𝑁𝑠 también puede recibir el nombre de p-valor o a. La zona correspondiente al Nc es la aceptación
de Ho y la del Ns de Ho.
46
2
OTRAS FUNCIONES: (variables continuas) 𝑋 , 𝑡 𝑦 𝐹
2
Otras variables tipificadas que se utilizan en Sociología son 𝑋 , 𝑡 𝑦 𝐹. La función que genera la curva es diferente a
la Z y presenta la característica de tener grados de libertad (gl). Cada valor de grado de libertad genera una tabla de
función de densidad de probabilidad distinta, pero los conceptos y aplicación de la probabilidad son iguales que los
vistos para la función de densidad de probabilidad de la normal tipificada.
La representación de los gráficos de las variables mencionadas se realiza en un sistema de coordenadas de
dos dimensiones. En el eje de abscisas u horizontal se representa la variable y en el eje de ordenadas o vertical la Y,
2
considerando que y= f(x). Las variables Z y t, toman valores de − ∞ a ∞, y 𝑋 y F sólo toman valores positivos. Las
distribuciones tienden a normalizarse a medida que aumentan los gl. La superficie bajo la curva y por encima del eje
de abscisas vale la unidad y representa al total de los casos, por lo que se puede hablar en términos de probabilidad o
de porcentajes. La forma de obtener los grados de libertad se verán en los Epígrafes correspondientes a los desarrollos
estadísticos, en este apartado sólo se indicarán los valores.
47
ESTADÍSTICA BIVARIABLE. CÁLCULO DE PORCENTAJES
La estadística descriptiva bivariable es la estadística que describe o tabula las variables de dos en dos. Ofrece tablas
que son el resultado del cruce de dos variables. Esto significa que no pueden especificar más de dos variables
simultáneamente. En el cruce se pueden definir más de dos variables, pero las terceras y sucesivas variables se
consideran intervinientes de control o de copa.
Al cruzar dos variables, como el nivel de medida puede ser cualitativas o categóricas y cuantitativas o
numéricas, entonces los cruces posibles son: categórica por categórica, numérica por categórica y numérica por
numérica. Cada uno de estos cruces, da lugar a tres vías que tiene sus estadísticos propios y es la entrada a las tres
ramas de la que se considera la Estadística analítica, y esta tabla, más la estadística anterior, se puede considerar la
base de la Estadística Multivariable.
Si se cruzan dos variables categóricas: X e Y, cada una de ellas con tres sucesos elementales: 𝑥1, 𝑥2, 𝑥3 e 𝑦1,𝑦2e 𝑦3,
se obtiene una tabla de X por Y, de tres por tres categorías. Las terceras y sucesivas variables se consideran variables
intervinientes o de control, esto es, se obtendría una tabla de X por Y por cada una de las categorías o combinación de
categorías de las variaciones intervinientes o de control. En la Tabla 48 se muestra el esquema:
48
TABLA DE DOBLE ENTRADA
Una tabla de doble entrada o distribución conjunta de frecuencias es una matriz rectangular o cuadrada que en la
entrada de filas se representan las categorías, códigos, valores o sucesos elementales del espacio muestral de una de
las variables y e la entrada de columnas se representan categorías, códigos, valores o sucesos elementales del espacio
muestral de la otra variable. En esta tabla no se plantea asociación entre las variables, pero como es la antesala del
contraste de hipótesis de asociación, entonces la variable considerada o propuesta como dependiente se pone en las
filas y la considerada o propuesta como independiente en las columnas. De esta manera se orienta el proceso hacia la
tabla de contingencia. No obstante, este criterio es por convenio, quiere decir, que la colocación de las variables no va
a influir en el resultado de los estadísticos aplicados. En cualquier caso, es habitual que las variables considerdas de
clasificación (socio-político-económico-demográficas: sexo, edad, estudios, estado civil, etc), se pongan siempre en las
columnas.
En la Tabla 48 la variable Y sería la considera como posible dependiente, la X la considerada como posible
independiente y la Z y W las de control o intervinientes. El cuadro definido por el cruce de cada dos categorías de X e Y
se llama celda y contiene las frecuencias absolutas y frecuencias relativas.
Las frecuencias absolutas indican el número de veces que se dan conjuntamente dos categorías o el número
de casos o unidades de observación que pertenecen a esas categorías. La última columna es el sumatorio de las
frecuencias absolutas de filas y se llama marginal de filas, y la última fila se le llama marginal de columnas y es el
sumatorio de las frecuencias absolutas de las columnas. Por lo tanto hay tres totales, el total de las filas, el total de las
columnas y el total del marginal de fias o el total del marginal de columnas que es igual al total de la tabla
49
Las frecuencias relativas,
expresadas en
proporciones o en
porcentajes, son la
relación entre la
frecuencias absoluta de
la celda y los totales de
fila, de columna y de
tabla, como se muestra a
continuación:
Ejemplo de tabla de doble entrada, con las frecuencias absolutas y el cálculo de las frecuencias relativas
expresadas en porcentajes. La frecuencia absoluta de la primera celsa (36), es el número de casos que son varones y
que (dicen que) están solteros, o el número de veces que se repite conjuntamente el suceso elemental “varón” y
“soltero”, o el número de casos que cumplen la condición de “varón” y “soltero”.
50
LECTURA DE PORCENTAJES
Al haber tres porcentajes, son tres las lecturas posibles de porcentajes. La cuestión entonces es qué información de
cada uno de ellos y si existe algún porcentaje mejor que el otro. A estas lecturas se añade la denominada Regla de
Zeisel.
Aunque la lectura de porcentajes anterior es correcta, no todos dan la misma información, ni una información
completa, sin ser falsa. Si se leen los porcentajes de la fila sobre su total, no se sabe nada de lo que ocurre
verticalmente, sobre el total de las columnas. Si se leen sobre el total de la columna, se observa lo que ocurre
verticalmente, pero no se sabe que pasa horizontalmente. La lectura de porcentajes sobre el total de la tabla es
demasiado generalista. Entonces una forma que resuelve estas cuestiones es la aplicación de la regla de Zeisel. Zeisel
estableció que la lectura de porcentajes se debía hacer de la siguiente forma: “Calcular los porcentajes en el sentido de
51
la variable (considerada) independientes y leerlos en el sentido de la variable (considerada) dependiente”. Según el
convenio de situar la variable dependiente en filas y la variable independiente en columnas, entonces la regla de Zeisel
también se puede expresar: “Calcular los porcentajes en el sentido de las columnas y leerlos (compararlos) en el
sentido de las filas”.
DISTRIBUCIONES CONDICIONALES
PROBABILIDAD CONDICIONADA
En estas tablas se trata de ver la relación, asociación o dependencia entre variables a través de la relación, asociación
o dependencia entre los sucesos elementales. Este análisis consiste en ver la independencia mejor que la dependencia
y este aspecto es el que se desarrolla.
52
la intersección de los sucesos 𝑆𝑆 ∩ 𝑆𝑉, siendo 𝑆𝑆 el suceso estar soltero y 𝑆𝑉el suceso ser varón, y que el 49 son los
elemento del suceso 𝑆𝑉 ser varón. Si ahora proponemos los sucesos 𝑆𝑆 ∩ 𝑆𝑉 y 𝑆𝑉 como subconjuntos del conjunto
ℎ𝑓 36 ℎ𝑓 49
de los 99 estudiantes, tenemos que 𝑃(𝑆 ∩𝑆 ) = ℎ𝑝
= 99
= 0, 3636. Y que 𝑃(𝑆 ) = ℎ𝑝
= 99
= 0, 4949.
𝑆 𝑉 𝑣
Por lo tanto, la probabilidad condicional de estar soltero, supuesto que se es varón, que hemos visto que valía 36/49,
𝑃(𝑆 ∩𝑆
36/99 ) 36
se puede expresar por 49/99
= 𝑆
𝑃( 𝑆
𝑉
= 49
. Es el porcentaje sobre el total de la columna y lo llamamos la
𝑉
)
probabilidad condicional de estar soltero por supuesto que es varón. Y de forma genérica se define como: la
probabilidad condicional (o condicionada) de A supuesto B, y se designa por 𝑃(𝐴/𝐵), y con la expresión:
Entonces:
SUCESOS INDEPENDIENTES
Dos sucesos, A y B, son estadísticamente independientes ( o de forma abreviada, independientes), sí, y sólo si, se
verifica.
En efecto,
53
Según la Fórmula 34 y Fórmula 38, Teorema 2. Si dos sucesos
A y B, verifican las relaciones Fórmula 39 y Fórmula 40,
entonces necesariamente verifican la relación Fórmula 38. En
efecto,
TABLAS DE CONTINGENCIA
Es el referente al análisis de asociación entre variables categóricas. Trata de detectar la existencia de asociación o
dependencia entre las categorías de las variables categóricas de la tabla de contingencia a través del análisis de las
frecuencias absolutas de las celdas. El otro análisis de asociación es el lineal del coeficiente de correlación de Pearson
y la ecuación de la línea recta.
El tratamiento estadístico de las tablas de doble entrada se divide en dos partes, descriptivo y analítico
(análisis). El primero comprende la creación de la tabla, hacer el recuento para expresar las frecuencias absolutas y el
cálculo de los porcentajes o proporciones para expresar las frecuencias relativas.
54
CÁLCULO DE LA ASOCIACIÓN Y CONTRASTE DE HIPÓTESIS
La asociación entre variables categóricas pretende ver si existe relación entre la distribución de las frecuencias
absolutas obtenidas por el cruce de las categorías de la variable de filas o considerada dependiente y la variable de
columnas o considerada independiente. Esto es, si el hecho de pertenecer a una de las categorías de la variable
dependiente, está relacionado con el hecho de pertenecer a una de las categorías de la variable independiente,
determinando si la relación tiene alguna significación estadística, lo que no es garantía de que esa relación se
encuentre en la realidad (porque la relación estadística sea falsa o engañosa). Y si la asociación se da en la realidad, no
quiere decir que sea única, ya que puede haber otras variables que también presenten asociación con la variable
considerada independiente, con la considerada dependiente, y que haya otras variables intervinientes.
Cuando se realiza un análisis de estas características, se está aplicando el criterio “ceteris paribus” que
significa considerando todos lo demás constante, lo que difícilmente se puede asumir como cierto, ya que la
complejidad de la realidad está influida por infinitas variables, aunque no todas tienen el mismo peso o importancia.
55
Con este escenario, el objetivo es sencillo, aplicar el estadístico y observar y utilizar la información que nos facilita,
teniendo en cuenta la complejidad de la realidad humana que es la que normalmente se analiza y describe en
sociología.
Para ver la existencia de asociación estadística entre dos variables categóricas,a partir de la Hipótesis
científica o la Hipótesis de la investigación, se proponen las hipótesis estadísticas: La Hipótesis alternativa y la
Hipótesis nula, simbólicamente representadas por 𝐻1y 𝐻0, respectivamente.
La 𝐻1propone que existe relación de dependencia o asociación entre las variables, y 𝐻0que las variables son
independientes, de tal manera que las dos hipótesis son mutuamente excluyentes. El proceso consiste en proponer la
𝐻1 y contratar la 𝐻0, su aceptación supone rechazar la 𝐻1, y su rechazo la aceptación de 𝐻1.
1. 𝐻1: “existe asoaición, relación o dependenicia entre el sexo de los individuos y el estado civil de los mismos”
o de forma abreviada “El sexo influye en ele stado civil de los individuos”. Este formato puede confundir con
una relación de causa-efecto. Se plantea que los sucesos son dependientes.
2. Sexo: variable categórica nominal. Estado civil: variable categórica nominal.
3. Variable considerada como independiente: sexo. Variable considera como dependiente: estado civil
4. 𝐻0: “No existe asociación o dependencia entre el sexo de los individuos y el estado civil e los mismos” o de
forma abreviada “El sexo no influye en el estado civil de los individuos”. Se plantea que los sucesos son
independientes.
5. Estadísticos: X^2, por ser las dos variables categóricas:
56
6. Criterio de aceptación o rechazo de 𝐻0, 𝑁𝑠 = 0, 05.
Según el Epígrafe de las probabilidades, la probabilidad de que ocurra un suceso elemental es igual a los hechos
favorables dividido por los hechos posibles. Simbólicamente:
ℎ𝑒𝑐ℎ𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 ℎ𝑓 49 ℎ𝑓 77
𝑃(𝑆 ) = 𝐻𝑒𝑐ℎ𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
= ℎ𝑝
= 99
= 0, 4950, 𝑃(𝑆 ) = ℎ𝑝
= 99
= 0, 7778. Que multiplicado por 100
𝑣 𝑠
quedaría expresado en porcentaje del total de columnas o del total de fila. Pero el interés no es la probabilidad de
ocurrencia de los sucesos elementales, sino la probabilidad de la intersección de los sucesos elementales. Estos es, la
probabilidad de ocurrencia de la intersección de los sucesos elementales de ser varón y soltero: 𝑃(𝑆 ∩𝑆 ). Al contrastar
𝑉 𝑠
la 𝐻0, sumimos la independencia de las variables y la independencia de los sucesos elementales. Si dos sucesos
elementales son independientes pero mutuamente no excluyentes, la probabilidad de la intersección de dos sucesos es
igual al producto de sus probabilidades:
57
Las frecuencias observadas son el modelo empírico del cruce de las variables sexo y estado civil, del que
desconocemos si su relación es de dependenica o de independencia. Las frecuencias esperadas son el modelo
probabilístico teórico, del que sabemos que son las frecuencias que deberían ser si los sucesos fueran independientes,
mutuamente no excluyentes. La comparación del modelo empírico con el teórico es mediante resta simple de las
frecuencias observadas menos las frecuencias esperadas de cada celda y que se han de llamar residuos.
Si todos los residuos fuesen cero, entonces es que los dos modelos son iguales y lo que era desconocido se hace
conocido las frecuencias observadas son como las esperada, independientes. Como este es el planteamiento de la 𝐻0,
entonces nos llevaría aceptarla. Significaría que no tiene ninguna relación el género en cuanto sexo con el estado civil
de las personas. Significa que hay solteros, casados, y en pareja tanto entre los varones como entre las mujeres.
Pero si los residuos son distintos a cero, muy distintos, con una diferencia enorme, entonces el modelo
empírico es distinto al teórico y si no son independientes, entonces son dependientes. Este proceso nos lleva a
rechazar la 𝐻0 y por lo tanto a aceptar la 𝐻1. La conclusión sería que el estado ciivl de las personas está relacionado
con el sexo.
Peri entre residuos igual a cero y los residuos enormes, hay un escala dentro de la cual hay que determinar
hasta qué valor se acepta la 𝐻0, o lo que es lo mismo a partir de qué valor se consideran grandes los residuos para
rechazar la 𝐻0 y aceptar la 𝐻1. También se presenta el inconveniente de que una cosa es grande o pequeña
dependiendo de con qué se compare. Incluso puede llegar a ser significativo si las cantidades son mayores. Hay que
resolver dos problemas, estandarizar los valores para toda la tabla y establecer un criterio para determinar cuándo los
residuos se pueden considerar grandes o pequeños o de forma más precisa cuándo son significativamente grandes o
2
pequeños. La estandarización de los residuos se consigue aplicando el estadístico χ de `Pearson y el criterio para
determinar cuándo son grandes o pequeños es aplicar los conceptos de probabilidad de la distribución de la variable
2
estandarizada χ . La estandarización de los residuos para la tabla es :
Que el sumatorio para todas las celdas de la diferencia entre las frecuencias
observadas menos las frecuencias esperadas, elevado al cuadrado, dividido
(relativizado o estandarizado) por las frecuencias esperadas. Y es el estadístico
2
chi cuadrado estimado. Para saber si el valor de χ 𝑒es grande o no, se
2
comprueba con la distribución que sigue el valor de este estadístico, que es la distribución de χ . con n grados de
2
libertad. Los grados de libertad de la distribución χ para tablas de contingencias se calculan,
58
2
En el caso de la Tabla 90 es 𝑔𝑙 = (𝑓 − 1)·(𝑐 − 1) = (3 − 1)·(2 − 1) = 2·1 = 2 y la distribución de χ
que se utiliza es la Tabla 93
2
Si el valor de los residuos estandarizados, o sea χ 𝑒
(Chi-cuadrado-estimado) fuese cero, entonces las frecuencias
2
observadas coincidieron con la esperadas, y el valor de χ 𝑒estaría en la zona de aceptación y se aceptaría 𝐻0.
2 2
Suponiendo que χ 𝑒, no es cero, que está en la zona de χ =2, entonces no siendo cero, se asume que las diferencias
entre las frecuencias observadas y las esperadas son tan pequeñas que son debidas al azar, sigue en la zona de
aceptación, y por lo tanto no se puede asumir rechazar la 𝐻0, no siendo cero la diferencia, no es significativamente
distinta a cero. Este proceso se podría repetir hasta que la pregunta fuese ¿ Cuándo las diferencias son lo
2
suficientemente grandes como para asumir que podemos rechazar la 𝐻0y aceptar la 𝐻1? Cuando χ 𝑒, sea igual o
2
mayor al valor de χ 𝑐 (Chi-cuadrado-crítico), entonces estaría en la zona de rechazo y se rechazaría 𝐻0, aceptando
𝐻1
2
El χ 𝑒 (Chi-cuadrado-estimado) de la Tabla 90 es 1,39, para saber si se acepta o rechaza 𝐻0, tenemos que comparar el
2 2
χ 𝑒 (Chi-cuadrado-estimado) con el χ 𝑐 (Chi-cuadrado-crítico).
59
Ahora se puede establecer el siguiente esquema para determinar la aceptación o rechazo de 𝐻0.
2 2
En este caso, se acepta 𝐻0 porque χ 𝑒< χ 𝑐, que equivale a decir que 𝑁𝑐𝑒 < 𝑁𝑐𝑐 y equivalente también a que
𝑁𝑠𝑒 > 𝑁𝑠𝑐. Por lo tanto se puede concluir que al Ns de 0,05 no existe asociación entre las variables sexo y estado
civil, o que son independiente. Como no hay asociación entre dos variables, no tiene sentido mirar la fuerza, la
dirección y a que celdas es debida la asociación. Si es de interés la estadística descriptiva univariable o la lectura de las
frecuencias relativas
La asociación lineal se aplica cuando las variables son numéricas y se cruzan de dos en dos. Se puede considerar en el
grupo de la Estadística Descriptiva Bivariable para variables numéricas, aunque incluye contraste de hipótesis y es la
antesala del análisis de regresión lineal y otras técnicas multivariables.
Al ser las variables numéricas, primero procede ver su relación a través de un gráfico de dispersión o X-Y.
Después se calcula la covarianza (𝑆𝑥𝑦) de las variables y su estandarización es el coeficiente de correlación de
Pearson ( r o 𝑟𝑥𝑦). La interpretación del coeficiente r implica un contraste de hipótesis por lo que se puede considerar
análisis además de descripción. La interpretación de r implica un contraste de hipótesis por lo que se puede considerar
análisis además de descripción. La interpretación de r se debe hacer acompañada del gráfico de dispersión puesto que
la relación debe ser considerada lineal. Indica o mide la asociación o dispersión lineal de los puntos respecto de una
línea imaginaria (la recta de regresión lineal o la recta ajustada por mínimos cuadrados ordinarios (MCO)).
La asociación en este caso es lineal en el sentido que se acaba de mencionar, mientras que la asociación de
de Chi-cuadrado es una asociación de frecuencias o frecuentista, cómo están distribuidos los casos entre las celdas, o
sea, las frecuencias absolutas. Entonces el proceso será:
● Primero el gráfico de dispersión o X-Y.
● Segundo se calcula la covarianza y
60
● Tercero el cálculo del coeficiente r que es la estandarización de la covarianza
Para relacionar dos variables numéricas se puede empezar por obtener el gráfico de dispersión o gráfico X-Y, para
representar las dos variables en un sistema de coordenadas cartesianas de dos dimensiones. La covarianza y la
correlación, al no implicar causalidad, no es necesario definir la relación de dependencia e independencia entre las
variables. No obstante, una alta asociación entre las variables puede ser indicativo de la existencia de relación entre
las variables, mientras que la falta de asociación puede suponer la no existencia de relació[Link] se contempla la
posibilidad del azar, tanto en un caso como en el otro y en el segundo supuesto, puede ocurrir que la influencia de
terceras variables oculte la correlación de otras dos. El análisis de asociación se debe realizar cuando la relación entre
las variables sea lineal o considerada lineal aunque sea dispersa, y no se puede realizar en cualquier otro caso. La
relación entre variables, aunque sea dispersa y no funcional, debe responder a la ecuación.
La representación gráfica de la asociación o dispersión de los casos respecto de una línea imaginaria (recta de
regresión por mínimos cuadrados ordinarios (MCO)) se muestra en el gráfico 21.
61
CÁLCULO DE LA COVARIANZA
La forma de la relación entre dos variables numéricas o consideradas numéricas, se puede considerar entre tres
modelos que tiene relación de continuidad entre ellos. La relación puede ser considerada relación´con lineal directa
([Link]), relación lineal dispersa (RLDs) y relación lineal inversa (RLI).
Las características de estas relaciones es que en la RLDr, a valores bajos de x le corresponden valores bajos de y, a
valores medios de la x le corresponden valores medios de y, a valores altos de x le corresponden valores altos de y. La
relación directa significa que cuando la variable x crece la variable y también crece y viceversa, cuando la variable x
decrece también lo hace la y. En la RLI, a valores bajos de x le corresponden valores altos de y, a valores medios de x le
corresponden valores medios de y, a valores altos de x le corresponden valores bajos de y. La relación inversa significa
que cuando la variable x crece la variable y decrece y viceversa, cuando la variable x decrece, la y crece. En dos casos, a
valores medios de una variable le corresponden valores medios en la otra, esta característica es propia de la relación
lineal.
En las RLD a valores bajos en x le corresponden valores bajos, medios y altos en y, a valores medios en x les
corresponden valores bajos, medios y altos en y, y a valores altos en x le corresponden valores bajos, medios y altos en
y, al ser la relación dispersa, se puede asumir que es lineal.
Ahora se procede a calcular el valor numérico de esta relación y a interpretarlo. El estadístico base es la
varianza.
El sumatorio de la distancia del valor de x del caso i-ésimo respecto a la media por la distancia del mismo valor de x
otra vez a la media. Como el Gráfico 19 tiene dos variables, se puede aplicar considerando para el caso i-ésimo las
distancias de los valores en x e y respecto de sus correspondientes medias y la Fórmula 127 tomaría la forma,
62
distancias son negativas, y en el cuadrante IV la distancia de X es positiva y la de Y negativa.
El cross-product del numerador es una abstracción más difícil de comprender que el número de la varianza, ya que en
la covarianza se multiplican unidades de medida diferentes entre sí. En este caso, la estandarización o tipificación,
requiere no sólo eliminar la unidad de medida, sino que los dos términos del producto pasen a la misma unidad de
medida una vez estandarizada. Esta operación se consigue tipificando según el criterio Z:
Al estandarizar la covarianza y transformarla en el coeficiente r, se pone límite a los valores que puede tomar. El
coeficiente de correlación , a su vez, se puede transformar en una variable del tipo t con distribución de densidad de
probabilidad conocida y sus valores se pueden interpretar en términos de probabilidad. La interpretación del valor r es,
63
Para saber si r tiene un valor de cero o significativamente cero, se puede
hacer una transformación de r en una distribución de t y hacer el contraste
de hipótesis. Si es significativamente distinta de cero, entonces puede ser
que tenga una asociación baja, media o alta, bien positiva (asociación lineal
directa) o negativa (asociación lineal inversa). la interpretación de una
asociación baja, media o alta, depende de la experiencia del investigador
con el estadístico, de la información “a mano” y del conocimiento de la
materia en estudio.
Igual que otros estadísticos (coeficiente de contingencia, V de Cramer,
lambda, etc) la interpretación de está sujeta también a las variables que
estamos correlacionando. Si la relación de las variables es funcional, la
correlación debe ser muy alta y pequeñas variaciones pueden indicar la
ocurrencia de algún evento ajeno al proceso. Pero en el caso de las variables
sociales, correlaciones moderadas, pueden ser indicatico de “algo pasa” en la relación entre dos variables como salrio y
sexo tengan una correlación significativa, aunque sea considerada baja, está indicando que entre el salario y sexo hay
alguna relación cuandi debería existir relación, salvo que haya otras variables intervinintes (categoría profesional,
estudios, etc). El contraste de igualdad a cero de r se hace con un protocolo de contraste de hipótesis:
Para aplicar este contraste es necesario considerar que la población de la que se obtienen las muestras debe tener una
distribución normal, las muestras deben estar seleccionadas aleatoriamente y los casos de las muestras deben ser
independientes.
La covarianza y el coeficiente r tienen las siguientes propiedades o características y tomas los siguientes valores:
64
correlación r, aunque lo apropiado es el biserial. Si las
dos variables son binarias se puede aplicar, pero el
coeficiente es el biserial puntual. Las variables binarias
tienen media, que es la proporción de 1’s y se pueden
calcular el resto de estadísticos. También se puede
considerar el uso de variables dicotómicas.
La interpretación de r en todos los casos es la misma.
Con variables binarias y dicotómicas, al tener rango
restringido imprimen poca inercia al sistema por lo que
la correlación tenderá a ser baja.
65
Y concretamente, la correlación
de dos variables estandarizadas es igual que la
correlación de dos variables sin estandarizar,
simbólicamente
El protocolo de contraste de hipótesis de igualdad a cero de los coeficientes de correlación es, constraste de hipótesis
de las variables pero por estatura.
1. Hipótesis alternativa 𝐻1 = 0, 57 ≠ 0
2. Hipótesis nula 𝐻0: 0, 57 = 0
3. Estadístico t.
4. Criterio de aceptación o rechazo de 𝐻0 :
Con el análisis de Regresión Lineal Simple (ARLS) se puede considerar que se inicia la Estadística Multivariable o las
Técnicas de Análisis Multivariable. El ARLS es una técnica considerada de dependencia y exploratoria partiendo de la
ecuación de la línea recta, a la que se denomina modelo explicativo-predictivo.
Se denomina simple porque sólo tiene una variable independiente (x). La otra
opción es múltiple, cuando tiene más de una variable independiente
66
Se considera de dependencia por tener una variable considerada o propuesta como dependiente (y) y otra variable
considerada o propuesta como independiente (x). Es explicativo-predictivo, porque se trata de explicar y/o predecir la
variable dependiente considerada también como explicada o predicha a través de una variable independiente,
considerada también como explicativa o predictora. Supone admitir una relación causa-efecto entre las variables.
La constante a es la distancia al origen o punto por donde la recta corta al eje Y. La constante b es la pendiente de la
recta, que significa las unidades en que varía Y por cada unidad que varía X. El carácter predictivo del ARLS se puede
ver en el modelo y=a+bx, si atribuimos valores a x obtenemos valores en y, yy es predictiva en este sentido. El carácter
explicativo significa que por cada unidad que varía X, la variable Y varía b unidades y es explicativo en este sentido.
Para desarrollar la aplicación y cálculo del Análisis de regresión lineal simple, se va a utilizar un modelo que
tiene dos variables generadas. La X que se considera una variable no aleatoria y la Y obtenida en función generadora
de números aleatorios normalmente distribuidos, en una variable aleatoria que tiene una subdistribución de valores de
Y por cada valor de X. Para explicar o predecir los valores de la variable Y a partir de la variable X, una forma rápida
puede ser hacer la predicción de Y a partir de su propia media. Asumiendo que la relación entre las dos variables es
lineal, el modelo seleccionado para hacer la explicación-predicción sería el de la línea recta: 𝑦 = 𝑎 + 𝑏𝑥. Y como x
está multiplicada por cero la expresión es 𝑦 = 𝑌
67
El gráfico que se obtiene es:
AJUSTE DE UNA RECTA A UNA NUBE DE PUNTOS POR MÍNIMOS CUADRADO ORDINARIOS
Entre dos variables supuestamente numéricas y asumiendo que la relación es lineal de la forma que se ha visto antes,
se puede aplicar para estudiar la relación entre las variables y construir un modelo explicativo-predictivo. Si la relación
entre las variables fuese marcadamente no lineal, se debería aplicar una ecuación o modelo apropiado. El
inconveniente es que se tiene que conocer o buscar el mencionado modelo. En base a este inconveniente y a que
cuando la relación no lineal se puede transformar en lineal por la aplicación de inversos, logaritmos, o cualquier otra
transformación que lo consiga, se procurará operar siempre con la relación lineal 𝑦' = 𝑎 + 𝑏𝑥
68
constantes a y b y proporcionan la recta. Para obtener las constantes se utiliza el método considerado de mínimos
cuadrados ordinarios, que es el que tiende a hacer mínimo el sumatorio de la distancia de los valores empíricos
(observador o reales) (𝑦𝑖) a los teóricos (estimados) (𝑦'𝑖 ) elevada al cuadrado, es:
Como las dos igualdades son cero, entonces son iguales entre sí y por lo tanto eliminando el -2 la igualdad se
mantiene y se puede desarrollar.
69
Pero la constante b también es la relación entre la
covarianza (𝑆𝑥𝑦) y la varianza de la variable
independiente (𝑆𝑥) , es:
70
Entonces para el cálculo de la constante b podemos utilizar la Fórmula 142 o la Fórmula 143
Según el caso considerado, el cuadrado de la Tabla 190 muestra los valores de los estadísticos necesarios
para calcular las constantes a y b de la recta de regresión.
𝑆𝑥𝑦 28,83
𝑏= 2 = 29,06
= 0, 99.
𝑆 𝑥
71
En este gráfico, el error total es igual a la diferencia y-𝑌 que es igual a 25,61-14,81=10,80. Al ajustar la recta de
regresión, el error total llamado variación total se descompone más el error no reducido. El error reducido. El error
reducido es y’-𝑌, =2,71 que es 22,90-14,81=8,09, y el error no reducido es y-y’, que es 25,61-22,90. Entonces el error
total es igual al error reducido más el error no reducido, al hacer la regresión de y sobre x, simbólicamente,
72
CALIDAD DEL AJUSTE
La calidad del ajuste de la recta a los puntos se mide por la distancia de estos a la recta. El estadístico que lo mide es
2
𝑟 o coeficiente de determinación, que es el coeficiente de correlación de Pearson elevado al cuadrado y mide la
proporción de la variación explicada o el error reducido sobre el error total o variación total al hacer la regresión de la
variable Y sobre la variable X, representada en sombreado el gráfico anterior.
Los requisitos para la aplicación del análisis de regresión lineal simple son:
1. El número de casos con el que es recomendable operar. Existen dos puntos de vista. El geométrico y
sociológico. En el primero se puede calcular una recta de regresión con dos puntos; dos casos o dos unidades
de observación permiten definir una recta en el plano. Sociológicamente se pretende que los resultados sean
representativos y se puedan inferir a la población. Aunque en los estudios sociológicos las muestras tienen
tamaños grandes y permiten garantizar este requisito, se pueden realizar con muestras menores, asumiendo
el riesgo que comporta y dependiendo del tema investigado.
2. Las variables deben ser numéricas o supuestamente numéricas. En el caso de la variable U considerada
dependiente debe ser numérica supuestamente continua. La variable independiente X numérica y no
necesariamente continua. Esta característica permite que la variable X pueda escalar, ordinal o dicotómica.
Estas últimas cumplen requisitos para ser consideradas numéricas.
Las variables de nivel de medida ordinal, cumplen requisitos de ser no aleatorias, son discretas y aunque no tienen
distancia entre sus valores, si tiene orden se pueden considerar en el ARL.
3. La variable dependiente Y debe ser aleatoria.
4. La variable independiente X debe ser no aleatoria.
5. Los dos puntos anteriores suponen que por cada valor de X debe haber una subdistribución de valores en Y
6. Cada una de estas subdistribuciones debe ser normal, supuestamente normal o marcadamente normal.
7. Las subdistribuciones deben tener varianzas homogéneas (HOMOCEDASTICIDAD).
8. Las predicciones de Y a partir de X deben ser en el rango conocido de X. Se conoce el comportamiento de X e
Y en el rango de éstas, pero fuera de ese rango se desconoce si la relación sigue siendo lineal.
9. La diferencia y-y’ (valor empírico menos el valor teórico), es el residuo o error. El residuo es una variable. Pues
bien, esta nueva variable debe tener distribución normal de media cero y desviación típica S de los residuos o
error típico de la estimación. Simbólicamente 𝑁(0, 𝑆)
El cumplimiento de todos los requisitos puede hacer parecer que la aplicación del análisis de regresión sea una tarea
casi imposible. Entonces es necesario conocer no sólo si se cumplen los requisitos, sino en qué medida se incumple o
se violan, porque a veces ciertas violaciones pueden ser asumidas y no impedir su aplicación.
73
Para ver la violación de los requisitos se utilizan el gráfico de los residuos. En un gráfico en el que la variable residuos
se presenta en el eje de la variable dependiente Y, y en el eje de la variable independiente X se presenta la variable
pronosticada Y’. La unidad de medida utilizada es unidades de desviación típica o unidades Z. El criterio de tipificación
o estandarización es Z. Esta unidad de media permite ver variaciones significativas.
En el ejemplo expuesto se había generado experimentalmente para cumplir todos los requisitos, por lo que el
Gráfico 38 de los residuos es un modelo ideal con el que se cumplen todos los requisitos. Los puntos aparecen
distribuidos alrededor del valor de la media z=0
74
VIOLACIÓN DE REQUISITOS EN ELE ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
La violación de algunos requsitos deben presentra las formas que se muestran en el gráfico 41
75
PREDICCIÓN POR INTERVALO
Si el modelo es aceptado o aceptable, porque no hay violación de requisitos o estas se pueden asumir, se puede
estimar o predecir un valor de y por un intervalo. En la Fórmula 137, y’ es un valor teórico y considerandola media de la
subdistribución. La y es el valor empírico. La distancia o comportamiento de los valores empíricos es la variable residuo
o error y cómo se distribuye normalmente con media igual a cero y desviación típica conocida 𝑁(0, 𝑆), se puede
calcular el intervalo de confianza para un determinado 𝑁𝑐 dentro del cual está el valor empírico buscado,
simbólicamente.
𝑦 = (𝑎 + 𝑏𝑥) ± 𝑒
76
Y como el error (los residuos) tienen una
distribución 𝑁(0, 𝑆), se puede definir un
intervalo de confianza para un determinado 𝑁𝑐,
dentro del cual estará comprendido el valor de
e.
Estando el valor de z definido por el 𝑁𝑐. Entonces, para un 𝑁𝑐=0,9544, z=2,00,, el valor de y estimado o predicho,
estará en el intervalo . En el ejemplo de Tabla 190, el intervalo
dentro del cual estará un valor estimado de y, para x=19 y Nc=0,9544 (z=2= o el intervalo dentro del cual estarán el
95,44% de los casos, está definido por (𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 = 1, 00).
77
TEMA 6. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
La teoría y la técnica del diseño de muestras, igual que la estadística, se puede considerar que es un descubrimiento y
no un invento, la actividad de todos los seres vivos implican operaciones de muestreo. Los ejemplos de referencia
serán con los humanos y porque se pueden hacer autocomprobaciones empíricas.
Muestreo: es “un método para recoger información y hacer las inferencias sobre una población más grande o universos,
a partir del análisis de solo una parte, la muestra”. Y muestra “una parte pequeña que tiene la intención de mostrar lo
que es el todo”. Procedimientos científicos de muestreo son el análisis de sangre para ver cúal es el estado de salud
general, que extraen una muestra Todos los ejemplos que podamos pensar son hechos homogéneos.
En sociología interesa analizar los aspectos sociales, políticos, económicos, demográficos, etc. de las
poblaciones de personas y la característica principal es la heterogeneidad. Esta característica hace que una persona no
sea reflejo (representativa) de toda una población. Para poder hablar (inferir) cosas de una población, necesitamos un
grupo (muestra) que sea representativa de toda la población. Para que una muestra sea representativa de una
población tenemos que aplicar la teoría y las técnicas de muestreo.
Para conseguir que una muestra sea representativa de una población hay que aplicar técnicas de muestreo y
técnicas de cálculo de tamaño de la muestra. Con las técnicas de cálculo de tamaño de la muestra. Con las técnicas de
cálculo de tamaño de muestra sabemos a cuántas personas hay que seleccionar y con las técnicas de muestreo, a
cuáles y cómo seleccionarlas o buscarlas.
La teorías y técnicas de muestreo se aplican porque no se dispone de los recursos económicos y materiales suficientes
para trabajar con toda la población o censo. Se producen menos errores porque el trabajo se controla mejor y se
emplea a personal más especializado cuando se trabaja con un número pequeño de observaciones (muestra) que
cuando se trabaja con un número grande (población). En realidad la muestra puede producir datos más exactos que
trabajar con la población o el censo.
Las técnicas de muestreo pueden ser probabilísticas y no probabilísticas. En las primeras, la probabilidad de selección
de una de las múltiples muestras que pueden ser extraídas de la población puede ser distinta y entonces debe ser
conocida esta probabilidad o consideramos que es igual para todas las muestras.
Por comodidad para los procesos de cálculo se asume que igual para todas las muestras. De la misma manera, la
probabilidad de selección de individuos que componen cada muestra puede ser distinta y entonces debe ser conocida
esta probabilidad o consideramos que esta probabilidad es igual para todos los individuos. En las no probabilísticas
esta probabilidad es desconocida.
Esta característica hace que con las primeras técnicas de muestreo obtengamos muestras representativas,
numéricas hablando, y las segundas no producen muestras representativas o su representatividad es estructural, y la
información que facilitan se asume que puede ser generalizable. Las primeras técnicas de Investigación del Paradigma
Técnico Cuantitativo y las segundas en las Técnicas de Investigación del Paradigma Técnico Cualitativo
78
GLOSARIO
79
15. NIVEL DE CONFIANZA: Probabilidad de que un parámetro esté dentro del intervalo de confianza o si
obtenemos 100 muestras, es la población o porcentaje de muestras que contendrían el parámetro de la
población.
16. PARÁMETRO: Función aplicada sobre una característica medida en una población. Ejemplos: media, varianza,
etc.
17. POBLACIÓN: Conjunto formado por la totalidad de elementos con arreigo a unas características concretas y
con una delimitación geográfica. La población puede ser unidimensional si sólo consideramos una variable.
Por ejemplo el peso. Es pluridimensional si se consideran muchas variables. En sociología las poblaciones se
consideran pluridimensionales porque se estudian muchas variables.
18. SESGO: Error específico de la muestra por falta de representatividad.
19. TEOREMA DEL LÍMITE CENTRAL: Si el tamaño de cada muestra es lo suficientemente grande (a partir de 30)
y si se extraen muchas muestras (más de 30) aleatoriamente, este teorema nos dice que la distribución de las
medias muestrales tiene una distribución normal con media igual a la media de la población y con una
varianza igual a la varianza de la población dividida por el tamaño de la muestra.
20. UNIDAD MUESTRAL: Conjunto de elementos de la población que contiene varias unidades u objetos de
observaciones de la población y es el conglomerado en el Muestreo por Conglomerados.
El concepto de generalizable en el paradigma técnico cualitativo está basado sobre la idea de la representatividad
social, que va más allá de los límites de la representatividad estadística. La finalidad es observar las relaciones entre
variables, en vez de evaluar el número de personal que poseen una característica. Pero la representatividad es un
concepto amplio y complejo. En el Paradigma Técnico Cuantitativo se pretende la representatividad estadística y
numérica. En el paradigma Técnico Cualitativo “Se pretende, a través de la elaboración de ejes o tipologías discursivas,
la representación socioestructural de los sentidos circulantes en una determinado universo y con relación al tema a
investigar”.
Hay comportamientos adquiridos a través del proceso filogenético como [Link] se trata de
instintos y emociones el comportamiento es homogéneo entre todos los seres vivos en general y del ser humano en
particular, considerados normales.
Para hablar de representatividad es necesario saber qué es lo que se quiere representar para saber cómo hay
que estudiarlo, aunque no sea una tarea fácil. El comportamiento humano es una amalgama de instintos, emociones y
comportamiento social y no es fácil descomponerlos y separarlos para su estudio y análisis.
CONCEPTOS PREVIOS
RELACIONES ENTRE LA POBLACIÓN Y LA MUESTRA: Entre la población y la muestra existe una relación cualitativa y
otra cuantitativa. La primera significa que la muestra debe ser heterogénea como la población, esto es, debe tener las
mismas características que la población. Si la población tiene varones y mujeres, la muestra debe tener varones y
80
mujeres. Si la primera tiene individuos de todas las edades la muestra también, si la población tienen individuos de
diferentes niveles de instrucción, la segunda también y así sucesivamente de tal manera que la muestra se considere
que es heterogénea como la población.
La relación cuantitativa se concreta en dos ratios, el coeficiente ele elevación (ce) y la fracción de muestreo
𝑁 𝑛 𝑛
(fm): 𝑐𝑒 = 𝑛 . La fórmula 82: 𝑓𝑚 = 𝑁 o 𝑓𝑚 = 𝑁 ·100. El 𝑐𝑒 es el número de veces que la muestra está
contenida en la población o el valor por que que hay que multiplicar 𝑛 para obtener 𝑁. La 𝑓𝑚 es la proporción de
𝑛 𝑠𝑜𝑏𝑟𝑒 𝑁, y es el inverso de 𝑐𝑒.
En el muestreo aleatorio simple, la 𝑓𝑚 también se puede considerar como la probabilidad de que un
individuo de la población sea seleccionado. La 𝑛 son hechos favorables y la 𝑁 los hechos posibles:
LEY DE LOS GRANDES NÚMEROS: La ley de los grandes números establece que cuando 𝑛 tiende a 𝑁, así mismo ocurre
con los estadísticos de la muestra que tienden a los parámetros de la población. Cuando 𝑛 se hace 𝑁 entonces los
estadísticos son los parámetros.
Entonces cuando 𝑛 = 𝑁, la media de la muestra es la media de la población y no existe error. Porque la
media de la población menos la media de la población es igual a cero, al ser las dos medias las mismas.
Por lo tanto, el error o diferencia entre la medida de la muestra y la media de la población se va haciendo menor a
medida que 𝑛 crece. Por lo que a mayor 𝑛 menor error.
Entonces con la fórmula para el cálculo del tamaño de 𝑛 se obtiene el tamaño de muestra adecuado al error con el que
se quiere operar o viceversa, se puede obtener el error según el tamaños de 𝑛.
TEOREMA DEL LÍMITE CENTRAl: El teorema del límite central establece que si extraemos 𝑚 muestras de una
población de tamaño 𝑛, siendo 𝑛 en todos los casos mayor que 30, si calculamos las medias muestrales de las 𝑚
( )
muestras, obtenemos 𝑚 medias muestrales, Si creamos una variables 𝑋𝑋 con las 𝑚 medias muestrales, esta
variables tiene un distribución normal 𝑁(µ,𝑆 ).
𝑋
Entonces, la media de las medias muestrales es igual a la media de la población y la varianza es igual a la varianza de
la población partido por la 𝑚 de las medias muestrales.
81
La media de las medias muestrales es igual a la
media de la población, simbólicamente: 𝑋𝑋 = µ. La
varianza de las media muestrales es igual a la
varianza de la población partido por la 𝑚 de las
medias muestrales, simbólicamente.
Y por lo tanto
Y se denomina error
típico o desviación
típica de las medias
muestrales. Como
normalmente la varianza de la población es
desconocida y no existe una distribución de medias
muestrales, entonces se acepta como error típico o
desviación típica de las medias muestrales. la raíz
cuadrada de la varianza de la variable dividido por la 𝑛 de la variable. Indica la dispersión de la media de la muestra
obtenida respecto de la media desconocida de la población y está relacionado inversamente con el tamaño de la
muestra. Cuanto mayor sea la muestra menor será el error y viceversa cuanto menor sea la muestra mayor será el error.
82
ERROR EXACTO: El error (𝑒𝑒) es la diferencia entre el parámetro de la población y el estadístico de la muestra,
simbólicamente en el caso de la media y de la proporción.
ERROR MUESTRAL: Según se ha visto en el teorema del límite central, excepto por azar, los valores de los estadísticos
no coinciden con los valores de los parámetros, por lo que hacer asignaciones directas lleva a tener errores y además
no conocer la magnitud del error. Entonces, la estimación de parámetros se hace mediante la estimación de intervalos
a partir del estadístico de la muestra. La estimación del intervalo se hace a partir del error muestral.. El error muestral
es el error típico multiplicado por Z, estando ésta definida por el 𝑁𝑐 que define el intervalo de confianza. El error
típico, que es la desviación típica de las medias muestrales, según el Teorema del Límite Central, y según la Fórmula
87, para las medias es,
Y para proporciones,
La estimación por intervalo tampoco permite saber el valor exacto del parámetro desconocido pero define un intervalo
de confianza dentro del cual se encuentra y a un cierto nivel de confianza (𝑁𝑐) o lo que es lo mismo cual es la
probabilidad de que el parámetro se encuentre dentro de ese intervalo o que de 100 muestras cuántas contendrían en
su intervalo de confianza el parámetro desconocido
83
La estimación por intervalo, supone conocer los límites dentro de los cuales se encuentra el parámetro desconocido de
la población, pero siempre existirá la probabilidad de que el intervalo no contenga este parámetro. Las probabilidades
supone asumir este nivel de incertidumbre.
Para la estimación por intervalo se aplican los conceptos de intervalo de confianza, teorema de Tchebysheff y
probabilidades. Conocida la media, el número de casos y la desviación típica de una variable, asumiendo que
distribución normal, marcadamente normal o supuestamente normal, se puede calcular la probabilidad y el intervalo
dentro del cual estará un caso. La probabilidad se llama nivel de confianza (𝑁𝑐) y el intervalo, intervalo de confianza.
inferior de intervalo de confianza (𝑋 + (𝑛·𝑆 )) es el límite superior del intervalo de confianza, y la media de la
𝑋
población es µ. El valor de 𝑛 está definido por el 𝑁𝑐.
Si 𝑁𝑐 = 95, 00% ó 0, 9500⇒ 𝑛 = 1, 96
Si 𝑁𝑐 = 95, 44% ó 0, 9544⇒ 𝑛 = 2
Si 𝑁𝑐 = 99, 74% ó 0, 9974⇒𝑛 = 3
Aplicándolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la media de edad de la población
española de ambo sexos y de 18 años o más en enero de 1996, se calcula la media y la desviación típica de la variable
edad y se procede
84
Aplicándolo a la encuesta del CIRES
En la tabla 113 el caso A significa que con la probabilidad de 0,95 (Nc=0,95 o 95,0%) la media de edad de la población
española en enero de 1996 de 18 años o más, está comprendida en el intervalo (de confianza) de 43,91 años y 45,99
años, o lo que es lo mismo, que si se extraen 100 muestras de esa población, 95 tendrían en su intervalo el parámetro
desconocido de la población. Al existir la probabilidad de 0,05 o 5,0% de que la muestra no contenga el parámetro
desconocido de la población, puede ser que a la muestra extraída se una de esas cinco. Este comentario es obligado
decirlo, pero en la investigación se asume que la muestra lo contiene.
En el caso b, con la probabilidad de 0,9544 (𝑁𝑐 = 0, 9544 𝑜 95, 44%) de la media de edad de la
población española está comprendida en el intervalo (de confianza) de 43,89 años y 46,01 años, o lo que es lo mismo
,que si se extraen en si intervalo el parámetro desconocido de la población.
Y en el caso C, para 𝑁𝑐 = 0, 9974 el intervalo de confianza es entre 43,36 años y 46,54 años.
85
INTERVALO DE CONFIANZA PARA PROPORCIONES
El cálculo del intervalo de confianza en el caso de proporción de la población se muestra en la Tabla 114.
Aplicándolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la proporción o porcentaje de
varones de la población española de ambos sexos y de 18 años o más en enero de 1996, se calcula la proporción de
varones de la variable sexo y se procede,
86
Aplicándolo a este caso:
En la Tabla 113 el caso A significa que con la probabilidad de 0,95 (NC = 0,95 o 95,0 %), el porcentaje de varones en la
población española está comprendido en el intervalo (de confianza) de 45,4% y 51,0%, o lo que es lo mismo, que si se
extraen 100 muestras de esa población, 95 tendrían en su intervalo el parámetro desconocido de la población. Como
se comentó anteriormente, al existir la probabilidad de 0,05 o 5,0 % de que 1a muestra no contenga el parámetro
desconocido de la población, puede ser que 1a muestra extraída sea una de esas cinco. Este comentario es obligado
decirlo, pero en la investigación se asume que la muestra lo contiene.
En el caso B, con la probabilidad de 0,9544 (No = 0,9544 o 95,44% o 95,5 %), el porcentaje de varones en la
población española está comprendida en el intervalo (de confianza) de 45,3% y 51,1%, o lo que es lo mismo, que si se
extraen 100 muestras de esa población, 95,44 tendrían en su intervalo el parámetro desconocido de la población. Y en
el caso C, para un No : 0,9974 el intervalo de confianza es entre 43,9% y 52,5%.
Las técnicas de muestreo no probabilísticas (Tabla 107) son: intencional (muestreo útil y de casos típicos), accidental,
bola de nieve y por cuotas. Estas son las técnicas de muestreo que se utilizan en el paradigma técnico cualitativo, y por
cuotas también se utiliza como una de las etapas del muestreo probabilístico polietápico.
Estas muestras no se consideran representativas estadísticamente o numéricamente. Su representatividad es
social, estructural o de características “La representatividad de estas muestras no radica en la cantidad de las mismas,
sino en las posibles configuraciones subjetivas (valores—creencias-motivaciones) de los sujetos con respecto a un
objeto o fenómeno determinado” (Serbia, 2007, pag. 133).
En el muestreo intencional el investigador selecciona las unidades de observación en base a algún criterio
como puede ser el muestreo útil (purposive sampling) (Gobo, 2004, pág. 448), que consiste en seleccionar casos en
situaciones extremas o dentro de un rango amplio de situaciones para maximizar la variación. En el muestreo de casos
típicos (Gobo, 2004, pág. 449) se pueden seleccionar unidades teniendo en consideración tres características: que sea
un caso considerado medio, que sea un caso destacado o un fenómeno emergente. En el muestreo accidental, las
unidades de observación son seleccionadas sin atender a criterios, como puede ser el hecho de personas que circulan
por un determinado lugar en un cierto momento. Ejemplos de este tipo son los estudios de mercado o de opinión que
entrevistan a personas para recoger la opinión de cierto producto, líder político, publicación o acontecimiento. El
muestreo de bola de nieve, es útil para contactar con personas que por sus características son de difícil acceso como
puede ser: inmigrantes ilegales, grupos considerados marginales, etc.
87
En el muestreo por cuotas, la población se divide en subgrupos en base a algún criterio de interés para el
estudio y se establece la proporción de los individuos de la población que hay en cada subgrupo. La pretensión es que
en la muestra existan estos mismos subgrupos y en la misma proporción a los grupos de la población. Es un concepto
similar a los estratos, que se verá posteriormente y a la afijación proporcional o reparto proporcional, Se puede utilizar
uno o más criterios para establecer las cuotas. Algunos ejemplos son: establecer cuotas en base a la edad y el sexo;
edad, sexo y status socioeconómico; edad, sexo, status socioeconómico y estudios; etc. En el muestreo aleatorio
estratificado (Epígrafe 10.5) se verá un ejemplo. Puede acontecer que se usan diversas técnicas de muestreo de forma
conjunta y se denomina polietápico.
Las técnicas de muestreo probabilísticas son: muestreo aleatorio simple; muestreo aleatorio sistemático; muestreo
aleatorio estratificado, y muestreo por conglomerados.
El muestreo aleatorio simple consiste en extraer un conjunto de n individuos que llamamos muestra a partir de un
conjunto más grande N de individuos, que es la población. Para que la muestra se puede considerar representativa y
poder inferir los resultados a la población, los individuos o unidades deben ser extraídos por cualquier procedimiento
que suponga aleatoriedad y además hacerlo de tal manera que se pueda considerar que todos han tenido la misma
probabilidad de ser seleccionados. Todos los procesos de muestreo y cálculos se realizan en base a esta consideración.
Los procedimientos de extracción pueden ser: tablas de números aleatorios, hojas de cálculo o programas estadísticos.
Para utilizar este procedimiento de muestreo es necesario tener el listado de toda la población. El anonimato
de la población se puede mantener disponiendo únicamente de un código asignado a cada unidad de observación que
posteriormente permita acceder al individuo, por medio del propietario de los datos, sin conocer la identidad por parte
del investigador o investigadora.
Puede ser el caso de una Administración que dispone de los datos de todos los ciudadanos. Una empresa
privada puede tener acceso a un código asignado a cada ciudadano y la Administración disponer del enlace que
relaciona el código con las personas. Se puede considerar como acceso a las personas por direccionamiento sin
quebrantar la Ley Orgánica.
88
MUESTREO ALEATORIO SISTEMÁTICO
El muestreo aleatorio sistemático es una derivación del anterior. También tiene el inconveniente de que se
debe conocer el listado de la población. Para extraer los 𝑛 individuos de la muestra a partir de los 𝑁 individuos de la
población, primero se obtiene el 𝑐𝑒 (coeficiente de elevación), se elige de forma aleatoria un número entre 1 y el 𝑐𝑒
hasta completar la muestra.
El muestreo aleatorio simple y el sistemático garantizan la aleatoriedad del proceso, pero no garantiza la selección de
individuos de grupos pequeños. Si la muestra debe ser heterogénea como la población, es necesario que incorpore
también a los individuos considerados extremos, como pueden ser los de clase social muy allá. Si es necesario
incorporar a unidades que cumplan requisitos en base a algún criterio, se estratifica la población en base a ese criterio
y se procede de la misma manera con la muestra. Los estratos tienen la característica de que los individuos son
homogéneos dentro de ellos pero heterogéneos entre los estratos.
El proceso consiste en distribuir los 𝑛 elementos de la muestra entre los estratos de la población, y después
utilizar algún procedimiento para seleccionar los individuos. Se va a considerar tres tipos de reparto o distribución que
el nombre técnico asignado es afijación: afijación no proporcional, afijación proporcional y afijación mixta. Otro tipo de
afijación es la óptima. El procedimiento se realiza con el ejemplos de la tabla 119,120,121,122,123,124 y 125 que
además se utiliza para introducir el concepto de afijación y ponderación.
89
90
En la Tabla 126, Tabla 127, Tabla 128, Tabla 129, Tabla 130, Tabla 131, Tabla 132 y Tabla 133 se muestra el cálculo del
coeficiente de ponderación del Estudio de CIRES de enero de 1996
91
𝑛 1.200
𝑓𝑚 = 𝑁
= 31.053.746
= 0, 00003864
tamaño de la muestra
ponderado, en el
estrato (𝑛 )es
𝑝
𝑖𝑗
igual al tamaño de la
muestra teórico, del
( ) 𝑡
estrato 𝑛 𝑖𝑗 y este a
su vez es igual al
tamaño de la muestra
empírico, del estrato
(𝑛 )por el coeficiente de ponderación, del estrato(α ).
𝑒
𝑖𝑗 𝑖𝑗
92
MUESTREO POR CONGLOMERADOS
El muestreo por conglomerados se fundamenta en que hay que acceder a poblaciones que en sociología normalmente
son grandes y dispersas y a veces de difícil acceso. En el muestreo por conglomerados se considera que la población es
heterogénea y que puede ser dividida en grupos o conjuntos más pequeños geográficamente reducidos, que son
heterogéneos entre ellos y por lo tanto se considera que cada uno de ellos puede representar a la población. A estos
grupos o conjuntos se les denomina conglomerados.
El conglomerado es la unidad muestral en esta técnica de muestreo y está formado por varias unidades de
observación. La ventaja que se obtiene es que si todos los conglomerados se consideran representativos de la
población, seleccionando uno pequeño y entrevistando a todas las unidades, se pueden inferir los resultados sobre la
población con un coste bajo y relativamente poco esfuerzo.
El planteamiento realizado es una definición de principios, pero todos los conglomerados no son igualmente
representativos del total de la población. El muestreo por conglomerados requiere la aplicación de un muestreo en
varias etapas (polietápico) para seleccionar varios conglomerados que representen a los diferentes grupos de
población.
En el caso de la población española, se puede considerar que el conglomerado es el municipio de tal manera
que cada municipio es heterogéneo como toda la población y homogéneos todos los municipios entre sí, pero al mismo
tiempo, los municipios tienen diferentes tamaños y pertenecen a diferentes Comunidades Autónomas. Para favorecer la
representatividad de la muestra se procede a seleccionar los municipios aplicando un criterio de estratificación doble
por Comunidad Autónoma y tamaño de hábitat. Después se procede a seleccionar los municipios por muestreo
aleatorio simple y a continuación a las unidades de observación por rutas aleatorias. De esta manera se ha introducido
el muestreo por etapas o polietápico.
Se pueden considerar conglomera-dos a cualquier grupo o subconjunto de la población que cumpla los requisitos
anteriores. El municipio es el conglomerado que se utiliza habitualmente con las poblaciones de personas. En este tipo
de muestreo se debe definir cuál es el conglomerado. Otros ejemplos de conglomerados pueden ser; en un centro de
estudios el grupo de alumnos o aula; en un hospital la planta o, la especialidad; en una línea de transporte público el
autobús o el convoy de metro.
Para extraer una muestra se define la población objetivo, la unidad de observación y el ámbito o delimitación
geográfica de la misma. Los datos que definen las características de la muestra se especifican en la Ficha Técnica de la
Encuesta. Un modelo de ficha técnica que utiliza el Cnetro de Investigaciones Sociológica (CIS) se muestra en la
siguiente tabla. Posteriormente se tratará el cálculo del tamaño de la muestra.
93
El Universo o Población al que quiere representar la muestra no es el Censo, ya que se delimita a los
españoles de ambos sexos de 18 años o más. La muestra diseñada o calculada es de 2500 unidades de observación,
pero las realizadas son 2468. La afijación o reparto de la muestra a los estratos de la población proporcional, y no se
han debido producir variaciones o variaciones significativas porque no se ha aplicado ponderación. Los puntos de
muestreo o municipios en los que se han realizado las entrevistas son 238 situados en 48 provincias. Posteriormente
se harán indicaciones del procesos de selección de los puntos de muestreo.
La selección de los municipios de cada celda se hace por procedimientos de muestreo aleatorio simple o sistemático
(tercera etapa). En esta ocasión y como se dispone de las secciones censales se utilizan también y se extraen por
muestreo aleatorio simple o sistemático (se puede considerar dentro de la tercera o define la cuarta etapa).. Los
individuos o unidades de observación se extraen o se seleccionan siguiendo rutas aleatorias (cuarta i quinta etapa) y se
utilizan cuotas de edad y sexo (quinta y sexta y última etapa). Este proceso persigue la mejor representatividad posible
de la muestra sobre la población objetivo.
A partir del listado de municipios del INE y sabiendo cuántos hay que seleccionar en cada estrato, se extraen por
muestreo aleatorio simple o sistemático. De los 320 municipios que hay en Andalucía de 2000 habitantes o menos hay
que extraer 5. De los 680 municipios que hay en Aragón de 2000 habitantes o menos, hay que extraer 4, y así
94
sucesivamente se procede con todos los estratos hasta conseguir la lista de municipios final. Con la lista de municipios
se obtienen las provincias y se diseñan las rutas, para optimizar tiempos y costes del personal de campo. El profesional
en su gabinete del trabajo establecerá otros criterios que faciliten y optimicen el proceso de trabajo de campo en base
a sus conocimientos y experiencia académica y profesional.
Por la ley de los grandes números, a medida que 𝑛 tiende a 𝑁 los estadísticos de la muestra tiende a ser los
parámetros de la población, y la diferencia entre el parámetro de la población, y la diferencia entre el parámetro y el
estadístico, el error exacto, tiende a cero. Pero a partir de un momento determinado, el incremento de 𝑛 eleva mucho
el coste económico y material del trabajo de campo y no se obtienen reducciones de consideración en el error exacto.
Las fórmulas para el cálculo del tamaño de la muestra permite obtener tamaños reducidos o ajustados de 𝑛
controlando el tamaño del error.
Para el cálculo del tamaño de la muestra se asume que el muestreo es aleatorio simple. La población puede
ser considerada finita o infinita y el parámetro a estimar va a ser una proporción o una media. Una población se
considera finita si su tamaño (N) es inferior a 100.000 unidades de observación y se considera infinita si es mayor de
esta cantidad o es desconocida.
El cálculo
del
tamaño
de una
muestra
consiste
en aplicar
la
fórmula
correspondiente y se obtiene el número de unidades de observación a las que hay que entrevistar. El presupuesto
económico está condicionado por esta n debido a que suele ser el apartado más oneroso de una investigación. La
calidad de 1a investigación no está influida por el número de observaciones. El número de observaciones afecta al
95
error muestral y por consiguiente al intervalo de confianza dentro del cual estará el parámetro desconocido de la
población. Si la n es pequeña, el error es grande y por lo tanto el intervalo es grande, pero si la n es grande, e] error es
pequeño y el intervalo pequeño. En ambos casos la investigación puede estar bien o mal hecha. La diferencia es el
tamaño del intervalo para estimar el parámetro de la población. Por ejemplo, no es lo mismo decir que la demanda de
agua de una población estará en el intervalo de 150 l/habitante a 200 l/habitante que decir un intervalo de 10
l/habitante a 1.000 l/habitante. En el primer caso el resultado puede ser útil para decidir políticas de consumo de
agua, en el segundo es un intervalo tan amplio que el resultado puede ser correcto, pero la información no ser útil. El
resultado puede estar bien obtenido, pero no ser útil.
Pequeñas variaciones en los términos de las fórmulas, pueden producir variaciones importantes en la n
(tamaño de la muestra). Conocer el significado de cada uno de los términos puede permitir alcanzar el tamaño más
adecuado conforme al presupuesto y el error deseado. En última instancia, hay que considerar que se pueden introducir
variaciones en todos, algunos o uno de los términos, pero no se pueden dejar todos constantes. Por ejemplo, no se
puede obtener una muestra grande que tenga un error pequeño con un bajo presupuesto. Las fórmulas se interpretan
de forma global pero interpretando los términos de uno en uno. Utilizando una metáfora, la fórmula se debe
comprender como cuando se ha leído un libro, se sabe la historia, pero hay que contarlo y leerlo secuencialmente.
Siguiendo el orden de la Tabla 143:
Siguiendo con la ficha técnica del CIS (Tabla 135), en error muestral, para un nivel de confianza (𝑁𝑐) del 95,5%
(según las Tablas es 95,44% pero en las fichas técnicas lo redondean a 95,5%), es el que le corresponden a 2 Z’s (2
sigma en la ficha técnica), que es la desviación típica de la población, se representa también por Z porque son
2
unidades de desviación típica, entonces en la fórmula se especifica como 𝑍 , y 𝑝 = 𝑞, por lo que
𝑝 = 0, 50 𝑦 𝑞 = 0, 50, el error real o absoluto es de ± 2, 0%, considerando el total de la muestra(2500 casos) y
subrayamos, en el supuesto de muestreo aleatorio simple.
Entonces el error se calcula según la Tabla 144, pero hay que recordar que 𝑝 + 𝑞 = 1, entonces
𝑞 = (1 − 𝑝), así es que los valores de p y q están tabulados y el valor máximo que puede tomar el producto es
96
0,25. Como la varianza está en el numerador la relación con el tamaño 𝑛 es directa, a mayor varianza, mayor 𝑛 y a
menor varianza menor 𝑛. Considerar el caso 𝑝 = 𝑞, se le denomina el más desfavorable porque al producir la mayor
𝑛 encarece el estudio, no obstante ser el error menor, y el valor máximo es conocido (0,25), aunque la varianza sea
desconocida. En el caso de la varianza poblacional σ . ( 2)
97