100% encontró este documento útil (1 voto)

110 vistas97 páginas

Introducción a la Estadística y Método Científico

1) El documento habla sobre los orígenes y conceptos generales de la estadística y la investigación social, especialmente las encuestas. 2) Define términos clave como método científico, ciencia, teoría y estadística. 3) Explica que el conocimiento puede ser científico o no científico dependiendo del método utilizado, y que el método científico permite la replicabilidad de los resultados.

Cargado por

JUDIT BERMEJO LARIÑO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

110 vistas97 páginas

Introducción a la Estadística y Método Científico

Cargado por

JUDIT BERMEJO LARIÑO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 1 DE ESTADÍSTICA. La Estadística. Orígenes. Conceptos generales.

La Estadística y
la Investigación Social, con especial referencia a la Investigación social por Encuesta.
Fases en su desarrollo.

Siguiendo el criterio del considerado Método Científico, utilizado para que el conocimiento que se obtenga sea
considerado como científico, antes de empezar a hablar de algo se debe definir ese algo. Según este criterio, se definen
los primeros conceptos considerados clave que se van a utilizar: método, científico, investigar, método científico,
ciencia, teoría y estadística. La definición de ciencia es amplia y compleja y a veces el término hace referencia a un
proceso y en otras ocasiones es el resultado de ese proceso , se considera “la actividad intelectual y práctica que
abarca el estudio sistemático de la estructura y conducta del mundo físico y natural a través de la observación y la
experimentación”. Una teoría se trata de una colección de teoremas y principios asociados con algún objeto o concepto
matemático. Finalmente la estadística se trata del estudio de los datos cuantitativos de la población, de los recursos
naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas, o la disciplina
científica que trata de la recogida, análisis y presentación de datos.

Estos términos y las operaciones que ellos implican se consideran, lo primero, un invento y lo segundo un
descubrimiento. Las operaciones de teorización, metodología y análisis, en la forma en que se han definido se
encuentran en la naturaleza y en el encéfalo. Las neuronas del encéfalo del homo sapiens sapiens, recogen
información, la almacenan y la analizan. La compara con su información previa, y en base a ella toma una decisión SE
puede concluir que, en última instancia, en todo el proceso de adquisición de conocimiento, la herramienta analítica y
de toma de decisiones final son las neuronas del encéfalo.

Para poder comprender qué es el conocimiento primero hay que saber de dónde y por qué surge. El primer paso para
comunicar el conocimiento hay que saber de dónde viene. El conocimiento del que se dispone se va a clasificar en
varios tipos, por ejemplo el propio de la vida de relación con los familiares, amigos, el que proviene de las ideologías o
costumbres. Pero también se dispone de conocimiento que se llama teórico o teoría que corresponde con la realidad
que rodea al organismo, para poder comprenderla y por lo tanto explicarla y tratarla. El conocimiento se puede generar
por la propia experiencia de la vida cotidiana y la transmisión cultural como por ejemplo los refranes.

El conocimiento se va a clasificar en dos tipos: el considerado no científico y el científico. El primero es el de la vida

cotidiana, de relación de refranes etc, que se utiliza para el día a día. El conocimiento científico es el que se utiliza en
las universidades, empresas e institutos. Se puede decir que el conocimiento científico es el que está considerado como
verdadero y el no científico no lo es. El conocimiento se basa en la verdad, o en la observación de la realidad. Ambos
métodos se diferencian en la aplicación del método, el considerado como método científico. Lo que aporta el
método es que es una forma de proceder, una manera de actuar, unos pasos que se dan para alcanzar un fin y que
contiene y se usan técnicas e instrumentos que normalmente requieren conocimientos especializados. Esto permite
que otros científicos puedan reproducirlo en las mismas condiciones que otros lo han aplicado,para verificar lo que
han encontrado, por lo que pueden replicar para comprobar si las conclusiones alcanzadas son iguales o se diferencian.

Hay una visión genérica del método científico del que se pueden observar variaciones dependiendo del área de
conocimiento en el que se aplica puede ser:

1
1. Plantear preguntas, temas o problemas que se quieran averiguar, investigar conocer o resolver.
2. Establecer el marco teórico de referencia (R³1).
3. Plantear hipótesis, tesis, objetivos que proponen lo que queremos saber.
4. Decidir las técnicas e instrumentos que vamos a utilizar para recoger los datos relativos o propuestos en el
punto 3.
5. Realizar las pruebas empíricas o recoger la información generada por otros, de las pruebas empíricas que han
realizado.
6. Comparar conclusiones (R⁴1) con el marco teórico de referencia (R³1) del punto 3
7. Escribir y aplicar el informe.

EL MARCO CIENTÍFICO Y EL MARCO DE LA REALIDAD

Por muchos métodos que se utilicen o técnicas que se apliquen, si no hay introspección y razonamiento no hay
conocimiento y en muchos casos y situaciones críticas de la historia del conocimiento, las ideas han surgido por
“insight”, o azar o casualidad. El proceso denominado método científico es la aplicación del “ método” sobre el objeto,
con el conocimiento previo sobre éste (teoría). El proceso probablemente esté muy cerca de ser que el objeto
representa la realidad, lo que convierte al objeto en objeto-sujeto. El sujeto representa (observa) la representación de
la realidad en el objeto- sujeto que éste manifiesta, realidad que a veces es (re)creada por el sujeto (PARADOJA
SUJETO- OBJETO) . EL sujeto trabaja con:
1. La realidad real, la que está afuera que con los conocimientos actuales, probablemente, no nos es
posible saber cómo es (R1 ).
2. La realidad real representa en el objeto operando éste como sujeto (R¹ 1o). PRIMERA
HERMENÉUTICA
3. La realidad real representa en el sujeto (R¹ 1s). PRIMERA HERMENÉUTICA
4. La realidad re- creada por el sujeto (cuestionarios, entrevistas, etc) (R 2).
5. La representación en el objeto de la realidad re- creada por el sujeto (R¹2o). SEGUNDA
HERMENÉUTICA
6. La realidad del marco teórico que utiliza el sujeto (R³1)se puede considerar una enésima
hermenéutica por todos los autores que han intervenido, aunque se trata de que sea lo más
ajustada posible a la realidad, y que en el sujeto es la n+1 hermenéutica.
7. En base a este proceso el sujeto crea (R⁴1)
El sujeto tiene que comparar la (R³1), con la (R⁴1) o lo que es lo mismo, debe comparara la teoría con la hermenéutica
que él ha creado, y puede ocurrir que (R⁴1) sea igual o distinta a la (R³1). Si son iguales, se confirma la teoría, pero si
son distintas, entonces puede ser el origen de un cambio de paradigma.

EL DENOMINADO MÉTODO CIENTÍFICO

El denominado Método científico en sociología el autor lo divide en diseño empírico y en diseño teórico, los cuales se
dividen en 5 puntos cada uno.
1. DISEÑO TEÓRICO
[Link] A INVESTIGAR

2
1. Se expone el problema o tema de la investigación
2. Poner la diferenciación de los conceptos considerados clave que se van a investigar, para que quienes
acceden a la lectura sepan qué se ha considerado estudiar o investigar. Se deben poner con la cita de
referencia a la fuente o fuentes utilizadas. Puede que los conceptos clave no coincida con lo que se llaman
las palabras clave.
3. Se debe poner la justificación que ha llevado a realizar la investigación

1.2. MARCO TEÓRICO ((DOCUMENTACIÓN)

1. El marco teórico recoge todo el conocimiento sobre el tema a investigar, sobre el objeto y también
en ayuda sobre la forma de investigadores en base a las investigaciones anteriores. Se consideran
tres grupos de paradigmas. Paradigmas Teóricos, técnicos y epistemológicos.
2. Los paradigmas Teóricos dan los referentes para conocer y comprender la realidad, son por ejemplo:
la neurosociología, estructural-funcionalismo, interaccionismo, teoría general de los sistemas etc.
3. Los paradigmas técnicos facilitan los métodos y técnicas para recoger y tratar la información y se
consideran: el cualitativo y el cuantitativo.
4. Los paradigmas epistemológicos van a definir el objeto, sus características, la forma de relación del
sujeto con el objeto del sujeto con el objeto (y éste a su vez como sujeto) y del objeto 8 como
sujeto) con la realidad y las características del Método, se consideran: positivismo, críticos,
constructivismos y neurocuántico.

1.3. DEFINICIÓN DE OBJETIVOS E HIPÓTESIS

1. A partir de los puntos anteriores y según los intereses y criterios de la investigación se especificarán los
objetivos diferenciados en general y específicos, y también la o las hipótesis. En función de la técnica de
investigación utilizada y los intereses perseguido, una investigación puede plantear: objetivos o hipótesis o
ambos.

1.4. DEFINICIÓN DE VARIABLES (ITEMS)

Un indicador es un término polisémico, son valores puntuales pero en este caso como un conjunto de valores. Tienen
una gran característica ya que son variables complejas. En definitiva un indicador es una variable sintética, ya que
sintetiza varias variables.

1. En los objetivos y las hipótesis se plantean variables ( o ítems) y relaciones entre ellas. Los objetivos se
traducirán o implementarán en aquellas variables que permitirán comprobar su consecución o cumlimineto.
Las hipótesis, en sus definición de proposiciones afirmativas, especifican variables y establecen relación entre
ellas.

1.5. DEFINICIÓN DE INDICADORES

1. Los indicadores son similares a las variables pero de construcción más elaborada. La clasificación oo
medición que realizan son una síntesis, normalmente de más de una variable o ítem, con algún criterio

3
2. DISEÑO TÉCNICO O PRUEBA EMPÍRICA
2.1 DEFINICIÓN DE UNIVERSO
1. La realización de una investigación en sociología, precisa la definición de un universo mediante la
delimitación geográfica y las características que delimitan la población formada por los objetos de
estudio.
2. Al definir los límites geográficos o administrativos de la población y las características de la misma,
se define el objeto o unidad de observación y análisis. Se asume que la población es el conjunto de
estas unidades.
2.2 DEFINICIÓN DE LA MUESTRA
1. Al ser limitados los recursos económicos y materiales para acceder a toda la población, se opera
sobre un conjunto limitado de objetos que se denomina muestra, con la misma delimitación
geográfica que el universo, se aplica sobre la misma población y tiene el mismo objeto o unidad de
observación.
2. Los resultados obtenidos de la muestra se pretenden inferir sobre la población, por lo que aquella
debe ser representativa de ésta. Para que la muestra sea considerada representativa, es necesario
aplicar técnicas de muestreo y técnicas de cálculo de tamaño de muestra, según los requisitos o
3. criterios de la ficha técnica. Con este proceso se define a quién y cuántos se les va aplicar el
instrumento de obtención de datos .
.
TÉCNICAS DE MUESTREO

PROBABILÍSTICAS NO PROBABILÍSTICAS

Muestreo aleatorio simple Muestreo intencional

Muestreo aleatorio sistemático Muestreo accidental

Muestreo Aleatorio estratificado Muestreo bola de nieve

Muestreo por conglomerados Muestreo por cuotas

2.3. TÉCNICAS DE INVESTIGACIÓN

1. Las técnicas de investigación es la forma en cómo se va a proceder para recoger la información o
datos de las unidades de observación.
2. La característica de la información implica dos Paradigmas: cuantitativo y cualitativo

TÉCNICAS DE INVESTIGACIÓN

CUANTITATIVO CUALITATIVO

Encuesta Técnicas individuales

Experimento Técnicas de grupo

Estudio de caso

4
Técnicas individuales Técnicas de grupo

Dinámicas Dinámicas

Biográfica Biográficas

Observación Entrevistas

Entrevistas Observación

Basadas en el análisis del Basadas en el análisis del discurso y

discurso y contenido contenido

2.4. INSTRUMENTO DE OBSERVACIÓN DE DATOS

1. El instrumento de obtención de datos en el soporte estandarizado con el que se va a registrar la
información de las unidades de observación
2. Básicamente, el soporte es papel o magnético (audio, video o informático), sobre el que se diseña
un formulario, si procede.
3. En el formulario se desarrollan, en forma de preguntas, las variables o ítems e indicadores de los
objetivos e hipótesis, se incluyen otras preguntas relevantes o complementarias del tema de
investigación, más las consideradas de clasificación: socio-político-económico-demográficas. La
redacción del formulario se hace según las reglas establecidas
4. El proceso sería a partir de los conceptos variables de los objetivos e hipótesis, se elaboran
variables. Desde estas se generan las preguntas que se incorporan al instrumento de obtención de
datos y desde este se extraen las variables para hacer la matriz de datos.
[Link]ÓN, GRABACIÓN, TABULACIÓN Y ANÁLISIS
1. Terminando el trabajo de campo, se procede a estructurar la información en formato de matriz de
datos, para proceder a su tabulación y análisis.
2. El proceso, que no significa contigüidad inmediata, es: codificación, grabación, tabulación y análisis

INTRODUCCIÓN A LA ESTADÍSTICA

Entendemos por estadística “la disciplina científica que trata de la recolección, análisis y presentación de datos”. La
estadística se divide en estadística descriptiva y en estadística inferencial. Los datos se consideran de tres tipos: TIPO
1, TIPO 2, y TIPO 3. Los datos del primer tipo son los datos brutos , “raw data” o microdatos. Se dispone de los datos o
valores que se tiene para todos y cada uno de los casos. En los datos tipo dos, se muestra la frecuencia, el número de
casos que hay en cada categoría o valor distinto o el número de veces que se repite o a parecer cada valor o categoría
distinta (tabla de frecuencias). En los datos tipo tres, también se muestra la frecuencia o el número de casos, pero por
intervalos (tabla de frecuencias pero por intervalos).

La aplicación de los estadísticos se hace sobre los datos de tipo 1 y tipo 2. Con los datos de tipo 3 se procede
pasándose a datos de tipo 2, representando cada intervalo, estrato o categoría por el valor medio o marca de clase del

5
intervalo. En este caso a la variable se la denomina como prima (X’). Por el interés de este epígrafe se pregunta,
variable, espacio muestral, suceso elemental, respuesta y categoría
1. Variable: en las ciencias sociales, el término se refiere a atributos que son fijos para cada persona u otra
entidad social, el cual, es observado a los diferentes niveles o cantidades de las muestras y otros grupos de
agregados. Las variables miden una estructura social y en cierto modo, permite el análisis numérico. Así que
el rasgo importante de una variable es que es capaz de reflejar la variación dentro de una población y no es
una constante.
2. Suceso elemental: un suceso elemental es uno de los resultados posibles del espacio muestral. También es
cada uno de los posibles resultados de un experimento aleatorio, es decir cada uno de los elementos del
espacio muestral .

NIVEL DE MEDIDA DE LAS VARIABLES

Los niveles de medida se distinguen por propiedades de distancia y orden. Las variables se clasifican en dos
grupos:variables cualitativas, categorías o de frecuencias y variables cuantitativas o numéricas. En el primer grupo se
incluyen las variables de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escalo y razón.

Nivel de medida nominal: las variables de nivel de medida nominal. Son aquellas que sus datos son valores numéricos
o códigos que se asignan a las categorías de la variable, entre los que no existe ninguna relación y cada valor define
una categoría distinta, es el nivel considerado inferior. La asignación de valores o códigos a las categorías se llama
codificación. Con estos valores no se pueden realizar operaciones aritméticas, pero sin se pueden aplicar operadores
lógicos y operaciones de clasificación. Son ejemplos de variables nominales: sexo, estado civil, carcter, religión,
deportes practicados o productos comprados.
Un tipo especial de variables nominales son las dicotómicas, variables con dos categorías, pero también se pueden
considerar variables dicotómicas a las binarias o falsas binarias. Las variables dicotómicas pueden ser consideradas
numéricas e independientes en el análisis de regresión. Las binarias y falsas binarias también se pueden considerar
numéricas porque se puede calcular funciones estadísticas.

LA ESTADÍSTICA Y LA INVESTIGACIÓN SOCIAL. EL MÉTODO CIENTÍFICO Y UN APÉNDICE AL MÉTODO

1. EL MÉTODO CIENTÍFICO Y EL MARCO DE LA REALIDAD

Se puede considerar que la primera ciudad, los primeros textos escritos y los primeros códigos que regulan la vida
social tienen su origen en Sumeria, son los primeros que formalmente deben iniciar una forma de método científico y
de la ciencia, al observar los hechos que ocurren y tratar de elaborar explicaciones y construir modelos. A los griegos
se les puede atribuir la conciencia de la conciencia, empiezan a ser conscientes de que tenemos conocimiento reflejado
en los conceptos de inspiración platónica de doxa y episteme, para diferenciar el conocimiento espontáneo o no
científico del considerado científico. En este periodo, también se concibe al ser humano dentro del paradigma dualista
de Aristóteles y Platón que supone la distinción: materia- espíritu, cuerpo-alma. Este paradigma se mantiene durante la
Edad Media, a través de la Filosofía Escolástica de Santo Tomás. Esta dualidad, ha impedido hacer las preguntas
adecuadas para buscar las respuestas.

6
La siguiente etapa considerada es el Renacimiento, que supone la crítica del aristotelismo escolástico y el inicio del
empirismo con Galileo y Bacon (método hipotético deductivo). Newton sintetiza el método inductivo en el hipotético
deductivo.
Simultáneamente, surge el racionalismo como polo opuesto del empirismo. La razón humana, también es fuente de
conocimiento. Introduce el concepto de mente o conciencia en lugar o además de alma o espíritu. La fusión de las
corrientes empiristas y racionalistas se materializa en Kant.
En el curso de filosofía positiva, Comte hace referencias directas al encéfalo y concreta la filosofía individual con las
físicas sociales. Comte destaca el servicio que hizo Descartes al instituir un completo sistema de Filosofía positiva que
aplicó al mundo inorgánico y a las funciones físicas del mundo animal,pero estima que se detuvo cuando llegó al
estudio del hombre, dejando éste al amparo de la Filosofía Metafísica y la teología, e interrumpe la posibilidad de
aplicar los principios de la filosofía positiva.

Frente al paradigma dualista de la tradición Platón-Aristóteles y Descartes, diferenciando entre espíritu y materia, se
presenta el paradigma monistamaterialista. Los seres humanos tienen un encéfalo que es material y objetivo, y de este
emerge la inmaterial y subjetiva: el comportamiento.. También se puede considerar una parte material: cuerpo y otra
inmaterial, la conciencia, y en ella se consideran: los instintos, las emociones y lo social. El denominado método
científico consiste en una serie de pasos que difieren de un autor a otro pero, básicamente, representan el mismo
proceso. La aplicación de este método es lo que diferencia el conocimiento considerado científico del considerado no
científico. Pero es necesario tener el conocimiento teórico previo, tener un paradigma, para acercarse a conocer la
realidad.

LA INVESTIGACIÓN SOCIAL POR ENCUESTA. FASES EN SU DESARROLLO

La encuesta es la técnica de investigación social más utilizada, en sus diferentes modalidades, y el instrumento que se
usa para obtener los datos es el cuestionario, aplicado en diversas modalidades como puede ser mediante entrevista
personal, telefónica, autoadministrada o a través de dispositivos electrónicos.
La encuesta se apoya en dos grandes teorías que regulan la relación entre la muestra y la población, y son: la teoría de
las probabilidades y la teoría del diseño de muestras. Para realizar una investigación social empírica por encuesta a
través de cuestionario se pueden distinguir cinco grandes bloques:
1. Formular con precisión los objetivos de la investigación, establecer hipótesis, delimitar variables,
operacionalizar conceptos y diseñar la muestra.
2. Formular las preguntas y en su caso elaborar el cuestionario.
3. Preparación del trabajo de campo y realización de las entrevistas.
4. Procesamiento de la información obtenida en el punto tercero que comporta la grabación de las respuestas
en su soporte magnético.
5. Análisis de los datos y preparación del informe final.

El diseño de un cuestionario es una tarea que se puede considerar compleja y llena de dificultades. Se trata de la
construcción de un instrumento de medida o de forma más precisa en ciencias sociales, de clasificación de las unidades
d observación, puesto que no existen instrumentos estandarizados de medida y observación de uso universal como en
otras ciencias como pueden ser cintas métricas, balanzas, microscopios, telescopios, túneles aceleradores de partículas,

7
instrumentos electroencefalográficos. La aplicación de del cuestionario orientado principalmente a la modalidad
mediante entrevista personal supone:
1. La relación entre dos personas.
2. Que no se conocen.
3. Que una de ellas extrae información de la otra y además consume su tiempo.
4. Que la persona entrevistada no obtiene ninguna contrapartida, excepto la de participar.
5. Que entre las personas existe lo que llamamos “la primera impresión” que puede condicionar la entrevista.

Para que la entrevista mediante la aplicación del cuestionario transcurra de forma que se facilite la participación del
entrevistado, es recomendable considerar los siguientes aspectos en su organización:
1. Que tenga una introducción adecuada.
2. Que tenga una transición fácil de un tema a otro.
3. Formulación de un final adecuado.
Una estructura recomendable de cuestionario puede ser dividida en tres partes. La primera como tema introductorio, la
segunda con el núcleo central del tema o temas de investigación y la tercera y última con las preguntas consideradas
de clasificación que son las de tipo socio-político-económico -demográficas. El cuestionario debe seguir un hilo
conductor desde el principio hasta el final, de manera que la introducción sea gradual y sin preguntas comprometidas
para facilitar la participación de la persona entrevistada, captando su interés. La transición a la segunda parte también
debe ser gradual. Este segundo bloque se considera que es el más importante o el que contiene la información que
constituye el objetivo principal de la investigación. Las preguntas pueden ser temas aparentemente superficiales hasta
de una gran trascendencia. Esta parte del cuestionario puede suponer que a la persona entrevistada se le someta aun
gran esfuerzo de tipo emocional y/o puede llegar incluso a producir catarsis.

Todas las preguntas deben tener sentido en el marco de la investigación que se realiza. Preguntas que no aporten
cierta utilidad van a romper el hilo conductor de la entrevista y aunque los entrevistados no son personas técnicas en
la materia, la lógica y el sentido común les indica perfectamente que preguntas son útiles y cuáles no y en estos casos
pierden el interés en participar. Un cuestionario puede tener más de tres bloques, se recomienda proceder de la misma
manera.
La formulación de las preguntas del cuestionario pueden ser tarea propia o bien utilizar cuestionarios ya testados y
utilizados por otros investigadores.

MATRIZ DE DATOS

En sociología y según el paradigma cuantitativo, una de las técnicas de investigación más utilizadas es la Encuesta y el
principal instrumento de obtención de datos es el cuestionario en sus diferentes modalidades. El trabajo de campo
consiste básicamente en aplicar el cuestionario a las unidades de observación. A partir de los cuestionarios recogidos
en campo y que se han rellenado con la información facilitada por los objetos o unidades de observación se procede a
crear la matriz de datos sobre la que posteriormente se aplicarán los procedimientos estadísticos y gráficos, a través de
un programa estadístico.

La matriz de datos es una matriz rectangular de dos dimensiones de casos por variables. Los casos definen las filas de
la matriz y equivalen a las unidades de observación u objetos y cada una de las filas es un cuestionario de los que se

8
recogió anteriormente. Las columnas están definidas por las variables que se obtienen por la interpretación u
operacionalización de las preguntas, en una relación de uno-a-uno. La cuadrícula o casilla que se define por el cruce de
cada caso con cada variable se denomina celda. Cada celda contiene un valor, característica o atributo de la unidad de
observación, que se denomina dato, y genéricamente, el dato se considera de dos tipos: válido y no válido.
Una variable toma un valor como válido, cuando se corresponde con uno de los sucesos elementales de su espacio
muestral. Él no válido, es cualquier otro valor no contemplado en el espacio muestral de la variable.
Una columna o variable es el conjunto de datos que se tiene para todos los casos, y debe ser de la misma unidad de
medida y de la misma característica.

Los distintos valores, atribuidos o categorías de una variable constituyen un espacio muestral y los denominamos
sucesos elementales del espacio muestral de la variable. El espacio muestral es el “conjunto de todos los resultados
posibles de un experimento u observación”. Se le denomina con una S o E y los posibles eventos o sucesos
elementales por letras minúsculas con subíndices.

- Se denomina codificación a la asignación de valores o códigos numéricos a las categorías, características o

atributos de las variables categóricas (nominales y ordinales) y a las escaleras o de intervalo. Esta asignación
como no tiene ningún significado, es arbitraria y aleatoria

9
TEMA 2. Las Fuentes de datos estadísticos. Fuentes. Estadísticas oficiales y Organismos
nacionales e internacionales que las suministran.

Una estrategia básica de investigación consiste en acudir a archivos de datos y fuentes bibliográficas en busca de
información. La exposición de esta estrategia de investigación antecede al resto de estrategias como la encuesta y
experimentación, por su consideración de “básica”. Esto está presente en la mayoría de los estudios, bien como
estrategia única de investigación, o bien otras estrategias diseñadas para alcanzar los objetivos de estudio. La revisión
bibliográfica de investigaciones teóricas y empíricas sobre el tema concreto de estudio y otros similares figura en los
preliminares de cualquier indagación. Porque contribuye a:
1. La familiarización con el tema de estudio, sus antecedentes y la metodología ya ensayada.
2. La estructura de las ideas originarias del estudio en un diseño de investigación concreto, al indicar:
A. Aspectos a tratar (hipótesis a comprobar)
B. Sujetos a analizar ( características de la población de interés)
C. Estrategias y técnicas de recogida y de análisis a aplicar, tras los resultados y experiencia adquirida
en indagaciones precedentes.

La información así obtenida descubrirá el conocimiento que ya se tiene sobre el tema elegido frente a los aspectos
necesitados de mayor profundización a través de investigación primaria.

Clarificación terminológica: el análisis secundario y el meta-análisis

Por investigación primaria se entiende cualquier tipo de indagación en la que el investigador analiza la información
que él mismo obtiene, mediante la aplicación de una o varias técnicas de obtención de datos (cuestionario, guión de
entrevista, observación). Por el contrario, la investigación secundaria se limita al análisis de datos recabados por otros
investigadores con anterioridad al momento de la investigación. Ambos tipos de investigación no constituyen
modalidades contrapuestas, sino complementarias. La investigación secundaria se considera extensión y punto de
partida habitual de la indagación primaria.
Dentro de la investigación secundaria Hakim diferencia tres variedades importantes:
A. La revisión de investigaciones
B. El meta-análisis.
C. El análisis secundario

1. LA REVISIÓN DE INVESTIGACIONES: Representa uno de los preliminares esenciales en cualquier indagación

empírica, al proporcionar una síntesis del conocimiento existente sobre un tema específico. Esta síntesis
resulta de la valoración de la información disponible y su adecuación a los propósitos de la investigación.
La revisión varía en énfasis y en el periodo de tiempo que comprenda: incluye sólo los estudios
coetáneos o puede abarcar diferentes momentos temporales, proporcionando así una perspectiva histórica de
investigación.
El número de estudios revisados varía dependiendo del tema que se analice y de la experiencia del
investigador en la localización del material relevante.

10
2. EL META- ANÁLISIS: Es el análisis estadístico de los hallazgos de muchos análisis individuales. Proporciona
un medio de resumir los resultados de numerosos estudios cuantitativos sobre un dominio particular. Tiene
como objeto principal la obtención de un cuadro resumen, que sintetice los resultados cuantitativos
alcanzados en distintas investigaciones. Cada estudio revisado constituye una unidad de la muestra de
estudios (relevantes), extraída del total existente. Se aplican distintas técnicas de análisis estadístico
(univariable, bivariable o multivariable), para comprobar el nivel de significatividad de determinados
hallazgos.
La consecución de este objetivo supone:
A. La descripción de los hallazgos y cómo varían de un estudio a otro. Los hallazgos se
convierten en la variable dependiente (en los análisis estadísticos), mientras que las
características (sustantivas y metodológicas) de los estudios en las variables
independientes.
B. La comprobación de us significatividad
C. La determinación de su magnitud conjunta

Suele implicar esta cuantificación:

A. “Medición en sus aspectos métricos”
B. Se función nominal o de codificación

La solidez de las conclusiones del meta-análisis depende de la calidad de los estudios revisados, de si representan
realmente la totalidad de estudios existentes (si se incluyen tanto investigaciones publicadas como no publicadas), y
de cómo se ha procedido en el análisis de cada uno de ellos.

3. EL ANÁLISIS SECUNDARIO: Es el análisis posterior de la información que ya se ha obtenido. Este análisis puede
estar relacionado con el propósito original para el que los datos se recogieron, o puede dirigirse a un asunto bastante
diferente del que instó el esfuerzo de reunión de los datos originales. Puede implicar la integración de distintas
fuentes o un reanálisis de los datos de una fuente única.
El análisis secundario facilita el análisis comparativo y el de tendencias, a partir de los datos disponibles
para un amplio periodo de tiempo. Una proporción importante de investigación económica se basa en el análisis
secundario de series temporales del nivel macro, que consisten en un gran número de indicadores estadísticos
nacionales y medidas cotejadas desde una gran variedad de encuestas oficiales y series estadísticas. Estos tipos de
análisis se han visto favorecidos por la eclosión, de las aplicaciones informáticas para la detección y utilización de la
información secundaria

Fuentes de información “secundaria”

La información secundaria engloba tanto a los datos “brutos”, elaborados por distintos organismos (públicos o privados)
para su propios propósitos, como los proporcionados y analizados en distintas publicaciones. El amplio abanico puede
resumirse en:
1. Datos no publicados, elaborados por organismo públicos y privados, relativos a su actuación
2. Datos publicados por organismo públicos y privados e informes.
3. Investigaciones publicadas en libros y revistas.
4. Investigaciones no publicadas

11
Datos no publicados, elaborados por organismo públicos y privados, relativos a su actuación.

Todo organismo (o empresa) registra alguna información sobre su personal y aspectos relacionados con su actividad.
Esta información adquiere un gran interés en la descripción y evaluación de la actuación de estos organismos. Por
ejemplo: los informes de pacientes de centros sanitarios, los expedientes académicos de alumnos de centros de
enseñanza, etc.
El carácter privado (no “público”) de este tipo de información obstaculiza su acceso. En caso de requerirla, el
investigador tendrá que solicitarla, expresa y formalmente, al organismo en cuestión. En esta solicitud se ha de
enfatizar la trascendencia de la información requerida para los objetivos de la investigación; además de garantizar el
anonimato de las personas a las que se refieren los datos manejados.

Datos publicados por organismo públicos y privados: estadísticas e informes

Algunas entidades (públicas y privadas) editan estadísticas e informes como parte principal ( o complementaria) de su
actividad). La validez y fiabilidad de estas fuentes es algo que el investigador deberá comprobar contrastando, por
ejemplo, con la información que recabe de dichos organismos mediante otras fuentes: bien vía investigación primaria
(una encuesta, por ejemplo) o secundaria (estadística y/o informes elaborados por otras instancias). La razón principal
de esta necesaria contrastación reside en la posibilidad de que el organismo distorsione sus informes para crear una
buena imagen pública de sus actuaciones.

Además de las estadísticas e informes publicados por entidades particulares, por parte de las administraciones
públicas se realizan - con mayor o menor rigor- “estadísticas oficiales”. Estas describen, con cierta regularidad temporal,
algunas de las características sociodemográficas de la población.
En España, a nivel nacional, son de obligada referencia las estadísticas elaboradas y publicadas por el
Instituto Nacional de Estadística (INE). Cabe mencionar entre otros:
● Censo de población (desde 1857)
● Indicadores sociales
● Encuesta de fecundidad
● Encuesta sociodemográfica 19941
● Encuesta de migraciones (desde 1980)

Además de estas publicaciones impresas (algunas de ellas también disponibles en soporte magnético), el INE oferta
otros servicios de difusión de estadísticas:
a. El banco de datos TEMPUS, de acceso gratuito a través de la red telefónica conmutada o la red IBERPAC.
Este banco de datos reúne una colección de más de 400.000 series cronológicas (mensuales, trimestrales y anuales) de
diversas fuentes: Instituto Nacional de Estadística, Ministerio de Trabajo y Seguridad Social, Banco de España,
Ministerio de Industria y Energía, principalmente.
b. El banco de datos, VIDEOTEX, al que se accede de marcando 031 en la red IBERTEX, y tecleando *INE*. Con
este servicio se dispone de los datos del INE al momento.

12
El Banco de España y los distintos ministerios también presentan un amplio catálogo de publicaciones, sobre materias
afines a su función. Tal es el caso de las estadísticas editadas por el Ministerio de Trabajo y Seguridad Social:
● Anuario de estadísticas laborales.
● Estadísticas de acciones de trabajo y enfermedades laborales.
● Estadísticas de huelgas y cierre de patronales.
● Estadísticas de permisos de trabajo a extranjeros.

Asimismo, han de mencionarse los Boletines Estadísticos de Datos Básicos del Ministerio de Asuntos Sociales. A escala
regional, desde los años ochenta, algunas Comunidades autónomas han creado institutos de estadística propios (País
Vasco, Andalucía, Valencia, por ejemplo). En otros casos como Madrid, la producción regional de información
estadística (demográfica y económica, sobre todo) se ha organizado en un departamento de estadística, normalmente
dependientes de la Consejería de Economía.
Entre las estadísticas demográficas publicadas por la Consejería de Economía de la Comunidad de Madrid, por
ejemplo, están entre otros:
● Anuario estadístico de la Comunidad de Madrid (desde 1984)
● Censo de población de los municipios de menos de 50.000 habitantes de la Comunidad de Madrid
● Encuesta demográfica de la Comunidad de Madrid (de 1986 y de 1991)
● Proyección de población y hogares de la Comunidad de Madrid con horizonte en el año 2006

A estas poblaciones se suman los Documentos de trabajo y los Ficheros Tipo Matriz, por ámbitos geográficos (datos de
soporte magnético): los censos de población y vivienda de 1991 de la Comunidad de Madrid; las Estadísticas de
movimiento natural de la población de la Comunidad de Madrid; y los Resultados electorales de la Comunidad de
Madrid.
A escala municipal, algunos ayuntamientos generan información estadística desagregada para su ámbito
municipal (por distintos barrios y distritos administrativos). No se trata únicamente de explotaciones detalladas del
Padrón municipal de habitantes, sino también de estudios sociológicos hechos por el personal técnico del
Ayuntamiento, o encargados a profesionales externos. Cabe citar la Encuesta sobre formas de vida del Ayuntamiento de
Madrid.
Respecto a entidades privadas, han de citarse las publicaciones de los servicios de estudios de distintas
entidades bancarias, como BANESTO, el BBVA etc. A escala internacional destacan (en el contexto europeo) las
“estadísticas oficiales” efectuadas por EUROSTAT (Oficina Estadística de las Comunidades Europeas). Publicaciones:
● Estadísticas básicas de la Unión Europea.
● Anuario Eurostat ‘95. Visión estadística sobre Europa 1983-1993
● Europa 2000+. Cooperación para la ordenación del territorio europeo.

Este mismo organismo cuenta, además, con varias bases de datos. De ellas son de especial referencia:
● EUROSTAT-CD (que contiene estadísticas sociales y económicas, datos regionales y sobre comercio exterior)
● CD-ROM COMEXT (base de datos comunitarias sobre el comercio exterior)
● CD-ROM Panorama de la industria comunitaria (proporciona una amplia panorámica de la situación de la
industria y los servicios de la UE)

13
● CD-ROM REGIOMAP (que integra las estadísticas regionales oficiales de EUROSTAT procedentes de la base de
datos REGIO -Estadísticas regionales- con los datos topográficos y los límites territoriales de GISCO en un
software de estadísticas y cartografías).

También cabe mencionar aquí los informes de la Organización de Cooperación y Desarrollo Económico (OCDE) sobre
distintos temas, y sus bases de datos como, por ~ejemplo, CD-ROM OECD Statistical Compendium (que proporciona
más de 150.000, series cronológicas, actualizadas anualmente, seleccionadas de las principales bases de jatos
estadísticos de la OCDE).
En este breve repaso de fuentes principales de datos estadísticos, merecen asimismo resaltarse los Informes
sobre el Desarrollo Mundial, del Banco Mundial. Este organismo también edita soportes magnéticos sobre
investigación, análisis e información estadística de distintos aspectos del desarrollo económico y social. Entre sus
publicaciones electrónicas están:
● World Tables 1994. Disquetes (de datos económicos, demográficos y sociales sobre más de 160 economías,
así como indicadores básicos de otras 50).
● Social Indicators of Development 1994. Disquetes (que incluye estimaciones sobre fertilidad, mortalidad,
analfabetismo y salud, entre otras).
● CD-ROM World Data (el primer CD-ROM elaborado por el Banco Mundial, que contiene datos estadísticos
relativos al período 1960-1992).
● CD-ROM World Development Report 1978-1995 (que constituye un archivo de todos los World Development
Reports publicados por el Banco Mundial desde 1978 hasta 1995).

Investigaciones publicadas

Existen varias formas de acceder a estudios publicados. Tradicionalmente, la manera más rápida era recurrir a fuentes
secundarias que citan y resumen investigaciones publicadas en distintas áreas de conocimiento. Las principales fuentes
de referencias son:
a) Índices como The Social Sciences Citation index (SSCI), que compila unos 130.000 artículos de revista cada año. A su
vez contiene un índice temático: el Permuterm Subject Index.
Otros índices que cubren bibliografía especializada son: Current Index to Journals in Education, Index of
Economic Articles, Social Science Index, Population Index o The International Population Census Biblíography: revision
and updata, entre otros.
b) Abstracts, como por ejemplo: Sociological Abstracts, Psychological Abstracts, Abstracts in Anthropology, Dissertation
Abstracts International, International Polítical Science Abstracts, por ejemplo. Estos abstracts contienen breves
resúmenes (en torno a 100 palabras redactadas por el propio autor del estudio) de investigaciones publicadas en
distintos países del mundo, de las que se tiene conocimiento por la revista que los edita. Las investigaciones figuran
ordenadas por tema y autor.

Sin embargo, la generalidad de los index y abstracts presentan- siguiendo a Cooper (1984)- tres límites
importantes:
a) La larga carencia temporal (con frecuencia más de dos años) desde que el estudio concluye y éste aparece registrado
en el abstracts.
b) Se centran en disciplinas particulares, cuando las investigaciones son, con frecuencia, interdisciplinares.

14
c) Su organización. Aunque el abstract cubra, con exhaustividad, las revistas relevantes a un tema concreto, es probable
que algunos artículos se pierdan, por no ser fácilmente localizados. Esto último ocurre cuando el investigador no
conoce términos clave de los índices que se aplican a artículos, o cuando el autor de los índices omite términos que el
investigador emplea comúnmente.

De ahí que algunos autores afirmen que es difícil conocer si los estudios que figuran en los index o abstaracts
representan la mayoría de la evidencia existente sobre la cuestión que se investiga, o sólo una parte no representativa
de la misma.

Evaluación y análisis de datos secundarios

La evaluación de datos secundarios debería seguir los mismos procedimientos aplicados en la evaluación de datos
primarios. Éstos se resumen en los aspectos siguientes:
a. Fuentes de datos: ¿cuál era el propósito del estudio?, ¿quién recogió la información?
b. Medidas utilizadas: la calidad de los datos secundarios no puede evaluarse sin un conocimiento previo de la
metodología empleada cuando se recopilaron los datos. Específicamente, se precisa información sobre:
1) El diseño muestral, con especial atención a la representatividad de la muestra.
2) Los porcentajes de respuesta conseguidos.
3) Las técnicas de obtención de datos empleadas (de observación, de entrevista, de documentación).
4) Las técnicas analíticas aplicadas a la información reunida.
c. El tiempo de recogida de los datos. Cuando se utilizan datos secundarios hay que cerciorarse de la fecha de
obtención de la información.
Por ejemplo, la referencia temporal de los datos de una encuesta, en la que se basa un informe
sociológico, dará la fecha de realización del trabajo de campo. Otro ejemplo se tiene en los censos
de población, cuyas estadísticas van referidas a una fecha determinada: antes a 31 de diciembre del
año censal, ahora a 1 de marzo.
d. La adecuación de los análisis y las conclusiones. Habrá que comprobar la consistencia de la información con
la proporcionada por otras fuentes. Cuando la misma información se presenta mediante varias fuentes de
datos independientes, la confianza en esos datos aumenta. De ahí que se recomiende el contraste de
información, al menos de dos fuentes distintas. En caso de no coincidencia en la información, habría que
identificar posibles razones de la discrepancia observada y determinar qué fuente se estima más fiable.

15
Tema 3. La medición en las Ciencias Sociales. Nivel de medidas de las variables.
Organización de los datos

LA MEDICIÓN EN LAS CIENCIAS SOCIALES

1. NIVEL DE MEDIDA DE LAS VARIABLES

Los niveles de medida se distinguen por propiedades de distancia y [Link] valores deben ser determinados por el
ordenador, además de los niveles de medida de los datos para poder aplicar las técnicas estadísticas apropiadas
cuando se opera con programas estadísticos.
Las variables se clasifican en dos grupos:
Variables cualitativas, categorías o de frecuencia y variables cuantitativas o numéricas. En el primer grupo se
incluyen las variables de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escala y razón.

NIVEL DE MEDIDA NOMINAL

Las variables del nivel de medida nominal, son aquellas que sus datos son valores numéricos o códigos que se asignan
a las categorías de las variables, entre los que no existe ninguna relación y cada valor define una categoría distinta, es
el nivel considerado inferior. La asignación de valores o códigos a las categorías se llama codificación. Con estos
valores no se pueden realizar operaciones aritméticas pero sí pueden aplicar operadores lógicos y operaciones de
clasificación.
Son ejemplos de variables nominales: sexo, estado civil, caracter, religión, deportes practicados, productos
[Link] tipo especial de variables nominales son las dicotomías, variables con dos categorías, pero también se
pueden considerar variables dicotómicas a las binarias o falsas binarias.

Las variables dicotómicas pueden ser consideradas numéricas e independientes en el Análisis de Regresión. Las
binarias y falsas binarias también se pueden considerar numéricas porque se pueden calcular funciones estadísticas.

16
NIVEL DE MEDIDA ORDINAL

Las variables de nivel de medida ordinal, son aquellas que sus datos son valores numéricos o códigos que se asignan a
las categorías de la variables, cada valor define una categoría distinta, lo que le asigna la característica de las variables
nominales. Entre sus valores se puede establecer un criterio de orden. La asignación de valores o códigos a las
categorías se llama codificación. Con estos valores no se puede realizar operaciones aritméticas, pero si se pueden
aplicar criterios de ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de variables ordinales: nivel de instrucción, categoría profesional y clase social.

NIVEL DE MEDIDA DE INTERVALO O ESCALAR

Las variables de nivel de medida de intervalo, son aquellas que sus datos son valores numéricos o códigos que se
asignan a las categorías de la variable, cada valor define una categoría distinta, lo que le asigna la característica de las
variables nominales. Entre sus valores se pueden establecer un criterio de orden, lo que le asigna la característica de
las variables ordinales. La característica que las diferencia es que se puede asumir distancia entre sus valores. La
asignación de valores o códigos a las categorías se llama codificación. La realización de operaciones aritméticas es
compleja de determinar, pero se acepta la aplicación de funciones estadísticas. Se pueden aplicar criterios de
ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de variables de intervalo los ítems de las escalas y las propias escalas y las escalas termométricas, con
las que se verá un ejemplo.
Un ejemplo típico es el termómetro, que mide la temperatura en grados, entre los cuales existe la misma
distancia entre dos puntos contiguos de la escala, pero no se pueden establecer magnitudes proporcionales. La
diferencia entre 30ºC y 29ºC es de un grado, pero es incorrecto decir que 30ºC sea el doble de 15ºC.

NIVEL DE MEDIDA DE RAZÓN

Las variables de nivel de medida de razón, son aquellas que sus datos son valores numéricos o códigos significativos.
Cada valor define una categoría distinta, lo que le asigna la característica de las variables nominales. Entre sus valores
se pueden establecer un criterio de orden, lo que le asigna la característica de las variables ordinales. Existen
distancias entre su valores, lo que le asigna la característica de variables intervalores. La característica que las
diferencia es que el cero significa “ausencia de”, “valor nulo”. A los valores de estas variables se les pueden aplicar
operaciones aritméticas, criterios de ordenación, operadores lógicos y operaciones de clasificación.
Son ejemplos de medidas de razón: edad, peso, estatura, número de hijos, cantidad de productos comprados,
salario.
No obstante esta clasificación, en la etapa de tabulación y análisis, la consideración de nivel de medida de las
variables puede ajustarse en función de ciertas necesidades y consideraciones, todas ellas, argumentadas, como es el
caso de variables dicotómicas, binarias y ordinales.

La característica de ausencia de valor del cero, significa que se pueden comparar las magnitudes. Por ejemplo, es
correcto decir que un adulto que mide 1,84 cm mide el doble que un niño de 0,92 m, o que una carrera de 300m, es
tres veces más larga que una de 100m. Pero no es correcto decir que 40ºC es el doble de calor que 20ºC, pero si es
correcto decir que 40ºC es el doble del valor 20ºC en la escala centrífuga, en la que el 0ºC es por convenio y es la

17
posición en la que el agua se solidifica. Para que la temperatura se pueda comprar es necesario que esté referida a la
escala de temperatura termodinámica o Kelvin en la que el cero tiene valor absoluto y se corresponde con los
-273,16ºC.

Un ejemplo de las dificultades que se presentan en el momento de tomar la decisión de clasificar o medir a las
unidades u objetos de observación, se puede ver al determinar la característica de si el objeto fuma o no. Dependiendo
de cómo hagamos la pregunta, se considerará clasificación o medición, y determinará la implementación y
operacionalización de la variables. La diferencia entre clasificación y medición, lleva aparejada la consideración de
fiabilidad, validez (del instrumento de medida) y error de la medida.
La definición que se va a considerar de medir es la que facilita la RAE que es “comparar una cantidad con sus
respectiva unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera”
La definición considerada de la clasificación es: “Ordenar o disponer por clases” (RAE), y de manera más
amplia: “colocar (un grupo de personas o cosas) en clases o categorías según cualidades o características compartidas”
(De la Puente Viedma). Estas definiciones se pueden considerar iguales a la utilizada en Ingeniería. “Ordenación o
categorización de partículas u objetos por un criterio establecido, como el tamaño, función o color”.

Se considera validez del instrumento de medida: cuando el instrumento sirve para medir aquello que se quiere medir.
Ejemplos de instrumentos válidos son una balanza, cinta etc. La balanza sirve para medir peso, la cinta métrica,
longitudes, etc.
Se considera fiabilidad del instrumento de medida cuando al aplicar el instrumento de medida por distintos
investigadores, a iguales o distintas personas, en iguales o distintos momentos, pero en las mismas condiciones
ambientales, producen los mismos resultados si los objetos medidos son iguales en la característica medida.. Ejemplo:
si diferentes investigadores con la misma balanza pesan a la misma persona, debe obtener el mismo resultado,
entendiendo que el peso de la persona ha variado.
La validez y fiabilidad del instrumento de medida son conceptos complejos ontológica y
epistemológicamente y no se agotan con las definiciones dadas anteriormente, pero permiten saber de qué manera se
usan en este texto, y se asume que es fácil dar la definición, pero puede ser compleja su aplicación.
El error de la medición en Ciencia y Tecnología sería “cualquier diferencia entre un cálculo, observación o cantidad
medida y el verdadero específico, o teórico valor correcto de esa cantidad”

En el caso de sí se quisiera saber si una persona, grupo de personas, muestra o universo fuma o no, se puede planificar
la recogida de información de muchas maneras. Por ejemplo, diseñando una pregunta con un espacio muestral
exhaustivo, excluyente y dicotómico de tipo categórica, con dos sucesos elementales. La pregunta debe ser:

Esta pregunta se implementaria o se

operacionalizaría en una variable que tendría un
espacio muestral exhaustivo, excluyente y
dicotómico de tipo categórica, con dos sucesos
elementales que al codificarla sería de nivel de
medida nominal. El problema que presenta esta pregunta es de tipo epistemológico y ontológico combinado. El hecho

18
o el acto de fumar queda sometido al criterio de cada uno de los objetos, porque no fumar puede ser lo que entienda
cada individuo: ningún cigarro al día, fumar solo después de las comidas etc.. Por lo tanto este instrumento de
obtención de datos no sería fiable ni válido. Otra forma posible es hacer la pregunta tipo categórico pero ordinal:

Pero plantea los mismos problemas que la anterior. Se

puede optar por una pregunta de tipo escalar o intervalar:
Escala de Intensidad de la siguiente manera:

En este tipo de preguntas se dan los mismos problemas que en

las anteriores, además del problema indicado en las escalas
termométricas. El criterio de la subjetividad sería paradójico.

Por último, la preguntamos de tipo de razón sería:

Este tipo de pregunta o instrumento de obtención de
datos se puede considerar válido, fiable y medición, ya
que el elemento base, el cero es ajeno al sujeto y al
objeto. Pero no han terminado los problemas, porque
ahora que cumple estos requisitos aparece en escena
el problema del error. ¿Cuál es la diferencia entre la respuesta y lo real?, ¿Qué es lo que considera cada uno fumar un
cigarrillo? Por fumar un cigarrillo se puede entender encenderlo y tirarlo; encenderlo fumar la mitad y tirarlo, o
encenderlo y fumarlo hasta la boquilla. Evidentemente estos tres individuos habiendo fumado el mismo número de
cigarrillos no habrían fumado el mismo número de cigarrillos no habrían fumado la misma cantidad de tabaco.
Entonces la pregunta tendría que ser:
Seguiría existiendo el error, del instrumento de medida, el
criterio de fallo humano, el redondeo utilizado. Se puede
plantear la pregunta de diferentes maneras, pero todas ellas
llevarían aparejado al problema del error. No obstante, se ha
pasado de si el instrumento es válido y fiable a siendo válido y
fiable cúal es el error que cometemos. El acto de fumar es aparentemente simple, pero su calificación o medición es
compleja, igual que cualquier otro acto humano.

VARIABLES DISCRETAS Y CONTINUAS

Además del nivel de medida, otra diferencia es la que se da entre variables continuas y variables discretas. Una
variable se considera continua si entre cualquiera de los dos valores,puede tomar otros que se puedan considerar
infinitos. Aunque en realidad las posiciones intermedias dependen de la precisión del instrumento de medida y el
concepto infinito es más una cuestión filosófica que real. También se puede considerar como una variable continua ya
que sus valores pertenecen a los números reales que se definen de manera axiomática como el conjunto de números

19
que se encuentran en correspondencia biunívoca con los puntos de una recta infinita: la recta numérica. Ejemplos:
salario, edad,estatura, peso.

Una variable discreta sería la que entre cualesquiera dos valores contiguos no existen posiciones intermedias
y se corresponden con los números enteros, siendo que los números enteros se representan gráficamente en la recta
de números enteros como puntos a un mismo espacio entre sí, desde menos infinito hasta infinito. Ejemplos: números
de hijos, número de cigarros etc.
A veces las variables tienen la doble consideración. Por ejemplo, la edad se trata siempre como variable discreta se
dice los años cumplidos, aunque en realidad es una variable continua. Sean consideradas continuas o discretas las
variables, cuando se aplican funciones estadísticas (media [X ], varianza [S^2], desviación típica [S ], etc.), estas se
consideran valores continuos y se representarán con decimales.

VARIABLES SEGÚN SU RELACIÓN

En los procesos de análisis las variables se consideran según la relación entre ellas. Genéricamente se consideran
variables dependientes o independientes.
El concepto de dependencia de una variable tiene varias definiciones. “En un estudio, análisis o modelo, una
variable dependiente es el elemento social cuyas características o variaciones serán explicadas por la referencia a la
influencia de otra anterior llamada variable independiente.
En los métodos de investigación y estadísticos, “es una variable que potencialmente puede ser influida por una o más
variables independientes. El propósito de un experimento es típicamente determinar si una o más variables
independientes influyen en una o más variables dependientes de alguna manera”.
“En la regresión múltiple, un grupo de variables independientes o predictoras se combinan en un modelo lineal para
proporcionar la mejor predicción de una variable dependiente que a veces se llama variable criterio”. Matemáticamente
“si y es una función de x (y= f(x)), esto es, si la función asigna un solo valor a y por cada valor de x, entonces y es la
variable dependiente”.

La variable independiente (o explicativa) es la que “en un estudio, análisis o modelo [...] es el elemento social cuyas
características o variaciones forman y determinan la variable dependiente: En una situación experimental, pueden
manipularse las variables independientes sistemáticamente, para que se pueda observar el efecto producido en la
variable dependiente. El que una variable sea tratada como dependientes, o independiente está determinado por el
marco teórico y el enfoque del estudio, pero las variables independientes deben preceder a la variable dependiente, y
debe ser la causa”.

En un diseño experimental la variable independiente es “una variable que es controlada/manipulada por el

experimentador, independientemente de las variables extrañas, para examinar sus efectos en la variable dependiente”.
Matemáticamente la variable independiente es “en una ecuación y= f(x), la variable de entrada x. También conocido
como el argumento”. Definir la variable dependiente (variable no controlada), asume la definición de la variable
independiente (variable controlada). Los nombres que pueden recibir según los procedimientos estadísticos que se
utilizan se muestran en:

20
21
Tema 4. Estadística univariable. Características de una distribución univariable. Tendencia
central. Dispersión y forma. Representaciones gráficas

ESTADÍSTICA DESCRIPTIVA UNIVARIABLE

La Estadística Descriptiva Univariable se agrupa según la tabla:

La decisión de qué estadístico aplicar a cada variable, está en función del nivel de medida de la misma. A las variables
cualitativas o categóricas, sólo se puede aplicar la tabla de frecuencias y el diagrama de barras, siendo posible aunque
no imprescindible la moda para las nominales y la mediana para las ordinales. El resto de los estadísticos no es
estadísticamente apropiado aplicarlos, salvo algunas excepciones como son las variables dicotómicas, las binarias y las
ordinales. Todos los demás estadísticos, el histograma y el polígono de frecuencias se pueden aplicar a las variables
cuantitativas o numéricas. La moda, mediana, tabla de frecuencias y el diagrama de barras es estadísticamente
apropiado aplicarlos aunque a veces no es conveniente por la cantidad de valores distintos que tiene los datos de las
demás variables, no resumen lo suficiente, y es una de las finalidades de la Estadística.

ESTADÍSTICOS DE TENDENCIA CENTRAL

Los estadísticos de tendencia central son: la moda, mediana y media. Se utilizan para describir características de
centralidad de las variables.

LA MODA
La moda es el valor o categoría de la variable que se repite más veces o que tiene una frecuencia mayor. Esta es la
moda considerada absoluta. Puede haber otras modas que se denominan relativas y su característica es que un valor de
la variable que tiene una frecuencia mayor que los valores anterior y posterior. Este estadístico se puede utilizar con
las variables de nivel de medida: nominal, ordinal, intervalo y razón. Como el cálculo se realiza a partir de la Tabla de
Frecuencias, el resultado puede variar en función del agrupamiento de los intervalos. En las variables categóricas, el
valor de la moda se calcula por observación de la Tabla de Frecuencias.

22
La fórmula que tenemos es la siguiente:

LA MEDIANA
La mediana es el valor de la variable que deja por debajo el 50,0% de los casos. por lo tanto por encima de su valor
está el otro 50,0%. La mediana se puede utilizar con variables que al menos tengan el nivel de medida ordinal, pero
su uso es más adecuado con las de intervalo y razón. Con las variables nominales no se pueden utilizar ya que ni

23
siquiera se pueden ordenar los casos. La fórmula de la medina es una derivación de la fórmula de los percentiles y se
desarrolla con una regla regla de tres simple:

LA MEDIA
La media es el valor que tendrían todos los casos, si todos los casos tuvieran el mismo valor, y entonces se puede
considerar como centro de la gravedad de la variable o el punto de apoyo que la mantiene en equilibrio, esto es, que la
suma de los valores de los casos que hay a la izquierda “pesan” lo mismo que la suma de los valores de los caso que
hay a la derecha. También, ocurre que el sumatorio de la diferencia de cada caso respecto de la media, es igual a cero.
La media es la suma de los valores de todos los casos dividida por el número de casos. El nivel de medida de las
variables debe ser de intervalo o razón.

24
En las variables categóricas no se pueden calcular funciones estadísticas como la media, porque los valores no tienen
significado al ser asignados de forma arbitraria y aleatoria. Un caso especial es el de las variables dicotómicas
codificadas como 1 y 0 y las binarias. En estos casos la media es la proporción de unos.

25
26
𝑛 𝑛 𝑛 𝑛
∑ 𝑦𝑖 ∑ 𝑥𝑖·𝐴 (𝑥1·𝐴)+(𝑥2·𝐴)+....+(𝑥10·𝐴) 𝐴·(𝑥1·𝑥2·+...+𝑥10) 𝐴· ∑ 𝑥𝑖 ∑ 𝑥𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑌= 𝑛
= 𝑛
= 𝑛
= 𝑛
= 𝑛
= 𝐴· 𝑛
= 𝑋·𝐴

27
ESTADÍSTICA DE DISPERSIÓN

La estadística de Tendencia Central representa a la variable a través de un único valor. El riesgo es que este valor sea
representativo o no de todos los casos y esta característica afecta a la media. Según la definición de la media, no
facilita información de cómo están situados todos los casos respecto de ella, pueden coincidir todas con la media y
entonces no sería una variable, sino una constante, pueden estar próximos a la media y entonces ésta se consideraría
representativa o pueden estar muy alejados.
Con las medidas de dispersión se obtiene información de cómo están situados los casos respecto a un estadístico de
tendencia central

RANGO O AMPLITUD DE LA VARIABLE

Se define como rango o amplitud de una variable, y se denominaría por A, a la diferencia entre el valor mayor y el
menor de la variable, o sea, los valores más extremos de la variable.

28
LA VARIANZA

El concepto de dispersión es medir la distancia de todos los casos respecto a algún estadístico de tendencia central,
normalmente la media. La dispersión de un caso respecto de la media se puede ver por la distancia que hay entre ellos
a través de la diferencia.

Para obtener la dispersión de todos los casos que se puede aplicar el

sumatorio.

Y dividiéndolo por el total de casos se obtiene la dispersión media

Pero este proceso de cálculo de la dispersión media es

importante a efectos conceptuales, pero estadísticamente da
siempre como resultado cero, porque el sumatorio de los valores
positivos y negativos, por los casos que quedan por debajo y por
encima de la media dan siempre cero.
Elevando la diferencia (𝑥𝑖 − 𝑋) al cuadrado, tanto las diferencias positivas como las negativas, se hacen positivas y
se obtiene la varianza.

29
Propiedades de la varianza

30
LA DESVIACIÓN TÍPICA

( )
Al tener que elevar al cuadrado la diferencia 𝑋 − 𝑥𝑖 para eliminar la igualdad a cero, la varianza es un valor elevado
al cuadrado y en unidades de la variable elevadas al cuadrado. Si se aplica la raíz cuadrada, se le quita el cuadrado al
valor y a las unidades y el valor obtenido se le llama desviación típica.

31
Propiedades de la desviación típica

Demostración:
2 2
Según la demostración de la Propiedad 6, 𝑆𝑦 = 𝑆𝑥, entonces:

EL COEFICIENTE DE VARIACIÓN

La varianza es un estadístico que se puede considerar abstracto porque el resultado es un valor de la variable elevado
al cuadrado, al hallar la raíz cuadrada, se elimina la abstracción, pero el valor está influido por la unidad de medida de
la variable.

32
Según la Propiedad 12 pág. 54 y Propiedad 13 pág.54 de la desviación típica, al multiplicar o dividir los valores de la
variable por una constante,la desviación típica queda multiplicada o dividida por esa constante. Si se cambia la unidad
de medida de una variable, se multiplica o divide por una constante y la desviación típica queda multiplicada o
dividida por esa constante, por lo que es un estadístico que no permite interpretar la dispersión de la variable ni
compararla con la de otras variables.
El coeficiente de variación es la estandarización de la desviación típica al eliminar la unidad de medida de la
variable.

Según el teorema de Tchebycheff, si la desviación típica es mayor o igual que la media, se puede dar la probabilidad de
que haya casos con valores negativos de la variable, esta circunstancia es imposible en la mayoría de las variables que
se estudian en Sociología, o que la variable tuviese un comportamiento muy anómalo. Por lo tanto un CV igual o mayor
que la unidad se interpretará como un valor que indica una dispersión anómala. Incluso por debajo de 1 se considerará
desproporcionada. Teóricamente, sólo se puede considerar una dispersión aceptable cuando la CV sea igual o incluso
inferior a 0,5 o 50,0% y cuanto más se aproxime a cero menor será la dispersión.
El CV no varía aunque cambie la unidad de medida de la variable. Esta característica permite que se pueda
relacionar la dispersión de variables de diferente magnitud y unidad de medida. La dispersión sólo no dice nada de la
distribución de la variable. La dispersión no es indicativa de la representatividad de la variable sobre la población,
aunque siempre es estadísticamente más agradable que la dispersión sea baja.

Un examen detenido de los datos y los demás estadísticos, muestran que dos variables tienen características distintas.
La estadística Descriptiva Univariable no consiste en aplicar un estadístico (la media) a una variable, sino aplicar todos
los estadísticos adecuados a cada variable.

ESTADÍSTICOS DE FORMA

Estos estadísticos permiten decir algo sobre la característica de la forma de la distribución de la variable. La forma de
la distribución se establece comparándola con la Normal, pero no significa contrastar con la Normal. El significado es
que se va a comparar si la forma de la distribución de una variable tiene características similares a la Normal. Pero no

33
se contrasta si la distribución de la variable es normal, supuestamente normal o marcadamente normal. La
comparación es descriptiva, el contraste implica cálculo de probabilidades y contraste de hipótesis
( )
Los estadísticos de forma miden la asimetría, oblicuidad o “skewness” 𝑔𝑖 y el apuntamiento, curtosis o
( )
“kurtosis” 𝑔2 de la distribución de una variable.

MOMENTOS O SITIO, LUGAR

Los momentos describen características de un conjunto de datos que componen una o más variables. En esta ocasión
se tratan solo los momentos de una variable:
Los momentos se clasifican como: momentos respecto al origen de una variable y momentos respecto al
origen de una variable y momentos respecto a un estadístico de tendencia central, en este caso se considera respecto
de la media de la variable.
El momento a de orden r, de la variable X, respecto al origen se representa como 𝑎𝑟 y es, por definición:

ASIMETRÍA Y APUNTAMIENTO

La media de la forma de la distribución de una variable se hace respecto a la normal. Los estadísticos son asimetría
( ) ( )
𝑔1 y apuntamiento 𝑔2 .En una distribución normal o campana de Gauss los estadísticos de tendencia central

(𝑀 , 𝑀 𝑦 𝑋)tienen el mismo o similar valor y es el eje que divide la distribución en dos partes iguales y simétricas.
𝑜 𝑒
En los valores extremos de la variable se dan frecuencias bajas y están aumentando a medida que los valores se
( ) ( )
acercan a los valores medios de la misma y 𝑔1 y 𝑔2 toman el valor cero. Pero no significa que una distribución que
( ) ( )
tenga 𝑔1 y 𝑔2 igual a cero, es normal. Lo que se pretende es comparar la forma de una distribución con la normal,
no contrastar si la distribución es normal o marcadamente normal

TABLA DE FRECUENCIAS

La tabla de frecuencias o de distribución de frecuencias, es apropiada para variables categóricas y numéricas discretas,
y numéricas continuas cuando las categorías se presentan por intervalos, aunque se aplica preferentemente a las
categóricas. Es un resumen de la variable de tal manera que presenta de forma ordenada, normalmente de menor a
mayor, las categorías o valores distintos de la variable, indicando para cada uno de ellos cuantas veces se repite, o lo
que es lo mismo, cuántos casos hay en cada categoría o que tiene un determinado valor, características o atributo.

34
Esta tabla de frecuencias de la variable p2 (estado civil), de la matriz de datos de la Tabla 18. Esta variable tiene un
espacio muestral de seis categorías, características o sucesos elementales: SOLTERO/A, CASADO/A, PAREJA,
SEPARADO/A, DIVORCIADO/A Y VIUDO/A. Como las unidades de observación que han participado son jóvenes, el
espacio muestral queda reducido a: SOLTERO/A, CASADO/A PAREJA.

35
Las frecuencias acumuladas absoluta y relativa, tienen más sentido cuando se aplica con variables al menos tiene un
nivel de medida ordinal. La denominación de distribución de frecuencias se debe a que la suma de los porcentajes es
100, o sea, la suma de todas las frecuencias absolutas, coincide con el total de la tabla.

TABLA DE FRECUENCIAS POR INTERVALOS

La tabla de frecuencias o distribución por intervalo es la representación de la tabla de datos Tipo I o Tipo II agrupada
en intervalos. Las categorías o estratos son intervalos definidos por un valor mínimo (límite inferior del intervalo) y un
valor máximo (límite superior del intervalo) que suma o reúne los casos que tiene los valores o datos comprendidos
dentro de cada intervalo. La amplitud del intervalo está definida por la diferencia entre el valor máximo y el mínimo y
( )
se denomina amplitud del intervalo 𝑎𝑖 , y el punto medio del intervalo se denomina marca de clase.

Para crear una tabla de

frecuencias por intervalos hay que
definir el número de intervalos y
averiguar la amplitud del intervalo
o definir la amplitud de los
intervalos y hallar el número de
intervalos. Posiciones:

El cálculo de los percentiles cuartiles se realiza sobre la tabla de datos Tipo II de la variable p4_1. A efectos de cálculo,
se considera que cada intervalo tiene la amplitud de una unidad y los intervalos que no aparecen es porque no hay
casos.

Teóricamente cada uno de los estratos o categorías, debe tener 23,75 casos, según los cuartiles, que son el 25% del
total de los casos. Para calcularlos a partir de una tabla de datos Tipo II, la teoría difiere de la realidad. Si el cálculo se
hubiese realizado sobre la tabla de datos Tipo I, la situación no habría mejorado mucho, porque las frecuencias
absolutas de cada uno de los estratos o categorías, respectivamente, hubieses sido de: 25,22,25 y 27 casos. Otra
dificultad para la coincidencia de los valores teóricos y empíricos es que las unidades de observación no se pueden
dividir como es el caso del valor 23,75

36
Un problema no tratado hasta ahora es el de los límites de los intervalos, esto es, en qué intervalos se deben
considerar a aquellos casos que se encuentran justo en los límites de los intervalos. Cuando un caso coincide con el
límite de un intervalo y se asigna a ese intervalo entonces se considera que es un límite cerrado, y cuando un caso
coincide con el límite de un intervalo no es asignado a ese intervalo, entonces se considera que es un límite abierto.
Hasta ahora se ha considerado el criterio de IBM SPSS, que consiste en asignar cada caso al intervalo en el que aparece
primero su valor, procediendo de arriba a abajo de la tabla.
La tabla puede estar ordenada de forma ascendente o descendente. Si está ordenada ascendentemente, que
es el caso seguido hasta ahora, entonces el primer intervalo tiene los dos límites cerrados y el resto de los intervalos,
el límite inferior es abierto y el superior es cerrado. Si la tabla está en orden ascendente, al seguir el mismo criterio,
entonces el primer intervalo tiene los dos límites cerrados y el resto de los intervalos, el límite inferior es cerrado y el
superior es abierto, pero considerándolo sobre la tabla ordenada ascendentemente, el resultado es que el último
intervalo tiene el límite inferior cerrado y el superior abierto, que es la opción tradicional de la Estadística.

PERCENTILES

Los percentiles se pueden considerar un estadístico de tendencia central. El percentil es un valor de la variable que
deja por debajo de sí determinado porcentaje de casos, por lo tanto, el complemento a 100% es el porcentaje de casos
que quedará por encima del mencionado valor. Entonces, el percentil k, es el valor de x de la variable que deja por
debajo de si el k% de los casos, y por encima de x, deja el (100-k)% de los casos. Esta cuestión plantea proponer un
convenio, o que en el valor de x de la variable no existen casos o que el valor de x está contemplado como límite
abierto en un intervalo y cerrado en el complementario. En las variables numéricas supuestas continuas y con las
integrales definidas está resuelto matemáticamente, ya que la integral entre un valor y él mismo es igual a cero.
La mediana es un percentil tipo, ya que es el valor de la variable que deja por debajo y por encima de sí el
50% de los casos. La fórmula de los percentiles es una derivación de la fórmula de la mediana.

Los percentiles denominados tipo o típicos, son los cuartiles, deciles y centiles. Un segmento se divide en tantas partes
como puntos de corte tiene más uno Por ejemplos si el segmento le damos tres cortes, se divide en cuatro partes. Si al
segmento AB le damos tres puntos de corte: P1,P2, P3, entonces dividimos en cuatro partes a, b, c y d.

( )
Entonces definimos a los percentiles cuartiles como los tres puntos de corte 𝑄1. 𝑄2𝑦 𝑄3 que divide a la variable en
cuatro partes iguales en cuanto al número de casos que se refiere y cada uno de ellas tiene el 25% de los casos. Por
( ) (
debajo de 𝑄1quedan el 25% de los casos. Entre el 𝑄1𝑦 𝑄2 hay el otro 25% de los casos. Entre 𝑄2𝑦 𝑄3 otro 25% )
de los casos. Y por encima del 𝑄3se encuentran el restante 25% de los casos. Por lo tanto por debajo del 𝑄2están el
50% de los casos, que es la mediana. Por debajo del 𝑄3el 75% de los casos y por debajo del valor máximo de la
variable estarían el total de los casos (100%).

Los percentiles deciles de los nueve puntos de corte (𝑑1, 𝑑2,..., 𝑑9)que divide a la variable en 10 partes iguales en
cuanto al número de casos se refiere y cada una de ellas tiene el 10% de los casos. Entre el (𝑑1𝑦 𝑑2) hay otro 10% de
los casos. Entre el (𝑑2𝑦 𝑑3)el 10% de los casos, y así sucesivamente. Y por encima del 𝑑9se encuentran el último 10%
de los casos. Por lo tanto por debajo del 𝑑2 están ele 20% de los casos, por debajo del 𝑑3están el 30% de los casos.
Así sucesivamente hasta el 𝑑5que son el 50%, que es la mediana. Por debajo del valor máximo de la variable estaría el
total de los casos (100%).

37
Los percentiles centiles son los 99 puntos de corte (𝑐1, 𝑐2,..., 𝑐99)que divide a la variable en 100 partes iguales en
cuanto al número de casos se refiere y cada una de ellas tiene el 1% de los casos. Por debajo del 𝑐1queda el 1% de los
casos. Entre (𝑐1𝑦 𝑐2) hay otro 1% de los casos. Entre el (𝑐2𝑦 𝑐3)el 1% de los casos y así sucesivamente. Y por encima
del 𝑐99se encuentran el último 1% de los casos. Por lo tanto por debajo del 𝑐2 están el 2% de los casos, por debajo del
𝑐3están el 3% de los casos. Así sucesivamente hasta el 𝑐50que son el 50%, que es la mediana. Por debajo del valor
máximo de la variable estarían el total de los casos (100%). De la misma manera, la variable se podría dividir en:
5,6,7,8,... partes iguales.

GRÁFICOS

La representación gráfica de los datos se hace con el diagrama de barras y el histograma, y el polígono de frecuencias
como derivación del histograma. Son los gráficos que se pueden considerar básicos de la Estadística. No obstante, el
IBM SPSS, EXCEL, HARVARD etc. así como otros programas estadísticos, hojas de cálculo y matemáticos, pueden
facilitar la creación de otro tipo de gráficos.

INTRODUCCIÓN A LOS SISTEMAS DE REPRESENTACIÓN GRÁFICA

Para la representación gráfica de los datos se consideran sistemas de coordenadas de dos y tres dimensiones. El
sistema de coordenadas cartesianas de dos dimensiones es un sistema de coordenadas de dos ejes ortogonales
(perpendiculares entre sí) que dividen el plano en cuatro partes que llamamos cuadrantes: I, II, III, IV. El eje horizontal
es el de abscisas o eje X y el eje vertical representa al eje y. El punto en el que se cruzan se dice que tiene coordenadas
(x,y) y se le considera el origen del sistema.

Desde el origen del sistema, coordenadas (0,0), a la derecha, el eje X tiene valores positivos y hacia la
izquierda valores negativos. El eje Y tiene valores positivos por encima del eje X y negativos por debajo. Cualquier
punto en el plano se puede representar por un par de coordenadas (x,y). Cualquier punto es el cuadrante I tiene
coordenadas x e y positivas: en el II al x es negativa y la y positiva; en el cuadrante III x e y son negativas, y en el
último cuadrante, la coordenada x es positiva y la y negativa. Cualquier punto en el eje X tiene coordenada y=0 y
cualquier punto en el eje Y tiene coordenada x=0.
El sistema de coordenadas cartesianas de tres dimensiones es un sistema de coordenadas de tres ejes ortogonales que
dividen el espacio en ocho partes que llamamos octantes: I, II, III, IV, V, VI, VII y VIII. El eje horizontal es el X, el eje
vertical es el Y, siendo el eje Z el que saldría hacia el exterior de este papel. El punto en el que se cruzan se dice que
tiene coordenadas (x,y,z), (0,0,0) y se le considera el origen del sistema. Llamamos plano XY, al plano definido por los
ejes X-Y, el plano ZY, el formado por los ejes Z-Y, y el formado por los ejes X-Z es el plano XZ.

Desde el origen del sistema, coordenadas (0,0,0), a la derecha, el eje X tiene valores positivos y hacia la izquierda
valores negativos: el eje Y tiene valores positivos por encima del origen (0,0,0) y negativos por debajo, y el eje Z tiene
valores positivos, por delante del origen (0,0,0) y negativos hacia atrás. Cualquier punto en el espacio se puede
representar por las coordenadas (x,y,z). En los octantes I,II,III,IV.

Cualquier punto en el eje X tiene coordenada cero en los ejes Y y Z. Los puntos del eje Y, el valor cero es en
los ejes X y Z. Los puntos del eje Y, el valor cero es en los ejes X y Z. Y los puntos del eje Z presentan valor cero en los
ejes X e Y. De la misma forma, cualquier puto en el plano XZ, tiene valor cero en el eje Y; los del plano XY, tienen

38
coordenada cero en el Z, y los planos ZY, el valor cero es en el X. Considerando que los ejes y los planos pasan por el
punto de coordenadas (0,0,0).

DIAGRAMA DE BARRAS

El diagrama de barras es la representación gráfica en un sistema de coordenadas cartesianas de dos dimensiones de la

tabla de frecuencias de una variable cualitativa o categórica, nominal u ordinal. En el eje horizontal, X o de abscisas se
representan los valores o categorías de la variable y en el eje vertical, Y o de coordenadas se representan las
frecuencias absolutas o relativas de cada valor o categoría de la variable.
Como los valores de las variables de nivel de medida nominal u ordinal no tienen ninguna relación entre sí, si
acaso de orden, entonces la escala o división del eje X son marcas sin ninguna relación entre ellas, colocadas de forma
aleatoria y razonable dentro del marco del gráfico y sin solución de continuidad entre ellas.
El ancho de las barras es estético. Las frecuencias representadas en el eje Y indica el número de casos o
proporción de casos que se da en cada valor o categoría de la variable y este eje se escala en función del valor de la
categoría con frecuencia mayor. Cada segmento del eje Y representa a n casos.

HISTOGRAMA DE INTERVALOS DE IGUAL AMPLITUD

El histograma es la representación gráfica en un sistema de coordenadas cartesianas de dos dimensiones de la tabla

de frecuencias de una variable cuantitativa o numérica, intervalar o de razón. En el eje horizontal, X o de abscisas se
representan los valores de la variable y en el eje vertical, Y o de ordenadas se representan las frecuencias absolutas o
relativas de cada valor de la variable.
Cómo entre los valores de las variables de nivel de medida intervalar o de razón existe el concepto distancia,
entonces el eje X se escala en función del valor máximo de la variable y cada segmento representa n unidades de la
variable. Las frecuencias representadas en el eje Y indica el número de casos o la proporción de casos que se da en
cada valor de la variable y este eje se escala en función del valor con frecuencia mayor.

39
TEMA 5. NOCIONES BÁSICAS DE PROBABILIDAD. DISTRIBUCIONES DE PROBABILIDAD. DISTRIBUCIÓN NORMAL.
ÁREAS BAJO LA CURVA NORMAL. OTRAS DISTRIBUCIONES

PUNTUACIÓN DIRECTA, DIFERENCIAL Y TÍPICA

Se llama puntuación directa al valor que obtiene el individuo, caso o unidad de observación i-ésimo en una variable, y
se representa por 𝑥𝑖. La puntuación diferencial (pd), es la distancia que tiene un individuo desde su puntuación directa

( )
hasta un estadístico de tendencia central, que habitualmente es la media y se representa por 𝑥𝑖 − 𝑋 . La puntuación
típica, es la relación entre la puntuación diferencial y un estadístico de dispersión, habitualmente la desviación típica, y
( )
se representa por 𝑥𝑖 − 𝑋 /S. A la relación llamada puntuación típica, se la representa con la letra minúscula 𝑧𝑖

La diferencia entre los tipos de puntuación es la información que da cada uno. La puntuación directa dice el peso de
cada uno de los individuos y por experiencia de puede saber si el peso es mucho o poco pero sin saber la estatura, por
ejemplo, no se puede decir mucho más.
La puntuación diferencial amplía la información al indicar la distancia que tiene cada uno de los casos
respecto a la media del grupo. La puntuación 𝑧𝑖o tipificada dice si el individuo está por encima o por debajo de la
media y a que distancia de la media en unidades de desviación típica. También permite comparar valores del mismo
individuo o distintos individuos en distintas variables. Otra opción es que a partir de la distribución o función de
densidad de probabilidad de 𝑧𝑖se puede saber el porcentaje o probabilidad de individuos por debajo, por encima o
entre dos valores.

40
Aplicando el criterio de puntuación 𝑧𝑖 a todos los casos, esto es, a todos los valores de una variable, se obtiene una
variable que se denomina Z. La tipificación de variables sólo se puede hacer con variables numéricas,o consideradas
numéricas. De la misma manera, se puede transformar cualquier variable a variable Z 's.

RELACIÓN ENTRE LA DISTRIBUCIÓN BINOMIAL Y LA NORMAL

Si n es grande y p no es pequeña, la distribución binomial puede comportarse como una normal y se puede utilizar el
criterio de transformación de z simbólicamente.

CONCEPTO DE PROBABILIDAD (VARIABLES CONTINUAS)

Según el epígrafe anterior, cualquier variable numérica puede ser transformada en puntuación z y por consiguiente en
una variable Z. Tomando de una población o muestra grande tres variables, por ejemplo, el peso, la estatura y la edad,
y asumiendo que las tres tiene una distribución normal por tener tamaños grandes y siguiendo el criterio de la TABLA
75, al representación gráfica de la transformación en Z se ve en la Tabla 78.

41
( )
Las cuatro variables tiene una distribución normal con su media y desviación típica 𝑁(𝑋,𝑆) , estas distribuciones
tienen su función f(x) definida, de tal manera que podemos decir que la Y está en función de x simbólicamente, Y=f(x),
y se puede generalizar a toda variable con la distribución normal. Significa que para cualquier calor de la variable en el
eje de abscisas, aplicando la función, obtenemos un valor en el eje de ordenadas o vertical.

Las características del gráfico de la función de densidad de la normal tipificada o variable Z, son: su distribución es
normal; la media vale cero; la desviación típica vale la unidad; la varianza vale también la unidad; la moda, la mediana
y la media tienen el mismo valor: es simétrica por el eje que define la media, y la superficie contenida por debajo de la
curva y por encima del eje de abscisas vale la unidad. Su distribución es normal de media 0 y desviación típica igual a
la unidad, simbólicamente, 𝑁(0,1).

La simetría significa que las dos mitades que definen el eje

que pasa por la media son iguales y tienen la misma forma.
La superficie representa a todos los casos, y estos están
representados por la unidad en términos de probabilidad o
proporción y en porcentajes si multiplicamos la probabilidad
por 100 Al ser simétrica, cada mitad vale 0,5 o 50%.
Asociar superficie a casos, permite decir cual es la
probabilidad de que un caso esté por debajo, por encima o
entre cualesquiera dos valores de z. Al operar con el
concepto de probabilidad objetiva frecuentista o “a
posteriori”, se puede asociar a un porcentaje y permite decir
cual es el porcentaje de casos por debajo, por encima o entre cualesquiera dos valores de z. Para saber la probabilidad
o porcentaje asociado a una superficie es necesario calcular el valor de la superficie. Según el planteamiento, hallando
la superficie se puede saber, en el caso del examen A, cuál es la probabilidad de que un individuo obtenga menos de 8
o más de 8, o qué porcentaje de individuos del grupo han obtenido menos de 8 o más de 8.

42
El concepto cálculo de la superficie de un rectángulo (S=b·a) no contempla dificultad debido a que un polígono de
lados paralelos. La dificultad de calcular la superficie bajo la curva de la normal y por encima del eje de abscisas, es
que la altura es variable y la base está comprendida entre − ∞ e ∞. El problema es irresoluble, porque además de
ser un polígono de altura variable, la base es infinita. Se debe proceder para simplificar el problema.

La simplificación empieza al dividir la superficie en dos partes por la línea de referencia en el punto z=1,5.
( )
Ahora se debe proceder a calcular la superficie que queda por encima de la línea de referencia 𝑆𝑖 , o por debajo
(𝑆2 + 𝑆3) y la superficie restante se puede obtener por diferencia simple con 1, ya que (𝑆1 + 𝑆2 + 𝑆3), es igual a
la unidad. La superficie por debajo de la línea de referencia se puede descomponer en (𝑆2 + 𝑆3), y como 𝑆3 vale 0,5
por ser la mitad de la curva, solo falta obtener 𝑆2. En este momento, la elección está entre hallar la superficie de 𝑆2o
𝑆1. La superficie de 𝑆2es la comprendida bajo la curva normal, el eje de abscisas y los valores de z=0 y z=1,50. Esta
superficie plantea sólo un inconveniente, que la altura es variable, ya que la base es finita y conocida (en este caso,
1,5-0). La superficie de 𝑆1tiene dos inconvenientes, que la altura es variable y la base infinita, por lo tanto, optamos
por calcular la superficie 𝑆2.

Resolviendo la integral definida se obtiene la superficie buscada. Pero para saber el resultado, no es necesario aplicar
el cálculo integral, ya que este tipo de integrales están tabuladas y a través de su Tabla se puede resolver. El proceso
seguido se considera necesario para tener el concepto de integración y de superficie, pero no es necesario saber el
cálculo diferencial-integral. Para resolver la integral se recurre a la tabla del Anexo 1 y se muestra el proceso en la
Tabla 82, y en la Tabla 83 y Tabla 84 se muestra la lectura de la superficie correspondiente a la nota de exámenes A y
B, respectivamente.

43
44
RELACIÓN ENTRE PROBABILIDAD DISCRETA Y CONTINUA

( )
La probabilidad de obtener un determinado valor 𝑃(𝑋=𝑥 , en el caso de variables discretas es igual o mayor que cero.

( )
En el caso de una variable continua la 𝑃(𝑋=𝑥 es siempre cero.

La característica del cálculo de las probabilidades en el caso discreto es la relación entre los hechos favorables y los
hechos posibles, por lo tanto siempre será igual o mayor a cero. En el caso de una variable continua al ser la
probabilidad una superficie, siempre debe estar definida por dos valores o entre un valor y el ∞, por intuición (sin
demostración matemática), la distancia o diferencia entre un valor consigo lo tomamos como cero y por lo tanto el
cálculo de una superficie que tiene de base cero, también es cero y así mismo la probabilidad.

APLICACIÓN DE LA PROBABILIDAD (VARIABLES CONTINUAS)

Cualquier variable que se le asuma que tiene una distribución normal o cualquier valor de una variable que se le
( )
asume distribución normal 𝑁(𝑥=𝑆, , se le puee puede aplicar el criterio de transformación en puntuación típica o z
(𝑁(0,1) ) y calcular probabilidades o porcentajes. Además de calcular la superficie por debajo o por encima de cierto
valor de la variable, otra posibilidad es la de calcular superficies entre dos valores que llamaremos intervalos.
Si una variable tiene la distribución normal según f(x) conocida, se puede calcular la superficie para
determinados valores y tomar la superficie para determinados valores y tomar la superficie como una probabilidad o
porcentaje. Los resultados obtenidos a través de la función de la normal y la función de la normal tipificada son
iguales. Se utiliza la f(z) por estar tabulada y su criterio de estandarización se puede aplicar a otras variables
numéricas.
Para el cálculo de intervalos se plantea cuál es la probabilidad de que un caso esté en el intervalo de la media
más/menos n-veces la desviación típica, como aplicación del Teorema de Tchebycheff, la fórmula y el gráfico (Tabla 85)

45
La superficie contemplada dentro del intervalo de confianza se denomina Nivel de Confianza (Simbólicamente 𝑁𝑐) y la
superficie que queda por fuera a ambos lados del intervalo de confianza se denomina Nivel de Significación (𝑁𝑠). La
superficie total debajo de la curva normal, es la unidad, por lo tanto 𝑁𝑐 + 𝑁𝑠 − 1, 𝑁𝑠 − 1 − 𝑁𝑐 y
𝑁𝑐 − 1 − 𝑁𝑠. El 𝑁𝑠 se distribuye por igual a ambos lados del intervalo de confianza. La superficie
correspondiente al 𝑁𝑠 también puede recibir el nombre de p-valor o a. La zona correspondiente al Nc es la aceptación
de Ho y la del Ns de Ho.

46
2
OTRAS FUNCIONES: (variables continuas) 𝑋 , 𝑡 𝑦 𝐹

2
Otras variables tipificadas que se utilizan en Sociología son 𝑋 , 𝑡 𝑦 𝐹. La función que genera la curva es diferente a
la Z y presenta la característica de tener grados de libertad (gl). Cada valor de grado de libertad genera una tabla de
función de densidad de probabilidad distinta, pero los conceptos y aplicación de la probabilidad son iguales que los
vistos para la función de densidad de probabilidad de la normal tipificada.
La representación de los gráficos de las variables mencionadas se realiza en un sistema de coordenadas de
dos dimensiones. En el eje de abscisas u horizontal se representa la variable y en el eje de ordenadas o vertical la Y,
2
considerando que y= f(x). Las variables Z y t, toman valores de − ∞ a ∞, y 𝑋 y F sólo toman valores positivos. Las
distribuciones tienden a normalizarse a medida que aumentan los gl. La superficie bajo la curva y por encima del eje
de abscisas vale la unidad y representa al total de los casos, por lo que se puede hablar en términos de probabilidad o
de porcentajes. La forma de obtener los grados de libertad se verán en los Epígrafes correspondientes a los desarrollos
estadísticos, en este apartado sólo se indicarán los valores.

47
ESTADÍSTICA BIVARIABLE. CÁLCULO DE PORCENTAJES

La estadística descriptiva bivariable es la estadística que describe o tabula las variables de dos en dos. Ofrece tablas
que son el resultado del cruce de dos variables. Esto significa que no pueden especificar más de dos variables
simultáneamente. En el cruce se pueden definir más de dos variables, pero las terceras y sucesivas variables se
consideran intervinientes de control o de copa.
Al cruzar dos variables, como el nivel de medida puede ser cualitativas o categóricas y cuantitativas o
numéricas, entonces los cruces posibles son: categórica por categórica, numérica por categórica y numérica por
numérica. Cada uno de estos cruces, da lugar a tres vías que tiene sus estadísticos propios y es la entrada a las tres
ramas de la que se considera la Estadística analítica, y esta tabla, más la estadística anterior, se puede considerar la
base de la Estadística Multivariable.

VARIABLE CATEGÓRICA POR CATEGÓRICA

Si se cruzan dos variables categóricas: X e Y, cada una de ellas con tres sucesos elementales: 𝑥1, 𝑥2, 𝑥3 e 𝑦1,𝑦2e 𝑦3,
se obtiene una tabla de X por Y, de tres por tres categorías. Las terceras y sucesivas variables se consideran variables
intervinientes o de control, esto es, se obtendría una tabla de X por Y por cada una de las categorías o combinación de
categorías de las variaciones intervinientes o de control. En la Tabla 48 se muestra el esquema:

48
TABLA DE DOBLE ENTRADA

Una tabla de doble entrada o distribución conjunta de frecuencias es una matriz rectangular o cuadrada que en la
entrada de filas se representan las categorías, códigos, valores o sucesos elementales del espacio muestral de una de
las variables y e la entrada de columnas se representan categorías, códigos, valores o sucesos elementales del espacio
muestral de la otra variable. En esta tabla no se plantea asociación entre las variables, pero como es la antesala del
contraste de hipótesis de asociación, entonces la variable considerada o propuesta como dependiente se pone en las
filas y la considerada o propuesta como independiente en las columnas. De esta manera se orienta el proceso hacia la
tabla de contingencia. No obstante, este criterio es por convenio, quiere decir, que la colocación de las variables no va
a influir en el resultado de los estadísticos aplicados. En cualquier caso, es habitual que las variables considerdas de
clasificación (socio-político-económico-demográficas: sexo, edad, estudios, estado civil, etc), se pongan siempre en las
columnas.
En la Tabla 48 la variable Y sería la considera como posible dependiente, la X la considerada como posible
independiente y la Z y W las de control o intervinientes. El cuadro definido por el cruce de cada dos categorías de X e Y
se llama celda y contiene las frecuencias absolutas y frecuencias relativas.
Las frecuencias absolutas indican el número de veces que se dan conjuntamente dos categorías o el número
de casos o unidades de observación que pertenecen a esas categorías. La última columna es el sumatorio de las
frecuencias absolutas de filas y se llama marginal de filas, y la última fila se le llama marginal de columnas y es el
sumatorio de las frecuencias absolutas de las columnas. Por lo tanto hay tres totales, el total de las filas, el total de las
columnas y el total del marginal de fias o el total del marginal de columnas que es igual al total de la tabla

49
Las frecuencias relativas,
expresadas en
proporciones o en
porcentajes, son la
relación entre la
frecuencias absoluta de
la celda y los totales de
fila, de columna y de
tabla, como se muestra a
continuación:

Ejemplo de tabla de doble entrada, con las frecuencias absolutas y el cálculo de las frecuencias relativas
expresadas en porcentajes. La frecuencia absoluta de la primera celsa (36), es el número de casos que son varones y
que (dicen que) están solteros, o el número de veces que se repite conjuntamente el suceso elemental “varón” y
“soltero”, o el número de casos que cumplen la condición de “varón” y “soltero”.

50
LECTURA DE PORCENTAJES

Al haber tres porcentajes, son tres las lecturas posibles de porcentajes. La cuestión entonces es qué información de
cada uno de ellos y si existe algún porcentaje mejor que el otro. A estas lecturas se añade la denominada Regla de
Zeisel.

Aunque la lectura de porcentajes anterior es correcta, no todos dan la misma información, ni una información
completa, sin ser falsa. Si se leen los porcentajes de la fila sobre su total, no se sabe nada de lo que ocurre
verticalmente, sobre el total de las columnas. Si se leen sobre el total de la columna, se observa lo que ocurre
verticalmente, pero no se sabe que pasa horizontalmente. La lectura de porcentajes sobre el total de la tabla es
demasiado generalista. Entonces una forma que resuelve estas cuestiones es la aplicación de la regla de Zeisel. Zeisel
estableció que la lectura de porcentajes se debía hacer de la siguiente forma: “Calcular los porcentajes en el sentido de

51
la variable (considerada) independientes y leerlos en el sentido de la variable (considerada) dependiente”. Según el
convenio de situar la variable dependiente en filas y la variable independiente en columnas, entonces la regla de Zeisel
también se puede expresar: “Calcular los porcentajes en el sentido de las columnas y leerlos (compararlos) en el
sentido de las filas”.

DISTRIBUCIONES CONDICIONALES

PROBABILIDAD CONDICIONADA

En estas tablas se trata de ver la relación, asociación o dependencia entre variables a través de la relación, asociación
o dependencia entre los sucesos elementales. Este análisis consiste en ver la independencia mejor que la dependencia
y este aspecto es el que se desarrolla.

En esta tabla, de 99 estudiantes distribuidos según el estado

civil y el sexo, la probabilida de que un estudiante al azar sea
soltero es:
ℎ𝑓 77
𝑃(𝑆 ) = ℎ𝑝 = 99 = 0, 7778
𝑆

Si se impone ahora la condición de que sea varón, la

36
probabilidad de ser soltero es 49 = 0, 7347. Los 36
elementos cumples la condición ser soltero y varón, esto es, de

52
la intersección de los sucesos 𝑆𝑆 ∩ 𝑆𝑉, siendo 𝑆𝑆 el suceso estar soltero y 𝑆𝑉el suceso ser varón, y que el 49 son los
elemento del suceso 𝑆𝑉 ser varón. Si ahora proponemos los sucesos 𝑆𝑆 ∩ 𝑆𝑉 y 𝑆𝑉 como subconjuntos del conjunto
ℎ𝑓 36 ℎ𝑓 49
de los 99 estudiantes, tenemos que 𝑃(𝑆 ∩𝑆 ) = ℎ𝑝
= 99
= 0, 3636. Y que 𝑃(𝑆 ) = ℎ𝑝
= 99
= 0, 4949.
𝑆 𝑉 𝑣

Por lo tanto, la probabilidad condicional de estar soltero, supuesto que se es varón, que hemos visto que valía 36/49,
𝑃(𝑆 ∩𝑆
36/99 ) 36
se puede expresar por 49/99
= 𝑆

𝑃( 𝑆
𝑉
= 49
. Es el porcentaje sobre el total de la columna y lo llamamos la
𝑉
)

probabilidad condicional de estar soltero por supuesto que es varón. Y de forma genérica se define como: la
probabilidad condicional (o condicionada) de A supuesto B, y se designa por 𝑃(𝐴/𝐵), y con la expresión:

De la misma manera, se define la probabilidad

de B supuesto A por:

Entonces:

Entonces, según la Fórmula 35 y Fórmula 36

como 𝑃(𝐴∩𝐵) = 𝑃(𝐴∩𝐵), entonces,

SUCESOS INDEPENDIENTES

Dos sucesos, A y B, son estadísticamente independientes ( o de forma abreviada, independientes), sí, y sólo si, se
verifica.

Teorema 1. Si dos sucesos A y B, verifican la Fórmula 38,

entonces

En efecto,

53
Según la Fórmula 34 y Fórmula 38, Teorema 2. Si dos sucesos
A y B, verifican las relaciones Fórmula 39 y Fórmula 40,
entonces necesariamente verifican la relación Fórmula 38. En
efecto,

Según la Fórmula 33, Fórmula 35 y Fórmula 39

Según la Fórmula 34, Fórmula 36 y Fórmula 40. Según el

Teorema 1 y el Teorema 2, como corolario, se puede decir que
dos sucesos A y B son independientes sí, y solo sí,
𝑃(𝐴/𝐵) = 𝑃(𝐴)o si 𝑃(𝐵/𝐴) = 𝑃(𝐵).

TABLAS DE CONTINGENCIA

ASOCIACIÓN DE TABLAS DE CONTINGENCIA

Es el referente al análisis de asociación entre variables categóricas. Trata de detectar la existencia de asociación o
dependencia entre las categorías de las variables categóricas de la tabla de contingencia a través del análisis de las
frecuencias absolutas de las celdas. El otro análisis de asociación es el lineal del coeficiente de correlación de Pearson
y la ecuación de la línea recta.
El tratamiento estadístico de las tablas de doble entrada se divide en dos partes, descriptivo y analítico
(análisis). El primero comprende la creación de la tabla, hacer el recuento para expresar las frecuencias absolutas y el
cálculo de los porcentajes o proporciones para expresar las frecuencias relativas.

54
CÁLCULO DE LA ASOCIACIÓN Y CONTRASTE DE HIPÓTESIS

La asociación entre variables categóricas pretende ver si existe relación entre la distribución de las frecuencias
absolutas obtenidas por el cruce de las categorías de la variable de filas o considerada dependiente y la variable de
columnas o considerada independiente. Esto es, si el hecho de pertenecer a una de las categorías de la variable
dependiente, está relacionado con el hecho de pertenecer a una de las categorías de la variable independiente,
determinando si la relación tiene alguna significación estadística, lo que no es garantía de que esa relación se
encuentre en la realidad (porque la relación estadística sea falsa o engañosa). Y si la asociación se da en la realidad, no
quiere decir que sea única, ya que puede haber otras variables que también presenten asociación con la variable
considerada independiente, con la considerada dependiente, y que haya otras variables intervinientes.
Cuando se realiza un análisis de estas características, se está aplicando el criterio “ceteris paribus” que
significa considerando todos lo demás constante, lo que difícilmente se puede asumir como cierto, ya que la
complejidad de la realidad está influida por infinitas variables, aunque no todas tienen el mismo peso o importancia.

55
Con este escenario, el objetivo es sencillo, aplicar el estadístico y observar y utilizar la información que nos facilita,
teniendo en cuenta la complejidad de la realidad humana que es la que normalmente se analiza y describe en
sociología.
Para ver la existencia de asociación estadística entre dos variables categóricas,a partir de la Hipótesis
científica o la Hipótesis de la investigación, se proponen las hipótesis estadísticas: La Hipótesis alternativa y la
Hipótesis nula, simbólicamente representadas por 𝐻1y 𝐻0, respectivamente.
La 𝐻1propone que existe relación de dependencia o asociación entre las variables, y 𝐻0que las variables son
independientes, de tal manera que las dos hipótesis son mutuamente excluyentes. El proceso consiste en proponer la
𝐻1 y contratar la 𝐻0, su aceptación supone rechazar la 𝐻1, y su rechazo la aceptación de 𝐻1.

PROTOCOLO DE CONTRASTE DE HIPÓTESIS

El protocolo de contraste de hipótesis propuesto es:

1. En la 𝐻1 se propone la relación de asociación o dependencia entre las variables.
2. Expresión del nivel de medida de las variables.
3. Expresión de la relación entre las variables.
4. En la 𝐻0se propone la negación de la 𝐻1 que es la no asociación o independencia entre las variables
5. La decisión del estadístico para realizar el contraste de la 𝐻0 está determinada por el nivel de medida de las
variables y la estructura de la matriz de datos.
6. Criterio para aceptar o rechazar la 𝐻0. Normalmente 𝑁𝑠 = 0, 05 𝑜 𝑁𝑠 = 0, 01.

El contraste de hipótesis es un proceso lógico-matemático-estadístico. Comienza desde un planteamiento en formato

teórico-texto, después se procede desde el nivel estadístico-matemático para resolver la aceptación o rechazo de la
𝐻0 . Al ser mutuamente excluyentes, la aceptación de 𝐻0 supone el rechazo de 𝐻1y el rechazo de 𝐻0 supone la
aceptación de 𝐻1. El proceso se completa con el retorno al formato teórico-texto pero aceptando o rechazando la 𝐻1
. En el caso de la Tabla 90, el protocolo es:

1. 𝐻1: “existe asoaición, relación o dependenicia entre el sexo de los individuos y el estado civil de los mismos”
o de forma abreviada “El sexo influye en ele stado civil de los individuos”. Este formato puede confundir con
una relación de causa-efecto. Se plantea que los sucesos son dependientes.
2. Sexo: variable categórica nominal. Estado civil: variable categórica nominal.
3. Variable considerada como independiente: sexo. Variable considera como dependiente: estado civil
4. 𝐻0: “No existe asociación o dependencia entre el sexo de los individuos y el estado civil e los mismos” o de
forma abreviada “El sexo no influye en el estado civil de los individuos”. Se plantea que los sucesos son
independientes.
5. Estadísticos: X^2, por ser las dos variables categóricas:

56
6. Criterio de aceptación o rechazo de 𝐻0, 𝑁𝑠 = 0, 05.

PROCESO DE CONTRASTE DE HIPÓTESIS

Según el Epígrafe de las probabilidades, la probabilidad de que ocurra un suceso elemental es igual a los hechos
favorables dividido por los hechos posibles. Simbólicamente:

Entonces la probabilidad de ser varón o la probabilidad de

estar soltero/a, sería:

ℎ𝑒𝑐ℎ𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 ℎ𝑓 49 ℎ𝑓 77
𝑃(𝑆 ) = 𝐻𝑒𝑐ℎ𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
= ℎ𝑝
= 99
= 0, 4950, 𝑃(𝑆 ) = ℎ𝑝
= 99
= 0, 7778. Que multiplicado por 100
𝑣 𝑠

quedaría expresado en porcentaje del total de columnas o del total de fila. Pero el interés no es la probabilidad de
ocurrencia de los sucesos elementales, sino la probabilidad de la intersección de los sucesos elementales. Estos es, la
probabilidad de ocurrencia de la intersección de los sucesos elementales de ser varón y soltero: 𝑃(𝑆 ∩𝑆 ). Al contrastar
𝑉 𝑠

la 𝐻0, sumimos la independencia de las variables y la independencia de los sucesos elementales. Si dos sucesos
elementales son independientes pero mutuamente no excluyentes, la probabilidad de la intersección de dos sucesos es
igual al producto de sus probabilidades:

Entonces, si la probabilidad de ser varón y estar

soltero es de 0,3850, asumiendo que los sucesos son
independientes, mutuamente no excluyentes,
entonces el número de varones solteros se espera que sea de 38,1.

Entonces los Hechos Favorables, que son el número de varones

solteros esperados, son 38,1 y se llama frecuencia esperada (fe),
y son los casos que debería haber si los sucesos fuesen
independientes mutuamente no excluyentes (la repetición de
esta característica es debido a que es la clave del proceso). Este
valor se llama valor teórico o modelo teórico porque es
resultado de un modelo probabilístico. Los 36 varones solteros
es la frecuencia observada (𝑓𝑜)o el modelo empírico, aquello
que ha ocurrido en la realidad, lo que se ha observado, y los
38,1, los que deberían haber sido si los sucesos fuesen
independientes mutuamente no excluyentes. Entonces lo que se ha conseguido es un modelo probabilístico de
referencia con el que comparar el modelo empírico. La diferencia entre el valor empírico y el teórico se llama residuo.
𝑅𝑒𝑠 = 𝑓𝑜 − 𝑓𝑒.

57
Las frecuencias observadas son el modelo empírico del cruce de las variables sexo y estado civil, del que
desconocemos si su relación es de dependenica o de independencia. Las frecuencias esperadas son el modelo
probabilístico teórico, del que sabemos que son las frecuencias que deberían ser si los sucesos fueran independientes,
mutuamente no excluyentes. La comparación del modelo empírico con el teórico es mediante resta simple de las
frecuencias observadas menos las frecuencias esperadas de cada celda y que se han de llamar residuos.
Si todos los residuos fuesen cero, entonces es que los dos modelos son iguales y lo que era desconocido se hace
conocido las frecuencias observadas son como las esperada, independientes. Como este es el planteamiento de la 𝐻0,
entonces nos llevaría aceptarla. Significaría que no tiene ninguna relación el género en cuanto sexo con el estado civil
de las personas. Significa que hay solteros, casados, y en pareja tanto entre los varones como entre las mujeres.
Pero si los residuos son distintos a cero, muy distintos, con una diferencia enorme, entonces el modelo
empírico es distinto al teórico y si no son independientes, entonces son dependientes. Este proceso nos lleva a
rechazar la 𝐻0 y por lo tanto a aceptar la 𝐻1. La conclusión sería que el estado ciivl de las personas está relacionado
con el sexo.
Peri entre residuos igual a cero y los residuos enormes, hay un escala dentro de la cual hay que determinar
hasta qué valor se acepta la 𝐻0, o lo que es lo mismo a partir de qué valor se consideran grandes los residuos para
rechazar la 𝐻0 y aceptar la 𝐻1. También se presenta el inconveniente de que una cosa es grande o pequeña
dependiendo de con qué se compare. Incluso puede llegar a ser significativo si las cantidades son mayores. Hay que
resolver dos problemas, estandarizar los valores para toda la tabla y establecer un criterio para determinar cuándo los
residuos se pueden considerar grandes o pequeños o de forma más precisa cuándo son significativamente grandes o
2
pequeños. La estandarización de los residuos se consigue aplicando el estadístico χ de `Pearson y el criterio para
determinar cuándo son grandes o pequeños es aplicar los conceptos de probabilidad de la distribución de la variable
2
estandarizada χ . La estandarización de los residuos para la tabla es :

Que el sumatorio para todas las celdas de la diferencia entre las frecuencias
observadas menos las frecuencias esperadas, elevado al cuadrado, dividido
(relativizado o estandarizado) por las frecuencias esperadas. Y es el estadístico
2
chi cuadrado estimado. Para saber si el valor de χ 𝑒es grande o no, se
2
comprueba con la distribución que sigue el valor de este estadístico, que es la distribución de χ . con n grados de
2
libertad. Los grados de libertad de la distribución χ para tablas de contingencias se calculan,

58
2
En el caso de la Tabla 90 es 𝑔𝑙 = (𝑓 − 1)·(𝑐 − 1) = (3 − 1)·(2 − 1) = 2·1 = 2 y la distribución de χ
que se utiliza es la Tabla 93

2
Si el valor de los residuos estandarizados, o sea χ 𝑒
(Chi-cuadrado-estimado) fuese cero, entonces las frecuencias
2
observadas coincidieron con la esperadas, y el valor de χ 𝑒estaría en la zona de aceptación y se aceptaría 𝐻0.
2 2
Suponiendo que χ 𝑒, no es cero, que está en la zona de χ =2, entonces no siendo cero, se asume que las diferencias
entre las frecuencias observadas y las esperadas son tan pequeñas que son debidas al azar, sigue en la zona de
aceptación, y por lo tanto no se puede asumir rechazar la 𝐻0, no siendo cero la diferencia, no es significativamente
distinta a cero. Este proceso se podría repetir hasta que la pregunta fuese ¿ Cuándo las diferencias son lo
2
suficientemente grandes como para asumir que podemos rechazar la 𝐻0y aceptar la 𝐻1? Cuando χ 𝑒, sea igual o
2
mayor al valor de χ 𝑐 (Chi-cuadrado-crítico), entonces estaría en la zona de rechazo y se rechazaría 𝐻0, aceptando
𝐻1
2
El χ 𝑒 (Chi-cuadrado-estimado) de la Tabla 90 es 1,39, para saber si se acepta o rechaza 𝐻0, tenemos que comparar el
2 2
χ 𝑒 (Chi-cuadrado-estimado) con el χ 𝑐 (Chi-cuadrado-crítico).

59
Ahora se puede establecer el siguiente esquema para determinar la aceptación o rechazo de 𝐻0.

2 2
En este caso, se acepta 𝐻0 porque χ 𝑒< χ 𝑐, que equivale a decir que 𝑁𝑐𝑒 < 𝑁𝑐𝑐 y equivalente también a que
𝑁𝑠𝑒 > 𝑁𝑠𝑐. Por lo tanto se puede concluir que al Ns de 0,05 no existe asociación entre las variables sexo y estado
civil, o que son independiente. Como no hay asociación entre dos variables, no tiene sentido mirar la fuerza, la
dirección y a que celdas es debida la asociación. Si es de interés la estadística descriptiva univariable o la lectura de las
frecuencias relativas

ASOCIACIÓN LINEAL (CORRELACIÓN Y COVARIANZA)

ASOCIACIÓN LINEAL (COVARIANZA Y CORRELACIÓN)

La asociación lineal se aplica cuando las variables son numéricas y se cruzan de dos en dos. Se puede considerar en el
grupo de la Estadística Descriptiva Bivariable para variables numéricas, aunque incluye contraste de hipótesis y es la
antesala del análisis de regresión lineal y otras técnicas multivariables.
Al ser las variables numéricas, primero procede ver su relación a través de un gráfico de dispersión o X-Y.
Después se calcula la covarianza (𝑆𝑥𝑦) de las variables y su estandarización es el coeficiente de correlación de
Pearson ( r o 𝑟𝑥𝑦). La interpretación del coeficiente r implica un contraste de hipótesis por lo que se puede considerar
análisis además de descripción. La interpretación de r implica un contraste de hipótesis por lo que se puede considerar
análisis además de descripción. La interpretación de r se debe hacer acompañada del gráfico de dispersión puesto que
la relación debe ser considerada lineal. Indica o mide la asociación o dispersión lineal de los puntos respecto de una
línea imaginaria (la recta de regresión lineal o la recta ajustada por mínimos cuadrados ordinarios (MCO)).
La asociación en este caso es lineal en el sentido que se acaba de mencionar, mientras que la asociación de
de Chi-cuadrado es una asociación de frecuencias o frecuentista, cómo están distribuidos los casos entre las celdas, o
sea, las frecuencias absolutas. Entonces el proceso será:
● Primero el gráfico de dispersión o X-Y.
● Segundo se calcula la covarianza y

60
● Tercero el cálculo del coeficiente r que es la estandarización de la covarianza

GRÁFICO DE DISPERSIÓN DE DOS EJES

Para relacionar dos variables numéricas se puede empezar por obtener el gráfico de dispersión o gráfico X-Y, para
representar las dos variables en un sistema de coordenadas cartesianas de dos dimensiones. La covarianza y la
correlación, al no implicar causalidad, no es necesario definir la relación de dependencia e independencia entre las
variables. No obstante, una alta asociación entre las variables puede ser indicativo de la existencia de relación entre
las variables, mientras que la falta de asociación puede suponer la no existencia de relació[Link] se contempla la
posibilidad del azar, tanto en un caso como en el otro y en el segundo supuesto, puede ocurrir que la influencia de
terceras variables oculte la correlación de otras dos. El análisis de asociación se debe realizar cuando la relación entre
las variables sea lineal o considerada lineal aunque sea dispersa, y no se puede realizar en cualquier otro caso. La
relación entre variables, aunque sea dispersa y no funcional, debe responder a la ecuación.

En base a lo anterior, no es necesario definir o proponer la variable

independiente y dependiente. Pero como este proceso suele ser
previo de otros procedimientos en los que sí se considera la
relación de dependencia o independencia entre las variables, para
la representación en el gráfico, es preciso considerar cuál es la variable dependiente y la independiente. En los gráficos
de dispersión, la variable considerada dependiente (y), se representa en el eje de ordenadas o vertical y la variable
considerada independiente (x), en el eje de abscisas u horizontal. A veces no es posible esta distinción y la colocación
se hará en función del interés de la representación del gráfico. Para ver la relación entre las variables estatura y peso
de la matriz de datos se representa a cada caso por su par de valores x-y, siendo el peso de la variable representada en
el eje Y, y la estatura la representada en el eje X, da lugar al Gráfico 19.

Cada punto puede representar a uno o varios casos. El

gráfico 20 muestra el código de los casos representados en
cada punto.

La representación gráfica de la asociación o dispersión de los casos respecto de una línea imaginaria (recta de
regresión por mínimos cuadrados ordinarios (MCO)) se muestra en el gráfico 21.

La covarianza es la medida de la dispersión de los

puntos a la línea de regresión y la correlación es la
misma medida, estandarizada.

61
CÁLCULO DE LA COVARIANZA

La forma de la relación entre dos variables numéricas o consideradas numéricas, se puede considerar entre tres
modelos que tiene relación de continuidad entre ellos. La relación puede ser considerada relación´con lineal directa
([Link]), relación lineal dispersa (RLDs) y relación lineal inversa (RLI).

Las características de estas relaciones es que en la RLDr, a valores bajos de x le corresponden valores bajos de y, a
valores medios de la x le corresponden valores medios de y, a valores altos de x le corresponden valores altos de y. La
relación directa significa que cuando la variable x crece la variable y también crece y viceversa, cuando la variable x
decrece también lo hace la y. En la RLI, a valores bajos de x le corresponden valores altos de y, a valores medios de x le
corresponden valores medios de y, a valores altos de x le corresponden valores bajos de y. La relación inversa significa
que cuando la variable x crece la variable y decrece y viceversa, cuando la variable x decrece, la y crece. En dos casos, a
valores medios de una variable le corresponden valores medios en la otra, esta característica es propia de la relación
lineal.
En las RLD a valores bajos en x le corresponden valores bajos, medios y altos en y, a valores medios en x les
corresponden valores bajos, medios y altos en y, y a valores altos en x le corresponden valores bajos, medios y altos en
y, al ser la relación dispersa, se puede asumir que es lineal.
Ahora se procede a calcular el valor numérico de esta relación y a interpretarlo. El estadístico base es la
varianza.

Pero la varianza también se puede representar como,

El sumatorio de la distancia del valor de x del caso i-ésimo respecto a la media por la distancia del mismo valor de x
otra vez a la media. Como el Gráfico 19 tiene dos variables, se puede aplicar considerando para el caso i-ésimo las
distancias de los valores en x e y respecto de sus correspondientes medias y la Fórmula 127 tomaría la forma,

Y recibe el nombre de covarianza. El numerador es el producto

cruzado de la distancia, para cada caso, de x respecto a su media por
el valor de y a la suya, dividido por el total de casos. Si se
representan las media de X e Y con vectores en el Gráfico 19, se
obtiene el 24.

De esta manera el gráfico representado en el

primer cuadrante del sistema de coordenadas
cartesianas, queda dividido a su vez en otros
cuatro cuadrantes: i,ii,iii y iv. Cada caso, a su vez,
según la fórmula 128, tiene una distancia a la
media de X y a la media de Y. En el cuadrante de
I todos los casos tienen la distancia a la media de
X y la de Y positiva. En el cuadrante II la
distancia a la media de X es negativa pero a la
media de Y es positiva. En el cuadrante III las dos

62
distancias son negativas, y en el cuadrante IV la distancia de X es positiva y la de Y negativa.

El cross-product del numerador es una abstracción más difícil de comprender que el número de la varianza, ya que en
la covarianza se multiplican unidades de medida diferentes entre sí. En este caso, la estandarización o tipificación,
requiere no sólo eliminar la unidad de medida, sino que los dos términos del producto pasen a la misma unidad de
medida una vez estandarizada. Esta operación se consigue tipificando según el criterio Z:

Para aplicarlo a la covarianza, se divide cada factor del numerador por su

desviación típica y se obtiene el denominado coeficiente de correlación
de Pearson:

Pearson lo llamó coeficiente de correlación 𝑟𝑥𝑦o simplemente r.

Representado:

Entonces la estandarización de la covarianza (𝑆𝑥𝑦), se llama coeficiente

de correlación r de Pearson y es igual a la covarianza dividido por el
producto de las desviaciones típicas de las variables. Los valores
extremos que puede tomar el coeficiente r se puede ver si se aplica al
Gráfico 23 a,b y c, que anteriormente tenían valores imprecisos. Si una relación lineal directa es una relación funcional
y por lo tanto y=a+bx. Siendo a=0 y b=1, entonces la función anterior queda que y=x. Entonces r

La correlación de una variable consigo

misma o la correlación de dos variables que
tiene una relación lineal funcional es igual
a la unidad y es valor máximo que puede
tomar r. Si dos variables tienen una relación lineal inversa funcional, y=a +(-b)x, de tal manera que a= máx(x+1) y b=-1,
entonces y=máx(x+1)+(-1)x entonces la covarianza de las dos variables es igual a la varianza de cualquiera de ellas
pero son el signo -, y 𝑆𝑥 = 𝑆𝑦, por lo que es:

La correlación de una variable con otra igual pero

inversa o la correlación de dos variables que tiene una
relación lineal funcional inversa es igual a -1 y es el
valor máximo negativo que puede tomar r. Si entre dos
variables hay una relación lineal dispersa con una
ecuación del tipo y=a+bx, de tal manera que a≈ 𝑌 y
𝑏 ≈ 0, entonces la covarianza está próxima a cero y r es también próxima a cero.

Al estandarizar la covarianza y transformarla en el coeficiente r, se pone límite a los valores que puede tomar. El
coeficiente de correlación , a su vez, se puede transformar en una variable del tipo t con distribución de densidad de
probabilidad conocida y sus valores se pueden interpretar en términos de probabilidad. La interpretación del valor r es,

63
Para saber si r tiene un valor de cero o significativamente cero, se puede
hacer una transformación de r en una distribución de t y hacer el contraste
de hipótesis. Si es significativamente distinta de cero, entonces puede ser
que tenga una asociación baja, media o alta, bien positiva (asociación lineal
directa) o negativa (asociación lineal inversa). la interpretación de una
asociación baja, media o alta, depende de la experiencia del investigador
con el estadístico, de la información “a mano” y del conocimiento de la
materia en estudio.
Igual que otros estadísticos (coeficiente de contingencia, V de Cramer,
lambda, etc) la interpretación de está sujeta también a las variables que
estamos correlacionando. Si la relación de las variables es funcional, la
correlación debe ser muy alta y pequeñas variaciones pueden indicar la
ocurrencia de algún evento ajeno al proceso. Pero en el caso de las variables
sociales, correlaciones moderadas, pueden ser indicatico de “algo pasa” en la relación entre dos variables como salrio y
sexo tengan una correlación significativa, aunque sea considerada baja, está indicando que entre el salario y sexo hay
alguna relación cuandi debería existir relación, salvo que haya otras variables intervinintes (categoría profesional,
estudios, etc). El contraste de igualdad a cero de r se hace con un protocolo de contraste de hipótesis:

1. Hipótesis alternativa 𝐻1: 𝑟≠0.

2. Hipótesis nula 𝐻0: 𝑟 = 0.
3. Estadístico: t.
4. Criterio de aceptación o rechazo de 𝐻0, Ns=0,05

La transformación de r en ti, es: Esta transformación convierte r en un valor que

tiene distribución t de Student y se puede calcular si el valor es
significativamente distinto a cero:

Para aplicar este contraste es necesario considerar que la población de la que se obtienen las muestras debe tener una
distribución normal, las muestras deben estar seleccionadas aleatoriamente y los casos de las muestras deben ser
independientes.

PROPIEDADES Y CARACTERÍSTICAS DE LA COVARIANZA Y EL COEFICIENTE R

La covarianza y el coeficiente r tienen las siguientes propiedades o características y tomas los siguientes valores:

Característica 1 Para aplicar el coeficiente de correlación r de Pearson,

las variables tienen que ser numéricas o consideradas
numéricas. Una variable ordinal se puede considerar
numérica, por lo que con una variable numérica y una
ordinal también se puede aplicar el coeficiente r, aunque
lo apropiado es el coeficiente de correlación Spearman.
Cuando se calcula la asociación entre variable numérica
y una binaria, también se puede aplicar el coeficiente de

64
correlación r, aunque lo apropiado es el biserial. Si las
dos variables son binarias se puede aplicar, pero el
coeficiente es el biserial puntual. Las variables binarias
tienen media, que es la proporción de 1’s y se pueden
calcular el resto de estadísticos. También se puede
considerar el uso de variables dicotómicas.
La interpretación de r en todos los casos es la misma.
Con variables binarias y dicotómicas, al tener rango
restringido imprimen poca inercia al sistema por lo que
la correlación tenderá a ser baja.

Característica 2 El coeficiente de correlación r se debe calcular cuando

las variables tienen una relación lineal o considerada
lineal, o por lo menos que su relación sea considerada
del tipo y=a+bx. La correlación entre dos variables no
lineales puede ser alta, lo que indica poca dispersión,
pero la dispersión se distribuye de manera desigual a a
lo largo de la curva.

Característica 3 Por el proceso de cálculo de la covarianza y r, los valores

de las variables que tiene valores altos respecto de sus
medias (distribuciones con asimetría positiva) confieren
mucha inercia y tiende a dar coeficientes altos,
ocultando la verdadera asociación.

Característica 4 El coeficiente de correlación no se expresa en ninguna

unidad de medida, y no se ve afectado por
transformaciones lineales tales como sumar, restar,
multiplicar o dividir todos los valores de una variables
por una constante.

Característica 5 La correlación entre dos variables sin estandarizar es

igual que la correlación entre dos variables
estandarizadas. Sean dos variables 𝑧𝑥y 𝑧𝑦,
estandarizadas según el criterio Z.. La correlación entre

estas dos variables es Pero

como la desviación típica de una variables estandarizada

es la unidad el resultado es, La

correlación de dos variables estandarizadas es igual a la
covarianza de las dos variables estandarizadas. La
covarianza de dos variables estandarizadas es igual a la
correlación entre las variables sin estandarizar

65
Y concretamente, la correlación
de dos variables estandarizadas es igual que la
correlación de dos variables sin estandarizar,

simbólicamente

Característica 6 La covarianza de una variable consigo misma es igual a

la varianza de la variable. Si calculamos la covarianza de
una variable consigo mismo, la distancia de y respecto
de su media es la distancia de x respecto de su media.

El protocolo de contraste de hipótesis de igualdad a cero de los coeficientes de correlación es, constraste de hipótesis
de las variables pero por estatura.

1. Hipótesis alternativa 𝐻1 = 0, 57 ≠ 0
2. Hipótesis nula 𝐻0: 0, 57 = 0
3. Estadístico t.
4. Criterio de aceptación o rechazo de 𝐻0 :

𝑁𝑠 = 0, 05; 𝑔𝑙 = 𝑛 − 1 = 95 − 1 = 94; 𝑡𝑐 = 1, 9867. La transformación de r en t, es:

𝑟 0,57 0,57
𝑡𝑒 = 1
= 1
= 0,10
= 5, 7. El esquema de aceptación-rechazo de 𝐻0:
𝑛−1 95−1

Como la /𝑡𝑒/ es mayor que la /𝑡𝑐/

(5,7>1,9867), entonces se puede asumir
rechazar la 𝐻0 y aceptar la 𝐻1por lo tanto
existe una asociación lineal significativa
entre la variables peso y estatura para el
grupo de la matriz de datos, y por el valor de
r se puede decir que es una correlación media-alta. Es lo esperado, que un grupo de jóvenes, el peso y la
estatura se correlacionen. Etc pág 227.

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Con el análisis de Regresión Lineal Simple (ARLS) se puede considerar que se inicia la Estadística Multivariable o las
Técnicas de Análisis Multivariable. El ARLS es una técnica considerada de dependencia y exploratoria partiendo de la
ecuación de la línea recta, a la que se denomina modelo explicativo-predictivo.

Se denomina simple porque sólo tiene una variable independiente (x). La otra
opción es múltiple, cuando tiene más de una variable independiente

66
Se considera de dependencia por tener una variable considerada o propuesta como dependiente (y) y otra variable
considerada o propuesta como independiente (x). Es explicativo-predictivo, porque se trata de explicar y/o predecir la
variable dependiente considerada también como explicada o predicha a través de una variable independiente,
considerada también como explicativa o predictora. Supone admitir una relación causa-efecto entre las variables.

La constante a es la distancia al origen o punto por donde la recta corta al eje Y. La constante b es la pendiente de la
recta, que significa las unidades en que varía Y por cada unidad que varía X. El carácter predictivo del ARLS se puede
ver en el modelo y=a+bx, si atribuimos valores a x obtenemos valores en y, yy es predictiva en este sentido. El carácter
explicativo significa que por cada unidad que varía X, la variable Y varía b unidades y es explicativo en este sentido.

Para desarrollar la aplicación y cálculo del Análisis de regresión lineal simple, se va a utilizar un modelo que
tiene dos variables generadas. La X que se considera una variable no aleatoria y la Y obtenida en función generadora
de números aleatorios normalmente distribuidos, en una variable aleatoria que tiene una subdistribución de valores de
Y por cada valor de X. Para explicar o predecir los valores de la variable Y a partir de la variable X, una forma rápida
puede ser hacer la predicción de Y a partir de su propia media. Asumiendo que la relación entre las dos variables es
lineal, el modelo seleccionado para hacer la explicación-predicción sería el de la línea recta: 𝑦 = 𝑎 + 𝑏𝑥. Y como x
está multiplicada por cero la expresión es 𝑦 = 𝑌

El modelo se ha construido muy rápido. Ahora cada

vez que se quiera predecir el valor de y para cualquier
valor de la x, sólo hay que aplicar el modelo que
multiplica a x por cero y la anula, por lo que para
cualquier x, la variable Y toma siempre el mismo valor,
que es su propia media.
Este modelo se ajusta a los valores de Y en la zona
donde coinciden los vectores de las medias de las dos
variables, pero tiene el inconveniente de que el error
se incrementa a medida que se separa de los valores
medios.

La reducción del error se consigue rotando el vector de

la media de Y de tal manera que se ajuste lo mejor
posible a la nube de puntos, pasando lo más cerca de
todos ellos.

67
El gráfico que se obtiene es:

Esta recta se obtendrá por Mínimos Cuadrados

Ordinarios, y se llama recta de regresión lineal. Tiene
la característica de pasar lo más cerca posible de
todos los puntos tendiendo a hacer mínimo la
distancia elevada al cuadrado de todos los puntos
respecto a la recta. Los errores del gráfico 32 se han
reducido, aunque no se han hecho 0 debido a que la
relación de X e Y no es funcional

AJUSTE DE UNA RECTA A UNA NUBE DE PUNTOS POR MÍNIMOS CUADRADO ORDINARIOS

Entre dos variables supuestamente numéricas y asumiendo que la relación es lineal de la forma que se ha visto antes,
se puede aplicar para estudiar la relación entre las variables y construir un modelo explicativo-predictivo. Si la relación
entre las variables fuese marcadamente no lineal, se debería aplicar una ecuación o modelo apropiado. El
inconveniente es que se tiene que conocer o buscar el mencionado modelo. En base a este inconveniente y a que
cuando la relación no lineal se puede transformar en lineal por la aplicación de inversos, logaritmos, o cualquier otra
transformación que lo consiga, se procurará operar siempre con la relación lineal 𝑦' = 𝑎 + 𝑏𝑥

Del gráfico 35 Como en Ciencias Sociales la relación

entre X e Y no es funcional el resultado de la ecuación
no coincide con los valores empíricos de Y en todos los
casos, entonces a los valores obtenidos a través de la
ecuación se consideran valores teóricos y se
denominarán como y’. Para obtener la ecuación que
proporciona la recta que mejor se ajuste a la nube de
puntos, es necesario calcular los valores de las

68
constantes a y b y proporcionan la recta. Para obtener las constantes se utiliza el método considerado de mínimos
cuadrados ordinarios, que es el que tiende a hacer mínimo el sumatorio de la distancia de los valores empíricos
(observador o reales) (𝑦𝑖) a los teóricos (estimados) (𝑦'𝑖 ) elevada al cuadrado, es:

Como las dos igualdades son cero, entonces son iguales entre sí y por lo tanto eliminando el -2 la igualdad se
mantiene y se puede desarrollar.

Entonces la Fórmula 138 y Fórmula 139, se considera las ecuaciones normales

Si se divide la Fórmula 138 por n. Se observa que la recta

ajustada por mínimos cuadrados ordinarios siempre pasa
por el punto donde se cruzan las medias de las variables.
𝑌 = 𝑎 + 𝑏𝑋. Y el valor de a buscado es, 𝑎 = 𝑌 − 𝑏𝑋.
Si la fórmula anterior se multiplica por 𝑛𝑋 y se le resta la
fórmula 139,

69
Pero la constante b también es la relación entre la
covarianza (𝑆𝑥𝑦) y la varianza de la variable
independiente (𝑆𝑥) , es:

Sustituyendo en la Fórmula 143

Si se multiplican todos los términos por n

Entonces se demuestra que la Fórmula 143 es igual a la Fórmula 142

70
Entonces para el cálculo de la constante b podemos utilizar la Fórmula 142 o la Fórmula 143

Y como está dividido por n.

Según el caso considerado, el cuadrado de la Tabla 190 muestra los valores de los estadísticos necesarios
para calcular las constantes a y b de la recta de regresión.

𝑆𝑥𝑦 28,83
𝑏= 2 = 29,06
= 0, 99.
𝑆 𝑥

𝑎 = 𝑌 − 𝑏𝑋 = 14, 82 − 0, 99·9, 84 = 5, 08. La

ecuación buscada es, 𝑦' = 5, 08 + 0, 99·𝑥
Esta recta es la que hace el mínimo el sumatorio de la
distancia de todos los puntos a la recta elevados al cuadrado y
además es única y para cualquier x podemos saber su y’. Sea
un punto que tiene el par de coordenadas
(𝑥 = 18, 𝑦 = 25, 61), entonces la y’ será
22,90=5,08+0,99·18. Y gráficamente,

71
En este gráfico, el error total es igual a la diferencia y-𝑌 que es igual a 25,61-14,81=10,80. Al ajustar la recta de
regresión, el error total llamado variación total se descompone más el error no reducido. El error reducido. El error
reducido es y’-𝑌, =2,71 que es 22,90-14,81=8,09, y el error no reducido es y-y’, que es 25,61-22,90. Entonces el error
total es igual al error reducido más el error no reducido, al hacer la regresión de y sobre x, simbólicamente,

Si se generaliza a todos los casos y se aplica al concepto de descomposición

de la varianza, entonces la suma de cuadrados es igual a la suma de
cuadrados intragrupos más la suma de cuadrados entregrupos,
simbólicamente

Por último sería igual a

33.150,23=32041,09+1.109,14.

El error reducido o error explicado, se puede

representar gráficamente por la zona sombreada:

72
CALIDAD DEL AJUSTE

La calidad del ajuste de la recta a los puntos se mide por la distancia de estos a la recta. El estadístico que lo mide es
2
𝑟 o coeficiente de determinación, que es el coeficiente de correlación de Pearson elevado al cuadrado y mide la
proporción de la variación explicada o el error reducido sobre el error total o variación total al hacer la regresión de la
variable Y sobre la variable X, representada en sombreado el gráfico anterior.

Entonces, el error reducido o variación explicada al hacer

la regresión de la variable Y sobre la variable X es 0,96 o
del 96,0%

REGRESIÓN PARA LA APLICACIÓN DE ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Los requisitos para la aplicación del análisis de regresión lineal simple son:

1. El número de casos con el que es recomendable operar. Existen dos puntos de vista. El geométrico y
sociológico. En el primero se puede calcular una recta de regresión con dos puntos; dos casos o dos unidades
de observación permiten definir una recta en el plano. Sociológicamente se pretende que los resultados sean
representativos y se puedan inferir a la población. Aunque en los estudios sociológicos las muestras tienen
tamaños grandes y permiten garantizar este requisito, se pueden realizar con muestras menores, asumiendo
el riesgo que comporta y dependiendo del tema investigado.
2. Las variables deben ser numéricas o supuestamente numéricas. En el caso de la variable U considerada
dependiente debe ser numérica supuestamente continua. La variable independiente X numérica y no
necesariamente continua. Esta característica permite que la variable X pueda escalar, ordinal o dicotómica.
Estas últimas cumplen requisitos para ser consideradas numéricas.
Las variables de nivel de medida ordinal, cumplen requisitos de ser no aleatorias, son discretas y aunque no tienen
distancia entre sus valores, si tiene orden se pueden considerar en el ARL.
3. La variable dependiente Y debe ser aleatoria.
4. La variable independiente X debe ser no aleatoria.
5. Los dos puntos anteriores suponen que por cada valor de X debe haber una subdistribución de valores en Y
6. Cada una de estas subdistribuciones debe ser normal, supuestamente normal o marcadamente normal.
7. Las subdistribuciones deben tener varianzas homogéneas (HOMOCEDASTICIDAD).
8. Las predicciones de Y a partir de X deben ser en el rango conocido de X. Se conoce el comportamiento de X e
Y en el rango de éstas, pero fuera de ese rango se desconoce si la relación sigue siendo lineal.
9. La diferencia y-y’ (valor empírico menos el valor teórico), es el residuo o error. El residuo es una variable. Pues
bien, esta nueva variable debe tener distribución normal de media cero y desviación típica S de los residuos o
error típico de la estimación. Simbólicamente 𝑁(0, 𝑆)

El cumplimiento de todos los requisitos puede hacer parecer que la aplicación del análisis de regresión sea una tarea
casi imposible. Entonces es necesario conocer no sólo si se cumplen los requisitos, sino en qué medida se incumple o
se violan, porque a veces ciertas violaciones pueden ser asumidas y no impedir su aplicación.

73
Para ver la violación de los requisitos se utilizan el gráfico de los residuos. En un gráfico en el que la variable residuos
se presenta en el eje de la variable dependiente Y, y en el eje de la variable independiente X se presenta la variable
pronosticada Y’. La unidad de medida utilizada es unidades de desviación típica o unidades Z. El criterio de tipificación
o estandarización es Z. Esta unidad de media permite ver variaciones significativas.

En el ejemplo expuesto se había generado experimentalmente para cumplir todos los requisitos, por lo que el
Gráfico 38 de los residuos es un modelo ideal con el que se cumplen todos los requisitos. Los puntos aparecen
distribuidos alrededor del valor de la media z=0

El Gráfico 39 muestra la normalidad de la

subdistribución de los residuos para
𝑋 = 9(𝑧𝑦 =− 0, 1556), como ejemplos de los
otros 18 gráficos de los restantes valores de X.

Y el gráfico 40 muestra la normalidad de la

distribución de la variable de los residuos.

74
VIOLACIÓN DE REQUISITOS EN ELE ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

La violación de algunos requsitos deben presentra las formas que se muestran en el gráfico 41

75
PREDICCIÓN POR INTERVALO

Si el modelo es aceptado o aceptable, porque no hay violación de requisitos o estas se pueden asumir, se puede
estimar o predecir un valor de y por un intervalo. En la Fórmula 137, y’ es un valor teórico y considerandola media de la
subdistribución. La y es el valor empírico. La distancia o comportamiento de los valores empíricos es la variable residuo
o error y cómo se distribuye normalmente con media igual a cero y desviación típica conocida 𝑁(0, 𝑆), se puede
calcular el intervalo de confianza para un determinado 𝑁𝑐 dentro del cual está el valor empírico buscado,
simbólicamente.

𝑦 = (𝑎 + 𝑏𝑥) ± 𝑒

76
Y como el error (los residuos) tienen una
distribución 𝑁(0, 𝑆), se puede definir un
intervalo de confianza para un determinado 𝑁𝑐,
dentro del cual estará comprendido el valor de
e.

Estando el valor de z definido por el 𝑁𝑐. Entonces, para un 𝑁𝑐=0,9544, z=2,00,, el valor de y estimado o predicho,
estará en el intervalo . En el ejemplo de Tabla 190, el intervalo
dentro del cual estará un valor estimado de y, para x=19 y Nc=0,9544 (z=2= o el intervalo dentro del cual estarán el
95,44% de los casos, está definido por (𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 = 1, 00).

Para un valor de x=19, en el intervalo de confianza de y=21,87

÷ 25, 87 estarán el 95,44% de los casos.

MIRAR EJEMPLO DEL LIBRO DE LA PÁG 246-249

77
TEMA 6. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

MUESTREO. PROBABILÍSTICO Y NO PROBABILÍSTICO

La teoría y la técnica del diseño de muestras, igual que la estadística, se puede considerar que es un descubrimiento y
no un invento, la actividad de todos los seres vivos implican operaciones de muestreo. Los ejemplos de referencia
serán con los humanos y porque se pueden hacer autocomprobaciones empíricas.

Muestreo: es “un método para recoger información y hacer las inferencias sobre una población más grande o universos,
a partir del análisis de solo una parte, la muestra”. Y muestra “una parte pequeña que tiene la intención de mostrar lo
que es el todo”. Procedimientos científicos de muestreo son el análisis de sangre para ver cúal es el estado de salud
general, que extraen una muestra Todos los ejemplos que podamos pensar son hechos homogéneos.

En sociología interesa analizar los aspectos sociales, políticos, económicos, demográficos, etc. de las
poblaciones de personas y la característica principal es la heterogeneidad. Esta característica hace que una persona no
sea reflejo (representativa) de toda una población. Para poder hablar (inferir) cosas de una población, necesitamos un
grupo (muestra) que sea representativa de toda la población. Para que una muestra sea representativa de una
población tenemos que aplicar la teoría y las técnicas de muestreo.
Para conseguir que una muestra sea representativa de una población hay que aplicar técnicas de muestreo y
técnicas de cálculo de tamaño de la muestra. Con las técnicas de cálculo de tamaño de la muestra. Con las técnicas de
cálculo de tamaño de muestra sabemos a cuántas personas hay que seleccionar y con las técnicas de muestreo, a
cuáles y cómo seleccionarlas o buscarlas.

La teorías y técnicas de muestreo se aplican porque no se dispone de los recursos económicos y materiales suficientes
para trabajar con toda la población o censo. Se producen menos errores porque el trabajo se controla mejor y se
emplea a personal más especializado cuando se trabaja con un número pequeño de observaciones (muestra) que
cuando se trabaja con un número grande (población). En realidad la muestra puede producir datos más exactos que
trabajar con la población o el censo.

Las técnicas de muestreo pueden ser probabilísticas y no probabilísticas. En las primeras, la probabilidad de selección
de una de las múltiples muestras que pueden ser extraídas de la población puede ser distinta y entonces debe ser
conocida esta probabilidad o consideramos que es igual para todas las muestras.
Por comodidad para los procesos de cálculo se asume que igual para todas las muestras. De la misma manera, la
probabilidad de selección de individuos que componen cada muestra puede ser distinta y entonces debe ser conocida
esta probabilidad o consideramos que esta probabilidad es igual para todos los individuos. En las no probabilísticas
esta probabilidad es desconocida.
Esta característica hace que con las primeras técnicas de muestreo obtengamos muestras representativas,
numéricas hablando, y las segundas no producen muestras representativas o su representatividad es estructural, y la
información que facilitan se asume que puede ser generalizable. Las primeras técnicas de Investigación del Paradigma
Técnico Cuantitativo y las segundas en las Técnicas de Investigación del Paradigma Técnico Cualitativo

78
GLOSARIO

1. CENSO: relación completa de los elementos de una población

2. ELEMENTO, OBJETO O UNIDAD DE OBSERVACIÓN: Cada una de las unidades de la población sobre las que
interesa obtener información.
3. ERROR EXACTO: La diferencia entre el parámetro y el estimado o estadístico. Por ejemplo, la diferencia entre
la media de la población y la media de la muestra no es lo que se entiende como error exacto, pero
normalmente no es conocido porque los parámetros de la población (media de la población en este caso) son
desconocidos.
4. ERROR DE MUESTREO O MUESTRAL: Es el error obtenido a partir de la muestra obtenida por los
procedimientos de técnicas de muestreo probabilísticas y permite definir el intervalo de confianza dentro del
cual estará el parámetro desconocido de la población. El error muestral o error absoluto es el error típico
multiplicado por el valor de Z que define un determinante Nc. La muestra permite obtener el error típico y a
partir de este obtener el error absoluto o error muestral.
5. ERROR NO MUESTRAL: Es el que se produce en toda la investigación como consecuencia de definiciones
conceptuales incorrectas, de fallos en los instrumentos de media, fallos de los entrevistadores, fallos de los
entrevistados, fallos en el desarrollo del trabajo de campo.
6. ESTADÍSTICO: Función aplicada sobre una característica medida en una muestra. Ejemplo: varianza, media,
etc.
7. ESTIMADOR: Es el valor muestral utilizado para inferir un valor poblacional. Un estimado insesgado es un
estimado cuya esperanza matemática es el parámetro poblacional que estima (la media es una esperanza
matemática). Se dice que un estimador es consistente si al sustituir el tamaño de la muestra por el del total
de la población la estimación coincide con el parámetro poblacional.
8. INFERENCIA ESTADÍSTICA: Proceso de estimación de los parámetros de una población a partir de los
estadísticos obtenidos de una muestra de esa población.
9. INTERVALO DE CONFIANZA: Intervalo con una determinada población (Nc) de contener un parámetro.
Normalmente la media o la proporción. Se calcula a partir de los estadísticos y el error muestral.
10. LEY DE LOS GRANDES NÚMEROS: Si se aumenta n hasta llegar a ser igual que N, entonces la muestra se
convierte en la población y por lo tanto los estadísticos de la muestra son los parámetros de la población. El
error exacto tenderá a ser cierto.
11. MARCO MUESTRAL: Listado o delimitación que identifica a los elementos de la población objetivo desde la
que se va a extraer la muestra.
12. TÉCNICA DE MUESTREO: Procedimiento utilizado para seleccionar las unidades muestrales y que se pueden
considerar representativas de la población.
13. MUESTRA: Subconjunto de elementos de la población elegidos para estudiar y así tratar de inferir
características de la población. Tienen la misma delimitación geográfica que la población
14. MUESTREO: Conjunto de operaciones encaminadas a determinar una muestra, su tamaño y demás
características necesarias para identificar a los elementos que la forman.

79
15. NIVEL DE CONFIANZA: Probabilidad de que un parámetro esté dentro del intervalo de confianza o si
obtenemos 100 muestras, es la población o porcentaje de muestras que contendrían el parámetro de la
población.
16. PARÁMETRO: Función aplicada sobre una característica medida en una población. Ejemplos: media, varianza,
etc.
17. POBLACIÓN: Conjunto formado por la totalidad de elementos con arreigo a unas características concretas y
con una delimitación geográfica. La población puede ser unidimensional si sólo consideramos una variable.
Por ejemplo el peso. Es pluridimensional si se consideran muchas variables. En sociología las poblaciones se
consideran pluridimensionales porque se estudian muchas variables.
18. SESGO: Error específico de la muestra por falta de representatividad.
19. TEOREMA DEL LÍMITE CENTRAL: Si el tamaño de cada muestra es lo suficientemente grande (a partir de 30)
y si se extraen muchas muestras (más de 30) aleatoriamente, este teorema nos dice que la distribución de las
medias muestrales tiene una distribución normal con media igual a la media de la población y con una
varianza igual a la varianza de la población dividida por el tamaño de la muestra.
20. UNIDAD MUESTRAL: Conjunto de elementos de la población que contiene varias unidades u objetos de
observaciones de la población y es el conglomerado en el Muestreo por Conglomerados.

El concepto de generalizable en el paradigma técnico cualitativo está basado sobre la idea de la representatividad
social, que va más allá de los límites de la representatividad estadística. La finalidad es observar las relaciones entre
variables, en vez de evaluar el número de personal que poseen una característica. Pero la representatividad es un
concepto amplio y complejo. En el Paradigma Técnico Cuantitativo se pretende la representatividad estadística y
numérica. En el paradigma Técnico Cualitativo “Se pretende, a través de la elaboración de ejes o tipologías discursivas,
la representación socioestructural de los sentidos circulantes en una determinado universo y con relación al tema a
investigar”.
Hay comportamientos adquiridos a través del proceso filogenético como [Link] se trata de
instintos y emociones el comportamiento es homogéneo entre todos los seres vivos en general y del ser humano en
particular, considerados normales.
Para hablar de representatividad es necesario saber qué es lo que se quiere representar para saber cómo hay
que estudiarlo, aunque no sea una tarea fácil. El comportamiento humano es una amalgama de instintos, emociones y
comportamiento social y no es fácil descomponerlos y separarlos para su estudio y análisis.

CONCEPTOS PREVIOS

PARÁMETROS Y ESTADÍSTICOS: La población y la muestra están representadas por valores. En la primera se

denominan parámetros y en la segunda estadísticos.

A través de una muestra representativa se trata

de inferir desde los estadísticos conocidos de
una muestra los parámetros desconocidos de
una población.

RELACIONES ENTRE LA POBLACIÓN Y LA MUESTRA: Entre la población y la muestra existe una relación cualitativa y
otra cuantitativa. La primera significa que la muestra debe ser heterogénea como la población, esto es, debe tener las
mismas características que la población. Si la población tiene varones y mujeres, la muestra debe tener varones y

80
mujeres. Si la primera tiene individuos de todas las edades la muestra también, si la población tienen individuos de
diferentes niveles de instrucción, la segunda también y así sucesivamente de tal manera que la muestra se considere
que es heterogénea como la población.

La relación cuantitativa se concreta en dos ratios, el coeficiente ele elevación (ce) y la fracción de muestreo
𝑁 𝑛 𝑛
(fm): 𝑐𝑒 = 𝑛 . La fórmula 82: 𝑓𝑚 = 𝑁 o 𝑓𝑚 = 𝑁 ·100. El 𝑐𝑒 es el número de veces que la muestra está
contenida en la población o el valor por que que hay que multiplicar 𝑛 para obtener 𝑁. La 𝑓𝑚 es la proporción de
𝑛 𝑠𝑜𝑏𝑟𝑒 𝑁, y es el inverso de 𝑐𝑒.
En el muestreo aleatorio simple, la 𝑓𝑚 también se puede considerar como la probabilidad de que un
individuo de la población sea seleccionado. La 𝑛 son hechos favorables y la 𝑁 los hechos posibles:

En las condiciones de muestreo aleatorio simple, la probabilidad de

obtener una de esas muestras estará dado por la inversa de las
combinaciones sin repetición de 𝑁 elementos tomados de 𝑛 𝑒𝑛 𝑛, que
es uno (una muestra) dividido por el total de las muestras que se pueden
extraer. Entonces se considera que la probabilidad de obtener una de las
muestras es:

LEY DE LOS GRANDES NÚMEROS: La ley de los grandes números establece que cuando 𝑛 tiende a 𝑁, así mismo ocurre
con los estadísticos de la muestra que tienden a los parámetros de la población. Cuando 𝑛 se hace 𝑁 entonces los
estadísticos son los parámetros.
Entonces cuando 𝑛 = 𝑁, la media de la muestra es la media de la población y no existe error. Porque la
media de la población menos la media de la población es igual a cero, al ser las dos medias las mismas.
Por lo tanto, el error o diferencia entre la medida de la muestra y la media de la población se va haciendo menor a
medida que 𝑛 crece. Por lo que a mayor 𝑛 menor error.

Entonces con la fórmula para el cálculo del tamaño de 𝑛 se obtiene el tamaño de muestra adecuado al error con el que
se quiere operar o viceversa, se puede obtener el error según el tamaños de 𝑛.

TEOREMA DEL LÍMITE CENTRAl: El teorema del límite central establece que si extraemos 𝑚 muestras de una
población de tamaño 𝑛, siendo 𝑛 en todos los casos mayor que 30, si calculamos las medias muestrales de las 𝑚
( )
muestras, obtenemos 𝑚 medias muestrales, Si creamos una variables 𝑋𝑋 con las 𝑚 medias muestrales, esta
variables tiene un distribución normal 𝑁(µ,𝑆 ).
𝑋

Entonces, la media de las medias muestrales es igual a la media de la población y la varianza es igual a la varianza de
la población partido por la 𝑚 de las medias muestrales.

81
La media de las medias muestrales es igual a la
media de la población, simbólicamente: 𝑋𝑋 = µ. La
varianza de las media muestrales es igual a la
varianza de la población partido por la 𝑚 de las
medias muestrales, simbólicamente.

Y por lo tanto

Y se denomina error
típico o desviación
típica de las medias
muestrales. Como
normalmente la varianza de la población es
desconocida y no existe una distribución de medias
muestrales, entonces se acepta como error típico o
desviación típica de las medias muestrales. la raíz
cuadrada de la varianza de la variable dividido por la 𝑛 de la variable. Indica la dispersión de la media de la muestra
obtenida respecto de la media desconocida de la población y está relacionado inversamente con el tamaño de la
muestra. Cuanto mayor sea la muestra menor será el error y viceversa cuanto menor sea la muestra mayor será el error.

Si se considera la población infinita, entonces 𝑁 < 100. 000 y se aplica el corrector

por población infinita (𝑐𝑝𝑓).

La demostración intuitiva (no matemática) de que la

media de las medias es la media de la población se
deriva de que al obtener muestras de una distribución,
la media tiende a la media de la población, por tender
a haber más de lo que hay y menos de lo que menos
hay, asumiendo que la distribución es normal. La
varianza, al ser la dispersión de una variable que su
valores son las medias de las muestras obtenidas, se pierde dispersión al eliminar los valores de los casos que quedan
en la parte externa de las distribuciones de las muestras.

82
ERROR EXACTO: El error (𝑒𝑒) es la diferencia entre el parámetro de la población y el estadístico de la muestra,
simbólicamente en el caso de la media y de la proporción.

Podemos conocer el error por diferencia entre el

parámetro y el estadístico, pero como normalmente
no se conoce el parámetro, no se puede conocer el
error exacto cometido. Entonces la estimación del
parámetro desconocido se puede hacer por
estimación puntual o estimación por intervalo. La
estimación puntual es asignar al parámetro de la población el valor del estadístico de la muestra, simbólicamente.

ERROR MUESTRAL: Según se ha visto en el teorema del límite central, excepto por azar, los valores de los estadísticos
no coinciden con los valores de los parámetros, por lo que hacer asignaciones directas lleva a tener errores y además
no conocer la magnitud del error. Entonces, la estimación de parámetros se hace mediante la estimación de intervalos
a partir del estadístico de la muestra. La estimación del intervalo se hace a partir del error muestral.. El error muestral
es el error típico multiplicado por Z, estando ésta definida por el 𝑁𝑐 que define el intervalo de confianza. El error
típico, que es la desviación típica de las medias muestrales, según el Teorema del Límite Central, y según la Fórmula
87, para las medias es,

Y para proporciones,

La estimación por intervalo tampoco permite saber el valor exacto del parámetro desconocido pero define un intervalo
de confianza dentro del cual se encuentra y a un cierto nivel de confianza (𝑁𝑐) o lo que es lo mismo cual es la
probabilidad de que el parámetro se encuentre dentro de ese intervalo o que de 100 muestras cuántas contendrían en
su intervalo de confianza el parámetro desconocido

83
La estimación por intervalo, supone conocer los límites dentro de los cuales se encuentra el parámetro desconocido de
la población, pero siempre existirá la probabilidad de que el intervalo no contenga este parámetro. Las probabilidades
supone asumir este nivel de incertidumbre.
Para la estimación por intervalo se aplican los conceptos de intervalo de confianza, teorema de Tchebysheff y
probabilidades. Conocida la media, el número de casos y la desviación típica de una variable, asumiendo que
distribución normal, marcadamente normal o supuestamente normal, se puede calcular la probabilidad y el intervalo
dentro del cual estará un caso. La probabilidad se llama nivel de confianza (𝑁𝑐) y el intervalo, intervalo de confianza.

Y se puede leer como: la probabilidad (es una

superficie) definida por el intervalo (es un
segmento) comprendido entre la media menos 𝑛
veces la desviación típica que es menor que la
media y menor que la media más 𝑛 veces la
desviación típica y esta probabilidad se llama nivel de confianza (𝑁𝑐). Y en el caso de la distribución de las medias
muestrales, tenemos que:

En donde 𝑋 es la media de variable; 𝑆𝑋 es la

desviación típica de las medias muestrales o error
( )
típico de la media, 𝑛·𝑆𝑋 es el error absoluto o

error muestral; (𝑋 − (𝑛·𝑆𝑋)) es el límite

inferior de intervalo de confianza (𝑋 + (𝑛·𝑆 )) es el límite superior del intervalo de confianza, y la media de la
𝑋
población es µ. El valor de 𝑛 está definido por el 𝑁𝑐.
Si 𝑁𝑐 = 95, 00% ó 0, 9500⇒ 𝑛 = 1, 96
Si 𝑁𝑐 = 95, 44% ó 0, 9544⇒ 𝑛 = 2
Si 𝑁𝑐 = 99, 74% ó 0, 9974⇒𝑛 = 3

INTERVALO DE CONFIANZA PARA LA MEDIA

Aplicándolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la media de edad de la población
española de ambo sexos y de 18 años o más en enero de 1996, se calcula la media y la desviación típica de la variable
edad y se procede

84
Aplicándolo a la encuesta del CIRES

En la tabla 113 el caso A significa que con la probabilidad de 0,95 (Nc=0,95 o 95,0%) la media de edad de la población
española en enero de 1996 de 18 años o más, está comprendida en el intervalo (de confianza) de 43,91 años y 45,99
años, o lo que es lo mismo, que si se extraen 100 muestras de esa población, 95 tendrían en su intervalo el parámetro
desconocido de la población. Al existir la probabilidad de 0,05 o 5,0% de que la muestra no contenga el parámetro
desconocido de la población, puede ser que a la muestra extraída se una de esas cinco. Este comentario es obligado
decirlo, pero en la investigación se asume que la muestra lo contiene.
En el caso b, con la probabilidad de 0,9544 (𝑁𝑐 = 0, 9544 𝑜 95, 44%) de la media de edad de la
población española está comprendida en el intervalo (de confianza) de 43,89 años y 46,01 años, o lo que es lo mismo
,que si se extraen en si intervalo el parámetro desconocido de la población.
Y en el caso C, para 𝑁𝑐 = 0, 9974 el intervalo de confianza es entre 43,36 años y 46,54 años.

85
INTERVALO DE CONFIANZA PARA PROPORCIONES

El cálculo del intervalo de confianza en el caso de proporción de la población se muestra en la Tabla 114.

Aplicándolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la proporción o porcentaje de
varones de la población española de ambos sexos y de 18 años o más en enero de 1996, se calcula la proporción de
varones de la variable sexo y se procede,

86
Aplicándolo a este caso:

En la Tabla 113 el caso A significa que con la probabilidad de 0,95 (NC = 0,95 o 95,0 %), el porcentaje de varones en la
población española está comprendido en el intervalo (de confianza) de 45,4% y 51,0%, o lo que es lo mismo, que si se
extraen 100 muestras de esa población, 95 tendrían en su intervalo el parámetro desconocido de la población. Como
se comentó anteriormente, al existir la probabilidad de 0,05 o 5,0 % de que 1a muestra no contenga el parámetro
desconocido de la población, puede ser que 1a muestra extraída sea una de esas cinco. Este comentario es obligado
decirlo, pero en la investigación se asume que la muestra lo contiene.
En el caso B, con la probabilidad de 0,9544 (No = 0,9544 o 95,44% o 95,5 %), el porcentaje de varones en la
población española está comprendida en el intervalo (de confianza) de 45,3% y 51,1%, o lo que es lo mismo, que si se
extraen 100 muestras de esa población, 95,44 tendrían en su intervalo el parámetro desconocido de la población. Y en
el caso C, para un No : 0,9974 el intervalo de confianza es entre 43,9% y 52,5%.

TÉCNICAS DE MUESTREO NO PROBABILÍSTICO

Las técnicas de muestreo no probabilísticas (Tabla 107) son: intencional (muestreo útil y de casos típicos), accidental,
bola de nieve y por cuotas. Estas son las técnicas de muestreo que se utilizan en el paradigma técnico cualitativo, y por
cuotas también se utiliza como una de las etapas del muestreo probabilístico polietápico.
Estas muestras no se consideran representativas estadísticamente o numéricamente. Su representatividad es
social, estructural o de características “La representatividad de estas muestras no radica en la cantidad de las mismas,
sino en las posibles conﬁguraciones subjetivas (valores—creencias-motivaciones) de los sujetos con respecto a un
objeto o fenómeno determinado” (Serbia, 2007, pag. 133).

En el muestreo intencional el investigador selecciona las unidades de observación en base a algún criterio
como puede ser el muestreo útil (purposive sampling) (Gobo, 2004, pág. 448), que consiste en seleccionar casos en
situaciones extremas o dentro de un rango amplio de situaciones para maximizar la variación. En el muestreo de casos
típicos (Gobo, 2004, pág. 449) se pueden seleccionar unidades teniendo en consideración tres características: que sea
un caso considerado medio, que sea un caso destacado o un fenómeno emergente. En el muestreo accidental, las
unidades de observación son seleccionadas sin atender a criterios, como puede ser el hecho de personas que circulan
por un determinado lugar en un cierto momento. Ejemplos de este tipo son los estudios de mercado o de opinión que
entrevistan a personas para recoger la opinión de cierto producto, líder político, publicación o acontecimiento. El
muestreo de bola de nieve, es útil para contactar con personas que por sus características son de difícil acceso como
puede ser: inmigrantes ilegales, grupos considerados marginales, etc.

87
En el muestreo por cuotas, la población se divide en subgrupos en base a algún criterio de interés para el
estudio y se establece la proporción de los individuos de la población que hay en cada subgrupo. La pretensión es que
en la muestra existan estos mismos subgrupos y en la misma proporción a los grupos de la población. Es un concepto
similar a los estratos, que se verá posteriormente y a la aﬁjación proporcional o reparto proporcional, Se puede utilizar
uno o más criterios para establecer las cuotas. Algunos ejemplos son: establecer cuotas en base a la edad y el sexo;
edad, sexo y status socioeconómico; edad, sexo, status socioeconómico y estudios; etc. En el muestreo aleatorio
estratificado (Epígrafe 10.5) se verá un ejemplo. Puede acontecer que se usan diversas técnicas de muestreo de forma
conjunta y se denomina polietápico.

TÉCNICAS DE MUESTREO PROBABILÍSTICAS

Las técnicas de muestreo probabilísticas son: muestreo aleatorio simple; muestreo aleatorio sistemático; muestreo
aleatorio estratificado, y muestreo por conglomerados.

MUESTREO ALEATORIO SIMPLE

El muestreo aleatorio simple consiste en extraer un conjunto de n individuos que llamamos muestra a partir de un
conjunto más grande N de individuos, que es la población. Para que la muestra se puede considerar representativa y
poder inferir los resultados a la población, los individuos o unidades deben ser extraídos por cualquier procedimiento
que suponga aleatoriedad y además hacerlo de tal manera que se pueda considerar que todos han tenido la misma
probabilidad de ser seleccionados. Todos los procesos de muestreo y cálculos se realizan en base a esta consideración.
Los procedimientos de extracción pueden ser: tablas de números aleatorios, hojas de cálculo o programas estadísticos.

Para utilizar este procedimiento de muestreo es necesario tener el listado de toda la población. El anonimato
de la población se puede mantener disponiendo únicamente de un código asignado a cada unidad de observación que
posteriormente permita acceder al individuo, por medio del propietario de los datos, sin conocer la identidad por parte
del investigador o investigadora.
Puede ser el caso de una Administración que dispone de los datos de todos los ciudadanos. Una empresa
privada puede tener acceso a un código asignado a cada ciudadano y la Administración disponer del enlace que
relaciona el código con las personas. Se puede considerar como acceso a las personas por direccionamiento sin
quebrantar la Ley Orgánica.

88
MUESTREO ALEATORIO SISTEMÁTICO

El muestreo aleatorio sistemático es una derivación del anterior. También tiene el inconveniente de que se
debe conocer el listado de la población. Para extraer los 𝑛 individuos de la muestra a partir de los 𝑁 individuos de la
población, primero se obtiene el 𝑐𝑒 (coeficiente de elevación), se elige de forma aleatoria un número entre 1 y el 𝑐𝑒
hasta completar la muestra.

MUESTREO ALEATORIO ESTRATIFICADO

El muestreo aleatorio simple y el sistemático garantizan la aleatoriedad del proceso, pero no garantiza la selección de
individuos de grupos pequeños. Si la muestra debe ser heterogénea como la población, es necesario que incorpore
también a los individuos considerados extremos, como pueden ser los de clase social muy allá. Si es necesario
incorporar a unidades que cumplan requisitos en base a algún criterio, se estratiﬁca la población en base a ese criterio
y se procede de la misma manera con la muestra. Los estratos tienen la característica de que los individuos son
homogéneos dentro de ellos pero heterogéneos entre los estratos.
El proceso consiste en distribuir los 𝑛 elementos de la muestra entre los estratos de la población, y después
utilizar algún procedimiento para seleccionar los individuos. Se va a considerar tres tipos de reparto o distribución que
el nombre técnico asignado es afijación: afijación no proporcional, afijación proporcional y afijación mixta. Otro tipo de
afijación es la óptima. El procedimiento se realiza con el ejemplos de la tabla 119,120,121,122,123,124 y 125 que
además se utiliza para introducir el concepto de afijación y ponderación.

89
90
En la Tabla 126, Tabla 127, Tabla 128, Tabla 129, Tabla 130, Tabla 131, Tabla 132 y Tabla 133 se muestra el cálculo del
coeﬁciente de ponderación del Estudio de CIRES de enero de 1996

91
𝑛 1.200
𝑓𝑚 = 𝑁
= 31.053.746
= 0, 00003864

tamaño de la muestra
ponderado, en el
estrato (𝑛 )es
𝑝
𝑖𝑗
igual al tamaño de la
muestra teórico, del
( ) 𝑡
estrato 𝑛 𝑖𝑗 y este a
su vez es igual al
tamaño de la muestra
empírico, del estrato
(𝑛 )por el coeﬁciente de ponderación, del estrato(α ).
𝑒
𝑖𝑗 𝑖𝑗

92
MUESTREO POR CONGLOMERADOS

El muestreo por conglomerados se fundamenta en que hay que acceder a poblaciones que en sociología normalmente
son grandes y dispersas y a veces de difícil acceso. En el muestreo por conglomerados se considera que la población es
heterogénea y que puede ser dividida en grupos o conjuntos más pequeños geográficamente reducidos, que son
heterogéneos entre ellos y por lo tanto se considera que cada uno de ellos puede representar a la población. A estos
grupos o conjuntos se les denomina conglomerados.
El conglomerado es la unidad muestral en esta técnica de muestreo y está formado por varias unidades de
observación. La ventaja que se obtiene es que si todos los conglomerados se consideran representativos de la
población, seleccionando uno pequeño y entrevistando a todas las unidades, se pueden inferir los resultados sobre la
población con un coste bajo y relativamente poco esfuerzo.

El planteamiento realizado es una definición de principios, pero todos los conglomerados no son igualmente
representativos del total de la población. El muestreo por conglomerados requiere la aplicación de un muestreo en
varias etapas (polietápico) para seleccionar varios conglomerados que representen a los diferentes grupos de
población.
En el caso de la población española, se puede considerar que el conglomerado es el municipio de tal manera
que cada municipio es heterogéneo como toda la población y homogéneos todos los municipios entre sí, pero al mismo
tiempo, los municipios tienen diferentes tamaños y pertenecen a diferentes Comunidades Autónomas. Para favorecer la
representatividad de la muestra se procede a seleccionar los municipios aplicando un criterio de estratiﬁcación doble
por Comunidad Autónoma y tamaño de hábitat. Después se procede a seleccionar los municipios por muestreo
aleatorio simple y a continuación a las unidades de observación por rutas aleatorias. De esta manera se ha introducido
el muestreo por etapas o polietápico.

Se pueden considerar conglomera-dos a cualquier grupo o subconjunto de la población que cumpla los requisitos
anteriores. El municipio es el conglomerado que se utiliza habitualmente con las poblaciones de personas. En este tipo
de muestreo se debe definir cuál es el conglomerado. Otros ejemplos de conglomerados pueden ser; en un centro de
estudios el grupo de alumnos o aula; en un hospital la planta o, la especialidad; en una línea de transporte público el
autobús o el convoy de metro.

EXTRACCIÓN DE UNA MUESTRA

Para extraer una muestra se define la población objetivo, la unidad de observación y el ámbito o delimitación
geográfica de la misma. Los datos que definen las características de la muestra se especifican en la Ficha Técnica de la
Encuesta. Un modelo de ficha técnica que utiliza el Cnetro de Investigaciones Sociológica (CIS) se muestra en la
siguiente tabla. Posteriormente se tratará el cálculo del tamaño de la muestra.

93
El Universo o Población al que quiere representar la muestra no es el Censo, ya que se delimita a los
españoles de ambos sexos de 18 años o más. La muestra diseñada o calculada es de 2500 unidades de observación,
pero las realizadas son 2468. La afijación o reparto de la muestra a los estratos de la población proporcional, y no se
han debido producir variaciones o variaciones significativas porque no se ha aplicado ponderación. Los puntos de
muestreo o municipios en los que se han realizado las entrevistas son 238 situados en 48 provincias. Posteriormente
se harán indicaciones del procesos de selección de los puntos de muestreo.

El procedimiento de muestreo es polietápico porque se ha diseñado en varias etapas o aplicando varias

técnicas de muestreo. Primero se deﬁne el conglomerado que es el municipio. Son las unidades muestrales que se
consideran heterogéneos como la población y homogéneos entre ellos y representativos cada uno de ellos de la
población (primera etapa). Para favorecer la representatividad de los conglomerados, se procede a estratiﬁcarlos en
base a dos criterios: Comunidad Autónoma y tamaño de hábitat. Los municipios de cada celda se consideran
representativos de ese conjunto de población. Así, como ya se dijo anteriormente, los municipios de Andalucía de
2.000 o menos habitantes son representativos de la población de los municipios de Andalucía de 2.000 o menos
habitantes y así sucesivamente para todas las celdas.

La selección de los municipios de cada celda se hace por procedimientos de muestreo aleatorio simple o sistemático
(tercera etapa). En esta ocasión y como se dispone de las secciones censales se utilizan también y se extraen por
muestreo aleatorio simple o sistemático (se puede considerar dentro de la tercera o define la cuarta etapa).. Los
individuos o unidades de observación se extraen o se seleccionan siguiendo rutas aleatorias (cuarta i quinta etapa) y se
utilizan cuotas de edad y sexo (quinta y sexta y última etapa). Este proceso persigue la mejor representatividad posible
de la muestra sobre la población objetivo.

A partir del listado de municipios del INE y sabiendo cuántos hay que seleccionar en cada estrato, se extraen por
muestreo aleatorio simple o sistemático. De los 320 municipios que hay en Andalucía de 2000 habitantes o menos hay
que extraer 5. De los 680 municipios que hay en Aragón de 2000 habitantes o menos, hay que extraer 4, y así

94
sucesivamente se procede con todos los estratos hasta conseguir la lista de municipios final. Con la lista de municipios
se obtienen las provincias y se diseñan las rutas, para optimizar tiempos y costes del personal de campo. El profesional
en su gabinete del trabajo establecerá otros criterios que faciliten y optimicen el proceso de trabajo de campo en base
a sus conocimientos y experiencia académica y profesional.

CÁLCULO DEL TAMAÑO DE LA MUESTRA

Por la ley de los grandes números, a medida que 𝑛 tiende a 𝑁 los estadísticos de la muestra tiende a ser los
parámetros de la población, y la diferencia entre el parámetro de la población, y la diferencia entre el parámetro y el
estadístico, el error exacto, tiende a cero. Pero a partir de un momento determinado, el incremento de 𝑛 eleva mucho
el coste económico y material del trabajo de campo y no se obtienen reducciones de consideración en el error exacto.
Las fórmulas para el cálculo del tamaño de la muestra permite obtener tamaños reducidos o ajustados de 𝑛
controlando el tamaño del error.

Para el cálculo del tamaño de la muestra se asume que el muestreo es aleatorio simple. La población puede
ser considerada finita o infinita y el parámetro a estimar va a ser una proporción o una media. Una población se
considera finita si su tamaño (N) es inferior a 100.000 unidades de observación y se considera infinita si es mayor de
esta cantidad o es desconocida.

El cálculo
del
tamaño
de una
muestra
consiste
en aplicar
la
fórmula

correspondiente y se obtiene el número de unidades de observación a las que hay que entrevistar. El presupuesto
económico está condicionado por esta n debido a que suele ser el apartado más oneroso de una investigación. La
calidad de 1a investigación no está influida por el número de observaciones. El número de observaciones afecta al

95
error muestral y por consiguiente al intervalo de conﬁanza dentro del cual estará el parámetro desconocido de la
población. Si la n es pequeña, el error es grande y por lo tanto el intervalo es grande, pero si la n es grande, e] error es
pequeño y el intervalo pequeño. En ambos casos la investigación puede estar bien o mal hecha. La diferencia es el
tamaño del intervalo para estimar el parámetro de la población. Por ejemplo, no es lo mismo decir que la demanda de
agua de una población estará en el intervalo de 150 l/habitante a 200 l/habitante que decir un intervalo de 10
l/habitante a 1.000 l/habitante. En el primer caso el resultado puede ser útil para decidir políticas de consumo de
agua, en el segundo es un intervalo tan amplio que el resultado puede ser correcto, pero la información no ser útil. El
resultado puede estar bien obtenido, pero no ser útil.

Pequeñas variaciones en los términos de las fórmulas, pueden producir variaciones importantes en la n
(tamaño de la muestra). Conocer el signiﬁcado de cada uno de los términos puede permitir alcanzar el tamaño más
adecuado conforme al presupuesto y el error deseado. En última instancia, hay que considerar que se pueden introducir
variaciones en todos, algunos o uno de los términos, pero no se pueden dejar todos constantes. Por ejemplo, no se
puede obtener una muestra grande que tenga un error pequeño con un bajo presupuesto. Las fórmulas se interpretan
de forma global pero interpretando los términos de uno en uno. Utilizando una metáfora, la fórmula se debe
comprender como cuando se ha leído un libro, se sabe la historia, pero hay que contarlo y leerlo secuencialmente.
Siguiendo el orden de la Tabla 143:

● 𝑛 es el tamaño de la muestra que se obtienen por fórmula

● 𝑁 es el tamaño de la población dado por la delimitación geográfica y los criterios que deben cumplir los
individuos.
● 𝑒 es el error muestral o absoluto. Se define previamente y se puede obtener a partir de la distribución de los
varones muestrales. El error absoluto es el error típico multiplicado por valor de 𝑍, que está definida o
define el 𝑁𝑐. Sumado/restado al estadístico de la muestra proporciona el intervalo de confianza, que es
intervalo dentro del cual estará el parámetro desconocido de la población.
● 𝑍 es el valor de la variable estandarizada que tienen una distribución 𝑁(0,1) y define el Nc que a su vez
define el intervalo de confianza. Este nivel de confianza es la probabilidad de que el parámetro de la
población esté en el intervalo de confianza. En porcentaje indicaría en su intervalo de confianza el parámetro
desconocido de la población.
● p es la probabilidad de “éxito”, es la probabilidad con la que se encuentra el evento estudiado en la población.
También se puede expresar en porcentaje. Este valor es desconocido normalmente. Posteriormente se vera la
justiﬁcación del valor asignado. También es la probabilidad de “éxito” de una distribución binomial. En la
población se busca la probabilidad de un evento, una probabilidad binomial y no una multinomial. Ejemplos:
tener o no tener frigoríﬁco; tener o no tener coche.
● 𝑞 es la probabilidad de fracaso y es igual a 1 − 𝑝.
2
● 𝑜 es la varianza de la población que normalmente es desconocida. No presenta la misma facilidad que 𝑝
para ser estimada.
● 𝑝·𝑞 se considera la varianza de la población cuando se quieren estimar porcentajes

Siguiendo con la ficha técnica del CIS (Tabla 135), en error muestral, para un nivel de confianza (𝑁𝑐) del 95,5%
(según las Tablas es 95,44% pero en las fichas técnicas lo redondean a 95,5%), es el que le corresponden a 2 Z’s (2
sigma en la ficha técnica), que es la desviación típica de la población, se representa también por Z porque son
2
unidades de desviación típica, entonces en la fórmula se especifica como 𝑍 , y 𝑝 = 𝑞, por lo que
𝑝 = 0, 50 𝑦 𝑞 = 0, 50, el error real o absoluto es de ± 2, 0%, considerando el total de la muestra(2500 casos) y
subrayamos, en el supuesto de muestreo aleatorio simple.
Entonces el error se calcula según la Tabla 144, pero hay que recordar que 𝑝 + 𝑞 = 1, entonces
𝑞 = (1 − 𝑝), así es que los valores de p y q están tabulados y el valor máximo que puede tomar el producto es

96
0,25. Como la varianza está en el numerador la relación con el tamaño 𝑛 es directa, a mayor varianza, mayor 𝑛 y a
menor varianza menor 𝑛. Considerar el caso 𝑝 = 𝑞, se le denomina el más desfavorable porque al producir la mayor
𝑛 encarece el estudio, no obstante ser el error menor, y el valor máximo es conocido (0,25), aunque la varianza sea
desconocida. En el caso de la varianza poblacional σ . ( 2)

En sociología, las muestras se

utilizan para estudiar múltiples
dimensiones de una población y
estas dimensiones pueden ser
categóricas o numéricas. La fórmula
del tamaño de la muestra estaría
definida por la dimensión principal.
Normalmente, como en el caso del
Estudio del CIS, se utiliza la fórmula
para el cálculo del tamaño de la
muestra considerando que se quiere
estimar una proporción y en ele caso de población infinita. Reúne dos ventajas, que normalmente las dimensiones son
categóricas y que se conoce el valor máximo de la varianza. (𝑝·𝑞 = 0, 50·0, 50). Considerando muestreo aleatoria
simple, el cálculo del tamaño de la muestra en el caso del Estduio del CIS y considerando proporciones, está dado por
2 2
𝑍 ·𝑝·𝑞 2 ·0,5·0,5 1
la fórmula: 𝑛 = 2 = 2 = 0,0004 = 2500. Si se considera los valores en porcentajes
𝑒 0,02
2 2
𝑍 ·𝑝·𝑞 2 ·5·5 10.000
𝑛= 2 = 2 = 4
= 2500. El tamaño de la muestra y el error se calculan y son representativos de la
𝑒 2
parte del censo (la población) para la que se ha diseñado. El error puede ser recalculado al final del trabajo de campo
utilizando la 𝑝 obtenida en la muestra. El error será recalculado si se utiliza una parte de muestra en vez de la muestra
total

También podría gustarte

Listado Estudiantes Ingresantes 2025 - Medicina
Aún no hay calificaciones
Listado Estudiantes Ingresantes 2025 - Medicina
99 páginas
Biofisica - Programa
Aún no hay calificaciones
Biofisica - Programa
6 páginas
Cuadernillo Física Aplicada A La Arquitectura
Aún no hay calificaciones
Cuadernillo Física Aplicada A La Arquitectura
158 páginas
ICSE: Sociedad y Estado en Argentina
Aún no hay calificaciones
ICSE: Sociedad y Estado en Argentina
10 páginas
Teoría Atómica para 1ro Medio
Aún no hay calificaciones
Teoría Atómica para 1ro Medio
11 páginas
Pensamiento de Thomas Kuhn en Ciencia
Aún no hay calificaciones
Pensamiento de Thomas Kuhn en Ciencia
7 páginas
Análisis de la Sociedad y el Estado en Argentina
100% (1)
Análisis de la Sociedad y el Estado en Argentina
9 páginas
Historia y Avances de la Química Orgánica
100% (1)
Historia y Avances de la Química Orgánica
27 páginas
Historia de la Química: Evolución y Descubrimientos
100% (1)
Historia de la Química: Evolución y Descubrimientos
23 páginas
Metales de transición y electrones de valencia
Aún no hay calificaciones
Metales de transición y electrones de valencia
6 páginas
Electrones de Valencia y Estructura de Lewis
Aún no hay calificaciones
Electrones de Valencia y Estructura de Lewis
3 páginas
Quimica Cens 23 - 3º1º Cens
100% (1)
Quimica Cens 23 - 3º1º Cens
3 páginas
Programa Química 3er Año CBU
Aún no hay calificaciones
Programa Química 3er Año CBU
5 páginas
Actividades sobre la materia y sus propiedades
100% (1)
Actividades sobre la materia y sus propiedades
10 páginas
Tabla Periódica
Aún no hay calificaciones
Tabla Periódica
11 páginas
Análisis del Estado y Sociedad en Argentina
Aún no hay calificaciones
Análisis del Estado y Sociedad en Argentina
8 páginas
Estructura de la Tabla Periódica
Aún no hay calificaciones
Estructura de la Tabla Periódica
1 página
El Viaje de Darwin en el Beagle
Aún no hay calificaciones
El Viaje de Darwin en el Beagle
3 páginas
Sustancias Puras y Mezclas
100% (22)
Sustancias Puras y Mezclas
19 páginas
Clasificación de Sistemas Materiales
Aún no hay calificaciones
Clasificación de Sistemas Materiales
19 páginas
Guía Química 11°: Enlace y Tabla Periódica
100% (1)
Guía Química 11°: Enlace y Tabla Periódica
53 páginas
Química 2º A y B. Actividad #5. Sistemas Materiales
Aún no hay calificaciones
Química 2º A y B. Actividad #5. Sistemas Materiales
3 páginas
Introducción a la Física y sus Fenómenos
Aún no hay calificaciones
Introducción a la Física y sus Fenómenos
7 páginas
Unidades y Conversión en Metrología Básica
Aún no hay calificaciones
Unidades y Conversión en Metrología Básica
10 páginas
02 - La Materia - Respuestas
Aún no hay calificaciones
02 - La Materia - Respuestas
10 páginas
Ejercicios de Tabla Periódica
Aún no hay calificaciones
Ejercicios de Tabla Periódica
4 páginas
Lenguaje y Aprendizaje en Educación
Aún no hay calificaciones
Lenguaje y Aprendizaje en Educación
7 páginas
Introducción a los Hidrocarburos
Aún no hay calificaciones
Introducción a los Hidrocarburos
10 páginas
Cuadernillo Fisica II
Aún no hay calificaciones
Cuadernillo Fisica II
24 páginas
Criterios para Una Metodología Motivadora de Enseñanza y Aprendizaje en Educación Formal
Aún no hay calificaciones
Criterios para Una Metodología Motivadora de Enseñanza y Aprendizaje en Educación Formal
34 páginas
Sistemas Materiales: Mezclas y Soluciones
Aún no hay calificaciones
Sistemas Materiales: Mezclas y Soluciones
8 páginas
Historia y Ramas de la Química
Aún no hay calificaciones
Historia y Ramas de la Química
4 páginas
Tema 1 (Naturaleza de La Ciencia)
Aún no hay calificaciones
Tema 1 (Naturaleza de La Ciencia)
25 páginas
Informe sobre el Conocimiento y Problemas
Aún no hay calificaciones
Informe sobre el Conocimiento y Problemas
1 página
Conceptos Clave de Mol y Cálculos Químicos
Aún no hay calificaciones
Conceptos Clave de Mol y Cálculos Químicos
7 páginas
Modelo Atómico de Rutherford Explicado
100% (1)
Modelo Atómico de Rutherford Explicado
9 páginas
Clasificación de Sistemas Materiales en Química
Aún no hay calificaciones
Clasificación de Sistemas Materiales en Química
6 páginas
Nivelación en Química General 2024
Aún no hay calificaciones
Nivelación en Química General 2024
30 páginas
Informe de Separación de Sistemas Homogéneos y Heterogéneos
Aún no hay calificaciones
Informe de Separación de Sistemas Homogéneos y Heterogéneos
4 páginas
Conceptos Básicos del Átomo
Aún no hay calificaciones
Conceptos Básicos del Átomo
17 páginas
Volumen de Cuerpos: Métodos Indirectos
Aún no hay calificaciones
Volumen de Cuerpos: Métodos Indirectos
17 páginas
Perímetro y Área: Propuesta Didáctica
0% (1)
Perímetro y Área: Propuesta Didáctica
13 páginas
La Alquimia: Orígenes de la Química Moderna
Aún no hay calificaciones
La Alquimia: Orígenes de la Química Moderna
2 páginas
Estrategias para Estudio y Gestión del Tiempo
Aún no hay calificaciones
Estrategias para Estudio y Gestión del Tiempo
40 páginas
Ejercicios de Química Básica
Aún no hay calificaciones
Ejercicios de Química Básica
4 páginas
Temario Quimica 2 Bachillerato Valencia
Aún no hay calificaciones
Temario Quimica 2 Bachillerato Valencia
11 páginas
Fenomenos Fisicos y Quimicos
Aún no hay calificaciones
Fenomenos Fisicos y Quimicos
3 páginas
Investigacon
Aún no hay calificaciones
Investigacon
112 páginas
Aproximaciones Teóricas A La Investigación
Aún no hay calificaciones
Aproximaciones Teóricas A La Investigación
16 páginas
Metodología de Investigación Social
Aún no hay calificaciones
Metodología de Investigación Social
32 páginas
Introducción a la Metodología Científica
Aún no hay calificaciones
Introducción a la Metodología Científica
103 páginas
Fundamentos de Investigación Científica
Aún no hay calificaciones
Fundamentos de Investigación Científica
3 páginas
Fundamentos del Conocimiento Científico
Aún no hay calificaciones
Fundamentos del Conocimiento Científico
13 páginas
Paradigmas y Métodos de Investigación Científica
Aún no hay calificaciones
Paradigmas y Métodos de Investigación Científica
11 páginas
Material Examen Met Importante
Aún no hay calificaciones
Material Examen Met Importante
14 páginas
UNIDAD I de Investig
Aún no hay calificaciones
UNIDAD I de Investig
13 páginas
Introducción a la Epistemología y Métodos Científicos
Aún no hay calificaciones
Introducción a la Epistemología y Métodos Científicos
134 páginas
Paradigma y Métodos Científico Final
Aún no hay calificaciones
Paradigma y Métodos Científico Final
8 páginas
Método Científico y Metodologías
Aún no hay calificaciones
Método Científico y Metodologías
6 páginas
Definición y Métodos de Investigación Científica
Aún no hay calificaciones
Definición y Métodos de Investigación Científica
27 páginas
Fundamentos del Desarrollo Sustentable
Aún no hay calificaciones
Fundamentos del Desarrollo Sustentable
9 páginas
Prueba Diagnostico de Orientacion Octavo
Aún no hay calificaciones
Prueba Diagnostico de Orientacion Octavo
4 páginas
Guía Básica para Navegar en Internet
Aún no hay calificaciones
Guía Básica para Navegar en Internet
16 páginas
Primer Avance Artículo Revisión Literatura
Aún no hay calificaciones
Primer Avance Artículo Revisión Literatura
3 páginas
Examen Quintos 2023 I Untrm 2do Dia
100% (1)
Examen Quintos 2023 I Untrm 2do Dia
9 páginas
Especialización en SNPMGI y Proyectos
Aún no hay calificaciones
Especialización en SNPMGI y Proyectos
37 páginas
Monitor 630 Junio 1925
Aún no hay calificaciones
Monitor 630 Junio 1925
139 páginas
Procedimiento Seguro Corte de Ladrillo
Aún no hay calificaciones
Procedimiento Seguro Corte de Ladrillo
8 páginas
Humanismo Renacimiento
Aún no hay calificaciones
Humanismo Renacimiento
3 páginas
Descomposición de Fuerzas en Vectores
Aún no hay calificaciones
Descomposición de Fuerzas en Vectores
5 páginas
Planificación Microcurricular 3
Aún no hay calificaciones
Planificación Microcurricular 3
57 páginas
La Espectacular Cova Bolumini y La Senda de Los Íberos
Aún no hay calificaciones
La Espectacular Cova Bolumini y La Senda de Los Íberos
15 páginas
Práctica Final de Lógica: Ejercicios y Respuestas
100% (3)
Práctica Final de Lógica: Ejercicios y Respuestas
2 páginas
Certificación Cabos y Absorbedor UL ANSI 10.32-2004
Aún no hay calificaciones
Certificación Cabos y Absorbedor UL ANSI 10.32-2004
1 página
Ejercicios de Matemáticas para 3º E.P.
Aún no hay calificaciones
Ejercicios de Matemáticas para 3º E.P.
19 páginas
Estructura de Trabajo de Investigación
Aún no hay calificaciones
Estructura de Trabajo de Investigación
4 páginas
Diseño de Sistemas Fotovoltaicos
Aún no hay calificaciones
Diseño de Sistemas Fotovoltaicos
30 páginas
Definiciones Clave en Estadística y Probabilidad
Aún no hay calificaciones
Definiciones Clave en Estadística y Probabilidad
16 páginas
Coeficiente de Particion
Aún no hay calificaciones
Coeficiente de Particion
16 páginas
Carretillas Elevadoras PDF
Aún no hay calificaciones
Carretillas Elevadoras PDF
8 páginas
Evaluación de Competencias en Inglés
Aún no hay calificaciones
Evaluación de Competencias en Inglés
1 página
DBT - Preguntas Frecuentes Sobre Tratamientos DBT
100% (1)
DBT - Preguntas Frecuentes Sobre Tratamientos DBT
18 páginas
Funcionamiento del Diodo Rectificador
Aún no hay calificaciones
Funcionamiento del Diodo Rectificador
10 páginas
Conmutadores de Acción Rápida y Precios
Aún no hay calificaciones
Conmutadores de Acción Rápida y Precios
1 página
Ejercicios de Gases en Física
Aún no hay calificaciones
Ejercicios de Gases en Física
4 páginas
Uso del Osciloscopio en Circuitos AC
Aún no hay calificaciones
Uso del Osciloscopio en Circuitos AC
5 páginas
Eneagrama en El Duelo
Aún no hay calificaciones
Eneagrama en El Duelo
89 páginas
Cónicas: Elipse en Matemáticas
Aún no hay calificaciones
Cónicas: Elipse en Matemáticas
2 páginas
004.3 m722s Capitulo IV
Aún no hay calificaciones
004.3 m722s Capitulo IV
16 páginas
Fundamentos del Justo a Tiempo (JIT)
Aún no hay calificaciones
Fundamentos del Justo a Tiempo (JIT)
31 páginas