0% encontró este documento útil (0 votos)
9 vistas36 páginas

Esta Di Stica

La estadística es la ciencia que organiza y analiza datos para ayudar en la toma de decisiones en situaciones de incertidumbre. Se divide en estadística descriptiva e inferencial, y se aplica en diversas áreas como sociología y economía. El proceso de análisis estadístico incluye etapas como el planteamiento del problema, identificación de la población, selección de muestras y recogida de datos.

Cargado por

p6y7h9w7jp
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
9 vistas36 páginas

Esta Di Stica

La estadística es la ciencia que organiza y analiza datos para ayudar en la toma de decisiones en situaciones de incertidumbre. Se divide en estadística descriptiva e inferencial, y se aplica en diversas áreas como sociología y economía. El proceso de análisis estadístico incluye etapas como el planteamiento del problema, identificación de la población, selección de muestras y recogida de datos.

Cargado por

p6y7h9w7jp
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Laura Corral Martin

ESTADÍSTICA
GRADO RELACIONES LABORALES Y
RECURSOS HUMANOS.

1
Laura Corral Martin

TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA.

Definición: Es la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en
situaciones prácticas que entrañan incertidumbre.

Función: ayuda al investigador a organizar su estudio de forma lógica.

Componentes:

- Objetivos.
- Diseño.
- Individuos;objeto que “poseen” la información en estudio (Muestra)
- Variables

La estadística es la ciencia:
Descriptiva → (solo se habla de lo que pasa en la muestra) que sistematiza, recoge, ordena y presenta los datos
referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico.

Inferencia → (creamos leyes de lo que pasa en la muestra representativa y se aplica a la población.) Con objeto de
deducir las leyes que rigen esos fenómenos.

Probabilidad → poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener
conclusiones.

La estadística se ocupa de los métodos y procedimiento para recoger (mediante encuestas), clasificar, resumir,
hallar irregularidades y analizarlo, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los
mismos así como de analizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en
su caso formular predicciones.

Estadística descriptiva → Cuando los resultados del análisis no pretenden ir más allá del conjunto de datos.
Estadística inferencial → Cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de
datos más amplio.

Áreas en las que se aplica la estadística.


Actualmente se aplica en todas las áreas del saber; ejemplo: sociología, educación, medicina, economía…
En general en las ciencias sociales, la estadística se emplea para medir las relaciones entre variables y hacer
predicciones sobre ellas.

Etapas de un análisis estadístico

1. Planteamiento del problema. → Consiste en definir el objetivo de la investigación y la característica a estudiar.

2. Identificación del colectivo. → Consiste en identificar las personas u objetivos que se van a considerar en el
estudio. A ese conjunto de elementos que intervienen en el estudio se llama población.

Criterio de inclusión: Definen las características principales de la población diana y de la población accesible que
son relevantes para la pregunta que se investiga.
Criterios de exclusión: Se utilizan para identificar subconjuntos de individuos que cumplen los criterios de
selección pero que es probable que interfieran en la interpretación de los hallazgos.

2
Laura Corral Martin

3. Selección de la muestra. → Para que los resultados de la muestra se puedan extender a toda la población,
debe ser representativa y tener suficiencia numérica.
La composición de la muestra debe responder a la población y el número de elementos elegidos debe resultar
suficiente para proporcionar resultados fiables.

¿Qué es una población? → Todos los sujetos que poseen una característica común que se desea estudiar..
¿Qué es una muestra? → Un subconjunto de la población. Siempre hay un cuanto que es el tamaño de la
muestra y un cuáles que es el método de muestreo.

La selección de la muestra puede ser:

Probabilística: Basados en procedimientos de selección aleatoria de los individuos. Todos los individuos tienen la
misma probabilidad de ser seleccionados. Con su empleo se evitan los sesgos de selección.

- Aleatorio simple.
- Sistemático.
- Estratificado.
- Por conglomerados.

No probabilístico: Los individuos no tienen la misma probabilidad de ser incluidos en la muestra. Se seleccionan
por procedimientos en los que no interviene el azar.

- Por cuotas.
- De casos consecutivos.
- A criterio.
- A conveniencia.
- Inclusión de voluntarios.
- Bola de nieve.

MUESTREO PROBABILÍSTICO.

Aleatorio Simple → Cualquier individuo tiene la misma probabilidad de ser elegido para formar parte de la
muestra. Pero requiere disponer de la lista completa de la población.

Ejemplo: En la clase de 1º de RRLL se quiere extraer una muestra de 10 alumnos.


Muestreo aleatorio simple:
•Se enumeran los alumnos del 1 al 38.
•Se eligen al azar 10 números.
•La muestra está formada por los alumnos que estén en las posiciones de los números elegidos al azar.

Aleatorio Sistemático → Se basa en calcular una constante (K) y a partir de ahí elegir uno de cada K individuos.
Este procedimiento exige numerar todos los elementos de la población, pero en lugar de extraer números
aleatorios sólo se extrae uno.

Ejemplo: En la clase de 1º de [Link] se quiere extraer una muestra de 10 alumnos.


•Se enumeran los alumnos del 1 al 38.
•Se divide el tamaño de la población entre el tamaño de la muestra k=38/10.
•Se elige aleatoriamente un número i entre 1 y 4 (supongamos 2).
•Se seleccionan los individuos que ocupen en la enumeración las posiciones: 2,6,10,14,18,22,26,30,34,38.

3
Laura Corral Martin

Muestreo Estratificado → Se divide la población en estratos homogéneos, y en cada estrato se realiza un


muestreo al azar.
Los estratos deben ser heterogéneos entre sí y homogéneos dentro de cada estrato para la variable estudiada.

Ejemplo: Un investigador quiere evaluar el nivel de matemáticas de los estudiantes en una ciudad. Sin embargo,
en lugar de seleccionar alumnos al azar de toda la población, divide a los estudiantes en estratos según el tipo de
colegio al que asisten: colegios públicos, privados y concertados.
Se seleccionará una muestra (constante, proporcional, de varianza mínima u óptima) de cada estrato, asegurando
que cada tipo de colegio esté representado en el estudio.

Muestreo por conglomerados (cluster sampling). → Cuando la población está dividida en agrupaciones
naturales ( conglomerados), se selecciona una muestra al azar de esas agrupaciones y se analizan todos los
individuos del conglomerado.
La distribución de la variable estudiada debe ser homogénea entre los conglomerados y heterogénea dentro de
cada conglomerado.

Ejemplo: Se quiere saber si el nivel de matemáticas en los colegios es adecuado. Aunque se dispone del listado
de todos los alumnos en todos los colegios, resultaría muy costoso hacerles una prueba de nivel a todos, por lo
que se considera cada colegio como un conglomerado y se realiza la prueba sobre los alumnos de un número
determinado de colegios.

MUESTREO NO PROBABILÍSTICO.

Muestreo por cuotas → Se aseguran cuotas ( PROPORCIONALIDAD de individuos), pero sin selección aleatoria.
Método más utilizado en los estudios sociológicos y epidemiológicos (estudio de los patrones, las causas y el
control de las enfermedades en los grupos de personas).

Ejemplo: Se pone una cuota de 100 personas menores de 30 años, 100 entre 31-50 y 100 mayores de 50.

Muestreo de casos consecutivos → Se seleccionan los sujetos que cumplen los criterios de inclusión
especificados en el protocolo, a medida que se captan. Los individuos se randomizan posteriormente.
Método más utilizado en los ensayos clínicos.

Ejemplo: Para estudiar una enfermedad se seleccionan los pacientes que la presentan según van llegando a la
consulta.

Muestreo a criterio → El investigador selecciona a los participantes según su conocimiento y juicio sobre cuales
son más adecuados para el estudio.

Ventajas
- Permite seleccionar sujetos altamente relevantes.
- Es útil cuando la población de interés es específica o difícil de acceder.

Desventajas:
- Puede introducir sesgo del investigador.
- No permite generalizar los resultados.

Ejemplo: Posibles cumplidores de una determinada dieta, tratamiento psiquiátrico…

Muestreo de conveniencia → Se eligen aquellos miembros de la población accesible de los que se puede
disponer con facilidad.

4
Laura Corral Martin

Ejemplo: Para efectuar los pretest en los primeros diseños de cuestionarios, donde se comprueba si las preguntas
son comprensibles; entrevistas a “gente de la calle”; uso de estudiantes y miembros de grupos sociales…

Inclusión de voluntarios → Participan individuos de forma voluntaria.


No es recomendable, dado que las personas que se ofrecen voluntariamente a la realización de dicho estudio, en
general, no son representativas de la población.

Ejemplo: Un estudio sobre hábitos de ejercicio donde solo participan voluntarios puede atraer a personas que ya
tienen interés en el deporte, sesgando los resultados.

Muestreo en bola de nieve → Consiste en seleccionar una muestra inicial o básica de individuos y establecer en
cada entrevista qué nuevas personas de la población en estudio han de entrevistarse, para así integrar la muestra
completa.
Generalmente la primera selección se hace en forma probabilística, mientras que las siguientes entrevistas
quedan determinadas por las anteriores. En sentido muy amplio, la primera muestra puede seleccionarse en forma
intencional o estar constituida por voluntarios.

Ejemplo: Se está realizando un estudio cuya población son cuidadores en situación no reglada. Se encuentran a
10 que referencian a compañeros conocidos y así se consigue una muestra de 100 cuidadores.

4. Recogida de la información → Consiste en recolectar los datos necesarios relacionados al problema de


investigación.

Variable estadística: Carácter objeto de estudio de los elementos de la muestra, que puede tomar un conjunto de
valores (discreta o continua).

Formas de recoger datos: Utilizando los datos de otro proceso, por observación, encuestas personales,
encuestas telefónicas…

Tipos de variables.

- Cualitativas o Categóricas.
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer
operaciones algebraicas con ellos).

-​ Nominales: Si sus valores no se pueden ordenar.


Sexo, grupo sanguineo, religión, (Si/No)

-​ Ordinales: Si sus valores se pueden ordenar.


Grado de satisfacción, “calidad” de estudiantes.

- Cuantitativas o Numéricas.
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos).

-​ Discretas: Si toma valores enteros


Número de hijos, número de hermanos…

-​ Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


Altura

5
Laura Corral Martin

5. Ordenación, análisis e interpretación de los datos. + destacado

6. Conclusiones. → Para obtener buenas conclusiones de todo el proceso realizado es necesario que la persona
o grupo responsable de hacerlo tenga conocimientos de estadística teórica pero también del área en la que se
trabaja.

Conceptos básicos.

Parámetro: Función definida sobre los valores numéricos de características medibles de una población.
Estadístico: Función definida sobre valores numéricos de la muestra.
Estudio observacional: El investigador se mantiene al margen de los hechos que ocurren a los individuos
estudiados.
Estudio experimental: se estudian los efectos de la intervención del investigador.

6
Laura Corral Martin

TEMA 2: TABLAS DE FRECUENCIA Y GRÁFICOS.

Los datos: En el contexto de nuestra disciplina es el valor que toma una variable en una unidad de
análisis.

La información sobre la población se organiza en una Matriz de datos.

Matriz de datos.

Tiene tantas filas como tamaño de la población y tantas columnas como variables.

Contiene:
- En sus filas a cada una de las unidades.
- En sus columnas variables que caracterizan a esa unidades.
- En cada celda el valor que asume la variables de esa columna para la unidad de análisis de esa fila.

Variables:
• Sexo.
• Edad.
• Trabajo actual.
• Búsqueda de trabajo.
• Condición de actividad. (las 2
últimas columnas)
Las 4 primeras son variables
relevadas.

7
Laura Corral Martin

Distribución de frecuencias:

Definición: Conjunto de valores que toma una variable, junto con sus frecuencias correspondientes.
Para determinar una distribución de frecuencias debemos conocer todos los valores xi de la variable y
cualquiera de las columnas de frecuencias.

Tablas de frecuencias

Los datos cuantitativos discretos se organizan en tablas, llamadas Tablas de Distribución de


frecuencias.

Tipos de frecuencias.

Frecuencia absoluta: Indica el número de veces que se repite un valor de la variable.

Frecuencia relativa: Indica la proporción con que se repite un valor. Se obtiene dividiendo la frecuencia
absoluta entre el tamaño de la muestra. Para una mejor interpretación es más conveniente multiplicarla
por 100 para trabajar con una frecuencia relativa porcentual.

Frecuencia absoluta acumulada: Indica el número de valores que son menores o iguales que el valor
dado.

Frecuencia relativa acumulada: Indica el porcentaje de datos que son menores o iguales que el valor
dado.

Ordenación y presentación de los datos tablas de frecuencias.

8
Laura Corral Martin

Descripción de datos mediante tablas.

Objetivo: Resumir la información para facilitar su análisis.



Tablas univariantes: Muestran la frecuencia de cada valor observado.

Ejemplo: Nº de cilindros de 155 vehículos.

Descripción de datos mediante tablas.

Si tenemos para cada individuo dos datos usamos una tabla de doble entrada. → Tablas bivariantes.

Ejemplo: Para cada coche tenemos el nº de cilindros y su año de fabricación.

Representaciones gráficas:

Gráficos estadísticos.

Gráfico: Es la representación en el plano, de la información estadística, con el fin de obtener una


impresión visual global del material presentado, que facilite su rápida comprensión. Los gráficos son una
alternativa a las tablas para representar las distribuciones de frecuencias.

9
Laura Corral Martin

Los gráficos pueden contener mucha más información que los números.

- Presentan los datos de forma visual, lo que hace que el significado de los números adquiera más
sentido.

- Se usan para presentar series de datos numéricos en formato gráfico y de ese modo facilitar la
comprensión de grandes cantidades de datos y las relaciones entre diferentes series.

Gráficos estadísticos:

Ordenación y presentación de los datos: Tablas de Frecuencias.

10
Laura Corral Martin

Ordenación y presentación de los datos: Gráficos, Variables Nominales.

Gráficos de sectores: se toma un círculo, y representamos las distintas clases mediante sectores circulares cuya
área (y por tanto el ángulo que lo genera) sea proporcional a la frecuencia de la clase. Esto se consigue haciendo
corresponder 360º a la suma de las frecuencias y efectuando luego los cálculos de proporcionalidad.

Diagrama de sectores. Estado civil de las 200 mujeres


socias del “Club Social”, representadas tanto la frecuencia
absoluta como la relativa en %.

11
Laura Corral Martin

Diagrama de barras: Es una representación cartesiana. Sobre el eje de abscisas escribiremos las distintas clases
o categorías, y sobre el de ordenadas los valores de las correspondientes frecuencias (absolutas o relativas).
Levantamos rectángulos de altura igual a la frecuencia correspondiente.

Distribución de rectangulos para frecuencia Distribución de rectángulos para frecuencias


ABSOLUTAS. Estado civil de las 200 mujeres RELATIVAS. Estado civil de las 200 mujeres socias
socias del “Club Social”. del “Club Social”

Perfil Ortogonal: es una representación cartesiana. Representamos en el eje de abscisas las diferentes clases y
en el de ordenadas sus frecuencias. Los pares determinan un conjunto de puntos en el plano, que unidos nos
proporcionan un “perfil ortogonal”.

Diagrama de perfil ortogonal de frecuencias absolutas. Estado civil de las


200 mujeres socias del “Club Social”.

12
Laura Corral Martin

Perfil Radial: a partir de un punto trazamos tantos radios como clases distintas tengamos, todos ellos formando
ángulos de la misma amplitud. Sobre cada radio se toma una distancia al centro proporcional a la frecuencia.
Uniendo cada punto se obtiene un polígono cerrado que es el “perfil radial”.

Gráfico Radial. Estado civil de las 200 mujeres socias del Club Social.

Pictograma: Esta representación utiliza un dibujo alusivo al fenómeno en estudio. Esos dibujos utilizados deberán
tener área proporcional a la frecuencia de las clases, y esto puede tener dos caminos:

Pictograma de repetición: se asigna un valor a Pictograma de ampliación: a cada clase se le asigna


una figura base y se repite tantas veces como una figura con área proporcional a la frecuencia.
convenga a la frecuencia.

Pictograma. Alumnos suspensos en matemáticas. Pictograma. Área de las explotaciones agrícolas en


Cada uno de los símbolos equivale a un alumno. en hectáreas. Cada uno de los símbolos equivale
a las hectáreas de cada explotación.

Ordenación y presentación de los datos: Gráficos. Variables cuantitativas discretas:

Diagrama de barras: Es una representación cartesiana, igual que en el diagrama de rectángulos para variable
cualitativa, con la única salvedad de que en lugar de levantar sobre el eje de abscisas rectángulos de altura la
frecuencia, en este caso se levantan barras.
En este podemos hacer una representación tanto con frecuencias absolutas, como con las relativas.

Diagrama de Barras. Números de hijos de las 200


mujeres socias del “Club Social”.

13
Laura Corral Martin

Diagrama de barras acumulativos: Es la representación de las frecuencias acumuladas correspondientes a una


variable discreta. Sobre el eje de abscisas se sitúan los valores de la variable, y en ordenadas sus
correspondientes frecuencias acumuladas ( absolutas o relativas).

Se levanta barras de altura igual a la frecuencia acumulada y en el extremo superior de cada barra, se trazan
paralelas al eje abscisas hasta cortar con la barra siguiente. Se obtiene una representación escalonada.

Diagrama de barras acumulativo Número de


. hijos

Polígono de frecuencias: Uniendo los extremos superiores de las barras en el diagrama de barras anterior,
obtenemos una línea quebrada abierta que recibe el nombre de “polígono de frecuencias”.

14
Laura Corral Martin

Ordenación y presentación de los datos gráficos. Variables cuantitativas continuas.

Histograma: En el eje de abscisas se marcan los extremos de los intervalos de clase de la variable, y se levantan
rectángulos cuya base es la amplitud del intervalo y su altura es tal que el área del rectángulo sea igual a la
frecuencia (absoluta o relativa según que el histograma sea de frecuencias absolutas o relativas).

1) Los intervalos de clase son de amplitud constante: como las bases son de igual magnitud, podemos tomar dicha
base como la unidad.
Área = Base x Altura, si las áreas son iguales a las alturas,
el criterio de Área=Frecuencia puede ser Altura=Frecuencia.

2) Aquí las frecuenas no pueden tomarse como alturas. Para realizar la representación hemos de calcular las
alturas:
Área = Base x Altura es equivalente a Frecuencia=Amplitud x h Luego h = Frecuencia / Amplitud.

15
Laura Corral Martin

Polígono de frecuencias: A partir del histograma, unimos los puntos medios de los lados superiores de los
rectángulos. La línea quebrada que obtenemos se conoce como “polígono de frecuencias”.

Polígono de frecuencias acumulativo: Es una línea poligonal que empieza en 0 y termina en n.


Si los intervalos tienen la misma amplitud, uniendo los extremos derechos de los rectángulos que componen el
histograma de frecuencias acumuladas se obtiene el polígono de frecuencias acumulativo.

Stem & Leaf (Tallo y Hoja): La representación Stem & Leaf es una representación intermedia entre una tabla y un
gráfico. Muestra valores con cifras, aunque su perfil es el de un histograma (TUKEY, 19977).

●​ Se debe escribir a la izquierda de una línea vertical, de arriba hacia abajo,


todos los posibles dígitos principales del conjunto de datos.

●​ Luego se representa cada dato a la derecha de la línea, escribiendo sus


dígitos secundarios en la fila apropiada.

16
Laura Corral Martin

Diagrama de caja (Box Plot): TUKEY (1977); es un método gráfico simple para resumir la información,
proporcionando una rápida impresión de las características más importantes de una distribución.

17
Laura Corral Martin

TEMA 3: MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA.

Etapas del análisis estadístico:

●​ Recogida de datos
●​ Ordenación y presentación.
●​ Resumen de la información.
●​ Análisis estadístico.

Introducción: Igual que podemos resumir un cuento en unas pocas palabras, necesitamos poder resumir un
conjunto de datos para poder sacar conclusiones.

Medidas de posición.
Nos facilitan información sobre la serie de datos que estamos analizando. La mayoría de ellas tratan de ubicar el
centro de la distribución.

Medidas de posición centrales: informan sobre los valores medios de la serie de datos.
Medidas de posición no centrales: informan de cómo se distribuye el resto de los valores de la serie.

18
Laura Corral Martin

Medidas de tendencia central o centralización:


También llamados de centralización o de tendencia central. Sirven para estudiar las características de los
valores centrales de la distribución.

Las tablas de distribución de frecuencia ofrecen toda la información disponible, pero a veces, debido a su
extensión nos encontramos con dificultades a la hora de su interpretación, por lo que interesa resumir con el fin de
facilitar, tanto su análisis como la comparación entre distintas muestras o poblaciones. En este proceso de síntesis
se buscan valores que determinan el comportamiento global del fenómeno estudiado.

Media: Se define como la suma de todos los valores de la distribución, decidida por el el nº total de datos. Si
designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:

Representa a todos los valores de la muestra.

La variable X representa las calificaciones de 30 estudiantes. Calcular la media aritmética.

●​ Ventajas:
-​ Es única.
-​ Considera todos los valores de la distribución, en su cálculo intervienen todos los datos.
-​ Es siempre calculable (en variable cuantitativa).
●​ Inconvenientes:
-​ Cuando la variable presenta valores muy extremos, que influyen mucho en la media, la
hacen poco representativa.

19
Laura Corral Martin

Media aritmética ponderada: Se calcula cuando cada valor de la variable tiene asociado una ponderación o un
peso, distinto de la frecuencia, y que le haga tener más o menos importancia en la distribución.

En este caso si el dato xi tiene un peso wi, su media ponderada sería:

Mediana: Es el valor que deja a la izquierda la mitad de las observaciones. Para su cálculo se ordenan los datos
de menor a mayor.

Para datos no agrupados distinguimos dos casos:


a.​ Si n es impar, n/2 es decimal, entonces la mediana es el valor que ocupa la posición (n/2)+1
(exceso por redondeo).
b.​ Si n es par, n/2 es entero, entonces la mediana es la media de los valores que ocupan la n/2 y la
(n/2)+1 posiciones

Ejemplo:
a.​ 1, 1, 3, 5, 5, 8, 9 (n=7) entonces 𝑴𝒆 = 5
b.​ 1, 1, 3, 5, 5, 6 (n=6) entonces 𝑴𝒆 = 𝟑+𝟓/ 𝟐 =4

Moda: Es el valor o conjunto de valores de la variable con mayor frecuencia absoluta.


Si la variable es cuantitativa y los datos no están agrupados:

Si la variable es cuantitativa y los datos están agrupados en intervalos de clase, el intervalo modal es aquel que
tiene mayor densidad de frecuencias

20
Laura Corral Martin

Relación entre la media,mediana y moda.

Si una distribución es simétrica, la media, mediana y moda coinciden.


Es una distribución sesgada a la izquierda, la moda es menor a la mediana, y esta a su vez menor que la media.
En una distribución sesgada a la derecha la relación se invierte, la moda es mayor a la mediana, y esta a su vez
mayor que la media.

Medidas de posición NO CENTRALES


●​ Percentiles.
●​ Cuartiles
●​ Deciles
●​ Cuantiles.

Cuantiles:
Son medidas de tendencia no centrales, que permiten determinar la proporción de la población de una variable
estadística cuyos valores estadísticos son menores o iguales que un valor tomado como referencia.

Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como
intervalos que comprendan la misma proporción de valores. Los más utilizados son:Percentiles, deciles y
cuartiles.

Percentiles (p).

Es el valor de la variable por debajo del cual se encuentra un porcentaje determinado de observaciones.
Son 99 valores que dividen la serie de datos en 100 partes iguales: p1, p2…p99.

Deciles (D).

Son nueve valores que dividen la serie de datos en 10 partes iguales: D1, D2…D9.

Cuartiles (Q).

Son los valores de la variable que dejan por debajo el


-​ 25% de los datos …….. Primer cuartil Q1.
-​ 50 % de los datos ………. Segundo cuartil Q2.
-​ 71% de los datos ………….. Tercer cuartil Q3

21
Laura Corral Martin

Para datos agrupados:

Diagrama de caja boxplot.

Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción se usan cinco
medidas descriptivas de los mismos: mediana, primer cuartil, tercer cuartil, valor máximo y valor mínimo.

-​ Permite identificar gráficamente la media, los percentiles 25 y 75, mínimo y máximo de una variable.
-​ Sólo es útil para variables cuantitativas.
-​ El eje X permite identificar la población en estudio.
-​ El eje Y representa los valores de la variable en estudio.

Se construye del siguiente modo:


-​ Con los datos ordenador se obtienen los tres cuartiles.
-​ Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la mediana mediante una
línea.
-​ Se calculan los límites de admisión ( los valores que queden fuera se consideran atípicos).

-​ Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico.
-​ Se marcan todos los datos considerados como atípicos.

La línea central en la caja es la mediana, sus extremos son el 1er y 3er


cuartil. Los extremos de los “bigotes” que salen de la caja son los valores
que delimitan el 95% central de los datos, aunque en ocasiones
coinciden con los valores extremos de la distribución.

22
Laura Corral Martin

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Medidas de dispersión.

Consideramos dos variables X e Y con distribuciones:

Nos indican si un grupo de puntuación o valores están próximas entre sí o sí por el contrario están muy dispersas.

-​ Desviación típica.
-​ Recorrido
-​ Varianza
-​ Desviación media
-​ Recorrido intercuartílico.

Recorrido: Se ha medido la cantidad de lluvia (mm) en Taipei y Seúl en un año:

Calcula el rango en cada una de las ciudades

Ventajas:
-​ Es la más sencilla de calcular.
-​ Viene expresada en las mismas unidades de medida que la variable.

Inconvenientes:
-​ Sólo tiene en cuenta los valores extremos de la variable (que no son representativos de la muerte).
-​ No tienen en cuenta las medidas de tendencia central, por lo tanto no nos informa de su
representatividad.

Recorrido intercuartílico: Es la diferencia entre el primer y tercer cuartil.

En esta medida se suprimen el 25% superior e inferior de la distribución y por lo tanto no se ve influenciado por los
valores extremos.
El RI nos indica la longitud del intervalo en el que están el 50% central de los valores.

23
Laura Corral Martin

Desviación media.

Se define como la media de las desviaciones de los datos de la variable respecto al promedio utilizado.

Para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviación media
resulte igual a 0 (que nos haría pensar que no hay dispersión) se utiliza el valor absoluto de la desviación de los
datos respecto del promedio.

Ventajas: Se trabaja mucho peor con un valor absoluto que con una diferencia al cuadrado.

Inconvenientes: No se conocen las propiedades de esta expresión, sin embargo, sí se conocen las ventajas de la
varianza o desviación típica.

Varianza.

Para calcular la varianza primero se necesita obtener la media de cada conjunto de datos.

Ventajas:
-​ Tiene en cuenta todos y cada uno de los valores de la variable.
-​ valora la representatividad de las medidas de tendencia central, generalmente, de la media.

Inconvenientes: No utiliza las mismas unidades de media de la variable (sino a unidad de media al cuadrado).

Desviación típica: se define como la raíz cuadrada positiva de la varianza:

Ventajas:
-​ Tiene en cuenta todos y cada uno de los valores de la variable.
-​ Valora la representatividad de las medidas de tendencia central, generalmente, de la media.
-​ Utiliza las mismas unidades de medida que la variable.

Propiedades generales de la varianza y desviación típica.

●​ Siempre serán positivas o cero. Cuando el resultado es cero, significa que no hay dispersión.
●​ Si a todos los valores de una distribución los multiplicamos por una constante, 𝑆 se ve multiplicada por la
misma constante y 𝑆 2 por la misma constante al cuadrado.
●​ 𝑆 2 y 𝑆 no permiten comparar variables con distintas unidades de medida.

MEDIDAS DE DISPERSIÓN RELATIVAS.

En el caso de intentar comparar la dispersión de dos distribuciones mediante alguna de las medidas de dispersión
descritas anteriormente, no podríamos efectuar la comparación porque las distribuciones en general, no vendrán
dadas en las mismas unidades y tampoco porque los promedios en general también serán diferentes. Por ello,
para poder comparar las dispersiones, es necesario definir medidas de dispersión adimensionales.

Entre estas se encuentra el coeficiente de variación.

24
Laura Corral Martin

Coeficiente de variación.

Es el cociente entre la desviación típica y el valor absoluto de la media aritmética.

Nunca va expresado en unidades de medida, lo que permite comparaciones (es adimensional).


Sirve para comparar variables que, viniendo expresadas en las mismas unidades, son magnitudes distintas
(ejemplo de la altura del elefante y la hormiga y la variación en cada una de ellas.

MEDIDAS DE FORMA.

Medidas de asimetría y apuntamiento.

Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre
una muestra y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al valor central.

Ahora, se plantea el saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien
la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado
izquierdo.

Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha)
Este apuntamiento habrá que medirlo comparado a cierta distribución de frecuencias que consideramos normal
(no por casualidad es éste el nombre que recibe la distribución de referencia).

Asimetría: Mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de
simetría) los segmentos de la curva que quedan a derecha e izquierda son similares.

Apuntamiento: Mide si los valores de la distribución están más o menos concentrados alrededor de los valores
medios de la muestra.

Asimetría.

Cuando realizamos un estudio descriptivo es altamente


improbable que la distribución de frecuencias sea
totalmente simétrica En la práctica diremos que la
distribución de frecuencias es simétrica si lo es de modo
aproximado.

Por otro lado, aún observando cuidadosamente la gráfica,


podemos no ver claro de qué lado están las frecuencias
más altas. Conviene definir entonces unos estadísticos
que ayuden a interpretar la asimetría, a los que
llamaremos índices de asimetría

25
Laura Corral Martin

Coeficiente de asimetría de Pearson 1 (Ap1).

Teniendo en cuenta que S siempre es positivo:


➢​ Si el resultado es > 0, indica asimetría a la derecha.
➢​ Si el resultado es = 0, indica simetría.
➢​ Si el resultado es < 0, indica asimetría a la izquierda.

Coeficiente de asimetría de Pearson 2 (Ap2):

Se utiliza en distribuciones bimodales:


➢​ Si el resultado es > 0, indica asimetría a la derecha
➢​ Si el resultado es = 0, indica simetría
➢​ Si el resultado es < 0, indica asimetría a la izquierda

Coeficiente de asimetría de Fisher:

➢​ Si el resultado es > 0, indica asimetría a la derecha.


➢​ Si el resultado es = 0, indica simetría
➢​ Si el resultado es < 0, indica asimetría a la izquierda

Apuntamiento.

Coeficiente de curtosis: Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve
para medir si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y
estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana para
la que se tiene K=0.

26
Laura Corral Martin

➢​ Leptocúrtica: Cuando K > 0 , o sea, si la distribución de frecuencias es más apuntada que la normal.
➢​ Mesocúrtica: Cuando K = 0, es decir, cuando la distribución de frecuencias es tan apuntada como la
normal.
➢​ Platicúrtica: Cuando K < 0, o sea, si la distribución de frecuencias es menos apuntada que la normal.

27
Laura Corral Martin

TEMA 4: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN.

1.​ Introducción.

La relación entre dos variables puede ser: cuantitativa, cualitativa o mixta.

Cuantitativa: encontramos la correlación y la regresión.


2
Cualitativa: Chi- cuadrado (𝑋 )
Mixta: Encontramos contrastes y anova.

¿Qué son la regresión y la correlación?.

La regresión y la correlación son métodos empleados para estudiar si dos o más variables
aleatorias están relacionadas.

Correlación.

No necesariamente existe una dependencia causal entre las variables, pero sí una relación
estadística. Es decir, cuando dos variables están correlacionadas, significa que hay una relación o
asociación entre ellas, pero no implica que una cause a la otra.

Por ejemplo: Si dos variables tienen una correlación positiva alta, significa que cuando una
aumenta, la otra tiende a aumentar también. Sin embargo, eso no implica que una variable cause
el cambio en la otra. Podría ser que ambas estén influenciadas por un factor externo o que
simplemente haya una coincidencia.

La dependencia en este contexto implica una relación más fuerte y generalmente está
relacionada con una causalidad o un efecto directo. Por ejemplo, si la cantidad de horas
estudiadas influye directamente en el rendimiento académico, esa sería una relación de
dependencia.

28
Laura Corral Martin

Regresión.

La dependencia entre las dos variables es una relación funcional o de causa-efecto. Es decir, una
variable (la independiente o predictora) se utiliza para predecir o explicar el comportamiento de la
otra variable (la dependiente o respuesta).

¿Puede estimarse los valores de la dependiente en función de los de la independiente?

En un modelo de regresión, el objetivo principal es estimar los valores de la variable


dependiente (YYY) en función de los valores de la variable independiente (XXX).

2.​ Hipótesis de partida

Es la suposición realizada acerca de la población sometida a estudio.

Para cualquier estudio se plantean dos hipótesis contrapuestas:

●​ Hipótesis Nula (𝐻0 ): Es la suposición planteada a priori sobre la población que se pretende
contrastar. Se plantea que no existe el efecto buscado. Se considera cierta hasta que se demuestre
lo contrario.
●​ Hipótesis alternativa: ( 𝐻 𝑜 𝐻 ) : Es la proposición contraria a la hipótesis nula. Es un
𝑎 1

planteamiento que el investigador plantea demostrar.

Para contrastar esta hipótesis se recogen datos y se inspeccionan de forma gráfica y analítica.

3.​ Inspección gráfica

Tenemos l individuos (i = 1, . . . , I) medidos en las dos variables cuantitativas que queremos


estudiar, X e Y, (xi , yi).4

29
Laura Corral Martin

Estudio gráfico de la relación.

-​ Variables Independientes .

-​ Relación Lineal

-​ Relación No lineal

4.​ Inspección analitica


4.1 Medidas para estudiar la correlación y los modelos de regresión.

Covarianza: Medida de asociación lineal.


Coeficiente de correlación: Correlación entre las variables.
Coeficiente de determinación: Bondad de ajuste del modelo.

30
Laura Corral Martin

Covarianza.

El signo de la covarianza refleja el tipo de covarianza (positiva o negativa).


La magnitud muestra el grado de relación.
No es adimensional, tiene las unidades de las dos variables.

𝑆𝑥𝑦>0
Cuando la relación es directa, la mayoría de los puntos tienen
diferencias positivas y por lo tanto la covarianza será positiva.

𝑆𝑥𝑦< 0
Cuando la relación es inversa, la mayoría de los puntos tienen
diferencias negativas y por lo tanto la covarianza será negativa.

𝑆𝑥𝑦 = 0
Si no hay relación, se compensa las diferencias tanto positivas como
negativas y por lo tanto la covarianza se aproximará a 0.

Coeficiente de correlación lineal de Pearson

Es un estadístico que muestra si existe relación lineal entre las dos variables de estudio.

●​ Está acotado entre -1 y 1.


●​ Un valor positivo se interpreta como indicador de una relación
directa:A medida que aumentan los valores de una variable aumentan los
valores de la otra.

31
Laura Corral Martin

●​ Un valor negativo se interpreta como indicador de una relación inversa: A medida que
aumentan los valores de una variable disminuyen los valores de la otra.
●​ El valor absoluto se interpreta como el grado de relación lineal existente entre las
variables, que será mayor cuanto más cercano sea a 1.

Correlación.

r>0
Si la relación es directa, la correlación será positiva.

r<0
Si la relación es inversa, la correlación será negativa.

r=0

Puede no existir relación . Puede existir una relación no lineal .

Otros coeficientes de correlación.

Además del coeficiente de correlación lineal propuesto por Person, existen otros coeficientes de
correlación para otro tipo de datos, por ejemplo para el caso de las variables ordinales es posible
utilizar:

-​ φ de Spearman: Versión no paramétrica del coeficiente de correlación de Pearson, se


basa en los rangos de los datos en lugar de hacerlo en los datos reales.
-​ τ de Kendall: Medida de asociación no paramétrica para variables ordinales o de rangos
que tiene en consideración los empates.

Regresión lineal simple.

La regresión intenta describir la relación existente entre una variables respuesta y una o conjunto
de variables explicativas o predictoras.
Y : variable respuesta o dependiente.
X: Variable explicativa, regresora o independiente.

32
Laura Corral Martin

Objetivos de la regresión.

-​ Predecir los valores de la respuesta.


-​ Determinar el efecto de cada predictor.
-​ Confirmar, sugerir o refutar relaciones teóricas.

Línea de regresión: línea que se ajusta al diagrama de


dispersión de dos variables.

Ecuación de regresión: Ecuación de la línea de regresión


que nos describe la relación entre las variables.

Ecuación de la regresión.

a: Término independiente u ordenada en el origen


b: Pendiente de la recta o coeficiente de regresión.
c: Error residual.

Criterios de mínimos cuadrados.

Buscamos minimizar los errores al cuadrado

Coeficiente de regresión: incremento de Y cuando X aumenta una unidad.

Ordenada en el origen : Valor de Y cuando X vale 0.

33
Laura Corral Martin

Estudio de la representación de la recta de regresión.

Modelo reducido Modelo completo

y= a + bx

Bondad de ajuste

Debido a que la recta de regresión tiene carácter de línea media, es necesario tener una medida
de dispersión asociada a ella para medir su representatividad.

-​ Poca dispersión → alta bondad de ajuste.


-​ Alta dispersión → baja bondad de ajuste.
-​ Errores → dispersión
-​ ei = yi - y*i

Varianza residual: la varianza de los errores de modelo o residuos se llaman varianza


residual.

A menor varianza residual mayor representación de la recta.

Coeficiente de determinación.

2
𝑅 * 100 es el porcentaje de variabilidad explicada por el modelo.

2
-​ 𝑅 = 1 No hay residuos → Dependencia lineal perfecta.

34
Laura Corral Martin

2
-​ 𝑅 = 0 No explica las variaciones de la variable dependiente.

●​ Variables independientes.
●​ Modelo inadecuado.
2
-​ 𝑅 * 100 es el porcentaje de variabilidad explicado por el modelo.
●​ Acotado entre 0 y 1
●​ Se interpreta como el porcentaje de la variabilidad de la variable dependiente
explicado por la variabilidad de la independiente.
●​ Acompaña siempre a modelos de tipo lineal. No tiene potencia para medir
relaciones de otro tipo.

Interpretación de los resultados.

Que exista una relación entre dos variables no implica que una tenga que ser causada por otra.
La correlación puede estar condicionada por:

-​ Relaciones causales directas entre las variables.


-​ Relación de ambas variables con una tercera causa común.
-​ No homogeneidad de los datos.
-​ Correlaciones formas debidas a la definición de las variables.
-​ Relaciones aleatorias.
●​ Audiencias de "Big Band Theory 2 las búsquedas en Google de cómo hacer un
bebé" .
●​ Popularidad del nombre de Lizbeth y las ventas de álbumes musicales en [Link].

Predicción y extrapolación.

-​ Datos originales del índice de Ventas interiores de Suministro de agua, tratamiento de


residuos y descontaminación, Destino bienes de consumo.
-​ Mensualmente desde enero de 1996 hasta enero de 2024.
-​ Numerados los periodos del 1 al 337.
-​ Seleccionó del 49 al 156, de enero del 2000 a diciembre de 2008.

X: Posición del periodo.


Y: Valor del índice
r= 0,8830
valor=13,54123 + 0,57517 *periodo.
2
𝑅 = 0,7798

Cuando se hacen predicciones no deben extrapolarse los resultados más allá del rango de la
variable X utilizado para ajustar el modelo, ya que fuera de este rango no sabemos qué puede
estar ocurriendo.

35
Laura Corral Martin

Poder explicativo frente a poder predictivo.

2 2
●​ El poder explicativo de un modelo se mide mediante 𝑅 , si 𝑅 es alto esto implica que el
ajuste global es bueno para el conjunto de puntos, lo cual no quiere decir que sea bueno
para todos y cada uno de ellos. Concretamente, un modelo con un 99 % de variaciones
controladas puede ser un modelo con poder predictivo inadecuado.
●​ Un poder explicativo alto implica una buena capacidad para predecir si además se
verifican ciertas condiciones iniciales sobre los datos observados.
●​ La verificación de las condiciones iniciales puede realizarse de forma gráfica mediante
gráficos de residuos.
●​ Una medida de la bondad del ajuste para cada una de las observaciones podría ser su
residual ei = yi − y ∗ i .

Residuos.

Gráficos residuales.
(a)​ Homogéneo.
(b)​ c d e f : Heteroscedasticidad.
e f: No linealidad
g: Presencia de outliers
h: Estructura paramétrica dependiente de los grupos.

Regresión Múltiple

Existen varias variables independientes (X1, X2, . . . , Xp) que explican el comportamiento de una
sola variable independiente (Y ).

Regresiones no lineales
2
-​ Parábola de regresión: Y = a + bX + c𝑋
𝑏
-​ Modelo potencial: Y = a𝑋
𝑥
-​ Modelo exponencial : Y = a𝑏
-​ Modelo Logarítmico: Y = a + b log X

36

También podría gustarte