Esta Di Stica
Esta Di Stica
ESTADÍSTICA
GRADO RELACIONES LABORALES Y
RECURSOS HUMANOS.
1
Laura Corral Martin
Definición: Es la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en
situaciones prácticas que entrañan incertidumbre.
Componentes:
- Objetivos.
- Diseño.
- Individuos;objeto que “poseen” la información en estudio (Muestra)
- Variables
La estadística es la ciencia:
Descriptiva → (solo se habla de lo que pasa en la muestra) que sistematiza, recoge, ordena y presenta los datos
referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico.
Inferencia → (creamos leyes de lo que pasa en la muestra representativa y se aplica a la población.) Con objeto de
deducir las leyes que rigen esos fenómenos.
Probabilidad → poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener
conclusiones.
La estadística se ocupa de los métodos y procedimiento para recoger (mediante encuestas), clasificar, resumir,
hallar irregularidades y analizarlo, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los
mismos así como de analizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en
su caso formular predicciones.
Estadística descriptiva → Cuando los resultados del análisis no pretenden ir más allá del conjunto de datos.
Estadística inferencial → Cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de
datos más amplio.
2. Identificación del colectivo. → Consiste en identificar las personas u objetivos que se van a considerar en el
estudio. A ese conjunto de elementos que intervienen en el estudio se llama población.
Criterio de inclusión: Definen las características principales de la población diana y de la población accesible que
son relevantes para la pregunta que se investiga.
Criterios de exclusión: Se utilizan para identificar subconjuntos de individuos que cumplen los criterios de
selección pero que es probable que interfieran en la interpretación de los hallazgos.
2
Laura Corral Martin
3. Selección de la muestra. → Para que los resultados de la muestra se puedan extender a toda la población,
debe ser representativa y tener suficiencia numérica.
La composición de la muestra debe responder a la población y el número de elementos elegidos debe resultar
suficiente para proporcionar resultados fiables.
¿Qué es una población? → Todos los sujetos que poseen una característica común que se desea estudiar..
¿Qué es una muestra? → Un subconjunto de la población. Siempre hay un cuanto que es el tamaño de la
muestra y un cuáles que es el método de muestreo.
Probabilística: Basados en procedimientos de selección aleatoria de los individuos. Todos los individuos tienen la
misma probabilidad de ser seleccionados. Con su empleo se evitan los sesgos de selección.
- Aleatorio simple.
- Sistemático.
- Estratificado.
- Por conglomerados.
No probabilístico: Los individuos no tienen la misma probabilidad de ser incluidos en la muestra. Se seleccionan
por procedimientos en los que no interviene el azar.
- Por cuotas.
- De casos consecutivos.
- A criterio.
- A conveniencia.
- Inclusión de voluntarios.
- Bola de nieve.
MUESTREO PROBABILÍSTICO.
Aleatorio Simple → Cualquier individuo tiene la misma probabilidad de ser elegido para formar parte de la
muestra. Pero requiere disponer de la lista completa de la población.
Aleatorio Sistemático → Se basa en calcular una constante (K) y a partir de ahí elegir uno de cada K individuos.
Este procedimiento exige numerar todos los elementos de la población, pero en lugar de extraer números
aleatorios sólo se extrae uno.
3
Laura Corral Martin
Ejemplo: Un investigador quiere evaluar el nivel de matemáticas de los estudiantes en una ciudad. Sin embargo,
en lugar de seleccionar alumnos al azar de toda la población, divide a los estudiantes en estratos según el tipo de
colegio al que asisten: colegios públicos, privados y concertados.
Se seleccionará una muestra (constante, proporcional, de varianza mínima u óptima) de cada estrato, asegurando
que cada tipo de colegio esté representado en el estudio.
Muestreo por conglomerados (cluster sampling). → Cuando la población está dividida en agrupaciones
naturales ( conglomerados), se selecciona una muestra al azar de esas agrupaciones y se analizan todos los
individuos del conglomerado.
La distribución de la variable estudiada debe ser homogénea entre los conglomerados y heterogénea dentro de
cada conglomerado.
Ejemplo: Se quiere saber si el nivel de matemáticas en los colegios es adecuado. Aunque se dispone del listado
de todos los alumnos en todos los colegios, resultaría muy costoso hacerles una prueba de nivel a todos, por lo
que se considera cada colegio como un conglomerado y se realiza la prueba sobre los alumnos de un número
determinado de colegios.
MUESTREO NO PROBABILÍSTICO.
Muestreo por cuotas → Se aseguran cuotas ( PROPORCIONALIDAD de individuos), pero sin selección aleatoria.
Método más utilizado en los estudios sociológicos y epidemiológicos (estudio de los patrones, las causas y el
control de las enfermedades en los grupos de personas).
Ejemplo: Se pone una cuota de 100 personas menores de 30 años, 100 entre 31-50 y 100 mayores de 50.
Muestreo de casos consecutivos → Se seleccionan los sujetos que cumplen los criterios de inclusión
especificados en el protocolo, a medida que se captan. Los individuos se randomizan posteriormente.
Método más utilizado en los ensayos clínicos.
Ejemplo: Para estudiar una enfermedad se seleccionan los pacientes que la presentan según van llegando a la
consulta.
Muestreo a criterio → El investigador selecciona a los participantes según su conocimiento y juicio sobre cuales
son más adecuados para el estudio.
Ventajas
- Permite seleccionar sujetos altamente relevantes.
- Es útil cuando la población de interés es específica o difícil de acceder.
Desventajas:
- Puede introducir sesgo del investigador.
- No permite generalizar los resultados.
Muestreo de conveniencia → Se eligen aquellos miembros de la población accesible de los que se puede
disponer con facilidad.
4
Laura Corral Martin
Ejemplo: Para efectuar los pretest en los primeros diseños de cuestionarios, donde se comprueba si las preguntas
son comprensibles; entrevistas a “gente de la calle”; uso de estudiantes y miembros de grupos sociales…
Ejemplo: Un estudio sobre hábitos de ejercicio donde solo participan voluntarios puede atraer a personas que ya
tienen interés en el deporte, sesgando los resultados.
Muestreo en bola de nieve → Consiste en seleccionar una muestra inicial o básica de individuos y establecer en
cada entrevista qué nuevas personas de la población en estudio han de entrevistarse, para así integrar la muestra
completa.
Generalmente la primera selección se hace en forma probabilística, mientras que las siguientes entrevistas
quedan determinadas por las anteriores. En sentido muy amplio, la primera muestra puede seleccionarse en forma
intencional o estar constituida por voluntarios.
Ejemplo: Se está realizando un estudio cuya población son cuidadores en situación no reglada. Se encuentran a
10 que referencian a compañeros conocidos y así se consigue una muestra de 100 cuidadores.
Variable estadística: Carácter objeto de estudio de los elementos de la muestra, que puede tomar un conjunto de
valores (discreta o continua).
Formas de recoger datos: Utilizando los datos de otro proceso, por observación, encuestas personales,
encuestas telefónicas…
Tipos de variables.
- Cualitativas o Categóricas.
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer
operaciones algebraicas con ellos).
- Cuantitativas o Numéricas.
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos).
5
Laura Corral Martin
6. Conclusiones. → Para obtener buenas conclusiones de todo el proceso realizado es necesario que la persona
o grupo responsable de hacerlo tenga conocimientos de estadística teórica pero también del área en la que se
trabaja.
Conceptos básicos.
Parámetro: Función definida sobre los valores numéricos de características medibles de una población.
Estadístico: Función definida sobre valores numéricos de la muestra.
Estudio observacional: El investigador se mantiene al margen de los hechos que ocurren a los individuos
estudiados.
Estudio experimental: se estudian los efectos de la intervención del investigador.
6
Laura Corral Martin
Los datos: En el contexto de nuestra disciplina es el valor que toma una variable en una unidad de
análisis.
Matriz de datos.
Tiene tantas filas como tamaño de la población y tantas columnas como variables.
Contiene:
- En sus filas a cada una de las unidades.
- En sus columnas variables que caracterizan a esa unidades.
- En cada celda el valor que asume la variables de esa columna para la unidad de análisis de esa fila.
Variables:
• Sexo.
• Edad.
• Trabajo actual.
• Búsqueda de trabajo.
• Condición de actividad. (las 2
últimas columnas)
Las 4 primeras son variables
relevadas.
7
Laura Corral Martin
Distribución de frecuencias:
Definición: Conjunto de valores que toma una variable, junto con sus frecuencias correspondientes.
Para determinar una distribución de frecuencias debemos conocer todos los valores xi de la variable y
cualquiera de las columnas de frecuencias.
Tablas de frecuencias
Tipos de frecuencias.
Frecuencia relativa: Indica la proporción con que se repite un valor. Se obtiene dividiendo la frecuencia
absoluta entre el tamaño de la muestra. Para una mejor interpretación es más conveniente multiplicarla
por 100 para trabajar con una frecuencia relativa porcentual.
Frecuencia absoluta acumulada: Indica el número de valores que son menores o iguales que el valor
dado.
Frecuencia relativa acumulada: Indica el porcentaje de datos que son menores o iguales que el valor
dado.
8
Laura Corral Martin
Si tenemos para cada individuo dos datos usamos una tabla de doble entrada. → Tablas bivariantes.
Representaciones gráficas:
Gráficos estadísticos.
9
Laura Corral Martin
Los gráficos pueden contener mucha más información que los números.
- Presentan los datos de forma visual, lo que hace que el significado de los números adquiera más
sentido.
- Se usan para presentar series de datos numéricos en formato gráfico y de ese modo facilitar la
comprensión de grandes cantidades de datos y las relaciones entre diferentes series.
Gráficos estadísticos:
10
Laura Corral Martin
Gráficos de sectores: se toma un círculo, y representamos las distintas clases mediante sectores circulares cuya
área (y por tanto el ángulo que lo genera) sea proporcional a la frecuencia de la clase. Esto se consigue haciendo
corresponder 360º a la suma de las frecuencias y efectuando luego los cálculos de proporcionalidad.
11
Laura Corral Martin
Diagrama de barras: Es una representación cartesiana. Sobre el eje de abscisas escribiremos las distintas clases
o categorías, y sobre el de ordenadas los valores de las correspondientes frecuencias (absolutas o relativas).
Levantamos rectángulos de altura igual a la frecuencia correspondiente.
Perfil Ortogonal: es una representación cartesiana. Representamos en el eje de abscisas las diferentes clases y
en el de ordenadas sus frecuencias. Los pares determinan un conjunto de puntos en el plano, que unidos nos
proporcionan un “perfil ortogonal”.
12
Laura Corral Martin
Perfil Radial: a partir de un punto trazamos tantos radios como clases distintas tengamos, todos ellos formando
ángulos de la misma amplitud. Sobre cada radio se toma una distancia al centro proporcional a la frecuencia.
Uniendo cada punto se obtiene un polígono cerrado que es el “perfil radial”.
Gráfico Radial. Estado civil de las 200 mujeres socias del Club Social.
Pictograma: Esta representación utiliza un dibujo alusivo al fenómeno en estudio. Esos dibujos utilizados deberán
tener área proporcional a la frecuencia de las clases, y esto puede tener dos caminos:
Diagrama de barras: Es una representación cartesiana, igual que en el diagrama de rectángulos para variable
cualitativa, con la única salvedad de que en lugar de levantar sobre el eje de abscisas rectángulos de altura la
frecuencia, en este caso se levantan barras.
En este podemos hacer una representación tanto con frecuencias absolutas, como con las relativas.
13
Laura Corral Martin
Se levanta barras de altura igual a la frecuencia acumulada y en el extremo superior de cada barra, se trazan
paralelas al eje abscisas hasta cortar con la barra siguiente. Se obtiene una representación escalonada.
Polígono de frecuencias: Uniendo los extremos superiores de las barras en el diagrama de barras anterior,
obtenemos una línea quebrada abierta que recibe el nombre de “polígono de frecuencias”.
14
Laura Corral Martin
Histograma: En el eje de abscisas se marcan los extremos de los intervalos de clase de la variable, y se levantan
rectángulos cuya base es la amplitud del intervalo y su altura es tal que el área del rectángulo sea igual a la
frecuencia (absoluta o relativa según que el histograma sea de frecuencias absolutas o relativas).
1) Los intervalos de clase son de amplitud constante: como las bases son de igual magnitud, podemos tomar dicha
base como la unidad.
Área = Base x Altura, si las áreas son iguales a las alturas,
el criterio de Área=Frecuencia puede ser Altura=Frecuencia.
2) Aquí las frecuenas no pueden tomarse como alturas. Para realizar la representación hemos de calcular las
alturas:
Área = Base x Altura es equivalente a Frecuencia=Amplitud x h Luego h = Frecuencia / Amplitud.
15
Laura Corral Martin
Polígono de frecuencias: A partir del histograma, unimos los puntos medios de los lados superiores de los
rectángulos. La línea quebrada que obtenemos se conoce como “polígono de frecuencias”.
Stem & Leaf (Tallo y Hoja): La representación Stem & Leaf es una representación intermedia entre una tabla y un
gráfico. Muestra valores con cifras, aunque su perfil es el de un histograma (TUKEY, 19977).
16
Laura Corral Martin
Diagrama de caja (Box Plot): TUKEY (1977); es un método gráfico simple para resumir la información,
proporcionando una rápida impresión de las características más importantes de una distribución.
17
Laura Corral Martin
● Recogida de datos
● Ordenación y presentación.
● Resumen de la información.
● Análisis estadístico.
Introducción: Igual que podemos resumir un cuento en unas pocas palabras, necesitamos poder resumir un
conjunto de datos para poder sacar conclusiones.
Medidas de posición.
Nos facilitan información sobre la serie de datos que estamos analizando. La mayoría de ellas tratan de ubicar el
centro de la distribución.
Medidas de posición centrales: informan sobre los valores medios de la serie de datos.
Medidas de posición no centrales: informan de cómo se distribuye el resto de los valores de la serie.
18
Laura Corral Martin
Las tablas de distribución de frecuencia ofrecen toda la información disponible, pero a veces, debido a su
extensión nos encontramos con dificultades a la hora de su interpretación, por lo que interesa resumir con el fin de
facilitar, tanto su análisis como la comparación entre distintas muestras o poblaciones. En este proceso de síntesis
se buscan valores que determinan el comportamiento global del fenómeno estudiado.
Media: Se define como la suma de todos los valores de la distribución, decidida por el el nº total de datos. Si
designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:
● Ventajas:
- Es única.
- Considera todos los valores de la distribución, en su cálculo intervienen todos los datos.
- Es siempre calculable (en variable cuantitativa).
● Inconvenientes:
- Cuando la variable presenta valores muy extremos, que influyen mucho en la media, la
hacen poco representativa.
19
Laura Corral Martin
Media aritmética ponderada: Se calcula cuando cada valor de la variable tiene asociado una ponderación o un
peso, distinto de la frecuencia, y que le haga tener más o menos importancia en la distribución.
Mediana: Es el valor que deja a la izquierda la mitad de las observaciones. Para su cálculo se ordenan los datos
de menor a mayor.
Ejemplo:
a. 1, 1, 3, 5, 5, 8, 9 (n=7) entonces 𝑴𝒆 = 5
b. 1, 1, 3, 5, 5, 6 (n=6) entonces 𝑴𝒆 = 𝟑+𝟓/ 𝟐 =4
Si la variable es cuantitativa y los datos están agrupados en intervalos de clase, el intervalo modal es aquel que
tiene mayor densidad de frecuencias
20
Laura Corral Martin
Cuantiles:
Son medidas de tendencia no centrales, que permiten determinar la proporción de la población de una variable
estadística cuyos valores estadísticos son menores o iguales que un valor tomado como referencia.
Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como
intervalos que comprendan la misma proporción de valores. Los más utilizados son:Percentiles, deciles y
cuartiles.
Percentiles (p).
Es el valor de la variable por debajo del cual se encuentra un porcentaje determinado de observaciones.
Son 99 valores que dividen la serie de datos en 100 partes iguales: p1, p2…p99.
Deciles (D).
Son nueve valores que dividen la serie de datos en 10 partes iguales: D1, D2…D9.
Cuartiles (Q).
21
Laura Corral Martin
Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción se usan cinco
medidas descriptivas de los mismos: mediana, primer cuartil, tercer cuartil, valor máximo y valor mínimo.
- Permite identificar gráficamente la media, los percentiles 25 y 75, mínimo y máximo de una variable.
- Sólo es útil para variables cuantitativas.
- El eje X permite identificar la población en estudio.
- El eje Y representa los valores de la variable en estudio.
- Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico.
- Se marcan todos los datos considerados como atípicos.
22
Laura Corral Martin
Medidas de dispersión.
Nos indican si un grupo de puntuación o valores están próximas entre sí o sí por el contrario están muy dispersas.
- Desviación típica.
- Recorrido
- Varianza
- Desviación media
- Recorrido intercuartílico.
Ventajas:
- Es la más sencilla de calcular.
- Viene expresada en las mismas unidades de medida que la variable.
Inconvenientes:
- Sólo tiene en cuenta los valores extremos de la variable (que no son representativos de la muerte).
- No tienen en cuenta las medidas de tendencia central, por lo tanto no nos informa de su
representatividad.
En esta medida se suprimen el 25% superior e inferior de la distribución y por lo tanto no se ve influenciado por los
valores extremos.
El RI nos indica la longitud del intervalo en el que están el 50% central de los valores.
23
Laura Corral Martin
Desviación media.
Se define como la media de las desviaciones de los datos de la variable respecto al promedio utilizado.
Para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviación media
resulte igual a 0 (que nos haría pensar que no hay dispersión) se utiliza el valor absoluto de la desviación de los
datos respecto del promedio.
Ventajas: Se trabaja mucho peor con un valor absoluto que con una diferencia al cuadrado.
Inconvenientes: No se conocen las propiedades de esta expresión, sin embargo, sí se conocen las ventajas de la
varianza o desviación típica.
Varianza.
Para calcular la varianza primero se necesita obtener la media de cada conjunto de datos.
Ventajas:
- Tiene en cuenta todos y cada uno de los valores de la variable.
- valora la representatividad de las medidas de tendencia central, generalmente, de la media.
Inconvenientes: No utiliza las mismas unidades de media de la variable (sino a unidad de media al cuadrado).
Ventajas:
- Tiene en cuenta todos y cada uno de los valores de la variable.
- Valora la representatividad de las medidas de tendencia central, generalmente, de la media.
- Utiliza las mismas unidades de medida que la variable.
● Siempre serán positivas o cero. Cuando el resultado es cero, significa que no hay dispersión.
● Si a todos los valores de una distribución los multiplicamos por una constante, 𝑆 se ve multiplicada por la
misma constante y 𝑆 2 por la misma constante al cuadrado.
● 𝑆 2 y 𝑆 no permiten comparar variables con distintas unidades de medida.
En el caso de intentar comparar la dispersión de dos distribuciones mediante alguna de las medidas de dispersión
descritas anteriormente, no podríamos efectuar la comparación porque las distribuciones en general, no vendrán
dadas en las mismas unidades y tampoco porque los promedios en general también serán diferentes. Por ello,
para poder comparar las dispersiones, es necesario definir medidas de dispersión adimensionales.
24
Laura Corral Martin
Coeficiente de variación.
MEDIDAS DE FORMA.
Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre
una muestra y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al valor central.
Ahora, se plantea el saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien
la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado
izquierdo.
Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha)
Este apuntamiento habrá que medirlo comparado a cierta distribución de frecuencias que consideramos normal
(no por casualidad es éste el nombre que recibe la distribución de referencia).
Asimetría: Mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de
simetría) los segmentos de la curva que quedan a derecha e izquierda son similares.
Apuntamiento: Mide si los valores de la distribución están más o menos concentrados alrededor de los valores
medios de la muestra.
Asimetría.
25
Laura Corral Martin
Apuntamiento.
Coeficiente de curtosis: Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve
para medir si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y
estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana para
la que se tiene K=0.
26
Laura Corral Martin
➢ Leptocúrtica: Cuando K > 0 , o sea, si la distribución de frecuencias es más apuntada que la normal.
➢ Mesocúrtica: Cuando K = 0, es decir, cuando la distribución de frecuencias es tan apuntada como la
normal.
➢ Platicúrtica: Cuando K < 0, o sea, si la distribución de frecuencias es menos apuntada que la normal.
27
Laura Corral Martin
1. Introducción.
La regresión y la correlación son métodos empleados para estudiar si dos o más variables
aleatorias están relacionadas.
Correlación.
No necesariamente existe una dependencia causal entre las variables, pero sí una relación
estadística. Es decir, cuando dos variables están correlacionadas, significa que hay una relación o
asociación entre ellas, pero no implica que una cause a la otra.
Por ejemplo: Si dos variables tienen una correlación positiva alta, significa que cuando una
aumenta, la otra tiende a aumentar también. Sin embargo, eso no implica que una variable cause
el cambio en la otra. Podría ser que ambas estén influenciadas por un factor externo o que
simplemente haya una coincidencia.
La dependencia en este contexto implica una relación más fuerte y generalmente está
relacionada con una causalidad o un efecto directo. Por ejemplo, si la cantidad de horas
estudiadas influye directamente en el rendimiento académico, esa sería una relación de
dependencia.
28
Laura Corral Martin
Regresión.
La dependencia entre las dos variables es una relación funcional o de causa-efecto. Es decir, una
variable (la independiente o predictora) se utiliza para predecir o explicar el comportamiento de la
otra variable (la dependiente o respuesta).
● Hipótesis Nula (𝐻0 ): Es la suposición planteada a priori sobre la población que se pretende
contrastar. Se plantea que no existe el efecto buscado. Se considera cierta hasta que se demuestre
lo contrario.
● Hipótesis alternativa: ( 𝐻 𝑜 𝐻 ) : Es la proposición contraria a la hipótesis nula. Es un
𝑎 1
Para contrastar esta hipótesis se recogen datos y se inspeccionan de forma gráfica y analítica.
29
Laura Corral Martin
- Variables Independientes .
- Relación Lineal
- Relación No lineal
30
Laura Corral Martin
Covarianza.
𝑆𝑥𝑦>0
Cuando la relación es directa, la mayoría de los puntos tienen
diferencias positivas y por lo tanto la covarianza será positiva.
𝑆𝑥𝑦< 0
Cuando la relación es inversa, la mayoría de los puntos tienen
diferencias negativas y por lo tanto la covarianza será negativa.
𝑆𝑥𝑦 = 0
Si no hay relación, se compensa las diferencias tanto positivas como
negativas y por lo tanto la covarianza se aproximará a 0.
Es un estadístico que muestra si existe relación lineal entre las dos variables de estudio.
31
Laura Corral Martin
● Un valor negativo se interpreta como indicador de una relación inversa: A medida que
aumentan los valores de una variable disminuyen los valores de la otra.
● El valor absoluto se interpreta como el grado de relación lineal existente entre las
variables, que será mayor cuanto más cercano sea a 1.
Correlación.
r>0
Si la relación es directa, la correlación será positiva.
r<0
Si la relación es inversa, la correlación será negativa.
r=0
Además del coeficiente de correlación lineal propuesto por Person, existen otros coeficientes de
correlación para otro tipo de datos, por ejemplo para el caso de las variables ordinales es posible
utilizar:
La regresión intenta describir la relación existente entre una variables respuesta y una o conjunto
de variables explicativas o predictoras.
Y : variable respuesta o dependiente.
X: Variable explicativa, regresora o independiente.
32
Laura Corral Martin
Objetivos de la regresión.
Ecuación de la regresión.
33
Laura Corral Martin
y= a + bx
Bondad de ajuste
Debido a que la recta de regresión tiene carácter de línea media, es necesario tener una medida
de dispersión asociada a ella para medir su representatividad.
Coeficiente de determinación.
2
𝑅 * 100 es el porcentaje de variabilidad explicada por el modelo.
2
- 𝑅 = 1 No hay residuos → Dependencia lineal perfecta.
34
Laura Corral Martin
2
- 𝑅 = 0 No explica las variaciones de la variable dependiente.
● Variables independientes.
● Modelo inadecuado.
2
- 𝑅 * 100 es el porcentaje de variabilidad explicado por el modelo.
● Acotado entre 0 y 1
● Se interpreta como el porcentaje de la variabilidad de la variable dependiente
explicado por la variabilidad de la independiente.
● Acompaña siempre a modelos de tipo lineal. No tiene potencia para medir
relaciones de otro tipo.
Que exista una relación entre dos variables no implica que una tenga que ser causada por otra.
La correlación puede estar condicionada por:
Predicción y extrapolación.
Cuando se hacen predicciones no deben extrapolarse los resultados más allá del rango de la
variable X utilizado para ajustar el modelo, ya que fuera de este rango no sabemos qué puede
estar ocurriendo.
35
Laura Corral Martin
2 2
● El poder explicativo de un modelo se mide mediante 𝑅 , si 𝑅 es alto esto implica que el
ajuste global es bueno para el conjunto de puntos, lo cual no quiere decir que sea bueno
para todos y cada uno de ellos. Concretamente, un modelo con un 99 % de variaciones
controladas puede ser un modelo con poder predictivo inadecuado.
● Un poder explicativo alto implica una buena capacidad para predecir si además se
verifican ciertas condiciones iniciales sobre los datos observados.
● La verificación de las condiciones iniciales puede realizarse de forma gráfica mediante
gráficos de residuos.
● Una medida de la bondad del ajuste para cada una de las observaciones podría ser su
residual ei = yi − y ∗ i .
Residuos.
Gráficos residuales.
(a) Homogéneo.
(b) c d e f : Heteroscedasticidad.
e f: No linealidad
g: Presencia de outliers
h: Estructura paramétrica dependiente de los grupos.
Regresión Múltiple
Existen varias variables independientes (X1, X2, . . . , Xp) que explican el comportamiento de una
sola variable independiente (Y ).
Regresiones no lineales
2
- Parábola de regresión: Y = a + bX + c𝑋
𝑏
- Modelo potencial: Y = a𝑋
𝑥
- Modelo exponencial : Y = a𝑏
- Modelo Logarítmico: Y = a + b log X
36