“Año de la lucha contra la Corrupción y la Impunidad”
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA PROFESIONAL DE BIOLOGÍA
PROGRAMA DE ESTUDIO DE BIOLOGÍA: MICROBIOLOGÍA Y
LABORATORIO CLÍNICO
TRABAJO ENCARGADO: Regresión Lineal Simple
CURSO: Bioestadística
DOCENTE: Ing. Mg. Sc. José David Velezvía Díaz
PRESENTADO POR: Huallpa Chuquitarqui, Rossmery Yulissa
CÓDIGO: 191228
NIVEL: II semestre
PUNO – PERÚ
I. INTRODUCCIÓN
En el proceso de investigación científica el método de investigación científica es
importante para el desarrollo de la investigación. La recolección de datos adquiere
importancia para obtener información relevante. Uno de los aspectos más relevantes
de la estadística es el análisis de la relación o dependencia entre variables.
Frecuentemente resulta de interés conocer el efecto que una o varias variables
pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una
variable a partir de otra.
El procesamiento de los datos se emplea el Software (SPSC, Minitab,
ESTATISTICA, Excel). En el presente trabajo se cuenta con datos de producción de
truchas (Tn) y los residuos sólidos que se derivan del manejo de dicha especie. El
cual es una problemática recurrente, dado que las potencialidades y bondades que
presenta la región de Puno, nos permite desarrollar la actividad acuícola continental,
tanto en especies introducidas como es de mayor énfasis la truchicultura por las
características anatómicas, el desarrollo en nuestra región es con mucho éxito, lo que
permite una rentabilidad económica en los productores, se ha venido también
desarrollando la acuicultura en especies nativas, alto andinas y tropicales (La
Dirección de Acuicultura e Investigación, 2010).
Para lo cual se necesita establecer el modelo de Regresión Lineal Simple Aditivo
(RLS). Los métodos de regresión estudian la construcción de modelos para explicar o
representar la dependencia entre una variable respuesta y la variable explicativa. En
esta investigación abordaremos el modelo de regresión lineal, que tiene lugar cuando
la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas: ¿Es
significativo el efecto que una variable X (total de residuos sólidos orgánicos
generados (tn)) causa sobre otra Y (producción de truchas)? ¿Es significativa la
dependencia lineal entre esas dos variables?
De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir
la variable dependiente a partir de valores observados en la independiente.
II. OBJETIVOS
II.1. Establecer el modelo de Regresión Lineal Simple Aditivo para la
producción de truchas en la región Puno.
II.2. Determinar el coeficiente de regresión lineal simple “r”.
II.3. Determinar el coeficiente de determinación r2.
II.4. Graficar el modelo RLS y su interpretación.
III. MARCO TEÓRICO
III.1. CORRELACIÓN
La finalidad de la correlación es examinar la dirección y la fuerza de la
asociación entre dos variables cuantitativas. Así conoceremos la intensidad
de la relación entre ellas y si, al aumentar el valor de una variable, aumenta
o disminuye el valor de la otra variable.
Para valorar la asociación entre dos variables, la primera
aproximación suele hacerse mediante un diagrama de dispersión.
Figura 1. diagrama de dispersión
En el diagrama de dispersión de la figura 1 parece existir una relación
lineal entre el peso y el índice de masa corporal de los pacientes. Además, si
nos fijamos parece que existe un dato atípico que se aleja de la nube de
puntos.
Con la nube de puntos podemos apreciar si existe o no una
tendencia entre las dos variables, pero si queremos cuantificar esta
asociación debemos calcular un coeficiente de correlación.
Hay dos coeficientes de correlación que se usan frecuentemente: el de
Pearson (paramétrico) y el de Spearman (no paramétrico, se utiliza en
aquellos casos donde las variables examinadas no cumplen criterios de
normalidad o cuando las variables son ordinales).
El coeficiente de correlación de Pearson evalúa específicamente la
adecuación a la recta lineal que defina la relación entre dos variables
cuantitativas. El coeficiente no paramétrico de Spearman mide cualquier tipo
de asociación, no necesariamente lineal.
Si se desea medir o cuantificar el grado de asociación entre dos
variables cuantitativas se debe calcular un coeficiente de correlación.
III.2. Bondad de ajuste
Se refiere al coeficiente de correlación múltiple (R) y a su cuadrado. Puesto
que sólo tenemos dos variables, el coeficiente de correlación múltiple no es
otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre
esas dos variables (ver capítulo anterior). Su cuadrado (R cuadrado) es el
coeficiente de determinación:
(los residuos son las diferencias existentes entre las puntuaciones observadas y
2
los pronósticos obtenidos con la recta). Tal como hemos señalado ya, R
expresa la proporción de varianza de la variable dependiente que está explicada
por la variable independiente.
III.3. R cuadrado corregida
2
Es una corrección a la baja de R que se basa en el número de casos y de
variables independientes: (p se refiere al número de variables independientes).
2
En una situación con pocos casos y mu- chas variables independientes, R
2
puede ser artificialmente alta. En tal caso, el valor de R corregida será
sustancialmente más bajo que el de R 2.
III.4. El error típico de la estimación
Es la desviación típica de los residuos, es decir, la desviación típica de las
distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los
pronósticos efectuados con la recta de regresión aunque no exactamente,
pues la suma de las distancias al cuadrado están divididas por n2:
En realidad, este error típico es la raíz cuadrada de la media cuadrática
residual. Representa una medida de la parte de variabilidad de la variable
dependiente que no es explicada por la recta de regresión. En general, cuanto
mejor es el ajuste, más pequeño es este error típico.
III.5. Covarianza
El numerador del coeficiente de correlación es la covarianza muestral S XY
entre X e Y, que nos indica si la posible relación entre dos variables es
directa o inversa. Es una medida que nos habla de la variabilidad conjunta
de dos variables cuantitativas.
Así, si valores altos (o bajos) de X tienden a asociarse con valores
altos (o bajos) de Y, el producto de las desviaciones tenderá a ser positivo y
la covarianza será positiva.
Por el contrario, si valores altos de una variable se relacionan con
valores bajos de la otra variable, el producto de las desviaciones tenderá a
ser negativo y la covarianza será negativa.
De tal modo que:
- Si SXY >0 las dos variables crecen o decrecen a la vez (nube de puntos
creciente).
- Si SXY <0 cuando una variable crece, la otra tiene tendencia a decrecer
(nube de puntos decreciente).
- Si los puntos se reparten con igual densidad alrededor del centro de
gravedad x, y, SXY =0 (no hay relación lineal).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relación entre las
variables.
Figura 2: Interpretación geométrica de SXY
Resulta complicado determinar el grado de asociación lineal entre dos
variables a partir de la magnitud de la covarianza, ya que ésta depende
de las unidades de medida de las variables.
- Carece de unidades de medida (adimensional).
- Sólo toma valores comprendidos entre [-1,1].
- Cuando |r| esté próximo a uno, r= +1 (recta lineal creciente de izquierda a
derecha) o r= -1 (recta lineal decreciente), se tiene que existe una relación
lineal muy fuerte entre las variables.
- Cuando r≈0, puede afirmarse que no existe relación lineal entre ambas
variables. Se dice en este caso que las variables son incorreladas.
IV. METODOLOGÍA
Para la presente investigación se hará uso del modelo de Regresión Lineal Simple
Aditivo (RLS).
IV.1. REGRESIÓN LINEAL SIMPLE
La regresión está dirigida a describir como es la relación entre dos
variables X e Y, de tal manera que incluso se pueden hacer predicciones
sobre los valores de la variable Y, a partir de los de X. Cuando la asociación
entre ambas variables es fuerte, la regresión nos ofrece un modelo
estadístico que puede alcanzar finalidades predictivas.
La regresión supone que hay una variable fija, controlada por el investigador
(es la variable independiente o predictora), y otra que no está controlada
(variable respuesta o dependiente). La correlación supone que ninguna es
fija: las dos variables están fuera del control de investigador.
La regresión es su forma más sencilla se llama regresión lineal simple. Se
trata de una técnica estadística que analiza la relación entre dos variables
cuantitativas, tratando de verificar si dicha relación es lineal.
Una vez que hemos hecho el diagrama de dispersión y después de observar
una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión.
Mediante las técnicas de regresión inventamos una variable Ŷ como
función de otra variable X (o viceversa). El criterio para construir esta
función es que la diferencia entre Y e Ŷ, denominada error o residuo, sea
pequeña.
Los residuos o errores ei son la diferencia entre los valores observados
(verdadero valor de Y) y los valores pronosticados por el modelo: e i =Y-Ŷ.
Recogen la parte de la variable Y que no es explicada por el modelo de
regresión.
A partir de la definición de residuo, podemos escribir Y = f(X) + error.
El término que hemos denominado error debe ser tan pequeño como sea
posible. El objetivo será busca la función (modelo de regresión) Ŷ= f(X)
que lo minimice.
[Link] de una recta por mínimos cuadrados
La regresión lineal consiste en encontrar (aproximar) los valores de una
variable a partir de los de otra, usando una relación funcional de tipo
lineal, es decir, buscamos cantidades a (ordenada en el origen) y b
(pendiente de la recta lineal) tales que se pueda escribir Y a bX , con el
menor error posible entre Ŷ e Y.
Para cada valor observado de la variable independiente xi podemos
considerar dos valores de la variable dependiente, el observado yi y el estimado
a partir de la ecuación de la recta, yi a bxi
Para cada observación podemos definir el error o residuo como la
distancia vertical entre el punto (xi, yi) y la recta, es decir: yi – (a + bxi)
Por cada recta que consideremos, tendremos una colección diferente de
residuos. Se trata de buscar la recta que dé lugar a los residuos más pequeños,
es decir la recta que hace mínima la suma de cuadrados de las distancias
verticales entre cada punto y la recta, de tal manera que se minimice la suma de
los errores al cuadrado.
N N
SC Re s ie2 ( yi y )
2
i
i1 i1
Para determinar la recta de regresión, utilizaremos el método
de los mínimos cuadrados.
Figura 3: Interpretacion geométrica del residuo
Las cantidades a y b que minimizan dicho error son los llamados coeficientes
de regresión:
La cantidad b se denomina “coeficiente de regresión de Y sobre X”.
Interpretación de la ordenada en el origen a:
Este parámetro representa la estimación del valor de Y cuando X es igual a cero.
Interpretación de la pendiente de la recta b:
El coeficiente de regresión es muy importante, porque mide el cambio de la
variable Y por cada unidad de cambio de X. Este parámetro nos informa de cómo
están relacionadas las dos variables en el sentido de que nos indica en qué cantidad
(y si es positiva o negativa) varían los valores de Y cuando varían los valores de la
X en una unidad. De hecho, el coeficiente de regresión b y el coeficiente de
correlación r siempre tendrán el mismo signo.
Si b > 0, cada aumento de X se corresponde con un aumento de Y;
Si b < 0, Y decrece a medida que aumenta X.
V. RESULTADOS
Gráfico 1 : Producción de truchas según el total de residuos sólidos
organicos generados (tn)
6000
5500
f(x) = 2.13 x + 0
R² = 1
5000
4500
Producción de truchas
Linear ()
4000
3500
3000
2500
2000
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800
Total de residuos sólidos organicos generados (tn)
Fig. 1: Tabla de datos de la producción de truchas según el total de residuos sólidos
orgánicos generados (tn) en 1 año
X: Total de
residuos
Y: Production de
MES sólidos XY X2 Y2
truchas
orgánicos
generados (tn)
Enero 1701.9358 3621.14 6162947.8 2896585.47 13112654.9
Febrero 1662.3759 3536.97 5879773.69 2763493.63 12510156.8
Marzo 1866.5627 3971.41 7412885.77 3484056.31 15772097.4
Abril 1902.8749 4048.67 7704112.52 3620932.89 16391728.8
Mayo 1261.0805 2683.15 3383668.14 1590324.03 7199293.92
Junio 1602.2817 3409.11 5462354.57 2567306.65 11622031
Julio 2540.1432 5404.56 13728356.3 6452327.48 29209268.8
Agosto 1537.7742 3271.86 5031381.89 2364749.49 10705067.9
Setiembre 1507.0315 3206.45 4832221.15 2271143.94 10281321.6
Octubre 1456.5676 3099.08 4514019.52 2121589.17 9604296.85
Noviembre 1940.348 4128.4 8010532.68 3764950.36 17043686.6
Diciembre 1747.3425 3717.75 6496182.58 3053205.81 13821665.1
SUMATORI
20726.3185 44098.55 78618436.7 36950665.2 167273269
A
Tabla 2: Tabla de datos de las estadísticas de la regresión lineal simple aditiva
sobre la investigación de la producción de truchas en relación el total de residuos
sólidos orgánicos generados (tn) en 1 año
Estadísticas de la regresión
Coeficiente de correlación múltiple 1
Coeficiente de determinación R^2 1
R^2 ajustado 1
Error típico 2.05554*10-13
Observaciones 12
^y =a+b X i + ℇ
n ∑ X i Y i− ∑ X i ∑ Y i
b=
n¿¿
12 ( 78618436.65 )−(20726.3185)( 44098.55)
b=
12 ( 36950665.23 )−(20726.31852 )
943,421,239.8−914,000,592.688175
b=
443,407,982.76−429,580,278.5634423
29,420,647.111825
b=
13,827,704.1965577
b=2.127659566159149
a=
∑ Y i −b ∑ Xi
n n
44098.55 2.127659566159149( 20726.3185)
a= −
12 12
a=3,674.879166666667−3,674.879152315529
a=0.000014351138
^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13
Existe una relación lineal positiva entre las variables producción de truchas y el total de
residuos sólidos orgánicos generados (tn). Esto indica que la producción de truchas es
mayor a medida que se incrementa el total de residuos sólidos orgánicos generados (tn).
El modelo RLS ^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13 significa
que la producción de truchas son afectados por un valor de 2.127659566159149 y en su
conjunto por 0.000014351138.
Por último, el error típico de estimación, en este caso
0.000000000000 2 05554=2.05554∗10−13 se refiere a la desviación típica de las
puntuaciones de error, es decir, a la raíz cuadrada de la varianza residual, siendo este un
valor mínimo, exponiendo que los datos guardan una alta correlación entre si al no
hallarse dispersos. Esto a su vez, aumenta el grado de confiabilidad de nuestra
investigación.
Tabla 3: Tabla de datos de investigación de la producción de truchas según el total
de residuos sólidos orgánicos generados (tn) en 1 año para el análisis de varianza y
el análisis de correlación
X: Total de y:
residuos sólidos CUADRADOS DE CUADRADOS DE MULTIPLICACIÓN
Mes orgánicos Producción Xi-X
DIFERENCIA
Yi-Y
DIFERENCIA DE DIFERENCIAS
generados (tn) de truchas
Enero 1701.9358 3621.14 -25.2574 637.9366757 -53.7392 2887.898034 1357.312076
Febrero 1662.3759 3536.97 -64.8173 4201.28346 -137.9092 19018.93825 8938.900978
Marzo 1866.5627 3971.41 139.3695 19423.85521 296.5308 87930.53512 41327.35151
Abril 1902.8749 4048.67 175.6817 30864.05679 373.7908 139719.5871 65668.20593
Mayo 1261.0805 2683.15 -466.1127 217261.0569 -991.7292 983526.74 462257.5678
Junio 1602.2817 3409.11 -124.9115 15602.88491 -265.7692 70633.24995 33197.62748
Julio 2540.1432 5404.56 812.9500 660887.689 1729.6808 2991795.785 1406144.019
Agosto 1537.7742 3271.86 -189.4190 35879.56072 -403.0192 162424.4487 76339.49089
Setiembre 1507.0315 3206.45 -220.1617 48471.17782 -468.4292 219425.8842 103130.1656
Octubre 1456.5676 3099.08 -270.6256 73238.21989 -575.7992 331544.6803 155825.9998
Noviembre 1940.348 4128.4 213.1548 45434.96521 453.5208 205681.1463 96670.13875
Diciembre 1747.3425 3717.75 20.1493 405.9939547 42.8708 1837.908351 863.8169248
PROMEDIO 1727.1932 3674.8792
1152308.680 5216426.8014916
SUMATORIA 20726.3185 44098.55 0.000 0.000 2451720.597
44951 7
n
r =∑ ¿ ¿ ¿
i=1
2451720.597
r=
√ 1152308.68044951 √ 5216426.80149167
2451720.597
r=
2,451,720.596701085
r =1.00000000012192
Puesto que el signo de r es el mismo que el de la pendiente, entonces
r =1.00000000012192 indica una existe una correlación positiva perfecta. El índice
indica una dependencia total entre las dos variables denominada relación directa:
cuando una de ellas aumenta, la otra también lo hace en proporción constante.
r 2=1.000000000243841
r 2=1
El índice de determinación de 100 % indica una relación positiva entre las variables en
estudio; es decir, la ecuación de regresión obtenida se ajusta a los datos y predice el
100 % de la variación total explicada por la regresión de y en x, es decir el grado de
influencia de la variable independiente (total de producción de residuos sólidos
orgánicos expresado en toneladas) en la variable dependiente(producción de truchas).
VI. CONCLUSIONES
En síntesis, podemos afirmar que el análisis de regresión involucra el estudio la
relación entre dos variables cuantitativas. En general interesa Investigar si existe una
asociación entre las dos variables; estudiar la fuerza de la asociación, a través de una
medida de asociación denominada coeficiente de correlación; estudiar la forma de la
relación. Siendo posible calcular estos datos de manera manual con las formulas
presentadas; sin embargo, gracias al uso de Software, en es te caso el programa
EXCEL, es más sencillo y preciso hallar los datos requeridos.
Usando los datos se propuso un modelo para la relación entre el total de residuos
sólidos orgánicos generados (tn) y la producción de truchas. A partir de las formulas
planteadas y el uso del programa Excel se obtuvo como resultado un modelo de
RLS igual a ^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13 significa
que la producción de truchas son afectados por un valor de 2.127659566159149.
Esto nos indica que la producción de truchas es mayor a medida que se incrementa el
total de residuos sólidos orgánicos generados (tn) en la región de Puno.
Se recomienda en cuanto al procesamiento de datos estadísticos comprobar con otros
programas especializados y tener una mayor cantidad de datos recolectados para una
mayor precisión en la obtención de los resultados.