0% encontró este documento útil (0 votos)
153 vistas18 páginas

Regresión Lineal en Truchicultura

Este documento presenta un trabajo sobre regresión lineal simple aplicado a la producción de truchas en la región de Puno, Perú. El objetivo es establecer un modelo de regresión lineal para explicar cómo la producción de truchas depende de la cantidad de residuos sólidos generados. Adicionalmente, se busca determinar el coeficiente de regresión, coeficiente de determinación y graficar e interpretar el modelo. El marco teórico explica conceptos clave como correlación, bondad de ajuste, error típico y covarianza para el

Cargado por

Ross HCH
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Temas abordados

  • método de mínimos cuadrados,
  • análisis de datos cuantitativo…,
  • asociación entre variables,
  • correlación,
  • Puno,
  • software estadístico,
  • tendencia lineal,
  • análisis de datos estadísticos,
  • evaluación de correlaciones,
  • análisis de varianza
0% encontró este documento útil (0 votos)
153 vistas18 páginas

Regresión Lineal en Truchicultura

Este documento presenta un trabajo sobre regresión lineal simple aplicado a la producción de truchas en la región de Puno, Perú. El objetivo es establecer un modelo de regresión lineal para explicar cómo la producción de truchas depende de la cantidad de residuos sólidos generados. Adicionalmente, se busca determinar el coeficiente de regresión, coeficiente de determinación y graficar e interpretar el modelo. El marco teórico explica conceptos clave como correlación, bondad de ajuste, error típico y covarianza para el

Cargado por

Ross HCH
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Temas abordados

  • método de mínimos cuadrados,
  • análisis de datos cuantitativo…,
  • asociación entre variables,
  • correlación,
  • Puno,
  • software estadístico,
  • tendencia lineal,
  • análisis de datos estadísticos,
  • evaluación de correlaciones,
  • análisis de varianza

“Año de la lucha contra la Corrupción y la Impunidad”

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE CIENCIAS BIOLÓGICAS

ESCUELA PROFESIONAL DE BIOLOGÍA

PROGRAMA DE ESTUDIO DE BIOLOGÍA: MICROBIOLOGÍA Y


LABORATORIO CLÍNICO

TRABAJO ENCARGADO: Regresión Lineal Simple

CURSO: Bioestadística

DOCENTE: Ing. Mg. Sc. José David Velezvía Díaz

PRESENTADO POR: Huallpa Chuquitarqui, Rossmery Yulissa

CÓDIGO: 191228

NIVEL: II semestre

PUNO – PERÚ
I. INTRODUCCIÓN

En el proceso de investigación científica el método de investigación científica es

importante para el desarrollo de la investigación. La recolección de datos adquiere

importancia para obtener información relevante. Uno de los aspectos más relevantes

de la estadística es el análisis de la relación o dependencia entre variables.

Frecuentemente resulta de interés conocer el efecto que una o varias variables

pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una

variable a partir de otra.

El procesamiento de los datos se emplea el Software (SPSC, Minitab,

ESTATISTICA, Excel). En el presente trabajo se cuenta con datos de producción de

truchas (Tn) y los residuos sólidos que se derivan del manejo de dicha especie. El

cual es una problemática recurrente, dado que las potencialidades y bondades que

presenta la región de Puno, nos permite desarrollar la actividad acuícola continental,

tanto en especies introducidas como es de mayor énfasis la truchicultura por las

características anatómicas, el desarrollo en nuestra región es con mucho éxito, lo que

permite una rentabilidad económica en los productores, se ha venido también

desarrollando la acuicultura en especies nativas, alto andinas y tropicales (La

Dirección de Acuicultura e Investigación, 2010).

Para lo cual se necesita establecer el modelo de Regresión Lineal Simple Aditivo

(RLS). Los métodos de regresión estudian la construcción de modelos para explicar o

representar la dependencia entre una variable respuesta y la variable explicativa. En

esta investigación abordaremos el modelo de regresión lineal, que tiene lugar cuando

la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas: ¿Es

significativo el efecto que una variable X (total de residuos sólidos orgánicos


generados (tn)) causa sobre otra Y (producción de truchas)? ¿Es significativa la

dependencia lineal entre esas dos variables?

De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir

la variable dependiente a partir de valores observados en la independiente.

II. OBJETIVOS

II.1. Establecer el modelo de Regresión Lineal Simple Aditivo para la

producción de truchas en la región Puno.

II.2. Determinar el coeficiente de regresión lineal simple “r”.

II.3. Determinar el coeficiente de determinación r2.

II.4. Graficar el modelo RLS y su interpretación.

III. MARCO TEÓRICO

III.1. CORRELACIÓN

La finalidad de la correlación es examinar la dirección y la fuerza de la

asociación entre dos variables cuantitativas. Así conoceremos la intensidad

de la relación entre ellas y si, al aumentar el valor de una variable, aumenta

o disminuye el valor de la otra variable.

Para valorar la asociación entre dos variables, la primera

aproximación suele hacerse mediante un diagrama de dispersión.


Figura 1. diagrama de dispersión

En el diagrama de dispersión de la figura 1 parece existir una relación

lineal entre el peso y el índice de masa corporal de los pacientes. Además, si

nos fijamos parece que existe un dato atípico que se aleja de la nube de

puntos.

Con la nube de puntos podemos apreciar si existe o no una

tendencia entre las dos variables, pero si queremos cuantificar esta

asociación debemos calcular un coeficiente de correlación.

Hay dos coeficientes de correlación que se usan frecuentemente: el de

Pearson (paramétrico) y el de Spearman (no paramétrico, se utiliza en

aquellos casos donde las variables examinadas no cumplen criterios de

normalidad o cuando las variables son ordinales).

El coeficiente de correlación de Pearson evalúa específicamente la

adecuación a la recta lineal que defina la relación entre dos variables

cuantitativas. El coeficiente no paramétrico de Spearman mide cualquier tipo


de asociación, no necesariamente lineal.

Si se desea medir o cuantificar el grado de asociación entre dos

variables cuantitativas se debe calcular un coeficiente de correlación.

III.2. Bondad de ajuste

Se refiere al coeficiente de correlación múltiple (R) y a su cuadrado. Puesto

que sólo tenemos dos variables, el coeficiente de correlación múltiple no es

otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre

esas dos variables (ver capítulo anterior). Su cuadrado (R cuadrado) es el

coeficiente de determinación:

(los residuos son las diferencias existentes entre las puntuaciones observadas y
2
los pronósticos obtenidos con la recta). Tal como hemos señalado ya, R

expresa la proporción de varianza de la variable dependiente que está explicada

por la variable independiente.

III.3. R cuadrado corregida

2
Es una corrección a la baja de R que se basa en el número de casos y de

variables independientes: (p se refiere al número de variables independientes).


2
En una situación con pocos casos y mu- chas variables independientes, R
2
puede ser artificialmente alta. En tal caso, el valor de R corregida será
sustancialmente más bajo que el de R 2.

III.4. El error típico de la estimación

Es la desviación típica de los residuos, es decir, la desviación típica de las

distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los

pronósticos efectuados con la recta de regresión aunque no exactamente,

pues la suma de las distancias al cuadrado están divididas por n2:

En realidad, este error típico es la raíz cuadrada de la media cuadrática

residual. Representa una medida de la parte de variabilidad de la variable

dependiente que no es explicada por la recta de regresión. En general, cuanto

mejor es el ajuste, más pequeño es este error típico.

III.5. Covarianza

El numerador del coeficiente de correlación es la covarianza muestral S XY

entre X e Y, que nos indica si la posible relación entre dos variables es

directa o inversa. Es una medida que nos habla de la variabilidad conjunta

de dos variables cuantitativas.

Así, si valores altos (o bajos) de X tienden a asociarse con valores

altos (o bajos) de Y, el producto de las desviaciones tenderá a ser positivo y

la covarianza será positiva.

Por el contrario, si valores altos de una variable se relacionan con

valores bajos de la otra variable, el producto de las desviaciones tenderá a

ser negativo y la covarianza será negativa.


De tal modo que:

- Si SXY >0 las dos variables crecen o decrecen a la vez (nube de puntos

creciente).

- Si SXY <0 cuando una variable crece, la otra tiene tendencia a decrecer

(nube de puntos decreciente).

- Si los puntos se reparten con igual densidad alrededor del centro de

gravedad x, y, SXY =0 (no hay relación lineal).

El signo de la covarianza nos dice si el aspecto de la nube de puntos es

creciente o no, pero no nos dice nada sobre el grado de relación entre las

variables.

Figura 2: Interpretación geométrica de SXY

Resulta complicado determinar el grado de asociación lineal entre dos

variables a partir de la magnitud de la covarianza, ya que ésta depende


de las unidades de medida de las variables.

- Carece de unidades de medida (adimensional).

- Sólo toma valores comprendidos entre [-1,1].

- Cuando |r| esté próximo a uno, r= +1 (recta lineal creciente de izquierda a

derecha) o r= -1 (recta lineal decreciente), se tiene que existe una relación

lineal muy fuerte entre las variables.

- Cuando r≈0, puede afirmarse que no existe relación lineal entre ambas

variables. Se dice en este caso que las variables son incorreladas.

IV. METODOLOGÍA

Para la presente investigación se hará uso del modelo de Regresión Lineal Simple

Aditivo (RLS).

IV.1. REGRESIÓN LINEAL SIMPLE

La regresión está dirigida a describir como es la relación entre dos

variables X e Y, de tal manera que incluso se pueden hacer predicciones

sobre los valores de la variable Y, a partir de los de X. Cuando la asociación

entre ambas variables es fuerte, la regresión nos ofrece un modelo

estadístico que puede alcanzar finalidades predictivas.

La regresión supone que hay una variable fija, controlada por el investigador

(es la variable independiente o predictora), y otra que no está controlada

(variable respuesta o dependiente). La correlación supone que ninguna es

fija: las dos variables están fuera del control de investigador.

La regresión es su forma más sencilla se llama regresión lineal simple. Se

trata de una técnica estadística que analiza la relación entre dos variables

cuantitativas, tratando de verificar si dicha relación es lineal.


Una vez que hemos hecho el diagrama de dispersión y después de observar

una posible relación lineal entre las dos variables, nos proponemos

encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.

Esta recta se denomina recta de regresión.

Mediante las técnicas de regresión inventamos una variable Ŷ como

función de otra variable X (o viceversa). El criterio para construir esta

función es que la diferencia entre Y e Ŷ, denominada error o residuo, sea

pequeña.

Los residuos o errores ei son la diferencia entre los valores observados

(verdadero valor de Y) y los valores pronosticados por el modelo: e i =Y-Ŷ.

Recogen la parte de la variable Y que no es explicada por el modelo de

regresión.

A partir de la definición de residuo, podemos escribir Y = f(X) + error.

El término que hemos denominado error debe ser tan pequeño como sea

posible. El objetivo será busca la función (modelo de regresión) Ŷ= f(X)

que lo minimice.

[Link] de una recta por mínimos cuadrados

La regresión lineal consiste en encontrar (aproximar) los valores de una

variable a partir de los de otra, usando una relación funcional de tipo

lineal, es decir, buscamos cantidades a (ordenada en el origen) y b


(pendiente de la recta lineal) tales que se pueda escribir Y  a  bX , con el

menor error posible entre Ŷ e Y.

Para cada valor observado de la variable independiente xi podemos

considerar dos valores de la variable dependiente, el observado yi y el estimado

a partir de la ecuación de la recta, yi  a  bxi

Para cada observación podemos definir el error o residuo como la

distancia vertical entre el punto (xi, yi) y la recta, es decir: yi – (a + bxi)

Por cada recta que consideremos, tendremos una colección diferente de

residuos. Se trata de buscar la recta que dé lugar a los residuos más pequeños,

es decir la recta que hace mínima la suma de cuadrados de las distancias

verticales entre cada punto y la recta, de tal manera que se minimice la suma de

los errores al cuadrado.

N N 

SC Re s  ie2  ( yi  y )
2

i
i1 i1

Para determinar la recta de regresión, utilizaremos el método

de los mínimos cuadrados.

Figura 3: Interpretacion geométrica del residuo


Las cantidades a y b que minimizan dicho error son los llamados coeficientes

de regresión:

La cantidad b se denomina “coeficiente de regresión de Y sobre X”.

Interpretación de la ordenada en el origen a:

Este parámetro representa la estimación del valor de Y cuando X es igual a cero.

Interpretación de la pendiente de la recta b:

El coeficiente de regresión es muy importante, porque mide el cambio de la

variable Y por cada unidad de cambio de X. Este parámetro nos informa de cómo

están relacionadas las dos variables en el sentido de que nos indica en qué cantidad

(y si es positiva o negativa) varían los valores de Y cuando varían los valores de la

X en una unidad. De hecho, el coeficiente de regresión b y el coeficiente de

correlación r siempre tendrán el mismo signo.


Si b > 0, cada aumento de X se corresponde con un aumento de Y;

Si b < 0, Y decrece a medida que aumenta X.

V. RESULTADOS
Gráfico 1 : Producción de truchas según el total de residuos sólidos
organicos generados (tn)
6000

5500

f(x) = 2.13 x + 0
R² = 1
5000

4500
Producción de truchas

Linear ()
4000

3500

3000

2500

2000
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800

Total de residuos sólidos organicos generados (tn)

Fig. 1: Tabla de datos de la producción de truchas según el total de residuos sólidos

orgánicos generados (tn) en 1 año


X: Total de
residuos
Y: Production de
MES sólidos XY X2 Y2
truchas
orgánicos
generados (tn)
Enero 1701.9358 3621.14 6162947.8 2896585.47 13112654.9
Febrero 1662.3759 3536.97 5879773.69 2763493.63 12510156.8
Marzo 1866.5627 3971.41 7412885.77 3484056.31 15772097.4
Abril 1902.8749 4048.67 7704112.52 3620932.89 16391728.8
Mayo 1261.0805 2683.15 3383668.14 1590324.03 7199293.92
Junio 1602.2817 3409.11 5462354.57 2567306.65 11622031
Julio 2540.1432 5404.56 13728356.3 6452327.48 29209268.8
Agosto 1537.7742 3271.86 5031381.89 2364749.49 10705067.9
Setiembre 1507.0315 3206.45 4832221.15 2271143.94 10281321.6
Octubre 1456.5676 3099.08 4514019.52 2121589.17 9604296.85
Noviembre 1940.348 4128.4 8010532.68 3764950.36 17043686.6
Diciembre 1747.3425 3717.75 6496182.58 3053205.81 13821665.1
 SUMATORI
20726.3185 44098.55 78618436.7 36950665.2 167273269
A

Tabla 2: Tabla de datos de las estadísticas de la regresión lineal simple aditiva

sobre la investigación de la producción de truchas en relación el total de residuos

sólidos orgánicos generados (tn) en 1 año

Estadísticas de la regresión
Coeficiente de correlación múltiple 1
Coeficiente de determinación R^2 1
R^2 ajustado 1
Error típico 2.05554*10-13
Observaciones 12

^y =a+b X i + ℇ

n ∑ X i Y i− ∑ X i ∑ Y i
b=
n¿¿

12 ( 78618436.65 )−(20726.3185)( 44098.55)


b=
12 ( 36950665.23 )−(20726.31852 )
943,421,239.8−914,000,592.688175
b=
443,407,982.76−429,580,278.5634423

29,420,647.111825
b=
13,827,704.1965577

b=2.127659566159149

a=
∑ Y i −b ∑ Xi
n n

44098.55 2.127659566159149( 20726.3185)


a= −
12 12

a=3,674.879166666667−3,674.879152315529

a=0.000014351138

^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13

Existe una relación lineal positiva entre las variables producción de truchas y el total de

residuos sólidos orgánicos generados (tn). Esto indica que la producción de truchas es

mayor a medida que se incrementa el total de residuos sólidos orgánicos generados (tn).

El modelo RLS ^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13 significa

que la producción de truchas son afectados por un valor de 2.127659566159149 y en su

conjunto por 0.000014351138.

Por último, el error típico de estimación, en este caso

0.000000000000 2 05554=2.05554∗10−13 se refiere a la desviación típica de las

puntuaciones de error, es decir, a la raíz cuadrada de la varianza residual, siendo este un

valor mínimo, exponiendo que los datos guardan una alta correlación entre si al no

hallarse dispersos. Esto a su vez, aumenta el grado de confiabilidad de nuestra

investigación.
Tabla 3: Tabla de datos de investigación de la producción de truchas según el total

de residuos sólidos orgánicos generados (tn) en 1 año para el análisis de varianza y

el análisis de correlación

X: Total de y:
residuos sólidos CUADRADOS DE CUADRADOS DE MULTIPLICACIÓN
Mes orgánicos Producción Xi-X
DIFERENCIA
Yi-Y
DIFERENCIA DE DIFERENCIAS
generados (tn) de truchas
Enero 1701.9358 3621.14 -25.2574 637.9366757 -53.7392 2887.898034 1357.312076
Febrero 1662.3759 3536.97 -64.8173 4201.28346 -137.9092 19018.93825 8938.900978
Marzo 1866.5627 3971.41 139.3695 19423.85521 296.5308 87930.53512 41327.35151
Abril 1902.8749 4048.67 175.6817 30864.05679 373.7908 139719.5871 65668.20593
Mayo 1261.0805 2683.15 -466.1127 217261.0569 -991.7292 983526.74 462257.5678
Junio 1602.2817 3409.11 -124.9115 15602.88491 -265.7692 70633.24995 33197.62748
Julio 2540.1432 5404.56 812.9500 660887.689 1729.6808 2991795.785 1406144.019
Agosto 1537.7742 3271.86 -189.4190 35879.56072 -403.0192 162424.4487 76339.49089
Setiembre 1507.0315 3206.45 -220.1617 48471.17782 -468.4292 219425.8842 103130.1656
Octubre 1456.5676 3099.08 -270.6256 73238.21989 -575.7992 331544.6803 155825.9998
Noviembre 1940.348 4128.4 213.1548 45434.96521 453.5208 205681.1463 96670.13875
Diciembre 1747.3425 3717.75 20.1493 405.9939547 42.8708 1837.908351 863.8169248
PROMEDIO 1727.1932 3674.8792          
1152308.680 5216426.8014916
SUMATORIA 20726.3185 44098.55 0.000 0.000 2451720.597
44951 7

n
r =∑ ¿ ¿ ¿
i=1

2451720.597
r=
√ 1152308.68044951 √ 5216426.80149167

2451720.597
r=
2,451,720.596701085

r =1.00000000012192

Puesto que el signo de r  es el mismo que el de la pendiente, entonces

r =1.00000000012192 indica una existe una correlación positiva perfecta. El índice


indica una dependencia total entre las dos variables denominada relación directa:

cuando una de ellas aumenta, la otra también lo hace en proporción constante.

r 2=1.000000000243841

r 2=1

El índice de determinación de 100 % indica una relación positiva entre las variables en

estudio; es decir, la ecuación de regresión obtenida se ajusta a los datos y predice el

100 % de la variación total explicada por la regresión de y en x, es decir el grado de

influencia de la variable independiente (total de producción de residuos sólidos

orgánicos expresado en toneladas) en la variable dependiente(producción de truchas).

VI. CONCLUSIONES

En síntesis, podemos afirmar que el análisis de regresión involucra el estudio la

relación entre dos variables cuantitativas. En general interesa Investigar si existe una

asociación entre las dos variables; estudiar la fuerza de la asociación, a través de una

medida de asociación denominada coeficiente de correlación; estudiar la forma de la

relación. Siendo posible calcular estos datos de manera manual con las formulas

presentadas; sin embargo, gracias al uso de Software, en es te caso el programa

EXCEL, es más sencillo y preciso hallar los datos requeridos.

Usando los datos se propuso un modelo para la relación entre el total de residuos

sólidos orgánicos generados (tn) y la producción de truchas. A partir de las formulas

planteadas y el uso del programa Excel se obtuvo como resultado un modelo de

RLS igual a ^y =0.000014351138+2.127659566159149 x i +2.05554∗10−13 significa

que la producción de truchas son afectados por un valor de 2.127659566159149.

Esto nos indica que la producción de truchas es mayor a medida que se incrementa el

total de residuos sólidos orgánicos generados (tn) en la región de Puno.


Se recomienda en cuanto al procesamiento de datos estadísticos comprobar con otros

programas especializados y tener una mayor cantidad de datos recolectados para una

mayor precisión en la obtención de los resultados.

También podría gustarte