Curso Práctico de Bioestadística con R
Curso Práctico de Bioestadística con R
ACTICO DE
BIOESTAD
ISTICA CON R
Alfredo Sanchez Alberca ([email protected])
Practicas de Estadstica con R
Santiago Angulo Daz-Parreno, Jose Miguel Cardenas Rebollo, Anselmo Romero Lim on y Alfredo Sanchez
Alberca ([email protected]).
Esta obra esta bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 Espa na de Crea-
tive Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/byncsa/2.5/es/ o en-
vie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
Con esta licencia eres libre de:
Copiar, distribuir y mostrar este trabajo.
Realizar modicaciones de este trabajo.
Bajo las siguientes condiciones:
Reconocimiento. Debe reconocer los creditos de la obra de la manera
especicada por el autor o el licenciador (pero no de una manera que
sugiera que tiene su apoyo o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para nes comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o
genera una obra derivada, solo puede distribuir la obra generada bajo una
licencia identica a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los derechos de autor
Nada en esta licencia menoscaba o restringe los derechos morales del autor.
Indice general
1. Introducci on a R y RKWard 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Instalacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Instalacion de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2. Instalacion de la interfaz graca RKWard y el paquete rkTeaching . . . . . . . . . 2
1.3. Arranque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Tipos de datos y operadores aritmeticos y logicos . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Introduccion y manipulaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.1. Introduccion de datos en lnea de comandos . . . . . . . . . . . . . . . . . . . . . . 5
1.5.2. Introduccion de datos en RKWard . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3. Ponderaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.4. Guardar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.5. Abrir datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.6. Eliminacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6. Transformacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.1. Filtrado de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.2. Calculo de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.3. Recodicacion de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7. Manipulacion de cheros de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7.1. Guardar los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7.2. Limpiar la ventana de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Manipulacion de guiones de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.1. Creaci on de un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.2. Guardar un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.3. Abrir un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9. Ayuda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.10. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.11. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Distribuciones de Frecuencias y Representaciones Gracas 17
2.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1. Calculo de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Representaciones Gracas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3. Estadsticos Muestrales 27
3.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2. Medidas de dispersi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.3. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.4. Estadsticos de variables en las que se denen grupos . . . . . . . . . . . . . . . . . 30
3.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
i
p
i
c
o
D
a
t
o
a
t
p
i
c
o
Figura 2.4 Diagrama de cajas para una muestra de recien nacidos. Existen dos ni nos con pesos
atpicos, uno con peso extremadamente bajo 1,9 kg, y otro con peso extremadamente alto 4,3 kg.
22
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
2 Ejercicios resueltos
1. En una encuesta a 25 matrimonios sobre el n umero de hijos que tenan se obtuvieron los siguientes
datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
Se pide:
a) Crear un conjunto de datos con la variable hijos e introducir los datos.
b) Construir la tabla de frecuencias.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias .
2) En el cuadro de dialogo que aparece, seleccionar la variable hijos en el campo Variable a tabular y hacer
clic en el bot on Enviar.
c) Dibujar el diagrama de barras de las frecuencias absolutas.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de barras.
2) En el cuadro de dialogo que aparece, seleccionar la variable hijos en el campo Variable y hacer clic en el
bot on Enviar.
d) Para la misma tabla de frecuencias anterior, dibujar tambien el diagrama de barras de las fre-
cuencias relativas, el de absolutas acumuladas y el de relativas acumuladas, ademas de sus co-
rrespondientes polgonos.
Indicacion
Repetir los pasos del apartado anterior activando, en la solapa de Opciones de las barras, la opci on Frecuen
cias relativas si se desea el diagrama de barras de frecuencias relativas, activando la opci on Frecuencias
acumuladas si se desea el diagrama de barras de frecuencias acumuladas y activando la opci on Polgono para
obtener el polgono asociado.
2. En un hospital se realizo un estudio sobre el n umero de personas que ingresaron en urgencias cada
da del mes de noviembre. Los datos observados fueron:
15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26
30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20
Se pide:
a) Crear un conjunto de datos con la variable urgencias e introducir los datos.
b) Dibujar el diagrama de cajas. Existe alg un dato atpico? En el caso de que exista, eliminarlo y
proceder con los siguientes apartados.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de cajas.
2) En el cuadro de dialogo que aparece, seleccionar la variable urgencias en el campo Variables y hacer clic
en el bot on Enviar.
3) En la ventana que aparece con el diagrama de cajas identicar el dato atpico.
4) Ir a la ventana de edici on de datos y eliminar la la del dato atpico haciendo clic con el bot on derecho
del raton en la cabecera de la la y seleccionando Borrar esta fila.
c) Construir la tabla de frecuencias agrupando en 5 clases.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias.
3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on Numero de intervalos
e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on
Enviar.
23
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
d) Dibujar el histograma de frecuencias absolutas correspondiente a la tabla anterior.
Indicacion
1) Seleccionar el men u Teaching Graficos Histograma.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias en el campo Variable.
3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on Numero de intervalos
e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on
Enviar.
e) Para la misma tabla de frecuencias anterior, dibujar tambien el histograma de las frecuencias
relativas, el de absolutas acumuladas y el de relativas acumuladas, ademas de sus correspondientes
polgonos.
Indicacion
Repetir los pasos del apartado anterior activando, en la solapa de Opciones del histograma, la opci on Frecuen
cias relativas si se desea el histograma de frecuencias relativas, activando la opci on Frecuencias acumuladas
si se desea el histograma de frecuencias acumuladas y activando la opci on Polgono para obtener el polgono
asociado.
3. Los grupos sanguneos de una muestra de 30 personas son:
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB,
A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0.
Se pide:
a) Crear un conjunto de datos con la variable grupo.sanguineo e introducir los datos.
b) Construir la tabla de frecuencias.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias .
2) En el cuadro de dialogo que aparece, seleccionar la variable grupo.sanguineo en el campo Variable a
tabular y hacer clic en el bot on Enviar.
c) Dibujar el diagrama de sectores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de sectores.
2) En el cuadro de dialogo que aparece, seleccionar la variable grupo.sanguineo en el campo Variables y
hacer clic sobre el bot on Enviar.
4. En un estudio de poblacion se tomo una muestra de 27 personas, y se les pregunt o por su edad y
estado civil, obteniendo los siguientes resultados:
Estado civil Edad
Soltero 31 45 35 65 21 38 62 22 31
Casado 62 39 62 59 21 62
Viudo 80 68 65 40 78 69 75
Divorciado 31 65 59 49 65
Se pide:
a) Crear un conjunto de datos con la variables estado.civil y edad e introducir los datos.
b) Construir la tabla de frecuencias de la variable edad para cada categora de la variable esta-
do.civil.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias.
2) En el cuadro de dialogo que aparece, seleccionar la variable edad en el campo Variable a tabular, activar
la casilla Tabular por grupos, seleccionar la variable estado.civil en el campo Variable de agrupacion y
hacer clic en el bot on Enviar.
24
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
c) Dibujar los diagramas de cajas de la edad seg un el estado civil. Existen datos atpicos? En
que grupo hay mayor dispersi on?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de cajas.
2) En el cuadro de dialogo que aparece, seleccionar la variable edad en el campo Variables, activar la casilla
Dibujar por grupos, seleccionar la variable estado.civil en el campo Variable de agrupacion y hacer clic
en el bot on Enviar.
3 Ejercicios propuestos
1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue
el siguiente:
0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1
Se pide:
a) Construir la tabla de frecuencias.
b) Dibujar el diagrama de barras de las frecuencias relativas y de frecuencias relativas acumuladas.
c) Dibujar el diagrama de sectores.
2. Para realizar un estudio sobre la estatura de los estudiantes universitarios, seleccionamos, mediante
un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados
(medidos en centmetros):
179, 173, 181, 170, 158, 174, 172, 166, 194, 185,
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,
175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
Se pide:
a) Dibujar el histograma de las frecuencias absolutas agrupando desde 150 a 200 en clases de
amplitud 10.
b) Dibujar el diagrama de cajas. Existe alg un dato atpico?.
3. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Construir la tabla de frecuencias de la puntuacion Apgar al minuto de nacer. Si se considera que
una puntuacion Apgar de 3 o menos indica que el neonato est a deprimido, que porcentaje de
ni nos est a deprimido en la muestra?
b) Comparar las distribuciones de frecuencias de las puntuaciones Apgar al minuto de nacer seg un
si la madre es mayor o menor de 20 a nos. En que grupo hay mas neonatos deprimidos?
c) Construir la tabla de frecuencias para el peso de los neonatos, agrupando en clases de amplitud
0,5 desde el 2 hasta el 4,5. En que intervalo de peso hay mas ni nos?
d) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre fuma
o no. Si se considera como peso bajo un peso menor de 2,5 kg, En que grupo hay un mayor
porcentaje de ni nos con peso bajo?
e) Si en los recien nacidos se considera como peso bajo un peso menor de 2,5 kg, calcular la
prevalencia del bajo peso de recien nacidos en el grupo de madres fumadoras y en el de no
fumadoras.
25
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
f ) Calcular el riesgo relativo de que un recien nacido tenga bajo peso cuando la madre fuma, frente
a cuando la madre no fuma.
g) Construir el diagrama de barras de la puntuacion Apgar al minuto. Que puntuacion Apgar es
la mas frecuente?
h) Construir el diagrama de frecuencias relativas acumuladas de la puntuacion Apgar al minuto.
Por debajo de que puntuacion estar an la mitad de los ni nos?
i) Comparar mediante diagramas de barras de frecuencias relativas las distribuciones de las pun-
tuaciones Apgar al minuto seg un si la madre ha fumado o no durante el embarazo. Que se puede
concluir?
j ) Construir el histograma de pesos, agrupando en clases de amplitud 0,5 desde el 2 hasta el 4,5.
En que intervalo de peso hay mas ni nos?
k) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre fuma
o no. En que grupo se aprecia menor peso de los ni nos de la muestra?
l ) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre
fumaba o no antes del embarazo. Que se puede concluir?
m) Construir el diagrama de caja y bigotes del peso. Entre que valores se considera que el peso de
un neonato es normal? Existen datos atpicos?
n) Comparar el diagrama de cajas y bigotes del peso, seg un si la madre fumo o no durante el
embarazo y si era mayor o no de 20 a nos. En que grupo el peso tiene mas dispersi on central?
En que grupo pesan menos los ni nos de la muestra?
n) Comparar el diagrama de cajas de la puntuacion Apgar al minuto y a los cinco minutos. En
que variable hay mas dispersi on central?
26
Practica de Estadstica con R 3
Estadsticos Muestrales
1 Fundamentos teoricos
Hemos visto c omo podemos presentar la informacion que obtenemos de la muestra, a traves de tablas
o bien a traves de gracas. La tabla de frecuencias contiene toda la informacion de la muestra pero resulta
difcil sacar conclusiones sobre determinados aspectos de la distribuci on con solo mirarla. Ahora veremos
c omo a partir de esos mismos valores observados de la variable estadstica, se calculan ciertos n umeros
que resumen la informacion muestral. Estos n umeros, llamados Estadsticos, se utilizan para poner de
maniesto ciertos aspectos de la distribuci on, tales como la dispersi on o concentraci on de los datos, la
forma de su distribuci on, etc. Seg un sea la caracterstica que pretenden reejar se pueden clasicar en
medidas de posicion, medidas de dispersi on y medidas de forma.
1.1 Medidas de posici on
Son valores que indican c omo se sit uan los datos. Los mas importantes son la Media aritmetica, la
Mediana y la Moda.
Media aritmetica x
Se llama media aritmetica de una variable estadstica X, y se representa por x , a la suma de todos
los resultados observados, dividida por el tama no muestral. Es decir, la media de la variable estadstica
X, cuya distribuci on de frecuencias es (x
i
, n
i
), viene dada por
x =
x
1
+ . . . + x
1
+ . . . + x
k
+ . . . + x
k
n
1
+ . . . + n
k
=
x
1
n
1
+ . . . + x
k
n
k
n
=
1
n
k
i=1
x
i
n
i
La media aritmetica solo tiene sentido en variables cuantitativas.
Mediana Me
Se llama mediana y lo denotamos por Me, a aquel valor de la muestra que, una vez ordenados todos
los valores de la misma en orden creciente, tiene tantos terminos inferiores a el como superiores. En
consecuencia, divide la distribuci on en dos partes iguales.
La mediana solo tiene sentido en atributos ordinales y en variables cuantitativas.
Moda Mo
La moda es el valor de la variable que presenta una mayor frecuencia en la muestra. Cuando haya
mas de un valor con frecuencia maxima diremos que hay mas de una moda. En variables continuas o
discretas agrupadas llamaremos clase modal a la que tenga la maxima frecuencia. Se puede calcular la
moda tanto en variables cuantitativas como cualitativas.
27
3. Estadsticos Muestrales Universidad San Pablo CEU
Cuantiles
Si el conjunto total de valores observados se divide en r partes que contengan cada una
n
r
observa-
ciones, los puntos de separacion de las mismas reciben el nombre generico de cuantiles.
Seg un esto la mediana tambien es un cuantil con r = 2. Algunos cuantiles reciben determinados
nombres como:
Cuartiles. Son los puntos que dividen la distribuci on en 4 partes iguales y se designan por C
1
, C
2
, C
3
.
Es claro que C
2
= Me.
Deciles. Son los puntos que dividen la distribuci on en 10 partes iguales y se designan por D
1
, D
2
, . . . , D
9
.
Percentiles. Son los puntos que dividen la distribuci on en 100 partes iguales y se designan por P
1
, P
2
, . . . , P
99
.
1.2 Medidas de dispersi on
Miden la separacion existente entre los valores de la muestra. Las mas importantes son el Rango o
Recorrido, el Rango Intercuartlico, la Varianza, la Desviaci on Tpica y el Coeciente de Variacion.
Rango o Recorrido Re
La medida de dispersi on mas inmediata es el rango. Llamamos recorrido o rango y lo designaremos
por Re a la diferencia entre los valores maximo y mnimo que toma la variable en la muestra, es decir
Re = max{x
i
, i = 1, 2, . . . , n} min{x
i
, i = 1, 2, . . . , n}.
Este estadstico sirve para medir el campo de variacion de la variable, aunque es la medida de
dispersi on que menos informacion proporciona sobre la mayor o menor agrupaci on de los valores de la
variable alrededor de las medidas de tendencia central. Ademas tiene el inconveniente de que se ve muy
afectado por los datos atpicos.
Rango Intercuartlico RI
El rango intercuartlico RI es la diferencia entre el tercer y el primer cuartil, y mide, por tanto, el
campo de variacion del 50 % de los datos centrales de la distribuci on. Por consiguiente
RI = C
3
C
1
.
La ventaja del rango intercuartlico frente al recorrido es que no se ve tan afectado por los datos
atpicos.
Varianza s
2
x
Llamamos varianza de una variable estadstica X, y la designaremos por s
2
x
, a la media de los cua-
drados de las desviaciones de los valores observados respecto de la media de la muestra, es decir,
s
2
x
=
1
n
k
i=1
(x
i
x)
2
n
i
.
Desviaci on Tpica s
x
La raz cuadrada positiva de la varianza se conoce como desviaci on tpica de la variable X, y se
representa por s,
s = +
s
2
x
.
28
Universidad San Pablo CEU 3. Estadsticos Muestrales
Coeciente de Variaci on de Pearson Cv
x
Al cociente entre la desviacion tpica y el valor absoluto de la media se le conoce como coeciente de
variacion de Pearson o simplemente coeciente de variacion:
Cv
x
=
s
x
|x|
.
El coeciente de variacion es adimensional, y por tanto permite hacer comparaciones entre variables
expresadas en distintas unidades. Cuanto mas proximo este a 0, menor sera la dispersi on de la muestra
en relacion con la media, y mas representativa sera esta ultima del conjunto de observaciones.
1.3 Medidas de forma
Indican la forma que tiene la distribuci on de valores en la muestra. Se pueden clasicar en dos grupos:
Medidas de asimetra y medidas de apuntamiento o curtosis.
Coeciente de asimetra de Fisher g
1
El coeciente de asimetra de Fisher, que se representa por g
1
, se dene
g
1
=
k
i=1
(x
i
x)
3
f
i
s
3
x
.
Dependiendo del valor que tome tendremos:
g
1
= 0. Distribucion simetrica.
g
1
< 0. Distribucion asimetrica hacia la izquierda.
g
1
> 0. Distribucion asimetrica hacia la derecha.
Coeciente de apuntamiento o curtosis g
2
El grado de apuntamiento de las observaciones de la muestra, se caracteriza por el coeciente de
apuntamiento o curtosis, que se representa por g
2
, y se dene
g
2
=
k
i=1
(x
i
x)
4
f
i
s
4
x
3.
Dependiendo del valor que tome tendremos:
g
2
= 0. La distribuci on tiene un apuntamiento igual que el de la distribuci on normal de la misma
media y desviacion tpica. Se dice que es una distribuci on mesoc urtica.
g
2
< 0. La distribuci on es menos apuntada que la distribuci on normal de la misma media y
desviacion tpica. Se dice que es una distribuci on platic urtica.
g
2
> 0. La distribuci on es mas apuntada que la distribuci on normal de la misma media y desviacion
tpica. Se dice que es una distribuci on leptoc urtica.
Tanto g
1
como g
2
suelen utilizarse para comprobar si los datos muestrales provienen de una poblacion
no normal. Cuando g
1
est a fuera del intervalo [-2,2] se dice que la distribuci on es demasiado asimetrica
como para que los datos provengan de una poblacion normal. Del mismo modo, cuando g
2
est a fuera del
intervalo [-2,2] se dice que la distribuci on es, o demasiado apuntada, o demasiado plana, como para que
los datos provengan de una poblacion normal.
29
3. Estadsticos Muestrales Universidad San Pablo CEU
1.4 Estadsticos de variables en las que se denen grupos
Ya sabemos c omo resumir la informacion contenida en una muestra utilizando una serie de estadsti-
cos. Pero hasta ahora solo hemos estudiado ejemplos con un unico car acter objeto de estudio.
En la mayora de las investigaciones no estudiaremos un unico car acter, sino un conjunto de caracteres,
y muchas veces sera conveniente obtener informacion de un determinado car acter, en funci on de los grupos
creados por otro de los caracteres estudiados en la investigacion. A estas variables que se utilizan para
formar grupos se les conoce como variables clasicadoras o factores.
Por ejemplo, si se realiza un estudio sobre un conjunto de ni nos recien nacidos, podemos estudiar su
peso. Pero si ademas sabemos si la madre de cada ni no es fumadora o no, podremos hacer un estudio
del peso de los ni nos de las madres fumadoras por un lado y los de las no fumadoras por otro, para ver
si existen diferencias entre ambos grupos.
30
Universidad San Pablo CEU 3. Estadsticos Muestrales
2 Ejercicios resueltos
1. En una encuesta a 25 matrimonios sobre el n umero de hijos que tenan se obtuvieron los siguientes
datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
Se pide:
a) Crear un conjunto de datos con la variable hijos e introducir los datos. Si ya se tienen los datos,
simplemente recuperarlos.
b) Calcular la media aritmetica, varianza y desviacion tpica de dicha variable. Interpretar los
estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable hijos en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Media y Desviacion tpica, y hacer click sobre el bot on
Enviar.
c) Calcular los cuartiles, el recorrido, el rango intercuartlico, el tercer decil y el percentil 68.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable hijos en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Cuartiles, Rango, Rango intercuartlico, introducir los
valores 0,3 y 0,68 en el campo Percentiles, y hacer click sobre el bot on Enviar.
2. En un hospital se realizo un estudio sobre el n umero de personas que ingresaron en urgencias cada
da del mes de noviembre. Los datos observados fueron:
15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26
30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20
Se pide:
a) Crear un conjunto de datos con la variable urgencias e introducir los datos.
b) Calcular la media aritmetica, varianza, desviacion tpica y coeciente de variacion de dicha
variable. Interpretar los estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Media, Varianza, Desviacion tpica y Coeficiente de
variacion, y hacer click sobre el bot on Enviar.
c) Calcular el coeciente de asimetra y el de curtosis e interpretar los resultados
Indicacion
Seguir los mismos pasos del apartado anterior, seleccionando Cofeficiente de asimetra y Coeficiente de
Curtosis en la solapa Estadsticos b asicos.
3. En un grupo de 20 alumnos, las calicaciones obtenidas en Matem aticas fueron:
SS, AP, SS, AP, AP, NT, NT, AP, SB, SS
SB, SS, AP, AP, NT, AP, SS, NT, SS, NT
Se pide:
31
3. Estadsticos Muestrales Universidad San Pablo CEU
a) Crear un conjunto de datos curso con la variable calicaciones e introducir los datos.
b) Recodicar esta variable, asignando 2,5 al SS, 6 al AP, 8 al NT y 9,5 al SB.
Indicacion
1) Selecionar el men u Teaching Datos Recodificar variable.
2) En el cuadro de dialogo que aparece seleccionar como variable a recodicar la variable calicaciones.
3) Introducir las reglas de recodicacion en el campo Reglas de recodificacion:
SS = 2.5
AP = 6
NT = 8
SB = 9.5
4) En el cuadro Guardar nueva variable hacer click sobre el bot on Cambiar.
5) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos curso y hacer
click sobre el bot on Enviar.
6) Introducir el nombre de la nueva variable nota, desmarcar la casilla Convertir en factor y hacer click
sobre el bot on Enviar.
c) La mediana y el rango intercuartlico.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable nota en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Mediana y Rango intercuartlico, y hacer click sobre el
bot on Enviar.
4. Para realizar un estudio sobre la estatura de los estudiantes universitarios se ha seleccionado mediante
un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados
(medidos en centmetros):
Mujeres: 173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168.
Hombres: 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187.
Se pide:
a) Crear un conjunto de datos con las variables estatura y sexo e introducir los datos.
b) Obtener un resumen de estadsticos en el que se muestren la media aritmetica, mediana, varianza,
desviacion tpica y cuartiles seg un el sexo. Interpretar los estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable estatura en el campo Variables, marcar la
casilla Estadstica por grupos y seleccionar la variable sexo en el campo Variables de agrupacion.
3) En la solapa Estadsticos basicos seleccionar Media, Mediana, Varianza, Desviacion tpica y Cuarti
les, y hacer click sobre el bot on Enviar.
3 Ejercicios propuestos
1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue
el siguiente:
0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1
Se pide:
a) Calcular la media aritmetica, mediana, varianza y desviacion tpica de las lesiones e interpretarlas.
b) Calcular los coecientes de asimetra y curtosis e interpretarlos.
32
Universidad San Pablo CEU 3. Estadsticos Muestrales
c) Calcular el cuarto y el octavo decil e interpretarlos.
2. En un estudio de poblacion se tomo una muestra de 27 personas, y se les pregunt o por su edad y
estado civil, obteniendo los siguientes resultados:
Estado civil Edad
Soltero 31 45 35 65 21 38 62 22 31
Casado 62 39 62 59 21 62
Viudo 80 68 65 40 78 69 75
Divorciado 31 65 59 49 65
Se pide:
a) Calcular la media y la desviacion tpica de la edad seg un el estado civil e interpretarlas.
b) En que grupo es mas representativa la media?
3. En un estudio se ha medido la tensi on arterial de 25 individuos. Ademas se les ha preguntado si fuman
y beben:
Fumador si no si si si no no si no si no si no
Bebedor no no si si no no si si no si no si si
Tension arterial 80 92 75 56 89 93 101 67 89 63 98 58 91
Fumador si no no si no no no si no si no si
Bebedor si no si si no no si si si no si no
Tension arterial 71 52 98 104 57 89 70 93 69 82 70 49
Calcular la media aritmetica, desviacion tpica, coeciente de asimetra y curtosis de la tensi on arterial
por grupos dependiendo de si beben o fuman e interpretarlos.
4. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Calcular la media y la mediana muestral del peso de los nacidos e interpretarlos.
b) Calcular el peso medio de los recien nacidos de la muestra seg un si la madre ha fumado o no
durante el embarazo. Calcular tambien el peso medio de los recien nacidos de madres que no han
fumado durante el embarazo, seg un si la madre fumaba o no antes del embarazo. Que conclu-
siones se pueden sacar?
c) Cual es la puntuacion Apgar al minuto de nacer mas frecuente?
d) Calcular la media de la diferencia entre las puntuaciones Apgar a los 5 minutos y al minuto de
nacer. Como evolucionan los recien nacidos?
e) Calcular los cuartiles muestrales del peso de los recien nacidos e interpretarlos.
f ) Comparar los cuartiles muestrales del peso de los recien nacidos seg un el sexo.
g) Por encima de que peso estar an el 10 % de los ni nos con mayor peso?
h) Si se considera que un ni no es atpico por bajo peso si se encuentra entre el 5 % de los pesos mas
bajos, por debajo de que peso tiene que estar?
i) Calcular el recorrido y el rango intercuartlico muestrales del peso de los recien nacidos e inter-
pretarlos.
j ) Calcular la varianza y la desviaci on tpica del peso de los recien nacidos e interpretarlos.
k) En que grupo hay mas variabilidad del peso de los recien nacidos, en las madres fumadoras o en
las madres no fumadoras durante el embarazo? En que grupo sera mas representativo el peso
medio?
l ) Que variable presenta mas variabilidad relativa, el peso de los recien nacidos o el Apgar al
minuto de nacer?
33
3. Estadsticos Muestrales Universidad San Pablo CEU
m) Calcular el coeciente de asimetra y de apuntamiento muestrales del peso de los recien nacidos
e interpretarlos.
n) Que distribuci on es mas asimetrica, la de los pesos de recien nacidos en madres mayores de 20
a nos o en madres menores de 20 a nos?
n) Que distribuci on es mas apuntada, la del peso de los recien nacidos en hombres o en mujeres?
o) De acuerdo a la forma de la distribuci on, puede considerarse la puntuacion Apgar al minuto de
nacer como una variable normal? Y el n umero de cigarros fumados al da durante el embarazo?
5. Se quiere comparar la precisi on de dos tensi ometros, uno de brazo y otro de mu neca, y para ello se
han realizado 8 medidas repetidas de la tensi on arterial de una misma persona con cada uno de ellos,
obteniendo los siguientes valores en mmHg:
tens.brazo: 111, 109, 112, 111, 113, 113, 114, 111.
tens.muneca: 115, 113, 117, 116, 112, 112, 117, 112.
Que tensi ometro es mas preciso?
34
Practica de Estadstica con R 4
Regresion Lineal Simple y Correlacion
1 Fundamentos teoricos
1.1 Regresion
La regresi on es la parte de la estadstica que trata de determinar la posible relacion entre una
variable numerica Y , que suele llamarse variable dependiente, y otro conjunto de variables numericas,
X
1
, X
2
, . . . , X
n
, conocidas como variables independientes, de una misma poblacion. Dicha relacion se
reeja mediante un modelo funcional y = f(x
1
, . . . , x
n
).
El caso mas sencillo se da cuando solo hay una variable independiente X, y entonces se habla de
regresi on simple. En este caso el modelo que explica la relacion entre X e Y es una funci on de una
variable y = f(x).
Dependiendo de la forma de esta funci on, existen muchos tipos de regresion simple. Los mas habituales
son los que aparecen en la siguiente tabla:
Modelo Ecuaci on generica
Lineal y = a + bx
Parabolico y = a + bx + cx
2
Polinomico de grado n y = a
0
+ a
1
x + + a
n
x
n
Potencial y = ax
b
Exponencial y = e
a+bx
Logartmico y = a + b log x
Inverso y = a + b/x
Curva S y = e
a+b/x
Para elegir un tipo de modelo u otro, se suele representar el diagrama de dispersi on, que consiste en
dibujar sobre unos ejes cartesianos correspondientes a las variables X e Y , los pares de valores (x
i
, y
j
)
observados en cada individuo de la muestra.
Ejemplo En la gura la gura 4.1 aparece el diagrama de dispersi on correspondiente a una muestra de
30 individuos en los que se ha medido la estatura en cm (X) y el peso en kg (Y ). En este caso la forma
de la nube de puntos reeja una relacion lineal entre la estatura y el peso.
Seg un la forma de la nube de puntos del diagrama, se elige el modelo mas apropiado (gura 4.2), y
se determinan los par ametros de dicho modelo para que la funci on resultante se ajuste lo mejor posible
a la nube de puntos.
35
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
150 160 170 180 190 200
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Diagrama de dispersi on de Estaturas y Pesos
Estatura (cm)
P
e
s
o
(
K
g
)
(179, 85)
Figura 4.1 Diagrama de dispersion. El punto (179,85) indicado corresponde a un individuo de la
muestra que mide 179 cm y pesa 85 Kg.
Sin relacion
X
Y
(a) Sin relacion.
Relacion lineal
X
Y
(b) Relacion lineal.
Relacion parab olica
X
Y
(c) Relacion polinomica.
Relacion exponencial
X
Y
(d) Relacion exponencial.
Relacion logarmica
X
Y
(e) Relacion logartmica.
Relacion inversa
X
Y
(f) Relacion inversa.
Figura 4.2 Diagramas de dispersion correspondientes a distintos tipos de relaciones entre variables.
36
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
El criterio que suele utilizarse para obtener la funci on optima, es que la distancia de cada punto a la
curva, medida en el eje Y, sea lo menor posible. A estas distancias se les llama residuos o errores en Y
(gura 4.3). La funci on que mejor se ajusta a la nube de puntos sera, por tanto, aquella que hace mnima
la suma de los cuadrados de los residuos.
1
X
Y
f(x
i
)
x
i
y
j
e
ij
= y
j
f(x
i
)
(x
i
, y
j
)
Figura 4.3 Residuos o errores en Y . El residuo correspondiente a un punto (xi, yj) es la diferencia
entre el valor yj observado en la muestra, y el valor teorico del modelo f(xi), es decir, eij = yj f(xi).
Rectas de regresion
En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la relacion entre X
e Y mediante una recta y = a + bx, los par ametros a determinar son a (punto de corte con el eje de
ordenadas) y b (pendiente de la recta). Los valores de estos par ametros que hacen mnima la suma de
residuos al cuadrado, determinan la recta optima. Esta recta se conoce como recta de regresi on de Y
sobre X y explica la variable Y en funci on de la variable X. Su ecuaci on es
y = y +
s
xy
s
2
x
(x x),
donde s
xy
es un estadstico llamado covarianza que mide el grado de relacion lineal, y cuya formula es
s
xy
=
1
n
i,j
(x
i
x)(y
j
y)n
ij
.
Ejemplo En la gura 4.4 aparecen las rectas de regresion de Estatura sobre Peso y de Peso sobre
Estatura del ejemplo anterior.
La pendiente de la recta de regresion de Y sobre X se conoce como coeciente de regresi on de Y
sobre X, y mide el incremento que sufrira la variable Y por cada unidad que se incremente la variable
X, seg un la recta.
Cuanto mas peque nos sean los residuos, en valor absoluto, mejor se ajustar a el modelo a la nube de
puntos, y por tanto, mejor explicara la relacion entre X e Y . Cuando todos los residuos son nulos, la
recta pasa por todos los puntos de la nube, y la relacion es perfecta. En este caso ambas rectas, la de Y
sobre X y la de X sobre Y coinciden (gura 4.5(a)).
Por contra, cuando no existe relacion lineal entre las variables, la recta de regresion de Y sobre X
tiene pendiente nula, y por tanto la ecuaci on es y = y, en la que, efectivamente no aparece x, o x = x en
el caso de la recta de regresion X sobre Y , de manera que ambas rectas se cortan perpendicularmente
(gura 4.5(b)).
1
Se elevan al cuadrado para evitar que en la suma se compensen los residuos positivos con los negativos.
37
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
150 160 170 180 190 200
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Rectas de regresion entre Estaturas y Pesos
Estatura (cm)
P
e
s
o
(
K
g
)
( x, y)
Estatura sobre Peso
Peso sobre
Estatura
Figura 4.4 Rectas de regresi on de Estatura sobre Peso y de Peso sobre Estatura. Las rectas de
regresi on siempre se cortan en el punto de medias ( x, y)
1.2 Correlaci on
El principal objetivo de la regresion simple es construir un modelo funcional y = f(x) que explique
lo mejor posible la relacion entre dos variables X (variable independiente) e Y (variable dependiente)
medidas en una misma muestra. Generalmente, el modelo construido se utiliza para realizar inferencias
predictivas de Y en funci on de X en el resto de la poblacion. Pero aunque la regresion garantiza que el
modelo construido es el mejor posible, dentro del tipo de modelo elegido (lineal, polinomico, exponencial,
logartmico, etc.), puede que a un as, no sea un buen modelo para hacer predicciones, precisamente
porque no haya relacion de ese tipo entre X e Y . As pues, con el n de validar un modelo para realizar
predicciones ables, se necesitan medidas que nos hablen del grado de dependencia entre X e Y , con
respecto a un modelo de regresion construido. Estas medidas se conocen como medidas de correlacion.
Dependiendo del tipo de modelo ajustado, habr a distintos tipos de medidas de correlaci on. As, si el
modelo de regresion construido es una recta, hablaremos de correlaci on lineal; si es un polinomio, habla-
remos de correlaci on polinomica; si es una funci on exponencial, hablaremos de correlaci on exponencial,
etc. En cualquier caso, estas medidas nos hablar an de lo bueno que es el modelo construido, y como
consecuencia, de si podemos arnos de las predicciones realizadas con dicho modelo.
La mayora de las medidas de correlaci on surgen del estudio de los residuos o errores en Y , que son
las distancias de los puntos del diagrama de dispersi on a la curva de regresion construida, medidas en el
eje Y , tal y como se muestra en la gura (4.3). Estas distancias, son en realidad, los errores predictivos
del modelo sobre los propios valores de la muestra.
Cuanto mas peque nos sean los residuos, mejor se ajustar a el modelo a la nube de puntos, y por tanto,
mejor explicara la relacion entre X e Y . Cuando todos los residuos son nulos, la curva de regresion pasa
por todos los puntos de la nube, y entonces se dice que la relacion es perfecta, o bien que existe una
dependencia funcional entre X e Y (gura 4.5(a)). Por contra, cuando los residuos sean grandes, el modelo
no explicara bien la relacion entre X e Y , y por tanto, sus predicciones no seran ables (gura 4.5(b)).
Varianza residual
Una primera medida de correlaci on, construida a partir de los residuos es la varianza residual, que se
dene como el promedio de los residuos al cuadrado:
s
2
ry
=
i,j
e
2
ij
n
ij
n
=
i,j
(y
j
f(x
i
))
2
n
ij
n
.
38
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
Relacion lineal perfecta
X
Y
X sobre Y = Y sobre X
(a) Dependencia funcional lineal.
Sin relacion lineal
X
Y
y
x
X sobre Y
Y sobre X
(b) Independencia lineal.
Figura 4.5 Distintos grados de dependencia. En el primer caso, la relacion es perfecta y los residuos
son nulos. En el segundo caso no existe relacion lineal y la pendiente de la recta es nula.
Cuando los residuos son nulos, entonces s
2
ry
= 0 y eso indica que hay dependencia funcional. Por otro
lado, cuando las variables son independientes, con respecto al modelo de regresion ajustado, entonces los
residuos se convierten en las desviaciones de los valores de Y con respecto a su media, y se cumple que
s
2
ry
= s
2
y
. As pues, se cumple que
0 s
2
ry
s
2
y
.
Seg un esto, cuanto menor sea la varianza residual, mayor sera la dependencia entre X e Y , de acuerdo
al modelo ajustado. No obstante, la varianza tiene como unidades las unidades de Y al cuadrado, y eso
diculta su interpretaci on.
Coeciente de determinaci on
Puesto que el valor maximo que puede tomar la varianza residual es la varianza de Y , se puede
denir facilmente un coeciente a partir de la comparaci on de ambas medidas. Surge as el coeciente de
determinaci on que se dene como
R
2
= 1
s
2
ry
s
2
y
.
Se cumple que
0 R
2
1,
y ademas no tiene unidades, por lo que es mas facil de interpretar que la varianza residual:
R
2
= 0 indica que existe independencia seg un el tipo de relacion planteada por el modelo de
regresion.
R
2
= 1 indica dependencia funcional.
Por tanto, cuanto mayor sea R
2
, mejor sera el modelo de regresion.
Si multiplicamos el coeciente de determinacion por 100, se obtiene el porcentaje de variabilidad de
Y que explica el modelo de regresion. El porcentaje restante corresponde a la variabilidad que queda por
explicar y se corresponde con el error predictivo del modelo. As, por ejemplo, si tenemos un coeciente
de determinacion R
2
= 0,5, el modelo de regresion explicara la mitad de la variabilidad de Y , y en
consecuencia, si se utiliza dicho modelo para hacer predicciones, estas tendran la mitad de error que si
no se utilizase, y se tomase como valor de la predicci on el valor de la media de Y .
39
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
Coeciente de determinaci on lineal
En el caso de que el modelo de regresion sea lineal, la formula del coeciente de determinacion se
simplica y se convierte en
r
2
=
s
2
xy
s
2
x
s
2
y
,
que se conoce como coeciente de determinaci on lineal.
Coeciente de correlacion
Otra medida de dependencia bastante habitual es el coeciente de correlacion, que se dene como la
raz cuadrada del coeciente de determinacion:
R =
1
s
2
ry
s
2
y
,
tomando la raz del mismo signo que la covarianza.
La unica ventaja del coeciente de correlaci on con respecto al coeciente de determinacion, es que
tiene signo, y por tanto, ademas del grado de dependencia entre X e Y , tambien nos habla de si la
relacion es directa (signo +) o inversa (signo -). Su interpretaci on es:
R = 0 indica independencia con respecto al tipo de relacion planteada por el modelo de regresion.
R = 1 indica dependencia funcional inversa.
R = 1 indica dependencia funcional directa.
Por consiguiente, cuanto mas proximo este a -1 o a 1, mejor sera el modelo de regresion.
Coeciente de correlaci on lineal Al igual que ocurra con el coeciente de determinacion, cuando el
modelo de regresion es lineal, la formula del coeciente de correlaci on se convierte en
r =
s
xy
s
x
s
y
,
y se llama coeciente de correlacion lineal.
Por ultimo, conviene remarcar que un coeciente de determinacion o de correlaci on nulo, indica que
hay independencia seg un el modelo de regresion construido, pero puede haber dependencia de otro tipo.
Esto se ve claramente en el ejemplo de la gura 4.6.
Fiabilidad de las predicciones
Aunque el coeciente de determinacion o de correlaci on nos hablan de la bondad de un modelo de
regresion, no es el unico dato que hay que tener en cuenta a la hora de hacer predicciones.
La abilidad de las predicciones que hagamos con un modelo de regresion depende de varias cosas:
El coeciente de determinacion: Cuando mayor sea, menores seran los errores predictivos y mayor
la abilidad de las predicciones.
La variablidad de la poblacion: Cuanto mas variable es una poblacion, mas difcil es predecir y por
tanto menos ables seran las predicciones del modelo.
El tama no muestral: Cuanto mayor sea, mas informacion tendremos y, en consecuencia, mas ables
seran las predicciones.
Ademas, hay que tener en cuenta que un modelo de regresion es valido para el rango de valores
observados en la muestra, pero fuera de ese rango no tenemos informacion del tipo de relacion entre las
variables, por lo que no deberamos hacer predicciones para valores que esten lejos de los observados en
la muestra.
40
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
0 2 4 6 8 10
2
3
4
5
6
7
8
X
Y
y = 0,02x + 4,07
r
2
= 0
(a) Dependencia lineal debil.
0 2 4 6 8 10
2
3
4
5
6
7
8
X
Y
y = 0,25x
2
2,51x + 8,05
r
2
= 0,97
(b) Dependencia parab olica fuerte.
Figura 4.6 En la gura de la izquierda se ha ajustado un modelo lineal y se ha obtenido un R
2
= 0,
lo que indica que el modelo no explica nada de la relacion entre X e Y , pero no podemos armar que
X e Y son independientes. De hecho, en la gura de la derecha se observa que al ajustar un modelo
parab olico, R
2
= 0,97, lo que indica que casi hay una dependencia funcional parab olica entre X e Y .
41
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
2 Ejercicios resueltos
1. Se han medido dos variables X e Y en 10 individuos obteniendo los siguientes resultados:
X 0 1 2 3 4 5 6 7 8 9
Y 2 5 8 11 14 17 20 23 26 29
Se pide:
a) Crear un conjunto de datos con las variables X y Y e introducir estos datos.
b) Dibujar el diagrama de dispersi on correspondiente.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable Y, la variable X en
el campo Variable X, y hacer clic en el bot on Enviar.
En vista del diagrama, que tipo de modelo crees que explicara mejor la relacion entre X y Y?
c) Calcular la recta de regresion de Y sobre X.
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable dependiente y la
variable X en el campo Variable independiente, y hacer clic sobre el bot on Enviar.
d) Dibujar dicha recta sobre el diagrama de dispersi on.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable Y, la variable X en
el campo Variable X, y hacer clic en el bot on Enviar.
3) En la solapa Lnea de ajuste, seleccionar Dibujar recta de regresion y hacer clic en el bot on Enviar.
e) Calcular la recta de regresion de X sobre Y y dibujarla sobre el correspondiente diagrama de
dispersi on.
Indicacion
Repetir los pasos de los apartados anteriores pero escogiendo como Variable dependiente la variable X, y
como Variable independiente la variable Y
f ) Son grandes los residuos? Comentar los resultados.
2. En una licenciatura se quiere estudiar la relacion entre el n umero medio de horas de estudio diarias
y el n umero de asignaturas suspensas. Para ello se obtuvo la siguiente muestra:
Horas Suspensos Horas Suspensos Horas Suspensos
3,5 1 2,2 2 1,3 4
0,6 5 3,3 0 3,1 0
2,8 1 1,7 3 2,3 2
2,5 3 1,1 3 3,2 2
2,6 1 2,0 3 0,9 4
3,9 0 3,5 0 1,7 2
1,5 3 2,1 2 0,2 5
0,7 3 1,8 2 2,9 1
3,6 1 1,1 4 1,0 3
3,7 1 0,7 4 2,3 2
Se pide:
a) Crear un conjunto de datos con las variables horas.estudio y suspensos e introducir estos datos.
42
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
b) Construir la tabla de frecuencias bidimensional de las variables horas.estudio y suspensos.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias bidimensional.
2) En el cuadro de dialogo que aparece, seleccionar la variable horas.estudio en el campo Variable a tabular
en filas, la variable suspensos en el campo Variable a tabular en columnas, y hacer clic sobre el bot on
Enviar.
c) Calcular la recta de regresion de suspensos sobre horas.estudio y dibujarla.
Indicacion
Para calcular la recta de regresi on:
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable suspensos en el campo Variable dependiente y
la variable horas.estudio en el campo Variable independiente, seleccionar Guardar el modelo, introducir
un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para dibujar la recta de regresi on:
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable suspensos en el campo Variable Y y la variable
horas.estudio en el campo Variable X.
3) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
d) Indicar el coeciente de regresion de suspensos sobre horas.estudio. Como lo interpretaras?
Indicacion
El coeciente de regresi on es la pendiente de la recta de regresi on.
e) La relacion lineal entre estas dos variables, es mejor o peor que la del ejercicio anterior? Comentar
los resultados a partir las gracas de las rectas de regresion y sus residuos.
f ) Calcular los coecientes de correlaci on y de determinacion lineal. Es un buen modelo la recta
de regresion? Que porcentaje de la variabilidad del n umero de suspensos est a explicada por el
modelo?
Indicacion
El coeciente de determinacion aparece en la ventana de resultados como R
2
ajustado, y el coeciente de
correlacion es su raz cuadrada.
g) Utilizar la recta de regresion para predecir el n umero de suspensos correspondiente a 3 horas de
estudio diarias. Es able esta predicci on?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada en el segundo
apartado, introducir los valores para los que se desea la prediccion en el campo Predicciones para y hacer
clic sobre el bot on Enviar.
h) Seg un el modelo lineal, cu antas horas diarias tendra que estudiar como mnimo un alumno si
quiere aprobarlo todo?
Indicacion
Seguir los mismos pasos de los apartados anteriores, pero escogiendo como variable dependiente horas.estudio,
y como independiente suspensos, y haciendo la prediccion para 0 suspensos.
3. Despues de tomar un litro de vino se ha medido la concentraci on de alcohol en la sangre en distintos
instantes, obteniendo:
Tiempo despues (minutos) 30 60 90 120 150 180 210
Concentraci on (gramos/litro) 1,6 1,7 1,5 1,1 0,7 0,2 2,1
Se pide:
a) Crear las variables tiempo y alcohol e introducir estos datos.
43
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
b) Calcular el coeciente de correlaci on lineal entre el alcohol y el tiempo e interpretarlo. Es bueno
el modelo lineal?
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable alcohol en el campo Variable dependiente y
la variable tiempo en el campo Variable independiente, y hacer clic sobre el bot on Enviar.
c) Dibujar la recta de regresion del alcohol sobre el tiempo. Existe alg un individuo con un resi-
duo demasiado grande? Si es as, eliminar dicho individuo de la muestra y volver a calcular el
coeciente de correlaci on. Ha mejorado el modelo?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable alcohol en el campo Variable Y y la variable
tiempo en el campo Variable X.
3) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
Se observa que hay un residuo atpico para el punto que corresponde al los 210 minutos. Para eliminarlo: En la
ventana de edici on del conjunto de datos hacer clic con el bot on derecho del raton sobre la la correspondiente
al dato con el residuo atpico y seleccionar Borrar esta fila.
d) Si la concentraci on maxima de alcohol en la sangre que permite la ley para poder conducir es 0,3
g/l, cu anto tiempo habr a que esperar despues de tomarse un litro de vino para poder conducir
sin infringir la ley? Es able esta predicci on?
Indicacion
Para construir la recta de regresi on:
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable tiempo en el campo Variable dependiente y
la variable alcohol en el campo Variable independiente.
3) Seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para hacer la prediccion:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada e introducir
los valores para los que se desea la prediccion en el campo Predicciones para y hacer clic sobre el bot on
Enviar.
4. El conjunto de datos edad.estatura del paquete rk.Teaching contine la edad y la estatura de 30 personas.
Se pide:
a) Cargar datos del conjunto de datos edad.estatura desde el paquete rk.Teaching.
b) Calcular la recta de regresion de la estatura sobre la edad. Es un buen modelo la recta de
regresion?
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable dependiente
y la variable edad en el campo Variable independiente, y hacer clic en el bot on Enviar.
c) Dibujar el diagrama de dispersi on de la estatura sobre la edad. Alrededor de que edad se observa
un cambio en la tendencia?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable Y, la variable
edad en el campo Variable X, y hacer clic en el bot on Enviar.
d) Recodicar la variable edad en dos grupos para mayores y menores de 20 a nos.
44
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
Indicacion
1) Seleccionar el men u Teaching Datos Recodificar variable.
2) En el cuadro de dialogo que aparece seleccionar en el campo Variable a recodicar la variable edad.
3) En el campo Reglas de recodificacion introducir
lo:20 = menores
20:hi = mayores
4) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar.
5) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos edad estatura
y hacer clic sobre el bot on Aceptar.
6) Introducir el nombre de la nueva variable grupo.edad y hacer clic sobre el bot on Enviar.
e) Calcular la recta de regresion de la estatura sobre la edad para cada grupo de edad. En que grupo
explica mejor la recta de regresion la relacion entre la estatura y la edad? Justicar la respuesta.
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable dependiente
y la variable edad como Variable independiente.
3) Seleccionar la opicion Ajuste por grupos, introducir la variable grupo.edad en el campo Variable de
agrupacion, y hacer clic en el Enviar.
f ) Dibujar las rectas de regresion anteriores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable Y y la variable
edad en el campo Variable X.
3) Seleccionar la opci on Dibujar por grupos e introducir la variable grupo.edad en el campo Variable de
agrupacion.
4) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
g) Que estatura se espera que tenga una persona de 14 a nos? Y una de 38?
Indicacion
Para predecir la estatura de la persona de 14 a nos:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada para los
menores e introducir 14 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
para predecir la estatura de la persona de 38 a nos, repetir lo mismo pero seleccionando la recta de regresi on
para los mayores e introducidento 38 en el campo Predicciones para.
5. La siguiente tabla recoge la informacion de las calicaciones obtenidas por un grupo de alumnos en
dos asignaturas X e Y .
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
X NT AP SS SS AP AP SS NT SB SS AP AP
Y SB SS AP SS AP NT SS NT NT AP AP NT
Se pide:
a) Crear un conjunto de datos con las variables X e Y e introducir los datos.
b) Existe relacion entre las calicaciones de X e Y ? Justicar la respuesta.
Indicacion
1) Seleccionar el men u Teaching Regresion Correlacion.
2) En el cuadro de dialogo que aparece seleccionar la variables X e Y en el campo Variables.
3) En la solapa Opciones de correlacion seleccionar el metodo de Ro de Spearman y hacer clic sobre el
bot on Enviar.
45
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
3 Ejercicios propuestos
1. Se determina la perdida de actividad que experimenta un medicamento desde el momento de su
fabricacion a lo largo del tiempo, obteniendose el siguiente resultado:
Tiempo (en a nos) 1 2 3 4 5
Actividad restante ( %) 96 84 70 58 52
Se desea calcular:
a) La relacion fundamental (recta de regresion) entre actividad restante y tiempo transcurrido.
b) En que porcentaje disminuye la actividad cada a no que pasa?
c) Cuando tiempo debe pasar para que el farmaco tenga una actividad del 80 %? Cuando sera nula
la actividad? Son igualmente ables estas predicciones?
2. Al realizar un estudio sobre la dosicacion de un cierto medicamento, se trataron 6 pacientes con dosis
diarias de 2 mg, 7 pacientes con 3 mg y otros 7 pacientes con 4 mg. De los pacientes tratados con 2
mg, 2 curaron al cabo de 5 das, y 4 al cabo de 6 das. De los pacientes tratados con 3 mg diarios, 2
curaron al cabo de 3 das, 4 al cabo de 5 das y 1 al cabo de 6 das. Y de los pacientes tratados con 4
mg diarios, 5 curaron al cabo de 3 das y 2 al cabo de 4 das. Se pide:
a) Calcular la recta de regresion del tiempo de curacion con respecto a la dosis suministrada.
b) Calcular el coeciente de regresion del tiempo de curacion con respecto a la dosis e interpretarlo.
c) Calcular el coeciente de correlaci on lineal e interpretarlo.
d) Determinar el tiempo esperado de curacion para una dosis de 5 mg diarios. Es able esta
predicci on?
e) Que dosis debe aplicarse si queremos que el paciente tarde 4 das en curarse? Es able la
predicci on?
3. El chero estaturas.pesos.alumnos del paquete rk.Teaching, contiene la estatura, el peso y el sexo de
una muestra de alumnos universitarios. Se pide:
a) Cargar el conjunto de datos estaturas.pesos.alumnos desde el paquete rk.Teaching.
b) Calcular la recta de regresion del peso sobre la estatura y dibujarla.
c) Calcular las rectas de regresion del peso sobre la estatura para cada sexo y dibujarlas.
d) Calcular los coecientes de determinacion de ambas rectas. Que recta es mejor modelo? Justicar
la respuesta.
e) Que peso tendra un hombre que mida 170 cm? Y una mujer de la misma estatura?
4. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Construir la tabla de frecuencias bidimensional del Agpar al minuto de nacer frente a si la madre
ha fumado o no durante el embarazo. Que conclusiones se pueden sacar?
b) Construir la tabla de frecuencias bidimensional del peso de los recien nacidos frente a la edad de
la madre. Que conclusiones se pueden sacar?
c) Construir la recta de regresion del peso de los recien nacidos sobre el n umero de cigarros fumados
al da por las madres. Existe una relacion lineal fuerte entre el peso y el n umero de cigarros?
d) Dibujar la recta de regresion calculada en el apartado anterior. Por que la recta no se ajusta
bien a la nube de puntos?
46
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
e) Calcular y dibujar la recta de regresion del peso de los recien nacidos sobre el n umero de cigarros
fumados al da por las madres en el grupo de las madres que si fumaron durante el embarazo.
Es este modelo mejor o pero que la recta de los apartados anteriores?
Seg un este modelo, cu anto disminuir a el peso del recien nacido por cada cigarro mas diario que
fume la madre?
f ) Seg un el modelo anterior, que peso tendra un recien nacido de una madre que ha fumado 5
cigarros diarios durante el embarazo? Y si la madre ha fumado 30 cigarros diarios durante el
embarazo? Son ables estas predicciones?
g) Existe la misma relacion lineal entre el peso de los recien nacidos y el n umero de cigarros
fumados al da por las madres que fumaron durante el embarazo en el grupo de las madres
menores de 20 y en el grupo de las madres mayores de 20? Que se puede concluir?
47
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
48
Practica de Estadstica con R 5
Regresion no lineal
1 Fundamentos teoricos
La regresion simple tiene por objeto la construcci on de un modelo funcional y = f(x) que explique
lo mejor posible la relacion entre dos variables Y (variable dependiente) y X (variable independiente)
medidas en una misma muestra.
Ya vimos que, dependiendo de la forma de esta funci on, existen muchos tipos de regresion simple.
Entre los mas habituales est an:
Modelo Ecuaci on generica
Lineal y = a + bx
Parabolico y = a + bx + cx
2
Polinomico de grado n y = a
0
+ a
1
x + + a
n
x
n
Potencial y = ax
b
Exponencial y = e
a+bx
Logartmico y = a + b log x
Inverso y = a + b/x
Curva S y = e
a+b/x
La eleccion de un tipo de modelo u otro suele hacerse seg un la forma de la nube de puntos del
diagrama de dispersi on. A veces estar a claro que tipo de modelo se debe construir, tal y como ocurre en
los diagramas de dispersi on de la gura 5.1. Pero otras veces no estar a tan claro, y en estas ocasiones, lo
normal es ajustar los dos o tres modelos que nos parezcan mas convincentes, para luego quedarnos con
el que mejor explique la relacion entre Y y X, mirando el coeciente de determinacion
1
de cada modelo.
Ya vimos en la practica sobre regresion lineal simple, c omo construir rectas de regresion. En el caso
de que optemos por ajustar un modelo no lineal, la construcci on del mismo puede realizarse siguiendo los
mismos pasos que en el caso lineal. Basicamente se trata de determinar los par ametros del modelo que
minimizan la suma de los cuadrados de los residuos en Y . En los modelos multiplicativo y exponencial, el
sistema aplica transformaciones logartmicas a las variables y despues ajusta un modelo lineal a los datos
transformados. En el modelo recproco, el sistema sustituye la variable dependiente por su recproco
antes de estimar la ecuaci on de regresion.
1
Ver la pr actica de regresi on lineal y correlacion.
49
5. Regresion no lineal Universidad San Pablo CEU
Sin relacion
X
Y
(a) Sin relacion.
Relacion lineal
X
Y
(b) Relacion lineal.
Relacion parab olica
X
Y
(c) Relacion polinomica.
Relacion exponencial
X
Y
(d) Relacion exponencial.
Relacion logarmica
X
Y
(e) Relacion logartmica.
Relacion inversa
X
Y
(f) Relacion inversa.
Figura 5.1 Diagramas de dispersion correspondientes a distintos tipos de relaciones entre variables.
50
Universidad San Pablo CEU 5. Regresion no lineal
2 Ejercicios resueltos
El procedimiento mas sencillo para construir un modelo no lineal, siempre que sea posible, es trans-
formar las variables para convertirlo en un modelo lineal. En el caso de los modelos de regresion simple
mas comunes las transformaciones que convierten cada modelo en un modelo lineal aparecen en la tabla
siguiente:
Modelo Modelo no lineal Modelo lineal Transformacion
Potencial y = ax
b
log(y) = log(a) + b log(x) Se toma el logaritmo de ambas
variables
Exponencial y = e
a+bx
log(y) = a + bx Se toma el logaritmo de la varia-
ble dependiente
Logartmico y = a + b log x y = a + b log x Se toma el logaritmo de la varia-
ble independiente
Inverso y = a + b/x y = a + b
1
x
Se toma el inverso de la variable
independiente
Curva S y = e
a+b/x
log(y) = a + b
1
x
Se toma el logaritmo de la varia-
ble dependiente y el inverso de la
independiente
1. En un experimento se ha medido el n umero de bacterias por unidad de volumen en un cultivo, cada
hora transcurrida, obteniendo los siguientes resultados:
Horas 0 1 2 3 4 5 6 7 8
N
o
Bacterias 25 28 47 65 86 121 190 290 362
Se pide:
a) Crear un conjunto de datos con las variables horas y bacterias e introducir estos datos.
b) Dibujar el diagrama de dispersi on correspondiente. En vista del diagrama, que tipo de modelo
crees que explicara mejor la relacion entre el n umero de bacterias y el tiempo transcurrido?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable
horas en el campo Variable X, y hacer clic en el bot on Enviar.
c) Calcular los modelos exponencial y cuadratico de las bacterias sobre las horas. Que tipo de
modelo es el mejor?
Indicacion
Para el modelo exponencial:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable dependiente
y la variable horas en el campo Variable independiente.
3) En la solapa de Modelo de regresion seleccionar el modelo Exponencial.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para el modelo cuadr atico repetir los pasos pero seleccionando como modelo el Cuadratico. El modelo mejor
ser a aquel que tenga un coeciente de determinacion mayor.
d) Dibujar la curva del mejor de los modelos anteriores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable
horas en el campo Variable X.
3) En la solapa Lnea de ajuste seleccionar la opci on Exponencial y hacer clic sobre el bot on Enviar.
51
5. Regresion no lineal Universidad San Pablo CEU
e) Seg un el modelo anterior, cu antas bacterias habr a al cabo de 3 horas y media del inicio del
cultivo? Y al cabo de 10 horas? Son ables estas predicciones?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on exponencial construido antes.
3) Introducir los valores 3,5, 10 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
4) Como se trata de un modelo exponencial, las predicciones obtenidas corresponden al logaritmo de bac-
terias. Para obtener la prediccion de bacterias basta con aplicar la funci on exponencial a los valores
obtenidos.
f ) Dar una predicci on lo mas able posible del tiempo que tendra que transcurrir para que en el
cultivo hubiese 100 bacterias.
Indicacion
Para construir el modelo logartmico:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable horas en el campo Variable dependiente y
la variable bacterias en el campo Variable independiente.
3) Seleccionar como modelo el Logartmico.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para hacer la prediccion:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on logartmico construido antes.
3) Introducir el valor 100 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
2. El conjunto de datos dieta del paquete rk.Teaching contiene los datos de un estudio llevado a cabo por
un centro dietetico para probar una nueva dieta de adelgazamiento. Para cada individuo se ha medido
el n umero de das que lleva con la dieta, el n umero de kilos perdidos desde entonces y si realizo o no
un programa de ejercicios. Se pide:
a) Cargar el conjunto de datos dieta desde el paquete rk.Teaching.
b) Dibujar el diagrama de dispersi on. Seg un la nube de puntos, que tipo de modelo explicara
mejor la relacion entre los kilos perdidos y los das de dieta?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable Y, la variable dias
en el campo Variable X, y hacer clic en el bot on Enviar.
c) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta.
Indicacion
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
4) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
d) Dibujar el modelo del apartado anterior.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable Y y la variable
dias en el campo Variable X.
3) En la solapa Lnea de ajuste seleccionar la opci on correspondiente al mejor modelo y hacer clic sobre el
bot on Enviar.
e) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta para los que no hacen ejercicio.
52
Universidad San Pablo CEU 5. Regresion no lineal
Indicacion
Para ver que modelo es mejor:
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="no" en el campo Condicion de selec
cion.
4) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
Para construir el modelo:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="no" en el campo Condicion de selec
cion.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
f ) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta para los que si hacen ejercicio.
Indicacion
Para ver que modelo es mejor:
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="si" en el campo Condicion de selec
cion.
4) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
Para construir el modelo:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="si" en el campo Condicion de selec
cion.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
g) Utilizar el modelo construido para predecir el n umero de kilos perdidos tras 40 y 500 das de
dieta, tanto para los que hacen ejercicio como para los que no. Son ables estas predicciones?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on construido antes para los que no
hacen ejercicio.
3) Introducir los valores 40, 500 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
Repetir los pasos anteriores seleccionando el modelo de regresi on construido antes para los que si hacen ejercicio.
3 Ejercicios propuestos
1. La concentraci on de un farmaco en sangre, C en mg/dl, es funci on del tiempo, t en horas, y viene
dada por la siguiente tabla:
t 2 3 4 5 6 7 8
C 25 36 48 64 86 114 168
Se pide:
53
5. Regresion no lineal Universidad San Pablo CEU
a) Seg un el modelo exponencial, que concentraci on de farmaco habra a las 4,8 horas? Es able
la predicci on? Justicar adecuadamente la respuesta.
b) Seg un el modelo logartmico, que tiempo debe pasar para que la concentraci on sea de 100 mg/dl?
2. El chero naciones.txt contiene informacion sobre el desarrollo de distintos pases (tasa de fertilidad,
tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c apita y
continente). Se pide:
a) Importar el chero naciones.txt en un conjunto de datos.
b) Construir el mejor modelo de regresion de la tasa de fertilidad sobre el producto interior bruto.
Como explicaras esta relacion?
c) Dibujar el modelo del apartado anterior.
d) Que tasa de fertilidad le corresponde a una mujer que viva en un pas con un producto interior
bruto per c apita de 10000 $? Y si la mujer vive en Europa?
54