0% encontró este documento útil (0 votos)
135 vistas58 páginas

Curso Práctico de Bioestadística con R

Este documento presenta un curso práctico de bioestadística con R. Explica cómo instalar R y RKWard, y cómo introducir y manipular datos, realizar transformaciones, crear gráficos y resúmenes estadísticos. Incluye ejemplos resueltos y ejercicios propuestos sobre distribuciones de frecuencias, estadísticos muestrales y pruebas estadísticas.

Cargado por

jasoneliseo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
135 vistas58 páginas

Curso Práctico de Bioestadística con R

Este documento presenta un curso práctico de bioestadística con R. Explica cómo instalar R y RKWard, y cómo introducir y manipular datos, realizar transformaciones, crear gráficos y resúmenes estadísticos. Incluye ejemplos resueltos y ejercicios propuestos sobre distribuciones de frecuencias, estadísticos muestrales y pruebas estadísticas.

Cargado por

jasoneliseo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

CURSO PR

ACTICO DE
BIOESTAD

ISTICA CON R
Alfredo Sanchez Alberca ([email protected])
Practicas de Estadstica con R
Santiago Angulo Daz-Parreno, Jose Miguel Cardenas Rebollo, Anselmo Romero Lim on y Alfredo Sanchez
Alberca ([email protected]).
Esta obra esta bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 Espa na de Crea-
tive Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/byncsa/2.5/es/ o en-
vie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
Con esta licencia eres libre de:
Copiar, distribuir y mostrar este trabajo.
Realizar modicaciones de este trabajo.
Bajo las siguientes condiciones:
Reconocimiento. Debe reconocer los creditos de la obra de la manera
especicada por el autor o el licenciador (pero no de una manera que
sugiera que tiene su apoyo o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para nes comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o
genera una obra derivada, solo puede distribuir la obra generada bajo una
licencia identica a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los derechos de autor
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Indice general
1. Introducci on a R y RKWard 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Instalacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Instalacion de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2. Instalacion de la interfaz graca RKWard y el paquete rkTeaching . . . . . . . . . 2
1.3. Arranque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Tipos de datos y operadores aritmeticos y logicos . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Introduccion y manipulaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.1. Introduccion de datos en lnea de comandos . . . . . . . . . . . . . . . . . . . . . . 5
1.5.2. Introduccion de datos en RKWard . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3. Ponderaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.4. Guardar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.5. Abrir datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.6. Eliminacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6. Transformacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.1. Filtrado de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.2. Calculo de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6.3. Recodicacion de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7. Manipulacion de cheros de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7.1. Guardar los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7.2. Limpiar la ventana de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Manipulacion de guiones de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.1. Creaci on de un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.2. Guardar un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.3. Abrir un gui on de comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.9. Ayuda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.10. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.11. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Distribuciones de Frecuencias y Representaciones Gracas 17
2.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1. Calculo de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Representaciones Gracas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3. Estadsticos Muestrales 27
3.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2. Medidas de dispersi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.3. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.4. Estadsticos de variables en las que se denen grupos . . . . . . . . . . . . . . . . . 30
3.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
i

INDICE GENERAL Universidad San Pablo CEU


4. Regresi on Lineal Simple y Correlaci on 35
4.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.1. Regresi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.2. Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5. Regresi on no lineal 49
5.1. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
ii
Practica de Estadstica con R 1
Introducci on a R y RKWard
1 Introducci on
La gran potencia de c alculo alcanzada por los ordenadores ha convertido a los mismos en poderosas
herramientas al servicio de todas aquellas disciplinas que, como la estadstica, requieren manejar un gran
volumen de datos. Actualmente, practicamente nadie se plantea hacer un estudio estadstico serio sin la
ayuda de un buen programa de analisis estadstico.
R es un potente lenguaje de programacion que incluye multitud de funciones para la representacion
el analisis de datos. Fue desarrollado por Robert Gentleman y Ross Ihaka en la Universidad de Auckland
en Nueva Zelanda, aunque actualmente es mantenido por una enorme comunidad cientca en todo el
mundo.
Las ventajas de R frente a otros programas habituales de analisis de datos, como pueden ser SPSS,
SAS, SPlus, Matlab o Minitab, son m ultiples:
Es software libre y por tanto gratuito. Puede descargarse desde la web http://www.r-project.
org/.
Es multiplataforma. Existen versiones para Windows, Macintosh, Linux y otras plataformas.
Est a avalado y en constante desarrollo por una amplia comunidad cientca que lo utiliza como
est andar para el analisis de datos.
Cuenta con multitud de paquetes para todo tipo de analisis estadsticos y representaciones gracas,
desde los mas habituales, hasta los mas novedosos y sosticados que no incluyen otros programas.
Los paquetes est an organizados y documentados en un repositorio CRAN (Comprehensive R Ar-
chive Network) desde donde pueden descargarse libremente. En Espa na hay una copia de este
repositorio en la web http://cran.es.r-project.org/.
Es programable, lo que permite que el usuario pueda crear facilmente sus propias funciones o
paquetes para analisis de datos especcos.
Existen multitud de libros, manuales y tutoriales libres que permiten su aprendizaje e ilustran el
analisis estadstico de datos en distintas disciplinas cientcas como las matematicas, la fsica, la
biologa, la psicologa, la medicina, etc.
Por defecto el entorno de trabajo de R es en lnea de comandos, lo que signica que los c alculos y los
analisis se relizan mediante comandos o instrucciones que el usuario teclea en una ventana de texto. No
obstante, existen distintas interfaces gracas de usuario que facilitan su uso, sobre todo para usuarios
1
1. Introduccion a R y RKWard Universidad San Pablo CEU
noveles. La interfaz graca que se utilizara para realizar estas practicas sera RKWard, desarrollada por
Thomas Friedrichsmeier, junto al paquete rkTeaching especialmente desarrollado por el departamento
de Matem aticas de la Universidad San Pablo CEU para la docencia de estadstica.
El objetivo de esta practica es introducir al alumno en la utilizaci on de este programa, ense n andole
a realizar las operaciones b asicas mas habituales de carga y manipulaci on de datos.
2 Instalacion
2.1 Instalaci on de R
Linux En la distribuci on Debian y cualquiera de sus derivadas (Ubuntu, Kubuntu, etc.) basta con teclear
en la lnea de comandos
> sudo apt -get install r-base -html r-cran -rcmdr r-cran -rodbc r-doc
-html r-recommended
Windows Descargar de http://cran.es.r-project.org/bin/windows/base/release.htm el progra-
ma de instalaci on de R, ejecutarlo y seguir las instrucciones de instalaci on.
2.2 Instalaci on de la interfaz graca RKWard y el paquete rkTeaching
La interfaz graca de usuario RKWard puede descargarse desde la web http://rkward.sourceforge.
net/ donde se indican las instrucciones para instalarlo en cada plataforma.
Para Windows se recomienda seleccionar el paquete de instalaci on completa que incorpora R, las
libreras gracas de KDE y el propio RKWard.
R dispone de una gran librera de paquetes que incorporan nuevas funciones y procedimientos. En la
instalaci on base de R vienen ya cargados los procedimientos y funciones para los analisis mas comunes,
pero en ocasiones, para otros analisis sera necesario cargar alg un paquete adicional como por ejemplo
el paquete rkTeaching que incorpora un nuevo men u a RKWard con la mayora de los analisis que se
realizaran en estas practicas.
Para instalar el paquete rk.Teaching, basta con descargarlo desde la direcci on http://asalber.
github.io/rkTeaching_es/, arrancar R o RKWard y, en la consola de comandos, teclear el comando
> setwd("ruta_a_descargas")
> install.packages("rk.Teaching",repos=NULL ,dep=True)
La instalaci on de cualquier otro paquete se realiza con el mismo comando, cambiando el nombre del
paquete por el deseado.
En RKWard, tambien puede instalarse desde la ventana de R mediante el men u Preferencias
Configurar paquetes. Con esto aparecer a una ventana donde se muestran los paquetes instalados
localmente. Para cargar un paquete instalado localmente basta son seleccionarlo y hacer clic sobre el
boton Cargar. En esa misma ventana aparece una solapa Install/Update/Remove que permite instalar
nuevos paquetes desde un repositorio de R. Al hacer clic sobre esta solapa se abrir a una conexion a
internet y aparecer a una ventana con los distintos repositorios disponibles. Normalmente seleccionaremos
en mas cercano geogr acamente, en nuestro caso Spain(Madrid). Despues aparecer a un lista de paquetes
instalados y nuevos. Para instalar un paquete nuevo basta con seleccionarlo y hacer clic en el boton
Aceptar. Una vez instalado localmente, podra cargarse como se ha indicado antes.
3 Arranque
Como cualquier otra aplicacion de Windows, para arrancar el programa hay que hacer clic sobre la
opcion correspondiente del men u Inicio Programas RKWard, o bien sobre el icono de escritorio
2
Universidad San Pablo CEU 1. Introduccion a R y RKWard
Al arrancar, aparece la ventana de bienvenida de RKWard (gura 1.1).
Figura 1.1 Interfaz graca de usuario de RKWard.
La interfaz graca de usuario RKWard consta de los siguientes elementos:
Barra de men us. Contiene distintos men us con operaciones que pueden realizarse con R. Si se
ha instalado el paquete rkTeaching debe de aparecer el men u Teaching.
Barra de botones. Contiene botones para abrir, crear y guardar conjuntos de datos, espacios de
trabajo y guiones de comandos.
Ventana principal. Es la ventana central donde apareceran la ventana de introduccion de datos,
los resultados de los comandos ejecutados o de las b usquedas realizadas.
Espacio de trabajo. Es una ventana desplegable al hacer clic sobre la solapa situada en el lado
izquierdo que contiene todos los elementos del espacio de trabajo de R. Entre estos elementos
aparecen los paquetes cargados, los conjuntos de datos y las variables que contienen los datos de
la sesi on actual.
Bitacora de comandos Es una solapa desplegable situada en la parte inferior donde aparece un
registro de todas las acciones realizadas o comandos ejecutados en la sesi on de trabajo actual. Cada
vez que se seleccione un men u que lleve asociado la ejecuci on de alg un comando, dicho comando
aparecer a en esta ventana. Esto permite modicar facilmente los par ametros del comando y volver
a ejecutarlo rapidamente sin necesidad de volver al men u.
Consola de R Es una solapa desplegable situada tambien en la parte inferior que da acceso
al interprete de comandos de R. En esta ventana pueden teclearse y ejecutarse directamente los
comandos de R.
Buscar en la ayuda Es una solapa desplegable situada en la parte inferior que permite hacer
b usquedas sobre comandos de R o de alg un paquete.
Mensajes. Es la lnea de texto que aparece en la parte inferior, donde se muestra informacion
adicional sobre errores, advertencias u otra informacion auxiliar al ejecutar un comando, as como
la ruta del espacio de trabajo activo.
3
1. Introduccion a R y RKWard Universidad San Pablo CEU
4 Tipos de datos y operadores aritmeticos y l ogicos
En R existen distintos tipos de datos. Los mas b asicos son:
Numeric : Es cualquier n umero decimal. Se utiliza el punto como separador de decimales. Por defecto,
cualquier n umero que se teclee tomara este tipo.
Integer : Es cualquier n umero entero. Para convertir un n umero de tipo Numeric en un entero se utiliza
el comando as.integer()
Logical : Puede tomar cualquiera de los dos valores logicos TRUE (verdadero) o FALSE (falso).
Character : Es cualquier cadena de caracteres alfanumericos. Deben introducirse entre comillas. Para
convertir cualquier n umero en una cadena de caracteres se utiliza el comando as.character().
Los valores de estos tipos de datos pueden operarse utilizando distintos operadores o funciones pre-
denidas para cada tipo de datos. Los mas habituales son:
Operadores aritmeticos : + (suma), - (resta), * (producto), / (cociente), ^ (potencia).
Operadores de comparacion : > (mayor), < (menor), >= (mayor o igual), <= (menor o igual), ==
(igual), != (distinto).
Operadores l ogicos : & (conjuncion y), | (disyuncion o), ! (negacion no).
Funciones predenidas : sqrt() (raz cuadrada), abs() (valor absoluto), log() (logartmo nepe-
riano), exp() (exponencial), sin() (seno), cos() (coseno), tan() (tangente).
Al evaluar las expresiones aritmeticas existe un orden de prioridad entre los operadores de manera que
primero se evaluan las funciones predenidas, luego las potencias, luego los productos y cocientes, luego
las sumas y restas, luego los operadores de comparaci on, luego las negaciones, luego las conjunciones y
nalmente las disyunciones. Para forzar un orden de evaluacion distinto del predenido se pueden usar
parentesis. Por ejemplo
> 2^2+4/2
[1] 6
> (2^2+4)/2
[1] 4
> 2^(2+4/2)
[1] 16
> 2^(2+4)/2
[1] 32
> 2^((2+4)/2)
[1] 8
Tambien es posible asignar valores a variables mediante el operador de asignacion =. Una vez denidas,
las variables pueden usarse en cualquier expresion aritmetica o logica. Por ejemplo,
> x=2
> y=x+2
> y
[1] 4
> y>x
[1] TRUE
> x>=y
[1] FALSE
> x==y-2
[1] TRUE
> x!=0 & !y<x
[1] TRUE
4
Universidad San Pablo CEU 1. Introduccion a R y RKWard
5 Introducci on y manipulacion de datos
Antes de realizar cualquier analisis de datos hay que introducir los datos que se quieren analizar.
5.1 Introduccion de datos en lnea de comandos
Existen muchas formas de introducir datos en R pero aqu solo veremos las mas habituales. La forma
mas rapida de introducir datos es usar la consola de R para crear un vector de datos mediante el comando
c(). Por ejemplo, para introducir las notas de 5 alumnos se debe teclear en la consola de R
> nota = c(5.6 ,7.2,3.5 ,8.1,6.4)
Esto crea el vector nota con el que posteriormente se pueden realizar c alculos como por ejemplo la media
> mean(nota)
[1] 6.16
Otra forma habitual de introducir los datos de una muestra es crear un conjunto de datos mediante
el comando data.frame(). Por ejemplo, para crear un conjunto de datos a partir de las notas anteriores,
hay que teclear
> curso = data.frame(nota)
Esto crea una matriz de datos en la que cada columna se corresponde con una variable y cada la con un
individuo de la muestra. En el ejemplo la matriz curso solo tendra una columna que se correspondera
con las notas y 5 las, cada una de ellas correspondiente a un alumno de la muestra. Es posible acceder
a las variables de un conjunto de datos con el operador dolar $. Por ejemplo, para acceder a las notas
hay que teclear
> curso$nota
[1] 5.6 7.2 3.5 8.1 6.4
Es facil a nadir nuevas variables a un conjunto de datos, pero siempre deben tener el mismo tama no
muestral. Por ejemplo, para a nadir una nueva variable con el grupo (ma nana o tarde) de los alumnos,
hay que teclear
> curso$grupo = c("m","t","t","m","m")
Ahora el conjunto de datos curso tendra dos columnas, una para la nota y otra para el grupo de los
alumnos. Tecleando el nombre de cualquier objeto, se muestra su informacion:
> curso
nota grupo
1 5.6 m
2 7.2 t
3 3.5 t
4 8.1 m
5 6.4 m
Cuando se introducen datos se puede utilizar el c odigo NA (not available), para indicar la ausencia
del dato.
Las variables denidas en cada sesi on de trabajo quedan almacenas en la memoria interna de R en lo
que se conoce como espacio de trabajo. Es posible obtener un listado de todos los objetos almacenados en
el espacio de trabajo mediante los comandos ls(). Si se desea mas informacion, el comando ls.str()
ademas de mostrar los objetos de la memoria indica sus tipos y sus valores.
> ls()
[1] "curso" "nota" "x" "y"
> ls.str()
curso : data.frame : 5 obs. of 2 variables:
$ nota : num 5.6 7.2 3.5 8.1 6.4
$ grupo: chr " m " " t " " t " " m " ...
5
1. Introduccion a R y RKWard Universidad San Pablo CEU
nota : num [1:5] 5.6 7.2 3.5 8.1 6.4
x : num 2
y : num 4
Para eliminar un objeto de la memoria se utiliza el comando rm().
> ls()
[1] "curso" "nota" "x" "y"
> rm(x,y)
> ls()
[1] "curso" "nota"
5.2 Introduccion de datos en RKWard
RKWard dispone de una interfaz graca para introducir los datos sin necesidad de saberse los co-
mandos anteriores. Para ello hay que ir al menu Archivo Nuevo Conjunto de datos. Con esto apare-
cer a una ventana donde hay que darle un nombre al conjunto de datos y tras esto aparece la ventana de
la gura 1.2 con una tabla en la que se pueden introducir los datos de la muestra. Al igual que antes,
cada variable debe introducirse en una columna y cada individuo en una la.
Figura 1.2 Ventana de introduccion de datos
Haciendo clic en las casillas de la cabecera cada la es posible cambiar el nombre de la variable, ponerle
una etiqueta, su tipo, su formato y los niveles en caso de tratarse de un factor o variable categorica.
Los nombres de variables deben comenzar con una letra o un punto y pueden contener cualquier letra,
punto, subrayado (_) o n umero. En particular, no se pueden utilizar espacios en blanco. Ademas, R es
distingue entre may usculas y min usculas.
Una vez denida la variable, para introducir los datos basta con teclearlos en las casillas que aparecen
mas abajo en la misma columna.
R permite denir mas de un conjunto de datos en un mismo espacio de trabajo.
Los objetos denidos en el espacio de trabajo pueden verse haciendo clic en la solapa Espacio de
trabajo. Para editar una variable o un conjunto de datos basta con hacer doble clic sobre el. Tambien
puede obtenerse un resumen como el que se muestra en la gura 1.3 haciendo clic en el boton derecho y
seleccionando ver en el men u contextual que aparece.
6
Universidad San Pablo CEU 1. Introduccion a R y RKWard
Figura 1.3 Ventana de resumen descriptivo de un conjunto de datos
5.3 Ponderaci on de datos
Cuando una variable o un conjunto de datos tiene unos pocos valores que se repiten mucho, en
lugar de teclearlos es mas rapido indicar los valores y ponderarlos por sus frecuencias. Para ello se
utiliza el men u Teaching Datos Ponerar datos. Al seleccionarlo aparece una ventana donde hay que
seleccionar el conjunto de datos a ponderar, la variable numerica de dicho conjunto de datos que contiene
las frecuencias de ponderaci on, e indicar un nombre para el nuevo conjunto de datos. Por ejemplo, si
en una clase hay 20 chicas y 30 chicos, se puede crear un conjunto de datos con la variables sexo y
frequencia, tal y como se muestra en la gura 1.4, y despues llamar al men u de ponderaci on con los datos
que aparencen la gura 1.5.
Figura 1.4 Conjunto de datos preparado para ser ponderado
7
1. Introduccion a R y RKWard Universidad San Pablo CEU
Figura 1.5 Ventana de ponderaci on de datos
5.4 Guardar datos
Una vez introducidos los datos, conviene guardarlos en un chero para no tener que volver a intro-
ducirlos en futuras sesiones. Para guardar los conjunto de datos denidos en el espacio de trabajo, se
utiliza el men u Espacio de trabajo Guardar espacio de trabajo. Con esto aparece una ventana
donde hay que darle un nombre al chero y seleccionar la carpeta donde se guardara. Los conjuntos de
datos se guardan siempre en cheros de R con extensi on rda o rData.
Tambien es posible guardar los datos en un chero de texto plano mediante el men u Archivo
ExportarExport tabular data. Tras esto aparece una ventana donde hay que seleccionar el conjunto
de datos a exportar, darle un nombre al chero de texto y seleccionar la carpeta donde se guardara. Esta
ventana contiene tambien solapas donde se puede indicar entre otras cosas si incluir los nombres de
las variables o no, el separador de decimales o el separador de los datos, que puede ser un espacio,
tabuladores, comas u otro caracter.
5.5 Abrir datos
Si los datos con los que se pretende trabajar ya est an guardados en un chero de R, entonces tendremos
que abrir dicho chero. Para ello se utiliza el Espacio de trabajo Abrir espacio de trabajo y en la
ventana que aparece se selecciona el chero que se desea abrir. Autom aticamente se cargara el conjunto
de datos del chero y pasar a a ser el conjunto de datos activo.
Tambien es posible cargar datos de cheros con otros formatos, como por ejemplo un chero de
texto. Para ello se utiliza el men u Archivo Importar Importar datos y en la ventana que aparece
se selecciona el chero de texto que se desea abrir y en el cuadro desplegable del formato de archivo se
debes seleccionar Text. Despues aparecer a una ventana donde habr a que darle un nombre al conjunto
de datos y seleccionar el tipo de separador y si los nombres de las variables aparecen en la primera lnea
del chero.
5.6 Eliminaci on de datos
Para eliminar una variable del conjunto de datos primero hay que editar el conjunto de datos, y
despues, en la ventana de edici on de datos, hay que hacer clic con el boton derecho del rat on sobre la
cabecera de la columna correspondiente y seleccionar en el men u contextual que aparece Borrar esta
variable.
Para eliminar individuos del conjunto de datos que hacer clic con el boton derecho del rat on sobre la
cabecera de la la correspondiente y seleccionar en el men u contextual que aparece Borrar esta fila.
En la ventana del espacio de trabajo tambien es posible borrar cualquier objeto del espacio de trabajo
de R haciendo clic con el boton derecho del rat on sobre el y seleccionando el men u Eliminar.
8
Universidad San Pablo CEU 1. Introduccion a R y RKWard
6 Transformacion de datos
A menudo en los analisis hay que realizar transformaciones en los datos originales. A continuacion se
presentan las transformaciones mas habituales.
6.1 Filtrado de datos
Cuando se desea realizar un analisis con un subconjunto de individuos del conjunto de datos activo
que cumplen una determinada condicion es posible ltrar el conjunto de datos para quedarse con esos
individuos. Para ello se utiliza el men u Teaching Datos Filtrar. Con esto aparece un cuadro de dialogo
en el que hay que seleccionar el conjunto de datos que se desea ltrar, y en el cuadro de texto Condicion
de seleccion indicar la condicion logica que tienen que cumplir los individuos seleccionados. Tambien
hay que indicar el nombre del nuevo conjunto de datos. Por ejemplo, para seleccionar los alumnos del
grupo de la ma nana habra que indicar la condicion grupo==m tal y como se muestra en la gura 1.6.
Figura 1.6 Ventana de ltrado de datos.
6.2 Calculo de variables
Para calcular una nueva variable a partir de otras ya existentes en el espacio de trabajo de R se
utiliza el men u Teaching Datos Calcular variable. Con esto aparece un cuadro de dialogo en el que
hay que introducir la expresion a partir de la que se calculara la nueva variable en el cuadro de texto
Expresion de calculo, e indicar el nombre de la nueva variable. La expresion de c alculo puede ser
cualquier expresion aritmetica o logica de R, en las que pueden utilizarse cualquiera de las variables del
espacio de trabajo de R. Por ejemplo, para eliminar los decimales de la variable nota podra crearse una
nueva variable puntuacion multiplicando por 10 las notas, tal y como se muestra en la gura 1.7.
Figura 1.7 Ventana de calculo de nuevas variables.
6.3 Recodicacion de variables
Otra transformaci on habitual es la recodicacion de variables que permite transformar los valores de
una variable de acuerdo a un conjunto de reglas de reescritura. Normalmente se utiliza para convertir
una variable numerica en una variable categorica que pueda usarse como un factor.
9
1. Introduccion a R y RKWard Universidad San Pablo CEU
Para recodicar una variable se utiliza el men u Teaching Datos Recodificar variable. Con esto
aparece una ventana en la que hay que seleccionar la variable que se desea recodicar, indicar el nombre
de la nueva variable recodicada e introducir las reglas de recodicacion en el cuadro de texto Reglas de
recodificacion. Las reglas de recodicacion siempre siguen la sintaxis valor o rango de valores =
nuevo valor y pueden introducirse tantas reglas como se desee, cada una en una lnea. Al lado izquierdo
de la igualdad puede introducirse un unico valor, varios valores separados por comas, o un rango de valores
indicando el lmite inferior y el lmite superior del intervalo separados por el operador :. A la hora de
denir el lmite inferior puede utilizarse la palabra clave lo para referirse al menor de los valores de la
muestra y hi para referirse al mayor de los valores. Por ejemplo, para recodicar la variable nota en
categoras correspondientes a las calicaciones ([0-5) Suspenso, [5,7) Aprobado, [7,9) Notable y [9,10]
Sobresaliente), habra que introducir las reglas que se muestran en la gura 1.8. Despues, en la ventana
de introduccion de datos, se pueden renombrar los niveles del factor introduciendo el valor suspenso para
la categora 1, aprobado para la categora 2, notable para la categora 3 y sobresaliente para la categora
4.
Figura 1.8 Ventana de recodicacion de variables
7 Manipulacion de cheros de resultados
7.1 Guardar los resultados
Cada vez que se ejecuta un comando de R, bien en la consola de comandos o a traves de un men u, el
comando ejecutado y su salida quedan registrados en la bit acora de comandos. Sin embargo, esta salida
es en texto plano sin formato por lo que muchos de los procedimientos recogidos en los men us producen
ademas una salida mucho mas comprensible en formato HTML en la ventana de resultados.
Para guardar el contenido de la ventana de resultados en un chero se utiliza el men u Archivo
Exportar pagina como HTML. Con esto aparece un cuadro de dialogo en el que hay que indicar el
nombre del chero y la carpeta donde se desea guardar. El chero resultante est a en formato HTML por
lo que se podra visualizar con cualquier navegador web.
7.2 Limpiar la ventana de resultados
La vetana de resultados va acumulando todas las salidas de los analisis realizados en cada sesi on de
trabajo. Para no mezclar los resultados de estudios distintos, conviene limpiar la ventana de resultados
cada vez que se empiece un estudio nuevo. Para ello hay que seleccionar el men u Edicion Limpiar
salida.
10
Universidad San Pablo CEU 1. Introduccion a R y RKWard
8 Manipulacion de guiones de comandos
8.1 Creacion de un guion de comandos
RKWard tambien incorpora un entorno de desarrollo para programadores de R que permite crear
guiones de comandos que pueden ejecutarse todos seguidos. Esta opcion es muy interesante para repe-
tir analisis o automatizar tareas repetitivas. Para crear un gui on de comandos hay que seleccionar el
men u Archivo Nuevo Archivo de guiones. Con esto aparecer a una venta como la que aparece en la
gura 1.9 donde se podran teclecar los comandos de R para despues ejecutarlos uno a uno o en bloque.
Figura 1.9 Ventana de edicion de guiones de comandos
8.2 Guardar un guion de comandos
Los guiones de comandos tambien pueden guardarse en un chero de texto plano mediante el men u Ar
chivo Guardar gui on e indicando el nombre del chero y la carpeta donde se guardara en el cuadro de
dialo que aparece.
8.3 Abrir un guion de comandos
Para abrir un chero con un gui on de comandos se utiliza el men u Archivo Abrir archivo de
guiones de R y despues seleccionar el chero que se desea abrir en el cuadro de dialogo que aparece.
9 Ayuda
Otra de las ventajas de R es que tiene un sistema de ayuda muy documentado. Es posible conseguir
ayuda sobre cualquier funci on, prodecimiento o paquete simplemente tecleando el comando help(). Por
ejemplo, para obtener ayuda sobre el comando mean se tecleara
> help("mean")
y con esto aparecer a una ventana de ayuda donde se describe la funci on y tambien aparecen ejemplos
que ilustran su uso. Si no se conoce exactamente el nombre de la funci on o comando, se puede hacer
una b usqueda aproximada con el comando help.search(). Por emplo, si no se recuerda el nombre de
la funci on logartmica, se podra teclear
11
1. Introduccion a R y RKWard Universidad San Pablo CEU
> help(" logarithm")
y con esto aparecer a una ventana con todos los cheros de ayuda que contienen la palabra logarithm.
Finalmente, tambien es posible invocar la ayuda general de R en RKWard con el men u Ayuda Ayuda
de R con lo que aparecer a una p agina web desde donde podremos navegar a la informacion deseada.
Tambien es posible buscar ayuda sobre un comando concreto en el men u Ayuda Buscar en la ayuda
de R.
Para mas informacion sobre R se recomienda visitar la p agina http://www.r-project.org/, y para
mas informacion sobre RKWard se recomienda visitar la p agina http://rkward.sourceforge.net/.
12
Universidad San Pablo CEU 1. Introduccion a R y RKWard
10 Ejercicios resueltos
1. Crear un conjunto de datos con los datos de la siguiente muestra y guardarlo con el nombre coleste
rol.rda
Nombre Sexo Peso Altura Colesterol
Jose Luis Martnez Izquierdo H 85 179 182
Rosa Daz Daz M 65 173 232
Javier Garca S anchez H 71 181 191
Carmen L opez Pinzon M 65 170 200
Marisa L opez Collado M 51 158 148
Antonio Ruiz Cruz H 66 174 249
Indicacion
Para crear el conjunto de datos:
a) Seleccionar el men u Archivo Nuevo Conjunto de datos.
b) En el cuadro de dialogo que aparece introducir el nombre del conjunto de datos colesterol y hacer clic en el
bot on Aceptar.
c) En la ventana del editor de datos hay que denir una variable en cada columna introduciendo su nombre y
tipo en las casillas de la cabecera de cada columna.
d) Una vez denidas las variables hay que introducir los datos de cada variable en la columna correspondiente.
Para guardar los datos:
a) Selecionar el men u Espacio de trabajo Guardar espacio de trabajo.
b) En el cuadro de dialogo que aparece hay que darle un nombre al chero, seleccionar la carpeta donde guardarlo
y hacer clic en el bot on Aceptar.
2. Abrir el chero creado en el ejercicio anterior y realizar las siguientes operaciones:
a) Insertar una nueva variable Edad con las edades de todos los individuos de la muestra.
Nombre Edad
Jose Luis Martnez Izquierdo 18
Rosa Daz Daz 32
Javier Garca S anchez 24
Carmen L opez Pinzon 35
Marisa L opez Collado 46
Antonio Ruiz Cruz 68
Indicacion
Para abrir el conjunto de datos del ejercicio anterior:
1) Seleccionar el men u Espacio de trabajo Abrir espacio de trabajo.
2) En el cuadro de dialogo que aparece seleccionar la carpeta donde se encuentra el chero con los datos del
ejercicio anterior, seleccionar el chero y hacer clic en el bot on Aceptar.
Para insertar la variable Edad:
1) Hacer clic en la solapa Espacio de trabajo.
2) En la ventana del espacio de trabajo doble clic sobre el conjunto de datos colesterol.
3) En la ventana del editor de datos introducir el nombre de la variable edad y su tipo en las casillas de la
cabecera de una nueva columna vaca, e introducir los datos de las edades en las celdas de mas abajo.
b) Insertar un nuevo individuo con siguientes datos
Nombre: Crist obal Campos Ruiz.
Edad: 44 a nos.
Sexo: Hombre.
Peso: 70 Kg.
Altura: 178 cm.
Colesterol: 220 mg/dl.
13
1. Introduccion a R y RKWard Universidad San Pablo CEU
Indicacion
1) En la ventana del editor de datos introducir los datos de del nuevo individuo en la primera la vaca.
c) Crear una nueva variable donde se calcule el ndice de masa corporal de cada paciente mediante
la formula:
imc =
Peso (en Kg)
Altura (en mt)
2
Indicacion
1) Seleccionar el men u Teaching Datos Calcular variable.
2) En el cuadro de dialogo que aparece introducir la f ormula para calcular el ndice de masa corporal en el
campo Expresion de calculo.
3) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar.
4) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos colesterol y
hacer clic sobre el bot on Aceptar.
5) Introducir el nombre de la nueva variable imc y hacer clic sobre el bot on Aceptar.
d) Recodicar el ndice de masa corporal en una nueva variable de acuerdo a las siguientes categoras:
Menor de 18,5 Bajo peso
De 18,5 a 24,5 Saludable
De 24,5 a 30 Sobrepeso
Mayor de 30 Obeso
Indicacion
1) Selecionar el men u Teaching Datos Recodificar variable.
2) En el cuadro de dialogo que aparece seleccionar como variable a recodicar la variable imc.
3) Introducir las reglas de recodicacion en el campo Reglas de recodificacion:
lo:18.5 = 1
18.5:24.5 = 2
24.5:30 = 3
30:hi = 4
4) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar.
5) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos colesterol y
hacer clic sobre el bot on Aceptar.
6) Introducir el nombre de la nueva variable obesidad y hacer clic sobre el bot on Aceptar.
7) En la ventada de edici on de datos introducir los niveles del factor, asignando Bajo peso a la categora 1,
Saludable a la categora 2, Sobrepeso a la categora 3 y Obeso a la categora 4.
e) Filtrar el conjunto de datos para obtener un nuevo conjunto de datos con los datos de los
hombres
Indicacion
1) Selecionar el men u Teaching Datos Filtrar.
2) En el cuadro de dialogo que aparece seleccionar como conjunto de datos colesterol.
3) En el campo Condicion de seleccion introducir la condicion sexo=="H".
4) Introducir el nombre del nuevo conjunto de datos colesterol.hombres y hacer clic sobre el bot on Aceptar.
11 Ejercicios propuestos
1. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Cargar el conjunto de datos.
14
Universidad San Pablo CEU 1. Introduccion a R y RKWard
Indicacion
1) Hacer clic en la solapa Espacio de trabajo para desplegarla y ver los paquetes del espacio de trabajo.
2) Hacer doble clic sobre el paquete rk.Teaching para ver todos los conjuntos de datos que contiene.
3) Hacer clic con el bot on derecho sobre el conjunto de datos nenonatos y en el men u contextual que aparece
selecconar Copiar a .GlobalEnv para hacer una copia del conjunto de datos en nuestro entorno de trabajo.
b) Calcular la variable apgar.medio como la media de las variables apgar1 y apgar5.
c) Recodicar la varible peso en el factor categoria.peso con dos categorias que se correspondan con
los pesos menores y mayores de 2,5 Kg.
d) Recodicar la variable apgar1 en el factor estado.apgar1 con tres categoras: deprimido (Apgar
3), moderadamente deprimido (3 <Apgar 6) y normal (Apgar> 6).
e) Filtrar el conjunto de datos para quedarse con los hijos de las madres no fumadoras con una
puntuacion Apgar al minuto de nacer menor o igual que 3. Cuantos ni nos hay?
15
1. Introduccion a R y RKWard Universidad San Pablo CEU
16
Practica de Estadstica con R 2
Distribuciones de Frecuencias
y Representaciones Gracas
1 Fundamentos teoricos
Uno de los primeros pasos en cualquier estudio estadstico es el resumen y la descripcion de la
informacion contenida en una muestra. Para ello se van a aplicar algunos metodos de analisis descriptivo,
que nos permitiran clasicar y estructurar la informacion al igual que representarla gracamente.
Las caractersticas que estudiamos pueden ser o no susceptibles de medida; en este sentido deniremos
una variable como un car acter susceptible de ser medido, es decir, cuantitativo y cuanticable mediante
la observaci on, (por ejemplo el peso de las personas, la edad, etc...), y deniremos un atributo como
un car acter no susceptible de ser medido, y en consecuencia observable tan solo cualitativamente (por
ejemplo el color de ojos, estado de un paciente, etc...). Se llaman modalidades a las posibles observaciones
de un atributo.
Dentro de los atributos, podemos hablar de atributos ordinales, los que presentan alg un tipo de orden
entre las distintas modalidades, y de atributos nominales, en los que no existe ning un orden entre ellas.
Dentro de las variables podemos diferenciar entre discretas, si sus valores posibles son valores aislados,
y continuas, si pueden tomar cualquier valor dentro de un intervalo.
En algunos textos no se emplea el termino atributo y se denominan a todos los caracteres variables. En
ese caso se distinguen variables cuantitativas para designar las que aqu hemos denido como variables,
y variables cualitativas para las que aqu se han llamado atributos. En lo sucesivo se aplicar a este criterio
para simplicar la exposicion.
1.1 Calculo de Frecuencias
Para estudiar cualquier caracterstica, lo primero que deberemos hacer es un recuento de las obser-
vaciones, y el n umero de repeticiones de estas. Para cada valor x
i
de la muestra se dene:
Frecuencia absoluta Es el n umero de veces que aparece cada uno de los valores x
i
y se denota por n
i
.
Frecuencia relativa Es el n umero de veces que aparece cada valor x
i
dividido entre el tama no muestral
y se denota por f
i
f
i
=
n
i
n
Generalmente las frecuencias relativas se multiplican por 100 para que representen el tanto por
ciento.
En el caso de que exista un orden entre los valores de la variable, a veces nos interesa no solo conocer
el n umero de veces que se repite un determinado valor, sino tambien el n umero de veces que aparece
dicho valor y todos los menores. A este tipo de frecuencias se le denomina frecuencias acumuladas.
Frecuencia absoluta acumulada Es la suma de las frecuencias absolutas de los valores menores que
x
i
mas la frecuencia absoluta de x
i
, y se denota por N
i
N
i
= n
1
+ n
2
+ . . . + n
i
17
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
Frecuencia relativa acumulada Es la suma de las frecuencias relativas de los valores menores que x
i
mas la frecuencia relativa de x
i
, y se denota por F
i
F
i
= f
1
+ f
2
+ . . . + f
i
Los resultados de las observaciones de los valores de una variable estadstica en una muestra suelen
representarse en forma de tabla. En la primera columna se representan los valores x
i
de la variable coloca-
dos en orden creciente, y en la siguiente columna los valores de las frecuencias absolutas correspondientes
n
i
.
Podemos completar la tabla con otras columnas, correspondientes a las frecuencias relativas, f
i
, y a
las frecuencias acumuladas, N
i
y F
i
. Al conjunto de los valores de la variable observados en la muestra
junto con sus frecuencias se le conoce como distribucion de frecuencias muestral.
Ejemplo En una encuesta a 25 matrimonios, sobre el n umero de hijos que tienen, se obtienen los
siguientes datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2.
Los valores distintos de la variable son: 0, 1, 2, 3 y 4. As la tabla sera:
x
i
Recuento n
i
0 II 2
1 IIIII I 6
2 IIIII IIIII IIII 14
3 II 2
4 I 1
La distribuci on de las frecuencias quedara:
x
i
n
i
f
i
N
i
F
i
0 2 0,08 2 0,08
1 6 0,24 8 0,32
2 14 0,56 22 0,88
3 2 0,08 24 0,96
4 1 0,04 25 1
Suma 25 1
Cuando el tama no de la muestra es grande en el caso de variables discretas con muchos valores
distintos de la variable, y en cualquier caso si se trata de variables continuas, se agrupan las observaciones
en clases, que son intervalos contiguos, preferiblemente de la misma amplitud.
Para decidir el n umero de clases a considerar, una regla frecuentemente utilizada es tomar el entero
mas proximo a

n donde n es el n umero de observaciones en la muestra. Pero conviene probar con
distintos n umeros de clases y escoger el que proporcione una descripcion mas clara. As se prejan los
intervalos (a
i1
, a
i
], i = 1, 2, . . . , l siendo a = a
0
< a
1
< .... < a
l
= b de tal modo que todos los
valores observados esten dentro del intervalo (a, b], y sin que exista ambig uedad a la hora de decidir a
que intervalo pertenece cada dato.
Llamaremos marca de clase al punto medio de cada intervalo. As la marca de la clase (a
i1
, a
i
] es
el punto medio x
i
de dicha clase, es decir
x
i
=
a
i1
+ a
i
2
En el tratamiento estadstico de los datos agrupados, todos los valores que est an en una misma clase
se consideran iguales a la marca de la clase. De esta manera si en la clase (a
i1
, a
i
] hay n
i
valores
observados, se puede asociar la marca de la clase x
i
con esta frecuencia n
i
.
1.2 Representaciones Gracas
Hemos visto que la tabla estadstica resume los datos de una muestra, de forma que esta se puede
analizar de una manera mas sistem atica y resumida. Para conseguir una percepcion visual de las carac-
tersticas de la poblacion resulta muy util el uso de gracas y diagramas. Dependiendo del tipo de variable
y de si trabajamos con datos agrupados o no, se utilizaran distintos tipos.
18
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
Diagrama de barras y polgono de frecuencias
Consiste en representar sobre el eje de abscisas de un sistema de ejes coordenados los distintos
valores de la variable X, y levantar sobre cada uno de esos puntos una barra cuya altura sea igual a
la frecuencia absoluta o relativa correspondiente a ese valor, tal y como se muestra en la gura 2.1(a).
Esta representacion se utiliza para distribuciones de frecuencias con pocos valores distintos de la variable,
tanto cuantitativas como cualitativas, y en este ultimo caso se suele representar con rectangulos de altura
igual a la frecuencia de cada modalidad.
En el caso de variables cuantitativas se puede representar tambien el diagrama de barras de las
frecuencias acumuladas, tal y como se muestra en la gura 2.1(b).
Otra representacion habitual es el polgono de frecuencias que consiste en la lnea poligonal cuyos
vertices son los puntos (x
i
, n
i
), tal y como se ve en la gura 2.1(c), y si en vez de considerar las frecuen-
cias absolutas o relativas se consideran las absolutas o relativas acumuladas, se obtiene el polgono de
frecuencias acumuladas, como se ve en la gura 2.1(d).
0
2
4
6
8
1
0
1
2
1
4
0 1 2 3 4
N umero de hijos
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
n
i
0
2
4
6
8
1
0
1
2
1
4
(a) Diagrama de barras de frecuencias absolutas.
0
5
1
0
1
5
2
0
2
5
0 1 2 3 4
N umero de hijos
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
a
c
u
m
u
l
a
d
a
N
i
0
5
1
0
1
5
2
0
2
5
(b) Diagrama de barras de frecuencias absolutas acu-
muladas.
0
2
4
6
8
1
0
1
2
1
4
0 1 2 3 4
N umero de hijos
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
n
i
0
2
4
6
8
1
0
1
2
1
4
(c) Polgono de frecuencias absolutas.
0
5
1
0
1
5
2
0
2
5
0 1 2 3 4
N umero de hijos
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
a
c
u
m
u
l
a
d
a
N
i
0
5
1
0
1
5
2
0
2
5
(d) Polgono de frecuencias absolutas acumuladas
Figura 2.1 Diagramas de barras y polgonos asociados para datos no agrupados.
19
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
Histogramas
Este tipo de representaciones se utiliza en variables continuas y en variables discretas en que se ha
realizado una agrupaci on de las observaciones en clases. Un histograma es un conjunto de rectangulos,
cuyas bases son los intervalos de clase (a
i1
, a
i
] sobre el eje OX y su altura la correspondiente frecuencia
absoluta , relativa, absoluta acumulada, o relativa acumulada, tal y como se muestra en la guras 2.2(a)
y 2.2(b).
Si unimos los puntos medios de las bases superiores de los rectangulos del histograma, se obtiene el
polgono de frecuencias correspondiente a datos agrupados (gura 2.2(c)).
El polgono de frecuencias tambien se puede utilizar para representar las frecuencias acumuladas,
tanto absolutas como relativas. En este caso la lnea poligonal se traza uniendo los extremos derechos de
las bases superiores de los rectangulos del histograma de frecuencias acumuladas, en lugar de los puntos
centrales (gura 2.2(d)).
Estatura
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
n
i
150 160 170 180 190 200
0
2
4
6
8
1
0
1
2
(a) Histograma de frecuencias absolutas.
Estatura
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
a
c
u
m
u
l
a
d
a
N
i
150 160 170 180 190 200
0
5
1
0
1
5
2
0
2
5
3
0
(b) Histograma de frecuencias absolutas acumula-
das.
Estatura
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
n
i
150 160 170 180 190 200
0
2
4
6
8
1
0
1
2
(c) Polgono de frecuencias absolutas.
Estatura
F
r
e
c
u
e
n
c
i
a
a
b
s
o
l
u
t
a
a
c
u
m
u
l
a
d
a
N
i
150 160 170 180 190 200
0
5
1
0
1
5
2
0
2
5
3
0
(d) Polgono de frecuencias absolutas acumuladas
Figura 2.2 Histograma y polgonos asociados para datos agrupados.
Para variables cualitativas y cuantitativas discretas tambien se pueden usar las supercies represen-
tativas; de estas, las mas empleadas son los sectores circulares.
20
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
Sectores circulares o diagrama de sectores
Es una representacion en la que un crculo se divide en sectores, de forma que los angulos, y por tanto
las areas respectivas, sean proporcionales a la frecuencia.
Ejemplo Se est a haciendo un estudio en una poblacion del grupo sanguneo de sus ciudadanos. Para
ello disponemos de una muestra de 30 personas, con los siguientes resultados: 5 personas con grupo 0,
14 con grupo A, 8 con grupo B y 3 con grupo AB. El el diagrama de sectores de frecuencias relativas
correspondiente aparece en la gura 2.3.
grupo 0 16 %
grupo A 47 %
grupo AB 10 %
grupo B 27 %
Distribuci on del grupo sanguneo
Figura 2.3 Diagrama de sectores de frecuencias relativas del grupo sanguneo.
Diagrama de cajas y datos atpicos
Los datos extremadamente altos o bajos, en comparaci on con los del resto de la muestra, reciben el
nombre de datos inuyentes o datos atpicos. Tales datos que, como su propio nombre indica, pueden
modicar las conclusiones de un estudio, deben ser considerados atentamente antes de aceptarlos, pues
no pocas veces podran ser, simplemente, datos erroneos. La representacion graca mas apropiada para
detectar estos datos es el diagrama de cajas. Este diagrama est a formado por una caja que contiene el
50 % de los datos centrales de la distribuci on, y unos segmentos que salen de la caja, que indican los
lmites a partir de los cuales los datos se consideran atpicos. En la gura 2.4 se puede observar un
ejemplo en el que aparecen dos datos atpicos.
21
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
2.0 2.5 3.0 3.5 4.0 4.5
Diagrama de caja y bigotes del peso de recien nacidos
Peso (Kg)
C
1
C
2
C
3
D
a
t
o
a
t

p
i
c
o
D
a
t
o
a
t

p
i
c
o
Figura 2.4 Diagrama de cajas para una muestra de recien nacidos. Existen dos ni nos con pesos
atpicos, uno con peso extremadamente bajo 1,9 kg, y otro con peso extremadamente alto 4,3 kg.
22
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
2 Ejercicios resueltos
1. En una encuesta a 25 matrimonios sobre el n umero de hijos que tenan se obtuvieron los siguientes
datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
Se pide:
a) Crear un conjunto de datos con la variable hijos e introducir los datos.
b) Construir la tabla de frecuencias.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias .
2) En el cuadro de dialogo que aparece, seleccionar la variable hijos en el campo Variable a tabular y hacer
clic en el bot on Enviar.
c) Dibujar el diagrama de barras de las frecuencias absolutas.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de barras.
2) En el cuadro de dialogo que aparece, seleccionar la variable hijos en el campo Variable y hacer clic en el
bot on Enviar.
d) Para la misma tabla de frecuencias anterior, dibujar tambien el diagrama de barras de las fre-
cuencias relativas, el de absolutas acumuladas y el de relativas acumuladas, ademas de sus co-
rrespondientes polgonos.
Indicacion
Repetir los pasos del apartado anterior activando, en la solapa de Opciones de las barras, la opci on Frecuen
cias relativas si se desea el diagrama de barras de frecuencias relativas, activando la opci on Frecuencias
acumuladas si se desea el diagrama de barras de frecuencias acumuladas y activando la opci on Polgono para
obtener el polgono asociado.
2. En un hospital se realizo un estudio sobre el n umero de personas que ingresaron en urgencias cada
da del mes de noviembre. Los datos observados fueron:
15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26
30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20
Se pide:
a) Crear un conjunto de datos con la variable urgencias e introducir los datos.
b) Dibujar el diagrama de cajas. Existe alg un dato atpico? En el caso de que exista, eliminarlo y
proceder con los siguientes apartados.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de cajas.
2) En el cuadro de dialogo que aparece, seleccionar la variable urgencias en el campo Variables y hacer clic
en el bot on Enviar.
3) En la ventana que aparece con el diagrama de cajas identicar el dato atpico.
4) Ir a la ventana de edici on de datos y eliminar la la del dato atpico haciendo clic con el bot on derecho
del raton en la cabecera de la la y seleccionando Borrar esta fila.
c) Construir la tabla de frecuencias agrupando en 5 clases.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias.
3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on Numero de intervalos
e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on
Enviar.
23
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
d) Dibujar el histograma de frecuencias absolutas correspondiente a la tabla anterior.
Indicacion
1) Seleccionar el men u Teaching Graficos Histograma.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias en el campo Variable.
3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on Numero de intervalos
e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on
Enviar.
e) Para la misma tabla de frecuencias anterior, dibujar tambien el histograma de las frecuencias
relativas, el de absolutas acumuladas y el de relativas acumuladas, ademas de sus correspondientes
polgonos.
Indicacion
Repetir los pasos del apartado anterior activando, en la solapa de Opciones del histograma, la opci on Frecuen
cias relativas si se desea el histograma de frecuencias relativas, activando la opci on Frecuencias acumuladas
si se desea el histograma de frecuencias acumuladas y activando la opci on Polgono para obtener el polgono
asociado.
3. Los grupos sanguneos de una muestra de 30 personas son:
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB,
A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0.
Se pide:
a) Crear un conjunto de datos con la variable grupo.sanguineo e introducir los datos.
b) Construir la tabla de frecuencias.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias .
2) En el cuadro de dialogo que aparece, seleccionar la variable grupo.sanguineo en el campo Variable a
tabular y hacer clic en el bot on Enviar.
c) Dibujar el diagrama de sectores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de sectores.
2) En el cuadro de dialogo que aparece, seleccionar la variable grupo.sanguineo en el campo Variables y
hacer clic sobre el bot on Enviar.
4. En un estudio de poblacion se tomo una muestra de 27 personas, y se les pregunt o por su edad y
estado civil, obteniendo los siguientes resultados:
Estado civil Edad
Soltero 31 45 35 65 21 38 62 22 31
Casado 62 39 62 59 21 62
Viudo 80 68 65 40 78 69 75
Divorciado 31 65 59 49 65
Se pide:
a) Crear un conjunto de datos con la variables estado.civil y edad e introducir los datos.
b) Construir la tabla de frecuencias de la variable edad para cada categora de la variable esta-
do.civil.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias.
2) En el cuadro de dialogo que aparece, seleccionar la variable edad en el campo Variable a tabular, activar
la casilla Tabular por grupos, seleccionar la variable estado.civil en el campo Variable de agrupacion y
hacer clic en el bot on Enviar.
24
Universidad San Pablo CEU 2. Distribuciones de Frecuencias y Representaciones Gracas
c) Dibujar los diagramas de cajas de la edad seg un el estado civil. Existen datos atpicos? En
que grupo hay mayor dispersi on?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de cajas.
2) En el cuadro de dialogo que aparece, seleccionar la variable edad en el campo Variables, activar la casilla
Dibujar por grupos, seleccionar la variable estado.civil en el campo Variable de agrupacion y hacer clic
en el bot on Enviar.
3 Ejercicios propuestos
1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue
el siguiente:
0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1
Se pide:
a) Construir la tabla de frecuencias.
b) Dibujar el diagrama de barras de las frecuencias relativas y de frecuencias relativas acumuladas.
c) Dibujar el diagrama de sectores.
2. Para realizar un estudio sobre la estatura de los estudiantes universitarios, seleccionamos, mediante
un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados
(medidos en centmetros):
179, 173, 181, 170, 158, 174, 172, 166, 194, 185,
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,
175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
Se pide:
a) Dibujar el histograma de las frecuencias absolutas agrupando desde 150 a 200 en clases de
amplitud 10.
b) Dibujar el diagrama de cajas. Existe alg un dato atpico?.
3. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Construir la tabla de frecuencias de la puntuacion Apgar al minuto de nacer. Si se considera que
una puntuacion Apgar de 3 o menos indica que el neonato est a deprimido, que porcentaje de
ni nos est a deprimido en la muestra?
b) Comparar las distribuciones de frecuencias de las puntuaciones Apgar al minuto de nacer seg un
si la madre es mayor o menor de 20 a nos. En que grupo hay mas neonatos deprimidos?
c) Construir la tabla de frecuencias para el peso de los neonatos, agrupando en clases de amplitud
0,5 desde el 2 hasta el 4,5. En que intervalo de peso hay mas ni nos?
d) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre fuma
o no. Si se considera como peso bajo un peso menor de 2,5 kg, En que grupo hay un mayor
porcentaje de ni nos con peso bajo?
e) Si en los recien nacidos se considera como peso bajo un peso menor de 2,5 kg, calcular la
prevalencia del bajo peso de recien nacidos en el grupo de madres fumadoras y en el de no
fumadoras.
25
2. Distribuciones de Frecuencias y Representaciones Gracas Universidad San Pablo CEU
f ) Calcular el riesgo relativo de que un recien nacido tenga bajo peso cuando la madre fuma, frente
a cuando la madre no fuma.
g) Construir el diagrama de barras de la puntuacion Apgar al minuto. Que puntuacion Apgar es
la mas frecuente?
h) Construir el diagrama de frecuencias relativas acumuladas de la puntuacion Apgar al minuto.
Por debajo de que puntuacion estar an la mitad de los ni nos?
i) Comparar mediante diagramas de barras de frecuencias relativas las distribuciones de las pun-
tuaciones Apgar al minuto seg un si la madre ha fumado o no durante el embarazo. Que se puede
concluir?
j ) Construir el histograma de pesos, agrupando en clases de amplitud 0,5 desde el 2 hasta el 4,5.
En que intervalo de peso hay mas ni nos?
k) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre fuma
o no. En que grupo se aprecia menor peso de los ni nos de la muestra?
l ) Comparar la distribuci on de frecuencias relativas del peso de los neonatos seg un si la madre
fumaba o no antes del embarazo. Que se puede concluir?
m) Construir el diagrama de caja y bigotes del peso. Entre que valores se considera que el peso de
un neonato es normal? Existen datos atpicos?
n) Comparar el diagrama de cajas y bigotes del peso, seg un si la madre fumo o no durante el
embarazo y si era mayor o no de 20 a nos. En que grupo el peso tiene mas dispersi on central?
En que grupo pesan menos los ni nos de la muestra?
n) Comparar el diagrama de cajas de la puntuacion Apgar al minuto y a los cinco minutos. En
que variable hay mas dispersi on central?
26
Practica de Estadstica con R 3
Estadsticos Muestrales
1 Fundamentos teoricos
Hemos visto c omo podemos presentar la informacion que obtenemos de la muestra, a traves de tablas
o bien a traves de gracas. La tabla de frecuencias contiene toda la informacion de la muestra pero resulta
difcil sacar conclusiones sobre determinados aspectos de la distribuci on con solo mirarla. Ahora veremos
c omo a partir de esos mismos valores observados de la variable estadstica, se calculan ciertos n umeros
que resumen la informacion muestral. Estos n umeros, llamados Estadsticos, se utilizan para poner de
maniesto ciertos aspectos de la distribuci on, tales como la dispersi on o concentraci on de los datos, la
forma de su distribuci on, etc. Seg un sea la caracterstica que pretenden reejar se pueden clasicar en
medidas de posicion, medidas de dispersi on y medidas de forma.
1.1 Medidas de posici on
Son valores que indican c omo se sit uan los datos. Los mas importantes son la Media aritmetica, la
Mediana y la Moda.
Media aritmetica x
Se llama media aritmetica de una variable estadstica X, y se representa por x , a la suma de todos
los resultados observados, dividida por el tama no muestral. Es decir, la media de la variable estadstica
X, cuya distribuci on de frecuencias es (x
i
, n
i
), viene dada por
x =
x
1
+ . . . + x
1
+ . . . + x
k
+ . . . + x
k
n
1
+ . . . + n
k
=
x
1
n
1
+ . . . + x
k
n
k
n
=
1
n
k

i=1
x
i
n
i
La media aritmetica solo tiene sentido en variables cuantitativas.
Mediana Me
Se llama mediana y lo denotamos por Me, a aquel valor de la muestra que, una vez ordenados todos
los valores de la misma en orden creciente, tiene tantos terminos inferiores a el como superiores. En
consecuencia, divide la distribuci on en dos partes iguales.
La mediana solo tiene sentido en atributos ordinales y en variables cuantitativas.
Moda Mo
La moda es el valor de la variable que presenta una mayor frecuencia en la muestra. Cuando haya
mas de un valor con frecuencia maxima diremos que hay mas de una moda. En variables continuas o
discretas agrupadas llamaremos clase modal a la que tenga la maxima frecuencia. Se puede calcular la
moda tanto en variables cuantitativas como cualitativas.
27
3. Estadsticos Muestrales Universidad San Pablo CEU
Cuantiles
Si el conjunto total de valores observados se divide en r partes que contengan cada una
n
r
observa-
ciones, los puntos de separacion de las mismas reciben el nombre generico de cuantiles.
Seg un esto la mediana tambien es un cuantil con r = 2. Algunos cuantiles reciben determinados
nombres como:
Cuartiles. Son los puntos que dividen la distribuci on en 4 partes iguales y se designan por C
1
, C
2
, C
3
.
Es claro que C
2
= Me.
Deciles. Son los puntos que dividen la distribuci on en 10 partes iguales y se designan por D
1
, D
2
, . . . , D
9
.
Percentiles. Son los puntos que dividen la distribuci on en 100 partes iguales y se designan por P
1
, P
2
, . . . , P
99
.
1.2 Medidas de dispersi on
Miden la separacion existente entre los valores de la muestra. Las mas importantes son el Rango o
Recorrido, el Rango Intercuartlico, la Varianza, la Desviaci on Tpica y el Coeciente de Variacion.
Rango o Recorrido Re
La medida de dispersi on mas inmediata es el rango. Llamamos recorrido o rango y lo designaremos
por Re a la diferencia entre los valores maximo y mnimo que toma la variable en la muestra, es decir
Re = max{x
i
, i = 1, 2, . . . , n} min{x
i
, i = 1, 2, . . . , n}.
Este estadstico sirve para medir el campo de variacion de la variable, aunque es la medida de
dispersi on que menos informacion proporciona sobre la mayor o menor agrupaci on de los valores de la
variable alrededor de las medidas de tendencia central. Ademas tiene el inconveniente de que se ve muy
afectado por los datos atpicos.
Rango Intercuartlico RI
El rango intercuartlico RI es la diferencia entre el tercer y el primer cuartil, y mide, por tanto, el
campo de variacion del 50 % de los datos centrales de la distribuci on. Por consiguiente
RI = C
3
C
1
.
La ventaja del rango intercuartlico frente al recorrido es que no se ve tan afectado por los datos
atpicos.
Varianza s
2
x
Llamamos varianza de una variable estadstica X, y la designaremos por s
2
x
, a la media de los cua-
drados de las desviaciones de los valores observados respecto de la media de la muestra, es decir,
s
2
x
=
1
n
k

i=1
(x
i
x)
2
n
i
.
Desviaci on Tpica s
x
La raz cuadrada positiva de la varianza se conoce como desviaci on tpica de la variable X, y se
representa por s,
s = +

s
2
x
.
28
Universidad San Pablo CEU 3. Estadsticos Muestrales
Coeciente de Variaci on de Pearson Cv
x
Al cociente entre la desviacion tpica y el valor absoluto de la media se le conoce como coeciente de
variacion de Pearson o simplemente coeciente de variacion:
Cv
x
=
s
x
|x|
.
El coeciente de variacion es adimensional, y por tanto permite hacer comparaciones entre variables
expresadas en distintas unidades. Cuanto mas proximo este a 0, menor sera la dispersi on de la muestra
en relacion con la media, y mas representativa sera esta ultima del conjunto de observaciones.
1.3 Medidas de forma
Indican la forma que tiene la distribuci on de valores en la muestra. Se pueden clasicar en dos grupos:
Medidas de asimetra y medidas de apuntamiento o curtosis.
Coeciente de asimetra de Fisher g
1
El coeciente de asimetra de Fisher, que se representa por g
1
, se dene
g
1
=

k
i=1
(x
i
x)
3
f
i
s
3
x
.
Dependiendo del valor que tome tendremos:
g
1
= 0. Distribucion simetrica.
g
1
< 0. Distribucion asimetrica hacia la izquierda.
g
1
> 0. Distribucion asimetrica hacia la derecha.
Coeciente de apuntamiento o curtosis g
2
El grado de apuntamiento de las observaciones de la muestra, se caracteriza por el coeciente de
apuntamiento o curtosis, que se representa por g
2
, y se dene
g
2
=

k
i=1
(x
i
x)
4
f
i
s
4
x
3.
Dependiendo del valor que tome tendremos:
g
2
= 0. La distribuci on tiene un apuntamiento igual que el de la distribuci on normal de la misma
media y desviacion tpica. Se dice que es una distribuci on mesoc urtica.
g
2
< 0. La distribuci on es menos apuntada que la distribuci on normal de la misma media y
desviacion tpica. Se dice que es una distribuci on platic urtica.
g
2
> 0. La distribuci on es mas apuntada que la distribuci on normal de la misma media y desviacion
tpica. Se dice que es una distribuci on leptoc urtica.
Tanto g
1
como g
2
suelen utilizarse para comprobar si los datos muestrales provienen de una poblacion
no normal. Cuando g
1
est a fuera del intervalo [-2,2] se dice que la distribuci on es demasiado asimetrica
como para que los datos provengan de una poblacion normal. Del mismo modo, cuando g
2
est a fuera del
intervalo [-2,2] se dice que la distribuci on es, o demasiado apuntada, o demasiado plana, como para que
los datos provengan de una poblacion normal.
29
3. Estadsticos Muestrales Universidad San Pablo CEU
1.4 Estadsticos de variables en las que se denen grupos
Ya sabemos c omo resumir la informacion contenida en una muestra utilizando una serie de estadsti-
cos. Pero hasta ahora solo hemos estudiado ejemplos con un unico car acter objeto de estudio.
En la mayora de las investigaciones no estudiaremos un unico car acter, sino un conjunto de caracteres,
y muchas veces sera conveniente obtener informacion de un determinado car acter, en funci on de los grupos
creados por otro de los caracteres estudiados en la investigacion. A estas variables que se utilizan para
formar grupos se les conoce como variables clasicadoras o factores.
Por ejemplo, si se realiza un estudio sobre un conjunto de ni nos recien nacidos, podemos estudiar su
peso. Pero si ademas sabemos si la madre de cada ni no es fumadora o no, podremos hacer un estudio
del peso de los ni nos de las madres fumadoras por un lado y los de las no fumadoras por otro, para ver
si existen diferencias entre ambos grupos.
30
Universidad San Pablo CEU 3. Estadsticos Muestrales
2 Ejercicios resueltos
1. En una encuesta a 25 matrimonios sobre el n umero de hijos que tenan se obtuvieron los siguientes
datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
Se pide:
a) Crear un conjunto de datos con la variable hijos e introducir los datos. Si ya se tienen los datos,
simplemente recuperarlos.
b) Calcular la media aritmetica, varianza y desviacion tpica de dicha variable. Interpretar los
estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable hijos en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Media y Desviacion tpica, y hacer click sobre el bot on
Enviar.
c) Calcular los cuartiles, el recorrido, el rango intercuartlico, el tercer decil y el percentil 68.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable hijos en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Cuartiles, Rango, Rango intercuartlico, introducir los
valores 0,3 y 0,68 en el campo Percentiles, y hacer click sobre el bot on Enviar.
2. En un hospital se realizo un estudio sobre el n umero de personas que ingresaron en urgencias cada
da del mes de noviembre. Los datos observados fueron:
15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26
30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20
Se pide:
a) Crear un conjunto de datos con la variable urgencias e introducir los datos.
b) Calcular la media aritmetica, varianza, desviacion tpica y coeciente de variacion de dicha
variable. Interpretar los estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable urgencias en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Media, Varianza, Desviacion tpica y Coeficiente de
variacion, y hacer click sobre el bot on Enviar.
c) Calcular el coeciente de asimetra y el de curtosis e interpretar los resultados
Indicacion
Seguir los mismos pasos del apartado anterior, seleccionando Cofeficiente de asimetra y Coeficiente de
Curtosis en la solapa Estadsticos b asicos.
3. En un grupo de 20 alumnos, las calicaciones obtenidas en Matem aticas fueron:
SS, AP, SS, AP, AP, NT, NT, AP, SB, SS
SB, SS, AP, AP, NT, AP, SS, NT, SS, NT
Se pide:
31
3. Estadsticos Muestrales Universidad San Pablo CEU
a) Crear un conjunto de datos curso con la variable calicaciones e introducir los datos.
b) Recodicar esta variable, asignando 2,5 al SS, 6 al AP, 8 al NT y 9,5 al SB.
Indicacion
1) Selecionar el men u Teaching Datos Recodificar variable.
2) En el cuadro de dialogo que aparece seleccionar como variable a recodicar la variable calicaciones.
3) Introducir las reglas de recodicacion en el campo Reglas de recodificacion:
SS = 2.5
AP = 6
NT = 8
SB = 9.5
4) En el cuadro Guardar nueva variable hacer click sobre el bot on Cambiar.
5) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos curso y hacer
click sobre el bot on Enviar.
6) Introducir el nombre de la nueva variable nota, desmarcar la casilla Convertir en factor y hacer click
sobre el bot on Enviar.
c) La mediana y el rango intercuartlico.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable nota en el campo Variables.
3) En la solapa Estadsticos basicos seleccionar Mediana y Rango intercuartlico, y hacer click sobre el
bot on Enviar.
4. Para realizar un estudio sobre la estatura de los estudiantes universitarios se ha seleccionado mediante
un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados
(medidos en centmetros):
Mujeres: 173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168.
Hombres: 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187.
Se pide:
a) Crear un conjunto de datos con las variables estatura y sexo e introducir los datos.
b) Obtener un resumen de estadsticos en el que se muestren la media aritmetica, mediana, varianza,
desviacion tpica y cuartiles seg un el sexo. Interpretar los estadsticos.
Indicacion
1) Seleccionar el men u Teaching Estadstica descriptiva Estadsticos.
2) En el cuadro de dialogo que aparece seleccionar la variable estatura en el campo Variables, marcar la
casilla Estadstica por grupos y seleccionar la variable sexo en el campo Variables de agrupacion.
3) En la solapa Estadsticos basicos seleccionar Media, Mediana, Varianza, Desviacion tpica y Cuarti
les, y hacer click sobre el bot on Enviar.
3 Ejercicios propuestos
1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue
el siguiente:
0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1
Se pide:
a) Calcular la media aritmetica, mediana, varianza y desviacion tpica de las lesiones e interpretarlas.
b) Calcular los coecientes de asimetra y curtosis e interpretarlos.
32
Universidad San Pablo CEU 3. Estadsticos Muestrales
c) Calcular el cuarto y el octavo decil e interpretarlos.
2. En un estudio de poblacion se tomo una muestra de 27 personas, y se les pregunt o por su edad y
estado civil, obteniendo los siguientes resultados:
Estado civil Edad
Soltero 31 45 35 65 21 38 62 22 31
Casado 62 39 62 59 21 62
Viudo 80 68 65 40 78 69 75
Divorciado 31 65 59 49 65
Se pide:
a) Calcular la media y la desviacion tpica de la edad seg un el estado civil e interpretarlas.
b) En que grupo es mas representativa la media?
3. En un estudio se ha medido la tensi on arterial de 25 individuos. Ademas se les ha preguntado si fuman
y beben:
Fumador si no si si si no no si no si no si no
Bebedor no no si si no no si si no si no si si
Tension arterial 80 92 75 56 89 93 101 67 89 63 98 58 91
Fumador si no no si no no no si no si no si
Bebedor si no si si no no si si si no si no
Tension arterial 71 52 98 104 57 89 70 93 69 82 70 49
Calcular la media aritmetica, desviacion tpica, coeciente de asimetra y curtosis de la tensi on arterial
por grupos dependiendo de si beben o fuman e interpretarlos.
4. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Calcular la media y la mediana muestral del peso de los nacidos e interpretarlos.
b) Calcular el peso medio de los recien nacidos de la muestra seg un si la madre ha fumado o no
durante el embarazo. Calcular tambien el peso medio de los recien nacidos de madres que no han
fumado durante el embarazo, seg un si la madre fumaba o no antes del embarazo. Que conclu-
siones se pueden sacar?
c) Cual es la puntuacion Apgar al minuto de nacer mas frecuente?
d) Calcular la media de la diferencia entre las puntuaciones Apgar a los 5 minutos y al minuto de
nacer. Como evolucionan los recien nacidos?
e) Calcular los cuartiles muestrales del peso de los recien nacidos e interpretarlos.
f ) Comparar los cuartiles muestrales del peso de los recien nacidos seg un el sexo.
g) Por encima de que peso estar an el 10 % de los ni nos con mayor peso?
h) Si se considera que un ni no es atpico por bajo peso si se encuentra entre el 5 % de los pesos mas
bajos, por debajo de que peso tiene que estar?
i) Calcular el recorrido y el rango intercuartlico muestrales del peso de los recien nacidos e inter-
pretarlos.
j ) Calcular la varianza y la desviaci on tpica del peso de los recien nacidos e interpretarlos.
k) En que grupo hay mas variabilidad del peso de los recien nacidos, en las madres fumadoras o en
las madres no fumadoras durante el embarazo? En que grupo sera mas representativo el peso
medio?
l ) Que variable presenta mas variabilidad relativa, el peso de los recien nacidos o el Apgar al
minuto de nacer?
33
3. Estadsticos Muestrales Universidad San Pablo CEU
m) Calcular el coeciente de asimetra y de apuntamiento muestrales del peso de los recien nacidos
e interpretarlos.
n) Que distribuci on es mas asimetrica, la de los pesos de recien nacidos en madres mayores de 20
a nos o en madres menores de 20 a nos?
n) Que distribuci on es mas apuntada, la del peso de los recien nacidos en hombres o en mujeres?
o) De acuerdo a la forma de la distribuci on, puede considerarse la puntuacion Apgar al minuto de
nacer como una variable normal? Y el n umero de cigarros fumados al da durante el embarazo?
5. Se quiere comparar la precisi on de dos tensi ometros, uno de brazo y otro de mu neca, y para ello se
han realizado 8 medidas repetidas de la tensi on arterial de una misma persona con cada uno de ellos,
obteniendo los siguientes valores en mmHg:
tens.brazo: 111, 109, 112, 111, 113, 113, 114, 111.
tens.muneca: 115, 113, 117, 116, 112, 112, 117, 112.
Que tensi ometro es mas preciso?
34
Practica de Estadstica con R 4
Regresion Lineal Simple y Correlacion
1 Fundamentos teoricos
1.1 Regresion
La regresi on es la parte de la estadstica que trata de determinar la posible relacion entre una
variable numerica Y , que suele llamarse variable dependiente, y otro conjunto de variables numericas,
X
1
, X
2
, . . . , X
n
, conocidas como variables independientes, de una misma poblacion. Dicha relacion se
reeja mediante un modelo funcional y = f(x
1
, . . . , x
n
).
El caso mas sencillo se da cuando solo hay una variable independiente X, y entonces se habla de
regresi on simple. En este caso el modelo que explica la relacion entre X e Y es una funci on de una
variable y = f(x).
Dependiendo de la forma de esta funci on, existen muchos tipos de regresion simple. Los mas habituales
son los que aparecen en la siguiente tabla:
Modelo Ecuaci on generica
Lineal y = a + bx
Parabolico y = a + bx + cx
2
Polinomico de grado n y = a
0
+ a
1
x + + a
n
x
n
Potencial y = ax
b
Exponencial y = e
a+bx
Logartmico y = a + b log x
Inverso y = a + b/x
Curva S y = e
a+b/x
Para elegir un tipo de modelo u otro, se suele representar el diagrama de dispersi on, que consiste en
dibujar sobre unos ejes cartesianos correspondientes a las variables X e Y , los pares de valores (x
i
, y
j
)
observados en cada individuo de la muestra.
Ejemplo En la gura la gura 4.1 aparece el diagrama de dispersi on correspondiente a una muestra de
30 individuos en los que se ha medido la estatura en cm (X) y el peso en kg (Y ). En este caso la forma
de la nube de puntos reeja una relacion lineal entre la estatura y el peso.
Seg un la forma de la nube de puntos del diagrama, se elige el modelo mas apropiado (gura 4.2), y
se determinan los par ametros de dicho modelo para que la funci on resultante se ajuste lo mejor posible
a la nube de puntos.
35
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
150 160 170 180 190 200
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Diagrama de dispersi on de Estaturas y Pesos
Estatura (cm)
P
e
s
o
(
K
g
)
(179, 85)
Figura 4.1 Diagrama de dispersion. El punto (179,85) indicado corresponde a un individuo de la
muestra que mide 179 cm y pesa 85 Kg.
Sin relacion
X
Y
(a) Sin relacion.
Relacion lineal
X
Y
(b) Relacion lineal.
Relacion parab olica
X
Y
(c) Relacion polinomica.
Relacion exponencial
X
Y
(d) Relacion exponencial.
Relacion logarmica
X
Y
(e) Relacion logartmica.
Relacion inversa
X
Y
(f) Relacion inversa.
Figura 4.2 Diagramas de dispersion correspondientes a distintos tipos de relaciones entre variables.
36
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
El criterio que suele utilizarse para obtener la funci on optima, es que la distancia de cada punto a la
curva, medida en el eje Y, sea lo menor posible. A estas distancias se les llama residuos o errores en Y
(gura 4.3). La funci on que mejor se ajusta a la nube de puntos sera, por tanto, aquella que hace mnima
la suma de los cuadrados de los residuos.
1
X
Y
f(x
i
)
x
i
y
j
e
ij
= y
j
f(x
i
)
(x
i
, y
j
)
Figura 4.3 Residuos o errores en Y . El residuo correspondiente a un punto (xi, yj) es la diferencia
entre el valor yj observado en la muestra, y el valor teorico del modelo f(xi), es decir, eij = yj f(xi).
Rectas de regresion
En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la relacion entre X
e Y mediante una recta y = a + bx, los par ametros a determinar son a (punto de corte con el eje de
ordenadas) y b (pendiente de la recta). Los valores de estos par ametros que hacen mnima la suma de
residuos al cuadrado, determinan la recta optima. Esta recta se conoce como recta de regresi on de Y
sobre X y explica la variable Y en funci on de la variable X. Su ecuaci on es
y = y +
s
xy
s
2
x
(x x),
donde s
xy
es un estadstico llamado covarianza que mide el grado de relacion lineal, y cuya formula es
s
xy
=
1
n

i,j
(x
i
x)(y
j
y)n
ij
.
Ejemplo En la gura 4.4 aparecen las rectas de regresion de Estatura sobre Peso y de Peso sobre
Estatura del ejemplo anterior.
La pendiente de la recta de regresion de Y sobre X se conoce como coeciente de regresi on de Y
sobre X, y mide el incremento que sufrira la variable Y por cada unidad que se incremente la variable
X, seg un la recta.
Cuanto mas peque nos sean los residuos, en valor absoluto, mejor se ajustar a el modelo a la nube de
puntos, y por tanto, mejor explicara la relacion entre X e Y . Cuando todos los residuos son nulos, la
recta pasa por todos los puntos de la nube, y la relacion es perfecta. En este caso ambas rectas, la de Y
sobre X y la de X sobre Y coinciden (gura 4.5(a)).
Por contra, cuando no existe relacion lineal entre las variables, la recta de regresion de Y sobre X
tiene pendiente nula, y por tanto la ecuaci on es y = y, en la que, efectivamente no aparece x, o x = x en
el caso de la recta de regresion X sobre Y , de manera que ambas rectas se cortan perpendicularmente
(gura 4.5(b)).
1
Se elevan al cuadrado para evitar que en la suma se compensen los residuos positivos con los negativos.
37
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
150 160 170 180 190 200
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Rectas de regresion entre Estaturas y Pesos
Estatura (cm)
P
e
s
o
(
K
g
)
( x, y)
Estatura sobre Peso
Peso sobre
Estatura
Figura 4.4 Rectas de regresi on de Estatura sobre Peso y de Peso sobre Estatura. Las rectas de
regresi on siempre se cortan en el punto de medias ( x, y)
1.2 Correlaci on
El principal objetivo de la regresion simple es construir un modelo funcional y = f(x) que explique
lo mejor posible la relacion entre dos variables X (variable independiente) e Y (variable dependiente)
medidas en una misma muestra. Generalmente, el modelo construido se utiliza para realizar inferencias
predictivas de Y en funci on de X en el resto de la poblacion. Pero aunque la regresion garantiza que el
modelo construido es el mejor posible, dentro del tipo de modelo elegido (lineal, polinomico, exponencial,
logartmico, etc.), puede que a un as, no sea un buen modelo para hacer predicciones, precisamente
porque no haya relacion de ese tipo entre X e Y . As pues, con el n de validar un modelo para realizar
predicciones ables, se necesitan medidas que nos hablen del grado de dependencia entre X e Y , con
respecto a un modelo de regresion construido. Estas medidas se conocen como medidas de correlacion.
Dependiendo del tipo de modelo ajustado, habr a distintos tipos de medidas de correlaci on. As, si el
modelo de regresion construido es una recta, hablaremos de correlaci on lineal; si es un polinomio, habla-
remos de correlaci on polinomica; si es una funci on exponencial, hablaremos de correlaci on exponencial,
etc. En cualquier caso, estas medidas nos hablar an de lo bueno que es el modelo construido, y como
consecuencia, de si podemos arnos de las predicciones realizadas con dicho modelo.
La mayora de las medidas de correlaci on surgen del estudio de los residuos o errores en Y , que son
las distancias de los puntos del diagrama de dispersi on a la curva de regresion construida, medidas en el
eje Y , tal y como se muestra en la gura (4.3). Estas distancias, son en realidad, los errores predictivos
del modelo sobre los propios valores de la muestra.
Cuanto mas peque nos sean los residuos, mejor se ajustar a el modelo a la nube de puntos, y por tanto,
mejor explicara la relacion entre X e Y . Cuando todos los residuos son nulos, la curva de regresion pasa
por todos los puntos de la nube, y entonces se dice que la relacion es perfecta, o bien que existe una
dependencia funcional entre X e Y (gura 4.5(a)). Por contra, cuando los residuos sean grandes, el modelo
no explicara bien la relacion entre X e Y , y por tanto, sus predicciones no seran ables (gura 4.5(b)).
Varianza residual
Una primera medida de correlaci on, construida a partir de los residuos es la varianza residual, que se
dene como el promedio de los residuos al cuadrado:
s
2
ry
=

i,j
e
2
ij
n
ij
n
=

i,j
(y
j
f(x
i
))
2
n
ij
n
.
38
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
Relacion lineal perfecta
X
Y
X sobre Y = Y sobre X
(a) Dependencia funcional lineal.
Sin relacion lineal
X
Y
y
x
X sobre Y
Y sobre X
(b) Independencia lineal.
Figura 4.5 Distintos grados de dependencia. En el primer caso, la relacion es perfecta y los residuos
son nulos. En el segundo caso no existe relacion lineal y la pendiente de la recta es nula.
Cuando los residuos son nulos, entonces s
2
ry
= 0 y eso indica que hay dependencia funcional. Por otro
lado, cuando las variables son independientes, con respecto al modelo de regresion ajustado, entonces los
residuos se convierten en las desviaciones de los valores de Y con respecto a su media, y se cumple que
s
2
ry
= s
2
y
. As pues, se cumple que
0 s
2
ry
s
2
y
.
Seg un esto, cuanto menor sea la varianza residual, mayor sera la dependencia entre X e Y , de acuerdo
al modelo ajustado. No obstante, la varianza tiene como unidades las unidades de Y al cuadrado, y eso
diculta su interpretaci on.
Coeciente de determinaci on
Puesto que el valor maximo que puede tomar la varianza residual es la varianza de Y , se puede
denir facilmente un coeciente a partir de la comparaci on de ambas medidas. Surge as el coeciente de
determinaci on que se dene como
R
2
= 1
s
2
ry
s
2
y
.
Se cumple que
0 R
2
1,
y ademas no tiene unidades, por lo que es mas facil de interpretar que la varianza residual:
R
2
= 0 indica que existe independencia seg un el tipo de relacion planteada por el modelo de
regresion.
R
2
= 1 indica dependencia funcional.
Por tanto, cuanto mayor sea R
2
, mejor sera el modelo de regresion.
Si multiplicamos el coeciente de determinacion por 100, se obtiene el porcentaje de variabilidad de
Y que explica el modelo de regresion. El porcentaje restante corresponde a la variabilidad que queda por
explicar y se corresponde con el error predictivo del modelo. As, por ejemplo, si tenemos un coeciente
de determinacion R
2
= 0,5, el modelo de regresion explicara la mitad de la variabilidad de Y , y en
consecuencia, si se utiliza dicho modelo para hacer predicciones, estas tendran la mitad de error que si
no se utilizase, y se tomase como valor de la predicci on el valor de la media de Y .
39
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
Coeciente de determinaci on lineal
En el caso de que el modelo de regresion sea lineal, la formula del coeciente de determinacion se
simplica y se convierte en
r
2
=
s
2
xy
s
2
x
s
2
y
,
que se conoce como coeciente de determinaci on lineal.
Coeciente de correlacion
Otra medida de dependencia bastante habitual es el coeciente de correlacion, que se dene como la
raz cuadrada del coeciente de determinacion:
R =

1
s
2
ry
s
2
y
,
tomando la raz del mismo signo que la covarianza.
La unica ventaja del coeciente de correlaci on con respecto al coeciente de determinacion, es que
tiene signo, y por tanto, ademas del grado de dependencia entre X e Y , tambien nos habla de si la
relacion es directa (signo +) o inversa (signo -). Su interpretaci on es:
R = 0 indica independencia con respecto al tipo de relacion planteada por el modelo de regresion.
R = 1 indica dependencia funcional inversa.
R = 1 indica dependencia funcional directa.
Por consiguiente, cuanto mas proximo este a -1 o a 1, mejor sera el modelo de regresion.
Coeciente de correlaci on lineal Al igual que ocurra con el coeciente de determinacion, cuando el
modelo de regresion es lineal, la formula del coeciente de correlaci on se convierte en
r =
s
xy
s
x
s
y
,
y se llama coeciente de correlacion lineal.
Por ultimo, conviene remarcar que un coeciente de determinacion o de correlaci on nulo, indica que
hay independencia seg un el modelo de regresion construido, pero puede haber dependencia de otro tipo.
Esto se ve claramente en el ejemplo de la gura 4.6.
Fiabilidad de las predicciones
Aunque el coeciente de determinacion o de correlaci on nos hablan de la bondad de un modelo de
regresion, no es el unico dato que hay que tener en cuenta a la hora de hacer predicciones.
La abilidad de las predicciones que hagamos con un modelo de regresion depende de varias cosas:
El coeciente de determinacion: Cuando mayor sea, menores seran los errores predictivos y mayor
la abilidad de las predicciones.
La variablidad de la poblacion: Cuanto mas variable es una poblacion, mas difcil es predecir y por
tanto menos ables seran las predicciones del modelo.
El tama no muestral: Cuanto mayor sea, mas informacion tendremos y, en consecuencia, mas ables
seran las predicciones.
Ademas, hay que tener en cuenta que un modelo de regresion es valido para el rango de valores
observados en la muestra, pero fuera de ese rango no tenemos informacion del tipo de relacion entre las
variables, por lo que no deberamos hacer predicciones para valores que esten lejos de los observados en
la muestra.
40
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
0 2 4 6 8 10
2
3
4
5
6
7
8
X
Y
y = 0,02x + 4,07
r
2
= 0
(a) Dependencia lineal debil.
0 2 4 6 8 10
2
3
4
5
6
7
8
X
Y
y = 0,25x
2
2,51x + 8,05
r
2
= 0,97
(b) Dependencia parab olica fuerte.
Figura 4.6 En la gura de la izquierda se ha ajustado un modelo lineal y se ha obtenido un R
2
= 0,
lo que indica que el modelo no explica nada de la relacion entre X e Y , pero no podemos armar que
X e Y son independientes. De hecho, en la gura de la derecha se observa que al ajustar un modelo
parab olico, R
2
= 0,97, lo que indica que casi hay una dependencia funcional parab olica entre X e Y .
41
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
2 Ejercicios resueltos
1. Se han medido dos variables X e Y en 10 individuos obteniendo los siguientes resultados:
X 0 1 2 3 4 5 6 7 8 9
Y 2 5 8 11 14 17 20 23 26 29
Se pide:
a) Crear un conjunto de datos con las variables X y Y e introducir estos datos.
b) Dibujar el diagrama de dispersi on correspondiente.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable Y, la variable X en
el campo Variable X, y hacer clic en el bot on Enviar.
En vista del diagrama, que tipo de modelo crees que explicara mejor la relacion entre X y Y?
c) Calcular la recta de regresion de Y sobre X.
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable dependiente y la
variable X en el campo Variable independiente, y hacer clic sobre el bot on Enviar.
d) Dibujar dicha recta sobre el diagrama de dispersi on.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable Y en el campo Variable Y, la variable X en
el campo Variable X, y hacer clic en el bot on Enviar.
3) En la solapa Lnea de ajuste, seleccionar Dibujar recta de regresion y hacer clic en el bot on Enviar.
e) Calcular la recta de regresion de X sobre Y y dibujarla sobre el correspondiente diagrama de
dispersi on.
Indicacion
Repetir los pasos de los apartados anteriores pero escogiendo como Variable dependiente la variable X, y
como Variable independiente la variable Y
f ) Son grandes los residuos? Comentar los resultados.
2. En una licenciatura se quiere estudiar la relacion entre el n umero medio de horas de estudio diarias
y el n umero de asignaturas suspensas. Para ello se obtuvo la siguiente muestra:
Horas Suspensos Horas Suspensos Horas Suspensos
3,5 1 2,2 2 1,3 4
0,6 5 3,3 0 3,1 0
2,8 1 1,7 3 2,3 2
2,5 3 1,1 3 3,2 2
2,6 1 2,0 3 0,9 4
3,9 0 3,5 0 1,7 2
1,5 3 2,1 2 0,2 5
0,7 3 1,8 2 2,9 1
3,6 1 1,1 4 1,0 3
3,7 1 0,7 4 2,3 2
Se pide:
a) Crear un conjunto de datos con las variables horas.estudio y suspensos e introducir estos datos.
42
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
b) Construir la tabla de frecuencias bidimensional de las variables horas.estudio y suspensos.
Indicacion
1) Seleccionar el men u Teaching Distribucion de frecuencias Tabla de frecuencias bidimensional.
2) En el cuadro de dialogo que aparece, seleccionar la variable horas.estudio en el campo Variable a tabular
en filas, la variable suspensos en el campo Variable a tabular en columnas, y hacer clic sobre el bot on
Enviar.
c) Calcular la recta de regresion de suspensos sobre horas.estudio y dibujarla.
Indicacion
Para calcular la recta de regresi on:
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable suspensos en el campo Variable dependiente y
la variable horas.estudio en el campo Variable independiente, seleccionar Guardar el modelo, introducir
un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para dibujar la recta de regresi on:
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable suspensos en el campo Variable Y y la variable
horas.estudio en el campo Variable X.
3) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
d) Indicar el coeciente de regresion de suspensos sobre horas.estudio. Como lo interpretaras?
Indicacion
El coeciente de regresi on es la pendiente de la recta de regresi on.
e) La relacion lineal entre estas dos variables, es mejor o peor que la del ejercicio anterior? Comentar
los resultados a partir las gracas de las rectas de regresion y sus residuos.
f ) Calcular los coecientes de correlaci on y de determinacion lineal. Es un buen modelo la recta
de regresion? Que porcentaje de la variabilidad del n umero de suspensos est a explicada por el
modelo?
Indicacion
El coeciente de determinacion aparece en la ventana de resultados como R
2
ajustado, y el coeciente de
correlacion es su raz cuadrada.
g) Utilizar la recta de regresion para predecir el n umero de suspensos correspondiente a 3 horas de
estudio diarias. Es able esta predicci on?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada en el segundo
apartado, introducir los valores para los que se desea la prediccion en el campo Predicciones para y hacer
clic sobre el bot on Enviar.
h) Seg un el modelo lineal, cu antas horas diarias tendra que estudiar como mnimo un alumno si
quiere aprobarlo todo?
Indicacion
Seguir los mismos pasos de los apartados anteriores, pero escogiendo como variable dependiente horas.estudio,
y como independiente suspensos, y haciendo la prediccion para 0 suspensos.
3. Despues de tomar un litro de vino se ha medido la concentraci on de alcohol en la sangre en distintos
instantes, obteniendo:
Tiempo despues (minutos) 30 60 90 120 150 180 210
Concentraci on (gramos/litro) 1,6 1,7 1,5 1,1 0,7 0,2 2,1
Se pide:
a) Crear las variables tiempo y alcohol e introducir estos datos.
43
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
b) Calcular el coeciente de correlaci on lineal entre el alcohol y el tiempo e interpretarlo. Es bueno
el modelo lineal?
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable alcohol en el campo Variable dependiente y
la variable tiempo en el campo Variable independiente, y hacer clic sobre el bot on Enviar.
c) Dibujar la recta de regresion del alcohol sobre el tiempo. Existe alg un individuo con un resi-
duo demasiado grande? Si es as, eliminar dicho individuo de la muestra y volver a calcular el
coeciente de correlaci on. Ha mejorado el modelo?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable alcohol en el campo Variable Y y la variable
tiempo en el campo Variable X.
3) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
Se observa que hay un residuo atpico para el punto que corresponde al los 210 minutos. Para eliminarlo: En la
ventana de edici on del conjunto de datos hacer clic con el bot on derecho del raton sobre la la correspondiente
al dato con el residuo atpico y seleccionar Borrar esta fila.
d) Si la concentraci on maxima de alcohol en la sangre que permite la ley para poder conducir es 0,3
g/l, cu anto tiempo habr a que esperar despues de tomarse un litro de vino para poder conducir
sin infringir la ley? Es able esta predicci on?
Indicacion
Para construir la recta de regresi on:
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable tiempo en el campo Variable dependiente y
la variable alcohol en el campo Variable independiente.
3) Seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para hacer la prediccion:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada e introducir
los valores para los que se desea la prediccion en el campo Predicciones para y hacer clic sobre el bot on
Enviar.
4. El conjunto de datos edad.estatura del paquete rk.Teaching contine la edad y la estatura de 30 personas.
Se pide:
a) Cargar datos del conjunto de datos edad.estatura desde el paquete rk.Teaching.
b) Calcular la recta de regresion de la estatura sobre la edad. Es un buen modelo la recta de
regresion?
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable dependiente
y la variable edad en el campo Variable independiente, y hacer clic en el bot on Enviar.
c) Dibujar el diagrama de dispersi on de la estatura sobre la edad. Alrededor de que edad se observa
un cambio en la tendencia?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable Y, la variable
edad en el campo Variable X, y hacer clic en el bot on Enviar.
d) Recodicar la variable edad en dos grupos para mayores y menores de 20 a nos.
44
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
Indicacion
1) Seleccionar el men u Teaching Datos Recodificar variable.
2) En el cuadro de dialogo que aparece seleccionar en el campo Variable a recodicar la variable edad.
3) En el campo Reglas de recodificacion introducir
lo:20 = menores
20:hi = mayores
4) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar.
5) En el cuadro de dialogo que aparece seleccionar como objeto padre la el conjunto de datos edad estatura
y hacer clic sobre el bot on Aceptar.
6) Introducir el nombre de la nueva variable grupo.edad y hacer clic sobre el bot on Enviar.
e) Calcular la recta de regresion de la estatura sobre la edad para cada grupo de edad. En que grupo
explica mejor la recta de regresion la relacion entre la estatura y la edad? Justicar la respuesta.
Indicacion
1) Seleccionar el men u Teaching Regresion Regresion lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable dependiente
y la variable edad como Variable independiente.
3) Seleccionar la opicion Ajuste por grupos, introducir la variable grupo.edad en el campo Variable de
agrupacion, y hacer clic en el Enviar.
f ) Dibujar las rectas de regresion anteriores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable estatura en el campo Variable Y y la variable
edad en el campo Variable X.
3) Seleccionar la opci on Dibujar por grupos e introducir la variable grupo.edad en el campo Variable de
agrupacion.
4) En la solapa Lnea de ajuste, seleccionar Lineal y hacer clic en el bot on Enviar.
g) Que estatura se espera que tenga una persona de 14 a nos? Y una de 38?
Indicacion
Para predecir la estatura de la persona de 14 a nos:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar como modelo de regresi on la recta calculada para los
menores e introducir 14 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
para predecir la estatura de la persona de 38 a nos, repetir lo mismo pero seleccionando la recta de regresi on
para los mayores e introducidento 38 en el campo Predicciones para.
5. La siguiente tabla recoge la informacion de las calicaciones obtenidas por un grupo de alumnos en
dos asignaturas X e Y .
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
X NT AP SS SS AP AP SS NT SB SS AP AP
Y SB SS AP SS AP NT SS NT NT AP AP NT
Se pide:
a) Crear un conjunto de datos con las variables X e Y e introducir los datos.
b) Existe relacion entre las calicaciones de X e Y ? Justicar la respuesta.
Indicacion
1) Seleccionar el men u Teaching Regresion Correlacion.
2) En el cuadro de dialogo que aparece seleccionar la variables X e Y en el campo Variables.
3) En la solapa Opciones de correlacion seleccionar el metodo de Ro de Spearman y hacer clic sobre el
bot on Enviar.
45
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
3 Ejercicios propuestos
1. Se determina la perdida de actividad que experimenta un medicamento desde el momento de su
fabricacion a lo largo del tiempo, obteniendose el siguiente resultado:
Tiempo (en a nos) 1 2 3 4 5
Actividad restante ( %) 96 84 70 58 52
Se desea calcular:
a) La relacion fundamental (recta de regresion) entre actividad restante y tiempo transcurrido.
b) En que porcentaje disminuye la actividad cada a no que pasa?
c) Cuando tiempo debe pasar para que el farmaco tenga una actividad del 80 %? Cuando sera nula
la actividad? Son igualmente ables estas predicciones?
2. Al realizar un estudio sobre la dosicacion de un cierto medicamento, se trataron 6 pacientes con dosis
diarias de 2 mg, 7 pacientes con 3 mg y otros 7 pacientes con 4 mg. De los pacientes tratados con 2
mg, 2 curaron al cabo de 5 das, y 4 al cabo de 6 das. De los pacientes tratados con 3 mg diarios, 2
curaron al cabo de 3 das, 4 al cabo de 5 das y 1 al cabo de 6 das. Y de los pacientes tratados con 4
mg diarios, 5 curaron al cabo de 3 das y 2 al cabo de 4 das. Se pide:
a) Calcular la recta de regresion del tiempo de curacion con respecto a la dosis suministrada.
b) Calcular el coeciente de regresion del tiempo de curacion con respecto a la dosis e interpretarlo.
c) Calcular el coeciente de correlaci on lineal e interpretarlo.
d) Determinar el tiempo esperado de curacion para una dosis de 5 mg diarios. Es able esta
predicci on?
e) Que dosis debe aplicarse si queremos que el paciente tarde 4 das en curarse? Es able la
predicci on?
3. El chero estaturas.pesos.alumnos del paquete rk.Teaching, contiene la estatura, el peso y el sexo de
una muestra de alumnos universitarios. Se pide:
a) Cargar el conjunto de datos estaturas.pesos.alumnos desde el paquete rk.Teaching.
b) Calcular la recta de regresion del peso sobre la estatura y dibujarla.
c) Calcular las rectas de regresion del peso sobre la estatura para cada sexo y dibujarlas.
d) Calcular los coecientes de determinacion de ambas rectas. Que recta es mejor modelo? Justicar
la respuesta.
e) Que peso tendra un hombre que mida 170 cm? Y una mujer de la misma estatura?
4. El conjunto de datos neonatos del paquete rk.Teaching, contiene informacion sobre una muestra de
320 recien nacidos en un hospital durante un a no que cumplieron el tiempo normal de gestaci on. Se
pide:
a) Construir la tabla de frecuencias bidimensional del Agpar al minuto de nacer frente a si la madre
ha fumado o no durante el embarazo. Que conclusiones se pueden sacar?
b) Construir la tabla de frecuencias bidimensional del peso de los recien nacidos frente a la edad de
la madre. Que conclusiones se pueden sacar?
c) Construir la recta de regresion del peso de los recien nacidos sobre el n umero de cigarros fumados
al da por las madres. Existe una relacion lineal fuerte entre el peso y el n umero de cigarros?
d) Dibujar la recta de regresion calculada en el apartado anterior. Por que la recta no se ajusta
bien a la nube de puntos?
46
Universidad San Pablo CEU 4. Regresion Lineal Simple y Correlacion
e) Calcular y dibujar la recta de regresion del peso de los recien nacidos sobre el n umero de cigarros
fumados al da por las madres en el grupo de las madres que si fumaron durante el embarazo.
Es este modelo mejor o pero que la recta de los apartados anteriores?
Seg un este modelo, cu anto disminuir a el peso del recien nacido por cada cigarro mas diario que
fume la madre?
f ) Seg un el modelo anterior, que peso tendra un recien nacido de una madre que ha fumado 5
cigarros diarios durante el embarazo? Y si la madre ha fumado 30 cigarros diarios durante el
embarazo? Son ables estas predicciones?
g) Existe la misma relacion lineal entre el peso de los recien nacidos y el n umero de cigarros
fumados al da por las madres que fumaron durante el embarazo en el grupo de las madres
menores de 20 y en el grupo de las madres mayores de 20? Que se puede concluir?
47
4. Regresion Lineal Simple y Correlacion Universidad San Pablo CEU
48
Practica de Estadstica con R 5
Regresion no lineal
1 Fundamentos teoricos
La regresion simple tiene por objeto la construcci on de un modelo funcional y = f(x) que explique
lo mejor posible la relacion entre dos variables Y (variable dependiente) y X (variable independiente)
medidas en una misma muestra.
Ya vimos que, dependiendo de la forma de esta funci on, existen muchos tipos de regresion simple.
Entre los mas habituales est an:
Modelo Ecuaci on generica
Lineal y = a + bx
Parabolico y = a + bx + cx
2
Polinomico de grado n y = a
0
+ a
1
x + + a
n
x
n
Potencial y = ax
b
Exponencial y = e
a+bx
Logartmico y = a + b log x
Inverso y = a + b/x
Curva S y = e
a+b/x
La eleccion de un tipo de modelo u otro suele hacerse seg un la forma de la nube de puntos del
diagrama de dispersi on. A veces estar a claro que tipo de modelo se debe construir, tal y como ocurre en
los diagramas de dispersi on de la gura 5.1. Pero otras veces no estar a tan claro, y en estas ocasiones, lo
normal es ajustar los dos o tres modelos que nos parezcan mas convincentes, para luego quedarnos con
el que mejor explique la relacion entre Y y X, mirando el coeciente de determinacion
1
de cada modelo.
Ya vimos en la practica sobre regresion lineal simple, c omo construir rectas de regresion. En el caso
de que optemos por ajustar un modelo no lineal, la construcci on del mismo puede realizarse siguiendo los
mismos pasos que en el caso lineal. Basicamente se trata de determinar los par ametros del modelo que
minimizan la suma de los cuadrados de los residuos en Y . En los modelos multiplicativo y exponencial, el
sistema aplica transformaciones logartmicas a las variables y despues ajusta un modelo lineal a los datos
transformados. En el modelo recproco, el sistema sustituye la variable dependiente por su recproco
antes de estimar la ecuaci on de regresion.
1
Ver la pr actica de regresi on lineal y correlacion.
49
5. Regresion no lineal Universidad San Pablo CEU
Sin relacion
X
Y
(a) Sin relacion.
Relacion lineal
X
Y
(b) Relacion lineal.
Relacion parab olica
X
Y
(c) Relacion polinomica.
Relacion exponencial
X
Y
(d) Relacion exponencial.
Relacion logarmica
X
Y
(e) Relacion logartmica.
Relacion inversa
X
Y
(f) Relacion inversa.
Figura 5.1 Diagramas de dispersion correspondientes a distintos tipos de relaciones entre variables.
50
Universidad San Pablo CEU 5. Regresion no lineal
2 Ejercicios resueltos
El procedimiento mas sencillo para construir un modelo no lineal, siempre que sea posible, es trans-
formar las variables para convertirlo en un modelo lineal. En el caso de los modelos de regresion simple
mas comunes las transformaciones que convierten cada modelo en un modelo lineal aparecen en la tabla
siguiente:
Modelo Modelo no lineal Modelo lineal Transformacion
Potencial y = ax
b
log(y) = log(a) + b log(x) Se toma el logaritmo de ambas
variables
Exponencial y = e
a+bx
log(y) = a + bx Se toma el logaritmo de la varia-
ble dependiente
Logartmico y = a + b log x y = a + b log x Se toma el logaritmo de la varia-
ble independiente
Inverso y = a + b/x y = a + b
1
x
Se toma el inverso de la variable
independiente
Curva S y = e
a+b/x
log(y) = a + b
1
x
Se toma el logaritmo de la varia-
ble dependiente y el inverso de la
independiente
1. En un experimento se ha medido el n umero de bacterias por unidad de volumen en un cultivo, cada
hora transcurrida, obteniendo los siguientes resultados:
Horas 0 1 2 3 4 5 6 7 8
N
o
Bacterias 25 28 47 65 86 121 190 290 362
Se pide:
a) Crear un conjunto de datos con las variables horas y bacterias e introducir estos datos.
b) Dibujar el diagrama de dispersi on correspondiente. En vista del diagrama, que tipo de modelo
crees que explicara mejor la relacion entre el n umero de bacterias y el tiempo transcurrido?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable
horas en el campo Variable X, y hacer clic en el bot on Enviar.
c) Calcular los modelos exponencial y cuadratico de las bacterias sobre las horas. Que tipo de
modelo es el mejor?
Indicacion
Para el modelo exponencial:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable dependiente
y la variable horas en el campo Variable independiente.
3) En la solapa de Modelo de regresion seleccionar el modelo Exponencial.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para el modelo cuadr atico repetir los pasos pero seleccionando como modelo el Cuadratico. El modelo mejor
ser a aquel que tenga un coeciente de determinacion mayor.
d) Dibujar la curva del mejor de los modelos anteriores.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable
horas en el campo Variable X.
3) En la solapa Lnea de ajuste seleccionar la opci on Exponencial y hacer clic sobre el bot on Enviar.
51
5. Regresion no lineal Universidad San Pablo CEU
e) Seg un el modelo anterior, cu antas bacterias habr a al cabo de 3 horas y media del inicio del
cultivo? Y al cabo de 10 horas? Son ables estas predicciones?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on exponencial construido antes.
3) Introducir los valores 3,5, 10 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
4) Como se trata de un modelo exponencial, las predicciones obtenidas corresponden al logaritmo de bac-
terias. Para obtener la prediccion de bacterias basta con aplicar la funci on exponencial a los valores
obtenidos.
f ) Dar una predicci on lo mas able posible del tiempo que tendra que transcurrir para que en el
cultivo hubiese 100 bacterias.
Indicacion
Para construir el modelo logartmico:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable horas en el campo Variable dependiente y
la variable bacterias en el campo Variable independiente.
3) Seleccionar como modelo el Logartmico.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
Para hacer la prediccion:
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on logartmico construido antes.
3) Introducir el valor 100 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
2. El conjunto de datos dieta del paquete rk.Teaching contiene los datos de un estudio llevado a cabo por
un centro dietetico para probar una nueva dieta de adelgazamiento. Para cada individuo se ha medido
el n umero de das que lleva con la dieta, el n umero de kilos perdidos desde entonces y si realizo o no
un programa de ejercicios. Se pide:
a) Cargar el conjunto de datos dieta desde el paquete rk.Teaching.
b) Dibujar el diagrama de dispersi on. Seg un la nube de puntos, que tipo de modelo explicara
mejor la relacion entre los kilos perdidos y los das de dieta?
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable Y, la variable dias
en el campo Variable X, y hacer clic en el bot on Enviar.
c) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta.
Indicacion
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
4) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
d) Dibujar el modelo del apartado anterior.
Indicacion
1) Seleccionar el men u Teaching Graficos Diagrama de Dispersion.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable Y y la variable
dias en el campo Variable X.
3) En la solapa Lnea de ajuste seleccionar la opci on correspondiente al mejor modelo y hacer clic sobre el
bot on Enviar.
e) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta para los que no hacen ejercicio.
52
Universidad San Pablo CEU 5. Regresion no lineal
Indicacion
Para ver que modelo es mejor:
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="no" en el campo Condicion de selec
cion.
4) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
Para construir el modelo:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="no" en el campo Condicion de selec
cion.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
f ) Construir el modelo de regresion que mejor explique la relacion entre los kilos perdidos y los das
de dieta para los que si hacen ejercicio.
Indicacion
Para ver que modelo es mejor:
1) Seleccionar el men u Teaching Regresion Comparacion de modelos.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="si" en el campo Condicion de selec
cion.
4) En la solapa Modelos de regresion seleccionar todos los modelos y hacer clic sobre el bot on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinacion mayor.
Para construir el modelo:
1) Seleccionar el men u Teaching Regresion Regresion no lineal.
2) En el cuadro de dialogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la
variable dias en el campo Variable independiente.
3) Seleccionar la opci on Filtro e introducir la condicion ejercicio=="si" en el campo Condicion de selec
cion.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot on Enviar.
g) Utilizar el modelo construido para predecir el n umero de kilos perdidos tras 40 y 500 das de
dieta, tanto para los que hacen ejercicio como para los que no. Son ables estas predicciones?
Indicacion
1) Seleccionar el men u Teaching Regresion Predicciones.
2) En el cuadro de dialogo que aparece seleccionar el modelo de regresi on construido antes para los que no
hacen ejercicio.
3) Introducir los valores 40, 500 en el campo Predicciones para y hacer clic sobre el bot on Enviar.
Repetir los pasos anteriores seleccionando el modelo de regresi on construido antes para los que si hacen ejercicio.
3 Ejercicios propuestos
1. La concentraci on de un farmaco en sangre, C en mg/dl, es funci on del tiempo, t en horas, y viene
dada por la siguiente tabla:
t 2 3 4 5 6 7 8
C 25 36 48 64 86 114 168
Se pide:
53
5. Regresion no lineal Universidad San Pablo CEU
a) Seg un el modelo exponencial, que concentraci on de farmaco habra a las 4,8 horas? Es able
la predicci on? Justicar adecuadamente la respuesta.
b) Seg un el modelo logartmico, que tiempo debe pasar para que la concentraci on sea de 100 mg/dl?
2. El chero naciones.txt contiene informacion sobre el desarrollo de distintos pases (tasa de fertilidad,
tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c apita y
continente). Se pide:
a) Importar el chero naciones.txt en un conjunto de datos.
b) Construir el mejor modelo de regresion de la tasa de fertilidad sobre el producto interior bruto.
Como explicaras esta relacion?
c) Dibujar el modelo del apartado anterior.
d) Que tasa de fertilidad le corresponde a una mujer que viva en un pas con un producto interior
bruto per c apita de 10000 $? Y si la mujer vive en Europa?
54

También podría gustarte