UNIVERSIDAD SAN FRANCISCO
PROYECTO DE ESTADÍSTICA II
Integrantes: David Espinisa, Rafael Salas y Fausto Endara.
Fecha: 12 de Abril del 2017.
ANÁLISIS DE FACTORES QUE INFLUYEN EN LA SUPERVIVENCIA
DE LAS PERSONAS EN EL HUNDIMIENTO DEL TITANIC.
RESUMEN
Términos Claves: Titanic, Survived, Pclass, Name, Sex, Age, Sibsp, Parch, Modelo LO-
GIT, Regresión Logística.
El presente trabajo académico, buscamos determinar que factores son los más incidentes
en la descripción de casos eventuales como el “Titanic”, para ello se hace el uso de los
datos proporcionados para el inicio del presente estudio, obteniendo una idea en base al
análisis empírico, que puede determinar, que una persona sobreviva a percances de este
tipo.
Los accidentes de esta índole, puede acarrear la muerte de muchos personas, no sólo
el personal civil está expuesto, si no también personal militar puede ser víctima de los
naufragios. Es por ello que la principal prioridad en estos desastres es el salvar vidas, por
ende la mejor manera, es evitar a toda costa fallas de cualquier tipo, que desencadenen
en desastres de esta magnitud.
El trágico caso del Titanic presenta una historia en la cual a causa del naufragio ha sido
la pérdida de 1513 vidas, casos como estos encaminan a estudiar cuál fue el determinante
para que algunos individuos sobrevivan a esta tragedia. Como datos historicos de este caso
se presenta que este barco de la compañia White Star Line, fue uno de los transatlálnticos
que pertenecia a clase Olympic, que lo denominaba como el El barco con el mejor diseño.
Casos de esta índole presentan nuevos retos a nuevas investigaciones en temas de seguridad
marítima, y tambien al impulso de normas técnicas que garanticen la seguridad de los
pasajeros.
1
METODOLOGÍA.
Para el estudio de los sobrevivientes del naufragio del Titanic utilizaremos el un modelo
de Regresión Logística, el cual consiste en ajustar una curva y = f (x) cuando la variable
y es una variable dicotómica es decir la variable y puede presentar los resultados como:
“sobrevivió” o “no sobrevivió”, donde toma el valor de 1 si el tripulante sobrevivió y 0
si no lo hizo. Para este tipo de modelos las variables independientes pueden ser del tipo
continuo, categórico o una combinanción de ambos tipo de variables.
VARIABLES DE ESTUDIO.
A continuación presentaremos las variables que se consideraran para la elaboración de
nuestro modelo:
• Survived: Es la variable dependiente, codificada como 0 si el individuo no sobrevivió
y como 1 si el individuo sí lo hizo.
Las variables independientes que se utilizarán tendrán que ver con las condiciones de los
pasajeros a bordo. Éstas son:
• Pclass: Clase del pasaje (primera clase =1, segunda clase=2, tercera clase = 3).
• Name: Nombre del Pasajero.
• Sex: Género del pasajero (male=masculino, female=femenino), para usar esta in-
formación se podría codificar como 0 para mujeres y 1 para hombres.
• Age: Edad del pasajero
• Sibsp: Número de hermanos/cónyuges a bordo (0, 1, 2, 3 o más).
• Parch: Número de padres/hijos que acompañaban al individuo (0, 1, 2, 3 o más)
MODELO.
Para la elaboración del presente modelo se implementa en el lenguaje Estadístico R.
El presente modelo es del tipo:
p
ln = α1 x1 + α2 x2 + . . . + αn xn .
1−p
Todo el analisis se fundamenta con la base de datos "train_titanic.csv", la variable que se
toma como dependiente es Survided, que la denotaremos por la variable y, y las variables
independientes son las siguientes variables:Pclass, Sex, Age, Sibsp y Parch. Estas variables
dentro del modelo son representadas mediante x1 . . . x7 respectivamente. En términos
prácticos para nuestra regresión, no tomaremos en cuenta la informacíon de la variable
Name, debido a que es una variable cualitativa con desmasiadas catagorias.
2
Otro punto importante en nuestro modelo, es que la variable Age, presenta algunos valores
perdidos u omitidos ”N A”, para solucionar este problema, remplazamos los valores perdi-
dos por la media de la variable Age, es decir que en cada valor perdido que aparezca será
remplazado por la media de Age. Otro punto importante para añadir es que la variable
Sex es dicotómica, ya que toma el valor de 1 si el pasajero es Hombre (male) o 0 sí es
Mujer (female).
A continuación se presenta el resultado que muestra nuestro modelo implementado en R.
Donde tomamos a Survived como variable independiente y las variables Pclass, Sexmale,
Age, SibSp, Parch como variables independientes.
Cuadro 1: Resultados en R del Modelo LOGIT.
Estimate Std. Error z value Pr(>|z|)
(Intercept) 5.2414 0.4836 10.84 0.0000
x2 -1.1728 0.1197 -9.80 0.0000
x4 -2.7682 0.1987 -13.93 0.0000
x5 -0.0401 0.0078 -5.16 0.0000
x6 -0.3343 0.1086 -3.08 0.0021
x7 -0.0816 0.1147 -0.71 0.4767
Cuadro 2: Tabla Anova en R del Modelo LOGIT.
Df Deviance Resid. Df Resid. Dev
NULL 890 1186.66
x2 1 102.25 889 1084.40
x4 1 257.21 888 827.20
x5 1 21.87 887 805.33
x6 1 14.48 886 790.84
x7 1 0.51 885 790.33
3
Figura 1: Posibles gráficas bivariadas entre las las variables.
−0.5 0.0 0.5 1.0 −0.2 0.2 0.6 1.0 −0.5 0.0 0.5 1.0
1.0
0.6
x2
0.2
−0.2
1.0
0.5
x4
0.0
−0.5
1.0
0.6
x5
0.2
−0.2
1.0
0.6
x6
0.2
−0.2
1.0
0.6
x7
0.2
−0.2
1.0
0.5
y
0.0
−0.5
−0.2 0.2 0.6 1.0 −0.2 0.2 0.6 1.0 −0.2 0.2 0.6 1.0
A continuación presentaremos una interpretación de lo que nos indica nuestro mode-
lo elaborado. Lo que nos indica el resultado de R, es que la variable Parch el número
de acompañantes del pasajero, no son significantes dentro de este modelo. Las variables
Pclass, Sexmale, Age, Sibsp, presentan un alto grado de significancia para descripción de
nuestro fenómeno de estudio. Observando los p-valores de Pclass, sexmale, Age, muestra
que hay una fuerte correlación del sexo del pasajero, la clase social a la que pertenece ,
su edad, el número de acompañantes y la probabilidad de sobrevivir. Fijándonos el signo
del coeficiente de Sexmale, indica que hay menos probabilidad de sobrevivir si el pasajero
es hombre.
Aplicando el mismo razonamiento para la variable Age, también debido al que su coefien-
cte presenta un valor negativo, indica que hay una alta probabilidad de sobrevivir si el
4
pasajero es de edad temprana, para este caso si es un niño o infante. Para el caso de
Pclass, también por el valor del coeficiente nos indica que hay una alta probabilidad de
de sobrevivir si es de clase si el pasajero es de clase alta.
A continuacón presentamos la implementación de nuestro modelo mediante la medología
de regresión hacia adelante y hacia atrás los resultados son los siguientes.
Como podemos observar la variable x7 puede ser eliminada del modelo, como presenta el
el output de R.
A continuacíon se presenta un a tabla de resumen de este método, donde se evidencia que
la variable x7 se remueve del modelo.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.3352 0.0591 22.58 0.0000
x2 -0.1837 0.0164 -11.21 0.0000
x4 -0.5094 0.0273 -18.68 0.0000
x5 -0.0058 0.0011 -5.46 0.0000
x6 -0.0454 0.0119 -3.80 0.0002
A continuacíon se especifica que nuestro umbral es 60 % sobrevive y el 5,999 % no sobre-
vive, lo que con nuestro modelo nos da 698 aciertos, es decir el 78,34 % con los datos de
la muestra y 193 valores es decir el 21,66 % no son acertados a continuacíon se presenta
una gráfica del umbral.
5
Gráfica de Pastel de los Sovrevivientes
Acierta
No Acierta
CONCLUSIONES
Como se puede ver en el modelo las variables que más influyen son Pclass, Sexmale, Age,
Sibsp, lo que se puede concluir.
Lo que determina que una persona sobreviva a siniestros como es el caso del Titanic, lo
que más influye es si es mujer o niño, y también si es de clase social alta, se observa que
hay una alta probabilidad de sobrevivir.
Los individuos que siguen en la lista de sobrevivientes son las mujeres, que de igual
manera si es de clase alta, tiene una alta probabilidad de supervivencia. Debido a la
limitante que nos presenta los datos obtenidos, no se puede abordar más profundamente
para saber que otros determinantes influyeron en la supervicencia de los Náufragos de
aquel fatal accidente, para profundizar en el estudio de otras variables que ayuden a la
variable Parch: el número de acompañantes del pasajero, no son significantes dentro de
este modelo. De igual manera las variables Pclass, Sexmale, Age, Sibsp, presentan un alto
grado de significancia para descripción de nuestro fenómeno de estudio.
6
[3] [1] [2]
Referencias
[1] R. Christensen. Log-Linear Models and Logistic Regression. Springer Texts in Statis-
tics. Springer New York, 1997.
[2] D.W. Hosmer, S. Lemeshow, and R.X. Sturdivant. Applied Logistic Regression. Wiley
Series in Probability and Statistics. Wiley, 2013.
[3] S. Sheather. A Modern Approach to Regression with R. Springer Texts in Statistics.
Springer New York, 2009.
7
ANEXOS
Listing 1: Código en R
# # # # # # # # # # # # # # # # # # # # Regresion Hacia A t r s # # # # # # # # # # # # # # # # # # # # # #
regat < - step ( lm ( y ~ x2 + x4 + x5 + x6 + x7 ) , direction =" backward ") # calculo de la regresion backward , forward , both
print ( summary ( regat )) # resumen de los resultados de la regresion lineal
y_regat = exp ( r e ga t $ c oe f f i ci e nt s [1]+ r eg a t $ c oe ff i c i e n t s [2]* x2 + r e g a t $ c o e f f i c i e n t s [3]* x4 + r e g a t $ c o ef f i c i e n t s [4]* x5
+ re g a t $ co ef f ic i en ts [5]* x6 )/ (1+ exp ( re g a t $ c o ef f i c i e n t s [1]+ r e ga t $ c oe f f i c ie n t s [2]* x2 + r e g a t $ c o e f f i c i e n t s [3]* x4
+
r eg a t $ c o e ff i ci e n t s [4]* x5 + r e g a t $c o ef fi c i e n ts [5]* x6 )) # e c u a c i n de r e g r e s i n l o g s t i c a estimada
print ( anova ( regat ))
s < - ( y_regat > 0.6)*1 # Se especifica el Umbral con el 60% que sobreviven
rrr < - ( y == s )*1 #
Sobrevivientes < - which ( y_regat < 0.6)
No_sobrevivientes < - which ( y_regat > 0.6)
datos . prof1 < - data . matrix ( Sobrevivientes , No_ so br ev i v i e n t e s )
piechart ( datos . prof1 )
length ( y_regat )
510/891
length ( which ( rrr ==1))
length ( which ( s ==1))
length ( which ( rrr ==1))
### Codigos Latex ##
library ( ’ xtable ’)
tabla1 < - summary ( reg )
xtable ( tabla1 )
tabla2 < - anova ( reg )
xtable ( tabla2 )
tabla3 < - summary ( regat )
xtable ( tabla3 )
install . packages ( ’ Hmisc ’)
install . packages (" plotrix ")
library ( plotrix )
slices <- c (381 ,510)
lbls <- c (" Sobrevive " , " No sobrevive ")
pie3D ( slices , labels = lbls , explode =0.1 ,
main =" G r f i c a de Pastel del Umbral ")
ac < - y == s
ac1 < - length ( which ( ac == ’ TRUE ’))
nac < - length ( which ( ac == ’ FALSE ’))
slices <- c (698 ,193)
lbls <- c (" Acierta " , " No Acierta ")
pie3D ( slices , labels = lbls , explode =0.1 ,
main =" G r f i c a de Pastel de los Sovrevivie ntes ")
8
ANEXOS
Listing 1: Resultados en R
> print ( summary ( reg ))
Call :
glm ( formula = y ~ x2 + x4 + x5 + x6 + x7 , family = binomial ())
Deviance Residuals :
Min 1Q Median 3Q Max
-2.6536 -0.6147 -0.4224 0.6133 2.4324
Coefficients :
Estimate Std . Error z value Pr ( >| z |)
( Intercept ) 5.241396 0.483589 10.839 < 2e -16 ***
x2 -1.172848 0.119687 -9.799 < 2e -16 ***
x4 -2.768189 0.198718 -13.930 < 2e -16 ***
x5 -0.040103 0.007778 -5.156 2.52 e -07 ***
x6 -0.334326 0.108557 -3.080 0.00207 **
x7 -0.081621 0.114688 -0.712 0.47666
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
( Dispersion parameter for binomial family taken to be 1)
Null deviance : 1186.66 on 890 degrees of freedom
Residual deviance : 790.33 on 885 degrees of freedom
AIC : 802.33
Number of Fisher Scoring iterations : 5
> print ( summary ( regl ))
Call :
glm ( formula = y ~ x2 + x4 + x5 + x6 + x7 , family = binomial (" logit "))
Deviance Residuals :
Min 1Q Median 3Q Max
-2.6536 -0.6147 -0.4224 0.6133 2.4324
Coefficients :
Estimate Std . Error z value Pr ( >| z |)
( Intercept ) 5.241396 0.483589 10.839 < 2e -16 ***
x2 -1.172848 0.119687 -9.799 < 2e -16 ***
x4 -2.768189 0.198718 -13.930 < 2e -16 ***
x5 -0.040103 0.007778 -5.156 2.52 e -07 ***
x6 -0.334326 0.108557 -3.080 0.00207 **
x7 -0.081621 0.114688 -0.712 0.47666
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
( Dispersion parameter for binomial family taken to be 1)
Null deviance : 1186.66 on 890 degrees of freedom
Residual deviance : 790.33 on 885 degrees of freedom
AIC : 802.33
Number of Fisher Scoring iterations : 5
> print ( anova ( regat ))
Analysis of Variance Table
Response : y
Df Sum Sq Mean Sq F value Pr ( > F )
x2 1 24.143 24.143 167.302 < 2.2 e -16 ***
x4 1 53.337 53.337 369.609 < 2.2 e -16 ***
x5 1 3.306 3.306 22.909 1.989 e -06 ***
x6 1 2.085 2.085 14.445 0.0001542 ***
Residuals 886 127.857 0.144
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1