Desafío Titanic - Resumen
El dataset del Titanic usualmente está en formato CSV. Sin embargo, también podría estar
en formatos como TSV o parquet. Se pueden almacenar en bases de datos relacionales
Almacenamiento en nube, Sistemas locales o compartidos,
La variable objetivo, survival, indica si un pasajero sobrevivió (1) o no (0). Según las
descripciones, las posibles relaciones son:
● “pclass”: Pasajeros en primera clase (1) probablemente tenían más chances de
sobrevivir.
● “sex”: Las mujeres suelen tener mayor supervivencia debido al protocolo “mujeres y
niños primero”.
● “age”: Los niños pudieron haber tenido mayor prioridad al evacuar.
● “sibsp” y “parch”: Estas variables, que muestran si un pasajero viajaba con
familiares, podrían indicar ventajas o desventajas según el tamaño del grupo.
● “ticket”: Podría estar relacionado indirectamente con la clase social y, por ende, con
la supervivencia.
● “fare”: Una tarifa más alta podría correlacionarse con un mejor acceso a recursos y,
por ende, a la supervivencia.
● “cabin”: Pasajeros con cabinas asignadas, típicamente de clase alta, pudieron tener
más facilidades para evacuar.
● “embarked”: El puerto de embarque podría reflejar diferencias económicas o sociales
que influyan en las probabilidades de supervivencia.
El objetivo es analizar cómo las variables disponibles ayudan a predecir quién sobrevivió en
el Titanic. Se parte de la hipótesis de que hay variables más relacionadas, como el estatus
socioeconómico (pclass, fare, cabin) y las características personales (sex, age) las cuales
tienen mayor impacto
Las otras variables, como sibsp, parch o embarked, podrían complementar el análisis, pero
no estar directamente relacionadas.