0% encontró este documento útil (0 votos)

13 vistas12 páginas

ETL Class Project

El proyecto de ETL analiza la evolución de la industria cinematográfica mediante un dataset de IMDb, abordando factores que influyen en el éxito de las películas, cambios en las preferencias del público y la relación entre presupuesto y rentabilidad. Se realizó un análisis exploratorio de datos que incluyó la limpieza, transformación y visualización de datos, permitiendo identificar tendencias y patrones clave. Los resultados ofrecen información valiosa para optimizar estrategias en la producción y distribución de contenido cinematográfico.

Cargado por

alejandro.arteagaj

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

13 vistas12 páginas

ETL Class Project

Cargado por

alejandro.arteagaj

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

ETL CLASS PROJECT – PHASE 2

Autor: Alejandro Arteaga Jaramillo

Código: 22500232

Problema y contexto:
La industria del cine ha experimentado numerosos cambios a lo largo de los años,
impulsados por la evolución de las tecnologías de animación, la llegada de las plataformas
de streaming y los cambios culturales que han obligado a la industria a adaptarse. Como
resultado, las películas más taquilleras del pasado difieren significativamente de las
actuales, aunque comparten ciertas características.
Por ello, el análisis de datos en esta industria es fundamental para comprender la evolución
de las tendencias cinematográficas, identificar patrones de éxito y optimizar la toma de
decisiones en producción, distribución y recomendación de contenido.
Un análisis exhaustivo de los datos puede ayudar a responder las siguientes preguntas
clave:

1. ¿Qué factores influyen en el éxito de una película?

Es posible analizar cómo variables como el género, el presupuesto, la calificación del
público, la duración e incluso la fecha de estreno impactan en el desempeño de una película
en el mercado.

2. ¿Cómo han cambiado las preferencias del público?

La cultura del público ha evolucionado en la última década, lo que ha influido en el interés
por ciertos géneros cinematográficos. Además, la llegada del streaming ha transformado
los patrones de consumo, lo que permite identificar nuevas tendencias en la manera en que
se disfrutan las películas.

3. ¿Cómo afectan el presupuesto y la estrategia de lanzamiento al éxito

comercial?
En la actualidad, una estrategia de lanzamiento bien planificada puede ser determinante
para el éxito de una película o serie. Además, el análisis de la relación entre la fecha de
estreno y los ingresos generados permite identificar los períodos más propicios para
lanzamientos exitosos.

4. ¿Cómo han evolucionado las críticas y la percepción del público?

Desde sus inicios, el cine ha sido objeto de críticas, tanto positivas como negativas.
Anteriormente, solo un grupo selecto de expertos era considerado "crítico de cine", pero
hoy en día cualquier persona con acceso a internet puede influir en la percepción de una
película a través de plataformas como Rotten Tomatoes o IMDb. Analizar la evolución de
estos estándares de calidad permite entender cómo ha cambiado la recepción del público
a lo largo del tiempo.
Importancia del análisis:
Este tipo de análisis no solo beneficia a la industria cinematográfica, sino también a
plataformas de streaming, productoras y analistas de datos que buscan optimizar la oferta
de contenido y mejorar la experiencia del usuario mediante la implementación de modelos
predictivos.

Descripción del dataset:

Para este análisis se utilizó el dataset "Full IMDb Movies Data", disponible en la
plataforma Kaggle. Este dataset contiene información detallada sobre películas desde
1990 hasta la actualidad, lo que permite realizar un estudio exhaustivo de la industria
cinematográfica en las últimas décadas.
El dataset consta de 21 columnas y 903,263 registros, con las siguientes variables
principales:

1. id: A unique identifier for each movie.

2. title: The name of the movie.

3. vote_average: The average rating the movie has received from users (on a scale, typically from 0 to 10).

4. vote_count: The total number of votes or ratings submitted for the movie.

5. status: The current state of the movie (e.g., "Released," "Post-Production").

6. release_date: The date when the movie was officially released.

7. revenue: The total earnings the movie made (usually in USD).

8. runtime: The duration of the movie in minutes.

9. adult: Indicates whether the movie is classified as adult content (e.g., "True" or "False").

10. budget: The total cost of producing the movie (usually in USD).

11. imdb_id: The unique identifier for the movie on IMDb (Internet Movie Database).

12. original_language: The language in which the movie was originally produced (e.g., "en" for English).

13. original_title: The original title of the movie in its native language.

14. overview: A brief summary or description of the movie's plot.

15. popularity: A metric indicating how popular the movie is (typically based on views, searches, or ratings).

16. tagline: A short phrase or slogan associated with the movie.

17. genres: The categories or genres the movie belongs to (e.g., Action, Comedy, Drama).

18. production_companies: The names of the companies involved in producing the movie.

19. production_countries: The countries where the movie was produced.

20. spoken_languages: The languages spoken in the movie.

21. keywords: Important terms or phrases associated with the movie, often used for categorization or search.
A partir de las categorías anteriores, es posible realizar diversos análisis aplicados, tales
como:

- Identificar tendencias en la industria cinematográfica (géneros más populares,

películas más taquilleras).
- Desarrollar sistemas de recomendación basados en géneros o valoraciones.
- Analizar la relación entre presupuesto e ingresos para evaluar la rentabilidad de
las películas.
- Determinar los factores clave para el éxito de una película.
- Visualizar tendencias a lo largo del tiempo (estrenos de películas por año).
Un análisis de este tipo no solo es útil para estudios de cine, sino también para
plataformas de streaming, inversionistas, investigadores y expertos en marketing.
Dependiendo del enfoque, puede contribuir a la mejora en la producción de contenido,
optimización de estrategias comerciales y una mejor comprensión de la evolución de la
industria cinematográfica, proporcionando información clave sobre su futuro.

Process and evidence of data extraction:

- Se configura la API key descargada desde el perfil de kaggle

- Se descomprimen los datos descargados desde kaggle en la carpeta especificada.

- Se crea el dataframe (df) a partir del archivo .csv descomprimido

- El dataset cuenta con más de 1 millon de filas, para temas de análisis y reducción
de carga computacional se toma la decisión de eliminar aleatoriamente una
cantidad considerable de filas, dejando para el análisis un total de 98574

- Se crea la database y la tabla donde se realizara la carga de datos.

- Debido a la longitud de unas columnas (Keywords) se restringen a un límite de
caracteres, para evitar inconvenientes con la carga de datos, posteriormente se
cargan los datos del dataframe a la tabla creada en la base de datos.

Por último se crea el dataframe4 (df4) el cual lee de la tabla creada los datos y los
imprime.
De igual forma se rectifica esta info utilizando pgadmin4, donde se evidencia la creación
de la base de datos, la tabla y se corrobora las dimensiones de la misma.
Process and evidence of exploratory data analysis (EDA) : Phase 2

Importancia del Análisis Exploratorio de Datos

El Análisis Exploratorio de Datos (EDA) es una fase crucial en cualquier proyecto de
ciencia de datos. Nos permite comprender la estructura del dataset, identificar valores
atípicos, detectar patrones y preparar los datos para futuras modelizaciones. En esta fase,
se llevaron a cabo diversas técnicas de transformación, limpieza y visualización para
mejorar la calidad y utilidad del dataset.

Transformaciones Realizadas en el Dataset

Manejo de Valores Faltantes
Se identificaron y trataron valores faltantes en columnas clave como “Budget”, “revenue”,
“runtime” y “genres”. Para los valores “nan” en la columna de género (“genre_1”), se
reemplazaron con la información disponible en “genre_2”, asegurando así la continuidad de
los datos.
Conversión de tipo de datos
Algunas columnas como “Budget” y “revenue” fueron convertidas a tipo numérico para
permitir cálculos de rentabilidad. Se verificó que los valores en “release_date” estuvieran
en formato de fecha y se realizaron conversiones cuando fue necesario.

Creación de nuevas variables

Para facilitar el análisis de rentabilidad, se creó la variable “has_profit”, que toma el valor
“True” si una película generó ganancias (revenue > budget) y “False” si tuvo pérdidas. Esta
nueva variable permitió realizar comparaciones directas entre géneros rentables y no
rentables.
Filtrado de datos irrelevantes
Se eliminaron películas que no aportaban valor al análisis, tal como aquellas con “Budget”
y “revenue” en cero, ya que estos valores indican falta de información en el dataset.
También se excluyeron películas con un número de votos (“vote_count”) menor a un umbral
mínimo para evitar sesgos en los análisis de calificación promedio.
Análisis y Visualizaciones realizadas

1. Distribución de películas por genero

Se generó un gráfico de barras para visualizar en qué géneros se distribuyen
principalmente las películas, lo que permitió identificar cuáles son los más
frecuentes.
2. Promedio de puntuación por genero
Se calculó la calificación promedio de las películas por género para evaluar la
percepción del público. Esto permitió identificar qué géneros suelen recibir mejores
críticas y cuáles tienden a tener calificaciones más bajas.

3. Análisis de inversión por genero

Se analizó el presupuesto promedio asignado a cada género, permitiendo
visualizar cuáles son los más costosos de producir y su relación con la
rentabilidad.
4. Comparación de películas rentables vs No rentables
Se generó un gráfico de barras apiladas para comparar qué géneros tienen una
mayor cantidad de películas rentables frente a aquellos con más pérdidas,
utilizando la nueva variable “has_profit”.

Conclusiones
El análisis exploratorio de datos permitió identificar tendencias en la industria
cinematográfica, como la relación entre presupuesto y éxito, la evolución de los géneros
más populares y la percepción del público sobre distintos tipos de películas. La
transformación de los datos fue clave para mejorar la calidad del dataset y obtener
insights valiosos. Esta información puede ser utilizada para optimizar estrategias de
producción y distribución, así como para desarrollar modelos predictivos en futuros
análisis.

También podría gustarte

Preguntas de Imdb
Aún no hay calificaciones
Preguntas de Imdb
4 páginas
Análisis de Dataset de HBO Max
Aún no hay calificaciones
Análisis de Dataset de HBO Max
2 páginas
Proceso ETL en Python para Netflix Data
Aún no hay calificaciones
Proceso ETL en Python para Netflix Data
8 páginas
T1 SBD1 202112012
Aún no hay calificaciones
T1 SBD1 202112012
11 páginas
Actividad 2
Aún no hay calificaciones
Actividad 2
26 páginas
Análisis de Datos en IMDb: Resultados Clave
Aún no hay calificaciones
Análisis de Datos en IMDb: Resultados Clave
10 páginas
AznarMartínez RíosCarnero Fase1
Aún no hay calificaciones
AznarMartínez RíosCarnero Fase1
16 páginas
Guia TP Bda I 2023
Aún no hay calificaciones
Guia TP Bda I 2023
38 páginas
Anexo 1 - Plantilla Reconociendo Un Sistema Operativo
Aún no hay calificaciones
Anexo 1 - Plantilla Reconociendo Un Sistema Operativo
11 páginas
Evolución de la Analítica de Datos
Aún no hay calificaciones
Evolución de la Analítica de Datos
69 páginas
Gestión y Visualización de Datos para El Gerenciamiento
Aún no hay calificaciones
Gestión y Visualización de Datos para El Gerenciamiento
14 páginas
Tarea 2 - Diseño de Una Estrategia de B.I
Aún no hay calificaciones
Tarea 2 - Diseño de Una Estrategia de B.I
11 páginas
Apuntes Add Coursera
Aún no hay calificaciones
Apuntes Add Coursera
13 páginas
Lección 2 Continuación
Aún no hay calificaciones
Lección 2 Continuación
17 páginas
Ciencia de Datos para Librería Iztaccihuatl
Aún no hay calificaciones
Ciencia de Datos para Librería Iztaccihuatl
9 páginas
Introducción A La Ciencia de Datos y El Big Data
Aún no hay calificaciones
Introducción A La Ciencia de Datos y El Big Data
10 páginas
Parcial Base de Datos 2
Aún no hay calificaciones
Parcial Base de Datos 2
7 páginas
Lección 4. Big Data y Arquitecturas
Aún no hay calificaciones
Lección 4. Big Data y Arquitecturas
20 páginas
Implementacion Del KDD
Aún no hay calificaciones
Implementacion Del KDD
13 páginas
SOLEMNE I. Analitica - ERICES
0% (1)
SOLEMNE I. Analitica - ERICES
7 páginas
ETL Tarea2 DanielMedina54
Aún no hay calificaciones
ETL Tarea2 DanielMedina54
8 páginas
DBDD U2 A3 Ancr.
Aún no hay calificaciones
DBDD U2 A3 Ancr.
7 páginas
Informe de Cineplanet
Aún no hay calificaciones
Informe de Cineplanet
21 páginas
Evidencia 1
Aún no hay calificaciones
Evidencia 1
19 páginas
ETL Tarea4 DanielMedina54
Aún no hay calificaciones
ETL Tarea4 DanielMedina54
11 páginas
Preguntas de Entrevista para Analista de Datos 1712942988
Aún no hay calificaciones
Preguntas de Entrevista para Analista de Datos 1712942988
6 páginas
Enunciado
Aún no hay calificaciones
Enunciado
1 página
Ejercicio Complementario Sem 9 - Grupo 4
Aún no hay calificaciones
Ejercicio Complementario Sem 9 - Grupo 4
3 páginas
Analisis de Mercado
Aún no hay calificaciones
Analisis de Mercado
8 páginas
Visualización de Datos y Storytelling - Jesus Zamora
Aún no hay calificaciones
Visualización de Datos y Storytelling - Jesus Zamora
5 páginas
Trabajo de Grado Ejemplo2
Aún no hay calificaciones
Trabajo de Grado Ejemplo2
89 páginas
Ciencia de Datos en Librería Iztaccihuatl
Aún no hay calificaciones
Ciencia de Datos en Librería Iztaccihuatl
7 páginas
Jose David Martinez Individual 3
Aún no hay calificaciones
Jose David Martinez Individual 3
24 páginas
Aa1 Big Data
Aún no hay calificaciones
Aa1 Big Data
8 páginas
Netflix: Inteligencia de Negocio y Predicción
Aún no hay calificaciones
Netflix: Inteligencia de Negocio y Predicción
5 páginas
Proyecto2 Alejandro Aguilar
Aún no hay calificaciones
Proyecto2 Alejandro Aguilar
4 páginas
Fundamentos de Big Data
Aún no hay calificaciones
Fundamentos de Big Data
39 páginas
1 Big Data Professional Fundamentos v2 - Conceptos
Aún no hay calificaciones
1 Big Data Professional Fundamentos v2 - Conceptos
55 páginas
Jose David Martinez Individual
Aún no hay calificaciones
Jose David Martinez Individual
16 páginas
Modulo 3 - The Elements of Data
Aún no hay calificaciones
Modulo 3 - The Elements of Data
15 páginas
Solucion de Problemas
Aún no hay calificaciones
Solucion de Problemas
10 páginas
Caso de Estudio
Aún no hay calificaciones
Caso de Estudio
6 páginas
Perfilamiento de Datos y Migración
Aún no hay calificaciones
Perfilamiento de Datos y Migración
4 páginas
FINAL
Aún no hay calificaciones
FINAL
16 páginas
Fundamentos de Analítica Prescriptiva IBM
100% (1)
Fundamentos de Analítica Prescriptiva IBM
25 páginas
Guía de Cartelera Cinematográfica
Aún no hay calificaciones
Guía de Cartelera Cinematográfica
6 páginas
Caso Netflix
Aún no hay calificaciones
Caso Netflix
5 páginas
Trabajo Individual Estadistica 1
Aún no hay calificaciones
Trabajo Individual Estadistica 1
5 páginas
Informe sobre Sistema de Base de Datos
Aún no hay calificaciones
Informe sobre Sistema de Base de Datos
13 páginas
El Análisis de Datos y Su Importancia en La Actualidad Tecnológica2024
Aún no hay calificaciones
El Análisis de Datos y Su Importancia en La Actualidad Tecnológica2024
11 páginas
Ejercicios Modelamiento Conceptual 1-5 Mer - Yazmin Caro Lopez Adsi 2142717
Aún no hay calificaciones
Ejercicios Modelamiento Conceptual 1-5 Mer - Yazmin Caro Lopez Adsi 2142717
6 páginas
Utilizando La Ciencia de Datos en Una Organización
Aún no hay calificaciones
Utilizando La Ciencia de Datos en Una Organización
9 páginas
C2 FundamentosAnalisisDatos
Aún no hay calificaciones
C2 FundamentosAnalisisDatos
24 páginas
Notas Curso Google Analytics
Aún no hay calificaciones
Notas Curso Google Analytics
9 páginas
Workbook - Data Analytics-8-16
Aún no hay calificaciones
Workbook - Data Analytics-8-16
9 páginas
Aplicando La Ciencia de Datos en Una Organización - Jesus Zamora
Aún no hay calificaciones
Aplicando La Ciencia de Datos en Una Organización - Jesus Zamora
5 páginas
Análisis de Big Data y Datos Secundarios
100% (1)
Análisis de Big Data y Datos Secundarios
8 páginas
¡Nunca Más Sin Nosotras! La Im PDF
Aún no hay calificaciones
¡Nunca Más Sin Nosotras! La Im PDF
43 páginas
Dibujo Gammacámara
Aún no hay calificaciones
Dibujo Gammacámara
4 páginas
Diseño de Canal Hidráulico
Aún no hay calificaciones
Diseño de Canal Hidráulico
37 páginas
El Eneagrama en La Empresa
Aún no hay calificaciones
El Eneagrama en La Empresa
1 página
Especificaciones Técnicas de Acometidas
Aún no hay calificaciones
Especificaciones Técnicas de Acometidas
26 páginas
Los Valores Humanos
Aún no hay calificaciones
Los Valores Humanos
3 páginas
Caso Amazon
Aún no hay calificaciones
Caso Amazon
9 páginas
Perdida de La Biodiversidad y La Extincion de Especies en El Perù
Aún no hay calificaciones
Perdida de La Biodiversidad y La Extincion de Especies en El Perù
7 páginas
Introduccion A La Filosofia 2025
Aún no hay calificaciones
Introduccion A La Filosofia 2025
9 páginas
Cuestionario de Disconfort Visual
Aún no hay calificaciones
Cuestionario de Disconfort Visual
1 página
25 Años Acompañando El Nacer y Sus Despues La Psicologia Perinatal
Aún no hay calificaciones
25 Años Acompañando El Nacer y Sus Despues La Psicologia Perinatal
32 páginas
COMUNICACION SESION Dia Del Logro
88% (16)
COMUNICACION SESION Dia Del Logro
4 páginas
Tarea #6. Análisis de Sistemas Realimentados 11
Aún no hay calificaciones
Tarea #6. Análisis de Sistemas Realimentados 11
13 páginas
Estrategias Que Fomentan El Clima Socioemocional Del Aula - CTT
Aún no hay calificaciones
Estrategias Que Fomentan El Clima Socioemocional Del Aula - CTT
2 páginas
Autorización de Menores para Metrópoli
Aún no hay calificaciones
Autorización de Menores para Metrópoli
1 página
Organigrama del Gobierno de Guatemala
Aún no hay calificaciones
Organigrama del Gobierno de Guatemala
1 página
Cuaderno de Historia Sanitaria
Aún no hay calificaciones
Cuaderno de Historia Sanitaria
75 páginas
Ejercicios Concreto... Agregados y Proporciones en La Mezcla
Aún no hay calificaciones
Ejercicios Concreto... Agregados y Proporciones en La Mezcla
6 páginas
Sujetos Del Procedimiento Administrativo
100% (1)
Sujetos Del Procedimiento Administrativo
64 páginas
Actividad 4 Virtual Plant
Aún no hay calificaciones
Actividad 4 Virtual Plant
21 páginas
Nivelación Topográfica en Ingeniería Civil
Aún no hay calificaciones
Nivelación Topográfica en Ingeniería Civil
8 páginas
Es La Economía Una Ciencia
Aún no hay calificaciones
Es La Economía Una Ciencia
4 páginas
Evaluación de Máquinas Simples y Compuestas
Aún no hay calificaciones
Evaluación de Máquinas Simples y Compuestas
4 páginas
Tipos y Acabados de Pañete en Muros
Aún no hay calificaciones
Tipos y Acabados de Pañete en Muros
1 página
Comunicación Básica en Francés
Aún no hay calificaciones
Comunicación Básica en Francés
6 páginas
Escoba Electrica PDF
Aún no hay calificaciones
Escoba Electrica PDF
6 páginas
Pacto Movilidad Huesca
Aún no hay calificaciones
Pacto Movilidad Huesca
8 páginas
NIVELES de EMILIA Ferreiro
Aún no hay calificaciones
NIVELES de EMILIA Ferreiro
5 páginas
Daftar SKP 2019
Aún no hay calificaciones
Daftar SKP 2019
10 páginas
Logística Automatizada de AliExpress
Aún no hay calificaciones
Logística Automatizada de AliExpress
4 páginas