0% encontró este documento útil (0 votos)

204 vistas7 páginas

3.lab 2. Bike Sharing

Este documento presenta un análisis del servicio de alquiler de bicicletas públicas (Bike Sharing) utilizando datos del programa Capital Bikeshare de Washington D.C. El objetivo es predecir la demanda de alquileres mediante modelos de aprendizaje supervisado. Se describen los datos disponibles y se realiza un análisis exploratorio para determinar cómo variables como la hora, estación, clima, etc. influyen en la demanda. Finalmente, se entrenan diferentes modelos de predicción para seleccionar el algoritmo con menor

Cargado por

Andy Ortiz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

204 vistas7 páginas

3.lab 2. Bike Sharing

Cargado por

Andy Ortiz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Inteligencia en Red

Curso 2021/22

Bike Sharing

Julio Villena Román

jvillena@[Link]

1
Bike Sharing

1. Objetivos

El objetivo de la práctica es abordar un análisis del servicio de alquiler de bicicletas

públicas (Bike Sharing), un escenario de aprendizaje supervisado, empleando la
herramienta RapidMiner.

2. Contexto: Capital Bikeshare

En este ejercicio se utilizan los datos de una de las competiciones ofrecidas en Kaggle
en 2015, sobre la predicción de la demanda en alquiler de bicicletas públicas
([Link] Aunque los datos proporcionados
son del programa Capital Bikeshare de Washington, D.C. en Estados Unidos, este mismo
análisis se podría llevar a cabo en España, en las diferentes ciudades donde existe el
servicio de bicicletas públicas y cuyos datos están disponibles como datos abiertos de la
ciudad, por ejemplo, en Madrid, Zaragoza, Bilbao, Málaga, Gijón, etc.

Inicialmente, en 2008, el Distrito de Columbia fue el primero en los Estados Unidos en

poner en funcionamiento un sistema de alquiler de bicicletas. Se llamó SmartBike D.C. y
ofrecía 120 bicis repartidas en 10 estaciones en el centro de la ciudad de Washington
D.C. Aproximadamente 1600 personas se unieron entonces a SmartBike D.C. durante
los dos primeros años. Tiempo después, el condado de Arlington estaba trabajando en
su propio sistema de alquiler de bicis. Finalmente, en mayo de 2010, el condado de
Arlington y Washington, D.C. revisaron las propuestas y eligieron el que actualmente es
el sistema Capital Bikeshare ([Link]

En agosto de 2012, la ciudad de Alexandria lanzó ocho estaciones uniéndose así a la

comunidad Capital Bikeshare. Un año más tarde, en mayo de 2013, el condado de
Montgomery se convirtió en el último miembro en unirse al programa Capital Bikeshare.
Juntos, el Distrito de Columbia, el condado de Arlington, Alexandria y el condado de
Montgomery son los orgullosos responsables de traer un sistema de transporte
expansionista y pluri-jurisdiccional a la región.

El sistema Capital Bikeshare pertenece a las jurisdicciones participantes y es dirigido por

Motivate, una compañía de Brooklyn que dirige otros muchos sistemas de alquiler de
bicis.

Actualmente, Capital Bikeshare pone a disposición de los ciudadanos más de 3000

bicicletas que pueden alquilar en cualquiera de las más de 350 estaciones.

Existen cuatro posibles tarifas entre las que los usuarios pueden elegir según más les
convenga. Pueden unirse por un día, tres días, un mes o un año. Todas ellas tienen una
cuota inicial fija y, además, deben pagar una cantidad extra dependiente del tiempo de
uso siendo la primera media hora de cada viaje gratis.

Los usuarios que eligen las tarifas de uno o tres días reciben un código de cinco dígitos
que deben introducir en las consolas de las estaciones cuando quieran extraer una
bicicleta mientras que los usuarios con tarifas mensuales o anuales reciben una tarjeta
mediante la cual pueden alquilar bicicletas.

2
3. Descripción de los datos

La página de descarga de datos ([Link]

en Kaggle proporciona dos conjuntos de datos, uno de entrenamiento y otro de
evaluación. En esta práctica vamos utilizar el conjunto de entrenamiento, ya descargado
en formato CSV como “Bike [Link]”, que se compone de los siguientes atributos:

1. datetime - hourly date + timestamp

2. season
1 = spring, 2 = summer, 3 = fall, 4 = winter
3. holiday - whether the day is considered a holiday
4. workingday - whether the day is neither a weekend nor holiday
5. weather
1: Clear, Few clouds, Partly cloudy, Partly cloudy
2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
3: Light Snow, Light Rain + Thunderstorm, Light Rain + Scattered clouds
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
6. temp - temperature in Celsius
7. atemp - "feels like" temperature in Celsius
8. humidity - relative humidity
9. windspeed - wind speed
10. casual - number of non-registered user rentals initiated
11. registered - number of registered user rentals initiated
12. count - number of total rentals

Nuestro objetivo de análisis va a ser predecir la demanda (el número de alquileres) en

el servicio de alquiler de bicicletas públicas, lo que permitiría optimizar su gestión
(ajustando oferta-demanda). La variable “count” es el número total de alquileres, la
suma de usuarios esporádicos (“casual”) y registrados (“registered”).

4. Primer paso: Preparación de los datos

En primer lugar, hay que importar los datos en RapidMiner, con “Import Data”, como
hiciste en la anterior práctica. Puedes utilizar los valores por defecto, ya que detecta
correctamente el tipo date_time de la columna de fecha y los valores integer/real del
resto de variables numéricas.

Intuitivamente, resulta sensato pensar que la demanda depende de la meteorología (días

con mal tiempo llaman menos a desplazarse en bicicleta), de si es día laborable o no
(diferente tipo de uso para ir al trabajo o de ocio), según el momento del año (mes o
estación) y, por supuesto, de la hora del día (por la noche habrá menos demanda que
por el día).

Aunque sí hay variables sobre la meteorología o el tipo de día laborable o festivo, sin
embargo, no existen las variables “month” ni “hour” como tales, sino que están
codificadas en la variable “datetime”, así que es conveniente procesar los datos para
extraer dichas variables.

3
Para ello vamos a emplear la herramienta “Turbo Prep” de RapidMiner, accesible desde
la barra de botones superior, que permite hacer manipulaciones de los datos de manera
muy sencilla y potente.

Aquí hay una guía introductoria para aprender a manejarla:

[Link]

Selecciona el conjunto de datos importado para empezar a trabajar sobre él.

“Transform” permite renombrar variables, cambiar su tipo, filtrar valores, etc.

“Cleanse” sirve para limpiar variables, normalizar, discretizar…

“Generate” sirve para generar atributos nuevos.

“Pivot” sirve para hacer agrupaciones elaboradas de atributos, y “Merge” permite

combinar varios conjuntos de datos.

Nosotros vamos a usar “Generate”:

1. Pulsa “Generate”
2. En “Name” (nombre de la nueva columna), escribe:
month
3. En “Formula”, escribiendo o arrastrando desde las variables, “Functions”, o
“Constants”, pon:
date_get([datetime], DATE_UNIT_MONTH)+1
4. En “Preview” debes ver el valor correcto de la nueva columna. Debe extraerse el
valor del mes de la variable “datetime”.
5. Si es correcto, pulsa “COMMIT GENERATE” para guardar los cambios.

Haz lo mismo otra vez, usando “Generate” para crear la variable “hour” extrayendo el
campo DATE_UNIT_HOUR de la variable “datetime”.

Cuando tengas ambas variables, selecciona “EXPORT” (en el icono de los puntos
suspensivos, arriba a la derecha) para guardar el conjunto de datos transformado en el
repositorio. Puedes sobreescribir si quieres el conjunto original que importaste
anteriormente.

4
5. Segundo paso: Análisis exploratorio de datos

Una vez que se dispone de los datos, el siguiente paso de cualquier proyecto de análisis
es realizar un análisis exploratorio de los datos, estudiando las variables determinando
su significado, los estadísticos básicos -máx, min, media, etc.-, su histograma, un análisis
de calidad -valores missing-, y la dependencia entre variables.

En este análisis, primero vamos a utilizar como objetivo la variable “count”, el número
total de alquileres, independientemente de que sean usuarios registrados o usuarios
esporádicos. Realiza los siguientes análisis, mediante la funcionalidad de estadísticas
(“Statistics”) y de visualización (“Visualizations”) de la vista de resultados de RapidMiner:

• Valores mínimos, medios y máximos e histograma de la variable “count” → ¿Es

un servicio muy demandado?
• Análisis por horas (“hour” vs “count”) → ¿La demanda depende de la hora del
día?
• Análisis por meses del año → ¿La demanda depende del mes del año?
• Análisis de días laborables vs festivos → ¿Influye en la demanda?
• Análisis por temperatura → ¿Influye la temperatura en la demanda?
• Análisis por meteorología (“weather”) → ¿El tiempo influye?

Y ahora, realiza este mismo análisis con las dos variables “casual” y “registered”,
determinando si el comportamiento de la demanda de cada tipo de usuario es diferente
según las variables anteriores.

Las siguientes figuras anticipan que efectivamente la demanda depende del tipo de
usuario del que se trate.

5
Para analizar la dependencia entre variables (sobre todo, entre las variables de entrada
y la/s variable/s objetivo/s), se utiliza habitualmente el análisis de correlación, para lo
cual puedes preparar el siguiente proceso sencillo en RapidMiner:

6. Tercer paso: Predicción de la demanda

Por último, entrena un modelo de predicción de la demanda (variable “count”), utilizando

el proceso base de entrenamiento y validación basado en separación en conjuntos de
training/test que ya conoces de la anterior práctica.

Obviamente no puedes usar para predecir las variables “registered” ni “casual”, puesto
que la cuenta total es dependiente de forma trivial de las otras dos.

Utiliza diferentes algoritmos y compáralos utilizando el error relativo como métrica. Es

decir, el objetivo es determinar el algoritmo que predice la variable “count” en función
de las variables de entrada (no tienes por qué usar todas) con menor error relativo.

Además, analiza la diferencia de error relativo al predecir “registered” y “casual” con el

mejor algoritmo. Es decir, ¿qué es más fácil, predecir la cuenta total o bien las variables
por separado?

7. Evaluación

Esta práctica se realiza por parejas.

Entregable: informe con el análisis realizado, los resultados de los diferentes modelos
y las conclusiones obtenidas.

Calificación:
• 0 puntos: no llega mínimamente a los requisitos exigidos.
• 1 punto: análisis superficial, parcial, poco elaborado.

6
• 3 puntos: análisis completo del escenario, análisis exploratorio, modelos de
predicción y análisis de conclusiones, cumpliendo con calidad los requisitos de la
práctica.

También podría gustarte

Hoja de Preparacion Caso Starbucks
Aún no hay calificaciones
Hoja de Preparacion Caso Starbucks
8 páginas
Natureview: Estrategia de Expansión 2000
Aún no hay calificaciones
Natureview: Estrategia de Expansión 2000
9 páginas
Análisis Financiero de DITOSA 2013
Aún no hay calificaciones
Análisis Financiero de DITOSA 2013
6 páginas
Expansión y Desafíos Financieros de Panera Bread
Aún no hay calificaciones
Expansión y Desafíos Financieros de Panera Bread
1 página
C 773 Orbea - v2
Aún no hay calificaciones
C 773 Orbea - v2
22 páginas
Caso Minox Co.
Aún no hay calificaciones
Caso Minox Co.
5 páginas
Ensayo Caso Harvard Mercado Libre
Aún no hay calificaciones
Ensayo Caso Harvard Mercado Libre
2 páginas
La Farmacia
Aún no hay calificaciones
La Farmacia
12 páginas
Alfombra L-42: Precios y Producción 2009-2012
Aún no hay calificaciones
Alfombra L-42: Precios y Producción 2009-2012
16 páginas
IEC in Sports 4 Wharton BA Assignment 5
Aún no hay calificaciones
IEC in Sports 4 Wharton BA Assignment 5
31 páginas
Método Del Caso en La Farmacia Bi
Aún no hay calificaciones
Método Del Caso en La Farmacia Bi
5 páginas
Estrategia de Sealed Air: Nuevas Burbujas
Aún no hay calificaciones
Estrategia de Sealed Air: Nuevas Burbujas
3 páginas
Análisis Financiero de Ventas y Costos
Aún no hay calificaciones
Análisis Financiero de Ventas y Costos
2 páginas
CA-C-438 Dulcil (A) - Anexos en Excel EVE
Aún no hay calificaciones
CA-C-438 Dulcil (A) - Anexos en Excel EVE
23 páginas
Werner Komponenten
Aún no hay calificaciones
Werner Komponenten
9 páginas
Caso NVF
Aún no hay calificaciones
Caso NVF
12 páginas
Grupo 05 SS01 SAXONVILLESAUSAGE
Aún no hay calificaciones
Grupo 05 SS01 SAXONVILLESAUSAGE
12 páginas
Caso Jose Vasquez
Aún no hay calificaciones
Caso Jose Vasquez
3 páginas
Análisis Financiero de SureCut Shears
Aún no hay calificaciones
Análisis Financiero de SureCut Shears
3 páginas
Caso Panera Bread Company
Aún no hay calificaciones
Caso Panera Bread Company
6 páginas
Datos de Entregas y Rendimiento EDGCOMB
Aún no hay calificaciones
Datos de Entregas y Rendimiento EDGCOMB
22 páginas
Estrategia de Mercado para Vivio
Aún no hay calificaciones
Estrategia de Mercado para Vivio
9 páginas
Análisis de Eficacia Publicitaria
Aún no hay calificaciones
Análisis de Eficacia Publicitaria
6 páginas
Caso de Chiken Coop
Aún no hay calificaciones
Caso de Chiken Coop
12 páginas
Ce-0026 Nesa
Aún no hay calificaciones
Ce-0026 Nesa
8 páginas
Fiesta y Logística en Merloni
0% (1)
Fiesta y Logística en Merloni
10 páginas
Estrategias de Marketing HubSpot
67% (3)
Estrategias de Marketing HubSpot
3 páginas
Estructura de Costos en Construcciones
0% (1)
Estructura de Costos en Construcciones
17 páginas
Truearth Healthy Foods: Investigación de Mercado para La Introducción de Un Nuevo Producto
Aún no hay calificaciones
Truearth Healthy Foods: Investigación de Mercado para La Introducción de Un Nuevo Producto
5 páginas
Estrategias de Marketing
Aún no hay calificaciones
Estrategias de Marketing
21 páginas
Estrategias de Ventas en Hausser Food
Aún no hay calificaciones
Estrategias de Ventas en Hausser Food
5 páginas
Estrategia de Kathon MWX en el mercado
Aún no hay calificaciones
Estrategia de Kathon MWX en el mercado
15 páginas
Análisis de Saxonville Sausage Company
Aún no hay calificaciones
Análisis de Saxonville Sausage Company
3 páginas
HP-C-772 Bruxelles Services Linguistiques (BSL) - Hoja de Preparación
50% (2)
HP-C-772 Bruxelles Services Linguistiques (BSL) - Hoja de Preparación
2 páginas
Caso 3 - MKT Quiz Hartmann Luggage
Aún no hay calificaciones
Caso 3 - MKT Quiz Hartmann Luggage
4 páginas
Caso Aceites y Vinos
Aún no hay calificaciones
Caso Aceites y Vinos
19 páginas
Jumbo: Estrategias de Mercado en Camerún
100% (2)
Jumbo: Estrategias de Mercado en Camerún
16 páginas
Artículo¿Cómo Potenciar El Sabor Del Éxito en Africa - Gallina Blanca Star África.
0% (1)
Artículo¿Cómo Potenciar El Sabor Del Éxito en Africa - Gallina Blanca Star África.
2 páginas
Oberoi Hotels: Lujo y Excelencia Global
0% (2)
Oberoi Hotels: Lujo y Excelencia Global
18 páginas
Caso Planta Danshui
Aún no hay calificaciones
Caso Planta Danshui
5 páginas
Parcial Diagnóstico Financiero
Aún no hay calificaciones
Parcial Diagnóstico Financiero
3 páginas
113-S03 Mueller - Lehmkuhl - .Anexos. - AA Ok
Aún no hay calificaciones
113-S03 Mueller - Lehmkuhl - .Anexos. - AA Ok
14 páginas
Estrategias para Revitalizar Mountain Man Brewing
Aún no hay calificaciones
Estrategias para Revitalizar Mountain Man Brewing
4 páginas
Avancar: Carsharing Eficiente y Sostenible
Aún no hay calificaciones
Avancar: Carsharing Eficiente y Sostenible
2 páginas
IMICAR
Aún no hay calificaciones
IMICAR
23 páginas
Caso Saxonville
Aún no hay calificaciones
Caso Saxonville
14 páginas
Español Caso Image
0% (1)
Español Caso Image
2 páginas
Ventas de Recipientes Culinarian en EE.UU.
Aún no hay calificaciones
Ventas de Recipientes Culinarian en EE.UU.
14 páginas
Caso Michael Kors
0% (1)
Caso Michael Kors
3 páginas
Sleepmore Mattress Manufacturing
Aún no hay calificaciones
Sleepmore Mattress Manufacturing
4 páginas
Estrategias de Marketing para Apogeo
Aún no hay calificaciones
Estrategias de Marketing para Apogeo
3 páginas
3M
100% (1)
3M
4 páginas
Ahorros y Estrategia de Kathon MWX
Aún no hay calificaciones
Ahorros y Estrategia de Kathon MWX
5 páginas
RESUMEN DE CASO III Optical Distortion
Aún no hay calificaciones
RESUMEN DE CASO III Optical Distortion
3 páginas
Estrategia de Crecimiento Typhoon Computers
Aún no hay calificaciones
Estrategia de Crecimiento Typhoon Computers
5 páginas
Actividad3 Inv IA Garayar Burneo Luis
Aún no hay calificaciones
Actividad3 Inv IA Garayar Burneo Luis
5 páginas
2504 - Examen Practico UD7 Bases de Datos
Aún no hay calificaciones
2504 - Examen Practico UD7 Bases de Datos
4 páginas
3.lab 1. Introducción A Rapidminer-1
Aún no hay calificaciones
3.lab 1. Introducción A Rapidminer-1
7 páginas
DisenoConceptual&Logico CasoAlquilerBicicletas
Aún no hay calificaciones
DisenoConceptual&Logico CasoAlquilerBicicletas
3 páginas
BunkerDB-Data Scientist-Enunciado Ejercicio
Aún no hay calificaciones
BunkerDB-Data Scientist-Enunciado Ejercicio
2 páginas
Lista de Estudiantes UC3M con Emails
Aún no hay calificaciones
Lista de Estudiantes UC3M con Emails
2 páginas
Listado de Admitidos 2023
Aún no hay calificaciones
Listado de Admitidos 2023
5 páginas
2020 20 AE Taller4 Rubrica
Aún no hay calificaciones
2020 20 AE Taller4 Rubrica
4 páginas
2020-2-AE-Quiz 2
Aún no hay calificaciones
2020-2-AE-Quiz 2
3 páginas
3.lab 4. Introducción A Weka
Aún no hay calificaciones
3.lab 4. Introducción A Weka
6 páginas
Introducción a Sentence Embedding en Keras
Aún no hay calificaciones
Introducción a Sentence Embedding en Keras
12 páginas
3.lab 5. Análisis de Clientes
Aún no hay calificaciones
3.lab 5. Análisis de Clientes
5 páginas
Creación de un Sistema Inteligente Akinator
Aún no hay calificaciones
Creación de un Sistema Inteligente Akinator
7 páginas
Isis2304 211 Iteracion3
Aún no hay calificaciones
Isis2304 211 Iteracion3
4 páginas
Algoritmos de Resolución de Problemas Reales
Aún no hay calificaciones
Algoritmos de Resolución de Problemas Reales
3 páginas
Tarjeta de Embarque - LATAM Airlines 2
Aún no hay calificaciones
Tarjeta de Embarque - LATAM Airlines 2
1 página
Legislacion Sar
Aún no hay calificaciones
Legislacion Sar
42 páginas
Orden de Trabajo: Mantenimiento Vehicular
Aún no hay calificaciones
Orden de Trabajo: Mantenimiento Vehicular
4 páginas
Faretty Agricola - PDF
Aún no hay calificaciones
Faretty Agricola - PDF
15 páginas
Funciones y Seguridad del Vigía de Tránsito
Aún no hay calificaciones
Funciones y Seguridad del Vigía de Tránsito
2 páginas
Impactos de la Hidrovía Paraguay-Paraná
Aún no hay calificaciones
Impactos de la Hidrovía Paraguay-Paraná
4 páginas
Casa Rozim - Merged
100% (1)
Casa Rozim - Merged
6 páginas
Normas de Comportamiento de Estudiantes en Ruta
Aún no hay calificaciones
Normas de Comportamiento de Estudiantes en Ruta
3 páginas
Catálogo de Productos Llaves Atlántico Febrero 2022
Aún no hay calificaciones
Catálogo de Productos Llaves Atlántico Febrero 2022
162 páginas
Cotizacion Camion UD TRUCKS PKE210
100% (1)
Cotizacion Camion UD TRUCKS PKE210
4 páginas
Chevrolet Sol Valle Dorado
100% (1)
Chevrolet Sol Valle Dorado
1 página
Regeneración Urbana en Pátzcuaro
Aún no hay calificaciones
Regeneración Urbana en Pátzcuaro
44 páginas
Sistema de Rodamiento de Los Tractores Agrícolas
Aún no hay calificaciones
Sistema de Rodamiento de Los Tractores Agrícolas
16 páginas
Diseño Y Análisis de Regenerativos: Sistema de Frenos Del Vehículo Todo Terreno
Aún no hay calificaciones
Diseño Y Análisis de Regenerativos: Sistema de Frenos Del Vehículo Todo Terreno
5 páginas
Criterios para Uso de Aeródromos
Aún no hay calificaciones
Criterios para Uso de Aeródromos
17 páginas
09 Eg07 1
Aún no hay calificaciones
09 Eg07 1
2 páginas
Manualconductor
Aún no hay calificaciones
Manualconductor
154 páginas
Generadores Casa Hab
33% (3)
Generadores Casa Hab
86 páginas
Fiat 80 90 Tractor Workshop Repair Service Manual
Aún no hay calificaciones
Fiat 80 90 Tractor Workshop Repair Service Manual
377 páginas
2014 - 10 BMW Informe de Diagnóstico de Vehículo - 5UXKU2C51F0F94818 - 20240930100757
Aún no hay calificaciones
2014 - 10 BMW Informe de Diagnóstico de Vehículo - 5UXKU2C51F0F94818 - 20240930100757
3 páginas
Catalogo Cahsa Selectores
Aún no hay calificaciones
Catalogo Cahsa Selectores
124 páginas
Puentes Atirantados: Diseño y Tipología
Aún no hay calificaciones
Puentes Atirantados: Diseño y Tipología
12 páginas
Documentos Clave para Transporte y Comercio
Aún no hay calificaciones
Documentos Clave para Transporte y Comercio
7 páginas
Booking A Flight
Aún no hay calificaciones
Booking A Flight
3 páginas
Reservas Airbnb
Aún no hay calificaciones
Reservas Airbnb
31 páginas
Números del 1 al 500 en letras
Aún no hay calificaciones
Números del 1 al 500 en letras
21 páginas
Plan Territorial Zhud 2018: Diagnóstico
Aún no hay calificaciones
Plan Territorial Zhud 2018: Diagnóstico
412 páginas
Estudio Topográfico Trazo de Carretera
Aún no hay calificaciones
Estudio Topográfico Trazo de Carretera
32 páginas
Ex - Bimestral - Sociales - 3° - Fila B
Aún no hay calificaciones
Ex - Bimestral - Sociales - 3° - Fila B
4 páginas
Informe de Colisión en Cuatro Cañadas
Aún no hay calificaciones
Informe de Colisión en Cuatro Cañadas
4 páginas