Daniel Manso 29/11/2023
Proyecto Final ML
Predecir el precio futuro de las top 10 criptomonedas en función de la
capitalización de mercado y su dominio
Índice
Resolveremos las siguientes preguntas
- ¿Qué problema o necesidad vamos a resolver?
- ¿Qué datos se han utilizado para el entrenamiento?
- ¿Qué transformaciones y consideraciones se han realizado?
- ¿Cuál ha sido la aproximación y qué técnicas han sido utilizadas?
- ¿Qué modelos has entrenado?
- ¿Cómo ha sido el proceso de entrenamiento?
- ¿Qué resultados nos ofrecen? ¿Qué modelo tiene mejores resultados?
- ¿Qué variables tienen de mayor impacto?
- ¿Qué conclusiones has obtenido?
Problemas a resolver
Gracias a nuestra predicción
Inversión Informada: Los inversores podrían tomar decisiones más informadas al conocer las predicciones
de precios y la posible dominancia futura de ciertas criptomonedas. Esto podría ayudar a minimizar riesgos
y maximizar rendimientos.
Gestión de Riesgos: Los participantes del mercado podrían utilizar estas predicciones para gestionar
mejor los riesgos asociados con la volatilidad del mercado de criptomonedas.
Planificación Estratégica: Las empresas podrían planificar estratégicamente su desarrollo y adopción,
considerando las proyecciones de dominio en el mercado.
Educación Financiera: Proporcionar información sobre las tendencias del mercado de criptomonedas
podría contribuir a la educación financiera, permitiendo que más personas comprendan y participen de
manera consciente en este espacio.
Desarrollo de Herramientas Financieras: La creación de herramientas y servicios basados en estas
predicciones podría dar lugar a nuevas oportunidades de desarrollo en el sector financiero, como
plataformas de inversión automatizadas y servicios de asesoramiento.
Minimizar Manipulación del Mercado: Al proporcionar predicciones, se podría contribuir a la reducción
de prácticas de manipulación del mercado al ofrecer una visión más clara de las tendencias y expectativas
futuras.
Datos utilizados para el entrenamiento
Y su fuente
Los datos utilizados para el entrenamiento son el conjunto de históricos
correspondientes a las 10 primeras criptomonedas en función a su capitalización de
mercado.
Los datos son recogidos
[Link] en
formato csv.
Transformación y consideración de
datos
Recopilación de Datos: Obtener datos históricos, como información diaria o
el volumen de operaciones y otros indicadores relevantes como el dominio
Limpieza: Limpieza de errores, valores atípicos o información faltante.
Normalización: Asegurar que los datos estén en una escala común.
Selección de Características: Identificar las características más relevantes
Consideraciones de Riesgo: Reconocer la naturaleza volátil de las
criptomonedas y la posibilidad de cambios bruscos en el mercado.
Análisis exploratorio
Distribución de la capitalización de mercado en el tiempo
Aplicamos una ligera reducción de ruido a
través de el método rolling window
También lo hacemos
con el top 5
Identificamos características de correlación más
relevantes
Modelos entrenados
Supervisados:
1. Modelo de regresión lineal
2. Modelo de regresión polinómica
3. Modelo Decision Tree Regression
4. Modelo Random Forest Regression
5. Modelo Gradient Boost
No supervisado:
1. Modelo PCA (Principal Component Analysis)
2. Modelo de regresión linear No supervisado
Time Series:
1. ARIMA
2. SARIMAX
Proceso de entrenamiento
El proceso de entrenamiento fue algo complejo, pues es difícil predecir valores futuros en un mercado
tan volátil, pero logramos obtener ciertos resultados, planteando el problema de dos formas:
1. Probar con diferentes modelos de regresión para obtener los valores
de capitalización de las distintas criptomonedas, en función a la
capitalización de otra, el modelo será más acertado en función al
dominio del target y su evolución en el tiempo.
2. Probar con modelos de Time Series, seleccionando la variable que
más correlacione con las demás, y realizar una predicción futura.
Resultados de los modelos
Se medirá la performance del modelo en función al error cuadrático medio
Regresión Lineal: Regresión Polinómica:
Error cuadrático medio: 1.77022144508626e+21
Error cuadrático medio: 6.742460640539982e+19
Decision Tree Regression: Random Forest Regression:
Error cuadrático medio: 1.6783859494296863e+20
Error cuadrático medio: 5.227285485631174e+20
3.367161350169445e+20 con los mejores hiperparámetros
Gradient Boosting Regressor: Modelo PCA a partir del RF:
Error cuadrático medio modelo PCA es:
1.4717266356306824e+20
Error cuadrático medio: 2.5798486627338027e+20
Modelo ARIMA: Regresión no supervisada:
Error cuadrático medio: 3.730522375432904e+23 Error cuadrático medio: 5.023986489631061e+22
Modelos con mejor
resultado
Regresión Lineal: Regresión no supervisada:
Error cuadrático medio: 5.023986489631061e+22

Error cuadrático medio: 6.742460640539982e+19
Conclusiones
Para predecir con una mayor precisión el modelo lo más acertado
sería mezclar ambos, pues es más fácil predecir una capitalización
total del mercado y a partir de ello conseguir el resto de
criptomonedas gracias a su alta correlación, pero ahí tenemos un
modelo predictor que viene a responder la cuestión principal que
enfrentamos en este proyecto
Si analizamos en función al histórico es un mercado muy volátil, pero
a pesar de ello mantiene tendencia alcista por lo que sería interesante
seguir estudiando su fluctuación.