3.
2 Modelos predictivos, privacidad y seguridad
Profesores: Emili Altur / Luisa Tolosa-Robledo
SUMARIO:
1.- Introducción.
1.1.-Datos.
1.2.- Información.
1.3.- Conocimiento.
1.4.- Minería de Datos.
1.5.- Big Data.
1.6.-Aprendizaje computacional.
1.7.-Suposiciones.
1.8.-Predicciones
2.-Modelos aplicables en el análisis predictivo.
2.1.-Modelos predictivos.
2.2.-Modelos descriptivos.
2.3.-Modelos de decisión.
2.4.-Modelos ensemble.
3.-Seguridad y privacidad de los datos.
3.1.-Aspectos éticos.
3.2.-Aspectos jurídicos
4.-Principales aplicaciones del Análisis Predictivo.
4.1.- Sector empresarial.
4.1.1.-Marketing directo.
4.1.2.-Publicidad predictiva.
4.1.3.-Retención de clientes.
4.5.2.-Recomendaciones de productos.
4.2- Salud.
4.3.- Deportes.
4.4. Clima
4.5.-. Servicios financieros
4.5.1.-Detector de fraude.
4.5.2.-Compraventa de acciones.
4.5.3.-Estimación del valor hipotecario.
4.6.- Sector público
4.6.1.-Reducción de reincidencia.
4.6.2.-Persuasión del voto en campañas electorales
5.-Proceso de un análisis predictivo.
5.1. Recopilar datos.
5.2. Ordenar y adaptar los datos.
5.3. Analizar los datos.
5.4. Elegir el modelo matemático.
5.5. Optimizar los parámetros
6. Conclusiones.
1.-Introducción
¿Nos imaginamos un mundo donde con una cierta antelación pudiéramos
saber o anticipar el comportamiento de alguien? Esto que podría ser la
base de las novelas de ciencia ficción del siglo XIX, hoy con sus matices,
es posible gracias a la predicción y a los modelos que la sustentan, y en
concreto los Modelos Predictivos.
Mientras que antes se dependía del conocimiento de los directivos de las
compañías, ahora podemos encontrar grandes cantidades de información
que nos ayuden a tomar decisiones de manera objetiva. Ya son muchas
las empresas que, cada vez más, incluyen expertos en Big Data como
estrategia para reducir gastos, lanzar nuevos productos o generar más
beneficios, entre otros. De hecho, el perfil de Data Scientist o científico
de datos es uno de los más buscados y mejor pagados del sector.
Para poder dominar los datos y convertirte en un experto, es importante
invertir en formación de calidad que ofrecerá los conocimientos necesarios
para cambia la forma de analizar de tu organización para transformarla
en una data driven company.
El análisis predictivo es un área de la minería de datos que consiste en la
extracción de información existente en los datos y su utilización para
predecir tendencias y patrones de comportamiento, pudiendo aplicarse
sobre cualquier evento desconocido, ya sea en el pasado, presente o
futuro.
También se puede definir como “conjunto de procesos ejercidos a través
de técnicas computacionales de análisis de datos que ayudan a inferir la
probabilidad de que ocurran determinadas situaciones previas a su
consecución”
El análisis predictivo se fundamenta en la identificación de relaciones
entre variables en eventos pasados, para luego explotar dichas relaciones
y predecir posibles resultados en futuras situaciones.
Los posibles resultados futuros ayudan a tomar decisiones y anticiparse a
los resultados, por lo que al utilizar los modelos predictivos como método
de prevención las operaciones de negocio se sitúan en un camino mucho
más seguro y con un porcentaje de riesgo mucho menor.
Es importante que antes de entrar de lleno en un breve análisis de lo que
supone el análisis predictivo, entendemos determinados conceptos claves
para saber de que hablamos:
1.1.-Datos
El dato es la base de todo elemento que va a alimentar este sistema. Los
datos son la fuente de la que se obtienen las variables, las relaciones
entre ellas, el conocimiento inducido o los patrones de comportamiento
identificados, convirtiéndose en un elemento vital de todo análisis
predictivo.
Si ya con el tratamiento manual de los datos se puede obtener
información, actualmente con la generalización de las Tecnologías de la
Información ha aparecido una nueva dimensión en la que contemplar a
las personas. Si antes podían ser vistas como ciudadanos, contribuyentes
o consumidores (entre otras visiones), las TI permiten contemplar a las
personas como proveedores de datos. No olvidemos el dicho que se
comenta al relacionar la cantidad de aplicaciones que de forma gratuita
se nos ofrece por el sistema. Oiremos decir que “cuando algo es gratis, el
beneficio es la información que reportas tú”.
Esta capacidad sin precedentes para generar datos crecerá de manera
exponencial en los próximos años debido a la generalización de la IoT –
Internet of Things o Internet de las cosas–, que permitirá que la pauta de
consumo de congelados, el patrón de uso de las luces exteriores, o los
horarios en los que trabaja la lavadora se incorporen al ya extraordinario
caudal de información susceptible de ser explotada, que constituye una
inestimable colección de experiencias sobre las cuales aprender.
1.2.- Información
La información se puede definir como un conjunto de datos procesados y
que tienen un significado (relevancia, propósito y contexto), y que por lo
tanto son de utilidad para quién debe tomar decisiones, al disminuir su
incertidumbre. Los datos se pueden transforman en información
añadiéndoles valor.
1.3.- Conocimiento
El conocimiento es una mezcla de experiencia, valores, información y
know-how que sirve como marco para la incorporación de nuevas
experiencias e información, y es útil para la acción. Se origina y aplica en
la mente de los conocedores.
1.4.- Minería de Datos o Data Mining
La minería de datos es un método asistido por ordenador que utiliza
conceptos obtenidos de las tecnologías de la información, estadísticas y
matemáticas para analizar datos. Los algoritmos de minería de datos
revelan relaciones lógicas en forma de patrones y tendencias. Son de gran
ayuda para identificar correlaciones, regularidades, problemas y puntos
débiles.
1.5.-Big Data
El Big Data es la gestión y análisis de enormes volúmenes de datos que
no pueden ser tratados de manera convencional, ya que superan los
límites y capacidades de las herramientas de software habitualmente
utilizadas para la captura, gestión y procesamiento de datos
El big data se fundamenta en la medición de las siguientes magnitudes:
1. Volumen. Cantidad de datos que son originados y almacenados con
el objetivo de procesarlos y transformarlos en acciones.
2. Velocidad. La rapidez en la que los datos son creados,
almacenados y procesados en tiempo real.
3. Variedad. Formas, tipos y fuentes en las que se registran los datos:
documentos de texto, correos electrónicos, audios, vídeos o
imágenes que residen en un dispositivo móvil, perfiles de redes
sociales, etc.
4. Veracidad. Es la calidad de los datos, es decir, el grado de fiabilidad
de la información recibida.
5. Viabilidad. Capacidad que tienen las compañías de generar un uso
eficaz del gran volumen de datos que manejan.
6. Visualización. Modo en el que los datos son mostrados para
encontrar claves ocultas y patrones en el tema a investigar.
7. Valor. Datos que se transforman en información, que a su vez se
convierte en conocimiento y a su vez en una acción o decisión.
1.6.-Aprendizaje computacional
El aprendizaje computacional proporciona las técnicas de análisis de datos
mediante las cuales se pueden descubrir relaciones entre variables que
en un principio pueden parecer insignificantes, pero que tras la aplicación
de estas técnicas pueden descubrir la trascendencia de las mismas.
Una vez se han establecido correlaciones entre variables entra en juego
la labor del ser humano, que consiste en saber interpretar las mismas y
hacer las suposiciones apropiadas.
1.7.-Suposiciones
Si bien establecer correlaciones entre variables puede proporcionar
información muy valiosa, hay que saber interpretar las mismas del modo
correcto para no llegar a conclusiones erróneas. La correlación no implica
causalidad. El descubrimiento de una relación entre A y B no implica que
una cause la otra, por eso se dice que se trabaja con suposiciones.
1.8.-Predicciones
Tras identificar las correlaciones entre variables mediante técnicas de
aprendizaje computacional y establecer las suposiciones correctas, se
identifican patrones de comportamiento que permiten crear un modelo
predictivo.
Este modelo predictivo se podrá utilizar para predecir qué probabilidades
hay de que una persona –en función de los datos que se disponga de la
misma– reaccione de una manera determinada. Una vez introducidos los
datos de la persona y se aplique el modelo predictivo se obtendrá una
calificación que indicará la probabilidad de que se produzca la situación
estudiada por el modelo.
2.-Modelos aplicables en el análisis predictivo
Un modelo predictivo es un mecanismo que predice el comportamiento
de un individuo. Utiliza las características del individuo como entrada y
proporciona una calificación predictiva como salida.
Las calificaciones hablan de tendencias y posibilidades en un grupo lo
suficientemente grande, pero no garantiza que la predicción se cumpla en
cada caso individual, pues una probabilidad individual por naturaleza
simplifica excesivamente la cosa del mundo real que describe.
El tipo de análisis que permiten los modelos predictivos valora la relación
existente entre cientos de elementos para aislar los datos que informan
sobre un hecho, guiando a la toma de decisiones por un camino seguro.
2.1.-Modelos predictivos
Los modelos predictivos son modelos de la relación entre el rendimiento
específico de una unidad en una muestra y uno o más atributos o
características conocidos de la unidad.
El análisis predictivo construye un modelo estadístico que utiliza los datos
existentes para predecir datos de los cuales no se dispone. Como ejemplo
del análisis predictivo se incluyen las líneas de tendencia o la puntuación
de la influencia.
2.2.-Modelos descriptivos
Los modelos descriptivos cuantifican las relaciones entre los datos de
manera que es utilizada a menudo para clasificar clientes o contactos en
grupos. A diferencia de los modelos predictivos que se centran en predecir
el comportamiento de un cliente en particular, los modelos descriptivos
identifican diferentes relaciones entre los clientes y los productos. La
analítica descriptiva proporciona resúmenes simples sobre la audiencia de
la muestra y sobre las observaciones que se han hecho.
Los modelos descriptivos pueden ser utilizados por ejemplo para asignar
categorías a los clientes según su preferencia en productos o su franja de
edad.
2.3.-Modelos de decisión
Los modelos de decisión describen la relación entre todos los elementos
de una decisión –los datos conocidos (incluyendo los resultados de los
modelos predictivos), la decisión y el pronóstico de los resultados de una
decisión– con la intención de predecir los resultados de una decisión en la
que se involucran gran cantidad de variables.
2.4.-Modelos ensemble
El modelado ensemble –o modelado de conjuntos– consiste en la
aplicación del modelado predictivo para combinar dos o más modelos y
luego sintetizar los resultados en una sola puntuación o propagación para
mejorar la precisión.
El aplicar un solo modelo basado en una muestra de datos puede tener
sesgos, una alta variabilidad o inexactitudes absolutas que afectan la
confianza de sus hallazgos analíticos. El uso de técnicas de modelado
específicas puede presentar inconvenientes similares. Al combinar
diferentes modelos o analizar múltiples muestras, se pueden reducir los
efectos de esas limitaciones.
3.-Seguridad y privacidad de los datos.
3.1. Aspectos éticos.
Los profesionales deben asegurarse de que los modelos que entrenan
sean justos y éticos y no tengan discriminación de ningún tipo. La
discriminación racial o por género suele venir de datos sesgados. Existe
la posibilidad real de entrenar modelos actuales con datos antiguos, en
los que puede haber un claro sesgo racial, y construir modelos que, a
pesar de que no sea intencionadamente, no respondan a criterios éticos
y de igualdad racial que, hoy en día, puede llegar a ser punible.
La nueva era digital en la que nos encontramos hace que se generen
millones de datos por minutos y en base a ello, el uso del Big Data está
creciendo a un ritmo imparable y desarrollando multitud de modelos
predictivos que se pueden emplear ya en múltiples áreas y especialidad.
En concreto, en el año 2011 las personas ya habíamos generado más de
1.800 exabytes de información, cifra que toma una mayor magnitud si
tenemos en cuenta que desde el inicio de la humanidad y hasta el 2003
solo se habían generado cinco exabytes.
En base a este increíble crecimiento, muchos sectores se están
preguntando hasta qué punto los principios y normas morales y éticas se
están empleando para la toma de datos y la aplicación de estos. La
tecnología no es el problema, sino cómo la construimos y para qué
finalidades.
Sin embargo, aún queda mucho camino por hacer y, pese a que no hay
duda de que los datos deben controlarse con fines moralmente éticos,
esta práctica todavía no está lo suficientemente extendida en todos los
modelos que se construyen.
El escándalo de hace meses en torno a Facebook y la filtración de datos
de Cambridge Analítica para posteriormente crear Fake News y así influir
en los resultados de las votaciones en las elecciones estadounidenses, es
un claro ejemplo de que se necesita disponer de más ética detrás de la
recopilación de datos de Big Data y legislar los límites.
A raíz del movimiento surgido tras la muerte de George Floyd, han salido
multitud de artículos y expertos en la materia que cuestionan los datos
sesgados que se utilizan en el Big Data y la Inteligencia Artificial. Uno de
estos ejemplos son las herramientas que se utilizan para evaluar el riesgo
de reincidencia de presos, que en muchos casos tienen en cuenta el sexo
o la raza de la persona. Dos campos que, pese a aportar información, no
deberían pesar sobre la decisión final.
Otro gran ejemplo, ha sido la polémica derivada de la recopilación de
datos en las aplicaciones móviles que quieren controla la expansión de la
pandemia del Covid-19. Pese a que los usuarios están informados y, en
muchos casos, se recoge únicamente la información que se necesita para
cumplir el objetivo de la App, países como Noruega han decidido
eliminarla por las cuestiones éticas que levantaba.
3.2. Aspectos jurídicos
Operaciones de Big Data sin las medidas apropiadas representan riesgos
bajo las normas sobre datos personales y penales, entre otros. En
concreto, un asunto crucial es la trazabilidad de la autorización de los
titulares de datos personales. Un reto adicional se presenta en relación
con las técnicas de extracción de datos. Técnicas como web scraping1
deben ser analizadas desde un punto de vista jurídico de seguridad de la
información, teniendo en cuenta la naturaleza de los datos accedidos y
las bases de datos donde se encuentran. Esta técnica ha creado gran
controversia por sus implicaciones sociales, políticas, económicas y de
seguridad.
Para hacer frente a estos retos, se requiere también el rol activo de los
gobiernos y los titulares de datos. Los gobiernos deben crear un marco
jurídico claro, coherente y sensible a las necesidades de los negocios, de
manera que estas tecnologías puedan ser implementadas con certeza
jurídica. Los titulares de datos pueden implementar medidas para
proteger su información, como limitar el número de datos que publican
en el entorno digital, implementar contraseñas seguras, leer los términos
y condiciones de las páginas web, y privilegiar el uso de redes de wifi
privadas.
En Colombia, en cuanto a protección de datos, el marco jurídico actual
parece ser insuficiente para hacer frente a las complejidades del Big Data.
Por otra parte, según la legislación vigente, que regula el derecho de
1
Web scraping o raspado web, es una técnica utilizada mediante programas de software para
extraer información de sitios web. Usualmente, estos programas simulan la navegación de un
humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando
un navegador en una aplicación. Wikipedia.
acceso a información pública, brinda algunas luces sobre cómo pueden
las empresas realizar operaciones de Big Data sobre información de
carácter público. No obstante, como lo reconoció el gobierno en el
documento CONPES 3920 de 2018, que contiene la política nacional de
explotación de datos (Big Data), el país debe emprender esfuerzos
adicionales para garantizar la generación de nuevos bienes, productos y
procesos basados en datos.
4.-Principales aplicaciones del Análisis Predictivo
Hoy en día, el análisis predictivo y las herramientas de análisis se emplean
sobre todo en marketing y ventas y ayudan a conocer cómo se
comportará el mercado. Veamos varios ejemplos:
1. Podemos minimizar los riesgos a la hora de realizar campañas
de marketing ya que gracias al análisis predictivo nos es posible
establecer el éxito o fracaso que va a tener dicha campaña y, por
lo tanto, si es rentable para nuestra empresa o no.
2. Nos ayudarán a conocer mercados potenciales, analizando la
viabilidad de empezar a operar en nuevos países.
3. Estudiar el mercado y analizar el potencial de venta que pueden
tener nuevos productos que queramos lanzar.
4. Mejorar las operaciones para administrar mejor el inventario y
otros recursos, o para establecer los precios de los servicios en
función de la estacionalidad.
5. Detectar fraudes. Los análisis pueden monitorear la actividad y
anotar o capturar actividades inusuales o fuera de lo normal de los
clientes, a menudo en tiempo real.
Las cinco áreas que más comúnmente se nutren de este tipo de Analítica
de Predicción, son:
1. Segmentación de clientes. La segmentación permite adecuar las
ofertas en función del nivel de ingresos, franja de edad, sexo o
estudios realizados, entre otras variables.
2. Personalización de la oferta. Conocer cuál es la siguiente mejor
oferta que se le puede hacer a un cliente a partir de su
comportamiento histórico. “El cliente ha comprado un nuevo traje,
puede estar interesado en comprar una corbata”.
3. Detectar el riesgo de que el cliente abandone la relación
comercial en función del ritmo de pedidos o contactos que realiza o
de las incidencias que registra.
4. Conocer cuáles son los clientes más propensos a responder a las
iniciativas de comunicación publicitaria, para sacar el mayor
provecho a la inversión hecha mercadológicamente.
5. Conocer la tasa de deserción; es decir, predecir en forma
anticipada y proactiva cuáles son los clientes que están buscando
otras ofertas para evitar que estos desvíen su atención hacia la
competencia. A través de esta aplicación separo los clientes
rentables de los que no lo son.
El análisis predictivo puede aplicarse a una multitud de sectores. A
continuación, vamos a analizar varios ejemplos:
4.1. Sector empresarial
El gigante del comercio electrónico de Jeff Bezos, Amazon, utiliza el
análisis predictivo en el momento de compra del usuario. En ese
momento, la web presenta una lista de otros artículos similares que otros
compradores adquirieron en el pasado.
Gran parte del análisis predictivo se encuentra en la pre-venta, donde se
monitorizan aspectos como la previsión de ventas, segmentación de
clientes, pero también en la fase de post-venta, analizando
las devoluciones y las reviews de los usuarios.
4.1.1.-Marketing directo
Consiste en un modelo capaz de predecir qué clientes responderán ante
un contacto de marketing. Esto permite a las empresas comunicarse con
aquellos clientes que tienen una mayor probabilidad de responder.
4.1.2.-Publicidad predictiva
Consiste en un modelo capaz de predecir qué anuncio es más probable
que cada cliente haga un clic. Esto permite a las empresas elegir el mejor
anuncio basándose en la probabilidad de que el cliente haga clic y en lo
que recibe por cada clic.
4.1.3. Retención de clientes
Consiste en un modelo capaz de predecir qué clientes tienen mayor
probabilidad de abandonar a la empresa. De este modo las empresas
pueden orientar sus esfuerzos en retener a dichos clientes.
4.1.4.-Recomendaciones de productos
Consiste en un modelo capaz de predecir qué puntuación le dará una
persona a un producto. Gracias a esta aplicación, las empresas como
Netflix o Spotify pueden realizar recomendaciones a clientes sobre
películas/canciones que tengan una alta probabilidad de gustarle.
4.2. Salud
Google Flu Trends (GFT) era un servicio web operado por Google que
proporcionaba estimaciones de la actividad de la gripe en más de 25
países gracias al monitoreo de millones de usuarios en línea. Sin embargo,
sus números demostraron ser demasiado exagerados, debido a una
información menos que ideal de los usuarios.
No obstante, hay otros casos, como lo es la propia pandemia provocada
por la Covid-19 en el que el monitoreo cedido por casos verídicos está
ayudando a predecir las posibilidades de que una persona contagiada
termine en cuidados intensivos según su diagnóstico, entre otros.
La mayoría de líderes políticos han brillado por su ausencia, pero sí que
hay que destacar los que han actuado como tal, por ejemplo: Angela
Merkel (Alemania), Tsai Ing-wen (Singapur), Jacinta Ardern (Nueva
Zelanda) o Sanna Marin (Finlandia). ¿Cuál ha sido la gran diferencia entre
unos y otros mandatarios? Muy simple y claro: la toma de decisiones
estratégicas de forma rápida a través de datos veraces y actualizados con
la ayuda de la tecnología. ¿Y cuál ha sido su gran arma? los smartphones.
Primero, el denominador común de la estrategia para combatir el COVID-
19 en estos países se llama datos. «Los datos son el nuevo petróleo del
S.XXI», proclaman algunos expertos; otros, lo rebaten, pero lo que sí
podemos afirmar es que los datos son una de las claves para combatir el
COVID-19.
El segundo denominador común es el uso de la tecnología mediante
aplicaciones móviles inteligentes. Desde la App creada en Singapur que
logró cortar la cadena de contagio conociendo los focos de infección
mediante el programa de rastreo de contactos que permite identificar y
aislar individuos gracias a la tecnología de Inteligencia Artificial que
incorpora hasta la App creada en Nueva Zelanda que ayuda a rastrear
casos de COVID-19 en tiempo real y, en palabras de su responsable
tecnológico, Bain Hollister, es «una herramienta crítica para combatir el
virus, rastrearlo y eliminarlo.
4.3. Deportes
El análisis de datos se ha convertido en una verdadera revelación en el
sector deportivo. Gracias al tratamiento de grandes volúmenes de
información que ofrecen los distintos eventos deportivos, los expertos son
capaces de mejorar la toma de decisiones en terrenos deportivos
basándose en los datos.
Por ejemplo, en el caso del futbol, el Big Data aporta una gran valía en
todos los clubes del mundo, que ya han empezado a usar esta tecnología
para mejorar sus estrategias de juego, fichajes de nuevos jugadores, etc.
Por ejemplo, durante un partido de futbol se pueden llegar a capturar
alrededor de ocho millones de datos. Sin embargo, el ojo humano solo es
capaz de retener el 30% de esa información. Gracias a esos datos, el Big
Data aporta una gran valía en todos los clubes del mundo, que ya han
empezado a usar esta tecnología para mejorar sus estrategias de juego,
fichajes de nuevos jugadores, etc.
Pero el futbol no es el único deporte que ha visto las grandes ventajas de
implementar estrategias de Big Data. De hecho, el primer deporte en
usarlo fue el béisbol en los años 70, cuando Bill James empezó a analizar
los registros históricos de los jugadores de béisbol de las grandes ligas
americanas. Su trabajo pionero hace que actualmente se le considere el
padre de la sabermetría, el análisis del béisbol a través de evidencia
objetiva, específicamente a través de estadísticas, con el fin de medir de
manera eficaz las actividades que suceden dentro del campo de juego. De
hecho, gracias a esta estrategia basada en datos, Billy Beane, manager
general de los Oakland Athletics, consiguió reflotar económica y
deportivamente a su equipo.
Desde entonces, son muchos los deportes que ya están empleando las
posibilidades del Big Data para mejorar los análisis predictivos que ayudan
en múltiples áreas, desde prevenir lesiones, cambiar las tácticas de juego,
mejorar el rendimiento o encontrar errores, como sucede en los deportes
de motor.
4.4. Clima
De hecho, gracias a la observación y registro de grandes cantidades de
datos, actualmente los científicos de todo el planeta tienen datos
históricos sobre los que entrenar modelos matemáticos predictivos para
determinar futuros aumento de temperatura y así mejorar las
predicciones sobre el clima, las cosechas y los desastres naturales, entre
otros. Por ello, casi todos los países del mundo desarrollado y algunos del
subdesarrollado, van aportando datos open data para mejorar las
predicciones sobre el clima, las cosechas y los desastres naturales, entre
otros.
Según las predicciones de la Agencia Internacional de la Energía,
International Energy Agency, el consumo mundial de energía en el 2050
será el doble del que había en el 2007 y el objetivo marcado para los
niveles de CO2 deberá ser la mitad de los registrados en el 1990. Solo
cumpliendo estos dos puntos se podrán contrarrestar los efectos del
cambio climático.
Por su parte, en el mundo de la agricultura también se han empezado a
tomar medidas y se han comenzado a priorizar las acciones basadas en
una agricultura inteligente. De hecho, en todas las áreas rurales del
mundo han empezado a aparecer proyectos para ayudar a los
campesinos, agricultores y ganaderos. Modelos predictivos de tiempo,
mejores momentos para conrear, cuándo regar, cuándo suministrar
antibióticos a los animales y a cuáles. Todo esto requiere de una gran
recopilación de información y de entreno de modelos matemáticos que
permitan mejorar las decisiones.
Una de las consecuencias más letales a corto plazo del cambio climático,
son los desastres naturales que cada año suman miles de muertes
humanas. Para la predicción de estos desastres naturales es necesaria la
mejora continua de los modelos predictivos basados en millones de datos.
Las tecnologías empleadas en las Smart Cities, Smart Grids o Smart
Agriculture sumadas a los elementos IoT de meteorología, imágenes
aéreas, etc. están siendo una fuente de datos de gran valor para los
modelos predictivos. Sin embargo, todavía no se dispone de suficiente
información, aunque la base de la que disponemos actualmente es un
buen punto de partida para empezar a trabajar en modelos de inteligencia
artificial que ayuden a las predicciones.
4.5.- Servicios financieros
4.5.1.-Detector de fraude
Consiste en un modelo capaz de predecir qué transacciones o solicitudes
de crédito o reembolso tienen mayor probabilidad de ser fraudulentas,
para que posteriormente sean analizadas con detenimiento.
4.5.2.-Compraventa de acciones
Consiste en un modelo capaz de predecir si una acción subirá o bajará.
De este modo, el usuario de la aplicación obtendrá información acerca de
la probabilidad de que determinadas acciones suban, y así comprarlas, o
bajen, y venderlas si es dueño de las mismas.
4.5.3.-Estimación del valor hipotecario
Consiste en un modelo capaz de predecir qué clientes van a hacer el pre-
pago de una hipoteca en un futuro cercano, de este modo pueden decidir
si vender la hipoteca a otro banco o no.
4.6. Servicios públicos
4.6.1.-Reducción de reincidencia
Consiste en un modelo capaz de predecir la probabilidad de que un
criminal al que se está enjuiciando pueda delinquir de nuevo. Los jueces
y los tribunales pueden consultar las predicciones del modelo para tomar
una decisión más correcta sobre el encarcelamiento de un individuo.
4.6.2.-Persuasión del voto en campañas electorales
Consiste en un modelo capaz de predecir qué votantes se pueden
persuadir positivamente durante la campaña mediante contacto (llamada,
anuncio de televisión, visita en la casa…). De este modo se pueden centrar
los esfuerzos durante la campaña para acceder a aquellos votantes que
pueden cambiar de voto.
5.-Proceso de un análisis predictivo
Se puede realizar mediante la aplicación de varias técnicas de análisis,
entre las que destacan:
1. Asociación de datos: con este sistema se establecen diferentes
variables a través de otras, que permiten definir patrones y
predicciones de comportamiento. Un ejemplo sería la venta
2. Data Mining: conocido también como minería de datos consiste en
obtener información de bases de datos, obteniendo así información
relativa a tendencias, correlaciones y factores “ocultos” que van a
permitir tomar decisiones y resolver problemas.
3. Clustering: conocido en castellano como agrupación forma parte
del Data Mining y se encarga de dividir grandes grupos de datos en
cantidades más pequeñas para encontrar similitudes entre
diferentes grupos. Sirve para encontrar relaciones entre resultados
y hacer evaluaciones.
4. Text Analytics: o análisis de texto en español consiste en analizar
los datos en formato texto creados por personas, tales como
correos, contenidos y búsquedas en servidores web, extrayendo
datos y prediciendo asuntos y palabras
A la hora de definir un modelo analítico es básico conocer adecuadamente
el problema en el que posteriormente obtendremos el patrón, es decir,
controlar las denominadas entradas y salidas esperadas. En este sentido,
necesitamos definir cuál es el objetivo y qué es lo que intentamos
predecir, cuáles son las características, el problema al que nos
enfrentamos, la mejora que queremos obtener al aplicar el análisis y, por
supuesto, de dónde obtendremos los datos.
5.1. Recopilar datos
El desarrollo de un modelo de análisis predictivo comienza con la
obtención de los datos en función de los que se va a realizar las
predicciones. Los datos podrán proceder de diferentes fuentes, tales como
archivos, BBDD, sensores, etc. y se exploran para conocer su naturaleza,
estructura, la calidad de los mismos …
Todo modelo predictivo se va a definir a partir de los datos que
aportemos. Por ello, los datos son la base del éxito o del fracaso de todo
el modelo analítico. Si los datos están sesgados o son erróneos, todo el
modelo repetirá ese mismo patrón. Por esta razón, es muy importante
contar con datos de calidad.
Además, dado que la recopilación de datos es esencial para el triunfo del
modelo, ya que influirá en su desarrollo, cuantos más datos obtengamos,
mejor será el rendimiento del modelo que definamos.
5.2. Ordenar y adaptar los datos
El siguiente paso consiste en realizar un procesado inicial de los mismos
para ordenarlos, transformarlos y adecuarlos a las necesidades del
modelo. En este punto se suelen eliminar los valores extremos que
distorsionan el funcionamiento del modelo y se crea una única estructura
con los datos procesados de las distintas fuentes.
En esta etapa es necesario aportar al modelo una serie de aspectos que
ayudarán a la obtención de los datos. Hablamos de aportar patrones
como:
• Qué hacer con los datos que se encuentran mal recogidos o que no
tienen todos los campos bien definidos.
• Diferenciar entre datos nominales y datos categóricos.
• Escalación y selección de características relevantes.
• División de los datos en conjuntos de entrenamiento, validación y
pruebas.
Para ello, hay diferentes métodos de trabajo que ayudan a pulir los datos
hasta obtener un resultado que el modelo puede procesar.
5.3. Analizar los datos
Una vez creada la estructura de datos se analizan los mismos para
identificar sus características, detectar los patrones y tendencias en sus
valores y obtener información relevante para el desarrollo del algoritmo
predictivo, que es la base del modelo.
Obviamente, es indispensable establecer un medidor o un indicador del
éxito del modelo. Para poder controlar algo es imprescindible poder
medirlo, de lo contrario no será posible mejorarlo. En este sentido, hay
que indicar cuáles son las pautas a medir: precisión, exactitud, rapidez,
magnitud, etc.
Asimismo, hay que definir un patrón para observar los datos. Lo
definiremos en base a los objetivos que hayamos fijado. Como ejemplo,
podemos hablar de diferentes patrones que nos permitirán solucionar
unos problemas u otros.
5.4. Elegir el modelo matemático
Para el desarrollo del algoritmo se utilizará la información obtenida del
análisis de los datos y, en función de ella, se decidirán las técnicas
matemáticas que permitirán procesar los datos de entrada al modelo y
realizar las predicciones (salidas).
Una vez tengamos los datos preparados, ya podremos empezar a
desarrollar un modelo de base. Este modelo, que no es el definitivo, sirve
como referencia para medir el rendimiento del algoritmo y así poder
controlar si va mejorando y poder ajustarlo en consecuencia. Para ello,
necesitamos que los experimentos sean comparables, medibles y
reproducibles.
Hay algoritmos que se explican mejor que otros, especialmente aquellos
que incluyen redes neurales. De hecho, los científicos de datos suelen
evitar trabajar con este tipo de modelos para favorecer la explicabilidad
a negocio. Por suerte, la tecnología avanza a pasos agigantados y cada
vez es más fácil de explicar modelos que los Data Scientist llaman "cajas
negras". De este modo, no solo es más fácil entender por qué funciona
bien o mal un modelo, sino que facilita la mejora de los propios modelos.
Del mismo modo que las páginas webs pueden sufrir ciberataques, los
algoritmos y modelos se pueden atacar, especialmente usando retoques
en el proceso de entrenamiento. Otro modo suele ser contaminando los
datos de entrenamiento de modo que el modelo resultante no funciona a
pesar de haber pasado todos los trainings necesarios.
Afortunadamente, cada ataque tiene su propia solución. Estas soluciones
se pueden encontrar en librerías OpenSource con las colecciones de
ataques y defensas de ataques.
5.5. Optimizar los parámetros
Finalmente, se optimizarán los parámetros del algoritmo mediante un
conjunto de datos de entrenamiento (datos reales de las variables de
entrada y de salida del modelo) y se verificará su exactitud con un
conjunto de datos de prueba (datos reales de las variables de entrada y
predicciones del modelo que se comparan con los datos reales con los que
deberían coincidir las predicciones).
Una vez identificado el modelo y definidos los pasos es el momento de
empezar a ejecutar el modelo analítico que hemos creado y obtener
resultados. Sin embargo, todavía queda un largo camino por recorrer. La
construcción de un modelo analítico es un proceso constante. En cuanto
el modelo empiece a funcionar, habrá que entrenar a la máquina para
poder visualizar una mejora en su funcionamiento.
Además, el modelo debe ser sometido a evaluaciones regulares para
comprobar la utilidad del mismo. Algunos modelos ofrecen resultados
muy positivos en un inicio, pero a medida que avanzan en el tiempo su
precisión deja de aumentar. En estos casos, en los no hayas obtenido una
buena predicción en la evaluación y no hayas obtenido el mínimo
porcentaje de exactitud requerido, deberás entrenar a tu modelo de
Machine Learning nuevamente, pero, con una configuración de
parámetros previa2
6. Conclusiones
Aplicar las herramientas de análisis en cualquier área nos ayudará a
minimizar los riesgos de una operación determinada y optimizar los
procesos que se están llevando a cabo, ya sea salvar una vida o aumentar
las ventas. A su vez, como hemos visto, el análisis predictivo es una clave
que las empresas pueden aprovechar ya para aumentar el potencial de
su negocio, generar más ventas y evitar fracasos y riesgos que hoy en día
serían innecesarios.
Efectivamente, estas nuevas tecnologías innovadoras nos aportarán
crecimiento vía productividad, sí, pero ¿es esto suficiente? ¿nos tenemos
que conformar con ello? Rotundamente no, este nuevo paradigma va más
allá de la productividad ofreciéndonos más valor vía flexibilidad, agilidad
y personalización, conceptos muy alineados con el entorno cada vez más
cambiante que nos ha tocado vivir, y que conllevará cambios drásticos en
nuestros métodos de trabajo, desarrollo de productos, organización
empresarial, modelos de negocio, etc. Y si no las sabemos explotar en su
máxima amplitud estaremos perdiendo grandes oportunidades que
seguramente estarán siendo aprovechadas ya por nuestros competidores.
Por lo tanto, hay que abrir la mente y entender cómo estas tecnologías,
más allá de la eficiencia, nos ayudaran, vía los datos que procesan,
rápidamente y de forma continua a:
• entender mejor los patrones de la demanda,
• a conocer mejor las necesidades de los clientes e incluso sus
expectativas,
2
Para ampliar información sobre técnicas y modelado se puede consultar Espino Timón,
C. (2017). Análisis predictivo: técnicas y modelos utilizados y aplicaciones del mismo-
herramientas Open Source que permiten su uso. Trabajo fin de grado. UOC. Disponible
en http://openaccess.uoc.edu/webapps/o2/handle/10609/59565
• personalizar nuestros productos y servicios,
• mejorar los procesos y
• crear nuevos modelos de negocio de plataforma, etc.
Es un nuevo reto del que no nos podemos desentender, ya que podremos
desarrollar productos y procesos totalmente customizados a las
necesidades de los clientes, los cuales conoceremos de ante mano por la
explotación y análisis masiva de cantidades ingentes de datos que
captaremos de fuentes internas y externas a la empresa: ERP, CRM,
sensores, redes sociales, GPS, mensajería instantánea, smartphones, etc.
¿no es lo que quiere el cliente hoy en día? Productos y procesos
personalizados ¿no es lo que quiere la empresa? Satisfacer las
necesidades, y mejor aún las expectativas del cliente para fidelizarlo.
extracción de información existente en los datos y su utilización para predecir
tendencias y patrones de comportamiento, pudiendo aplicarse sobre cualquier
evento desconocido, ya sea en el pasado, presente o futuro. El análisis predictivo
se fundamenta en la identificación de relaciones entre variables en eventos
pasados, para luego explotar dichas relaciones y predecir posibles resultados
en futuras situaciones.