i
Estudiante: Manuel Eduardo Hidalgo García
Práctica Ofimática
Colocar : La página 1 a 3 en romanos a partir de la 4 en arábigos la página 9
horizontal
ii
Text Mining o minería de textos: definición, técnicas, casos de uso
El Text Mining consiste en utilizar el Machine Learning para el análisis de texto.
Descubre todo lo que tienes que saber: definición, funcionamiento, técnicas,
ventajas, casos de uso, etc.
Las empresas modernas disponen de muchos datos sobre sus clientes o su
sector de actividad. Las nuevas tecnologías de lo digital como las redes
sociales, el comercio electrónico o las aplicaciones móviles dan acceso a un
gran volumen de información.
Al analizar esos datos, es posible descubrir oportunidades no explotadas o
problemas alarmantes que hay que resolver urgentemente. Sin embargo,
algunos tipos de datos son más difíciles de explotar que otros.
Los datos procedentes de las redes sociales u otros sitios web son
principalmente textos: comentarios sobre las publicaciones, reseñas sobre un
producto, quejas en foros comunitarios, etc.
No obstante, los textos forman parte de los datos llamados “no estructurados”.
Esa información no puede ser tratada correctamente por softwares o
herramientas de análisis de datos tradicionales. Por tanto, es necesario recurrir
al “Text Mining”.
iii
El Text Mining, o análisis de textos, consiste en transformar un texto no
estructurado en datos estructurados para proceder posteriormente al análisis.
Esa práctica se basa en la tecnología de “Natural Language Processing”
(procesamiento natural del lenguaje), que permite que las máquinas
comprendan y traten el lenguaje humano de manera automática.
La inteligencia artificial ahora es capaz de clasificar automáticamente los textos
por sentimiento, tema o intención. Por ejemplo, un algoritmo de Text Mining es
capaz de pasar revista a los comentarios sobre un producto para determinar si
son principalmente positivos, neutros o negativos. También es posible localizar
las palabras clave utilizadas con más frecuencia.
De este modo, las empresas pueden analizar series de datos grandes y
complejas con facilidad, rapidez y eficacia. Esta disciplina también permite
reducir el tiempo perdido en tareas manuales y repetitivas.
Los equipos ahorran tiempo, y pueden centrarse en misiones más importantes
que exigen una intervención humana. Los directivos de la empresa, por su
parte, pueden apoyarse en los datos para tomar mejores decisiones.
1
¿Cómo funciona el Text Mining?
El Text Mining se basa en el Machine Learning: una subcategoría de
inteligencia artificial que engloba numerosas técnicas y varias herramientas que
permiten que los ordenadores aprendan a efectuar tareas de manera
autónoma.
Los modelos de Machine Learning se entrenan a partir de datos para que sean
capaces de efectuar predicciones con exactitud. El Text Mining consiste en
automatizar el análisis de texto gracias al Machine Learning. Para conseguirlo,
se entrenan los algoritmos con ayuda de textos a modo de datos de ejemplo.
La primera etapa consiste en recopilar datos. Pueden proceder de fuentes
internas, como las interacciones a través de chats, correos electrónicos,
sondeos o bases de datos de la empresa. También pueden proceder de
fuentes externas como redes sociales, sitios de opinión o artículos de
actualidad.
Después se tienen que preparar los datos con la ayuda de diferentes técnicas
de Tratamiento Natural del Lenguaje. Ese pretatamiento de datos tiene el
objetivo de limpiar y transformar datos para conseguir un formato utilizable.
Se trata de un aspecto esencial del Tratamiento Natural del Lenguaje, que
implica el uso de diferentes técnicas como la identificación del lenguaje, la
2
tokenización, el etiquetado de partes del discurso, el chunking o incluso el
análisis sintáctico. El objetivo de esos métodos diferentes es formatear los
datos para el análisis.
Después de haber completado ese “preprocesamiento” de texto, finalmente
llega el momento del análisis de datos. Entonces se utilizan diferentes
algoritmos de Text Mining para despejar la información a partir de los datos.
Fórmate en Data Science
Los métodos y técnicas de Text Mining
Existe una amplia variedad de técnicas y métodos de Text Mining. Aquí tienes
los más utilizados.
Las técnicas de análisis
La técnica de la “frecuencia de palabras” consiste en identificar los términos o
conceptos más recurrentes en un conjunto de datos. Esto puede resultar muy
útil, en particular para analizar las opiniones de clientes o las conversaciones
en las redes sociales.
Por ejemplo, si términos como “demasiado caro” o “sobrevalorado” aparecen
con frecuencia, el análisis puede sugerir que el producto es demasiado caro.
Por tanto, es necesario ajustar el precio en la medida de lo posible.
3
El método de colocación, por su parte, consiste en localizar las secuencias de
palabras que aparecen con frecuencia las unas cerca de las otras. Algunas
palabras aparecen muy a menudo juntas. Se puede tratar de bigramas o
trigramas, combinaciones de dos o tres palabras. Al identificar esas
colocaciones, es posible comprender mejor la estructura semántica de un texto
y obtener resultados de Text Mining más fiables.
El método de la concordancia se suele utilizar para reconocer el contexto en el
que aparece un conjunto de palabras en un texto.
Esta técnica permite evitar la ambigüedad y comprender el sentido de un
término en el contexto específico.
La recuperación de información
La recuperación de información consiste en encontrar información pertinente a
partir de un conjunto predefinido de consultas o frases. A menudo se emplea
este enfoque en los sistemas de catálogos de bibliotecas o los motores de
búsqueda web.
Los sistemas “IR” (information retrieval) utilizan diferentes algoritmos para
seguir los comportamientos de los usuarios e identificar los datos pertinentes.
4
La “tokenización” consiste en descomponer un texto largo en frases o palabras
llamadas “tokens”. Esos tokens se usan después en los modelos para el
clustering de texto o las tareas que buscan asociar documentos.
El “stemming” consiste en separar los prefijos y los sufijos de las palabras para
derivar su raíz y su significado. Esta técnica permite reducir el tamaño de los
archivos de indexación.
Más información sobre nuestros cursos de Data Science
La clasificación de textos
También existen métodos más avanzados de Text Mining. La clasificación de
textos consiste en asignar etiquetas a los datos de texto no estructurados. Es
una fase esencial e indispensable para el tratamiento natural del lenguaje
(Natural Language Processing).
Efectivamente, permite organizar y estructurar un texto complejo para despejar
los datos pertinentes. Gracias a esta técnica, las empresas están capacitadas
para analizar todo tipo de información textual para sacar valiosas orientaciones.
Existen diferentes formas de clasificación de texto. El análisis de temas (Topic
Analysis) permite comprender los temas principales de un texto. Es una de las
razones principales para organizar los datos textuales.
5
El análisis de sentimientos consiste en analizar las emociones contenidas en
un texto. Esto permite delimitar mejor las opiniones de la clientela, por ejemplo,
revisando los comentarios sobre un producto. Los textos pueden clasificarse
según si son positivos, negativos o neutros.
La detección del lenguaje consiste en clasificar un texto en función del
lenguaje. Por ejemplo, será posible clasificar las consultas a un servicio de
atención al cliente para redirigirlas hacia un asesor o un agente que domine el
lenguaje adecuado. Esto permite ganar un tiempo muy valioso.
Por último, la detección de intenciones permite reconocer de manera
automática las intenciones de un texto. Por ejemplo, el análisis de diferentes
respuestas a un correo electrónico publicitario permite determinar qué
interlocutores están interesados en un producto.
6
La extracción de información
Otra técnica del Text Mining es la extracción de texto. Tiene el objetivo de extraer datos específicos en un texto, como palabras
clave, nombres propios, direcciones o correos electrónicos. Esto permite evitar tener que clasificar los datos manualmente y, por
tanto, se gana tiempo.
Se pueden seleccionar las características que más contribuyen a los resultados de un modelo de análisis predictivo, extraer las
características para mejorar la precisión de una tarea de clasificación, o incluso detectar y categorizar entidades específicas en un
texto.
Evidentemente, es posible combinar la extracción de textos y la clasificación textual u otros métodos de Text Mining en el mismo
análisis.
Text Mining vs. Text Analytics: ¿cuál es la diferencia?
A menudo se confunden Text Mining y Text Analytics. En realidad, se trata de dos conceptos ligeramente diferentes.
Ambos pretenden permitir analizar de manera automática textos, pero se basan en técnicas diferentes. El Text Mining identifica la
información pertinente en un texto, mientras que el Text Analytics pretende descubrir tendencias a través de amplias series de
datos.
Uno proporciona análisis cualitativos, el otro análisis cuantitativos. Por lo general, el Text Analytics se utiliza para crear tablas,
diagramas y gráficas u otros informes visuales.
7
El Text Mining combina las estadísticas, la lingüística y el Machine Learning
para predecir de manera automática resultados a partir de experiencias
pasadas. Por su parte, el Text Analytics consiste en producir visualizaciones de
datos a partir de los resultados de los análisis de Text Mining. Evidentemente,
se pueden combinar ambos enfoques.
Las ventajas del Text Mining
El Text Mining presenta muchas ventajas, en el momento en que las empresas
y los individuos generan a diario inmensos volúmenes de datos. Efectivamente,
cerca del 80 % de los datos de texto no están estructurados. Por tanto, es
imposible analizarlos sin recurrir al Text Mining.
A modo de ejemplo se pueden citar correos electrónicos, publicaciones en las
redes sociales, discusiones en mensajería instantánea, consultas a los
servicios de atención al cliente, sondeos… Es muy difícil clasificar
manualmente esa información.
El análisis de texto permite analizar amplios volúmenes de datos en tan solo
unos segundos, y, por tanto, ganar en productividad. Esos análisis pueden
efectuarse en tiempo real, lo cual permite intervenir de manera inmediata en
caso de detección de problemas.
Casos de uso y aplicaciones
8
Las empresas pueden usar el Text Mining de muchas maneras. Las
aplicaciones de esa tecnología son ilimitadas, y se extienden a todos los
sectores.
Permite automatizar el análisis de textos, tanto para el marketing como para el
desarrollo de productos, las ventas o el servicio de atención al cliente. De este
modo, los equipos pueden ganar en eficacia y en productividad, y centrarse en
tareas más importantes.
Servicio de atención al cliente
En el ámbito del servicio de atención al cliente, por ejemplo, se pueden
clasificar automáticamente las consultas. El Text Mining identifica de manera
automática los temas, la intención, la complejidad y el lenguaje de las consultas
para organizarlas. Los agentes también pueden centrarse en la ayuda aportada
a los clientes.
Si una consulta es más importante, más urgente que otra, podrá priorizarse de
manera automática y tratarse antes que las demás. Además, el análisis de
textos también permite medir la eficacia del servicio de atención al cliente y la
satisfacción de los usuarios.
9
El Text Mining también es muy útil para analizar los comentarios y las
opiniones de los clientes sobre la marca y sus productos. Esto permite
comprender sus opiniones, pero también sus expectativas y la calidad de su
experiencia con tu empresa.
Se pueden filtrar las opiniones sobre los productos, los comentarios en las
redes sociales o las respuestas a los sondeos. De esta manera, es posible
apoyarse en datos para adoptar las decisiones correctas y mejorar los puntos
débiles.
La gestión del riesgo
El Text Mining se utiliza en el ámbito de la gestión del riesgo. Se puede
emplear para despejar información sobre las tendencias del sector o los
mercados financieros vigilando los cambios de sentimientos o extrayendo
información a partir de los informes de análisis o libros blancos.
Esto puede resultar muy útil para dentro de las instituciones bancarias. De
hecho, los datos permiten abordar las inversiones en diferentes sectores con
más confianza. Muchos bancos adoptan en la actualidad ese enfoque.
El mantenimiento
10
El Text Mining ofrece una visión de conjunto completa de la actividad y del
funcionamiento de los equipos y máquinas industriales. Permite automatizar las
tomas de decisiones en materia de funcionamiento.
Por ejemplo, se puede arrojar luz sobre los motivos y las tendencias que
sugieren la aparición de un problema. De este modo, se pueden poner en
marcha medidas de mantenimiento predictivo para intervenir antes de que sea
demasiado tarde. De este modo, las operaciones de mantenimiento pueden
efectuarse de manera proactiva.
Salud
En el ámbito de la salud, los investigadores cada vez usan más las técnicas de
Text Mining. El clustering de información permite, por ejemplo, extraer
información a partir de libros de medicina de manera automatizada.
Esto permite ganar tiempo y conseguir ahorrar. De este modo, ese enfoque
resulta de gran ayuda para el mundo de la medicina y de la salud.
Ciberseguridad
El análisis textual también puede resultar particularmente útil para la
ciberseguridad. Por ejemplo, se puede detectar y filtrar spam automáticamente
en los buzones de correo electrónico.
11
De este modo, los hackers ya no pueden usar el método del spam para piratear
sistemas informáticos. Los riesgos de ciberataques se reducen drásticamente y
la experiencia del usuario también mejora.
¿Cómo formarse en Text Mining?
Los datos textuales cada vez son más numerosos y el análisis de texto resulta
esencial para las empresas basadas en datos de todos los sectores. Para
aprender a dominar el Text Mining y sus sutilezas, puedes recurrir a los cursos
de DataScientest.
Esta disciplina está en nuestros recorridos de Data Analyst y Data Scientist.
Esos dos cursos especializados te formarán respectivamente para los perfiles
profesionales de analista y científico de datos, en los que el Text Mining ocupa
un lugar clave.
Todos nuestros cursos se distinguen por un enfoque “Blended Learning”
innovador, que une el presencial y la formación a distancia. Disfrutarás de la
flexibilidad de una formación en línea, a la vez que mantienes la motivación
gracias a las master classes presenciales.
12
Estos cursos se pueden realizar en pocas semanas solo con el formato
BootCamp intensivo, o en pocos meses en formación continua que se puede
conciliar con una actividad personal o profesional.
Al completar estos programas, los alumnos reciben un diploma certificado por
la Universidad de La Sorbonne. Un 90 % de los alumnos encuentra trabajo al
finalizar sus estudios. No esperes más y descubre nuestros cursos.
13
FÒRMULAS
d
v=
t
√ 16=4
4
2 =16