0% encontró este documento útil (0 votos)
44 vistas16 páginas

Introducción al Text Mining y técnicas clave

El documento describe las técnicas de Text Mining o minería de textos, incluyendo el análisis de frecuencia de palabras, colocaciones, concordancias, clasificación de textos por tema, sentimiento e intención, y extracción de información. El objetivo del Text Mining es transformar textos no estructurados en datos estructurados mediante técnicas de procesamiento de lenguaje natural y machine learning para permitir un análisis automatizado.

Cargado por

Marina Fajardo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
44 vistas16 páginas

Introducción al Text Mining y técnicas clave

El documento describe las técnicas de Text Mining o minería de textos, incluyendo el análisis de frecuencia de palabras, colocaciones, concordancias, clasificación de textos por tema, sentimiento e intención, y extracción de información. El objetivo del Text Mining es transformar textos no estructurados en datos estructurados mediante técnicas de procesamiento de lenguaje natural y machine learning para permitir un análisis automatizado.

Cargado por

Marina Fajardo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

i

Estudiante: Manuel Eduardo Hidalgo García

Práctica Ofimática

Colocar : La página 1 a 3 en romanos a partir de la 4 en arábigos la página 9


horizontal
ii

Text Mining o minería de textos: definición, técnicas, casos de uso

El Text Mining consiste en utilizar el Machine Learning para el análisis de texto.

Descubre todo lo que tienes que saber: definición, funcionamiento, técnicas,

ventajas, casos de uso, etc.

Las empresas modernas disponen de muchos datos sobre sus clientes o su

sector de actividad. Las nuevas tecnologías de lo digital como las redes

sociales, el comercio electrónico o las aplicaciones móviles dan acceso a un

gran volumen de información.

Al analizar esos datos, es posible descubrir oportunidades no explotadas o

problemas alarmantes que hay que resolver urgentemente. Sin embargo,

algunos tipos de datos son más difíciles de explotar que otros.

Los datos procedentes de las redes sociales u otros sitios web son

principalmente textos: comentarios sobre las publicaciones, reseñas sobre un

producto, quejas en foros comunitarios, etc.

No obstante, los textos forman parte de los datos llamados “no estructurados”.

Esa información no puede ser tratada correctamente por softwares o

herramientas de análisis de datos tradicionales. Por tanto, es necesario recurrir

al “Text Mining”.
iii

El Text Mining, o análisis de textos, consiste en transformar un texto no

estructurado en datos estructurados para proceder posteriormente al análisis.

Esa práctica se basa en la tecnología de “Natural Language Processing”

(procesamiento natural del lenguaje), que permite que las máquinas

comprendan y traten el lenguaje humano de manera automática.

La inteligencia artificial ahora es capaz de clasificar automáticamente los textos

por sentimiento, tema o intención. Por ejemplo, un algoritmo de Text Mining es

capaz de pasar revista a los comentarios sobre un producto para determinar si

son principalmente positivos, neutros o negativos. También es posible localizar

las palabras clave utilizadas con más frecuencia.

De este modo, las empresas pueden analizar series de datos grandes y

complejas con facilidad, rapidez y eficacia. Esta disciplina también permite

reducir el tiempo perdido en tareas manuales y repetitivas.

Los equipos ahorran tiempo, y pueden centrarse en misiones más importantes

que exigen una intervención humana. Los directivos de la empresa, por su

parte, pueden apoyarse en los datos para tomar mejores decisiones.


1

¿Cómo funciona el Text Mining?

El Text Mining se basa en el Machine Learning: una subcategoría de

inteligencia artificial que engloba numerosas técnicas y varias herramientas que

permiten que los ordenadores aprendan a efectuar tareas de manera

autónoma.

Los modelos de Machine Learning se entrenan a partir de datos para que sean

capaces de efectuar predicciones con exactitud. El Text Mining consiste en

automatizar el análisis de texto gracias al Machine Learning. Para conseguirlo,

se entrenan los algoritmos con ayuda de textos a modo de datos de ejemplo.

La primera etapa consiste en recopilar datos. Pueden proceder de fuentes

internas, como las interacciones a través de chats, correos electrónicos,

sondeos o bases de datos de la empresa. También pueden proceder de

fuentes externas como redes sociales, sitios de opinión o artículos de

actualidad.

Después se tienen que preparar los datos con la ayuda de diferentes técnicas

de Tratamiento Natural del Lenguaje. Ese pretatamiento de datos tiene el

objetivo de limpiar y transformar datos para conseguir un formato utilizable.

Se trata de un aspecto esencial del Tratamiento Natural del Lenguaje, que

implica el uso de diferentes técnicas como la identificación del lenguaje, la


2

tokenización, el etiquetado de partes del discurso, el chunking o incluso el

análisis sintáctico. El objetivo de esos métodos diferentes es formatear los

datos para el análisis.

Después de haber completado ese “preprocesamiento” de texto, finalmente

llega el momento del análisis de datos. Entonces se utilizan diferentes

algoritmos de Text Mining para despejar la información a partir de los datos.

Fórmate en Data Science

Los métodos y técnicas de Text Mining

Existe una amplia variedad de técnicas y métodos de Text Mining. Aquí tienes

los más utilizados.

Las técnicas de análisis

La técnica de la “frecuencia de palabras” consiste en identificar los términos o

conceptos más recurrentes en un conjunto de datos. Esto puede resultar muy

útil, en particular para analizar las opiniones de clientes o las conversaciones

en las redes sociales.

Por ejemplo, si términos como “demasiado caro” o “sobrevalorado” aparecen

con frecuencia, el análisis puede sugerir que el producto es demasiado caro.

Por tanto, es necesario ajustar el precio en la medida de lo posible.


3

El método de colocación, por su parte, consiste en localizar las secuencias de

palabras que aparecen con frecuencia las unas cerca de las otras. Algunas

palabras aparecen muy a menudo juntas. Se puede tratar de bigramas o

trigramas, combinaciones de dos o tres palabras. Al identificar esas

colocaciones, es posible comprender mejor la estructura semántica de un texto

y obtener resultados de Text Mining más fiables.

El método de la concordancia se suele utilizar para reconocer el contexto en el

que aparece un conjunto de palabras en un texto.

Esta técnica permite evitar la ambigüedad y comprender el sentido de un

término en el contexto específico.

La recuperación de información

La recuperación de información consiste en encontrar información pertinente a

partir de un conjunto predefinido de consultas o frases. A menudo se emplea

este enfoque en los sistemas de catálogos de bibliotecas o los motores de

búsqueda web.

Los sistemas “IR” (information retrieval) utilizan diferentes algoritmos para

seguir los comportamientos de los usuarios e identificar los datos pertinentes.


4

La “tokenización” consiste en descomponer un texto largo en frases o palabras

llamadas “tokens”. Esos tokens se usan después en los modelos para el

clustering de texto o las tareas que buscan asociar documentos.

El “stemming” consiste en separar los prefijos y los sufijos de las palabras para

derivar su raíz y su significado. Esta técnica permite reducir el tamaño de los

archivos de indexación.

Más información sobre nuestros cursos de Data Science

La clasificación de textos

También existen métodos más avanzados de Text Mining. La clasificación de

textos consiste en asignar etiquetas a los datos de texto no estructurados. Es

una fase esencial e indispensable para el tratamiento natural del lenguaje

(Natural Language Processing).

Efectivamente, permite organizar y estructurar un texto complejo para despejar

los datos pertinentes. Gracias a esta técnica, las empresas están capacitadas

para analizar todo tipo de información textual para sacar valiosas orientaciones.

Existen diferentes formas de clasificación de texto. El análisis de temas (Topic

Analysis) permite comprender los temas principales de un texto. Es una de las

razones principales para organizar los datos textuales.


5

El análisis de sentimientos consiste en analizar las emociones contenidas en

un texto. Esto permite delimitar mejor las opiniones de la clientela, por ejemplo,

revisando los comentarios sobre un producto. Los textos pueden clasificarse

según si son positivos, negativos o neutros.

La detección del lenguaje consiste en clasificar un texto en función del

lenguaje. Por ejemplo, será posible clasificar las consultas a un servicio de

atención al cliente para redirigirlas hacia un asesor o un agente que domine el

lenguaje adecuado. Esto permite ganar un tiempo muy valioso.

Por último, la detección de intenciones permite reconocer de manera

automática las intenciones de un texto. Por ejemplo, el análisis de diferentes

respuestas a un correo electrónico publicitario permite determinar qué

interlocutores están interesados en un producto.


6

La extracción de información
Otra técnica del Text Mining es la extracción de texto. Tiene el objetivo de extraer datos específicos en un texto, como palabras
clave, nombres propios, direcciones o correos electrónicos. Esto permite evitar tener que clasificar los datos manualmente y, por
tanto, se gana tiempo.

Se pueden seleccionar las características que más contribuyen a los resultados de un modelo de análisis predictivo, extraer las
características para mejorar la precisión de una tarea de clasificación, o incluso detectar y categorizar entidades específicas en un
texto.
Evidentemente, es posible combinar la extracción de textos y la clasificación textual u otros métodos de Text Mining en el mismo
análisis.
Text Mining vs. Text Analytics: ¿cuál es la diferencia?
A menudo se confunden Text Mining y Text Analytics. En realidad, se trata de dos conceptos ligeramente diferentes.
Ambos pretenden permitir analizar de manera automática textos, pero se basan en técnicas diferentes. El Text Mining identifica la
información pertinente en un texto, mientras que el Text Analytics pretende descubrir tendencias a través de amplias series de
datos.
Uno proporciona análisis cualitativos, el otro análisis cuantitativos. Por lo general, el Text Analytics se utiliza para crear tablas,
diagramas y gráficas u otros informes visuales.
7

El Text Mining combina las estadísticas, la lingüística y el Machine Learning

para predecir de manera automática resultados a partir de experiencias

pasadas. Por su parte, el Text Analytics consiste en producir visualizaciones de

datos a partir de los resultados de los análisis de Text Mining. Evidentemente,

se pueden combinar ambos enfoques.

Las ventajas del Text Mining

El Text Mining presenta muchas ventajas, en el momento en que las empresas

y los individuos generan a diario inmensos volúmenes de datos. Efectivamente,

cerca del 80 % de los datos de texto no están estructurados. Por tanto, es

imposible analizarlos sin recurrir al Text Mining.

A modo de ejemplo se pueden citar correos electrónicos, publicaciones en las

redes sociales, discusiones en mensajería instantánea, consultas a los

servicios de atención al cliente, sondeos… Es muy difícil clasificar

manualmente esa información.

El análisis de texto permite analizar amplios volúmenes de datos en tan solo

unos segundos, y, por tanto, ganar en productividad. Esos análisis pueden

efectuarse en tiempo real, lo cual permite intervenir de manera inmediata en

caso de detección de problemas.

Casos de uso y aplicaciones


8

Las empresas pueden usar el Text Mining de muchas maneras. Las

aplicaciones de esa tecnología son ilimitadas, y se extienden a todos los

sectores.

Permite automatizar el análisis de textos, tanto para el marketing como para el

desarrollo de productos, las ventas o el servicio de atención al cliente. De este

modo, los equipos pueden ganar en eficacia y en productividad, y centrarse en

tareas más importantes.

Servicio de atención al cliente

En el ámbito del servicio de atención al cliente, por ejemplo, se pueden

clasificar automáticamente las consultas. El Text Mining identifica de manera

automática los temas, la intención, la complejidad y el lenguaje de las consultas

para organizarlas. Los agentes también pueden centrarse en la ayuda aportada

a los clientes.

Si una consulta es más importante, más urgente que otra, podrá priorizarse de

manera automática y tratarse antes que las demás. Además, el análisis de

textos también permite medir la eficacia del servicio de atención al cliente y la

satisfacción de los usuarios.


9

El Text Mining también es muy útil para analizar los comentarios y las

opiniones de los clientes sobre la marca y sus productos. Esto permite

comprender sus opiniones, pero también sus expectativas y la calidad de su

experiencia con tu empresa.

Se pueden filtrar las opiniones sobre los productos, los comentarios en las

redes sociales o las respuestas a los sondeos. De esta manera, es posible

apoyarse en datos para adoptar las decisiones correctas y mejorar los puntos

débiles.

La gestión del riesgo

El Text Mining se utiliza en el ámbito de la gestión del riesgo. Se puede

emplear para despejar información sobre las tendencias del sector o los

mercados financieros vigilando los cambios de sentimientos o extrayendo

información a partir de los informes de análisis o libros blancos.

Esto puede resultar muy útil para dentro de las instituciones bancarias. De

hecho, los datos permiten abordar las inversiones en diferentes sectores con

más confianza. Muchos bancos adoptan en la actualidad ese enfoque.

El mantenimiento
10

El Text Mining ofrece una visión de conjunto completa de la actividad y del

funcionamiento de los equipos y máquinas industriales. Permite automatizar las

tomas de decisiones en materia de funcionamiento.

Por ejemplo, se puede arrojar luz sobre los motivos y las tendencias que

sugieren la aparición de un problema. De este modo, se pueden poner en

marcha medidas de mantenimiento predictivo para intervenir antes de que sea

demasiado tarde. De este modo, las operaciones de mantenimiento pueden

efectuarse de manera proactiva.

Salud

En el ámbito de la salud, los investigadores cada vez usan más las técnicas de

Text Mining. El clustering de información permite, por ejemplo, extraer

información a partir de libros de medicina de manera automatizada.

Esto permite ganar tiempo y conseguir ahorrar. De este modo, ese enfoque

resulta de gran ayuda para el mundo de la medicina y de la salud.

Ciberseguridad

El análisis textual también puede resultar particularmente útil para la

ciberseguridad. Por ejemplo, se puede detectar y filtrar spam automáticamente

en los buzones de correo electrónico.


11

De este modo, los hackers ya no pueden usar el método del spam para piratear

sistemas informáticos. Los riesgos de ciberataques se reducen drásticamente y

la experiencia del usuario también mejora.

¿Cómo formarse en Text Mining?

Los datos textuales cada vez son más numerosos y el análisis de texto resulta

esencial para las empresas basadas en datos de todos los sectores. Para

aprender a dominar el Text Mining y sus sutilezas, puedes recurrir a los cursos

de DataScientest.

Esta disciplina está en nuestros recorridos de Data Analyst y Data Scientist.

Esos dos cursos especializados te formarán respectivamente para los perfiles

profesionales de analista y científico de datos, en los que el Text Mining ocupa

un lugar clave.

Todos nuestros cursos se distinguen por un enfoque “Blended Learning”

innovador, que une el presencial y la formación a distancia. Disfrutarás de la

flexibilidad de una formación en línea, a la vez que mantienes la motivación

gracias a las master classes presenciales.


12

Estos cursos se pueden realizar en pocas semanas solo con el formato

BootCamp intensivo, o en pocos meses en formación continua que se puede

conciliar con una actividad personal o profesional.

Al completar estos programas, los alumnos reciben un diploma certificado por

la Universidad de La Sorbonne. Un 90 % de los alumnos encuentra trabajo al

finalizar sus estudios. No esperes más y descubre nuestros cursos.


13

FÒRMULAS

d
v=
t

√ 16=4

4
2 =16

También podría gustarte