¿CÓMO FUNCIONA, ESTA MINERÍA DE TEXTO Y DATOS?
La extracción de textos puede dividirse en cinco pasos:
1. Recolección: Recopilación de datos de diferentes recursos, tales como sitio web, correos
electrónicos, comentarios de clientes, archivo de documentos. Dependiendo de la
aplicación, este proceso puede ser completamente automatizado o guiado por una persona
encargada de realizar este proceso.
2. Preprocesamiento: La identificación del contenido y la extracción de características
representativas
3. Limpieza de textos: eliminación de cualquier información innecesaria o no deseada,
como los anuncios de las páginas.
4. Tokenización: un ordenador sólo “ve” una cadena de caracteres, sin poder identificar, por
ejemplo, párrafos, frases o palabras. La Tokenización divide el texto en entidades
significativas (palabras, oraciones, etc.) dados los espacios en blanco presentes y las
puntuaciones.
5. Extracción de características (también llamada selección de atributos): es el proceso de
caracterización.
Un ejemplo puede ilustrar estos cinco pasos:
Imagina que estás vendiendo calendarios de animales. Si deseas saber si es una buena
inversión para que se anuncie en los sitios web de blogs, y por lo tanto, te gustaría conocer
qué porcentaje de las entradas en el blog están hablando de los animales.
En primer lugar, es necesario reunir todos los textos de todas las entradas de blog que
puedas encontrar. Dado que puede haber cientos de miles de estos textos en Internet,
probablemente no quieras descargarlos manualmente, uno por uno. Así que necesitas
software para rastrear la web, descargar los artículos que encuentre y organizarlos en una
base de datos apropiada.
En segundo lugar, querrás preprocesar el material recolectado para que las siguientes
herramientas (discutidas en los pasos 3 a 5) puedan trabajar más eficientemente. Por
ejemplo, querrás eliminar anuncios, menús de páginas web, código fuente de las páginas
web HTML, etc. A continuación, es posible que desees calcular algunas características
(extracción de características) para tu colección de textos. Por ejemplo, es posible que
desees conocer el número de palabras de cada mensaje, de modo que pueda rechazar las
que son demasiado pequeñas (por ejemplo, 10 palabras) o demasiado grandes (por ejemplo,
10 000 palabras). Tales entradas en su base de datos probablemente no son representativas
y pueden ser errores generados por su software utilizado en el primer paso. Para obtener
estos recuentos de palabras, primero tendrás que dividir los textos (serie de caracteres) en
palabras (tokenización).
En el tercer paso, es posible que desees crear índices. Por ejemplo, para enumerar qué
palabras se han encontrado en qué textos. Puedes pensar en esto como el índice de un libro.
Sin un índice, es muy difícil localizar la información sobre un tema específico. Pero con un
índice, es mucho más fácil y rápido encontrar lo que está buscando. Esto también es cierto
para el software que busca palabras en su enorme base de datos blog.
Luego, en el cuarto paso, querrás extraer los textos para extraer alguna información que le
ayudará a contestar sus preguntas. En este caso, querrás identificar palabras que se refieran
a animales. Un nombre de entidad reconocedora de animales tratará de reconocer cada
palabra que se refiera a un animal, como perro, gato, gatito, felino, mamífero, petirrojo
americano, Turdus migratorius, etc. También es posible que desees ejecutar lo que se
conoce como’ algoritmos sintácticos‘ para identificar qué palabras son sustantivos y cuáles
verbos. Se necesitan muchos algoritmos para distinguir, por ejemplo, el uso de cat en
“Tengo un gato hermoso” y que “ejecute cat file. txt en su línea de comandos para mostrar
el texto.o rechazar “Se movió como una araña” Evidentemente, se necesita mucha
inteligencia para llevar a cabo esta tarea con precisión.
A continuación, en el quinto paso, se desea realizar análisis y trazar gráficos. Por ejemplo,
puedes requerir una gráfica de barra que muestre el porcentaje de artículos del blog que
hablan sobre los animales para cada uno de los diez sitios web de alojamiento de blog más
importantes. Con esta información, por ejemplo, puedes convencer a tus colaboradores de
que es una buena idea invertir dinero en publicidad para calendarios de animales en
whatablog. com.
Este artículo fue escrito como parte del proyecto OpenMinTeD por: Jiakang Chang
(EMBL-EBI), Christian O’ Reilly (EPFL), Nancy Pontika (Open University) Gareth Owen
(EMBL-EBI), Kenneth Haug (EMBL-EBI), Martine Oudenhoven (LIBER)
https://universoabierto.org/2018/02/22/que-es-la-mineria-de-textos-como-funciona-y-por-que-
es-util/