Innovación Tecnológica Vol.19, No.
2 abril-junio 2013 (ISSN 1025-6504)
Modelos de recuperación de Información. Generalización. Information retrieval models.
Generalization.
MsC. Dayana de la Caridad Rivero-Hernández
Dr. Ramiro Pérez-Vázquez
MsC. Isleydi Reyes-Ricardo
RESUMEN
En este artículo se resumen las principales características de los Modelos de Recuperación de
Información, los cuales tienen como objetivo facilitar el proceso de comparación entre una
consulta determinada y un conjunto de textos sobre los que se realiza la consulta, para esto
definen distintas formas de representar los documentos. Los modelos de recuperación descritos
están pensados únicamente para documentos de contenido textual.
Palabras clave: Booleano, consulta, Modelos de Recuperación de Información, probabilístico,
Recuperación de Información, vectorial.
ABSTRACT
This article summarizes the main characteristics of Information Retrieval Models, which aim to
facilitate the comparison process between a given query and a set of texts on which the query is
performed to define it different ways to represent documents. Recovery models described are
intended only for textual content documents.
Key words: Boolean, query, Models of Information Retrieval, probabilistic, Information Retrieval,
vector.
INTRODUCCIÓN
1
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
Según la mayoría de estudios realizados en los últimos años la recuperación y organización de la
información es uno de los aspectos que ha cobrado mayor relevancia. En la actualidad estos
estudios resaltan la vital importancia que ha cobrado ese campo. Esto se debe en gran medida a
que los buscadores de Internet están situados como el primer método utilizado para obtener
cualquier tipo de información sea para el uso académico, lúdico o empresarial (Codina, 1996).
La recuperación de la información consiste en dado un conjunto de datos jerarquizados o no,
encontrar aquella información relevante para el usuario. Este proceso puede ser comparable a
encontrar una aguja en un pajar, ya que, por ejemplo, en Internet, la cantidad de información es
de unas dimensiones “inmanejables”. En general cualquier proceso de Recuperación de
Información consiste en comparar una query (consulta) del usuario con una gran colección de
documentos, devolviendo una lista ordenada de acuerdo a un ranking de los documentos que
mejor se ajustan a la consulta.
Las primeras aproximaciones a la recuperación de información trabajan sobre la información en
bruto, siendo simplemente comparaciones de patrones con todo el texto que se haya obtenido.
Pero esta solución es inmanejable, tanto por las cantidades de texto como por la pobreza de los
resultados obtenidos. En general todos los documentos que se quieran utilizar para recuperación
de información tendrán que ser categorizados e indexados.
Una vez que los documentos se categorizan e indexan aparece el verdadero problema: La
recuperación de información (Information Retrieval o IR). Se necesita predecir qué documentos
son relevantes para la búsqueda del usuario y ordenarlos en función de esa relevancia. Para ello
es necesario describir modelos que relacionen:
• Documentos.
• Querys.
• Funciones de ranking.
Un modelo de recuperación de información consiste en:
• D: Representación de los documentos.
• Q: Representación de las queries.
• F: Un marco (framework) de modelado para D y Q y las relaciones entre ellos.
• R (q,di): Un ranking o función de similaridad que ordene los documentos con respecto a
una query dada (Harman, 1992).
Debido a esto es de vital importancia conocer cuáles son los métodos o modelos de recuperación
utilizados por los grandes buscadores (booleano, probabilístico, vectorial). En los últimos años y
debido a los intereses económicos derivados de buenos posicionamientos en los distintos
buscadores se está produciendo un boom en todos los campos relacionados con este tema, por
tanto es necesario conocer cómo se estructuran los modelos de recuperación con anterioridad.
La principal clasificación para los modelos de recuperación de información es la siguiente:
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 2
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
Modelos clásicos: Entre los que se encuentran los modelos probabilístico, booleano y vectorial.
Modelos estructurales: Entre los que destacan listas no sobrepuestas y el método de los nodos
proximales (Frakes, 1992).
MATERIALES Y MÉTODOS
Modelo Booleano
El modelo booleano es el más usado históricamente. Está basado en la teoría de conjuntos y el
álgebra booleana. Formalmente el modelo booleano se divide en:
• D: Conjunto de palabras del documento (Términos de indexación).
• Q: Expresión booleana (Operadores: AND, OR y NOT).
• F: Álgebra booleana sobre conjuntos de términos y documentos.
• R: Un documento es relevante para la query dada si satisface la expresión booleana de
acuerdo al álgebra.
En resumen, el modelo booleano es un modelo simple que basa su efectividad en dividir los
términos de la búsqueda en conjuntos, por ello es muy fácil de implementar y entender. Donde
reside algo más de dificultad es en las expresiones booleanas anidadas, pero cualquier
ordenador maneja las expresiones booleanas muy fácilmente. Para el modelo booleano todos los
términos de una búsqueda tienen la misma importancia y relevancia, ya que no realiza ningún
tipo de ranking de los términos de indexación (Blair, 1990).
Modelo Probabilístico
A raíz de la existencia del modelo booleano, se determinan una serie de problemas. La
Recuperación de la Información no es un proceso exacto. El modelo booleano, muestra
resultados de todo o nada (O pertenece al subconjunto de documentos con los términos de la
expresión booleana, o no pertenece). Pero esto excluye documentos que sean relevantes pero
estén fuera de los subconjuntos ya que los términos de búsqueda y los términos de indexación
pueden divergir.
El problema radica en que en el subconjunto R de documentos relevantes a una query q la
pertenencia de los documentos a R es incierta. Por ello se puede tomar una aproximación
probabilística en la que los documentos se ordenen en orden decreciente de probabilidad de
relevancia a la información requerida.
Este modelo plantea dos dificultades principales:
• Las evidencias para la ordenación se basan en una representación difusa: El proceso
consiste en evaluar la probabilidad de relevancia basándose en las ocurrencias de los
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 3
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
términos de la búsqueda en los documentos (Parecido al modelo booleano). Normalmente
se empieza con una estimación y más adelante se refinará a través del feedback de los
usuarios.
• No se puede computar la probabilidad exacta: Es un proceso demasiado complejo así que
el modelo se basa en simplificaciones y aproximaciones.
En resumen:
• El modelo probabilístico utiliza la teoría de probabilidades para modelar la incertidumbre
del proceso de recuperación de información.
• En el modelo se hacen presunciones explícitas.
• El peso de la relevancia de los términos es la frecuencia inversa de documento (IDF).
• El feedback de relevancia puede mejorar el ranking dando mejores estimaciones de
probabilidad de términos.
• No se usan frecuencias de términos dentro del documento ni longitud de documentos
(Blair, 1990).
Modelo de Espacio Vectorial
Existe otro modelo de comparación que está basado en la utilización de espacios vectoriales de n
dimensiones, como ya se indicó más arriba. Según ese modelo, desarrollado principalmente por
Salton (1983), puesto que los documentos se representan como vectores, los documentos
pueden situarse en un espacio vectorial de n dimensiones, es decir, con tantas dimensiones
como elementos tenga el vector. A menudo resulta trabajoso imaginar un espacio vectorial de
más de tres dimensiones, pero matemáticamente resulta rutinario tratarlos.
Situado en ese espacio vectorial, cada documento encaja entonces en un lugar determinado por
sus coordenadas, al igual que en un espacio de tres dimensiones cada objeto queda bien
ubicado si se especifican sus tres coordenadas espaciales.
Se crean así grupos de documentos que quedan próximos entre sí a causa de las características
de sus vectores. Estos grupos o clusters están formados, en teoría, por documentos similares, es
decir, por grupos de documentos que son relevantes para la misma clase de problemas de
información. Los grupos de clusters pueden organizarse, a su vez, en torno a un centroide, que
es un documento representativo de las propiedades medias de los documentos del cluster.
En una base de datos documental organizada de esta manera, resulta muy rápido calcular qué
centroide se parece más a una pregunta, y es muy rápida también la ordenación por relevancia,
puesto que los documentos ya están agrupados por su grado de semejanza de forma natural.
Cuando se formula una pregunta en la fase de interrogación, también se la deja caer en este
espacio vectorial, y así, aquellos documentos que queden más próximos a ella serán, en teoría,
los más relevantes.
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 4
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
Están en desarrollo otros modelos basados en el procesamiento del lenguaje natural, en los
cuales una base de conocimientos intentaría interpretar documentos textuales y generar listas de
descriptores más allá del simple reconocimiento de cadenas de caracteres y del cómputo de
frecuencias. Estos modelos, sin embargo, parece que no están aún demasiado maduros, aunque
existen ya algunas aplicaciones operativas, como el sistema propietario desarrollado por
Carnegie Group que categoriza (asigna categorías) a los despachos de la agencia Reuter's; o
como el sistema MAI (Machine aided indexing) de la Nasa (June P. Silvester y Michael T.
Genuardi, 1994) que interpreta textos y propone descriptores extraídos de un tesauro.
El modelo de Espacio Vectorial posee las siguientes ventajas:
• Obtiene documentos ordenados por un ranking.
• Se obtienen resultados de coincidencia parcial con la búsqueda (Codina, 1995).
RESULTADOS Y DISCUSIÓN
Los modelos de recuperación tienen como objetivo el facilitar el proceso de comparación entre
una consulta determinada y un conjunto de textos sobre los que se realiza la consulta, para esto
definen distintas formas de representar los documentos. Estos modelos de recuperación están
pensados únicamente para documentos de contenido textual.
Su funcionamiento se sencillo, para cada documento se construye un índice determinado en
función del texto contenido en el documento. Derivado de esto se tiene el concepto de índice
invertido.
Los índices de los documentos tienen en cuenta la frecuencia de aparición de las palabras. Cada
documento se representa a través de un vector. El modelo booleano es un modelo de
recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente
simplicidad y su pulcro formalismo ha recibido gran atención y sido adoptado por muchos de los
primeros sistemas bibliográficos comerciales. Su estrategia de recuperación está basada en un
criterio de decisión binario (pertinente o no pertinente) sin ninguna noción de escala de medida,
sin noción de un emparejamiento parcial en las condiciones de la pregunta.
El modelo de recuperación vectorial o de espacio vectorial propone un marco en el que es posible
el emparejamiento parcial, asignando pesos no binarios a los términos índice de las preguntas y
de los documentos. Estos pesos de los términos se usan para computar el grado de similitud
entre cada documento guardado en el sistema y la pregunta del usuario. El modelo de
recuperación probabilístico se basa en la equiparación probabilística, dados un documento y una
pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa
pregunta.
CONCLUSIONES
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 5
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
La teoría de RI estudia el desarrollo de modelos conceptuales relacionados con las cuatro
operaciones mencionadas, con el objeto de facilitar no sólo su adecuada comprensión, sino
también para facilitar su automatización mediante el uso de ordenadores.
De los Modelos de Recuperación de Información el modelo booleano es el más usado
históricamente. Está basado en la teoría de conjuntos y el álgebra booleana. El modelo
probabilístico utiliza la teoría de probabilidades para modelar la incertidumbre del proceso de
recuperación de información. El modelo de espacio vectorial posee como ventajas que obtiene
documentos ordenados por un ranking y en él se obtienen resultados de coincidencia parcial con
la búsqueda.
REFERENCIAS BIBLIOGRÁFICAS
1. Blair, D.C. 1990. “Language and representation in information retrieval”.
2. Codina, Lluís. 1996. “Recuperación de información e hipertextos: sus bases lógicas y su
aplicación a la Documentación periodística”. Fuentes, M. Eulàlia (editora). Manual de
Documentación periodística. Madrid.
3. Codina, Lluís. 1995. “Teoría de recuperación de información: modelos fundamentales y
aplicaciones a la gestión documental”. Disponible en:
4. http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperac
in_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html
Octubre 1995
5. Frakes, W. B.; Baeza-Yates, R. 1992. “Information retrieval: data structures & algorithms”.
Englewood Cliffs: Prentice Hall.
6. Harman, D. 1992. “Ranking algorithms”.
Recibido: 23 de enero de 2013
Aprobado: 9 de mayo de 2013
Síntesis Curricular:
MsC. Dayana de la Caridad Rivero-Hernández. Master en Informática Aplicada, graduada de
Ingeniería en Telecomunicaciones y Electrónica en la Universidad de Oriente, Cuba. Se
desempeña como Profesora Asistente del Departamento de Ingeniería Informática en la
Universidad de Las Tunas, con cuatro años de experiencia profesional. Ha cursado y aprobado
los cursos de posgrado del Programa Doctoral en Ciencias de la Computación de la Universidad
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 6
Rivero-Hernández. Modelos de recuperación de Información. Generalización.
Central de Las Villas, así como los de la Maestría en Informática Aplicada de la Universidad de
Camagüey. Ha realizado investigaciones en las temáticas:
• “Evolución de la Tecnología Celular GSM hacia la Generación 3.75”, publicó un libro sobre
el tema, además de una publicación en Base de Datos Indexada (BDI).
• En el área de estudio de Software Educativos posee publicaciones en BDI sobre “Software
Educativo para el proceso de enseñanza aprendizaje del Método de Huffman” y ha
efectuado el registro de un software con dicho método implementado.
• También ha realizado publicaciones en el área de la Inteligencia Artificial, sobre las
temáticas:
• “Estudio de los parámetros de clasificación en el Software Didáctico SmartMLP”
• “Evaluación de varias técnicas de Aprendizaje Automático en el Software WEKA”
• “Redes Complejas. Teoría y Práctica”
Ha impartido en el pregrado las asignaturas: Arquitectura de Computadoras, Teleinformática I y II,
Introducción a la Computación, Informática I y Redes de Computadoras.
Universidad de Las Tunas “Vladimir Ilich Lenin”, Filiación Institucional, Las Tunas, Cuba.
E-mail:
[email protected]Universidad Central de Las Villas (UCLV), Filiación Institucional, Villa Clara, Cuba.
Universidad de Las Tunas “Vladimir Ilich Lenin”, Filiación Institucional, Las Tunas, Cuba.
Innovación Tecnológica Vol.19, No. 2 abril-junio 2013 (ISSN 1025-6504) 7
Copyright of Innovación Tecnológica is the property of Instituto de Informacion Cientifica y
Tecnologica and its content may not be copied or emailed to multiple sites or posted to a
listserv without the copyright holder's express written permission. However, users may print,
download, or email articles for individual use.
Copyright of Innovación Tecnológica is the property of Instituto de Informacion Cientifica y
Tecnologica and its content may not be copied or emailed to multiple sites or posted to a
listserv without the copyright holder's express written permission. However, users may print,
download, or email articles for individual use.