0% encontró este documento útil (0 votos)
23 vistas4 páginas

Indizacioon

Cargado por

Mario David Picq
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas4 páginas

Indizacioon

Cargado por

Mario David Picq
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

La indización de documentos

EN 3 DICIEMBRE, 2017 POR ANA MARIA CORRAL EN GESTIÓN DE LA INFORMACION

A la hora de analizar el contenido de un documento disponemos de dos herramientas: la elaboración de


resúmenes y la indización.
Ya en el post anterior vimos la creación de resúmenes en los servicios de información, por lo que en este
artículo abordaremos la indización de los documentos. Al final de este artículo encontrareis un resumen de
este post en forma de infografía.
La indización tiene una doble finalidad. Por un lado, permite identificar y clasificar los documentos. Por otro
lado, permite recuperar dichos documentos, utilizando los conceptos y materias sobre los que trata.

¿QUE ES LA INDIZACION?

En el proceso de indización lo que hacemos es analizar el contenido del documento para extraer los
conceptos o ideas esenciales que lo representan y posteriormente traducir estos conceptos a un
lenguaje que permita localizarlos.
La indización se utiliza en la fase de entrada de los documentos en el sistema documental, ya que permite
identificar y clasificar los documentos. Pero también se emplea en la fase de salida, cuando se formulan las
preguntas que permitirán localizarlos. De hecho, lo que hace posible la recuperación de los documentos es
que los términos usados en la clasificación sean los mismos que los empleados en la búsqueda.
La selección de los términos de indización se basa en los principios de relevancia, pertinencia, profundidad y
unidad de sentido o consistencia.

La indización puede estar basada en:


 Palabras / Indización por uniterminos o palabras clave: es un sistema postcoordinado, porque la
coordinación se produce en el momento de la recuperación. Su uso es habitual en los motores de búsqueda y
complementario en bases de datos y catálogos de bibliotecas, donde se recuperan los documentos a partir de
unitérminos de título, resumen o descriptores y encabezamientos de materia.

 Conceptos / Indización por descriptores: está controlada por tesauros y es un sistema postcoordinado. Evita
la ambigüedad porque no se basa en palabras sino en conceptos y para evitar las falsas combinaciones
precoordina los términos cuando es necesario. Es de uso general en bases de datos y centros de
documentación.

 Temas / Indización por materias: consiste es la correlación sucesiva de diferentes encabezamientos que
expresan el tema o temas de un documento. Es una indización precoordinada, es decir, la coordinación se
produce en el momento del almacenamiento. Su principal ventaja es que prácticamente no da cabida a falsas
combinaciones entre los términos, ya que cada cual ocupa su posición. Se utiliza prioritariamente en los
catálogos de las bibliotecas.
¿LENGUAJE NATURAL O LENGUAJE DOCUMENTAL?

La indización se puede realizar usando tanto el lenguaje natural como el lenguaje documental, todo
dependerá de las necesidades y recursos del centro de documentación. De hecho muchas bases de datos
combinan la utilización de ambos.
Actualmente el lenguaje natural está muy vivo, debido a los ingentes depósitos documentales, redes, motores
de búsqueda, etc.
Si bien es cierto que cada lenguaje tiene sus ventajas. Por ejemplo, el lenguaje natural permite el uso de un
vocabulario ilimitado, por lo que mejora los resultados cuando la información que se busca es muy
específica.
Por su parte el lenguaje controlado ayuda a acotar los términos de búsqueda, reduciendo las
ambigüedades semánticas, mejorando la consistencia en la representación de la materia y facilitando las
búsquedas amplias.
En cuanto a los costes de usar un lenguaje u otro, el lenguaje controlado requiere de un mayor esfuerzo y
coste en la fase de entrada del documento en el sistema. Mientras que los sistemas que usan el lenguaje
libre exigen un mayor coste en la fase de salida, es decir, durante la búsqueda.
Si queréis saber algo más sobre los lenguajes documentales podéis leer el post Lenguajes para la
recuperación de información.

FASES EN EL PROCESO DE INDIZACION

Las etapas fundamentales del proceso de indización son:

1. Examen y reconocimiento del documento.


2. Identificación y selección de los conceptos principales.
3. Selección de los términos que lo representan.
4. Normalización de los términos extraídos.

Veamos brevemente cada una de ellas.

1. Reconocimiento del contenido documental.

Se trata de la lectura rápida, visionado o audición (dependiendo del soporte) del documento para saber de
qué va.
En los documentos bibliográficos las partes que mayor información aportan para la indización son: título,
sumario, índice de materias y conclusiones. También es importante la información contenida en títulos,
introducción y conclusiones de los capítulos, así como los enunciados de las tablas y figuras del documento.
Sin olvidarnos de las frases o términos destacados por el autor de la obra.

2. Identificación de las nociones principales, a través de la segmentación del texto.


Se trata de obtener las ideas principales, obviando las informaciones superfluas, marginales o imprecisas.
Para ello interesa conocer cuál es el objeto del documento y para que puede servirle al usuario. Se trata de
identificar los objetivos del análisis realizado por el autor del documento, la metodología que utiliza, los
resultados y las conclusiones obtenidas.
Si el documento trata de varios temas diferente habrá que subdividirlo en varias partes.

3. Selección de los términos de indización.


Una vez identificadas las nociones principales sobre las que trata el documento, es necesario ordenarlas.
Para ello nos basaremos en la observación de las relaciones entre las posibles palabras clave: de recurrencia,
equivalencia, oposición, paralelismo, simetría, inversión, etc.
Con todo ello elegimos los términos que mejor representen estas nociones y los extraemos.
En esta fase es necesario tener en cuenta los objetivos del centro de documentación, las necesidades de los
usuarios, los documentos ya incluidos en el sistema y los requisitos del sistema documental. Esto quiere decir,
que un mismo documento puede ser indizado por términos distintos según las áreas de interés de los usuarios
y del centro de documentación que la lleve a cabo.

4. Normalización de los términos extraídos.


En esta fase se trata de unificar criterios para que se sigan las mismas normas a la hora de realizar la
indización. Así se consigue, que independientemente del documentalista que lo haga, se elijan los mismos
términos para indizar un mismo documento.
Por ejemplo, transformando las formas verbales y adjetivas en formas nominales y usando por defecto el
masculino plural para los sustantivos.

AUTOMATIZACION DE LA INDIZACION
La evolución de la tecnología ha posibilitado la automatización o semiautomatizacion del proceso de
indización.
Actualmente la indización realizada por humanos en la más precisa por su capacidad para leer en contexto,
para improvisar y para adaptarse a lo nuevo. Aunque al ser menos rápida resulta más costosa que la
automática.
En un futuro se espera que las maquinas puedan ser capaces de seleccionar los términos, no por su
presencia en el texto, sino por su valor contextual.

Los procesos de indización automáticos o semiautomáticos constan de las siguientes fases:

 Extracción de los términos, analizando las cadenas independientes de caracteres con el fin de identificar
palabras.
 Eliminación de palabras vacías o stopwords.
 Identificación de las raíces de las palabras (lexemas) o standing.
 Selección de términos para el índice, utilizando fundamentalmente técnicas estadísticas. La frecuencia de
aparición suele ser muestra de mayor representatividad.
 Agrupación de documentos de contenido similar, mediante la creación de clúster.
 Compresión, para obtener ficheros de menor tamaño.

Referencia

Corral, A. M. (2017, diciembre 3) Indización. En Gestión de la información


[Link]
INFOGRAFIA

También podría gustarte