Primeramente, cuando hablamos de indización en gestión documental, se refiere a todo proceso
destinado a señalar en qué parte de la colección es posible hallar determinado documento, además,
describe y caracteriza documentos con ayuda de representaciones de los conceptos contenidos en dicho
documento. En ella se van a dar una serie de fases como: Primero, Examen del documento: Permite
establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen,
introducción, conclusiones y títulos de los capítulos), Segundo, Extraer conceptos para identificarlo: Se
trata de extraer los conceptos que mejor concreten el tema del documento. Y Tercero, Selección de los
términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a
los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes
de referencia: diccionarios, manuales. Asimismo, Se puede decir que, Permite la búsqueda eficaz de la
información contenida en un fondo documental, ahora bien, la Utilidad se centra en facilitar la
información específica.
Cabe destacar que, a la hora de analizar el contenido de un documento disponemos de dos
herramientas: la elaboración de resúmenes y la indización. En el proceso de indización se hace analizar
el contenido del documento para extraer los conceptos o ideas esenciales que lo representan y
posteriormente traducir estos conceptos a un lenguaje que permita localizarlos. Además, utiliza fase de
entrada de los documentos en el sistema documental, ya que permite identificar y clasificar los
documentos; también se emplea en la fase de salida, cuando se formulan las preguntas que permitirán
localizarlos. De hecho, lo que hace posible la recuperación de los documentos es que los términos
usados en la clasificación sean los mismos que los empleados en la búsqueda. La selección de los
términos de indización se basa en los principios de relevancia, pertinencia, profundidad y unidad de
sentido o consistencia. La indización puede estar basada en:
*Palabras por unitérminos o palabras clave: es un sistema postcoordinado, porque la coordinación se
produce en el momento de la recuperación. Su uso es habitual en los motores de búsqueda y
complementario en bases de datos y catálogos de bibliotecas, donde se recuperan los documentos a
partir de unitérminos de título, resumen o descriptores y encabezamientos de materia.
*Conceptos por descriptores: está controlada por tesauros y es un sistema postcoordinado. Evita la
ambigüedad porque no se basa en palabras sino en conceptos y para evitar las falsas combinaciones
precoordina los términos cuando es necesario. Es de uso general en bases de datos y centros de
documentación.
*Temas por materias: consiste es la correlación sucesiva de diferentes encabezamientos que expresan el
tema o temas de un documento. Es una indización precoordinada, es decir, la coordinación se produce
en el momento del almacenamiento. En este sentido, La indización se puede realizar usando tanto el
lenguaje natural como el lenguaje documental, todo dependerá de las necesidades y recursos del centro
de documentación. Actualmente el lenguaje natural está muy vivo, debido a los ingentes depósitos
documentales, redes, motores de búsqueda, etc. Si bien es cierto que cada lenguaje tiene sus ventajas.
Por ejemplo, el lenguaje natural permite el uso de un vocabulario ilimitado, por lo que mejora los
resultados cuando la información que se busca es muy específica. Por su parte el lenguaje controlado
ayuda a acotar los términos de búsqueda, reduciendo las ambigüedades semánticas, mejorando la
consistencia en la representación de la materia y facilitando las búsquedas amplias. En cuanto a los
costes de usar un lenguaje u otro, el lenguaje controlado requiere de un mayor esfuerzo y coste en la
fase de entrada del documento en el sistema. Mientras que los sistemas que usan el lenguaje libre
exigen un mayor coste en la fase de salida, es decir, durante la búsqueda. De allí que los lenguajes de
clasificación: en las bibliotecas enciclopédicas: la clasificación de monografías, es decir, para
la representación sintética de un tema dentro de los catálogos de materias, y a veces para su
clasificación, en sistemas de libre acceso, de acuerdo con las grandes ramas del saber; en las
bibliotecas especializadas, servicios de documentación y entidades productoras de boletines
bibliográficos: para la ordenación de los documentos analíticos (artículos de revistas,
comunicaciones a congresos, informes de investigación.) por medio de las entradas de
materias de los boletines analíticos y signaléticos; -los thesaurus: en los servicios de
documentación y entidades productoras de boletines de índices, luego en las de bases de datos
bibliográficas, para la indización de los documentos, es decir, para la representación analítica de su
contenido conceptual por medio de una serie de descriptores, con vistas al almacenamiento y
búsqueda de información documental. En esto también hicieron falta algunos años para
comprender que lenguajes controlados (los thesaurus) y lenguajes libres (las listas de palabras
clave) pertenecen al mismo conjunto (los lenguajes de indización) y juegan un papel
complementario, más que antagonista: el thesaurus, gracias a su concisión, a su falta de
ambigüedad y a la posibilidad de ser transferido de una lengua a otra, permite gestionar las
búsquedas documentales con una gran precisión, pero a veces en detrimento de la exhaustividad;
por su parte, la abundancia de lenguaje libre en los títulos, resúmenes y textos permite
escapar a las restricciones a veces demasiado rigurosas del thesaurus, y puede asegurar una
mayor exhaustividad, al menos en la lengua del que realiza la búsqueda, en detrimento, eso sí, de
la precisión. Así, la lista de palabras clave se añadió al thesaurus de descriptores y al sistema de
clasificación, dentro del abanico de los lenguajes documentales.); por otra parte, el desarrollo no
menos importante de una serie de bases de datos documentales internas, dentro de las empresas y en
la Administración, casi todas basadas en una indización en lenguaje controlado (por un
thesaurus local) y en lenguaje libre: ¡nunca se han construido tantos thesaurus en las organizaciones
como en estos últimos cinco años. Por último, la aparición de sistemas de indización, automática
o asistida, que en algunos casos responden al principio mismo del lenguaje controlado, mientras
que en otras ocasiones se basan en un thesaurus. Hoy los esfuerzos se concentran en la aplicación
de los sistemas expertos a los sistemas documentales. Al igual que sucedió con los anteriores
cambios de escena en el mundo de los lenguajes documentales, parece que los sistemas expertos
aportarán una evolución, y no una mutación: los thesaurus constituirán uno de los pilares del
sistema de almacenamiento y recuperación documentales: la base de conocimientos, que
contendrá la lista de los conceptos evocados en los documentos y en las consultas, bajo una forma
normalizada; un segundo pilar, el motor de inferencia, explotará el thesaurus para pasar las
peticiones, expresadas en lenguaje libre, a una formulación de las ecuaciones de búsqueda en
lenguaje controlado, y posteriormente a la extracción de los documentos pertinentes. En pocas
palabras, los lenguajes de indización, en general, y los thesaurus de descriptores y las listas de
palabras clave, en particular, son instrumentos utilizados como tales, según lo que es habitual
en casi todos los sistemas documentales de hoy día, o están integrados dentro de instrumentos
más sofisticados, como podría llegar a ser la práctica de los sistemas documentales del mañana.