0% encontró este documento útil (0 votos)
44 vistas27 páginas

Lancaster

Este documento presenta una introducción a la indización y resumen de documentos. Explica que el propósito de la indización y resumen es crear representaciones de documentos que puedan incluirse en bases de datos para facilitar la recuperación de información. Describe el proceso de seleccionar documentos relevantes, indizarlos y resumirlos para incluirlos en una base de datos, y cómo los usuarios luego buscan en la base de datos para satisfacer sus necesidades de información. También discute los desafíos de lograr altos niveles de precisión y rec

Cargado por

Lucas Mosca
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
44 vistas27 páginas

Lancaster

Este documento presenta una introducción a la indización y resumen de documentos. Explica que el propósito de la indización y resumen es crear representaciones de documentos que puedan incluirse en bases de datos para facilitar la recuperación de información. Describe el proceso de seleccionar documentos relevantes, indizarlos y resumirlos para incluirlos en una base de datos, y cómo los usuarios luego buscan en la base de datos para satisfacer sus necesidades de información. También discute los desafíos de lograr altos niveles de precisión y rec

Cargado por

Lucas Mosca
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1

Lancaster, Frederick Wilfrid. Indización y resúmenes : teoría y práctica – Buenos Aires : EB, 1996. --
CAP. I . Indización.
----------------------------------------------------------------------------------------------------------------------------------------

INTRODUCCIÓN
El propósito principal de la elaboración de índices y resúmenes es construir representaciones de
documentos publicados en una forma que se preste a su inclusión en algún tipo de base de datos.
Esa base de datos de representaciones puede ser impresa (como en una publicación de
indización/resúmenes, como el Chemical Abstracts o el Engineering Index), en forma legible por
computadora (cuando la base de datos sea frecuentemente el equivalente aproximado de un servicio
impreso), o en fichas (como un catálogo convencional de biblioteca).
La función de las operaciones de indizar/resumir, en el ámbito mayor de las actividades de
recuperación de la información en general, está ilustrado en la figura 1. En primer lugar, el productor
de base de datos selecciona de la población de documentos recién publicados aquellos que
satisfagan ciertos criterios para su inclusión en la misma. El más obvio de esos criterios es el tema
de qué trata el documento, pero otros, tales como tipo de documento, lengua u origen, también son
importantes. Para aquellas bases de datos que tratan principalmente con artículos de revistas, los
criterios de selección comúnmente estarán centrados preferentemente en la publicación antes que en
el artículo; esto es, algunas revistas serán incluidas y otras no (aunque algunas revistas serán
indizadas en su totalidad y otras selectivamente). La cobertura proporcionada por muchas bases de
datos es, en gran medida, determinada por razones de costo-eficacia. Particularmente en el caso dé
bases de datos que abarcan un campo altamente especializado, solo incluirán aquellas revistas que
publican más sobre los temas de interés.
Los documentos seleccionados para incluir en una base de datos serán "descriptos" de varias
formas. Los procedimientos de catalogación descriptiva (que no aparecen en la figura 1) identifican
autores, títulos, orígenes de la publicación, y otros elementos bibliográficos; los procedimientos de
indización identifican el tema de qué trata el documento; y el resumen es utilizado para sintetizar el
contenido del documento. Los términos utilizados en la indización serán con frecuencia extraídos de
algún tipo de vocabulario controlado, como un tesauro (el "vocabulario del sistema" de la figura l),
pero, en su lugar, pueden ser términos "libres" (por ejemplo, extraídos del propio documento). Estas
actividades de descripción crean representaciones de los documentos en una forma que se presta
para su inclusión en la base de datos. Los propios documentos normalmente serán destinados a un
tipo diferente de base de datos (el acervo de documentos) como las estanterías de una biblioteca.
Los miembros de la comunidad a ser atendida utilizarán la base de datos, fundamentalmente, para
satisfacer las diferentes necesidades de información. Para lograr esto, deben convertir una
necesidad de información en alguna forma de "estrategia de búsqueda?', la cual puede ser tan simple
como la selección de un único término para consultar un índice impreso o un catálogo en fichas, o
incluir la combinación de varios términos en una estrategia más elaborada y sofisticado, utilizada para
interrogar una base de datos por medio de una terminal de computadora.
En la búsqueda en una base de datos, desde luego, uno desea encontrar ítems que sean útiles
para satisfacer una necesidad de información, y evitar la recuperación de ítems inútiles. "Relevante"
y "pertinente" son términos empleados frecuentemente para referirse a ítems "útiles", y han sido
definidos de diferentes formas. Hay mucho desacuerdo sobre lo que realmente significan "relevancia"
y "pertinencia" (Lancaster, 1977). En este libro consideraré como sinónimos las expresiones "útil",
"pertinente" y "relevante para una necesidad de información". Esto es, un ítem pertinente (útil) es
aquel que contribuye a satisfacer alguna necesidad de información.

CENDIE – Actualización en procesos técnicos: Análisis Documental


2

Los problemas de recuperación de información están representados gráficamente en la figura 2. El


rectángulo interno representa una base de datos y los ítems que contiene. Los ítems con la señal de
adición (+) son aquellos que un consultante hipotético consideraría útiles para satisfacer alguna
necesidad de información actual, y los ítems con señal de sustracción (-) son aquellos que no
consideraría útiles. Para cualquier necesidad específica de información habrá muchos más ítems -
que ítems +. En realidad, si el diagrama fuera hecho "a escala", sería casi cierto que los 11 ítems
útiles estarían acompañados de toda una muralla de ítems inútiles. El problema está en recuperar
tantos ítems útiles como sea posible, y la menor cantidad posible de ítems inútiles.

- - - - - - - - - - + - - - - - - - -- - - - - - - -
---------------------

-------- ------------ ------


---------------------

----- -- ------------ -+----


- -------------------

Figura 2
El problema de la recuperación de ítems pertinentes de una base de datos

El menor de los dos rectángulos internos de la figura 2 representa los resultados de una
búsqueda realizada en una base de datos. Ella recuperó 57 ítems, de los cuales 6 fueron útiles y 51
inútiles. La relación entre ítems útiles y el total de ítems recuperados (6157 es cerca del 10 % en
este caso) es comúnmente denominada tasa de precisión. El índice empleado habitualmente para
expresar la extensión de todos los ítems útiles que son encontrados es la tasa de acierto. En este
caso, la tasa de acierto es de 6111 o cerca del 54 %.
En esa situación, probablemente sería necesario, para mejorar el acierto, hacer una búsqueda
más genérica. Esto está representado por el mayor de los dos rectángulos internos. Al hacer la
búsqueda más genérica aumenta el acierto al 8111 (73 %), pero la precisión declina también al
81112 o cerca del 7 %. Una característica desafortunada, propia de la recuperación de la
información, es que una mejoría del acierto generalmente causa un deterioro de la precisión y
viceversa.
La figura 2 sugiere otro fenómeno. Tal vez fuese posible hacer una búsqueda suficientemente
genérica para localizar todos los ítems útiles (esto es, alcanzar el 100 % de acierto), pero la
precisión sería probablemente inaceptable. Además, cuanto más grande fuera la base de datos,
menos aceptable sería una baja precisión. Mientras el usuario estaría dispuesto a mirar los
resúmenes de, digamos, 57 ítems, para encontrar 6 que le sean útiles, tal vez se sienta mucho
menos inclinado a examinar 570 resúmenes para encontrar 60 que le sean útiles. En bases de
datos muy grandes se torna, por lo tanto, progresivamente más difícil alcanzar un nivel de acierto
aceptable con un nivel de precisión tolerable.
En este libro empleo el término acierto para designar la capacidad de recuperar ítems útiles, y
precisión para designar la capacidad de evitar los inútiles. Existen otras medidas de desempeña

CENDIE – Actualización en procesos técnicos: Análisis Documental


3

para búsquedas realizadas en una base de datos (ver, por ejemplo, Robertson [1969]), algunas son
matemáticamente exactas, pero el acierto y la precisión componen el cuadro general y aún parecen
ser las medidas obvias para ser utilizadas para expresar los resultados de cualquier búsqueda que
simplemente divida una base de datos
en dos partes (recuperados y no recuperados).
La figura 1 muestra claramente que son muchos los factores que determinan si una búsqueda en
una base de datos es o no exitosa. Estos comprenden la cobertura de la base de datos, su política
de indización, sus reglas de indización, su política y reglas para la redacción de resúmenes, la
calidad del vocabulario utilizado en la indización, la calidad de las estrategias de búsqueda, etc.
Este libro no intenta tratar sobre todos esos factores (aunque todos están interrelacionados), se
concentra más en las actividades importantes de descripción del documento o, al menos, aquellas
concernientes con el contenido de los documentos.

PRINCIPIOS DE INDIZACIÓN
Mientras el título de este libro se refiere a "indización", su campo de acción está en realidad
limitado a la indización de temas y a la redacción de resúmenes. La indización de temas y la
redacción de resúmenes son actividades estrechamente relacionadas, ya que ambas implican la
preparación de una representación del contenido temático de los documentos. El analista redacta
una descripción narrativa o concisa del documento, mientras el indizador describe su contenido al
emplear uno o varios términos de indización, comúnmente seleccionados de algún tipo de vocabulario
controlado.
El principal objetivo del resumen es indicar de qué trata el documento o sintetizar su contenido. Un
grupo, de términos de indización sirve al mismo propósito. Por ejemplo, el siguiente conjunto de
términos proporciona una buena idea sobre lo que es tratado en cierto informe hipotético:
Centros de Información
Recursos compartidos
Catálogos colectivos
Catalogación cooperativa
Redes en línea
Préstamos interbibliotecarios
En cierto sentido, esa lista de términos puede ser considerada como una especie de miniresumen.
Serviría a ese propósito el que todos los términos fuesen reunidos en un índice publicado o copiado
por la impresora para representar un ítem recuperado de alguna base de datos, como resultado de
una búsqueda hecha en computadora.
Más claramente, los términos asignados por el indizador sirven como punto de acceso mediante
los cuales un ítem bibliográfico puede ser localizado y recuperado, durante una búsqueda por tema
en un índice publicado o en una base de datos legible por computadora. Así, en un índice impreso,
uno debería poder encontrar el ítem hipotético mencionado anteriormente bajo cualquiera de los seis
términos. En un sistema de recuperación computadorizado, naturalmente, uno esperaría poder
encontrarlo bajo cualquiera de los términos o, en realidad, bajo cualquier combinación de los mismos.
La diferencia entre indización y redacción de resúmenes se está tornando cada vez más difusa.
Por un lado, una lista de términos de indización pueden ser copiados de una impresora de modo de
constituir un miniresumen. Por el otro, el texto de los resúmenes pueden ser almacenados en un
sistema computadorizado de forma tal que permita la realización de búsquedas por medio de
combinación de palabras que ocurran en el texto. Esos resúmenes pueden ser utilizados en lugar de
términos de indización, permitiendo el acceso a los ítems, o complementar los puntos de acceso

CENDIE – Actualización en procesos técnicos: Análisis Documental


4

proporcionados por los términos de indización. En cierta medida eso modifica la función del analista,
quien debe ahora preocuparse no sólo por la redacción de una descripción clara y de buena calidad
del contenido de un documento, sino también por la creación de un registro que sea una
representación eficaz para fines de recuperación.
Si la indización y la redacción de resúmenes fuesen consideradas como actividades enteramente
complementarias, la naturaleza de la actividad de indización sufriría algún tipo de cambio. Por
ejemplo, el indizador se concentraría en la asignación de términos que complementasen los puntos
de acceso existentes en el resumen. No obstante, esa complementariedad debe ser enteramente
reconocida y comprendida por el usuario de la base de datos. De lo contrario, un conjunto de
términos de indización aislados daría una imagen bastante equivocada del contenido de un ítem.

Extensión del registro


Una de las propiedades más importantes de una representación del contenido temático es su
extensión. El efecto de la extensión del registro está ilustrado en el ejemplo de la figura 3. A la
izquierda están varias representaciones del contenido de un artículo de revista en forma de texto
narrativo; a la derecha, están dos representaciones en forma de listas de términos de indización.
El título contiene una indicación general sobre aquello de qué trata el artículo. El resumen breve
da más detalles, indicando que los artículos presentan resultados del estudio e identificando las
principales cuestiones analizadas. El resumen ampliado va más allá, identificando todas las
cuestiones a estudiar e informando sobre el tamaño de la muestra utilizada en el estudio.
Cuanta más información es presentada, más claramente la representación señala el alcance del
artículo y es más probable que vaya a indicar al lector si ese artículo satisface o no alguna
necesidad de información. Por ejemplo, alguien tal vez esté buscando artículos que mencionen las
actitudes norteamericanas en relación a varios líderes árabes. El título no da señal alguna de que
ese tema específico sea analizado, y el resumen breve, al focalizar otros temas, sugiere que tal vez
eso no acontezca. Solamente el resumen ampliado muestra que el artículo incluye información
sobre este tema.
Cuanto más extensa es la representación, también proporciona más puntos de acceso. Si las
palabras del título fuesen los únicos puntos de acceso, ese ítem probablemente sería omitido en
muchas búsquedas para las cuales sería considerado una respuesta válida. En la medida en que
se aumenta la extensión de la representación también se aumenta la recuperabilidad del ítem. Es
probable que solamente con un resumen ampliado se pudiera recuperar ese ítem en una búsqueda
de información sobre las actitudes norteamericanas para con los líderes árabes.

Título Indización (selectiva)


Encuesta nacional de opinión pública sobre las actitudes OPINIÓN PÚBLICA
norteamericanas sobre el Oriente Medio ENCUESTA TELEFÓNICA
ESTADOS UNIDOS
Resumen (breve) ACTITUDES
Una encuesta telefónica realizada en 1985 presenta ORIENTE MEDIO
opiniones sobre temas tales como: ayuda
norteamericana a Israel y a Egipto; si los EUA deben
tomar partido por Israel, las naciones árabes o por Indización (exhaustiva)
ninguno; si la OLP debe participar en una; y si un Estado OPINIÓN PÚBLICA
Palestino independiente es un pre-requisito para la paz. ENCUESTA TELEFÓNICA

CENDIE – Actualización en procesos técnicos: Análisis Documental


5

ESTADOS UNIDOS
Resumen (ampliado) ACTITUDES
En 1985 fueron realizadas encuestas telefónicas con una ORIENTE MEDIO
muestra probabilística de 655 norteamericanos. Se ISRAEL
obtuvieron respuesta a las siguientes cuestiones: el EGIPT'O
establecimiento de un Estado Palestino es esencial para NACIONES ÁRABES
la paz; se debe reducir la ayuda norteamericana a Israel ORGANIZACIÓN PARA
y a Egipto; los EUA deben participar en una conferencia LA LIBERACIÓN DE
de paz que incluya a la OLP; deben los EUA no PALESTINA
favorecer a Israel ni a las naciones árabes, pero si CONFERENCIAS DE PAZ
mantener una relación amistosa con ambas? También PAZ
se expresaron opiniones sobre los líderes de Oriente ESTADO PALESTINO
Medio (Hussein, Arafat, Peres, Mubarak, Fahd, Assad), POLÍTICA DE AYUDA
especialmente sus esfuerzos por la paz, y si los EXTERNA
entrevistados poseían o no información sobre los LÍDERES POLÍTICOS
diversos grupos nacionales de la región.

Figura 3
Efecto de la extensión del registro sobre la recuperabilidad

La misma situación se aplica a la indización. La indización selectiva, abarcando sólo cinco


términos, presenta una indicación mucho más general aquello de qué trata el artículo
(aproximadamente equivalente, en este aso, al título) y un nivel de acceso muy limitado. La
indización más exhaustiva proporciona una indicación mucho mei6r del tema específico de qué trata
artículo, como también permite muchos más puntos de acceso.

Etapas en la indización de temas


La indización de temas abarca dos etapas principales:
1. Análisis conceptual, y
2. Traducción
Intelectualmente son etapas completamente distintas, aunque no siempre son diferenciadas con
claridad y pueden, efectivamente, ocurrir simultáneamente.
El análisis conceptual, antes que nada, implica decidir de qué trata un documento - esto es, cuál es
el tema. La lista de términos sobre la derecha de la figura 3, representa un análisis conceptual de un
artículo hecho por este autor - lo que él consideró era el tema del artículo.
Esta afirmación acerca del análisis conceptual está bastante simplificada. La indización de temas
está normalmente hecha para satisfacer las necesidades de un determinado público - los usuarios de
un centro de información o de una publicación específica. Una indización de temas eficiente implica
decidir no sólo en cuanto a lo que es tratado en el documento, sino también por qué es probable que
sea de interés para un determinado grupo de usuarios. En otras palabras, no hay un conjunto
"correcto" de términos de indización para ítem alguno. La misma publicación puede ser indizada en
forma bastante diferente en diversos centros de información, y debiera ser indizada de modo
diferente, si los grupos de usuarios estuvieran interesados en ese ítem por razones distintas.

CENDIE – Actualización en procesos técnicos: Análisis Documental


6

El indizador, entonces, debe formularse varias preguntas acerca de un ítem:

1. De qué trata?
2. Por qué fue incorporado a nuestra colección?
3. Qué aspectos serán de interés para nuestros usuarios?.

Este punto está bien ejemplificado en la figura 4. Ese ejemplo hipotético se refiere a un informe
publicado por la National Aeronautics and Space Administration (NASA) y trata sobre un vuelo
espacial tripulado. Cuando la NASA incorpora ese informe a su propia base de datos, probablemente
está interesada en todas sus facetas y lo indizará exhaustivamente, procurando cubrir todos sus
aspectos, tal vez en un nivel bastante genérico. Una parte del informe se refiere a los trajes usados
por los astronautas, mencionando algunos compuestos nuevos de caucho sintético utilizados en parte
de los trajes.
Esto hace que el informe sea de interés para una fábrica de caucho. Al ser incorporado a la colección
de documentos de esa fábrica, el informe será indizado, no obstante, de modo bastante diferente.
Serán utilizados términos altamente específicos para indizar los nuevos compuestos, y el término
genérico TRAJES ESPACIALES podría ser utilizado para indicar una determinada aplicación de los
compuestos. Una empresa metalúrgica podría interesarse en este informe por otro motivo: se
menciona una nueva técnica de soldadura desarrollada para combinar ciertas aleaciones en la
construcción de un vehículo espacial. Aquí será indizado bajo los términos relativos a soldaduras, a
metales y tal vez el término de aplicación genérica VEHÍCULOS ESPACIALES. La fábrica de caucho
indiza el informe en forma muy diferente de la empresa metalúrgica, y ninguno de esos conjuntos de
términos se asemeja a la lista más exhaustiva utilizada por la propia NASA.
Esto es como debe ser. Cuanto más especializada es la clientela de un centro de información, mayor
la probabilidad de que la indización pueda y deba ser hecha a la medida, para el preciso interés -del
grupo. Solamente en instituciones de carácter más genérico - por ejemplo, bibliotecas universitarias
generales - existe la posibilidad de que una organización indice un ítem exactamente de la misma
forma que otra.

Relatorio Técnico de la NASA Describiendo una Nueva Misión Espacial Tripulada

NASA Fábrica de caucho Empresa Metalúrgica


- Indización - Nuevos - Nuevas
- exhaustiva - compuestos - técnicas
- cubriendo - de - de soldadura
- todos los - caucho - y metales
- aspectos sintético - involucrados
- en un nivel TRAJES
- un tanto ESPACIALES VEHÍCULOS
- genérico ESPACIALES

Figura 4
Ejemplo de un ítem indizado según diferentes puntos de vista

CENDIE – Actualización en procesos técnicos: Análisis Documental


7

Existe una importante lección Para aprender de esto. Los indizadores necesitan saber mucho más
que los principios de indización. Deben, en especial, estar enteramente familiarizados con los
intereses de la comunidad atendida y las necesidades de información de los miembros de esa
comunidad. En realidad, sería deseable, habitualmente, que el indizador no permanezca "entre
bastidores", sino que también debería trabajar en otras actividades, inclusive la de bibliotecario de
referencia.

Atinencia

En la exposición previa no se hizo un intento por definir "de qué trata": la expresión "de qué trata"
era simplemente un sinónimo para "tiene por tema". Esto es, se utiliza "de qué trata un documento"
para significar lo mismo que "los temas de un documento". Estas expresiones quizás no sean muy
precisas y no es fácil definir "trata de" y "tiene por tema". Sin embargo, son expresiones que parecen
aceptables para la mayoría de las personas, siendo por ello comprendidas. No es mi intención entrar
en una discusión filosófica sobre el significado de "trata de" o "atinencia". Varios autores ya lo
hicieron. Y ni de esta manera consiguieron esclarecer la situación, al menos en lo que concierne a la
tarea de indización de temas. Beghtol (1986) y Hutchins (1978) recurren a la lingüística del texto al
examinar esta cuestión; Maron (1977) adopta un enfoque probabilístico, y Swift et al. (1978) son más
cautelosos al señalar que la atinencia en la indización tal vez no coincida con la atinencia que las
personas que están buscando información tienen en mente. Más recientemente, Frohmann (1990) se
vale de la obra de Wittgenstein para criticar algunos abordajes de la teoría de la indización. Wilson
(1968) llega a dar a entender que la indización de temas se enfrenta con problemas "intratables", ya
que es tan difícil decidir de qué trata un documento. Pero ¿será que necesitamos realmente
comprender que es "atinencia" a fin de indizar eficazmente? ¿No bastará que seamos capaces de
reconocer que un documento es de interés para una determinada comunidad porque contribuye a
nuestra comprensión de los tópicos x, y y z? El reconocimiento de que contribuye de esta forma
ejemplifica el proceso que hemos llamado "análisis conceptual", mientras el proceso de "traducción"
involucro una decisión sobre cuáles de los rótulos disponibles representan mejor a x, y y z.
"Concepto" es otra palabra sobre la cual algunos autores gustan de filosofar (ver, por ejemplo,
Dahlberg [1979]). En este libro lo empleo para referirme a un tópico estudiado por un autor.
"Análisis conceptual", entonces, significa nada más que la identificación de los tópicos tratados en
un documento. Preschel (1972) tiene un abordaje muy práctico. Ella interpreta que "concepto"
significa "materia indizable" y define "análisis conceptual" como la "percepción del indizador de la
materia indizable". También Tinker es práctico (1966):

Al asignar un descriptor [por ejemplo, un término de indización] a un documento, el indizador


afirma que ese descriptor tiene un alto grado de relevancia para el contenido del documento;
esto es, afirma que el significado del descriptor está fuertemente asociado con un concepto
incluido en el documento, y que es adecuado para el área temática del documento (p. 97).

Wooster (1964) es aún más pragmático. Él se refiere a la indización como a la asignación de


términos "probablemente relacionados de alguna forma con el contenido intelectual del documento
original, para ayudar a encontrarlo cuando lo necesite".
No encuentro nada erróneo en esas definiciones o descripciones pragmáticas de indización
temática. Los puristas indudablemente tergiversaron sobre ellas argumentando que expresiones
como "materia indizable", "relevancia", "significado", "asociado con", "concepto", "adecuado para",

CENDIE – Actualización en procesos técnicos: Análisis Documental


8

"relacionado con" y "contenido intelectual" no se encuentran definidas precisamente de modo de


satisfacer a todos. Sin embargo, hay que llegar a un acuerdo sobre la definición exacta de los
términos antes de proseguir cualquier tarea, de otra forma difícilmente logremos mucho, sea en
indización o en cualquier otra actividad.
Weinberg (1988) sostiene la hipótesis de que la indización frustra al investigador porque trata
apenas en forma genérica con aquello de que "trata" un documento y no focaliza aquello que le
proporciona la "novedad" respecto al tópico. Ella sostiene que esta distinción se refleja en la
diferencia entre "atinencia" y "aspecto", entre "tópico" y "comentario" o entre "tema" y "rema". Ella no
logra convencer que esas distinciones sean realmente útiles en el contexto de la indización o que sea
posible para los indizadores mantener esas distinciones.
Swift et al. (1978) examinan las limitaciones de un enfoque basado en la atinencia en la indización
en ciencias sociales. Recomiendan indizar los documentos de acuerdo a los "problemas" con los
cuales parezcan estar relacionados. Es difícil ver cómo la distinción que hacen difiere de la distinción,
hecha anteriormente en este capítulo, entre lo que trata un ítem y porqué un determinado usuario o
grupo de usuarios tendría interés en él. Crowe (1986) afirma que el indizador debe remitir al "punto
de vista subjetivo" del autor. Uno de sus ejemplos trata el tema de la depresión, el cual puede ser
estudiado en libros 0 artículos desde distintos puntos de vista (por ejemplo, tratamiento por medio de
psicoterapia, por medio de medicamentos, etc.). Nuevamente es difícil ver como eso difiere de la
práctica habitual de la indización - por ejemplo, el empleo de subencabezamientos de la National
Library of Medicine.
Breton (1 98 1) sostiene que los ingenieros hacen poco uso de las bases de datos porque los
indizadores rotulan los ítems con los nombres de los materiales o dispositivos, mientras que es más
probable que necesiten hacer las búsquedas por los atributos o las funciones desempeñadas por
ellos. En otras palabras, les gustaría localizar un material o un dispositivo que satisfaga algún
requisito actual (como resistencia, conductividad, resistencia a la corrosión, o cualquiera que sea) sin
tener que nombrarlo. Esto no es una condena a la indización de temas de por sí, sino de las políticas
de indización adoptadas por la mayoría de los productores de bases de datos. Si en un informe se
manifiesta, al describir un nuevo material o una aleación, que posee una cierta resistencia a la
tracción, esta propiedad puede ser indizada (por ejemplo, asignando el término RESISTENCIA A LA
TRACCIÓN), pero el valor específico de esa propiedad (esto es, la resistencia alcanzable), no sería
indizado por la mayoría de los productores de bases de datos, aunque sea posiblemente mencionado
en el resumen. Naturalmente, no hay razón para que los valores no sean indizados (por ejemplo, el
término RESISTENCIA A LA TRACCIÓN podría ser subdividido en veinte términos más específicos,
cada uno representando un orden de valores de resistencia a la tracción) y ellos estarían en algunas
bases de datos, tal como los índices de una empresa para sus propios archivos de contratos, índices
de compilación de datos, o ciertas bases de datos de patentes. Algunas de la objeciones de Breton,
entonces, serían contestadas mediante la indizaci0n en un nivel mucho más alto de especificidad.
Las funciones también pueden ser indizadas ya que las posibles funciones de un dispositivo son
identificadas por el autor, y existen términos apropiados en el vocabulario de la base de datos, pero
es totalmente irracional esperar que el indizador sea capaz de reconocer aplicaciones que no fueran
específicamente afirmadas por el autor.
Ha llegado a estar de moda en los últimos años considerar los problemas de recuperación de la
información como fundamentalmente la comparación del "estado anómalo del conocimiento" de un
solicitante con el estado de conocimiento mas "coherente" de los autores (ver, por ejemplo, Belkin et
al.[19821), implicando esto que los problemas residen más en la salida del sistema (búsqueda) que
en la entrada. Esto es algo engañoso. Si aceptamos que la indización es más eficiente cuando está

CENDIE – Actualización en procesos técnicos: Análisis Documental


9

orientada hacia las necesidades de un determinado grupo de usuarios, la función de un indizador


será preveer los tipos de pedidos para los cuales un determinado documento será probablemente una
respuesta útil. Esto es probablemente más difícil que predecir qué tipos de documentos tienen la
probabilidad de ser una respuesta útil a un determinado pedido, lo que es, en cierto sentido, la
función de quien hace la búsqueda. Se puede argumentar, entonces, que el estado "anómalo" del
conocimiento se aplica más a la entrada del sistema de recuperación que a su salida. Olafsen y
Vokac (1983) marcan ese punto claramente:

El indizador tiene que hacer conjeturas sobre qué consultas serán formuladas por el futuro
usuario del sistema. Sin considerar el grado de habilidad aplicada en ese ejercicio de
adivinanza, aún serán conjeturas, mientras el usuario accede al sistema con su propia cuestión
concreta, y sus asociaciones pueden ser diferentes de las del indizador. (p. 294)

Ellos también simplifican demasiado en lo referente a las cuestiones traídas por el usuario como
"concretas", cuando, de hecho, muchas de ellas están lejos de serio. No obstante, están
probablemente en lo correcto al dar a entender que los problemas de una eficiente entrada de datos
en un sistema de recuperación de información superan los problemas de la salida. Como señaló
Fairthone (1958), hace muchos años atrás: "La indización es el problema fundamental así como
también el costoso cuello de botella de la recuperación de la información."
En algunas aplicaciones de la indización tal vez sea posible ser bastante más preciso sobre qué
debe ser considerado "indizable". Al tratar la indización de una enciclopedia, por ejemplo, Preschel
(1981) ofrece las siguientes directrices:

Toda información textual de naturaleza sustantivo debe ser indizada. Se define como
"sustantivo" la información que abarca de 8 a 10 líneas de texto o que es original o destacada y
que casi con certeza no ocurre en otro lugar de la enciclopedia.
En otras situaciones no siempre es posible ser tan preciso.

Traducción

Traducción, la segunda etapa de la indización de temas, implica la conversión del análisis


conceptual de un documento en un determinado conjunto de términos de indización. En cuanto a
esto, se hace una distinción entre indización por extracción indización derivada) e indización por
asignación. En la indización por extracción, palabras o expresiones que realmente ocurren en un
documento son seleccionadas para representar su contenido temático. Por ejemplo, el ítem de la
figura 3 puede ser indizado con los siguientes términos:

OPINIÓN PÚBLICA
ENCUESTA TELEFÓNICA
ESTADOS UNIDOS
ACTITUDES
ORIENTE MEDIO
ISRAEL
EGIFITO
AYUDA
PAZ

CENDIE – Actualización en procesos técnicos: Análisis Documental


10

todos los cuales aparecen en el título o en el resumen. Una forma primitiva de indización derivada,
conocida como Uniterm empleaba únicamente términos de una sola palabra para representar el
contenido temático. Si fuese estrictamente observado, el sistema Uniterm acarrearía algunos
resultados extraños,
como la separación de Oriente Medio en ORIENTE y MEDIO.
La indicación por asignación implica la asignación de términos a un documento a partir de una
fuente que no es el propio documento. Los términos pueden ser extraídos de la cabeza del indizador
- por ejemplo, el indizador decide que los términos AYUDA EXTERNA y RELACIONES
EXTERIORES, que no aparecen explícitamente en ninguno de los resúmenes, serían buenos
términos para usar en el ítem de la figura 3.
Usualmente, la indización por asignación implica el esfuerzo de representar la sustancia del
análisis conceptual mediante el empleo de términos extraídos de alguna forma de vocabulario
controlado.

Vocabularios controlados

Un vocabulario controlado es básicamente una lista de términos autorizados. En general, el


indizador solamente puede asignar a un documento términos que aparecen en la lista adoptada por la
institución para la cual trabaja. Comúnmente, sin embargo, el vocabulario controlado es más que una
mera lista. Generalmente incluye alguna forma de estructura semántica. En particular, esta estructura
esta destinada a:

1. Controlar sinónimos, optando por una única forma normalizada, con remisión de todas las
otras;
2. Diferenciar homógrafos. Por ejemplo, PLANTAS (BOTÁNICA) es un término bastante
diferente de PLANTAS (INDUSTRIA); y
3. reunir o vincular términos cuyos significados presenten una relación más estrecha entre
sí. Dos tipos de relaciones son explícitamente identificadas: las jerárquicas y las no
jerárquicas (o asociativas). Por ejemplo, el término MUJERES TRABAJADORAS está
relacionado jerárquicamente con MUJERES (como una especie de este término) y con
AMAS DE CASA (también una especie del término MUJERES), así como está asociado a
otros términos, como EMPLEO o FAMILIAS UNIPATERNAS, que aparecen en jerarquías
completamente diferentes.

Se identifican tres tipos principales de vocabularios controlados: esquemas de clasificación


bibliográfica (como la Clasificación Decimal de Dewey), listas de encabezamientos de materia y
tesauros. Todos procuran presentarlos términos tanto alfabética como "sistemáticamente". En las
clasificaciones bibliográficas, el ordenamiento alfabético es secundario, en la forma de un índice que
remite para el ordenamiento principal, el cual es jerárquico. En los tesauros, el ordenamiento
manifiesto de los términos es alfabético, pero una estructura jerárquica implícita está incorporada a la
lista alfabética por medio de referencias. La lista tradicional de encabezamientos de materia es similar
al tesauro en que su base es alfabética. Difiere del tesauro por incorporar una estructura jerárquica
imperfecta y por no distinguir claramente entre las relaciones jerárquicas y las asociativas. Los tres
tipos de vocabularios controlan sinónimos, distinguen los homógrafos y agrupan términos afines, pero
emplean métodos algo diferentes para alcanzar estos objetivos.

CENDIE – Actualización en procesos técnicos: Análisis Documental


11

Un estudio más completo de estas cuestiones puede encontrarse en el libro de este autor
Vocabulary controlfor information retrieval (segunda edición, Arlington, VA., Information Resources
Press, 1986).

Indización como clasificación

En la bibliografía de bibliotecología y ciencia de la información, se hace algunas veces, una


distinción entre las tres expresiones indización de materias, catalogación de materias y clasificación.
Catalogación de materias se refiere comúnmente a la asignación de encabezamientos de materia
para representar el contenido total de ítems bibliográficos completos (libros, informes, periódicos, etc.)
en el catálogo de una biblioteca. Indización de materias es una expresión usada de modo más
impreciso; se refiere a la representación del contenido temático de partes de ítems bibliográficos
completos, como es el caso del índice al final de un libro. De esta manera, una biblioteca puede
"catalogar" un libro bajo el encabezamiento de materia PERROS, para indicar su contenido temático
global; su contenido detallado solamente es revelado por el índice de materias al final del libro. Esta
distinción entre las expresiones catalogación de materias e indización de materias, una refiriéndose a
ítems bibliográficos completos y la otra a partes de ítems, es artificial, engañosa e incoherente. El
proceso por el cual el contenido temático de los ítems bibliográficos están representados en las bases
de datos publicadas - en forma impresa o legible por computadora - está casi invariablemente
designado como indización de materias, aunque se estén examinando ítems global 0 parcialmente.
De esta manera, el índice de materias del, digamos, Chemical Abstracts remite a libros o informes
técnicos enteros, como también a partes de ítems bibliográficos (capítulos de libros, trabajos
publicados en anales de conferencias, artículos de revistas). Por otro lado, las bibliotecas pueden
optar por representar en sus catálogos partes de libros (por ejemplo, capítulos o artículos); a esto se
denomina comúnmente catalogación analítica. Cuando es aplicada al contenido temático, esta
actividad sería catalogación analítica de materias.
La situación es aún más confusa cuando se considera el término clasificación. Los bibliotecarios
tienden a emplear esta palabra para referirse a la asignación de números de clasificación (extraídos
de algún esquema de clasificación - por ejemplo, la Decimal de Dewey [CDD], la Decimal Universal
[CDU], o la Library of Congress [LC]) a ítems bibliográficos, especialmente con la finalidad de ordenar
esos ítems en los estantes de la biblioteca, en gabinetes de archivos, etc. Pero el catálogo de
materias de una biblioteca puede ser organizado alfabéticamente (un catálogo alfabético de materias
o un catálogo diccionario) u organizado acorde a la secuencia de algún esquema de clasificación (un
catálogo -sistemático). Supongamos que un bibliotecario tome un libro y decida que el mismo trata
de "aves". Le asigna el encabezamiento de materia AVES a ese ítem. Alternativamente, puede
asignarle el número de clasificación 598.2. Muchos se referirían a la primera operación como
catalogación de materias y a la segunda como clasificación, una distinción completamente absurda.
Una mayor confusión ocurre cuando uno comprende que la indicación de materias puede incluir el
empleo de un esquema de clasificación o que un índice de materias en forma impresa puede adoptar
la secuencia de algún esquema de clasificación.
Estas diferencias terminológicas son totalmente sin sentido y sólo sirven para causar confusión. El
hecho es que la clasificación, en su sentido más amplio, penetra todas las actividades asociadas con
el almacenamiento y recuperación de la información. Parte de esa confusión terminológica es
causada por la incapacidad de distinguir entre las etapas de análisis conceptual y de traducción en la
indización.

CENDIE – Actualización en procesos técnicos: Análisis Documental


12

Supongamos que un especialista en información tome algún ítem bibliográfico y decida que trata el
tema "robots". La actividad intelectual que esa decisión implica es la misma, cualquiera sea el tipo de
ítem - libro, parte de un libro, revista, artículo de revista, anales de conferencia, trabajo leído en una
conferencia, o lo que fuere. El especialista en información clasifica el ítem, esto es, lo pone en la
clase conceptual de "ítems que tratan de robots".
Como vimos anteriormente, el proceso de traducción comprende la representación del análisis
conceptual mediante un término o términos extraídos de algún vocabulario. Un término asignado a
un ítem bibliográfico es simplemente un rótulo que identifica una determinada clase de ítems. Ese
rótulo puede ser la palabra robot, extraída de un tesauro, de una lista de encabezamientos de materia
o del mismo documento, una palabra equivalente en otra lengua, o un rótulo como 629.892 extraído
de algún esquema de clasificación.
El proceso de decidir de qué trata algún ítem y de asignarle un rótulo que represente esta decisión
es conceptualmente lo mismo, si el rótulo es extraído de un esquema de clasificación, de un tesauro o
de una lista de encabezamientos de materia, si el ítem es una entidad bibliográfica completa o parte
de ella, si el rótulo es subsecuentemente archivado en orden alfabético o en alguna otra secuencia (o,
de hecho, no archivado de modo alguno), y si el objeto del ejercicio es organizar ítems en estantes o
registrasen catálogos, índices impresos o bases de datos legibles por computadora.

En el campo del almacenamiento y recuperación de la información, la clasificación de documentos


se refiere a la formación de clases de ítems sobre la base de su contenido temático. Tesauros,
encabezamientos de materia y esquemas de clasificación bibliográfica son esencialmente listas de
rótulos con los cuales se identifican y, por ventura, se organizan esas clases. El proceso de
búsqueda de información implica decidir qué clases consultar en un índice impreso, catálogo en
fichas o base de datos legible por computadora. Una búsqueda puede comprender el examen de una
única clase (por ejemplo, todo lo que aparezca bajo el encabezamiento ROBOTS) o puede involucrar
la combinación de clases (por ejemplo, ítems aparecidos bajo ROBOTS y también bajo
INTELIGENCIA ARTIFICIAL). Cuántas combinaciones son posibles, o cuán fácilmente se pueden
combinar varias clases, es algo que depende mucho del formato del instrumento utilizado en la
búsqueda, principalmente si es impreso o en forma electrónica.
En resumen, la indización de materias es conceptualmente idéntica a la catalogación de materias.
La actividad que esto abarca es la de la clasificación de materias, es decir, formar clases de objetos
sobre la base de su contenido temático. En este texto, el término indización de materias o incluso
indización es usado, por razones de comodidad, para designar todas las actividades de clasificación
de materias.

Especificidad del vocabulario

La figura 5 muestra un análisis conceptual preparado para un artículo de revista y la traducción de


este análisis conceptual en tres diferentes tipos de vocabulario. El artículo trata de la utilización de
robots en la industria, específicamente, sus aplicaciones en la fabricación y manipulación de
materiales. También examina el empleo de técnicas de inteligencia artificial en el proyecto y
operación de robots, así como los problemas específicos involucrados en hacer que los robots se
muevan adecuadamente (esto es, problemas de locomoción). Con relación a la mayoría de esos
aspectos, el análisis conceptual puede ser traducido efectivamente para cualquiera de los
vocabularios. El único problema real que se presenta es la idea de locomoción. Ninguno de los
vocabularios parece incluir un término apropiado que abarque los movimientos de un mecanismo,

CENDIE – Actualización en procesos técnicos: Análisis Documental


13

como es un robot. Se puede argumentar, no obstante, que los problemas de locomoción de los
robots son realmente los problemas de locomoción humana (esto es, el de proyectar robots que
tengan tanta flexibilidad de movimiento como los seres humanos), y esta idea se encuentra
expresada claramente en la Clasificación Decimal de Dewey (CDD) y en la Library of Congress
Subject Headings (LCSH). El tesauro INSPEC parece carecer de un término apropiado que contenga
la idea de locomoción.
Se debe observar que las ideas transmitidas por el análisis conceptual en la figura 5 son
abarcadas colectivamente por los grupos de términos listados en los tres vocabularios. Por ejemplo,
los cinco números de clasificación de CDD, tomados en conjunto, abarcan el contenido temático de
ese artículo clara y completamente, si bien no hay una relación unívoca entre los elementos
individuales del análisis conceptual y los términos de la CDD. Esta clasificación carece del término
específico "robots industriales". No obstante, la combinación de 629.892 y 670.427 ciertamente
transmite la idea de robots en operaciones de fabricación, de la misma forma que 629.892 combinado
con 621.86 transmite la idea de robots como dispositivos de manipulación de materiales; 629.892 con
006.3, la idea de inteligencia artificial aplicada a robots; y 629.892 con 612.76, la idea de locomoción
de robots simulando la locomoción humana.
Dejando de lado la idea de locomoción, que no aparece en INSPEC, el análisis conceptual de la
figura 5 está incluido de igual modo, completa y específicamente, en cada vocabulario, cuando se
consideran grupos enteros de términos. En el nivel de un único término, desde luego, existen de
hecho diferencias. Si sólo un término pudiese ser asignado a ese artículo, LCSH e INSPEC serían
mejores que la CDD, ya que pueden diferenciar los robots industriales de los robots en general.

Análisis Clasificación Library of INSPEC


conceptual Decimal de Congress Subject Thesaurus
Dewey Headings

Robots 629.892 Robots ROBOTS ROBOTS


industiales (autómatas) INDUSTRIALES INDUSTRIALES

Inteligencia 006.3 Inteligencia INTELIGENCIA INTELIGENCIA


artificial artificial ARTIFICIAL ARTIFICIAL

Operaciones de 670.427 Mecaniza- PROCESOS DE PROCESOS DE


fabricación ción y automatiza- FABRICACIÓN FABRICACIÓN
ción de operaciones
fabriles

Manejo de 621.86 Equipo para MANEJO DE MANEJO DE


materiales manejo de materiales MATERIALES MATERIALES

Locomoción 612.76 Locomoción LOCOMOCIÓN


(fisiología humana) HUMANA

Figura 5
Análisis conceptual traducido en tres vocabularios controlados

Este ejemplo ilustra dos aspectos importantes. Primero, el tipo de vocabulario controlado
(esquema de clasificación, encabezamientos de materia, tesauro) no es el factor más importante que
afecta la etapa de traducción de la indización. Mucho más importantes son el alcance (cobertura) y la
especificidad del vocabulario. En este ejercicio de indización, la CDD y la LCSH son mejores que el
INSPEC que carece de un término para locomoción. El segundo aspecto que ilustra el ejemplo es

CENDIE – Actualización en procesos técnicos: Análisis Documental


14

que, aunque la especificidad es una propiedad muy importante de un vocabulario controlado, puede
ser alcanzada de diferentes formas en diferentes vocabularios. Es importante considerar, en
especial, las propiedades de combinaciones de los términos de indización más que las propiedades
de los términos aislados.
Consideremos, como ejemplo, un artículo que analiza los servicios de salud mental. El vocabulario
A contiene el descriptor específico SERVICIOS DE SALUD MENTAL, mientras el vocabulario B
posee el término SERVICIOS DE SALUD, pero no el término más específico. Sin embargo, B
también incluye el término SALUD MENTAL, de modo que la idea de "servicios de salud mental" está
específicamente incluida por la indización bajo SERVICIOS DE SALUD y SALUD MENTAL. Con
respecto a este tema, entonces, el vocabulario B es tan específico como A. Los vocabularios C y D
son menos específicos: C contiene el término SALUD MENTAL, pero no posee otro término para
servicios de salud, mientras D contiene SERVICIOS DE SALUD, pero carece de un término para
salud mental, de modo que ninguno de los dos presenta la posibilidad de expresar específicamente la
idea de "servicios de salud mental". En el momento de realizar una búsqueda en los sistemas
representados por los diferentes vocabularios, sería posible obtener resultados efectivos en A y B,
pero sería imposible limitar la búsqueda en C y D - o sería recuperado todo sobre salud mental, o
todo sobre servicios de salud.

PRÁCTICA DE LA INDIZACIÓN

Un indizador raramente se da el lujo de poder leer un documento atentamente del principio al fin. La
exigencia de que índice una cierta cantidad de ítems por día habrá de imponerle que acepte por lo
general una lectura que no sea completa. Usualmente, se recomienda una combinación de lectura y
de "hojeo" del texto. Las partes que serán leídas atentamente son las que presentan mayor
probabilidad de decir lo máximo acerca del contenido en el menor tiempo: el título, el resumen, el
resumen del autor [summary] y las conclusiones. Los títulos de las secciones y de los epígrafes de
las ilustraciones o tablas también merecen mayor atención. Conviene hojear el resto del texto, para
asegurarse que las partes más condensadas presentan una imagen exacta de lo que trata el ítem. No
obstante, el indizador debe, habitualmente, tener en cuenta el documento entero (partes leídas,
partes hojeadas) y los términos asignados deberían reflejar el todo. La excepción sería el caso en
que solamente parte del documento (por ejemplo, un extenso ítem con múltiples temas) fuese de
interés para el grupo de usuarios a ser atendidos.
Jones (1976), citando a Anderson (1971), señala que ciertas partes de un documento son
particularmente útiles para un indizador: "Parágrafos de apertura (de capítulos o secciones) y frases
de apertura y cierre de parágrafos parecen ser especialmente ricos en palabras indizables". Esto
concuerda con las conclusiones de Baxendale (1958) en su trabajo sobre el desarrollo de
procedimientos para la indización automática de documentos.
La norma internacional sobre indización de materias (ISO 5963-1985 [E]) ofrece orientación adicional
para el examen de un documento:

Frecuentemente es impracticable hacer una lectura completa, ni siempre es necesario, pero el


indizador debe asegurarse que ninguna información útil le pasó desapercibida. Las partes
importantes del texto deben ser examinadas cuidadosamente, prestándole especial atención a
las siguientes:

CENDIE – Actualización en procesos técnicos: Análisis Documental


15

a) el título;
b) el resumen, si proporciona;
c) el sumario;
d) la introducción, las frases y parágrafos de comienzo de capítulos, y las conclusiones;
e) ilustraciones, gráficos, tablas y sus correspondientes leyendas;
f) palabras o grupos de palabras que aparezcan subrayadas o impresas en tipos diferentes.

Todos estos elementos deben ser examinados y evaluados por el indizador durante el análisis
del documento. No es recomendable hacer la indización a partir exclusivamente del título, y, en
caso que haya un resumen, el mismo no debe ser visto como un sustituto satisfactorio del
examen del texto. Los títulos pueden ser engañosos; tanto los títulos como los resúmenes
pueden ser inadecuados; en muchos casos ninguno es una fuente contable del tipo de
información que el indizador necesita. (P. 2) ∗

En su amplio estudio sobre como actúan realmente los indizadores, Oliver et al. (1966),
descubrieron que la mayoría sigue el método de leer/hojear:

El grupo más grande de indizadores (cerca del 85 % del total) afirmó que examinan
rutinariamente el documento entero. Sin embargo, esos indizadores acentuaron que ciertas
partes del documento eran examinadas más atentamente que otras. Esas partes incluían el
resumen, la introducción, el resumen del autor [summary], las conclusiones, la metodología, los
resultados y tablas y gráficos. Si una o más de esas secciones "condensadas" fuese
considerada adecuada por el indizador, el podría examinar superficialmente o simplemente
"hojear" otras partes del documento. Los principales motivos presentados para examinar el
cuerpo del documento fueron para ver si pasaban por alto alguna cosa, ofrecer mayor
profundidad de indización, y aclarar cualquier duda o cuestión. (p.4-14)

Todo eso se apoya en la suposición de que es posible leer el ítem a ser indizado. Como señala la
norma internacional (ISO 5963-1985[E]), se aplicarán procedimientos diferentes a otros tipos de
ítems:

Documentos no impresos, como los medios audiovisuales, visuales y sonoros, inclusive objetos
tridimensionales, exigen procedimientos diferentes. No siempre es posible, en la práctica,
examinar un registro en su integridad (por ejemplo, proyectando un filme). La indización,
entonces, es comúnmente realizada a partir de un título y/o de una sinopsis, aunque al
indizador se le debe permitir mirar u oir la obra, si la descripción escrita es inadecuada o parece
inexacta. (p. 2)

El motivo para examinar el documento es, naturalmente, para decidir qué incluir en la indización
(en los términos de Preschel [19711, esto es la identificación de la "materia indizable"). Como lo
sugerido en el capítulo 2, el indizador, para hacer esto en forma eficiente, debe conocer muy bien los
intereses de la comunidad a la que sirve el índice. Dentro de una institución específica, los
indizadores pueden ser instruidos para buscar en los documentos ciertos elementos predefinidos; si


Los pasajes de la norma ISO 5963 que aparecen en este capítulo son reproducidos con el permiso de la Organización Internacional de
Normalización.

CENDIE – Actualización en procesos técnicos: Análisis Documental


16

esto ocurre, serán incluidos en la indización. De acuerdo al tipo de institución, esos elementos
importantes incluyen: materiales de fabricación, temperaturas implicadas, agrupamientos por edades
involucrados, nivel educacional, etc. En ciertos casos, los elementos más importantes son
preimpresos en formularios de indización, recordando al indizador qué términos deben ser usados, si
se aplicaran a determinado documento. Por ejemplo, la National Library of Medicine emplea
"etiquetas" de ese tipo para indicar agrupamientos por edades, género, tipos de animales utilizados
en experimentos, etc.
Esta etapa de "análisis conceptual" de la indización no debe ser influenciada por las características
del vocabulario a ser utilizado en la etapa de traducción. Esto es, el indizador decide, primero, qué
temas necesitan ser representados; sólo después (quizás momentáneamente) considerará si el
vocabulario permite o no representar estos temas adecuadamente. Dicho de forma un poco diferente,
el indizador no debe ignorar un tema porque sabe o sospecha que no puede ser expresado
adecuadamente. Es posible que un examen más meticuloso del vocabulario venga a mostrar que
estaba equivocado. Además, una función importante del indizador es perfeccionar el vocabulario
controlado, comunicando sus deficiencias a los responsables por su mantenimiento. Es improbable
que esto ocurra si el indizador esta estimulado a "pensar" en los términos controlados. En cuanto a
esto, discrepo totalmente con la ISO 5963, que afirma: "Tanto el análisis como la transcripción deben
ser realizadas con el auxilio de herramientas de indización, como tesauros y esquemas de
clasificación." La transcripción, sin duda, no puede realizarse sin esas herramientas, pero el análisis
debe ser completamente independiente de ellas.
Un factor afín a tener en cuenta es que la terminología usada por un autor puede no corresponder
exactamente a los términos del vocabulario controlado. Aún cuando los términos empleados por el
autor coincidan con los términos controlados, la manera como son utilizados puede diferir. Por
ejemplo, un autor puede emplear el término EPIDEMIOLOGÍA en una forma bastante vaga, pero el
vocabulario puede definirlo de modo más preciso, aunque es empleado por el autor, su asignación
será errónea. Son las ideas con que trata el autor, y no las palabras utilizadas, que deben ser
indizadas.

Exhaustividad de la indización

Los factores que afectan el desempeño de un sistema de recuperación de información que son
directamente atribuibles a la indización pueden ser categorizados como sigue:
1. Política de indización.
2. Exactitud de la indización
Análisis conceptual
Traducción

Las decisiones en cuanto a políticas son tomadas por los administradores del servicio de información,
estando por esto, fuera del control del indizador individual; los factores relativos a precisión están bajo
el control del indizador individual.
La principal decisión política es respecto a la exhaustividad de la indización, la cual corresponde,
aproximadamente, al número de términos asignados en promedio. El efecto de la exhaustividad fue
anteriormente ejemplificado en la figura 3. La indización exhaustiva implica el empleo de términos
suficientes para abarcar el contenido temático del documento de modo bastante completo. La
indización selectiva, por otro lado, implica el empleo de un número mucho menor de términos, para
abarcar solamente el contenido temático principal del documento. Cuantos más términos fueran

CENDIE – Actualización en procesos técnicos: Análisis Documental


17

utilizados para indizar un documento más accesible se tornará y, probablemente, más será
recuperado. Un centro de información procurará indizar exhaustivamente si sus usuarios solicitaran
con frecuencia la realización de búsquedas completas. Un usuario que precise encontrar todos los
ítems que, de alguna forma, traten de la OLP tendrá la expectativa de recuperar el ítem mostrado en
la figura 3, pero eso solamente será posible si la indización ha sido moderadamente exhaustiva.
Las decisiones políticas sobre exhaustividad no deben tomar la forma de límites absolutos sobre el
número de términos a ser asignados. Más bien, la política podría sugerir una franja de términos; por
ejemplo, "la mayoría de los ítems será indizada con 8 a 15 términos". En un gran centro de
información, que trate con muchos tipos diferentes de documentos, la política podrá variar según el
tipo de documento. Por ejemplo, el centro de información de una gran empresa podría establecer la
siguiente política:

Informes técnicos de la propia empresa 15-25 términos


Otros informes técnicos 10-15 términos
Patentes 15-20 términos
Artículos de revistas 5-10 términos

y así sucesivamente. Alternativamente, la política estaría basada sobre el contenido temático, los
temas de mayor interés para la empresa serían indizados con una cantidad mayor de términos.
Si bien una base de datos indizada exhaustivamente acostumbra posibilitar búsquedas exhaustivas
(alto acierto) ∗ , es probable que la indización exhaustiva sea más cara que la indización selectiva.
Además, la indización exhaustiva redundará en menor precisión en la búsquedas. Esto es, será
recuperado un número mayor de ítems que el usuario considerará no pertinentes a sus necesidades
de información. Esto puede ocurrir por dos razones:

1. Las "falsas asociaciones" aumentarán con el número de términos asignados. Por ejemplo, el
ítem de la figura 3 sería recuperado en una búsqueda sobre encuestas telefónicas en Egipto,
pero nada tiene que ver con ese tema.

2. Cuanto más términos fueran usados para indizar un ítem, más será recuperado en respuesta
a temas de búsqueda, que en él, son tratados solamente de una forma muy secundaria. Es
probable que el ítem de la ilustración 3 sea recuperado en una búsqueda de artículos que
trate de líderes políticos de los estados árabes, pero la persona que solicita esa búsqueda
puede decidir que el mismo contribuye tan poco para ese tema que difícilmente sería
considerado útil.

La idea de "exhaustividad" también se aplica a un sistema de recuperación que funciona sobre la


base de búsquedas hechas en textos (ver capítulo 13). El título del ítem de la figura 3 no es una
representación muy exhaustiva de su contenido temático. La exhaustividad aumenta con el número
de palabras en la representación.
El término profundidad es frecuentemente empleado para referirse a la cantidad de términos
asignados a un documento. Esto es, profundidad se emplea en lugar de exhaustividad. Ambos
términos son imprecisos y pueden ser engañosos. Para comprender mejor el efecto del aumento del
número de términos usados en la indización de un documento, imaginémoslo como si tuviera dos


Esto fue demostrado en numerosas ocasiones, más recientemente por Boyce y McLain (1989).

CENDIE – Actualización en procesos técnicos: Análisis Documental


18

dimensiones, como muestra la figura 6. Digamos que un indizador es capaz de identificar diez temas
afines que son estudiados en el ítem. Se considera esto como el ámbito de cobertura del documento.
Si el indizador intenta incluir todos esos temas, la indización será considerada como exhaustiva (esto
es, ella es una representación exhaustiva del contenido temático). Cuanto más temas fueran
incluidos más exhaustiva será la indización. Por otro lado, cuanto menos temas fueran incluidos más
selectiva será la indización. Evidentemente, la indización exhaustiva exigirá el empleo de más
términos.
La segunda dimensión del documento, desde el punto de vista de la indización, es denominada
especificidad en la figura 6. Esto es, algunos de los temas identificados serían indizados en más de
un nivel de especificidad. Supongamos que el primer tema sea "arquitectura de las catedrales". Esto
podría ser indizado bajo el término ARQUITECTURA RELIGIOSA, el cual no es completamente
específico. A fin de aumentar la especificidad, el indizador añadiría un segundo término,
CATEDRALES. El empleo conjunto de los dos términos representa precisamente el tema estudiado.
Por otro lado, la inclusión de ARQUITECTURA DOMÉSTICA aumentaría la exhaustividad y no la
especificidad porque se estaría introduciendo un nuevo concepto en la indización.
En otras palabras, la inclusión de más términos de indización aumentaría a exhaustividad de una
representación o aumentaría su especificidad. Por consiguiente, mientras sea verdadero decir que la
"exhaustividad" corresponde aproximadamente al número de términos asignados, no existe una
relación unívoca exacta entre exhaustividad y el número de términos. En este libro, exhaustividad se
refiere al ámbito de cobertura de la indización como está ejemplificado en la figura 6. Profundidad es
un término menos satisfactorio porque denota lo opuesto de ámbito y se aplica más apropiadamente
a la dimensión de especificidad mostrada en la figura 6.
El número de términos asignados a un documento constituye realmente una cuestión de costo-
eficacia. Dicho generalmente, cuanto más exhaustiva sea la indización mayor será el costo, y es
poco razonable indizar con un nivel de exhaustividad mayor que el justificado por las necesidades de
los usuarios del servicio. (En realidad, naturalmente, esto es una gran simplificación. En relación con
un documento extenso, el indizador necesita más tiempo para abarcar exhaustivamente su contenido
temático. En otros casos, puede ser más rápido utilizar muchos términos en vez de procurar
seleccionar algunos a partir de un grupo en que los términos estén íntimamente relacionados o los
mismos tengan significados coincidentes. En general, no obstante, cuanto más términos fueran
usados más costosa sería su inclusión en la base de datos y su procesamiento subsecuente.
Además, el incremento del número de términos elevará sustancialmente los costos de los índices en
fichas o impresos). En el caso que fueran solicitados muchos pedidos de búsquedas que realmente
cubran el asunto de modo completo, será preciso un alto nivel de exhaustividad. Si esas búsquedas
son la excepción a la regla, un nivel más bajo de exhaustividad será suficiente.
La figura 7 demuestra la ley de los rendimientos decrecientes aplicada a la indización. En el
ejemplo hipotético de ese servicio de información, la asignación en promedio de x términos satisfará a
cerca del 80 % de las necesidades de los usuarios. Para elevar ese porcentual al 90-95 % sería
preciso exigir una exhaustividad mucho mayor en la indización. La posición del punto X en esa curva,
y que x representa en número de términos, dependerá muchísimo de cuestiones que serán
específicas del sistema. Los administradores de un servicio de información preparan directrices sobre
exhaustividad de la indización que resultan del conocimiento que tienen de las necesidades de los
usuarios. Estas tienden a estar basadas en la intuición, aunque sería Posible realizar experimentos
controlados en que se comparen muestras de necesidades de información con una colección de
documentos indizados con diferentes cantidades de términos.

CENDIE – Actualización en procesos técnicos: Análisis Documental


19

Evidentemente, la idea de un nivel óptimo de exhaustividad aplicable a todos los ítems de una
base de datos es un tanto engañosa, ya que se aplicarían valores ideales extremadamente diferentes
a diferentes ítems, dependiendo de los pedidos efectivamente formulados por los usuarios del
sistema (Maron, 1979). La exhaustividad óptima es enteramente dependiente de los pedidos.

ESPECIFICIDAD

1.
EXHAUSTIVIDAD

2.
3.
4.
5.
6.
7.
8.
9.
10

Figura 6
Las dos dimensiones de la indización de un documento.

100

Porcentaje de X
pedidos que
Pueden ser
satisfechos

Número de términos asignados

Figura 7
Rendimientos decrecientes en la indización.

El número de términos asignados a un documento es un factor crítico para definir si un


determinado ítem será o no recuperado. Otros factores relacionados, sin embargo, también pueden
entrar en juego. Obviamente, es de esperar que el número de ítems recuperados decline a medida
que más términos son combinados en una relación de tipo y [and], en una estrategia de búsqueda.
Evidentemente, el alcance con que los términos pueden ser combinados con éxito en una estrategia
de búsqueda depende en gran medida del numero de términos usados en la indicación. Tomando un
ejemplo trivial, la combinación de tres términos (A *B *C) puede recuperar una gran cantidad de ítems
cuando se emplea en la indicación una media de 2.0 términos por ítem, pero es improbable que
recupere muchos de una base de datos en la cual son asignados solamente tres términos en
promedio a cada ítem. Cuanto más selectiva es la indización más necesidad habrá de combinar
términos en una relación de tipo o [or], a fin de mejorar el acierto. Las interacciones entre
exhaustividad de indización y las características de las estrategias de búsqueda fueron estudiadas
por Sparck-Jones (1973).

CENDIE – Actualización en procesos técnicos: Análisis Documental


20

En una cantidad de servicios de información la indización cumple dos finalidades un tanto


diferentes: (1) permitir el acceso a un ítem en un índice impreso, y (2) permitir el acceso a ese mismo
ítem en una base de datos legible por computadora. En esa situación, se le exige al indizador que
índice de acuerdo con cierto nivel de exhaustividad preestablecido para la segunda de las finalidades,
y que seleccione un subconjunto de términos de indización (tal vez entre dos y cuatro) así asignados,
los cuales servirán de punto de acceso en el índice impreso. Los términos en el subconjunto serán
aquellos que el indizador considere como los que mejor representan los aspectos más importantes
del ítem. Esto puede ser considerado como una forma rudimentaria de indización "ponderada": un
término puede tener uno de dos pesos "principal" (contenido temático fundamental, para el índice
impreso) o "secundario" (todos los otros términos). En el capítulo 11 examinaremos más
detenidamente la indización ponderada.

Principio de especificidad

El principio que, aisladamente, es el más importante de la indización de materias, y que se


remonta a Cutter (1876), es aquel según el cual un tema debe ser indizado bajo el término más
específico que lo abarque completamente. De esta manera, un artículo que trate del cultivo de
naranjas será indizado bajo NARANJAS y no bajo FRUTAS CÍTRICAS o FRUTAS.
En general, es mejor utilizar varios términos específicos, 'que un término que sea más genérico. Si
un artículo describe el cultivo de limones, limas y pomelos, será mejor indizado bajo los tres términos
específicos que bajo el término más genérico FRUTAS CÍTRICAS. El término FRUTAS CÍTRICAS
será usado solamente para artículos que traten de las frutas cítricas en general, y para aquellos que
traten prácticamente de todas las frutas cítricas. Esta directriz puede ser extendida a la situación en
la cual se trata de varias frutas cítricas, pero no con mucho detalle (a juicio del indizador) que
justifiquen el empleo de los términos específicos. En algunos casos, también, el público atendido por
el indizador puede estar interesado sólo en determinadas frutas. En esta situación sería válido indizar
únicamente estas y no incluir términos correspondientes a otras.
Algunos estudiantes de indización cometen la equivocación de indizar de modo redundante.
Teniendo indizado un artículo sobre naranjas bajo el término NARANJAS, sienten la necesidad de
asignarle también el término FRUTAS CÍTRICAS y aun FRUTAS. Esto es completamente
innecesario. En realidad, se trata de una práctica de indización deficiente. Si los términos genéricos
fueran asignados cada vez que fuera utilizado un término específico, resultará difícil diferenciar
artículos genéricos de artículos específicos. Por ejemplo, el usuario que consulta un índice bajo el
término FRUTAS espera encontrar ítems sobre frutas en general, y no ítems sobre frutas específicas.
En los sistemas manuales de recuperación que precedieron a los sistemas computadorizados, de
hecho era preciso desdoblar las entradas de los términos específicos para los genéricos respectivos;
por ejemplo, el empleo del término NARANJAS al indizar un ítem originaba que también le fueran
asignados los términos FRUTAS CÍTRICAS, FRUTAS y tal vez hasta PRODUCTOS AGRÍCOLAS. La
razón de eso era permitir las búsquedas genéricas. Si no se hiciese así, sería prácticamente
imposible realizar una búsqueda completa sobre, digamos, todas las frutas. Sin embargo, si un
sistema computadorizado es diseñado de modo apropiado, es innecesario ese desdoblamiento, al
menos cuando se utiliza un vocabulario controlado. Por ejemplo, debería ser posible solicitar al
computador la búsqueda sobre el término FRUTAS y todo lo que estuviera debajo en la estructura
jerárquica (todos los términos específicos [Tes] en el caso de un tesauro).
En general, entonces, no se debe contar con que los términos FRUTAS CÍTRICAS y NARANJAS
sean aplicados a un mismo ítem. La única situación que justificaría esa combinación sería aquella

CENDIE – Actualización en procesos técnicos: Análisis Documental


21

donde hubiese un artículo que tratase de frutas cítricas en general, pero que incluyese extensas
consideraciones sobre naranjas, o uno que tratase de frutas cítricas y que se valiese de las naranjas
como ejemplo (por ejemplo, la irrigación de frutas cítricas con ejemplos tomados de la irrigación de
naranjales).
El indizador debe tener presente que es posible obtener especificidad mediante la combinación de
términos. Si no hubiera ningún término que sólo pueda representar el tema, se busca una
combinación apropiada de términos en el vocabulario controlado. He aquí algunos ejemplos
hipotéticos:

Literatura Medieval Francesa


indizado bajo LITERATURA MEDIEVAL y
LITERATURA FRANCESA
Bibliotecas Médicas
indizado bajo BIBLIOTECAS ESPECIALIZADAS y
CIENCIAS MÉDICAS
Literatura Canadiense
indizado bajo LITERATURA y
CANADA
Aceite de Maní
indizado bajo ACEITES VEGETALES y
MANÍ

Se observa que el indizador debe procurar la combinación más apropiada para cada caso.
Teóricamente, Literatura Medieval Francesa sería expresada por LITERATURA MEDIEVAL y
FRANCIA, pero la combinación de LITERATURA MEDIEVAL y LITERATURA FRANCESA expresa la
idea más exactamente. Del mismo modo, se combinó CIENCIAS MÉDICAS con BIBLIOTECAS
ESPECIALIZADAS y no con BIBLIOTECAS para expresar la idea de bibliotecas médicas, pues estas
son evidentemente especializadas, y se combinó MANÍ con ACEITES VEGETAILES y no con
ACEITES, ya que aceite de maní es un aceite vegetal.
El vocabulario controlado a veces no incluye un término en el nivel de especificidad exigido por un
determinado documento. En ese caso el indizador usará el término más específico existente (por
ejemplo, FRUTAS CÍTRICAS, antes que FRUTAS, para un artículo sobre naranjas). El puede también
sugerir, al equipo responsable por el mantenimiento del tesauro, la necesidad de términos más
específicos en esa categoría.

Otras directrices

El proceso de indización por materias parece ser no propenso a reglas rigurosas. Más allá del
principio de especificidad, no fueron desarrolladas reglas verdaderas sobre la asignación de términos,
a pesar de que existen muchas acerca de qué hacer con los términos de indización después de
asignados (por ejemplo, como establecer la secuencia en que son listados, para formar
encabezamientos en un índice impreso). Fueron formuladas muchas "teorías" sobre indización,
algunas de las cuales fueron resecadas por Borko (1 977), pero tienden a no ser teorías de verdad, y
ofrecen poca ayuda práctica para el indizador.
Fugmann (1979, 1985) ha presentado varios axiomas sobre "indización Y Provisión de
información", pero no todos tienen una relación directa con la indización como tal. El único principio

CENDIE – Actualización en procesos técnicos: Análisis Documental


22

de indización verdadero formulado, denominado "indización obligatoria", afirma que el indizador debe
utilizar los términos más apropiados con que pueda contar para describir el contenido temático
tratado en un documento. Ya que esto significa, comúnmente, los términos más específicos, es
esencialmente una reiteración del principio de especificidad. La mayor parte de los axiomas de
Fugmann son realmente factores que influyen en el desempeño de sistemas de recuperación de
información antes que elementos de una teoría, aunque varios de los términos tengan ingerencia en
la indización. Por ejemplo, el axioma de la definibilidad tiene relación con la capacidad de definir
clara e inequívocamente una necesidad de información. Esto puede, evidentemente, ser extendido a
la capacidad definir el contenido temático de documentos de modo claro e inequívoco. El axioma de
la previsibilidad, de Fugmann, dice que el éxito de una búsqueda en un sistema de recuperación
depende en gran medida de la previsibilidad con que es descripto el contenido temático, el que
apunta a la importancia de la coherencia en la indización. El axioma de la fidelidad dice que otro
factor que influye sobre el desempeña es la capacidad de definir con rigor y exactitud el contenido
temático (de las necesidades de información y, por extensión, de los documentos), el cual tiene que
ver más con el vocabulario controlado utilizado para indizarlo que con la propia indización.
No conseguí, en efecto, encontrar alguna teoría verdadera aplicable al proceso de indización, a
pesar de que hay algunas (ver, por ejemplo, Jonker [19641) que refieren a las características de los
términos de indización. Además, creo que es posible identificar solamente dos reglas fundamentales
de la indización, una referida a la etapa del análisis conceptual y la otra a la etapa de traducción, a
saber:

1. Incluya todos los temas de conocido interés para los usuarios del servicio de información,
que sean tratados sustantivamente en el documento.
2. Indice cada uno de ellos tan específicamente como lo permita el vocabulario del sistema y
lo justifiquen las necesidades o el interés de los usuarios.

Estas reglas están, naturalmente, sujetas a interpretación. Por ejemplo, ¿qué significa en realidad
"sustantivamente"?. Una pauta posible sería que el tema x debe ser indizado si se percibe que la
mayoría de los usuarios que buscan información sobre x encuentran ese tema de interés. Está claro
que "sustantivamente" no es una propiedad que pueda ser expresada o medida con algún método
preciso. En todo caso, si un tema particular merece ser indizado, es algo que dependerá
ampliamente de tres factores: (1) la cantidad de información dada sobre el tema, (2) el grado de
interés en el tema, y (3) la cantidad de información ya existente sobre el tema: una breve y aislada
mención de un compuesto merece ser indizada si se sabe que ese compuesto es bastante reciente;
años después sería necesario un volumen mucho mayor de información para justificar su inclusión.
La expresión "necesidades o intereses de los usuarios", en la segunda regla, implica que el
principio de especificidad puede y debe ser modificado cuando se sabe que los usuarios de un
sistema o fuente de información, en ciertas circunstancias, serían mejor servidos por medio de la
indización de un determinado tema en un nivel más genérico. Por ejemplo, en una base de datos de
medicina, los artículos de medicina veterinaria aplicada a perros serían indizados bajo los nombres de
las razas de los perros involucrados. Por otro lado, artículos que tratasen de la utilización de perros
en experiencias de laboratorio serían simplemente indizados bajo PERROS, aún cuando una raza
específica fuese mencionada.
Un colorario de la primera regla mencionada es que los temas no examinados en el documento no
serán considerados por el indizador. Aunque esto puede parecer evidente y banal, no es
necesariamente así. Algunos indizadores, principalmente aquellos que se consideran "especialistas"

CENDIE – Actualización en procesos técnicos: Análisis Documental


23

en un tema, se sienten inclinados a ver en un documento cosas que nunca estuvieron en las
intenciones del autor (por ejemplo, aplicaciones de un dispositivo más allá de aquellas sostenidas en
el documento). Entre tanto una de las funciones importantes de ciertos especialistas en información
(por ejemplo, aquellos que actúan en la industria) será llamar la atención de los usuarios del servicio
de información para aplicaciones potenciales, esto de hecho, no constituye la función del indizador
como tal. Es mucho mejor que él se atenga al texto y a las afirmaciones del autor. El ERIC
processing manual (1980) da algunos consejos sobre esto:

Indice el documento que tenga en sus manos, no el documento que al autor le gustaría tener
escrito o pretende escribir en el futuro. No confunda especulaciones o referencias a
sugerencias y posibilidades con el verdadero contenido. (p. vii-13)

"Resultados no afirmados por el auto" no deben, desde luego, ser confundidos con resultados
negativos. Estos comúnmente merecen ser indizados. Por ejemplo, si un estudio muestra que un
material no es apropiado para ser utilizado en determinada aplicación, la aplicación mencionada
debería ser definitivamente incluida en la indización, si bien son aceptados otros criterios (por
ejemplo, el volumen de información dado).

Indización pos-coordinada

El contenido temático tratado en un documento y representado por los términos de indización que le
son asignados, es de un carácter multidimensional. Consideremos, por ejemplo, un artículo que trate
de la migración de mano de obra de Mozambique a las minas de Sudáfrica indizado bajo los
siguientes términos:
MOZAMBIQUE
SUDÁFRICA
TRABAJADORES MIGRANTES
MINEROS
RELACIONES ECONÓMICAS

Si bien los términos son aquí presentados en forma de lista, en realidad representan una red de
relaciones, como se ve en el diagrama de la página siguiente. Uno debería ser capaz de recuperar
este documento en una búsqueda que involucro cualquiera de los términos tomados aisladamente o
cualquier combinación entre ellos: dos, tres, cuatro, o los cinco. Un sistema de recuperación de
información que posibilita que una búsqueda combine los términos de cualquier manera es
frecuentemente denominado pos-coordinado (otros términos empleados han sido pos-combinación o
manipulativo).

MOZAMBIQUE

MINEROS

TRABAJADORES
MIGRANTES

RELACIONES
ECONÓMICAS

SUDÁFRICA
CENDIE – Actualización en procesos técnicos: Análisis Documental
24

Los sistemas pos-coordinados surgieron en la década de 1940, cuando fueron puestos en práctica
por medio de la utilización de varios tipos de fichas. Un sistema computadorizado moderno,
funcionando en línea [online], puede ser considerado como un descendiente directo de esos sistemas
manuales. Puede ser imaginado conceptualmente como una matriz semejante a la mostrada en la
figura 8.
Los archivos de un sistema en línea comprenden dos elementos principales:

1. Un conjunto completo de representaciones de documentos: la referencia bibliográfica


acompañada normalmente de términos de indización o un resumen, o ambos.
2. Una lista de términos que muestra cuáles documentos fueron indizados bajos ellos (a
veces denominado archivo invertido o "postings file "). Los documentos son identificados
por número de registro como se ve en la figura 8.

Se puede demostrar lo que pasa durante una búsqueda en línea consultando la matriz de la
figura 8. Supongamos que la persona que hace la búsqueda entra el término MOZAMBIQUE en una
terminal y que éste es representado por P en el diagrama. El sistema responde indicando que siete
ítems fueron indizados bajo el término. La persona entra TRABAJADORES MIGRANTES (L en el
diagrama) y recibe la información de que cuatro ítems aparecen bajo este término. Si ella pide
ahora que se haga la combinación de L con P, el sistema comparará los números de documentos
de las dos listas e indicará que tres ítems satisfacen el requerimiento. Atendiendo la solicitud del
interesado, el computador localiza esos registros por sus números de identificación (4, 8, 10) y los
muestra en la pantalla del monitor o los imprime.
Este procedimiento permanece igual no importa cuantos términos se encuentren involucrados y
cuáles sean las relaciones lógicas especificadas por quien hace la búsqueda. Si fuera pedido F o
G, el sistema indicará que cinco ítems satisfacen el requerimiento. Quien hace la búsqueda solicita
entonces que esta lista de cinco ítems sea combinada con la lista bajo N - esto es, (F o G) y N -
resultando en la recuperación de tres ítem.
De los sistemas pos-coordinados es posible decir que:

1. Los términos pueden ser combinados entre sí de cualquier forma en el momento en que,
se hace la búsqueda.
2. Se preserva la multidimensionalidad de las relaciones entre los términos.
3. Todo término asignado a un documento tiene igual peso - ninguno es más importante que
otro (aunque la indican ponderada, tal como lo tratado en el capítulo posterior, pueda ser
utilizada).

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A X X
B X X X X X
C X X X
D X X
E X X X X X X X
F X
G X X X X
H X X X

CENDIE – Actualización en procesos técnicos: Análisis Documental


25

I X
J X X X X X X
K X X X X X X X
L X X X X
M X X X X
N X X X X X X X
O X X X X X
P X X X X X X X

Figura 8
Sistema de recuperación de información representado como una matriz.

Estas características no se aplican a índices pre-coordinados, los cuales serán tratados en el


próximo capítulo.

Instrumentos auxiliares de la indización

El indizador necesita tener alguna forma de registro de los resultados de la operación de


indización. Existen cuatro posibilidades:

1. anotar en el propio documento;


2. completar algún tipo de formulario impreso en papel;
3. grabar en una cinta de audio; o
4. completar un formulario que es mostrado en la pantalla del monitor de video en línea.

En algunas instituciones el indizador simplemente marca el documento que tiene en sus manos, y
un dactilógrafo transcribe lo que fue marcado por el indizador. Este método, comúnmente, es
apropiado sólo a situaciones en las cuales se emplea una metodología de indización relativamente
simple - por ejemplo, el enriquecimiento de títulos asociados con la adición de un número
relativamente pequeño de términos o códigos de indización.
Antes que los sistemas en línea se tornasen comunes, era usual para un indizador dar entrada a
los términos en un formulario impreso. La figura 9, por ejemplo, presenta la última versión de un
formulario utilizado por la National Library of Medicine. Obsérvese el empleo de "etiquetas"
[chektags]. Estos son términos potencialmente aplicables a muchos documentos de la base de datos.
Su pre-impresión en el formulario es eficiente y económica, pues el indizador sólo necesita tildar
aquellas que son aplicables. Esto no sólo ahorra tiempo al indizador, lo lleva a recordar que esos
términos deben ser asignados cuando corresponda a un determinado documento. Las etiquetas son
asignadas de modo más coherente que otros términos empleados en el MEDLARS (Lancaster, 1968;
Funk y Reid, 1983).
En ambientes de indización altamente especializada, tal vez sea posible pre-imprimir el vocabulario
controlado completo en el formulario de indización, permitiendo así que todos los términos se tornen
esencialmente etiquetas. El pionero de ese método fue probablemente Mooers. La figura 10 (según
Brenner y Mooers [19581) muestra un formulario típico de indización de Mooers. Obsérvese como los
descriptores son agrupados sistemáticamente. Al analizar el documento, el indizador considera
básicamente cada descriptor de la tabla como potencialmente aplicable. En efecto, el indizador se
formula a sí mismo las preguntas propuestas por el propio formulario de indización. Si, por ejemplo, la
CENDIE – Actualización en procesos técnicos: Análisis Documental
26

respuesta a "¿existen cargas aerodinámicas específicas?" es "si" (esto es, el documento en examen
trata de cargas específicas), el indizador tendrá eso en cuenta asignando el descriptor, o
descriptores, más apropiados para carga aerodinámico. La lista de descriptores, presentada de esa
forma, simplifica el proceso de indización porque ahorra al indizador parte de su esfuerzo intelectual.
El uso potencial de un documento de interés para la institución está representado por la lista de
preguntas "orientadoras" que fue cuidadosamente compilada por personal científico experimentado.

C Pagination Languaje Anonimous Refs Subject Name

Author Data

Title (1)

Title (2)

A HIST ART A PREGN J CATS V HUMAN AUTHOR


B HIST BIOG B INF NEW K CATTLE W MALE
C BIOG OBIT C INF L CHICK EMB X FEMALE
AUTHOR
G MONOGR D CHILD PRE M DOGS Y IN VITRO
H ENG ABST E CHILD O GUINEA Z CASE
F ADOLESC PIGS REPT AUTHOR
G ADULT P
H MUD AGE HAMSTERS
I AGED Q MICE
S RABBITS
T RATS
U ANIMAL
1
2
3
4
5
6
7
8
9
10
11
12
INDEXED CITATION FORM

Figura 9
Formulario de indización utilizado por la National Library of Medicine en1989.

En el pasado, la U.S. Patent and Trademark Office desarrolló pequeños sistemas de recuperación
limitados a una única clase o a un número restricto de clases en un área de patentes. Fueron creados
vocabularios especializados para esas áreas, los cuales son suficientemente pequeños para ser
impresos en algunas hojas.
También se obtuvo éxito en algunas instituciones donde el indizador pasó a dictar los términos en
un grabador de cinta para ser posteriormente transcriptos por dactilógrafos. Este método presenta
algunos problemas., Pueden ocurrir muchos errores de dactilografía cuando se utiliza un extenso
vocabulario técnico, extraño al dactilógrafo, obligando a un trabajo de revisión muy cuidadoso.

CENDIE – Actualización en procesos técnicos: Análisis Documental


27

Algunos indizadores no trabajan bien con ese método porque tienen dificultades en recordar cuáles
fueron los términos que ya asignaron a un ítem.
Cada vez más, no obstante, los productores de bases de datos están cambiando a procedimientos
de indización en línea. En esta modalidad de operación se presentan en el monitor de video varias
pantallas con formato y el indizador ingresa los datos en los campos así presentados. Esta
modalidad de operación ofrece ventajas significativas en relación a sus predecesoras: el indizador
puede recibir varios tipos de mensajes, algunos de sus equívocos pueden ser reconocidos por
programas de detección de errores y el indizador informado inmediatamente, además de evitar la
etapa rutinaria intermedia de convertir el trabajo del indizador en un registro legible por computador.
Por otra parte, existe la posibilidad para el indizador de pasar de la modalidad de entrada de datos a
la modalidad de recuperación. De esta manera, puede utilizar casos precedentes para su orientación
en ciertas decisiones concernientes a la indización. Esto es, el indizador puede acceder a la base de
datos para informarse cómo un determinado término fue empleado anteriormente o cómo un
documento más antiguo, afín a uno que está siendo examinado, fue indizado.
Evidentemente, el vocabulario controlado utilizado por un servicio de información será un
instrumento de suma importancia para el indizador. Debe ser organizado y presentado de tal forma
que proporcione al indizador una asistencia positiva en la selección de los términos más apropiados
que serán empleados en una determinada situación. Aunque estrechamente relacionados al tema de
la indización, la construcción y las propiedades de los vocabularios controlados son temas que
escapan a la finalidad de este libro. Ellos han sido tratados en detalle en otras obras (Lancaster,
1986; Soergel, 1974).
Un tesauro publicado incorpora, comúnmente, un vocabulario de entradas, limitado a remisiones
del tipo véase, úsese, o véase bajo. Un centro de información grande puede también emitir un
vocabulario de entradas separado, para ser utilizado internamente por indizadores, especialistas en
búsquedas y lexicógrafos. Un vocabulario de ese tipo puede presentarse en varios formatos: fichas,
hojas sueltas, en forma legible por computador para emisión de salidas impresas o presentación en
terminal de video en línea, o en microfilme.
Las obras de referencia publicadas pueden ser de gran valor para el indizador, principalmente en
la definición del significado de términos poco comunes. Particularmente importantes son los
diccionarios y enciclopedias especializadas y generales, como también los glosarios de todos los
tipos. Bakewell (1987) elaboró una lista de herramientas de referencia de uso potencial para el
indizador. Un trabajo anterior sobre instrumentos auxiliares de la indización en general, de Korotkin et
al. (1964), está muy desactualizado. En algunas instituciones el trabajo del indizador cuenta con el
auxilio de acceso en línea a bancos de datos terminológicos (Terminological Data Banks, 1980).

CENDIE – Actualización en procesos técnicos: Análisis Documental

También podría gustarte