Lancaster
Lancaster
Lancaster, Frederick Wilfrid. Indización y resúmenes : teoría y práctica – Buenos Aires : EB, 1996. --
CAP. I . Indización.
----------------------------------------------------------------------------------------------------------------------------------------
INTRODUCCIÓN
El propósito principal de la elaboración de índices y resúmenes es construir representaciones de
documentos publicados en una forma que se preste a su inclusión en algún tipo de base de datos.
Esa base de datos de representaciones puede ser impresa (como en una publicación de
indización/resúmenes, como el Chemical Abstracts o el Engineering Index), en forma legible por
computadora (cuando la base de datos sea frecuentemente el equivalente aproximado de un servicio
impreso), o en fichas (como un catálogo convencional de biblioteca).
La función de las operaciones de indizar/resumir, en el ámbito mayor de las actividades de
recuperación de la información en general, está ilustrado en la figura 1. En primer lugar, el productor
de base de datos selecciona de la población de documentos recién publicados aquellos que
satisfagan ciertos criterios para su inclusión en la misma. El más obvio de esos criterios es el tema
de qué trata el documento, pero otros, tales como tipo de documento, lengua u origen, también son
importantes. Para aquellas bases de datos que tratan principalmente con artículos de revistas, los
criterios de selección comúnmente estarán centrados preferentemente en la publicación antes que en
el artículo; esto es, algunas revistas serán incluidas y otras no (aunque algunas revistas serán
indizadas en su totalidad y otras selectivamente). La cobertura proporcionada por muchas bases de
datos es, en gran medida, determinada por razones de costo-eficacia. Particularmente en el caso dé
bases de datos que abarcan un campo altamente especializado, solo incluirán aquellas revistas que
publican más sobre los temas de interés.
Los documentos seleccionados para incluir en una base de datos serán "descriptos" de varias
formas. Los procedimientos de catalogación descriptiva (que no aparecen en la figura 1) identifican
autores, títulos, orígenes de la publicación, y otros elementos bibliográficos; los procedimientos de
indización identifican el tema de qué trata el documento; y el resumen es utilizado para sintetizar el
contenido del documento. Los términos utilizados en la indización serán con frecuencia extraídos de
algún tipo de vocabulario controlado, como un tesauro (el "vocabulario del sistema" de la figura l),
pero, en su lugar, pueden ser términos "libres" (por ejemplo, extraídos del propio documento). Estas
actividades de descripción crean representaciones de los documentos en una forma que se presta
para su inclusión en la base de datos. Los propios documentos normalmente serán destinados a un
tipo diferente de base de datos (el acervo de documentos) como las estanterías de una biblioteca.
Los miembros de la comunidad a ser atendida utilizarán la base de datos, fundamentalmente, para
satisfacer las diferentes necesidades de información. Para lograr esto, deben convertir una
necesidad de información en alguna forma de "estrategia de búsqueda?', la cual puede ser tan simple
como la selección de un único término para consultar un índice impreso o un catálogo en fichas, o
incluir la combinación de varios términos en una estrategia más elaborada y sofisticado, utilizada para
interrogar una base de datos por medio de una terminal de computadora.
En la búsqueda en una base de datos, desde luego, uno desea encontrar ítems que sean útiles
para satisfacer una necesidad de información, y evitar la recuperación de ítems inútiles. "Relevante"
y "pertinente" son términos empleados frecuentemente para referirse a ítems "útiles", y han sido
definidos de diferentes formas. Hay mucho desacuerdo sobre lo que realmente significan "relevancia"
y "pertinencia" (Lancaster, 1977). En este libro consideraré como sinónimos las expresiones "útil",
"pertinente" y "relevante para una necesidad de información". Esto es, un ítem pertinente (útil) es
aquel que contribuye a satisfacer alguna necesidad de información.
- - - - - - - - - - + - - - - - - - -- - - - - - - -
---------------------
Figura 2
El problema de la recuperación de ítems pertinentes de una base de datos
El menor de los dos rectángulos internos de la figura 2 representa los resultados de una
búsqueda realizada en una base de datos. Ella recuperó 57 ítems, de los cuales 6 fueron útiles y 51
inútiles. La relación entre ítems útiles y el total de ítems recuperados (6157 es cerca del 10 % en
este caso) es comúnmente denominada tasa de precisión. El índice empleado habitualmente para
expresar la extensión de todos los ítems útiles que son encontrados es la tasa de acierto. En este
caso, la tasa de acierto es de 6111 o cerca del 54 %.
En esa situación, probablemente sería necesario, para mejorar el acierto, hacer una búsqueda
más genérica. Esto está representado por el mayor de los dos rectángulos internos. Al hacer la
búsqueda más genérica aumenta el acierto al 8111 (73 %), pero la precisión declina también al
81112 o cerca del 7 %. Una característica desafortunada, propia de la recuperación de la
información, es que una mejoría del acierto generalmente causa un deterioro de la precisión y
viceversa.
La figura 2 sugiere otro fenómeno. Tal vez fuese posible hacer una búsqueda suficientemente
genérica para localizar todos los ítems útiles (esto es, alcanzar el 100 % de acierto), pero la
precisión sería probablemente inaceptable. Además, cuanto más grande fuera la base de datos,
menos aceptable sería una baja precisión. Mientras el usuario estaría dispuesto a mirar los
resúmenes de, digamos, 57 ítems, para encontrar 6 que le sean útiles, tal vez se sienta mucho
menos inclinado a examinar 570 resúmenes para encontrar 60 que le sean útiles. En bases de
datos muy grandes se torna, por lo tanto, progresivamente más difícil alcanzar un nivel de acierto
aceptable con un nivel de precisión tolerable.
En este libro empleo el término acierto para designar la capacidad de recuperar ítems útiles, y
precisión para designar la capacidad de evitar los inútiles. Existen otras medidas de desempeña
para búsquedas realizadas en una base de datos (ver, por ejemplo, Robertson [1969]), algunas son
matemáticamente exactas, pero el acierto y la precisión componen el cuadro general y aún parecen
ser las medidas obvias para ser utilizadas para expresar los resultados de cualquier búsqueda que
simplemente divida una base de datos
en dos partes (recuperados y no recuperados).
La figura 1 muestra claramente que son muchos los factores que determinan si una búsqueda en
una base de datos es o no exitosa. Estos comprenden la cobertura de la base de datos, su política
de indización, sus reglas de indización, su política y reglas para la redacción de resúmenes, la
calidad del vocabulario utilizado en la indización, la calidad de las estrategias de búsqueda, etc.
Este libro no intenta tratar sobre todos esos factores (aunque todos están interrelacionados), se
concentra más en las actividades importantes de descripción del documento o, al menos, aquellas
concernientes con el contenido de los documentos.
PRINCIPIOS DE INDIZACIÓN
Mientras el título de este libro se refiere a "indización", su campo de acción está en realidad
limitado a la indización de temas y a la redacción de resúmenes. La indización de temas y la
redacción de resúmenes son actividades estrechamente relacionadas, ya que ambas implican la
preparación de una representación del contenido temático de los documentos. El analista redacta
una descripción narrativa o concisa del documento, mientras el indizador describe su contenido al
emplear uno o varios términos de indización, comúnmente seleccionados de algún tipo de vocabulario
controlado.
El principal objetivo del resumen es indicar de qué trata el documento o sintetizar su contenido. Un
grupo, de términos de indización sirve al mismo propósito. Por ejemplo, el siguiente conjunto de
términos proporciona una buena idea sobre lo que es tratado en cierto informe hipotético:
Centros de Información
Recursos compartidos
Catálogos colectivos
Catalogación cooperativa
Redes en línea
Préstamos interbibliotecarios
En cierto sentido, esa lista de términos puede ser considerada como una especie de miniresumen.
Serviría a ese propósito el que todos los términos fuesen reunidos en un índice publicado o copiado
por la impresora para representar un ítem recuperado de alguna base de datos, como resultado de
una búsqueda hecha en computadora.
Más claramente, los términos asignados por el indizador sirven como punto de acceso mediante
los cuales un ítem bibliográfico puede ser localizado y recuperado, durante una búsqueda por tema
en un índice publicado o en una base de datos legible por computadora. Así, en un índice impreso,
uno debería poder encontrar el ítem hipotético mencionado anteriormente bajo cualquiera de los seis
términos. En un sistema de recuperación computadorizado, naturalmente, uno esperaría poder
encontrarlo bajo cualquiera de los términos o, en realidad, bajo cualquier combinación de los mismos.
La diferencia entre indización y redacción de resúmenes se está tornando cada vez más difusa.
Por un lado, una lista de términos de indización pueden ser copiados de una impresora de modo de
constituir un miniresumen. Por el otro, el texto de los resúmenes pueden ser almacenados en un
sistema computadorizado de forma tal que permita la realización de búsquedas por medio de
combinación de palabras que ocurran en el texto. Esos resúmenes pueden ser utilizados en lugar de
términos de indización, permitiendo el acceso a los ítems, o complementar los puntos de acceso
proporcionados por los términos de indización. En cierta medida eso modifica la función del analista,
quien debe ahora preocuparse no sólo por la redacción de una descripción clara y de buena calidad
del contenido de un documento, sino también por la creación de un registro que sea una
representación eficaz para fines de recuperación.
Si la indización y la redacción de resúmenes fuesen consideradas como actividades enteramente
complementarias, la naturaleza de la actividad de indización sufriría algún tipo de cambio. Por
ejemplo, el indizador se concentraría en la asignación de términos que complementasen los puntos
de acceso existentes en el resumen. No obstante, esa complementariedad debe ser enteramente
reconocida y comprendida por el usuario de la base de datos. De lo contrario, un conjunto de
términos de indización aislados daría una imagen bastante equivocada del contenido de un ítem.
ESTADOS UNIDOS
Resumen (ampliado) ACTITUDES
En 1985 fueron realizadas encuestas telefónicas con una ORIENTE MEDIO
muestra probabilística de 655 norteamericanos. Se ISRAEL
obtuvieron respuesta a las siguientes cuestiones: el EGIPT'O
establecimiento de un Estado Palestino es esencial para NACIONES ÁRABES
la paz; se debe reducir la ayuda norteamericana a Israel ORGANIZACIÓN PARA
y a Egipto; los EUA deben participar en una conferencia LA LIBERACIÓN DE
de paz que incluya a la OLP; deben los EUA no PALESTINA
favorecer a Israel ni a las naciones árabes, pero si CONFERENCIAS DE PAZ
mantener una relación amistosa con ambas? También PAZ
se expresaron opiniones sobre los líderes de Oriente ESTADO PALESTINO
Medio (Hussein, Arafat, Peres, Mubarak, Fahd, Assad), POLÍTICA DE AYUDA
especialmente sus esfuerzos por la paz, y si los EXTERNA
entrevistados poseían o no información sobre los LÍDERES POLÍTICOS
diversos grupos nacionales de la región.
Figura 3
Efecto de la extensión del registro sobre la recuperabilidad
1. De qué trata?
2. Por qué fue incorporado a nuestra colección?
3. Qué aspectos serán de interés para nuestros usuarios?.
Este punto está bien ejemplificado en la figura 4. Ese ejemplo hipotético se refiere a un informe
publicado por la National Aeronautics and Space Administration (NASA) y trata sobre un vuelo
espacial tripulado. Cuando la NASA incorpora ese informe a su propia base de datos, probablemente
está interesada en todas sus facetas y lo indizará exhaustivamente, procurando cubrir todos sus
aspectos, tal vez en un nivel bastante genérico. Una parte del informe se refiere a los trajes usados
por los astronautas, mencionando algunos compuestos nuevos de caucho sintético utilizados en parte
de los trajes.
Esto hace que el informe sea de interés para una fábrica de caucho. Al ser incorporado a la colección
de documentos de esa fábrica, el informe será indizado, no obstante, de modo bastante diferente.
Serán utilizados términos altamente específicos para indizar los nuevos compuestos, y el término
genérico TRAJES ESPACIALES podría ser utilizado para indicar una determinada aplicación de los
compuestos. Una empresa metalúrgica podría interesarse en este informe por otro motivo: se
menciona una nueva técnica de soldadura desarrollada para combinar ciertas aleaciones en la
construcción de un vehículo espacial. Aquí será indizado bajo los términos relativos a soldaduras, a
metales y tal vez el término de aplicación genérica VEHÍCULOS ESPACIALES. La fábrica de caucho
indiza el informe en forma muy diferente de la empresa metalúrgica, y ninguno de esos conjuntos de
términos se asemeja a la lista más exhaustiva utilizada por la propia NASA.
Esto es como debe ser. Cuanto más especializada es la clientela de un centro de información, mayor
la probabilidad de que la indización pueda y deba ser hecha a la medida, para el preciso interés -del
grupo. Solamente en instituciones de carácter más genérico - por ejemplo, bibliotecas universitarias
generales - existe la posibilidad de que una organización indice un ítem exactamente de la misma
forma que otra.
Figura 4
Ejemplo de un ítem indizado según diferentes puntos de vista
Existe una importante lección Para aprender de esto. Los indizadores necesitan saber mucho más
que los principios de indización. Deben, en especial, estar enteramente familiarizados con los
intereses de la comunidad atendida y las necesidades de información de los miembros de esa
comunidad. En realidad, sería deseable, habitualmente, que el indizador no permanezca "entre
bastidores", sino que también debería trabajar en otras actividades, inclusive la de bibliotecario de
referencia.
Atinencia
En la exposición previa no se hizo un intento por definir "de qué trata": la expresión "de qué trata"
era simplemente un sinónimo para "tiene por tema". Esto es, se utiliza "de qué trata un documento"
para significar lo mismo que "los temas de un documento". Estas expresiones quizás no sean muy
precisas y no es fácil definir "trata de" y "tiene por tema". Sin embargo, son expresiones que parecen
aceptables para la mayoría de las personas, siendo por ello comprendidas. No es mi intención entrar
en una discusión filosófica sobre el significado de "trata de" o "atinencia". Varios autores ya lo
hicieron. Y ni de esta manera consiguieron esclarecer la situación, al menos en lo que concierne a la
tarea de indización de temas. Beghtol (1986) y Hutchins (1978) recurren a la lingüística del texto al
examinar esta cuestión; Maron (1977) adopta un enfoque probabilístico, y Swift et al. (1978) son más
cautelosos al señalar que la atinencia en la indización tal vez no coincida con la atinencia que las
personas que están buscando información tienen en mente. Más recientemente, Frohmann (1990) se
vale de la obra de Wittgenstein para criticar algunos abordajes de la teoría de la indización. Wilson
(1968) llega a dar a entender que la indización de temas se enfrenta con problemas "intratables", ya
que es tan difícil decidir de qué trata un documento. Pero ¿será que necesitamos realmente
comprender que es "atinencia" a fin de indizar eficazmente? ¿No bastará que seamos capaces de
reconocer que un documento es de interés para una determinada comunidad porque contribuye a
nuestra comprensión de los tópicos x, y y z? El reconocimiento de que contribuye de esta forma
ejemplifica el proceso que hemos llamado "análisis conceptual", mientras el proceso de "traducción"
involucro una decisión sobre cuáles de los rótulos disponibles representan mejor a x, y y z.
"Concepto" es otra palabra sobre la cual algunos autores gustan de filosofar (ver, por ejemplo,
Dahlberg [1979]). En este libro lo empleo para referirme a un tópico estudiado por un autor.
"Análisis conceptual", entonces, significa nada más que la identificación de los tópicos tratados en
un documento. Preschel (1972) tiene un abordaje muy práctico. Ella interpreta que "concepto"
significa "materia indizable" y define "análisis conceptual" como la "percepción del indizador de la
materia indizable". También Tinker es práctico (1966):
El indizador tiene que hacer conjeturas sobre qué consultas serán formuladas por el futuro
usuario del sistema. Sin considerar el grado de habilidad aplicada en ese ejercicio de
adivinanza, aún serán conjeturas, mientras el usuario accede al sistema con su propia cuestión
concreta, y sus asociaciones pueden ser diferentes de las del indizador. (p. 294)
Ellos también simplifican demasiado en lo referente a las cuestiones traídas por el usuario como
"concretas", cuando, de hecho, muchas de ellas están lejos de serio. No obstante, están
probablemente en lo correcto al dar a entender que los problemas de una eficiente entrada de datos
en un sistema de recuperación de información superan los problemas de la salida. Como señaló
Fairthone (1958), hace muchos años atrás: "La indización es el problema fundamental así como
también el costoso cuello de botella de la recuperación de la información."
En algunas aplicaciones de la indización tal vez sea posible ser bastante más preciso sobre qué
debe ser considerado "indizable". Al tratar la indización de una enciclopedia, por ejemplo, Preschel
(1981) ofrece las siguientes directrices:
Toda información textual de naturaleza sustantivo debe ser indizada. Se define como
"sustantivo" la información que abarca de 8 a 10 líneas de texto o que es original o destacada y
que casi con certeza no ocurre en otro lugar de la enciclopedia.
En otras situaciones no siempre es posible ser tan preciso.
Traducción
OPINIÓN PÚBLICA
ENCUESTA TELEFÓNICA
ESTADOS UNIDOS
ACTITUDES
ORIENTE MEDIO
ISRAEL
EGIFITO
AYUDA
PAZ
todos los cuales aparecen en el título o en el resumen. Una forma primitiva de indización derivada,
conocida como Uniterm empleaba únicamente términos de una sola palabra para representar el
contenido temático. Si fuese estrictamente observado, el sistema Uniterm acarrearía algunos
resultados extraños,
como la separación de Oriente Medio en ORIENTE y MEDIO.
La indicación por asignación implica la asignación de términos a un documento a partir de una
fuente que no es el propio documento. Los términos pueden ser extraídos de la cabeza del indizador
- por ejemplo, el indizador decide que los términos AYUDA EXTERNA y RELACIONES
EXTERIORES, que no aparecen explícitamente en ninguno de los resúmenes, serían buenos
términos para usar en el ítem de la figura 3.
Usualmente, la indización por asignación implica el esfuerzo de representar la sustancia del
análisis conceptual mediante el empleo de términos extraídos de alguna forma de vocabulario
controlado.
Vocabularios controlados
1. Controlar sinónimos, optando por una única forma normalizada, con remisión de todas las
otras;
2. Diferenciar homógrafos. Por ejemplo, PLANTAS (BOTÁNICA) es un término bastante
diferente de PLANTAS (INDUSTRIA); y
3. reunir o vincular términos cuyos significados presenten una relación más estrecha entre
sí. Dos tipos de relaciones son explícitamente identificadas: las jerárquicas y las no
jerárquicas (o asociativas). Por ejemplo, el término MUJERES TRABAJADORAS está
relacionado jerárquicamente con MUJERES (como una especie de este término) y con
AMAS DE CASA (también una especie del término MUJERES), así como está asociado a
otros términos, como EMPLEO o FAMILIAS UNIPATERNAS, que aparecen en jerarquías
completamente diferentes.
Un estudio más completo de estas cuestiones puede encontrarse en el libro de este autor
Vocabulary controlfor information retrieval (segunda edición, Arlington, VA., Information Resources
Press, 1986).
Supongamos que un especialista en información tome algún ítem bibliográfico y decida que trata el
tema "robots". La actividad intelectual que esa decisión implica es la misma, cualquiera sea el tipo de
ítem - libro, parte de un libro, revista, artículo de revista, anales de conferencia, trabajo leído en una
conferencia, o lo que fuere. El especialista en información clasifica el ítem, esto es, lo pone en la
clase conceptual de "ítems que tratan de robots".
Como vimos anteriormente, el proceso de traducción comprende la representación del análisis
conceptual mediante un término o términos extraídos de algún vocabulario. Un término asignado a
un ítem bibliográfico es simplemente un rótulo que identifica una determinada clase de ítems. Ese
rótulo puede ser la palabra robot, extraída de un tesauro, de una lista de encabezamientos de materia
o del mismo documento, una palabra equivalente en otra lengua, o un rótulo como 629.892 extraído
de algún esquema de clasificación.
El proceso de decidir de qué trata algún ítem y de asignarle un rótulo que represente esta decisión
es conceptualmente lo mismo, si el rótulo es extraído de un esquema de clasificación, de un tesauro o
de una lista de encabezamientos de materia, si el ítem es una entidad bibliográfica completa o parte
de ella, si el rótulo es subsecuentemente archivado en orden alfabético o en alguna otra secuencia (o,
de hecho, no archivado de modo alguno), y si el objeto del ejercicio es organizar ítems en estantes o
registrasen catálogos, índices impresos o bases de datos legibles por computadora.
como es un robot. Se puede argumentar, no obstante, que los problemas de locomoción de los
robots son realmente los problemas de locomoción humana (esto es, el de proyectar robots que
tengan tanta flexibilidad de movimiento como los seres humanos), y esta idea se encuentra
expresada claramente en la Clasificación Decimal de Dewey (CDD) y en la Library of Congress
Subject Headings (LCSH). El tesauro INSPEC parece carecer de un término apropiado que contenga
la idea de locomoción.
Se debe observar que las ideas transmitidas por el análisis conceptual en la figura 5 son
abarcadas colectivamente por los grupos de términos listados en los tres vocabularios. Por ejemplo,
los cinco números de clasificación de CDD, tomados en conjunto, abarcan el contenido temático de
ese artículo clara y completamente, si bien no hay una relación unívoca entre los elementos
individuales del análisis conceptual y los términos de la CDD. Esta clasificación carece del término
específico "robots industriales". No obstante, la combinación de 629.892 y 670.427 ciertamente
transmite la idea de robots en operaciones de fabricación, de la misma forma que 629.892 combinado
con 621.86 transmite la idea de robots como dispositivos de manipulación de materiales; 629.892 con
006.3, la idea de inteligencia artificial aplicada a robots; y 629.892 con 612.76, la idea de locomoción
de robots simulando la locomoción humana.
Dejando de lado la idea de locomoción, que no aparece en INSPEC, el análisis conceptual de la
figura 5 está incluido de igual modo, completa y específicamente, en cada vocabulario, cuando se
consideran grupos enteros de términos. En el nivel de un único término, desde luego, existen de
hecho diferencias. Si sólo un término pudiese ser asignado a ese artículo, LCSH e INSPEC serían
mejores que la CDD, ya que pueden diferenciar los robots industriales de los robots en general.
Figura 5
Análisis conceptual traducido en tres vocabularios controlados
Este ejemplo ilustra dos aspectos importantes. Primero, el tipo de vocabulario controlado
(esquema de clasificación, encabezamientos de materia, tesauro) no es el factor más importante que
afecta la etapa de traducción de la indización. Mucho más importantes son el alcance (cobertura) y la
especificidad del vocabulario. En este ejercicio de indización, la CDD y la LCSH son mejores que el
INSPEC que carece de un término para locomoción. El segundo aspecto que ilustra el ejemplo es
que, aunque la especificidad es una propiedad muy importante de un vocabulario controlado, puede
ser alcanzada de diferentes formas en diferentes vocabularios. Es importante considerar, en
especial, las propiedades de combinaciones de los términos de indización más que las propiedades
de los términos aislados.
Consideremos, como ejemplo, un artículo que analiza los servicios de salud mental. El vocabulario
A contiene el descriptor específico SERVICIOS DE SALUD MENTAL, mientras el vocabulario B
posee el término SERVICIOS DE SALUD, pero no el término más específico. Sin embargo, B
también incluye el término SALUD MENTAL, de modo que la idea de "servicios de salud mental" está
específicamente incluida por la indización bajo SERVICIOS DE SALUD y SALUD MENTAL. Con
respecto a este tema, entonces, el vocabulario B es tan específico como A. Los vocabularios C y D
son menos específicos: C contiene el término SALUD MENTAL, pero no posee otro término para
servicios de salud, mientras D contiene SERVICIOS DE SALUD, pero carece de un término para
salud mental, de modo que ninguno de los dos presenta la posibilidad de expresar específicamente la
idea de "servicios de salud mental". En el momento de realizar una búsqueda en los sistemas
representados por los diferentes vocabularios, sería posible obtener resultados efectivos en A y B,
pero sería imposible limitar la búsqueda en C y D - o sería recuperado todo sobre salud mental, o
todo sobre servicios de salud.
PRÁCTICA DE LA INDIZACIÓN
Un indizador raramente se da el lujo de poder leer un documento atentamente del principio al fin. La
exigencia de que índice una cierta cantidad de ítems por día habrá de imponerle que acepte por lo
general una lectura que no sea completa. Usualmente, se recomienda una combinación de lectura y
de "hojeo" del texto. Las partes que serán leídas atentamente son las que presentan mayor
probabilidad de decir lo máximo acerca del contenido en el menor tiempo: el título, el resumen, el
resumen del autor [summary] y las conclusiones. Los títulos de las secciones y de los epígrafes de
las ilustraciones o tablas también merecen mayor atención. Conviene hojear el resto del texto, para
asegurarse que las partes más condensadas presentan una imagen exacta de lo que trata el ítem. No
obstante, el indizador debe, habitualmente, tener en cuenta el documento entero (partes leídas,
partes hojeadas) y los términos asignados deberían reflejar el todo. La excepción sería el caso en
que solamente parte del documento (por ejemplo, un extenso ítem con múltiples temas) fuese de
interés para el grupo de usuarios a ser atendidos.
Jones (1976), citando a Anderson (1971), señala que ciertas partes de un documento son
particularmente útiles para un indizador: "Parágrafos de apertura (de capítulos o secciones) y frases
de apertura y cierre de parágrafos parecen ser especialmente ricos en palabras indizables". Esto
concuerda con las conclusiones de Baxendale (1958) en su trabajo sobre el desarrollo de
procedimientos para la indización automática de documentos.
La norma internacional sobre indización de materias (ISO 5963-1985 [E]) ofrece orientación adicional
para el examen de un documento:
a) el título;
b) el resumen, si proporciona;
c) el sumario;
d) la introducción, las frases y parágrafos de comienzo de capítulos, y las conclusiones;
e) ilustraciones, gráficos, tablas y sus correspondientes leyendas;
f) palabras o grupos de palabras que aparezcan subrayadas o impresas en tipos diferentes.
Todos estos elementos deben ser examinados y evaluados por el indizador durante el análisis
del documento. No es recomendable hacer la indización a partir exclusivamente del título, y, en
caso que haya un resumen, el mismo no debe ser visto como un sustituto satisfactorio del
examen del texto. Los títulos pueden ser engañosos; tanto los títulos como los resúmenes
pueden ser inadecuados; en muchos casos ninguno es una fuente contable del tipo de
información que el indizador necesita. (P. 2) ∗
En su amplio estudio sobre como actúan realmente los indizadores, Oliver et al. (1966),
descubrieron que la mayoría sigue el método de leer/hojear:
El grupo más grande de indizadores (cerca del 85 % del total) afirmó que examinan
rutinariamente el documento entero. Sin embargo, esos indizadores acentuaron que ciertas
partes del documento eran examinadas más atentamente que otras. Esas partes incluían el
resumen, la introducción, el resumen del autor [summary], las conclusiones, la metodología, los
resultados y tablas y gráficos. Si una o más de esas secciones "condensadas" fuese
considerada adecuada por el indizador, el podría examinar superficialmente o simplemente
"hojear" otras partes del documento. Los principales motivos presentados para examinar el
cuerpo del documento fueron para ver si pasaban por alto alguna cosa, ofrecer mayor
profundidad de indización, y aclarar cualquier duda o cuestión. (p.4-14)
Todo eso se apoya en la suposición de que es posible leer el ítem a ser indizado. Como señala la
norma internacional (ISO 5963-1985[E]), se aplicarán procedimientos diferentes a otros tipos de
ítems:
Documentos no impresos, como los medios audiovisuales, visuales y sonoros, inclusive objetos
tridimensionales, exigen procedimientos diferentes. No siempre es posible, en la práctica,
examinar un registro en su integridad (por ejemplo, proyectando un filme). La indización,
entonces, es comúnmente realizada a partir de un título y/o de una sinopsis, aunque al
indizador se le debe permitir mirar u oir la obra, si la descripción escrita es inadecuada o parece
inexacta. (p. 2)
El motivo para examinar el documento es, naturalmente, para decidir qué incluir en la indización
(en los términos de Preschel [19711, esto es la identificación de la "materia indizable"). Como lo
sugerido en el capítulo 2, el indizador, para hacer esto en forma eficiente, debe conocer muy bien los
intereses de la comunidad a la que sirve el índice. Dentro de una institución específica, los
indizadores pueden ser instruidos para buscar en los documentos ciertos elementos predefinidos; si
∗
Los pasajes de la norma ISO 5963 que aparecen en este capítulo son reproducidos con el permiso de la Organización Internacional de
Normalización.
esto ocurre, serán incluidos en la indización. De acuerdo al tipo de institución, esos elementos
importantes incluyen: materiales de fabricación, temperaturas implicadas, agrupamientos por edades
involucrados, nivel educacional, etc. En ciertos casos, los elementos más importantes son
preimpresos en formularios de indización, recordando al indizador qué términos deben ser usados, si
se aplicaran a determinado documento. Por ejemplo, la National Library of Medicine emplea
"etiquetas" de ese tipo para indicar agrupamientos por edades, género, tipos de animales utilizados
en experimentos, etc.
Esta etapa de "análisis conceptual" de la indización no debe ser influenciada por las características
del vocabulario a ser utilizado en la etapa de traducción. Esto es, el indizador decide, primero, qué
temas necesitan ser representados; sólo después (quizás momentáneamente) considerará si el
vocabulario permite o no representar estos temas adecuadamente. Dicho de forma un poco diferente,
el indizador no debe ignorar un tema porque sabe o sospecha que no puede ser expresado
adecuadamente. Es posible que un examen más meticuloso del vocabulario venga a mostrar que
estaba equivocado. Además, una función importante del indizador es perfeccionar el vocabulario
controlado, comunicando sus deficiencias a los responsables por su mantenimiento. Es improbable
que esto ocurra si el indizador esta estimulado a "pensar" en los términos controlados. En cuanto a
esto, discrepo totalmente con la ISO 5963, que afirma: "Tanto el análisis como la transcripción deben
ser realizadas con el auxilio de herramientas de indización, como tesauros y esquemas de
clasificación." La transcripción, sin duda, no puede realizarse sin esas herramientas, pero el análisis
debe ser completamente independiente de ellas.
Un factor afín a tener en cuenta es que la terminología usada por un autor puede no corresponder
exactamente a los términos del vocabulario controlado. Aún cuando los términos empleados por el
autor coincidan con los términos controlados, la manera como son utilizados puede diferir. Por
ejemplo, un autor puede emplear el término EPIDEMIOLOGÍA en una forma bastante vaga, pero el
vocabulario puede definirlo de modo más preciso, aunque es empleado por el autor, su asignación
será errónea. Son las ideas con que trata el autor, y no las palabras utilizadas, que deben ser
indizadas.
Exhaustividad de la indización
Los factores que afectan el desempeño de un sistema de recuperación de información que son
directamente atribuibles a la indización pueden ser categorizados como sigue:
1. Política de indización.
2. Exactitud de la indización
Análisis conceptual
Traducción
Las decisiones en cuanto a políticas son tomadas por los administradores del servicio de información,
estando por esto, fuera del control del indizador individual; los factores relativos a precisión están bajo
el control del indizador individual.
La principal decisión política es respecto a la exhaustividad de la indización, la cual corresponde,
aproximadamente, al número de términos asignados en promedio. El efecto de la exhaustividad fue
anteriormente ejemplificado en la figura 3. La indización exhaustiva implica el empleo de términos
suficientes para abarcar el contenido temático del documento de modo bastante completo. La
indización selectiva, por otro lado, implica el empleo de un número mucho menor de términos, para
abarcar solamente el contenido temático principal del documento. Cuantos más términos fueran
utilizados para indizar un documento más accesible se tornará y, probablemente, más será
recuperado. Un centro de información procurará indizar exhaustivamente si sus usuarios solicitaran
con frecuencia la realización de búsquedas completas. Un usuario que precise encontrar todos los
ítems que, de alguna forma, traten de la OLP tendrá la expectativa de recuperar el ítem mostrado en
la figura 3, pero eso solamente será posible si la indización ha sido moderadamente exhaustiva.
Las decisiones políticas sobre exhaustividad no deben tomar la forma de límites absolutos sobre el
número de términos a ser asignados. Más bien, la política podría sugerir una franja de términos; por
ejemplo, "la mayoría de los ítems será indizada con 8 a 15 términos". En un gran centro de
información, que trate con muchos tipos diferentes de documentos, la política podrá variar según el
tipo de documento. Por ejemplo, el centro de información de una gran empresa podría establecer la
siguiente política:
y así sucesivamente. Alternativamente, la política estaría basada sobre el contenido temático, los
temas de mayor interés para la empresa serían indizados con una cantidad mayor de términos.
Si bien una base de datos indizada exhaustivamente acostumbra posibilitar búsquedas exhaustivas
(alto acierto) ∗ , es probable que la indización exhaustiva sea más cara que la indización selectiva.
Además, la indización exhaustiva redundará en menor precisión en la búsquedas. Esto es, será
recuperado un número mayor de ítems que el usuario considerará no pertinentes a sus necesidades
de información. Esto puede ocurrir por dos razones:
1. Las "falsas asociaciones" aumentarán con el número de términos asignados. Por ejemplo, el
ítem de la figura 3 sería recuperado en una búsqueda sobre encuestas telefónicas en Egipto,
pero nada tiene que ver con ese tema.
2. Cuanto más términos fueran usados para indizar un ítem, más será recuperado en respuesta
a temas de búsqueda, que en él, son tratados solamente de una forma muy secundaria. Es
probable que el ítem de la ilustración 3 sea recuperado en una búsqueda de artículos que
trate de líderes políticos de los estados árabes, pero la persona que solicita esa búsqueda
puede decidir que el mismo contribuye tan poco para ese tema que difícilmente sería
considerado útil.
∗
Esto fue demostrado en numerosas ocasiones, más recientemente por Boyce y McLain (1989).
dimensiones, como muestra la figura 6. Digamos que un indizador es capaz de identificar diez temas
afines que son estudiados en el ítem. Se considera esto como el ámbito de cobertura del documento.
Si el indizador intenta incluir todos esos temas, la indización será considerada como exhaustiva (esto
es, ella es una representación exhaustiva del contenido temático). Cuanto más temas fueran
incluidos más exhaustiva será la indización. Por otro lado, cuanto menos temas fueran incluidos más
selectiva será la indización. Evidentemente, la indización exhaustiva exigirá el empleo de más
términos.
La segunda dimensión del documento, desde el punto de vista de la indización, es denominada
especificidad en la figura 6. Esto es, algunos de los temas identificados serían indizados en más de
un nivel de especificidad. Supongamos que el primer tema sea "arquitectura de las catedrales". Esto
podría ser indizado bajo el término ARQUITECTURA RELIGIOSA, el cual no es completamente
específico. A fin de aumentar la especificidad, el indizador añadiría un segundo término,
CATEDRALES. El empleo conjunto de los dos términos representa precisamente el tema estudiado.
Por otro lado, la inclusión de ARQUITECTURA DOMÉSTICA aumentaría la exhaustividad y no la
especificidad porque se estaría introduciendo un nuevo concepto en la indización.
En otras palabras, la inclusión de más términos de indización aumentaría a exhaustividad de una
representación o aumentaría su especificidad. Por consiguiente, mientras sea verdadero decir que la
"exhaustividad" corresponde aproximadamente al número de términos asignados, no existe una
relación unívoca exacta entre exhaustividad y el número de términos. En este libro, exhaustividad se
refiere al ámbito de cobertura de la indización como está ejemplificado en la figura 6. Profundidad es
un término menos satisfactorio porque denota lo opuesto de ámbito y se aplica más apropiadamente
a la dimensión de especificidad mostrada en la figura 6.
El número de términos asignados a un documento constituye realmente una cuestión de costo-
eficacia. Dicho generalmente, cuanto más exhaustiva sea la indización mayor será el costo, y es
poco razonable indizar con un nivel de exhaustividad mayor que el justificado por las necesidades de
los usuarios del servicio. (En realidad, naturalmente, esto es una gran simplificación. En relación con
un documento extenso, el indizador necesita más tiempo para abarcar exhaustivamente su contenido
temático. En otros casos, puede ser más rápido utilizar muchos términos en vez de procurar
seleccionar algunos a partir de un grupo en que los términos estén íntimamente relacionados o los
mismos tengan significados coincidentes. En general, no obstante, cuanto más términos fueran
usados más costosa sería su inclusión en la base de datos y su procesamiento subsecuente.
Además, el incremento del número de términos elevará sustancialmente los costos de los índices en
fichas o impresos). En el caso que fueran solicitados muchos pedidos de búsquedas que realmente
cubran el asunto de modo completo, será preciso un alto nivel de exhaustividad. Si esas búsquedas
son la excepción a la regla, un nivel más bajo de exhaustividad será suficiente.
La figura 7 demuestra la ley de los rendimientos decrecientes aplicada a la indización. En el
ejemplo hipotético de ese servicio de información, la asignación en promedio de x términos satisfará a
cerca del 80 % de las necesidades de los usuarios. Para elevar ese porcentual al 90-95 % sería
preciso exigir una exhaustividad mucho mayor en la indización. La posición del punto X en esa curva,
y que x representa en número de términos, dependerá muchísimo de cuestiones que serán
específicas del sistema. Los administradores de un servicio de información preparan directrices sobre
exhaustividad de la indización que resultan del conocimiento que tienen de las necesidades de los
usuarios. Estas tienden a estar basadas en la intuición, aunque sería Posible realizar experimentos
controlados en que se comparen muestras de necesidades de información con una colección de
documentos indizados con diferentes cantidades de términos.
Evidentemente, la idea de un nivel óptimo de exhaustividad aplicable a todos los ítems de una
base de datos es un tanto engañosa, ya que se aplicarían valores ideales extremadamente diferentes
a diferentes ítems, dependiendo de los pedidos efectivamente formulados por los usuarios del
sistema (Maron, 1979). La exhaustividad óptima es enteramente dependiente de los pedidos.
ESPECIFICIDAD
1.
EXHAUSTIVIDAD
2.
3.
4.
5.
6.
7.
8.
9.
10
Figura 6
Las dos dimensiones de la indización de un documento.
100
Porcentaje de X
pedidos que
Pueden ser
satisfechos
Figura 7
Rendimientos decrecientes en la indización.
Principio de especificidad
donde hubiese un artículo que tratase de frutas cítricas en general, pero que incluyese extensas
consideraciones sobre naranjas, o uno que tratase de frutas cítricas y que se valiese de las naranjas
como ejemplo (por ejemplo, la irrigación de frutas cítricas con ejemplos tomados de la irrigación de
naranjales).
El indizador debe tener presente que es posible obtener especificidad mediante la combinación de
términos. Si no hubiera ningún término que sólo pueda representar el tema, se busca una
combinación apropiada de términos en el vocabulario controlado. He aquí algunos ejemplos
hipotéticos:
Se observa que el indizador debe procurar la combinación más apropiada para cada caso.
Teóricamente, Literatura Medieval Francesa sería expresada por LITERATURA MEDIEVAL y
FRANCIA, pero la combinación de LITERATURA MEDIEVAL y LITERATURA FRANCESA expresa la
idea más exactamente. Del mismo modo, se combinó CIENCIAS MÉDICAS con BIBLIOTECAS
ESPECIALIZADAS y no con BIBLIOTECAS para expresar la idea de bibliotecas médicas, pues estas
son evidentemente especializadas, y se combinó MANÍ con ACEITES VEGETAILES y no con
ACEITES, ya que aceite de maní es un aceite vegetal.
El vocabulario controlado a veces no incluye un término en el nivel de especificidad exigido por un
determinado documento. En ese caso el indizador usará el término más específico existente (por
ejemplo, FRUTAS CÍTRICAS, antes que FRUTAS, para un artículo sobre naranjas). El puede también
sugerir, al equipo responsable por el mantenimiento del tesauro, la necesidad de términos más
específicos en esa categoría.
Otras directrices
El proceso de indización por materias parece ser no propenso a reglas rigurosas. Más allá del
principio de especificidad, no fueron desarrolladas reglas verdaderas sobre la asignación de términos,
a pesar de que existen muchas acerca de qué hacer con los términos de indización después de
asignados (por ejemplo, como establecer la secuencia en que son listados, para formar
encabezamientos en un índice impreso). Fueron formuladas muchas "teorías" sobre indización,
algunas de las cuales fueron resecadas por Borko (1 977), pero tienden a no ser teorías de verdad, y
ofrecen poca ayuda práctica para el indizador.
Fugmann (1979, 1985) ha presentado varios axiomas sobre "indización Y Provisión de
información", pero no todos tienen una relación directa con la indización como tal. El único principio
de indización verdadero formulado, denominado "indización obligatoria", afirma que el indizador debe
utilizar los términos más apropiados con que pueda contar para describir el contenido temático
tratado en un documento. Ya que esto significa, comúnmente, los términos más específicos, es
esencialmente una reiteración del principio de especificidad. La mayor parte de los axiomas de
Fugmann son realmente factores que influyen en el desempeño de sistemas de recuperación de
información antes que elementos de una teoría, aunque varios de los términos tengan ingerencia en
la indización. Por ejemplo, el axioma de la definibilidad tiene relación con la capacidad de definir
clara e inequívocamente una necesidad de información. Esto puede, evidentemente, ser extendido a
la capacidad definir el contenido temático de documentos de modo claro e inequívoco. El axioma de
la previsibilidad, de Fugmann, dice que el éxito de una búsqueda en un sistema de recuperación
depende en gran medida de la previsibilidad con que es descripto el contenido temático, el que
apunta a la importancia de la coherencia en la indización. El axioma de la fidelidad dice que otro
factor que influye sobre el desempeña es la capacidad de definir con rigor y exactitud el contenido
temático (de las necesidades de información y, por extensión, de los documentos), el cual tiene que
ver más con el vocabulario controlado utilizado para indizarlo que con la propia indización.
No conseguí, en efecto, encontrar alguna teoría verdadera aplicable al proceso de indización, a
pesar de que hay algunas (ver, por ejemplo, Jonker [19641) que refieren a las características de los
términos de indización. Además, creo que es posible identificar solamente dos reglas fundamentales
de la indización, una referida a la etapa del análisis conceptual y la otra a la etapa de traducción, a
saber:
1. Incluya todos los temas de conocido interés para los usuarios del servicio de información,
que sean tratados sustantivamente en el documento.
2. Indice cada uno de ellos tan específicamente como lo permita el vocabulario del sistema y
lo justifiquen las necesidades o el interés de los usuarios.
Estas reglas están, naturalmente, sujetas a interpretación. Por ejemplo, ¿qué significa en realidad
"sustantivamente"?. Una pauta posible sería que el tema x debe ser indizado si se percibe que la
mayoría de los usuarios que buscan información sobre x encuentran ese tema de interés. Está claro
que "sustantivamente" no es una propiedad que pueda ser expresada o medida con algún método
preciso. En todo caso, si un tema particular merece ser indizado, es algo que dependerá
ampliamente de tres factores: (1) la cantidad de información dada sobre el tema, (2) el grado de
interés en el tema, y (3) la cantidad de información ya existente sobre el tema: una breve y aislada
mención de un compuesto merece ser indizada si se sabe que ese compuesto es bastante reciente;
años después sería necesario un volumen mucho mayor de información para justificar su inclusión.
La expresión "necesidades o intereses de los usuarios", en la segunda regla, implica que el
principio de especificidad puede y debe ser modificado cuando se sabe que los usuarios de un
sistema o fuente de información, en ciertas circunstancias, serían mejor servidos por medio de la
indización de un determinado tema en un nivel más genérico. Por ejemplo, en una base de datos de
medicina, los artículos de medicina veterinaria aplicada a perros serían indizados bajo los nombres de
las razas de los perros involucrados. Por otro lado, artículos que tratasen de la utilización de perros
en experiencias de laboratorio serían simplemente indizados bajo PERROS, aún cuando una raza
específica fuese mencionada.
Un colorario de la primera regla mencionada es que los temas no examinados en el documento no
serán considerados por el indizador. Aunque esto puede parecer evidente y banal, no es
necesariamente así. Algunos indizadores, principalmente aquellos que se consideran "especialistas"
en un tema, se sienten inclinados a ver en un documento cosas que nunca estuvieron en las
intenciones del autor (por ejemplo, aplicaciones de un dispositivo más allá de aquellas sostenidas en
el documento). Entre tanto una de las funciones importantes de ciertos especialistas en información
(por ejemplo, aquellos que actúan en la industria) será llamar la atención de los usuarios del servicio
de información para aplicaciones potenciales, esto de hecho, no constituye la función del indizador
como tal. Es mucho mejor que él se atenga al texto y a las afirmaciones del autor. El ERIC
processing manual (1980) da algunos consejos sobre esto:
Indice el documento que tenga en sus manos, no el documento que al autor le gustaría tener
escrito o pretende escribir en el futuro. No confunda especulaciones o referencias a
sugerencias y posibilidades con el verdadero contenido. (p. vii-13)
"Resultados no afirmados por el auto" no deben, desde luego, ser confundidos con resultados
negativos. Estos comúnmente merecen ser indizados. Por ejemplo, si un estudio muestra que un
material no es apropiado para ser utilizado en determinada aplicación, la aplicación mencionada
debería ser definitivamente incluida en la indización, si bien son aceptados otros criterios (por
ejemplo, el volumen de información dado).
Indización pos-coordinada
El contenido temático tratado en un documento y representado por los términos de indización que le
son asignados, es de un carácter multidimensional. Consideremos, por ejemplo, un artículo que trate
de la migración de mano de obra de Mozambique a las minas de Sudáfrica indizado bajo los
siguientes términos:
MOZAMBIQUE
SUDÁFRICA
TRABAJADORES MIGRANTES
MINEROS
RELACIONES ECONÓMICAS
Si bien los términos son aquí presentados en forma de lista, en realidad representan una red de
relaciones, como se ve en el diagrama de la página siguiente. Uno debería ser capaz de recuperar
este documento en una búsqueda que involucro cualquiera de los términos tomados aisladamente o
cualquier combinación entre ellos: dos, tres, cuatro, o los cinco. Un sistema de recuperación de
información que posibilita que una búsqueda combine los términos de cualquier manera es
frecuentemente denominado pos-coordinado (otros términos empleados han sido pos-combinación o
manipulativo).
MOZAMBIQUE
MINEROS
TRABAJADORES
MIGRANTES
RELACIONES
ECONÓMICAS
SUDÁFRICA
CENDIE – Actualización en procesos técnicos: Análisis Documental
24
Los sistemas pos-coordinados surgieron en la década de 1940, cuando fueron puestos en práctica
por medio de la utilización de varios tipos de fichas. Un sistema computadorizado moderno,
funcionando en línea [online], puede ser considerado como un descendiente directo de esos sistemas
manuales. Puede ser imaginado conceptualmente como una matriz semejante a la mostrada en la
figura 8.
Los archivos de un sistema en línea comprenden dos elementos principales:
Se puede demostrar lo que pasa durante una búsqueda en línea consultando la matriz de la
figura 8. Supongamos que la persona que hace la búsqueda entra el término MOZAMBIQUE en una
terminal y que éste es representado por P en el diagrama. El sistema responde indicando que siete
ítems fueron indizados bajo el término. La persona entra TRABAJADORES MIGRANTES (L en el
diagrama) y recibe la información de que cuatro ítems aparecen bajo este término. Si ella pide
ahora que se haga la combinación de L con P, el sistema comparará los números de documentos
de las dos listas e indicará que tres ítems satisfacen el requerimiento. Atendiendo la solicitud del
interesado, el computador localiza esos registros por sus números de identificación (4, 8, 10) y los
muestra en la pantalla del monitor o los imprime.
Este procedimiento permanece igual no importa cuantos términos se encuentren involucrados y
cuáles sean las relaciones lógicas especificadas por quien hace la búsqueda. Si fuera pedido F o
G, el sistema indicará que cinco ítems satisfacen el requerimiento. Quien hace la búsqueda solicita
entonces que esta lista de cinco ítems sea combinada con la lista bajo N - esto es, (F o G) y N -
resultando en la recuperación de tres ítem.
De los sistemas pos-coordinados es posible decir que:
1. Los términos pueden ser combinados entre sí de cualquier forma en el momento en que,
se hace la búsqueda.
2. Se preserva la multidimensionalidad de las relaciones entre los términos.
3. Todo término asignado a un documento tiene igual peso - ninguno es más importante que
otro (aunque la indican ponderada, tal como lo tratado en el capítulo posterior, pueda ser
utilizada).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A X X
B X X X X X
C X X X
D X X
E X X X X X X X
F X
G X X X X
H X X X
I X
J X X X X X X
K X X X X X X X
L X X X X
M X X X X
N X X X X X X X
O X X X X X
P X X X X X X X
Figura 8
Sistema de recuperación de información representado como una matriz.
En algunas instituciones el indizador simplemente marca el documento que tiene en sus manos, y
un dactilógrafo transcribe lo que fue marcado por el indizador. Este método, comúnmente, es
apropiado sólo a situaciones en las cuales se emplea una metodología de indización relativamente
simple - por ejemplo, el enriquecimiento de títulos asociados con la adición de un número
relativamente pequeño de términos o códigos de indización.
Antes que los sistemas en línea se tornasen comunes, era usual para un indizador dar entrada a
los términos en un formulario impreso. La figura 9, por ejemplo, presenta la última versión de un
formulario utilizado por la National Library of Medicine. Obsérvese el empleo de "etiquetas"
[chektags]. Estos son términos potencialmente aplicables a muchos documentos de la base de datos.
Su pre-impresión en el formulario es eficiente y económica, pues el indizador sólo necesita tildar
aquellas que son aplicables. Esto no sólo ahorra tiempo al indizador, lo lleva a recordar que esos
términos deben ser asignados cuando corresponda a un determinado documento. Las etiquetas son
asignadas de modo más coherente que otros términos empleados en el MEDLARS (Lancaster, 1968;
Funk y Reid, 1983).
En ambientes de indización altamente especializada, tal vez sea posible pre-imprimir el vocabulario
controlado completo en el formulario de indización, permitiendo así que todos los términos se tornen
esencialmente etiquetas. El pionero de ese método fue probablemente Mooers. La figura 10 (según
Brenner y Mooers [19581) muestra un formulario típico de indización de Mooers. Obsérvese como los
descriptores son agrupados sistemáticamente. Al analizar el documento, el indizador considera
básicamente cada descriptor de la tabla como potencialmente aplicable. En efecto, el indizador se
formula a sí mismo las preguntas propuestas por el propio formulario de indización. Si, por ejemplo, la
CENDIE – Actualización en procesos técnicos: Análisis Documental
26
respuesta a "¿existen cargas aerodinámicas específicas?" es "si" (esto es, el documento en examen
trata de cargas específicas), el indizador tendrá eso en cuenta asignando el descriptor, o
descriptores, más apropiados para carga aerodinámico. La lista de descriptores, presentada de esa
forma, simplifica el proceso de indización porque ahorra al indizador parte de su esfuerzo intelectual.
El uso potencial de un documento de interés para la institución está representado por la lista de
preguntas "orientadoras" que fue cuidadosamente compilada por personal científico experimentado.
Author Data
Title (1)
Title (2)
Figura 9
Formulario de indización utilizado por la National Library of Medicine en1989.
En el pasado, la U.S. Patent and Trademark Office desarrolló pequeños sistemas de recuperación
limitados a una única clase o a un número restricto de clases en un área de patentes. Fueron creados
vocabularios especializados para esas áreas, los cuales son suficientemente pequeños para ser
impresos en algunas hojas.
También se obtuvo éxito en algunas instituciones donde el indizador pasó a dictar los términos en
un grabador de cinta para ser posteriormente transcriptos por dactilógrafos. Este método presenta
algunos problemas., Pueden ocurrir muchos errores de dactilografía cuando se utiliza un extenso
vocabulario técnico, extraño al dactilógrafo, obligando a un trabajo de revisión muy cuidadoso.
Algunos indizadores no trabajan bien con ese método porque tienen dificultades en recordar cuáles
fueron los términos que ya asignaron a un ítem.
Cada vez más, no obstante, los productores de bases de datos están cambiando a procedimientos
de indización en línea. En esta modalidad de operación se presentan en el monitor de video varias
pantallas con formato y el indizador ingresa los datos en los campos así presentados. Esta
modalidad de operación ofrece ventajas significativas en relación a sus predecesoras: el indizador
puede recibir varios tipos de mensajes, algunos de sus equívocos pueden ser reconocidos por
programas de detección de errores y el indizador informado inmediatamente, además de evitar la
etapa rutinaria intermedia de convertir el trabajo del indizador en un registro legible por computador.
Por otra parte, existe la posibilidad para el indizador de pasar de la modalidad de entrada de datos a
la modalidad de recuperación. De esta manera, puede utilizar casos precedentes para su orientación
en ciertas decisiones concernientes a la indización. Esto es, el indizador puede acceder a la base de
datos para informarse cómo un determinado término fue empleado anteriormente o cómo un
documento más antiguo, afín a uno que está siendo examinado, fue indizado.
Evidentemente, el vocabulario controlado utilizado por un servicio de información será un
instrumento de suma importancia para el indizador. Debe ser organizado y presentado de tal forma
que proporcione al indizador una asistencia positiva en la selección de los términos más apropiados
que serán empleados en una determinada situación. Aunque estrechamente relacionados al tema de
la indización, la construcción y las propiedades de los vocabularios controlados son temas que
escapan a la finalidad de este libro. Ellos han sido tratados en detalle en otras obras (Lancaster,
1986; Soergel, 1974).
Un tesauro publicado incorpora, comúnmente, un vocabulario de entradas, limitado a remisiones
del tipo véase, úsese, o véase bajo. Un centro de información grande puede también emitir un
vocabulario de entradas separado, para ser utilizado internamente por indizadores, especialistas en
búsquedas y lexicógrafos. Un vocabulario de ese tipo puede presentarse en varios formatos: fichas,
hojas sueltas, en forma legible por computador para emisión de salidas impresas o presentación en
terminal de video en línea, o en microfilme.
Las obras de referencia publicadas pueden ser de gran valor para el indizador, principalmente en
la definición del significado de términos poco comunes. Particularmente importantes son los
diccionarios y enciclopedias especializadas y generales, como también los glosarios de todos los
tipos. Bakewell (1987) elaboró una lista de herramientas de referencia de uso potencial para el
indizador. Un trabajo anterior sobre instrumentos auxiliares de la indización en general, de Korotkin et
al. (1964), está muy desactualizado. En algunas instituciones el trabajo del indizador cuenta con el
auxilio de acceso en línea a bancos de datos terminológicos (Terminological Data Banks, 1980).