0 calificaciones0% encontró este documento útil (0 votos) 147 vistas32 páginasU601lancaster PDF
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido,
reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
F. W. Lancaster
Indizaci6n y resimenes:
teoria y practica
Traduccién de
Elsa E. Barber
EB publicaciones
Buenos Aires
1996INTRODUCCION
EI propésito principal de la elaboracién de indices y resimenes es construit
represensaciones de documentos publicados en una forma que se preste a su
inclusiéa en alga tipo de base de datos. Esa base de datos de representacio-
nes puede sex impresa (como en una publicacién de indizacin/resimenes,
como el Chemical Abstracts 0 el Engineering Index), en forma legible por
computadara {cuando la base de datos sea frecventemente el equivalente
aproximade de wn servicio impreso), 0 en fichas (como un catdlogo conven-
cional de biblioteca).
La fanciém de las operaciones de indizar/resumir, en cl mbito mayor de
las actividades de recuperacién de la informaci6a en general, esté ilustrado en
la figura 1. Ea ptimer lugar, el productor de base de datos selecciona de la
poblaciéa de documentos recién publicados aquellos que satisfagan ciertos
criterios para se inclusién en la misma. E} més obvio de esos criterios es ci
tema de qué trata el documento, pero otros, tales como tipo de documento,
lengua u origes, también son importantes. Para aquellas bases de datos que
tratan principalmente con artfculos de revistas, los cxiterios de selecci6n co-
ménmente estarén centrados preferentemente en la publicacién antes que en
cf artfenio; esto es, algunas revistas serdn incluidas y otras no (aunque algu-
nas revistas sendin indizadas en su totalidad y otras selectivamente). La cober-
tura proporcionada por muchas bases de datos es, en gran medide, determina-
da por razones de costo-eficacia, Particularmente en el caso de bases de datos
‘que abagcan tm campo altamente especializado, solo incluirén aquellas revis-
tas que publicam mds sobre los temas de interés.
‘Los docamentos seleccionados para incluir en una base de datos serdn
“descriptos” de varias formas. Los procedimientos de catalogaciGn descripti-
va (que no aparecen en ja figura 1) identifican autores, titulos, origenes de la
publicaciéa, y otros elementos bibliogrétficos; los procedimientos de indizacién
identifican el tema de qué trata el documento; y el resumen es utilizado para
sintetizar el contenido del documento. Los términos utifizados en la indizacién
serdn oon frecuencia extra{dos de algiin tipo de vocabulario controlado, como
un tesapro {el “vocabulario del sistema” de la figura 1), pero, en su lugar,
pueden ser términos “libres” (por ejemplo, extraides del propio documento).
Estas actividades de descripcién crean representaciones de los documentos en
una forma que se presta para su inclusién en Ja base de datos. Los propios
documeatos gormalmente serdn destinados a un tipo diferente de base de
datos (et acervo de documentos) como las estanterfas de una biblioteca.. INDIZACION Y RESUMENES: TEORIA Y PRACTICA
Los miembros de la comunidad a ser atendida utlizardn la base de datos,
fandamentalmente, para satisfacer las diferentes necesidades de informaciGn,
Para lograr esto, deben convertir una necesidad de informacién en alguna
forma de “estrategia de bisqueda", la cual puede ser tan simple como la
selecciéa de un nico término para consular un indice impreso o.uncatdloge
=—- a
Necesidades de
‘informaciéa
Poblacéa de
rauario dela
ase de dane
Figura i
La funcién de la elaboraci6n de indices y resémenes en el cuadro més amplio de la
recuperacién de la informacion
al
INTRODUCCION 3
en fichas, 0 incluir la combinaciém de varios sérminos en una estrategia més
elaborada y sofisticada, utilizada para interrogar una base de datos por medio
de una terminal de
En la biisqueda en una base de datos, desde luego, uno desea encontrar
ftems que sean dtiles para satisfacer tna necesidad de informaciéa, y evitar la
recuperacién de ftems imitiles. “Relevante” y “pertinente” son téminos em-
pleados frecuentemente para referirse a ftems “Biles”, y han sido definidos de
diferentes formas, Hay mucho desacnerdo sobre lo que realmente significan
“relevancia” y “\pertinencia” (Lancaster, 1977). Emeste libro consideraré como
sindnimas las expresiones “til”, “pertinente” y “relevante para una necesidad
de informacién”. Esto es, un ftem pertinente (iif) es aque! que contribuye a
satisfacer alguna necesidad de informacién,
Los problemas de recuperaciém de informaciée estin representados gré~
ficamente en la figura 2. Bl rectiggalo interno representa una base de datos y
los ftems que contiene. Los ftems con la sefial de adicién (+) son aquellos que
un consultante hipotético considerarfa tiles paca satisfacer alguna necesidad
de informacién actual, y los {tems con seftal de sustraccién (-) son aquellos
que no consideraria tiles. Para cualquier necesidad especifica de informacién
lhabré muchos més ftems - que fems +, En realidad, si el diagrama fuera hecho
“a escala”, seria casi cierto que los 11 ftems tiles estarfan acompaiiadas de
toda una muralla de {tems indtiles. El problema esti en recuperar tantos ftems
itiles como sea posible, y la menor cantidad posible de ftems initiles.
. Fignra2
El problema de la recuperacién de ftems pertinentes de una base de datos‘ INDIZACION ¥ RESUMENES: TEORIA Y PRACTICA
EI menor de los dos recténgulos internos de ta figura 2 representa los
resultados de una busqueda realizada en una base de datos. Ella recuperé 57
ftems, de los cuales 6 fueron titles y 51 intitiles. La relacin entre items titles
¥ €l total de items recuperados (6/57 es cerca del 10 % en este caso) es
comiinmente denominada tasa de precisidn. E] indice empieado habituaimen.
te para expresar la extensién de todos los items itiles que son encontrados es
Ja tasa de acierto, En este caso, la tasa de acierto es de 6/11 o.cerca del 54%.
En esa situaci6n, probablemente seria necesario, para mejorar el acierto,
hacer una busqueda més genérica. Esto esté representado por el mayor de los
dos rectangulos intemos. Al hacer la busqueda mas genérica sumenta el acierto
al 8/11 (73 %), pero la precision dectina también al 8/112 o cerca del 7 %.
Una caracteristica desafortunada, propia de la recuperacién de ia informa.
cién, es que una mejoria del acierto generalmente causa un detetioro de Ia
precisién y viceversa.
La figura 2 sugiere otro feaémeno. Tal vez fuese posible hacer una biis-
ueda suficientemente genérica para localizar todos los items tiles (esto es,
alcanzar el 100 % de acierto), pero la precisién serfa probablemente inacepta,
ble. Ademds, cuanto més grande fuera la base de datos, menos aceptable seria
tuna baja precisién. Mientras el usuario estaria dispuesto a mirar los resiime.
nes de, digamos, 57 items, para encontrar 6 que le sean titles, al vez se sienta
mucho menos inclinado a examinar 570 resiimenes para encontrar 60 que le
sean utiles, En bases de datos muy grandes se torna, por lo tanto, progresiva,
mente més dificil alcanzar un nivel de acierto aceptable con un nivel de
precisiGn tolerable.
En este Libro empleo el término acierto para designar 1a capacidad de
Tecuperar items tiles, y precisin para designar la capacidad de evitar los
imitiles. Existen otras medidas de desempefio para basquedas realizadas en
una base de datos (ver, por ejemplo, Robertson (1969}), algunas son matema-
Ucamente exactas, pero el acierto y la precisién componen el cuadro general
¥ atin parecen ser las medidas obvias para ser utilizadas para expresar los
Tesultados de cualquier bisqueda que simplemente divida una base de datos
en dos partes (recuperados y no recuperados)*,
La figura 1 muestra claramente que son muchos los factores que deter-
‘mina si una bisqueda en una base de datos ¢s 0 no exitosa. Estos compren-
den la cobertura de la base de datos, su politica de indizacién, sus regias de
indizacién, su politica y reglas para la redacci6n de resémenes, la calidad del
vocabulario utilizado en la indizacin, la calidad de tas estrategias de bisque-
da, etc. Este libro no intenta tratar sobre todos esos factores (aunque todos
estén {nterrelacionados), se concentra més en las actividades importantes de
descripcién del documento o, al menos, aquellas concernientes con el conte.
nido de los documentos.
* Una basqueda que presente sus resultados en orden de “pertinencia probable" requiere uaa
‘medida un tanto diferente, Ia cua, en efeco, compara un raago obtenido con us ranpo deal
PRINCIFIOS DE INDIZACION
«a aciba ‘én
Micnras el thle de ext bose refiere a “indizacGa", se cmp pode scion
estden realidad Kimitadoaaindizaion de temas ya laredarcia de resine:
Seestameate nea, sori ci orican a repmacion de
is jue amt
fepeseai del teats ico des dooms Baia ea
una descripeiia narratva 0 concise del documento, mientras el indizador
describe su contenido al eaxplear uno o varios términos de indizarsin,
mente scecconados de agin po de voeabulariocontrsade ‘oe
EI principal objetivo del resumen es indicar de qué ts A965
CeeemoLir) ona ef tne stehe eeeth tn
“es
‘Index TOUR *eveneplentetton (68)
esreied tect
inte tori rane 64)
Figura 13
‘Bjemplo de entradas de un vocabulario de entradas publicado
PRACTICA DELA INDIZACION 4
plo, debe ser indizada por el término CESTODE INFECTIONS y BERTIELLA
[infecciones por cestodos y Bertietla]. El Integrated Amshority File fue reem-
plazado por el Medical Subject Headings — Amnotated Alphabetic List de la
NLM. Esta lista muestra como varios coeceptos deben ser indizados (por
ejemplo, microgtioma bajo RETICULOENDOTELIOSIS), pero no incluye
nnotas explicativas (a disposiciGa de los indizadoces ea salidas impresas de
computador, pero ya no publicadas).
El concepto de vocabulario de entradas fue ampliado en la NLM me-
diante la prodaccién de folletos, con instruccioses pans indizacién cn cl siste-
ma MEDLARS, sobre 4reas teméticas espectficas: extervides, farmacia y
farmacotogia, fisiologia de la respiraciGm, genética, parasitologfa, etc. Estos
describfan cada asunto en términos simples, con ejemplos apropiados, y ana-
lizaban los problemas inhereates a la indizackéa en ese campo temético. Se
cjemplificaba el empleo de fos términos ms pertinestes del Medical Subject
Headings, incluyendo, cuando fuere oportamo, una Esta completa de éstos
con términos de entrada y definicioues. Ese tipo de folleto era preparado por
tun indizador especiatizado en el tema iavolncrada. Esos folletos sobre
indizacién especifica de un tema ya no soa producidos por la NLM, la nica
cexcepcién es la Tumor Key [Clave tumores}, que ovata a los indizadores al
término cocrecto del MeSH para varios tipos histolégicos de tumores y cénce-
res,
Existiendo una publicaci6n autorizada bien reconocidla sobre la termino-
logfa de una rama de la medicina, esta es aceptada por ia NLM y adoptada
‘como una extensi6n del vocabulario de eatrades del sistema. Esas publicacio-
nes incluyen el Manual of Tumor Nomenclature and Coding [Manual de
nomenclatura y codificacién de tamorea}, de lz American Cancer Society, y la
Enzyme Nomenclature (Nomenclatura de extimas), de la International Union
of Biochemistry.
Las obras de referencia publicadas poeden ser de gran valor para el
indizador, principalmente en la definicién del significado de términos poco
comunes. Particularmente importantes soa les diccionarios y enciclopedias
especializadas y generales, como tambiéa los glossrios de todos los tipos.
Bakewell (1987) elaboré una lista de herramientas de referencia de uso po-
tencial para el indizador. Un trabajo anterior sobre instrumentos auxitiares de
la indizaci6n en general, de Korotkin et al. (1964), extd muy desactualizado.
En algunas instituciones el trabajo del indizadar cventa con el auxilio de
acceso en Linea a bancos de datos terminoligicos (Terminological Data Banks,
1980).{NDICES PRE-COORDINADOS
La flexibilidad asOciada a los sistemas pos-coordinados se pierde cuando ios
términos de indizacién son impresos en papel o en fichas catalogréficas con-
vencionales. Los indices impresos y los catélogos en fichas son pre-coordina-
dos; tienen \as siguientes caracterfstic:
1.Es diffcit representar la multidimensionalidad de las relaciones entre los
términos.
2. Los términos s6lo pueden ser listados en una determinada secuencia (A, B,
€. D, E), to cual implica que et primer término es més importante que los
otros.
3. No es fAcil (si no completamente imposible) combinar términos en el mo-
‘mento en que se hace una busqueda.
La forma més rudimentaria de un sistema de recuperaciGn de informacién
es probablemente el tradicional catdlogo en fichas como el utilizado en las
bibliotecas. Consideremos el ‘tem mencionado anteriormente: un libro sobre
migracién de mano de obra de Mozambique a las minas de Sudéfrica, Supon-
‘gamos que le han sido asignados tres encabezamientos de materia: MOZAM-
BIQUE, SUDAFRICA y TRABAJADORES MIGRANTES. La descripcién
bibliogréfica del libro aparecerfa bajo los tres encabezamientos en un catilogo
alfabético de materias. Esto permite el acceso al libro bajo cualquiera de esos
encabezamientos. Sin embargo, seré extremadamente dificil realizar una bis-
queda sobre alguna combinacién de esos términos. Por ejemplo, un usuario de
biblioteca que esté buscando libros sobre las relaciones politicas o econémicas
entre Mozambique y Suddfrica necesitarfa mirar todas las entradas bajo el
‘encabezamiento MOZAMBIQUE 0 todas bajo e! encabezamiento SUDAFRI-
CA. Atin cuando hiciera esto, no reconocerfa necesariamente los {tems perti-
nentes. Si busca bajo MOZAMBIQUE, probablemente sélo reconocerfa un
libro como pertinente si tuviera en su tftulo el término “Suddfrica” (y vicever-
sa, si buscase bajo SUDAFRICA), o si al pie de la ficha catalogréfica aparecen
Jos otros encabezamientos asignados al libro (seria improbable que los consul-
tase, a menos que fuese un usuario de catélogos con mucha experiencia). Otra
posibilidad seria buscar bajo todas las entradas MOZAMBIQUE y todas las
entradas SUDAFRICA intentando encontrar t{tulos en que aparecieran ambos
—un proceso muy tedioso si las entradas afectadas fueran muchas, Es posible
mejorar esta situaciGn en los catélogos en fichas usando un encabezamiento
como subencabezamiento (esto ¢s, los términos son pre-coordinados en una
entrada). De este modo, encontrarfamos una entrada como la siguiente:
INDICES PRE-COORDEHADOS 43
‘Mozambique — Relaciones Beoméenicas
‘ohasta
‘Mozambique — Relaciones Boomdmicas — Sudéifrica
No obstante, los subencabezamiemns leaden a ser usados més bien escase-
mente en los catilogos en fichas, y seria inusual el catdlogo que reuniese toda
una secuencia* de términos come ea la siguiente entrada pre-coordinada:
Mozambique, Relaciones Ecomfaticas, Sudéfrica, Trabajadores Migran-
tes, Mineros
Es mds probable que entradas de este tipo aparezcan en indices impresos que
en catélogos en fichas. Al respecta, las indices impresos pueden sex conside-
rados instrumentos de recuperaciea més eficientes que los catélogos en fichas
convencionalcs. En este caso, el wsuario buscaria !as entradas bajo Mozam-
bique para ver si alguna menciona tambiéa a Sudéfrica.
‘Pero una entrada como la del ejemplo presenta un problema obvic: pro-
vee acceso al documento sélo para qpiien busca bajo el término MOZAM-
BIQUE, y no da acceso cn una bésqueda relativa a Sudéfrica, mineros 0
trabajadores migrantes. Para proporcionar puntos de acceso adicionales cs
preciso crear més entradas para el fdice.
No hay manera por Ia cual ua iadice impreso pueda proporcionar, de
forma econ6mica, el nivel de acceso a un documento proporcionado por un
sistema de recuperacién pos-conrdiaado. Como mostramos antes, un sistema
p0s-coordinado permite el acceso a través de cualquier combinacién de té1-
rminos asignados al documento. El mémero de combinaciones es 2"— t, don-
de n representa el niimero de téxmiaas. De este modo, para un ftem indizado
bajo cinco términos, habré 2 — L combinaciones, un total de 31. En teorfa,
{indice impreso Sonarfa todas las combinaciones de cinco
imprimiese 31 entradas. Serfa encondmicamente quijotesco crear
un indice impreso que tuviese tantas entradas para cada ‘tem, y la cantidad de
entradas aumentaria draméticamemte con el niimero de términos — existen
255 combinaciones de ocho términes!
Por otra parte, como los términas deben imprimirse uno tras oto en und
entrada (esto es, en una secuencia lizeal), los {ndices impresos se rigen por
permuzacién antes que por combiaacién. Por ejemplo, la secuencia MOZAM-
BIQUE, SUDAFRICA, no es la misma que SUDAFRICA, MOZAMBIQUE.
El mimero de permutaciones es el factorial de n, donde n es el niimero de
términos. Por ejemplo, el mimero de permutaciones de ocho términos es
40,320 (8x 7x6x5x413x2K1).
* Por eso, este tipo de indizacién es Memnda alguaas veces indizacién ex secuencia [string
indexing} (Craven, 1986).46 : INDIZACION Y RESUMENES: TEORIA Y PRACTICA
‘i6n de los indices impresos no es tan desoladora como esas
consideraciones dan a entender. Fueron desarrollados varios programas de
computacién para generar automdticamente un conjunto de entradas de indice
a pant de una secuencia de términos. Uno de esos procesos es conocido
como SLIC (Selective Listing in Combination [Listade Selectivo en Combi-
nacién}). El programa, creado por Sharp (1966), primero organiza la secuen-
cia de términos ert orden alfabético. Esta secuencia (ver figura 14) se convier-
te en 1a primera entrada del indice. El programa genera, entonces, todas las
demés entradas consideradas necesarias siguiendo dos reglas simples:
1. Los términos son siempre listados en orden alfabético.
2. Las secuencias redundantes son eliminadas (por ejemplo, la entrada TRA-
BAJADORES MIGRANTES, MINEROS no es nécesaria si esté TRABA-
JADORES MIGRANTES, MINEROS, SUDAFRICA).
‘Cuando se observan estas reglas, la cantidad de entradas se reduce de 2°—1 a
at,
Economic relations, Migrant workers, Miners, Mozambique, South Aftica
Economic relations, Migrant workers, Miners, South Africa
‘Economic relations, Migrant workers, Mozambique, South Africa
Economic relations, Migrant workers, South Africa
Economic relations, Miners, Mozambique, South Africa
Economic relations, Miners, South Africa
Economic relations, Mozambique, South Africa
Economic relations, South Africa
Migrant workers, Miners, Mozambique, South Africa
“Migrant workers, Miners, South Africa
Migrant workers, Mozambique, South Africa
Migrant workers. South Aftica
‘Miners, Mozambique, South Africa
Miners, South Africa
South Aftica
Figura 14
Enirada de un indice SLIC
El método SLIC es ingenioso, pues permite todas las yuxtaposiciones
Stiles de términos, al menos mientras éstos sean mantenidos en orden
alfabético. También tiene sus desventajas: genera un mimero bastante grande
de entradas; la persona que hace Ia biisqueda, para usar el {ndice con eficien-
cia, debe reorganizar mentalmente sus términos de bisqueda en orden
alfabético (por ejemplo, puede encontrar TRABAJADORES MIGRANTES,
MOZAMBIQUE, pero no MOZAMBIQUE, TRABAJADORES MIGRAN-
38
INDICES PRE-COORDENADOS aS
TES); pierde el comexto de los uérminos situados cerca del fin det orden
alfabético (por ejemplo, alguien que buscase todas las eatradas bajo
SUDAFRICA mo tendrfa idea alguna de qué trata el {tem).
Otros indices estin basados en un conjunto de entradas obtenidas
sisteméticameane por medio de alternacién {cycling}, rotacite 0 derivacién
[shunting]. Ea 'a alternaci6n, cada término en una secuencia se meve hacia
una posicide mis a la izquierda, hasta convertirse en punto dé entrada, los
demés térmings soe listados después de él:
ABCDE,
BCDEA
CDEAB
DEABC
EABCD
Nétese que, el término de entrada, es seguido primero por aquellos términos
que lo seguian en Ia secuencia original y, después, por les que originalmente
lo precedian. Ex un indice alternado, la sucesién de téminos en una secuen-
cia no necesita disponerse en un orden obvio, aunque ellos esti frecuente-
mente ordenados alfabéticamente y pueden ser ordenados “sisteméticamente””
(Como se vers luego).
La rotacida es esencialmente lo mismo que la altemacién, excepto que
1 sérmino de eatrada es resaltado de alguna forma (por ejemplo, bastardilla 0
subrayado), em kigar de mover la posicién més a la izquierda:
ABCDE
ABCDE
ABCDE
‘ABCDE
ABCDE
Tanto fa altemacién como la rotacién proporcionan un cierto “contexto™
para el término, pero las retaciones entre algunos de los ténninos pueden
todavia ser oscuras o ambiguas, Un indice basado en la derivacién emplea
una presentacida en dos I{neas con ta intencién de reducir Ia ambiguedad
{esto es, ser més preciso al mostrar cémo un término se relaciona con otro),
como en el ejemplo:
A BA
BCD cD
EI principal ejemplo de esto, es el PRECIS, que serd examinado Inego.*
* La terminolopia mlatva a fndices pre-coordinados no es realmense normalizada. Por ejem-
plo, Craven (1986) parce no hacer distincisa eure alkernaciéa y rtaciGa. on46 : INDIZACION Y RESUMENES: TEORIA Y PRACTICA,
Un método simple de producir un indice impreso, basado en el orden
alfabético yen la “alternacién" sisterndtica de los términos en la posicién de
entrada, como el usado en las publicaciones de Excerpta Medica, es
ejemplificado en la figura 15. Nuevamente, la primera entrada resulta de la
colocacién de todos los términos en orden alfabético. Las entradas adiciona-
Jes derivan del movimiento de cada término, sucesivamente, a la posicién de
entrada, listando los otros términos después de él (siempre en orden alfabético)
como una secuencia de modificadores. Aunque esto no proporciona todas las
yaxtaposiciones posibles de términos, ofrece algunas ventajas evidentes res-
pecto al SLIC: es mds econémico (no tiene més entradas que el nimero de
términos asignados) y cada entrada tiene su “contexto” completo, Con este
tipo de indice impreso es posible reconocer dos tipos de términos: aquellos
que generan entradas en el indice y aquellos que no. Los términos que no
generan entradas son marcados de alguna forma por el indizador, Tales térmi-
nos son usados sélo como modificadores. Aparecen al final de la secuencia
de términos y pueden ser reconocidos por estar fuera de la secuencia alfabética
yy otras veces por estar impresos en un tipo de letra diferente (ver el ejemplo
“pibliografia” en la figura 15).
Economic relations, Migrant workers, Miners, Mozambique, South Africa
Migrant workers, Economic relations, Miners, Mozambique, South Africa
Miners, Economic celations, Migrant workers, Mozambique, South Africa
Mozambique, Economic relations, Migrant workers, Miners, South Africa,
South Africa, Economic relations, Migrant workers, Miners, Mozambique
Economic relations, Migrant workers, Miners, Mozambique, South Aftica,
Bibliography
Figura 15
Entradas de un indice basado en la altemacién sistematica
(modelo de la Excerpra Medica)
Los indices ejemplicados en las figuras 14 y 15 presuponen el empleo de
términos de indizacién y no de texto libre, aunque en principio pueden ser
producidos por computadora después que hayan sido empleados programas
para extraer del texto narrativo frases “significativas”. Algunos métodos to-
davia més simples de produccién de indices impresos fueron creados para
trabajar con textos y especialmente con palabras que aparecen en fos titulos
de los documentos. Los métodos més comuinmente usados son el KWIC (key-
word in context [palabra clave en el contexto)), KWOC (keyword out of
context [palabra clave fuera del contexto}) y sus variantes.
El indice KWIC (Luhn, 1959) es un indice por rotacién, derivado, en su
forma més comiin, de los titulos de los documentos. Cada palabra clave que
INDICES PRE-COORDINADOS aT
aparece en un titulo se convierte en un punto de entrada y es destacada de
alguna forma, apareciendo, comtimmente, resattada cn el centro de la pagina
como en el ejemplo de fa figura 16. Las palabras restantes del titulo aparecen
“envolviendo” Ja palabra clave. El indice KWIC es el método més simple
para ta produccién de indices impeesos por camputadora, ann asf tiene cierta
eficiencia, ya que cada palabra clave puede ser vista en su “contexto”. Por
ejemplo (ver figura 16), uno pucde buscar bajo la entrada “crystals” [crista~
Jes] para encontrar las que parecen tratar las propiedades eldsticas o plisticas
de los mismos. Los indices KWIC normalmeate remiten sélo a alguna forma
de nimero de documento, es necesario buscar ese mimero para obtener deta-
Iles bibliogréficos completos sobre el ftem representado.
Notese que ef programa de computaciéa que genera el {ndice identifica
Jas palabras clave mediante um procedimicnto “inverso”: reconoce las pala-
Ena SPER
sc ansine suo
un
ue
tH
2
i
at
i
i
Figura 16
Ejemplo de entradas de un indice KWIC
Reproducido de Kwic index of Rock Mechanics Literature, con permiso del
American Institute of Mining, Metallurgical and Petroleum Engineers, Inc,48 INDIZACION Y RESUMENES: TEORIA Y PRACTICA
bras que no son palabras clave (figuran en una “lista de palabras prohibidas”)
¢ impide que sean usadas como puntos de entrada. Las palabras de esa lista
tienen funcién sintéetica (articulos, preposiciones, conjunciones, etc.), pero
\dice KWIC es un método barato para
proporcionar cierto nivel de acceso temético al contenido de una colecci6n. Es
‘itil en 1a medida en que ios titulos sean buenos indicadores del contenido (por
lo tanto, es probable que funcione mejor para ciertos temas o tipos de mate-
riales que para otros), si bien en principio no hay motivo para que los indices
KWIC no sean derivados de otro texto, por ejemplo, frases de resimenes 0
hasta secuencias de encabezamientos de materia. Fueron efectuados muchos
studios sobre la utilidad de los titulos en la recuperacisn (ver Hodges [1983]
para un ejemplo reciente).
El indice KWOC es similar al KWIC, con Ia excepcidn de que las pala-
bras clave que se utilizan como puntos de acceso son repetidas fuera del
contexto, destacéndose comGnmente en el margen izquierdo de la pagina (ver
figura 17) 0 usadas como si fuesen encabezamientos de materia (ver figura
18). A veces se hace una distincién entre indices KWOC e indices KWAC
(keyword and context [palabra clave y contexto}). Quienes hacen esta distin-
cidn llaman a los indices ejemplificados en las figuras 17 y 18 indices KWAC.
Un indice KWOC serfa entonces aquel en que la palabra clave usada como
punto de entrada no se repite en el titulo pero es reemplazada por un asterisco
(*) o algtin otro sfmbolo, Se puede encontrar muy poca justificacién para esta
préctica insélita (usar algiin sfmbolo para reemplazar la palabra clave), asf
que la distincién entre KWOC y KWAC no es muy util. Existen diversas
variantes de KWIC/KWOC, inclusive el KWIC doble (Petrarca & Lay, 1969).
Relacionados a la familia KWIC/KWOC estén los indices de “término
permutado”, mejor ejemplificados por el indice Permuterm, que esté relacio-
nado a los fndices de citas producidos por el Institute for Scientific Information.
En Permuterm cada palabra clave de un titulo esté asociada, una por vez, con
otra palabra clave que aparece en ese titulo, como en el siguiente ejemplo:
‘CRISTALES
ALUMINIO 20071
ANALISIS. 18024
COBALTO 00409
(CRECIMIENTO 20071
DISLOCACIONES 04778
EQUILIBRIO 17853
FERRITA, 04778
HEXAGONAL 30714
Con este tipo de indice es facilmente posible relacionar palabras clave duran-
te una busqueda, por ejemplo, recorriendo la columna de “cristales” para ver
si algin titulo parece tratar de cristales de cobalto.
INDICES PRE-COORDINADOS
49
___ Né@ese que todas las palabras clave del titulo estén reunidas en asocia-
jones pares (por ejemplo, el documento que tiene en comén el nimero 04778
indica que los términos “cristales”, “dislocaciones” y “ferrita” ocurren en el
‘mismo titulo) y que cada palabra clave se convierte en un punto de entrada en
els indie: “aluminio” serd un punto de entrada, asf como “sadlisis”, “equili-
En cierto modo relacionado al gru i
erto mado re ipo de indices KWICIKW( ta-
do esté cf “indice articulado de materias” cjemplificado porclinite dete
mas det Chemical Abstracts. Ea este tipo de indice se usa uma breve descrip-
cin narrativa del documento para generar Jas entradas. Esta puede ser un
enunciado escrito por el indizador 0, en su lugar, un titulo o frase extrafda del
texto. Gertas palabras o frases que aparecen en ese enunciado son seleccio-
pads ‘como puntos de entrada ea ¢] indice, manteniéndose el resto del enun-
ci anergy Rea ras rporcona cl conesto neces.
Armstrong y \describen el proceso de constracciéa de entra-
das para un indice articulado de ta siguiente manera: ome
‘Las términos de entrada son reordenados de tal manera ‘cada uno de
elles se vincula a su vecimo orginal por medio de ua palabra gue
‘expres principalmente maa relaciGn gramatical o por una puntuacién
‘especial, de modo que se conserva la estructura similar a lade una frase,
‘masque con frecuencia dispoestos en un orden diferente. (Pagina 6)
‘Los signientes ejemplos simples, de Armstrong y Keen, ilstran ese principio:
Indizacién de Publicaciones de Quimica por Investigadores
Publicaciones de Quimica, Inizacién de, por investigadores
« (Quimica, Publicaciones de, Indizacién de, por Investigadores
observa que se mantiene La sintaxis del texto original
se ot nticoe Ia de modo que el
Sierifcado del enunciado original no sea oscuro, Tales enunciadee de
i zacién pueden ser preparados por un indizador siguiendo un conjunto
pres Teglas, o pueden desarrollarse programas de computacién que
fener entradas de este tipo (Armitage & Lynch, 1968; Lynch & Petrie,
Un ejemplo de indice articulado de materia, y de hecho el mi i
y de hecho ef mismo descripto
gn detalle por Armstrong y Ken (1982), es NEPHIS (Nested Phrave Indexing
Sysen {Sistema de Indizacida de Frase Encajadal) un sistema inventado por
raven (1977). En la forma més simple de NEPHIS, el indizador emplea
Corchetes angulares para indicar una frase “encajada” en una frase mayor
ue serd asada para generar entradas en el indice. Por ejemplo, ia frase
Productividad de las Investigaciones de
‘generaré las dos entradas:
Prodoctividad de las Investigaciones de Especiali
i pecialistas del Suezo
Especialistas del Suetio, Prodactividad de las Investigaciones de50
omeouttz
rom 1
INDIZACION ¥ RESOMENES: TEORIA ¥ PRACTICA
SCALE CFFECES FOR MONEQUILIORIUY CONVECTIVE ME
EiSikasseen wut stot raneous cas pws ano 3U
Reece Crenicae REACTIONS. APPLICATION TO MYPER
Some Fetoxt AT Nigh ALTITUDES
45-291 02208) 31-40 0025
LECATION OF VARIATIONAL EQUATION OF POON
ro THE NOMLENEAR VIBRATION ANALYSIS OF HOROGEW
[ous ano LAYERED PLATES ANO SMELLS
AD-208 SGHIK) 32.40 0687
EATERSIONS 1 THE SYNTHESIS De TINE QPTTRAL OR
TANCLDANE NOMLINEAR CONTROL SVSTERS. DART 1.
Ime SVMTHESES, OF QUASI-STATIONGAY OPT Jt WON,
WEAR CONTROL SYSTERS,
"ee 162 Sa7tKy $4.40 0295
EXTENSIONS 14 THE SYNTHESIS. OF TIME OF INAL OR
uncsang MORLINEAR CONTROL SYSTEMS. PART 1.
Ame 'SYMTHESTS. OF QUASI-STATIONARY OPT IHUN WON
TMEAR CONTROL SeSTERS.
8182 S4TIR 44-40 0233
WOMLINEAR FLEXURAL VIBRATIONS CF SANDWICH FL
s 20-289 87116) 82.60 06
T1MUM NONLINEAR CONTROL FOR AABLTRARY O75TUR
anc ES NASA MOZ-1SEOOLKD 42.60 0082
WATEeemsque FON MARROW-GAND TELEMETAY OF ONKE
ONRECUARENT
7 PULSES 0-290 GOTIRY 12-00 O$77
I
GNETIC SCATTERING FRON A SPHERICAL_NO
Nonmironn ELEC
Aikiromm nebiun, PAR (I~ twe AACAR CROSS SECT
woman,
woamat,
monns
wont
monte
nase
mozie
morte
moz2Le
more
mozz.es
Reproducido de U.S. Government Technical Reports, Volumen 1, 1963,
Tow OF a Lane eAStaa $2,40 O767
a0
nommmiroan ELECTROMAGNETIC. SCATTERING FROR ASPWERICAL HON
Shifoen meotun, Sant 1 CeNeRAL THEORY
209 ciated 42,80 0748
Ity INTEGRALS OF RUC IVARIATE AORRAL &
ory
SormOLTIVAnrAtEsT -- Ag-Z00 401K) 46.00 0760
Resonance ABSORPTION OF GAMMACALYS 16 KORRAL A
ND SUPERCONDUCTING TIN,
0-209 g4niny 33.80 826
NORMS FOR ARTLFICIAG LIGHTING
Aoeda0 S551K1 #1010 O736
FACTORS INFLUENCING VASCULAA PLANT ZONATTON IM
ORTH CAROLINA SALTRARSHES
"290 9901K1 47-80 0403
Soman sruDles OF THE DEE
.
The NORTH PACIFIC
The DEVELOPMENT OF RESCUE Ana SURWIYAL
GEE Th THE NORTH AMERICAN ARCTIC
Tez s10Cx) 432-00 0983
THe FLORA OF WEALTHY Gt
Crop tee nase, THROAT,
EAURICATION OF PYRGLYTIC GRAPHITE ROCKET WOZLL
¢{componenTs een STLIRD. S210 0381
Fabatcarion oF racy!
ELCOMPONENTS:
Fapercarian OF PYnoLy!
ELCONPONENTS
Smino SYRPOSIUN ON ADVAN 10H
iMitonsones ay UNITES. STATES AIR FORCE OFFICE
Ge iceranriere AEScaKCH aD THE GENERAL ELECTRY
Crcampuy FLIGHT PROPULSION OENISIGN INC INmAT
1,\on70, OCTOBER 2
GherVG ane NOLILE
SEAT TRANSFER AKO
TorROCKET MOZZLES
Figura 17
Ejemplo de indice KWOC
eon permiso del Nationai Technical Information Service
Tomato espe, ranesacars
ve Sateagam
ofotat vig Pisa.
eavcime
Inger attar sasee 0 1
stvcteg Tere omartterar reac
LC mnonesres, 23 Manne,
Met ie oe
arent commer snes
PANE creat ass ge oe
CURSES PASS HERETO Go
saree coe
ett oe commctation
aFita"tamnnstaatton es aarti
o0'E Rome os buat Gnd
reece
gytow or
Sota
4th Patna ommtern emectioes
‘cutetne-cuer on exvcese
rida Patties wee
We sgtnae COMED aup MEDULLA Ie
‘Manes a eutwen ='€ m $00 him pha Nuis Peete
ae soa ete
seit eee pees
QUE DETERN MALTON o¢ caucese see
a cLtcacee tap aetene oneves fe
inseuo Seana s CLIe Cab THeGET PAE Puede. SUAS
Gi rcocge aa me wos,
oe a eaveh = natn
2088 seca, cuteonsccnanices ano cu:
‘Stosteg gweenearnrs ttt Meurer gapeeent
sumone Bwana. wna
ses Pe comes
Praag: eT
tO. ee Pesos um 68 ct
RICHES canrear on0 cssonrnaate et
ice EAMLOWYDRATE neTANOL 86 OF top LeunbeTt
Es Orang ucCstwa.e'@'nseot's crews ine fou wea eantsae
Syepere grwee. an atassente acure a seene
TEE ea ivd, oa towotte, wat aewanes Caeaett
Bea TT aan aed Parsecats 5 wor 90 ou
ACUTE vonane ee SLImLTH0N OF toe Gt9Gk 1m
eTects er suvcnean Inthares ese scostiey ek Timea
‘T CHMEEEA vane PLzud-o1. 2 AAT On BUT .
. Figura 18
Formato altemative de un indice KWOC utilizado en el Diaberes-Related Literature
Index, wm suplemento de Diabetes, volumen 12, 1960.
Copyrigh © 1960 by the American Diabetes Association.
Reproducido con permiso
También podría gustarte
Carrión G.
Aún no hay calificaciones
Carrión G.
12 páginas
Normas ISDB
Aún no hay calificaciones
Normas ISDB
13 páginas
Lancaster
Aún no hay calificaciones
Lancaster
27 páginas
Lectura1 BD
Aún no hay calificaciones
Lectura1 BD
26 páginas