0% encontró este documento útil (0 votos)
147 vistas32 páginas

U601lancaster PDF

Cargado por

Lu_fibonacci
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
147 vistas32 páginas

U601lancaster PDF

Cargado por

Lu_fibonacci
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
F. W. Lancaster Indizaci6n y resimenes: teoria y practica Traduccién de Elsa E. Barber EB publicaciones Buenos Aires 1996 INTRODUCCION EI propésito principal de la elaboracién de indices y resimenes es construit represensaciones de documentos publicados en una forma que se preste a su inclusiéa en alga tipo de base de datos. Esa base de datos de representacio- nes puede sex impresa (como en una publicacién de indizacin/resimenes, como el Chemical Abstracts 0 el Engineering Index), en forma legible por computadara {cuando la base de datos sea frecventemente el equivalente aproximade de wn servicio impreso), 0 en fichas (como un catdlogo conven- cional de biblioteca). La fanciém de las operaciones de indizar/resumir, en cl mbito mayor de las actividades de recuperacién de la informaci6a en general, esté ilustrado en la figura 1. Ea ptimer lugar, el productor de base de datos selecciona de la poblaciéa de documentos recién publicados aquellos que satisfagan ciertos criterios para se inclusién en la misma. E} més obvio de esos criterios es ci tema de qué trata el documento, pero otros, tales como tipo de documento, lengua u origes, también son importantes. Para aquellas bases de datos que tratan principalmente con artfculos de revistas, los cxiterios de selecci6n co- ménmente estarén centrados preferentemente en la publicacién antes que en cf artfenio; esto es, algunas revistas serdn incluidas y otras no (aunque algu- nas revistas sendin indizadas en su totalidad y otras selectivamente). La cober- tura proporcionada por muchas bases de datos es, en gran medide, determina- da por razones de costo-eficacia, Particularmente en el caso de bases de datos ‘que abagcan tm campo altamente especializado, solo incluirén aquellas revis- tas que publicam mds sobre los temas de interés. ‘Los docamentos seleccionados para incluir en una base de datos serdn “descriptos” de varias formas. Los procedimientos de catalogaciGn descripti- va (que no aparecen en ja figura 1) identifican autores, titulos, origenes de la publicaciéa, y otros elementos bibliogrétficos; los procedimientos de indizacién identifican el tema de qué trata el documento; y el resumen es utilizado para sintetizar el contenido del documento. Los términos utifizados en la indizacién serdn oon frecuencia extra{dos de algiin tipo de vocabulario controlado, como un tesapro {el “vocabulario del sistema” de la figura 1), pero, en su lugar, pueden ser términos “libres” (por ejemplo, extraides del propio documento). Estas actividades de descripcién crean representaciones de los documentos en una forma que se presta para su inclusién en Ja base de datos. Los propios documeatos gormalmente serdn destinados a un tipo diferente de base de datos (et acervo de documentos) como las estanterfas de una biblioteca. . INDIZACION Y RESUMENES: TEORIA Y PRACTICA Los miembros de la comunidad a ser atendida utlizardn la base de datos, fandamentalmente, para satisfacer las diferentes necesidades de informaciGn, Para lograr esto, deben convertir una necesidad de informacién en alguna forma de “estrategia de bisqueda", la cual puede ser tan simple como la selecciéa de un nico término para consular un indice impreso o.uncatdloge =—- a Necesidades de ‘informaciéa Poblacéa de rauario dela ase de dane Figura i La funcién de la elaboraci6n de indices y resémenes en el cuadro més amplio de la recuperacién de la informacion al INTRODUCCION 3 en fichas, 0 incluir la combinaciém de varios sérminos en una estrategia més elaborada y sofisticada, utilizada para interrogar una base de datos por medio de una terminal de En la biisqueda en una base de datos, desde luego, uno desea encontrar ftems que sean dtiles para satisfacer tna necesidad de informaciéa, y evitar la recuperacién de ftems imitiles. “Relevante” y “pertinente” son téminos em- pleados frecuentemente para referirse a ftems “Biles”, y han sido definidos de diferentes formas, Hay mucho desacnerdo sobre lo que realmente significan “relevancia” y “\pertinencia” (Lancaster, 1977). Emeste libro consideraré como sindnimas las expresiones “til”, “pertinente” y “relevante para una necesidad de informacién”. Esto es, un ftem pertinente (iif) es aque! que contribuye a satisfacer alguna necesidad de informacién, Los problemas de recuperaciém de informaciée estin representados gré~ ficamente en la figura 2. Bl rectiggalo interno representa una base de datos y los ftems que contiene. Los ftems con la sefial de adicién (+) son aquellos que un consultante hipotético considerarfa tiles paca satisfacer alguna necesidad de informacién actual, y los {tems con seftal de sustraccién (-) son aquellos que no consideraria tiles. Para cualquier necesidad especifica de informacién lhabré muchos més ftems - que fems +, En realidad, si el diagrama fuera hecho “a escala”, seria casi cierto que los 11 ftems tiles estarfan acompaiiadas de toda una muralla de {tems indtiles. El problema esti en recuperar tantos ftems itiles como sea posible, y la menor cantidad posible de ftems initiles. . Fignra2 El problema de la recuperacién de ftems pertinentes de una base de datos ‘ INDIZACION ¥ RESUMENES: TEORIA Y PRACTICA EI menor de los dos recténgulos internos de ta figura 2 representa los resultados de una busqueda realizada en una base de datos. Ella recuperé 57 ftems, de los cuales 6 fueron titles y 51 intitiles. La relacin entre items titles ¥ €l total de items recuperados (6/57 es cerca del 10 % en este caso) es comiinmente denominada tasa de precisidn. E] indice empieado habituaimen. te para expresar la extensién de todos los items itiles que son encontrados es Ja tasa de acierto, En este caso, la tasa de acierto es de 6/11 o.cerca del 54%. En esa situaci6n, probablemente seria necesario, para mejorar el acierto, hacer una busqueda més genérica. Esto esté representado por el mayor de los dos rectangulos intemos. Al hacer la busqueda mas genérica sumenta el acierto al 8/11 (73 %), pero la precision dectina también al 8/112 o cerca del 7 %. Una caracteristica desafortunada, propia de la recuperacién de ia informa. cién, es que una mejoria del acierto generalmente causa un detetioro de Ia precisién y viceversa. La figura 2 sugiere otro feaémeno. Tal vez fuese posible hacer una biis- ueda suficientemente genérica para localizar todos los items tiles (esto es, alcanzar el 100 % de acierto), pero la precisién serfa probablemente inacepta, ble. Ademds, cuanto més grande fuera la base de datos, menos aceptable seria tuna baja precisién. Mientras el usuario estaria dispuesto a mirar los resiime. nes de, digamos, 57 items, para encontrar 6 que le sean titles, al vez se sienta mucho menos inclinado a examinar 570 resiimenes para encontrar 60 que le sean utiles, En bases de datos muy grandes se torna, por lo tanto, progresiva, mente més dificil alcanzar un nivel de acierto aceptable con un nivel de precisiGn tolerable. En este Libro empleo el término acierto para designar 1a capacidad de Tecuperar items tiles, y precisin para designar la capacidad de evitar los imitiles. Existen otras medidas de desempefio para basquedas realizadas en una base de datos (ver, por ejemplo, Robertson (1969}), algunas son matema- Ucamente exactas, pero el acierto y la precisién componen el cuadro general ¥ atin parecen ser las medidas obvias para ser utilizadas para expresar los Tesultados de cualquier bisqueda que simplemente divida una base de datos en dos partes (recuperados y no recuperados)*, La figura 1 muestra claramente que son muchos los factores que deter- ‘mina si una bisqueda en una base de datos ¢s 0 no exitosa. Estos compren- den la cobertura de la base de datos, su politica de indizacién, sus regias de indizacién, su politica y reglas para la redacci6n de resémenes, la calidad del vocabulario utilizado en la indizacin, la calidad de tas estrategias de bisque- da, etc. Este libro no intenta tratar sobre todos esos factores (aunque todos estén {nterrelacionados), se concentra més en las actividades importantes de descripcién del documento o, al menos, aquellas concernientes con el conte. nido de los documentos. * Una basqueda que presente sus resultados en orden de “pertinencia probable" requiere uaa ‘medida un tanto diferente, Ia cua, en efeco, compara un raago obtenido con us ranpo deal PRINCIFIOS DE INDIZACION «a aciba ‘én Micnras el thle de ext bose refiere a “indizacGa", se cmp pode scion estden realidad Kimitadoaaindizaion de temas ya laredarcia de resine: Seestameate nea, sori ci orican a repmacion de is jue amt fepeseai del teats ico des dooms Baia ea una descripeiia narratva 0 concise del documento, mientras el indizador describe su contenido al eaxplear uno o varios términos de indizarsin, mente scecconados de agin po de voeabulariocontrsade ‘oe EI principal objetivo del resumen es indicar de qué ts A965 CeeemoLir) ona ef tne stehe eeeth tn “es ‘Index TOUR *eveneplentetton (68) esreied tect inte tori rane 64) Figura 13 ‘Bjemplo de entradas de un vocabulario de entradas publicado PRACTICA DELA INDIZACION 4 plo, debe ser indizada por el término CESTODE INFECTIONS y BERTIELLA [infecciones por cestodos y Bertietla]. El Integrated Amshority File fue reem- plazado por el Medical Subject Headings — Amnotated Alphabetic List de la NLM. Esta lista muestra como varios coeceptos deben ser indizados (por ejemplo, microgtioma bajo RETICULOENDOTELIOSIS), pero no incluye nnotas explicativas (a disposiciGa de los indizadoces ea salidas impresas de computador, pero ya no publicadas). El concepto de vocabulario de entradas fue ampliado en la NLM me- diante la prodaccién de folletos, con instruccioses pans indizacién cn cl siste- ma MEDLARS, sobre 4reas teméticas espectficas: extervides, farmacia y farmacotogia, fisiologia de la respiraciGm, genética, parasitologfa, etc. Estos describfan cada asunto en términos simples, con ejemplos apropiados, y ana- lizaban los problemas inhereates a la indizackéa en ese campo temético. Se cjemplificaba el empleo de fos términos ms pertinestes del Medical Subject Headings, incluyendo, cuando fuere oportamo, una Esta completa de éstos con términos de entrada y definicioues. Ese tipo de folleto era preparado por tun indizador especiatizado en el tema iavolncrada. Esos folletos sobre indizacién especifica de un tema ya no soa producidos por la NLM, la nica cexcepcién es la Tumor Key [Clave tumores}, que ovata a los indizadores al término cocrecto del MeSH para varios tipos histolégicos de tumores y cénce- res, Existiendo una publicaci6n autorizada bien reconocidla sobre la termino- logfa de una rama de la medicina, esta es aceptada por ia NLM y adoptada ‘como una extensi6n del vocabulario de eatrades del sistema. Esas publicacio- nes incluyen el Manual of Tumor Nomenclature and Coding [Manual de nomenclatura y codificacién de tamorea}, de lz American Cancer Society, y la Enzyme Nomenclature (Nomenclatura de extimas), de la International Union of Biochemistry. Las obras de referencia publicadas poeden ser de gran valor para el indizador, principalmente en la definicién del significado de términos poco comunes. Particularmente importantes soa les diccionarios y enciclopedias especializadas y generales, como tambiéa los glossrios de todos los tipos. Bakewell (1987) elaboré una lista de herramientas de referencia de uso po- tencial para el indizador. Un trabajo anterior sobre instrumentos auxitiares de la indizaci6n en general, de Korotkin et al. (1964), extd muy desactualizado. En algunas instituciones el trabajo del indizadar cventa con el auxilio de acceso en Linea a bancos de datos terminoligicos (Terminological Data Banks, 1980). {NDICES PRE-COORDINADOS La flexibilidad asOciada a los sistemas pos-coordinados se pierde cuando ios términos de indizacién son impresos en papel o en fichas catalogréficas con- vencionales. Los indices impresos y los catélogos en fichas son pre-coordina- dos; tienen \as siguientes caracterfstic: 1.Es diffcit representar la multidimensionalidad de las relaciones entre los términos. 2. Los términos s6lo pueden ser listados en una determinada secuencia (A, B, €. D, E), to cual implica que et primer término es més importante que los otros. 3. No es fAcil (si no completamente imposible) combinar términos en el mo- ‘mento en que se hace una busqueda. La forma més rudimentaria de un sistema de recuperaciGn de informacién es probablemente el tradicional catdlogo en fichas como el utilizado en las bibliotecas. Consideremos el ‘tem mencionado anteriormente: un libro sobre migracién de mano de obra de Mozambique a las minas de Sudéfrica, Supon- ‘gamos que le han sido asignados tres encabezamientos de materia: MOZAM- BIQUE, SUDAFRICA y TRABAJADORES MIGRANTES. La descripcién bibliogréfica del libro aparecerfa bajo los tres encabezamientos en un catilogo alfabético de materias. Esto permite el acceso al libro bajo cualquiera de esos encabezamientos. Sin embargo, seré extremadamente dificil realizar una bis- queda sobre alguna combinacién de esos términos. Por ejemplo, un usuario de biblioteca que esté buscando libros sobre las relaciones politicas o econémicas entre Mozambique y Suddfrica necesitarfa mirar todas las entradas bajo el ‘encabezamiento MOZAMBIQUE 0 todas bajo e! encabezamiento SUDAFRI- CA. Atin cuando hiciera esto, no reconocerfa necesariamente los {tems perti- nentes. Si busca bajo MOZAMBIQUE, probablemente sélo reconocerfa un libro como pertinente si tuviera en su tftulo el término “Suddfrica” (y vicever- sa, si buscase bajo SUDAFRICA), o si al pie de la ficha catalogréfica aparecen Jos otros encabezamientos asignados al libro (seria improbable que los consul- tase, a menos que fuese un usuario de catélogos con mucha experiencia). Otra posibilidad seria buscar bajo todas las entradas MOZAMBIQUE y todas las entradas SUDAFRICA intentando encontrar t{tulos en que aparecieran ambos —un proceso muy tedioso si las entradas afectadas fueran muchas, Es posible mejorar esta situaciGn en los catélogos en fichas usando un encabezamiento como subencabezamiento (esto ¢s, los términos son pre-coordinados en una entrada). De este modo, encontrarfamos una entrada como la siguiente: INDICES PRE-COORDEHADOS 43 ‘Mozambique — Relaciones Beoméenicas ‘ohasta ‘Mozambique — Relaciones Boomdmicas — Sudéifrica No obstante, los subencabezamiemns leaden a ser usados més bien escase- mente en los catilogos en fichas, y seria inusual el catdlogo que reuniese toda una secuencia* de términos come ea la siguiente entrada pre-coordinada: Mozambique, Relaciones Ecomfaticas, Sudéfrica, Trabajadores Migran- tes, Mineros Es mds probable que entradas de este tipo aparezcan en indices impresos que en catélogos en fichas. Al respecta, las indices impresos pueden sex conside- rados instrumentos de recuperaciea més eficientes que los catélogos en fichas convencionalcs. En este caso, el wsuario buscaria !as entradas bajo Mozam- bique para ver si alguna menciona tambiéa a Sudéfrica. ‘Pero una entrada como la del ejemplo presenta un problema obvic: pro- vee acceso al documento sélo para qpiien busca bajo el término MOZAM- BIQUE, y no da acceso cn una bésqueda relativa a Sudéfrica, mineros 0 trabajadores migrantes. Para proporcionar puntos de acceso adicionales cs preciso crear més entradas para el fdice. No hay manera por Ia cual ua iadice impreso pueda proporcionar, de forma econ6mica, el nivel de acceso a un documento proporcionado por un sistema de recuperacién pos-conrdiaado. Como mostramos antes, un sistema p0s-coordinado permite el acceso a través de cualquier combinacién de té1- rminos asignados al documento. El mémero de combinaciones es 2"— t, don- de n representa el niimero de téxmiaas. De este modo, para un ftem indizado bajo cinco términos, habré 2 — L combinaciones, un total de 31. En teorfa, {indice impreso Sonarfa todas las combinaciones de cinco imprimiese 31 entradas. Serfa encondmicamente quijotesco crear un indice impreso que tuviese tantas entradas para cada ‘tem, y la cantidad de entradas aumentaria draméticamemte con el niimero de términos — existen 255 combinaciones de ocho términes! Por otra parte, como los términas deben imprimirse uno tras oto en und entrada (esto es, en una secuencia lizeal), los {ndices impresos se rigen por permuzacién antes que por combiaacién. Por ejemplo, la secuencia MOZAM- BIQUE, SUDAFRICA, no es la misma que SUDAFRICA, MOZAMBIQUE. El mimero de permutaciones es el factorial de n, donde n es el niimero de términos. Por ejemplo, el mimero de permutaciones de ocho términos es 40,320 (8x 7x6x5x413x2K1). * Por eso, este tipo de indizacién es Memnda alguaas veces indizacién ex secuencia [string indexing} (Craven, 1986). 46 : INDIZACION Y RESUMENES: TEORIA Y PRACTICA ‘i6n de los indices impresos no es tan desoladora como esas consideraciones dan a entender. Fueron desarrollados varios programas de computacién para generar automdticamente un conjunto de entradas de indice a pant de una secuencia de términos. Uno de esos procesos es conocido como SLIC (Selective Listing in Combination [Listade Selectivo en Combi- nacién}). El programa, creado por Sharp (1966), primero organiza la secuen- cia de términos ert orden alfabético. Esta secuencia (ver figura 14) se convier- te en 1a primera entrada del indice. El programa genera, entonces, todas las demés entradas consideradas necesarias siguiendo dos reglas simples: 1. Los términos son siempre listados en orden alfabético. 2. Las secuencias redundantes son eliminadas (por ejemplo, la entrada TRA- BAJADORES MIGRANTES, MINEROS no es nécesaria si esté TRABA- JADORES MIGRANTES, MINEROS, SUDAFRICA). ‘Cuando se observan estas reglas, la cantidad de entradas se reduce de 2°—1 a at, Economic relations, Migrant workers, Miners, Mozambique, South Aftica Economic relations, Migrant workers, Miners, South Africa ‘Economic relations, Migrant workers, Mozambique, South Africa Economic relations, Migrant workers, South Africa Economic relations, Miners, Mozambique, South Africa Economic relations, Miners, South Africa Economic relations, Mozambique, South Africa Economic relations, South Africa Migrant workers, Miners, Mozambique, South Africa “Migrant workers, Miners, South Africa Migrant workers, Mozambique, South Africa Migrant workers. South Aftica ‘Miners, Mozambique, South Africa Miners, South Africa South Aftica Figura 14 Enirada de un indice SLIC El método SLIC es ingenioso, pues permite todas las yuxtaposiciones Stiles de términos, al menos mientras éstos sean mantenidos en orden alfabético. También tiene sus desventajas: genera un mimero bastante grande de entradas; la persona que hace Ia biisqueda, para usar el {ndice con eficien- cia, debe reorganizar mentalmente sus términos de bisqueda en orden alfabético (por ejemplo, puede encontrar TRABAJADORES MIGRANTES, MOZAMBIQUE, pero no MOZAMBIQUE, TRABAJADORES MIGRAN- 38 INDICES PRE-COORDENADOS aS TES); pierde el comexto de los uérminos situados cerca del fin det orden alfabético (por ejemplo, alguien que buscase todas las eatradas bajo SUDAFRICA mo tendrfa idea alguna de qué trata el {tem). Otros indices estin basados en un conjunto de entradas obtenidas sisteméticameane por medio de alternacién {cycling}, rotacite 0 derivacién [shunting]. Ea 'a alternaci6n, cada término en una secuencia se meve hacia una posicide mis a la izquierda, hasta convertirse en punto dé entrada, los demés térmings soe listados después de él: ABCDE, BCDEA CDEAB DEABC EABCD Nétese que, el término de entrada, es seguido primero por aquellos términos que lo seguian en Ia secuencia original y, después, por les que originalmente lo precedian. Ex un indice alternado, la sucesién de téminos en una secuen- cia no necesita disponerse en un orden obvio, aunque ellos esti frecuente- mente ordenados alfabéticamente y pueden ser ordenados “sisteméticamente”” (Como se vers luego). La rotacida es esencialmente lo mismo que la altemacién, excepto que 1 sérmino de eatrada es resaltado de alguna forma (por ejemplo, bastardilla 0 subrayado), em kigar de mover la posicién més a la izquierda: ABCDE ABCDE ABCDE ‘ABCDE ABCDE Tanto fa altemacién como la rotacién proporcionan un cierto “contexto™ para el término, pero las retaciones entre algunos de los ténninos pueden todavia ser oscuras o ambiguas, Un indice basado en la derivacién emplea una presentacida en dos I{neas con ta intencién de reducir Ia ambiguedad {esto es, ser més preciso al mostrar cémo un término se relaciona con otro), como en el ejemplo: A BA BCD cD EI principal ejemplo de esto, es el PRECIS, que serd examinado Inego.* * La terminolopia mlatva a fndices pre-coordinados no es realmense normalizada. Por ejem- plo, Craven (1986) parce no hacer distincisa eure alkernaciéa y rtaciGa. on 46 : INDIZACION Y RESUMENES: TEORIA Y PRACTICA, Un método simple de producir un indice impreso, basado en el orden alfabético yen la “alternacién" sisterndtica de los términos en la posicién de entrada, como el usado en las publicaciones de Excerpta Medica, es ejemplificado en la figura 15. Nuevamente, la primera entrada resulta de la colocacién de todos los términos en orden alfabético. Las entradas adiciona- Jes derivan del movimiento de cada término, sucesivamente, a la posicién de entrada, listando los otros términos después de él (siempre en orden alfabético) como una secuencia de modificadores. Aunque esto no proporciona todas las yaxtaposiciones posibles de términos, ofrece algunas ventajas evidentes res- pecto al SLIC: es mds econémico (no tiene més entradas que el nimero de términos asignados) y cada entrada tiene su “contexto” completo, Con este tipo de indice impreso es posible reconocer dos tipos de términos: aquellos que generan entradas en el indice y aquellos que no. Los términos que no generan entradas son marcados de alguna forma por el indizador, Tales térmi- nos son usados sélo como modificadores. Aparecen al final de la secuencia de términos y pueden ser reconocidos por estar fuera de la secuencia alfabética yy otras veces por estar impresos en un tipo de letra diferente (ver el ejemplo “pibliografia” en la figura 15). Economic relations, Migrant workers, Miners, Mozambique, South Africa Migrant workers, Economic relations, Miners, Mozambique, South Africa Miners, Economic celations, Migrant workers, Mozambique, South Africa Mozambique, Economic relations, Migrant workers, Miners, South Africa, South Africa, Economic relations, Migrant workers, Miners, Mozambique Economic relations, Migrant workers, Miners, Mozambique, South Aftica, Bibliography Figura 15 Entradas de un indice basado en la altemacién sistematica (modelo de la Excerpra Medica) Los indices ejemplicados en las figuras 14 y 15 presuponen el empleo de términos de indizacién y no de texto libre, aunque en principio pueden ser producidos por computadora después que hayan sido empleados programas para extraer del texto narrativo frases “significativas”. Algunos métodos to- davia més simples de produccién de indices impresos fueron creados para trabajar con textos y especialmente con palabras que aparecen en fos titulos de los documentos. Los métodos més comuinmente usados son el KWIC (key- word in context [palabra clave en el contexto)), KWOC (keyword out of context [palabra clave fuera del contexto}) y sus variantes. El indice KWIC (Luhn, 1959) es un indice por rotacién, derivado, en su forma més comiin, de los titulos de los documentos. Cada palabra clave que INDICES PRE-COORDINADOS aT aparece en un titulo se convierte en un punto de entrada y es destacada de alguna forma, apareciendo, comtimmente, resattada cn el centro de la pagina como en el ejemplo de fa figura 16. Las palabras restantes del titulo aparecen “envolviendo” Ja palabra clave. El indice KWIC es el método més simple para ta produccién de indices impeesos por camputadora, ann asf tiene cierta eficiencia, ya que cada palabra clave puede ser vista en su “contexto”. Por ejemplo (ver figura 16), uno pucde buscar bajo la entrada “crystals” [crista~ Jes] para encontrar las que parecen tratar las propiedades eldsticas o plisticas de los mismos. Los indices KWIC normalmeate remiten sélo a alguna forma de nimero de documento, es necesario buscar ese mimero para obtener deta- Iles bibliogréficos completos sobre el ftem representado. Notese que ef programa de computaciéa que genera el {ndice identifica Jas palabras clave mediante um procedimicnto “inverso”: reconoce las pala- Ena SPER sc ansine suo un ue tH 2 i at i i Figura 16 Ejemplo de entradas de un indice KWIC Reproducido de Kwic index of Rock Mechanics Literature, con permiso del American Institute of Mining, Metallurgical and Petroleum Engineers, Inc, 48 INDIZACION Y RESUMENES: TEORIA Y PRACTICA bras que no son palabras clave (figuran en una “lista de palabras prohibidas”) ¢ impide que sean usadas como puntos de entrada. Las palabras de esa lista tienen funcién sintéetica (articulos, preposiciones, conjunciones, etc.), pero \dice KWIC es un método barato para proporcionar cierto nivel de acceso temético al contenido de una colecci6n. Es ‘itil en 1a medida en que ios titulos sean buenos indicadores del contenido (por lo tanto, es probable que funcione mejor para ciertos temas o tipos de mate- riales que para otros), si bien en principio no hay motivo para que los indices KWIC no sean derivados de otro texto, por ejemplo, frases de resimenes 0 hasta secuencias de encabezamientos de materia. Fueron efectuados muchos studios sobre la utilidad de los titulos en la recuperacisn (ver Hodges [1983] para un ejemplo reciente). El indice KWOC es similar al KWIC, con Ia excepcidn de que las pala- bras clave que se utilizan como puntos de acceso son repetidas fuera del contexto, destacéndose comGnmente en el margen izquierdo de la pagina (ver figura 17) 0 usadas como si fuesen encabezamientos de materia (ver figura 18). A veces se hace una distincién entre indices KWOC e indices KWAC (keyword and context [palabra clave y contexto}). Quienes hacen esta distin- cidn llaman a los indices ejemplificados en las figuras 17 y 18 indices KWAC. Un indice KWOC serfa entonces aquel en que la palabra clave usada como punto de entrada no se repite en el titulo pero es reemplazada por un asterisco (*) o algtin otro sfmbolo, Se puede encontrar muy poca justificacién para esta préctica insélita (usar algiin sfmbolo para reemplazar la palabra clave), asf que la distincién entre KWOC y KWAC no es muy util. Existen diversas variantes de KWIC/KWOC, inclusive el KWIC doble (Petrarca & Lay, 1969). Relacionados a la familia KWIC/KWOC estén los indices de “término permutado”, mejor ejemplificados por el indice Permuterm, que esté relacio- nado a los fndices de citas producidos por el Institute for Scientific Information. En Permuterm cada palabra clave de un titulo esté asociada, una por vez, con otra palabra clave que aparece en ese titulo, como en el siguiente ejemplo: ‘CRISTALES ALUMINIO 20071 ANALISIS. 18024 COBALTO 00409 (CRECIMIENTO 20071 DISLOCACIONES 04778 EQUILIBRIO 17853 FERRITA, 04778 HEXAGONAL 30714 Con este tipo de indice es facilmente posible relacionar palabras clave duran- te una busqueda, por ejemplo, recorriendo la columna de “cristales” para ver si algin titulo parece tratar de cristales de cobalto. INDICES PRE-COORDINADOS 49 ___ Né@ese que todas las palabras clave del titulo estén reunidas en asocia- jones pares (por ejemplo, el documento que tiene en comén el nimero 04778 indica que los términos “cristales”, “dislocaciones” y “ferrita” ocurren en el ‘mismo titulo) y que cada palabra clave se convierte en un punto de entrada en els indie: “aluminio” serd un punto de entrada, asf como “sadlisis”, “equili- En cierto modo relacionado al gru i erto mado re ipo de indices KWICIKW( ta- do esté cf “indice articulado de materias” cjemplificado porclinite dete mas det Chemical Abstracts. Ea este tipo de indice se usa uma breve descrip- cin narrativa del documento para generar Jas entradas. Esta puede ser un enunciado escrito por el indizador 0, en su lugar, un titulo o frase extrafda del texto. Gertas palabras o frases que aparecen en ese enunciado son seleccio- pads ‘como puntos de entrada ea ¢] indice, manteniéndose el resto del enun- ci anergy Rea ras rporcona cl conesto neces. Armstrong y \describen el proceso de constracciéa de entra- das para un indice articulado de ta siguiente manera: ome ‘Las términos de entrada son reordenados de tal manera ‘cada uno de elles se vincula a su vecimo orginal por medio de ua palabra gue ‘expres principalmente maa relaciGn gramatical o por una puntuacién ‘especial, de modo que se conserva la estructura similar a lade una frase, ‘masque con frecuencia dispoestos en un orden diferente. (Pagina 6) ‘Los signientes ejemplos simples, de Armstrong y Keen, ilstran ese principio: Indizacién de Publicaciones de Quimica por Investigadores Publicaciones de Quimica, Inizacién de, por investigadores « (Quimica, Publicaciones de, Indizacién de, por Investigadores observa que se mantiene La sintaxis del texto original se ot nticoe Ia de modo que el Sierifcado del enunciado original no sea oscuro, Tales enunciadee de i zacién pueden ser preparados por un indizador siguiendo un conjunto pres Teglas, o pueden desarrollarse programas de computacién que fener entradas de este tipo (Armitage & Lynch, 1968; Lynch & Petrie, Un ejemplo de indice articulado de materia, y de hecho el mi i y de hecho ef mismo descripto gn detalle por Armstrong y Ken (1982), es NEPHIS (Nested Phrave Indexing Sysen {Sistema de Indizacida de Frase Encajadal) un sistema inventado por raven (1977). En la forma més simple de NEPHIS, el indizador emplea Corchetes angulares para indicar una frase “encajada” en una frase mayor ue serd asada para generar entradas en el indice. Por ejemplo, ia frase Productividad de las Investigaciones de ‘generaré las dos entradas: Prodoctividad de las Investigaciones de Especiali i pecialistas del Suezo Especialistas del Suetio, Prodactividad de las Investigaciones de 50 omeouttz rom 1 INDIZACION ¥ RESOMENES: TEORIA ¥ PRACTICA SCALE CFFECES FOR MONEQUILIORIUY CONVECTIVE ME EiSikasseen wut stot raneous cas pws ano 3U Reece Crenicae REACTIONS. APPLICATION TO MYPER Some Fetoxt AT Nigh ALTITUDES 45-291 02208) 31-40 0025 LECATION OF VARIATIONAL EQUATION OF POON ro THE NOMLENEAR VIBRATION ANALYSIS OF HOROGEW [ous ano LAYERED PLATES ANO SMELLS AD-208 SGHIK) 32.40 0687 EATERSIONS 1 THE SYNTHESIS De TINE QPTTRAL OR TANCLDANE NOMLINEAR CONTROL SVSTERS. DART 1. Ime SVMTHESES, OF QUASI-STATIONGAY OPT Jt WON, WEAR CONTROL SYSTERS, "ee 162 Sa7tKy $4.40 0295 EXTENSIONS 14 THE SYNTHESIS. OF TIME OF INAL OR uncsang MORLINEAR CONTROL SYSTEMS. PART 1. Ame 'SYMTHESTS. OF QUASI-STATIONARY OPT IHUN WON TMEAR CONTROL SeSTERS. 8182 S4TIR 44-40 0233 WOMLINEAR FLEXURAL VIBRATIONS CF SANDWICH FL s 20-289 87116) 82.60 06 T1MUM NONLINEAR CONTROL FOR AABLTRARY O75TUR anc ES NASA MOZ-1SEOOLKD 42.60 0082 WATEeemsque FON MARROW-GAND TELEMETAY OF ONKE ONRECUARENT 7 PULSES 0-290 GOTIRY 12-00 O$77 I GNETIC SCATTERING FRON A SPHERICAL_NO Nonmironn ELEC Aikiromm nebiun, PAR (I~ twe AACAR CROSS SECT woman, woamat, monns wont monte nase mozie morte moz2Le more mozz.es Reproducido de U.S. Government Technical Reports, Volumen 1, 1963, Tow OF a Lane eAStaa $2,40 O767 a0 nommmiroan ELECTROMAGNETIC. SCATTERING FROR ASPWERICAL HON Shifoen meotun, Sant 1 CeNeRAL THEORY 209 ciated 42,80 0748 Ity INTEGRALS OF RUC IVARIATE AORRAL & ory SormOLTIVAnrAtEsT -- Ag-Z00 401K) 46.00 0760 Resonance ABSORPTION OF GAMMACALYS 16 KORRAL A ND SUPERCONDUCTING TIN, 0-209 g4niny 33.80 826 NORMS FOR ARTLFICIAG LIGHTING Aoeda0 S551K1 #1010 O736 FACTORS INFLUENCING VASCULAA PLANT ZONATTON IM ORTH CAROLINA SALTRARSHES "290 9901K1 47-80 0403 Soman sruDles OF THE DEE . The NORTH PACIFIC The DEVELOPMENT OF RESCUE Ana SURWIYAL GEE Th THE NORTH AMERICAN ARCTIC Tez s10Cx) 432-00 0983 THe FLORA OF WEALTHY Gt Crop tee nase, THROAT, EAURICATION OF PYRGLYTIC GRAPHITE ROCKET WOZLL ¢{componenTs een STLIRD. S210 0381 Fabatcarion oF racy! ELCOMPONENTS: Fapercarian OF PYnoLy! ELCONPONENTS Smino SYRPOSIUN ON ADVAN 10H iMitonsones ay UNITES. STATES AIR FORCE OFFICE Ge iceranriere AEScaKCH aD THE GENERAL ELECTRY Crcampuy FLIGHT PROPULSION OENISIGN INC INmAT 1,\on70, OCTOBER 2 GherVG ane NOLILE SEAT TRANSFER AKO TorROCKET MOZZLES Figura 17 Ejemplo de indice KWOC eon permiso del Nationai Technical Information Service Tomato espe, ranesacars ve Sateagam ofotat vig Pisa. eavcime Inger attar sasee 0 1 stvcteg Tere omartterar reac LC mnonesres, 23 Manne, Met ie oe arent commer snes PANE creat ass ge oe CURSES PASS HERETO Go saree coe ett oe commctation aFita"tamnnstaatton es aarti o0'E Rome os buat Gnd reece gytow or Sota 4th Patna ommtern emectioes ‘cutetne-cuer on exvcese rida Patties wee We sgtnae COMED aup MEDULLA Ie ‘Manes a eutwen ='€ m $00 him pha Nuis Peete ae soa ete seit eee pees QUE DETERN MALTON o¢ caucese see a cLtcacee tap aetene oneves fe inseuo Seana s CLIe Cab THeGET PAE Puede. SUAS Gi rcocge aa me wos, oe a eaveh = natn 2088 seca, cuteonsccnanices ano cu: ‘Stosteg gweenearnrs ttt Meurer gapeeent sumone Bwana. wna ses Pe comes Praag: eT tO. ee Pesos um 68 ct RICHES canrear on0 cssonrnaate et ice EAMLOWYDRATE neTANOL 86 OF top LeunbeTt Es Orang ucCstwa.e'@'nseot's crews ine fou wea eantsae Syepere grwee. an atassente acure a seene TEE ea ivd, oa towotte, wat aewanes Caeaett Bea TT aan aed Parsecats 5 wor 90 ou ACUTE vonane ee SLImLTH0N OF toe Gt9Gk 1m eTects er suvcnean Inthares ese scostiey ek Timea ‘T CHMEEEA vane PLzud-o1. 2 AAT On BUT . . Figura 18 Formato altemative de un indice KWOC utilizado en el Diaberes-Related Literature Index, wm suplemento de Diabetes, volumen 12, 1960. Copyrigh © 1960 by the American Diabetes Association. Reproducido con permiso

También podría gustarte