Un resumen es una representación abreviada, objetiva y precisa del
contenido de un documento o recurso. El objeto de un resumen es
exponer de forma breve los contenidos principales de un documento con
el fin de facilitar su indización, búsqueda y recuperación, así como dar a
conocer de antemano el contenido del documento o recurso para que
el usuario decida sobre la conveniencia de consultar o no el texto
completo.
He aquí algunas de las definiciones ya clásicas sobre resumen:
Paul Otlet en su Tratado de Documentación, define la operación de
resumir de la forma siguiente: "consiste en el análisis bajo forma sucinta
de lo que se contiene en los documentos".
Para Van Dijk "un resumen es la manifestación textual de la
macroestructura de un texto". Para este mismo autor, resumir es la
operación por la que se abrevia el contenido de un documento y se le
representa por un cierto número de oraciones que expresan la sustancia.
Para Cleveland: "resumir es es un procedimiento complejo dirigido a
representar el contenido de los documentos analizados en orden a guiar
al usuario en la información apropiada.
José López Yepes define resumir como una técnica documental que
nace de la ciencia moderna y cuyo resultado, el resumen, es un
documento secundario que se desarrolla sobre un vehículo informativo,
como es la publicación de carácter científico.
Para Moreiro González, "resumir es una actuación sobre el contenido de
los documentos para aminorar la abundancia de información contenida
en ellos y para realzar aquellas partes del mensaje que más convienen a
los usuarios. Tras ello el mensaje del documento original queda
transformado, pasando a formar un nuevo documento que conocemos
como resumen: texto autónomo, breve y completo gramaticalmente, que
recoge el contenido substantivo de otro, primero u original."
Para María Pinto Molina, el resumen es un nuevo documento
representativo del original, que debe incluir todos los aspectos
destacados del documento original siguiendo el estilo y la ordenación del
documento original, y evitando cualquier apreciación y juicio crítico. María
Pinto Molina define la operación de resumir como un proceso general
que implica la metamorfosis que deben experimentar los documentos
textuales desde su estado inicial microestructural (o estructura de
superficie léxico-sintáctica) hasta la obtención, y posterior descripción de
su macroestructura (o estructura profunda lógico-semántica). Para esta
autora, se trata de una tarea de reducción informativa y de una operación
de reconstrucción textual en modelo reducido y, por tanto, es muy difícil
cualquier intento de normalización.
Sin embargo, existen varios estándares internacionales referidos a los
resúmenes, entre los que destacan las siguientes normas:
ISO 214:1976. Documentation. Abstracts for publications and documentation. Esta norma
se centra en el tratamiento del contenido de los documentos y su presentación, y su
equivalente en español es la norma: UNE 50-103-1990.
ANSI/NISO Z39.14 - 1997 (R2002) Guidelines for Abstracts, un estándar que ayuda a los
autores y editores a elaborar resúmenes o abstracts ya que describe los componentes de
un resumen, además de los estilos y formatos más apropiados. Esta norma también
incluye numerosos ejemplos ilustrativos al
respecto. [Link]
Tipos de resúmenes:
Se puede establecer una tipología de los resúmenes atendiendo a
distintas perspectivas, entre las que podemos destacar:
Según su autor:
el autor es el propio autor del documento
el autor es un experto en la materia tratada (es estos 2 casos, el autor del resumen es
quien mejor conoce la materia tratada, pero puede carecer de experiencia en las técnicas
del resumen y análisis documental).
el autor es un documentalista: en este caso, el autor del resumen conoce las técnicas del
resumen y del análisis documental, pero puede ser inexperto en la materia tratada.
Según su uso:
documento primario: el resumen aparece como una introducción al comienzo del propio
documento.
documento secundario: el resumen aparece separado del propio documento a modo de
referencia, ya sea formando parte de un índice, catálogo, bibliografía o sumario que
contenga resúmenes.
base de datos: conjunto de resúmenes que reciben un tratamiento automatizado.
Según su densidad o amplitud:
resumen indicativo o descriptivo: se trata de un resumen brevísimo que suele constar
del título del documento ampliado con algún pequeño detalle o aclaración. Un resumen
indicativo no debe contener más de 20 palabras.
resumen informativo: este resumen, de entre 50 a 150 palabras como máximo, contiene
la idea general y otra información relacionada como los resultados y las conclusiones
fundamentales.
resumen crítico o analítico: se trata de un resumen algo más detallado y que
generalmente consta de entre 150 a 300 palabras.
Según la forma de presentación:
resumen en texto libre:
o resumen telegráfico: presenta la información de forma breve y concisa.
o resumen discursivo: presenta la información con un estilo fluido y discursivo.
resumen estructurado:
o resumen tabular: presenta las información a modo de sumario presentado en
forma de tablas.
o resumen modular: presenta la información en distintos niveles de descripción
analítica (nivel referencial, anotación, resumen indicativo, informativo, crítico, etc.).
Según el modo de distribución o difusión:
simultánea: el documento y su resumen se muestran conjuntamente.
sumario de resúmenes: los resúmenes se agrupan y estructuran siguiendo algún
sistema de clasificación preestablecido.
bases de datos: los resúmenes de agrupan y estructuran en una base de datos para
permitir una búsqueda y acceso más rápidos.
La anterior clasificación también puede subdividirse en:
en línea
fuera de línea
Según el modo de edición y publicación:
resumen analógico: en formato impreso
resumen digital: en formato digital (CD-ROM, DVD, Web, etc.)
Según la técnica de elaboración empleada:
manual: realizado por mediación humana. El autor del resumen puede ser el propio autor
del documento original que es quien mejor conoce el tema, o un especialista en la materia
tratada. Un problema que puede derivarse de este tipo de autorías es que tanto el autor
como los especialistas en una materia concreta pueden conocer muy bien el tema, pero
desconocer la metodología del resumen y el análisis documental. En el caso contrario
encontramos los resúmenes elaborados por documentalistas, quienes pueden conocer
perfectamente la metodología del resumen, pero también deben conocer la materia
tratada.
automatizado: resumen realizado por métodos mecánicos, sin intervención humana.
Para elaborar un buen resumen se precisa, además de seleccionar la
información esencial, omitir toda la información accesoria que desvíe del
tema principal, y sintetizar al máximo utilizando términos generales y
significativos que ayuden a la comprensión global del documento,
evitando siempre los juicios de valor.
El resumen de documentos ha sido siempre considerado una labor lenta
y tediosa para los profesionales de la documentación, además de un
trabajo técnico complicado. Se necesita mucha rapidez para tener
actualizados y al día los resúmenes de esa ingente cantidad de
documentos que entran o se gestionan en cualquier unidad documental.
Antes de la aparición de la World Wide Web, ya existieron algunos
avances enfocados hacia la automatización de esta tarea, aunque ha
sido la explosión de Internet, el verdadero motor del resumen automático
de documentos.
¿Cómo obtener únicamente los documentos y la información que nos
interesa entre toda la maraña de documentos y millones de páginas que
pueblan la red? Una ayuda importante sería que alguien o algo nos
informara del contenido de los documentos para así obtener, filtrar,
clasificar y extraer la información que nos interese. El buscador perfecto
sería aquél que encontrara la información que buscamos preguntándole
en nuestro propia lengua, que nos presentara los documentos por orden
de relevancia (en una o varias lenguas), que los clasificara de acuerdo a
uno o unos criterios dados y que hiciera un resumen sintético del contenido
de cada documento en nuestra propia lengua.
El resumen automático de documentos está íntimamente relacionado con
el análisis del contenido y con la búsqueda y recuperación de información,
esto es, con poder obtener los documentos que se ajustan a unos criterios
dados y con la posibilidad de extraer de ellos sólo la información que nos
interesa, generando, por ejemplo, un nuevo documento en el que se
presente sólo la información relevante o creando algún tipo de estructura
temática en el que aparezcan clasificados dichos documentos. Las dos
líneas de investigación actuales en el ámbito del resumen documental
tienen que ver con estos dos aspectos: el de la búsqueda y recuperación
de la información documental, y el de la extracción de la información
relevante.
Existen 3 tipos de resúmenes automáticos, aunque muchos sistemas son
híbridos y combinan varias de estas técnicas:
Resúmenes por extracción: operan sobre uno o varios documentos entresacando la
información más relevante por medio de la extracción de las oraciones que responden a
unos criterios determinados y presentando únicamente las oraciones del texto original que
más se ajustan a los criterios dados. Seleccionan la información en función de la frecuencia
de las palabras clave, de la localización de información y de otros parámetros relevantes.
Los sistemas de extracción más sofisticados son capaces, también, no sólo de extraer
oraciones, sino de insertar material léxico para que el texto resultante tenga cohesión.
Resúmenes por abstracción: no se limitan a extraer las oraciones del texto original, sino
que generan un nuevo documento con una nueva redacción, a partir de la información
contenida en el primero. Este tipo de resúmenes presentan una excesiva dificultad técnica y
la investigación en este ámbito apenas ha comenzado a dar sus primeros pasos por medio
de los recientes avances en el procesamiento del lenguaje natural.
Resúmenes gráfico-relacionales: basados en técnicas vectoriales y algoritmos gráficos de
mapeo de la información que comparan conjuntos de documentos para extraer sus
similitudes y diferencias .
Los sistemas de resumen automáticos, al contrario de lo que pudiera
pensarse, no se construyen para que imiten los razonamientos de la mente
humana, sino que siguen otras estrategias distintas que tienen como fin
emular un comportamiento inteligente, pero diferente del pensamiento
racional humano. A nadie se le escapa la dificultad técnica que supone la
puesta en marcha de cualquier sistema de resumen automático, una
dificultad que tiene que ser resuelta por medio de la colaboración entre
agentes de diversas disciplinas y campos dispares como la inteligencia
artificial, la ingeniería lingüística, la informática, las ciencias de la
información y documentación, etc. Por otro lado, tampoco existe un único
enfoque a la hora de plantearse la cuestión central de en qué debe consistir
un resumen automático, sino que tal enfoque puede obedecer a muy
diversos factores dependiendo del tipo de resumen que persigamos, del
tipo de documentos que tomemos como origen (artículos, noticias,
páginas web, mensajes de correo electrónico, listas, etc.), del lenguaje en
que estén construidos (HTML, XML, texto sin marcas...), de si el
documento o el texto presentan algún tipo de estructura, etc.
La tipología de los resúmenes automáticos es muy variada y por lo tanto,
cada uno de estos tipos necesita un determinado tipo de técnicas y
tratamientos diferentes. No es lo mismo un resumen meramente indicativo
(para utilizarse en la clasificación y filtrado de documentos) que un
resumen informativo (para ser leído como abstract o como sustituto del
documento completo), un resumen genérico que un resumen guiado (en
respuesta a una búsqueda concreta), un resumen genérico que un
resumen de actualización (que obvie la información conocida y aporte sólo
los elementos nuevos), un resumen multidocumental (que condense en un
único documento otros documentos que tratan sobre el mismo tema o
búsqueda) o un resumen multinivel (que ofrezca distintos niveles de
comprensión del documento original), etc.
Técnicas del resumen documental
El resumen automático de documentos se puede realizar de muy diversas
formas, pero las técnicas utilizadas se pueden englobar en 3 grandes
grupos:
Técnicas sin análisis lingüístico: tratan el texto de forma superficial, como si se tratara de
una simple cadena de caracteres. La oración se distinguiría como una cadena que comienza
por una mayúscula y termina con un punto. Los métodos son variados: selección de los
términos más frecuentes y extracción de las oraciones que los contienen, selección de
fragmentos que ocupan posiciones destacadas como el título, subtítulos, encabezamientos,
o las que contienen cadenas de caracteres tales como: es importante, en conclusión, en
suma, en resumen, etc.
Técnicas basadas en el análisis lingüístico morfosintáctico: permiten reconocer las
unidades lingüísticas mediante algún tipo de reconocimiento y clasificación del léxico
utilizando, por ejemplo, analizadores morfológicos y desambiguadores léxicos,
lematizadores, sistemas de resolución de referencias anafóricas, bases de conocimiento
léxico, reconocedores de entidades que no forman parte de los diccionarios o vocabularios
comunes, como por ejemplo, siglas o nombres propios, etc. Esto permite representar las
conexiones del texto en forma de grafos para determinar qué oraciones son las más
relevantes para el resumen.
Técnicas basadas en la estructura discursiva: se trata ya de técnicas muy sofisticadas
en donde entra en juego la ingeniería lingüística puesto que se trata de analizar la
estructura argumental del documento para poder detectar los fragmentos más relevantes.
Para ello, serán de gran ayuda la detección y análisis de marcadores discursivos tales
como ejemplo: "en primer lugar", "en segundo término", "por el contrario", "sin embargo",
"además", "es importante", "en conclusión", "en suma", "en resumen", etc. También es
importante la estructura del propio documento hipertextual ya que la propia armazón del
documento HTML permite reconstruir la estructura argumental del documento y de los
fragmentos más relevantes. Por otro lado, será más fácil de analizar aún, cualquier
documento estructurado en XML que contenga metadatos, esquemas o que contenga
algún tipo de estructuración semántica basada en RDF, OWL o cualquier otro lenguaje de
estructuración semántica.
Algunos ejemplos de herramientas y programas para realizar
resúmenes automáticos
Extractor: Software que resume de forma automática, texto. correos
electrónicos y páginas web. Toma un archivo de texto y genera una lista
de palabras clave y una lista de frases. [Link]
SweSum: software de resumen automático de texto desarrollado
por Hercules Dalianis y Martin
Hassel. [Link] La demo resume del
inglés, francés, alemán, sueco y español. Permite establecer el porcentaje
de resumen del texto y ofrece palabras clave y estadísticas.
Summarizer: programa desarrollado por Copernic produce
instantáneamente un resumen del documento seleccionando frases
completas del texto original. No utiliza la estructura formal de
encabezados, subtítulos, etc., ni los puntos de enumeración. Funciona
automáticamente en 4 idiomas: español, inglés, francés y alemán;
reconoce varios formatos de texto: Word, pdf, HTML, etc. y se coloca en
el navegador web donde, en la parte inferior de la pantalla, muestra el
resumen de la página web. También permite seleccionar texto, arrastrarlo
y llevarlo a la barra de navegación para que forme parte del
resumen. [Link] La forma de funcionar es
la siguiente: se prepara el documento mediante una conversión en un
formato estándar, se detecta el idioma y luego se aíslan los segmentos
de información en el texto y se asocia un contexto de uso para cada
palabra. Luego se extraen los conceptos claves del texto, su estructura
nuclear y se chequea que funcionan con la totalidad del documento. Con
la información recopilada, el programa selecciona las frases que
formarán el resumen. Se puede elegir el tanto por ciento de reducción.
También podemos comprobar, sin conexión a la red, el elemental
sistema de autorresumen que nos ofrece el procesador de
textos Microsoft Word y al que se accede desde el
menú Herramientas/Autorresumen.
De cualquier forma, existen numerosos productos comerciales que
realizan estas tareas. Una lista exhaustiva se relaciona en el apartado de
esta tesis: Recursos Resumen Automático de documentos.
COHERRENCIA Y COHECION
Un resumen es una representación abreviada, objetiva y precisa del
contenido de un documento o recurso. El objeto de un resumen es
exponer de forma breve los contenidos principales de un documento con
el fin de facilitar su indización, búsqueda y recuperación, así como dar a
conocer de antemano el contenido del documento o recurso para que
el usuario decida sobre la conveniencia de consultar o no el texto
completo.
He aquí algunas de las definiciones ya clásicas sobre resumen:
Paul Otlet en su Tratado de Documentación, define la operación de
resumir de la forma siguiente: "consiste en el análisis bajo forma sucinta
de lo que se contiene en los documentos".
Para Van Dijk "un resumen es la manifestación textual de la
macroestructura de un texto". Para este mismo autor, resumir es la
operación por la que se abrevia el contenido de un documento y se le
representa por un cierto número de oraciones que expresan la sustancia.
Para Cleveland: "resumir es es un procedimiento complejo dirigido a
representar el contenido de los documentos analizados en orden a guiar
al usuario en la información apropiada.
José López Yepes define resumir como una técnica documental que
nace de la ciencia moderna y cuyo resultado, el resumen, es un
documento secundario que se desarrolla sobre un vehículo informativo,
como es la publicación de carácter científico.
Para Moreiro González, "resumir es una actuación sobre el contenido de
los documentos para aminorar la abundancia de información contenida
en ellos y para realzar aquellas partes del mensaje que más convienen a
los usuarios. Tras ello el mensaje del documento original queda
transformado, pasando a formar un nuevo documento que conocemos
como resumen: texto autónomo, breve y completo gramaticalmente, que
recoge el contenido substantivo de otro, primero u original."
Para María Pinto Molina, el resumen es un nuevo documento
representativo del original, que debe incluir todos los aspectos
destacados del documento original siguiendo el estilo y la ordenación del
documento original, y evitando cualquier apreciación y juicio crítico. María
Pinto Molina define la operación de resumir como un proceso general
que implica la metamorfosis que deben experimentar los documentos
textuales desde su estado inicial microestructural (o estructura de
superficie léxico-sintáctica) hasta la obtención, y posterior descripción de
su macroestructura (o estructura profunda lógico-semántica). Para esta
autora, se trata de una tarea de reducción informativa y de una operación
de reconstrucción textual en modelo reducido y, por tanto, es muy difícil
cualquier intento de normalización.
Sin embargo, existen varios estándares internacionales referidos a los
resúmenes, entre los que destacan las siguientes normas:
ISO 214:1976. Documentation. Abstracts for publications and documentation. Esta norma
se centra en el tratamiento del contenido de los documentos y su presentación, y su
equivalente en español es la norma: UNE 50-103-1990.
ANSI/NISO Z39.14 - 1997 (R2002) Guidelines for Abstracts, un estándar que ayuda a los
autores y editores a elaborar resúmenes o abstracts ya que describe los componentes de
un resumen, además de los estilos y formatos más apropiados. Esta norma también
incluye numerosos ejemplos ilustrativos al
respecto. [Link]
Tipos de resúmenes:
Se puede establecer una tipología de los resúmenes atendiendo a
distintas perspectivas, entre las que podemos destacar:
Según su autor:
el autor es el propio autor del documento
el autor es un experto en la materia tratada (es estos 2 casos, el autor del resumen es
quien mejor conoce la materia tratada, pero puede carecer de experiencia en las técnicas
del resumen y análisis documental).
el autor es un documentalista: en este caso, el autor del resumen conoce las técnicas del
resumen y del análisis documental, pero puede ser inexperto en la materia tratada.
Según su uso:
documento primario: el resumen aparece como una introducción al comienzo del propio
documento.
documento secundario: el resumen aparece separado del propio documento a modo de
referencia, ya sea formando parte de un índice, catálogo, bibliografía o sumario que
contenga resúmenes.
base de datos: conjunto de resúmenes que reciben un tratamiento automatizado.
Según su densidad o amplitud:
resumen indicativo o descriptivo: se trata de un resumen brevísimo que suele constar
del título del documento ampliado con algún pequeño detalle o aclaración. Un resumen
indicativo no debe contener más de 20 palabras.
resumen informativo: este resumen, de entre 50 a 150 palabras como máximo, contiene
la idea general y otra información relacionada como los resultados y las conclusiones
fundamentales.
resumen crítico o analítico: se trata de un resumen algo más detallado y que
generalmente consta de entre 150 a 300 palabras.
Según la forma de presentación:
resumen en texto libre:
o resumen telegráfico: presenta la información de forma breve y concisa.
o resumen discursivo: presenta la información con un estilo fluido y discursivo.
resumen estructurado:
o resumen tabular: presenta las información a modo de sumario presentado en
forma de tablas.
o resumen modular: presenta la información en distintos niveles de descripción
analítica (nivel referencial, anotación, resumen indicativo, informativo, crítico, etc.).
Según el modo de distribución o difusión:
simultánea: el documento y su resumen se muestran conjuntamente.
sumario de resúmenes: los resúmenes se agrupan y estructuran siguiendo algún
sistema de clasificación preestablecido.
bases de datos: los resúmenes de agrupan y estructuran en una base de datos para
permitir una búsqueda y acceso más rápidos.
La anterior clasificación también puede subdividirse en:
en línea
fuera de línea
Según el modo de edición y publicación:
resumen analógico: en formato impreso
resumen digital: en formato digital (CD-ROM, DVD, Web, etc.)
Según la técnica de elaboración empleada:
manual: realizado por mediación humana. El autor del resumen puede ser el propio autor
del documento original que es quien mejor conoce el tema, o un especialista en la materia
tratada. Un problema que puede derivarse de este tipo de autorías es que tanto el autor
como los especialistas en una materia concreta pueden conocer muy bien el tema, pero
desconocer la metodología del resumen y el análisis documental. En el caso contrario
encontramos los resúmenes elaborados por documentalistas, quienes pueden conocer
perfectamente la metodología del resumen, pero también deben conocer la materia
tratada.
automatizado: resumen realizado por métodos mecánicos, sin intervención humana.
Para elaborar un buen resumen se precisa, además de seleccionar la
información esencial, omitir toda la información accesoria que desvíe del
tema principal, y sintetizar al máximo utilizando términos generales y
significativos que ayuden a la comprensión global del documento,
evitando siempre los juicios de valor.
El resumen de documentos ha sido siempre considerado una labor lenta
y tediosa para los profesionales de la documentación, además de un
trabajo técnico complicado. Se necesita mucha rapidez para tener
actualizados y al día los resúmenes de esa ingente cantidad de
documentos que entran o se gestionan en cualquier unidad documental.
Antes de la aparición de la World Wide Web, ya existieron algunos
avances enfocados hacia la automatización de esta tarea, aunque ha
sido la explosión de Internet, el verdadero motor del resumen automático
de documentos.
¿Cómo obtener únicamente los documentos y la información que nos
interesa entre toda la maraña de documentos y millones de páginas que
pueblan la red? Una ayuda importante sería que alguien o algo nos
informara del contenido de los documentos para así obtener, filtrar,
clasificar y extraer la información que nos interese. El buscador perfecto
sería aquél que encontrara la información que buscamos preguntándole
en nuestro propia lengua, que nos presentara los documentos por orden
de relevancia (en una o varias lenguas), que los clasificara de acuerdo a
uno o unos criterios dados y que hiciera un resumen sintético del contenido
de cada documento en nuestra propia lengua.
El resumen automático de documentos está íntimamente relacionado con
el análisis del contenido y con la búsqueda y recuperación de información,
esto es, con poder obtener los documentos que se ajustan a unos criterios
dados y con la posibilidad de extraer de ellos sólo la información que nos
interesa, generando, por ejemplo, un nuevo documento en el que se
presente sólo la información relevante o creando algún tipo de estructura
temática en el que aparezcan clasificados dichos documentos. Las dos
líneas de investigación actuales en el ámbito del resumen documental
tienen que ver con estos dos aspectos: el de la búsqueda y recuperación
de la información documental, y el de la extracción de la información
relevante.
Existen 3 tipos de resúmenes automáticos, aunque muchos sistemas son
híbridos y combinan varias de estas técnicas:
Resúmenes por extracción: operan sobre uno o varios documentos entresacando la
información más relevante por medio de la extracción de las oraciones que responden a
unos criterios determinados y presentando únicamente las oraciones del texto original que
más se ajustan a los criterios dados. Seleccionan la información en función de la frecuencia
de las palabras clave, de la localización de información y de otros parámetros relevantes.
Los sistemas de extracción más sofisticados son capaces, también, no sólo de extraer
oraciones, sino de insertar material léxico para que el texto resultante tenga cohesión.
Resúmenes por abstracción: no se limitan a extraer las oraciones del texto original, sino
que generan un nuevo documento con una nueva redacción, a partir de la información
contenida en el primero. Este tipo de resúmenes presentan una excesiva dificultad técnica y
la investigación en este ámbito apenas ha comenzado a dar sus primeros pasos por medio
de los recientes avances en el procesamiento del lenguaje natural.
Resúmenes gráfico-relacionales: basados en técnicas vectoriales y algoritmos gráficos de
mapeo de la información que comparan conjuntos de documentos para extraer sus
similitudes y diferencias .
Los sistemas de resumen automáticos, al contrario de lo que pudiera
pensarse, no se construyen para que imiten los razonamientos de la mente
humana, sino que siguen otras estrategias distintas que tienen como fin
emular un comportamiento inteligente, pero diferente del pensamiento
racional humano. A nadie se le escapa la dificultad técnica que supone la
puesta en marcha de cualquier sistema de resumen automático, una
dificultad que tiene que ser resuelta por medio de la colaboración entre
agentes de diversas disciplinas y campos dispares como la inteligencia
artificial, la ingeniería lingüística, la informática, las ciencias de la
información y documentación, etc. Por otro lado, tampoco existe un único
enfoque a la hora de plantearse la cuestión central de en qué debe consistir
un resumen automático, sino que tal enfoque puede obedecer a muy
diversos factores dependiendo del tipo de resumen que persigamos, del
tipo de documentos que tomemos como origen (artículos, noticias,
páginas web, mensajes de correo electrónico, listas, etc.), del lenguaje en
que estén construidos (HTML, XML, texto sin marcas...), de si el
documento o el texto presentan algún tipo de estructura, etc.
La tipología de los resúmenes automáticos es muy variada y por lo tanto,
cada uno de estos tipos necesita un determinado tipo de técnicas y
tratamientos diferentes. No es lo mismo un resumen meramente indicativo
(para utilizarse en la clasificación y filtrado de documentos) que un
resumen informativo (para ser leído como abstract o como sustituto del
documento completo), un resumen genérico que un resumen guiado (en
respuesta a una búsqueda concreta), un resumen genérico que un
resumen de actualización (que obvie la información conocida y aporte sólo
los elementos nuevos), un resumen multidocumental (que condense en un
único documento otros documentos que tratan sobre el mismo tema o
búsqueda) o un resumen multinivel (que ofrezca distintos niveles de
comprensión del documento original), etc.
Técnicas del resumen documental
El resumen automático de documentos se puede realizar de muy diversas
formas, pero las técnicas utilizadas se pueden englobar en 3 grandes
grupos:
Técnicas sin análisis lingüístico: tratan el texto de forma superficial, como si se tratara de
una simple cadena de caracteres. La oración se distinguiría como una cadena que comienza
por una mayúscula y termina con un punto. Los métodos son variados: selección de los
términos más frecuentes y extracción de las oraciones que los contienen, selección de
fragmentos que ocupan posiciones destacadas como el título, subtítulos, encabezamientos,
o las que contienen cadenas de caracteres tales como: es importante, en conclusión, en
suma, en resumen, etc.
Técnicas basadas en el análisis lingüístico morfosintáctico: permiten reconocer las
unidades lingüísticas mediante algún tipo de reconocimiento y clasificación del léxico
utilizando, por ejemplo, analizadores morfológicos y desambiguadores léxicos,
lematizadores, sistemas de resolución de referencias anafóricas, bases de conocimiento
léxico, reconocedores de entidades que no forman parte de los diccionarios o vocabularios
comunes, como por ejemplo, siglas o nombres propios, etc. Esto permite representar las
conexiones del texto en forma de grafos para determinar qué oraciones son las más
relevantes para el resumen.
Técnicas basadas en la estructura discursiva: se trata ya de técnicas muy sofisticadas
en donde entra en juego la ingeniería lingüística puesto que se trata de analizar la
estructura argumental del documento para poder detectar los fragmentos más relevantes.
Para ello, serán de gran ayuda la detección y análisis de marcadores discursivos tales
como ejemplo: "en primer lugar", "en segundo término", "por el contrario", "sin embargo",
"además", "es importante", "en conclusión", "en suma", "en resumen", etc. También es
importante la estructura del propio documento hipertextual ya que la propia armazón del
documento HTML permite reconstruir la estructura argumental del documento y de los
fragmentos más relevantes. Por otro lado, será más fácil de analizar aún, cualquier
documento estructurado en XML que contenga metadatos, esquemas o que contenga
algún tipo de estructuración semántica basada en RDF, OWL o cualquier otro lenguaje de
estructuración semántica.
Algunos ejemplos de herramientas y programas para realizar
resúmenes automáticos
Extractor: Software que resume de forma automática, texto. correos
electrónicos y páginas web. Toma un archivo de texto y genera una lista
de palabras clave y una lista de frases. [Link]
SweSum: software de resumen automático de texto desarrollado
por Hercules Dalianis y Martin
Hassel. [Link] La demo resume del
inglés, francés, alemán, sueco y español. Permite establecer el porcentaje
de resumen del texto y ofrece palabras clave y estadísticas.
Summarizer: programa desarrollado por Copernic produce
instantáneamente un resumen del documento seleccionando frases
completas del texto original. No utiliza la estructura formal de
encabezados, subtítulos, etc., ni los puntos de enumeración. Funciona
automáticamente en 4 idiomas: español, inglés, francés y alemán;
reconoce varios formatos de texto: Word, pdf, HTML, etc. y se coloca en
el navegador web donde, en la parte inferior de la pantalla, muestra el
resumen de la página web. También permite seleccionar texto, arrastrarlo
y llevarlo a la barra de navegación para que forme parte del
resumen. [Link] La forma de funcionar es
la siguiente: se prepara el documento mediante una conversión en un
formato estándar, se detecta el idioma y luego se aíslan los segmentos
de información en el texto y se asocia un contexto de uso para cada
palabra. Luego se extraen los conceptos claves del texto, su estructura
nuclear y se chequea que funcionan con la totalidad del documento. Con
la información recopilada, el programa selecciona las frases que
formarán el resumen. Se puede elegir el tanto por ciento de reducción.
También podemos comprobar, sin conexión a la red, el elemental
sistema de autorresumen que nos ofrece el procesador de
textos Microsoft Word y al que se accede desde el
menú Herramientas/Autorresumen.
De cualquier forma, existen numerosos productos comerciales que
realizan estas tareas. Una lista exhaustiva se relaciona en el apartado de
esta tesis: Recursos Resumen Automático de documentos.