Academia.edu no longer supports Internet Explorer.
To browse Academia.edu and the wider internet faster and more securely, please take a few seconds to upgrade your browser.
2019, HAL (Le Centre pour la Communication Scientifique Directe)
Cet article 1 propose une approche hybride pour la segmentation de documents basée sur l'agrégation de différentes solutions. Divers algorithmes de segmentation peuvent être utilisés dans le système, ce qui permet la combinaison de stratégies multiples (spécifiques au domaine, supervisées et nonsupervisées). Un ensemble de documents étiquetés, segmentés au préalable et représentatif du domaine ciblé, doit être fourni pour être utilisé comme ensemble d'entraînement pour l'apprentissage des méthodes supervisées, et aussi comme ensemble de test pour l'évaluation de la performance de chaque méthode, ce qui déterminera leur poids lors de la phase d'agrégation. L'approche proposée présente de bonnes performances dans un scénario expérimental issu d'un corpus extrait du domaine juridique.
2016
La segmentation d'un texte en rheses, unites-membres signifiantes de la phrase, permet de fournir des adaptations de celui-ci pour faciliter la lecture aux personnes dyslexiques. Dans cet article, nous proposons une methode d'identification automatique des rheses basee sur un apprentissage supervise a partir d'un corpus que nous avons annote. Nous comparons celle-ci a l'identification manuelle ainsi qu'a l'utilisation d'outils et de concepts proches, tels que la segmentation d'un texte en chunks.
2016
La segmentation d’un texte en rhèses, unités-membres signifiantes de la phrase, permet de fournir des adaptations de celui-ci pour faciliter la lecture aux personnes dyslexiques. Dans cet article, nous proposons une méthode d’identification automatique des rhèses basée sur un apprentissage supervisé à partir d’un corpus que nous avons annoté. Nous comparons celle-ci à l’identification manuelle ainsi qu’à l’utilisation d’outils et de concepts proches, tels que la segmentation d’un texte en chunks.
2002
La segmentation de textes en phrases (segments textuels) reste une phase préalable pour le traitement automatique des langues. Cette phase de traitement (à notre connaissance) n'est pas prise très au sérieux par la plupart des laboratoires qui traitent la langue automatiquement. Chaque équipe de recherches développe un outil provisoire pour des corpus bien définis (ou bien nettoyés de toute sorte de « scories »), ou n’a recours qu’à un traitement manuel. Or dans de nombreuses applications les textes ne sont pas préparés. La segmentation de textes est basée sur l'étude linguistique d'une part, sur une modélisation informatique d’autre part. Ces deux études se complètent. La segmentation a, comme d'autres types de traitement automatique de la langue, ses particularités, que ce soit au niveau linguistique, ou au niveau informatique. Et comme le signale C. Fuchs, la phrase a une place privilégiée dans le traitement linguistique pour des raisons diverses : d'une part ...
2010
Cet article présente une approche basée sur la comparaison fréquentielle de modèles lexicaux pour la segmentation automatique de textes historiques Portugais. Cette approche traite d’abord le problème de la segmentation comme un problème de classification, en attribuant à chaque élément lexical présent dans la phase d’apprentissage une valeur de saillance pour chaque type de segment. Ces modèles lexicaux permettent à la fois de produire une segmentation et de faire une analyse qualitative de textes historiques. Notre évaluation montre que l’approche adoptée permet de tirer de l’information sémantique que des approches se concentrant sur la détection des frontières séparant les segments ne peuvent acquérir.
2003
L'hypothèse soutenue dans cet article est que l'analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l'aide de l'analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d'articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l'analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d'une reconnaissance de "similarités" de surface.
La classification automatique est une technique d'exploration et d'analyse de texte largement utilisée par la communauté des sciences humaines et sociales. Plusieurs dizaines d'algorithmes ont été conçus, chacun s'appuyant sur un principe d'induction différent. La comparaison du comportement de ces différents algorithmes est devenue un enjeu méthodologique fondamental. Trois stratégies de comparaison ont été suggérées, basées sur des critères externes, internes ou relatifs. Nous présentons les premiers résultats d'une étude basée sur une stratégie de comparaison relative. Cette étude a pour objectif de mesurer la variation dans les résultats de classification automatique de texte en fonction de l'algorithme utilisé. Quatre algorithmes sont comparés : les réseaux de neurones adaptatifs (ART1), le K-Means (KM), Expectation Maximisation (EM) et les cartes topologiques auto-organisatrices (SOM). Abstract Clustering algorithm is a technique of exploration and ...
2000
La facon de comprendre un texte depend fortement du domaine qu'il traite, mais aussi de son type ; on distingue essentiellement des textes descriptifs, des textes argumentatifs et des textes narratifs. Jusqu'aux annees quatre-vingt, la plupart des travaux existants, tant en intelligence artificielle qu'en linguistique ou en psycholinguistique, se sont limites aux recits. La comprehension de recits presente l'avantage de ne pas etre orientee par une tâche precise et permet ainsi d'etudier les problemes reels de la comprehension. Les mecanismes mis en oeuvre dans ce cadre sont donc representatifs des processus cognitifs utilises pour la comprehension en general et peuvent etre utilises dans des applications variees. La premiere idee utilisee pour mettre en evidence la structure d'un texte a consiste a tenter de decrire des structures globales de textes et a determiner comment le texte precis analyse cadre avec une de ces structures preetablies. Nous decrirons d...
Nous proposons dans cet article une méthode de segmentation de textes arabes non voyellés en phrases et en paragraphes. Cette méthode est basée sur une étude d'un corpus pour extraire un ensemble de règles permettant de déterminer les frontières des phrases et ceci en étudiant les contextes gauches et droits des signes de ponctuations, des conjonctions de coordination et de certains mots connecteurs. En se basant sur les signes de ponctuation et les retours chariot, cette méthode permet de segmenter les textes en paragraphes.
IEEE Transactions on Speech and Audio Processing, 2003
Résumé : Nous présentons dans ces pages notre démarche pour développer un segmenteur de textes par la méthode d'Exploration Contextuelle (EC). Nous pensons que cette phase préalable et nécessaire du traitement automatique des langues n'a pas été considérée à sa juste valeur. L'étude des marques de ponctuation nous a permis de définir un segmenteur de textes adapté aux différentes tâches telles que le résumé automatique, le filtrage de textes, l'extraction des relations causales, etc. La segmentation de textes est basée sur l'étude linguistique d'une part, sur une modélisation informatique d'autre part. La segmentation a, comme d'autres types de traitement automatique de la langue, ses particularités, que ce soit au niveau linguistique, ou au niveau informatique. L'implantation informatique a été effectuée sous JAVA.
2001
L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des textes, pour mieux les cibler et en extraire certaines séquences particulièrement pertinentes. A cet effet, nous nous proposons d'exploiter un savoir de nature purement linguistique, et plus précisément sémantique, en nous appuyant sur la technique d'exploration contextuelle. Le modèle conceptuel et le langage de description des connaissances linguistiques de la plate-forme FilText sont présentés, ainsi que son implémentation logicielle ContextO. Un exemple d'utilisation de ContextO, la production de résumé automatique, est détaillé. ABSTRACT : Our project aims to provide means to identify semantics in texts in order to extract relevant sequences. We present the contextual exploration method which exploits this kind of linguistic knowledge. The conceptual model and the descriptive language used in FilText are presented as well as the workstation ContextO. As an example of the use of ContextO, automatic summarization by semantic labeling is detailed. MOTS-CLÉS : Ingénierie linguistique, étiquetage sémantique, résumé et filtrage automatique, exploration contextuelle, connaissances causales, énoncés structurants.
JADT, 2010
Dans cet article nous présentons REG, une approche de graphes pourétudier un problème fondamental du Traitement Automatique de la Langue Naturelle : le résumé automatique de documents. L'algorithme modélise un document comme un graphe où l'on déduit la pondération des phrases. Nous avons appliqué cette approcheà la génération de résumés par extraction avec des résultats très encourageants en trois langues.
2001
Ce travail s'inscrit dans le cadre d'un projet mene au sein de l'equipe LaLIC (Langage, Logique, Informatique et Cognition). Il est operationnel d'un point de vue informatique et a pour objectif de definir le besoin en terme de segmentation de texte, et d'interpretation semantique de marqueurs typographiques, pour le filtrage d'information. Il a abouti a la realisation de deux applications SegATex et CitaRE. Nous avons defini les valeurs des signes de ponctuation, et nous nous sommes interesse a l'etude historique de la ponctuation en particulier a l'origine de la forme graphique de la virgule et son eventuelle relation avec une autre particule (le waw) dans la langue arabe. L'application SegATex (Segmentation Automatique de Textes) est destinee en tant que module informatique a preparer (baliser) le texte pour un traitement automatique de langue. Parmi ces traitements, figurent la segmentation de textes en sections, sous-sections, paragraphes, ph...
Résumé : La segmentation de texte est une phase nécessaire pour un très grand nombre d'applications en traitement automatique du langage : par exemple pour l'alignement des phrases dans les systèmes de TAO, pour l'analyse syntaxique, pour le résumé automatique, pour le filtrage de textes, etc. Nous essayerons, dans cet article, d'expliquer notre démarche pour développer un segmenteur de texte en segments textuels. Nous aborderons également les problèmes d'ambiguïté que suscitent les différents emplois des signes typographiques. Enfin nous signalerons brièvement ceux liés à la segmen-tation des textes d'autres langues et en particulier l'arabe.
… . L'analyse de …, 2004
ABSTRACT. Summarizing is a critical phase in the automatic analysis of texts. Abstract generation is a complex cognitive process. The state of art only allows the production of document condensations. This paper describes our method, Cortex, which uses an algorithmic-...
2019
Les livres d'heures sont le plus grand bestseller de tout le Moyen Âge, avec plus de 10 000 témoins conservés. Incontournables pour comprendre l'univers mental médiéval, leurs textes ont été très peu étudiés. Ils sont très longs et ont une structure complexe correspondant à l'organisation liturgique médiévale et la prière quotidienne de l'office. Cet article décrit les méthodes et les traitements automatiques mis en oeuvre sur les livres d'heures : la reconnaissance de l'écriture manuscrite et la segmentation adaptées à ces manuscrits. L'approche de segmentation semi-supervisée proposée tire profit de la constitution spécifique du manuscrit pour mieux retrouver leur structure malgré le bruit engendré par la reconnaissance de l'écriture. ABSTRACT. Books of Hours are the number one best seller of the Middle Ages, with more than 10 000 copies preserved. They are a crucial witness to the medieval mindset, but their textual contents have been very scarcely studied. They are very long and offer a complex hierarchical entangled structure, with several characteristics specific to medieval daily Prières office. This paper presents the methods and processing applied to books of hours: handwritten text recognition and text segmentation adapted to medieval manuscripts. We propose a weak supervised approach, based on the overarching structure of the manuscripts, that provides the first stateof-the-art results on transcript texts and despite remaining errors for this new challenging task. MOTS-CLÉS : reconnaissance de l'écriture manuscrite, segmentation thématique, livre d'heures.
Loading Preview
Sorry, preview is currently unavailable. You can download the paper by clicking the button above.