0% ont trouvé ce document utile (0 vote)
88 vues26 pages

IE Introduction 2024

Le document présente un cours sur l'extraction d'information, abordant ses motivations, définitions, objectifs, et techniques. Il souligne l'importance de transformer les données non structurées en informations exploitables, avec des applications variées dans des domaines tels que le commerce et la médecine. L'historique de l'extraction d'information est également discuté, incluant l'évolution des techniques utilisées depuis les années 1980 jusqu'à aujourd'hui.

Transféré par

anissbessalah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
88 vues26 pages

IE Introduction 2024

Le document présente un cours sur l'extraction d'information, abordant ses motivations, définitions, objectifs, et techniques. Il souligne l'importance de transformer les données non structurées en informations exploitables, avec des applications variées dans des domaines tels que le commerce et la médecine. L'historique de l'extraction d'information est également discuté, incluant l'évolution des techniques utilisées depuis les années 1980 jusqu'à aujourd'hui.

Transféré par

anissbessalah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master ESI 2023, Extraction d’Information H. OUFAIDA, h_oufaida@esi.

dz

Extraction d’information

Cours 01-Introduction

1
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Plan du cours

1. Motivations
2. Définition
3. Objectifs
4. Extraction d’information (EI) VS Traitement Automatique des langues (TALN)
5. Historique de la EI
6. Tâches de la EI
7. Techniques et applications

2
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Pourquoi l’extraction d’information?

80% à 90% est


non structurée

1 ZB = 1e+12 GB
=1 000 000 000 000 GB

3
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Pourquoi l’extraction d’information?

80% à 90% est


non structurée

1 ZB = 1e+12 GB
=1 000 000 000 000 GB

Source: https://www.statista.com/statistics/871513/worldwide-data-created/ 4
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Pourquoi l’extraction d’information?

● L’information est au coeur de l’informatique d'aujourd'hui


● La proportion des données non structurées est beaucoup plus grande que les
données structurées ou semi structurées
● Les besoins des organisations s’orientent vers la transformation des données en
des informations de valeur
● L’information de valeur exploitable i-e structurée et requêtable

5
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples d’applications

● Extraction d'événements pour effectuer une veille informationnelle et surveiller


activement l’environnement concurrentiel des entreprises
● Extraction d’opinions à partir des réseaux sociaux pour effectuer une veille
d’image et surveiller l'e-réputation des entreprises
● Alimentation automatique des bases de données/bases de connaissances des
organisations
● …etc.

6
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Brand and opinion tracking

7
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

IE-Google knowledge Graph


Things not strings!

8
Master ESI 2023, Extraction d’Information H. OUFAIDA, [email protected]

Knowledge base population [Khouri, Oufaida et. al., 2023]

9
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Knowledge base population [Khouri, Oufaida et. al., 2023]

12
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Extraction d’information-Définitions

“L’extraction d’information est le processus qui transforme les informations non


structurées dans les textes en informations structurées pour alimenter une base de
données par exemple ou pour effectuer d’autres traitements “[Dan Jurafsky et James
H. Martin, 2020]

“L’extraction d’information est le processus d’analyse de texte afin d’identifier les


entités et les relations entre elles” [Grishman, 2015]

13
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Extraction d’information-Objectifs

● Trouver des segments de textes qui sont pertinents


● Prendre en entrée différents types de données
● Organiser ces informations pour les rendre utiles
● Produire en sortie des informations structurées tels que des BDDs ou
des knowledge bases, graphs, etc.
● Cette nouvelle organisation sémantique permettra des traitements
automatiques (inférence de nouvelles connaissances par exemple)

14
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Donnees structurées vs données non structurées

● Données structurées: ce sont des données hautement organisées et facilement


déchiffrables par des algorithmes Machine Learning. Elles possèdent un format
prédéfini.

Exemples: Bases de données, données des cartes bancaires, adresses, etc.

● Données non structurées: données ne possèdent pas un format prédéfini.

Exemples: textes en langage naturel, posts sur les réseaux sociaux, données
mobiles, etc.

Source: https://www.ibm.com/cloud/blog/structured-vs-unstructured-data
15
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples

[Cardoso, 2007] 16
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples

[Zhang et al., 2017] 17


Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples

18
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Pipeline général d’extraction d’information

Pipeline NLP bas niveau

[Singh, 2018] 19
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Extraction d’information vs NLP

● Niveaux d’analyse du discours


● Le NLP, NLU et NLG opèrent sur ces
différents niveaux d’analyse du langage
en fonction de la tâche cible

Source: https://en.wikipedia.org/wiki/Syntax
20
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Extraction d’information vs NLP

Source: https://nlp.stanford.edu/~wcmac/papers/20140716-UNLU.pdf
21
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Extraction d’information vs NLP

Source: IBM Technology chanel on youtube


22
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Historique de l’EI

1. 1987-1997: Message Understanding Conferences MUC: NER. RE, EVENT en


utilisant des patrons et des règles manuellement écrites
2. Usage des techniques d’apprentissage supervisé: datasets annotées
3. Usage des techniques d’apprentissage semi-supervisé: datasets annotées de
petite taille puis augmentées avec des données non annotées
4. Usage des techniques de l’apprentissage non supervisé
5. OpenIE: l’extraction d’information ouverte
6. LLMs: l’extraction d’information générative

[Small, 2014] 23
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Applications

● Médecine
○ Extraction de symptômes
● Commerce
○ Extraction d’opinions des clients
● Juridique
○ Extraction des textes juridiques, des contrats
● Tourisme
○ Extraction d'événements touristiques
○ Extraction des réservations

24
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Techniques

● A base de règles
● ML-Apprentissage supervisé
● ML-Apprentissage semi supervisé
● ML-Apprentissage non supervisé
● Deep learning
● LLMs

25
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Techniques-Timeline

1990s 200Os 2012 2018

A base de règles ML a base de features DL NN DL LLMs

En utilisant des règles manuellement SVM CRF Kmeans RNN CNN Bi-LSTM BERT Llama Camabert Roberta
écrites. GPT

[Zhu et al., 2023] 26


Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Tâches de l’EI
Séminaire Master

● Extraction d’entités nommées ou Named Entity Recognition NER


● Extraction de relations ou Relation Extraction RE
● Extraction de sujets
● Extraction de résumés
● Extraction d'événements ou Event Extraction EE
● Extraction d’opinion

28
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Bibliographie

Jurafsky, D., & Martin, J. H. (2020) Speech and Language Processing: An Introduction to Natural Language Processing, Computational
Linguistics, and Speech Recognition.,

Grishman, R. (2015). Information extraction. IEEE Intelligent Systems, 30(5), 8-15.

Singh, S. (2018). Natural language processing for information extraction. arXiv preprint arXiv:1807.02383.Cardoso, J. (2007). Developing
dynamic packaging applications using Semantic Web-based integration. In Semantic Web Technologies and E-Business: Toward the Integrated
Virtual Organization and Business Process Automation (pp. 1-39). IGI Global.

Sarawagi, S. (2008). Information extraction. Foundations and Trends® in Databases, 1(3), 261-377.

Small, S. G., & Medsker, L. (2014). Review of information extraction technologies and applications. Neural computing and applications, 25(3),
533-548.

Baviskar, D., Ahirrao, S., Potdar, V., & Kotecha, K. (2021). Efficient automated processing of the unstructured documents using artificial
intelligence: A systematic literature review and future directions. IEEE Access, 9, 72894-72936.

Zhu, Z., Wang, L., Gu, D., Wu, H., Janfada, B., & Minaei-Bidgoli, B. (2023). Is Prompt the Future?: A Survey of Evolution of Relation Extraction
Approach Using Deep Learning and Big Data. International Journal of Information Technologies and Systems Approach (IJITSA), 16(1), 1-18.

Zhang, Y., Zhong, V., Chen, D., Angeli, G., & Manning, C. D. (2017). Position-aware attention and supervised data improve slot filling.
In Conference on Empirical Methods in Natural Language Processing.

29

Vous aimerez peut-être aussi