Master ESI 2023, Extraction d’Information H. OUFAIDA, h_oufaida@esi.
dz
Extraction d’information
Cours 01-Introduction
1
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Plan du cours
1. Motivations
2. Définition
3. Objectifs
4. Extraction d’information (EI) VS Traitement Automatique des langues (TALN)
5. Historique de la EI
6. Tâches de la EI
7. Techniques et applications
2
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Pourquoi l’extraction d’information?
80% à 90% est
non structurée
1 ZB = 1e+12 GB
=1 000 000 000 000 GB
3
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Pourquoi l’extraction d’information?
80% à 90% est
non structurée
1 ZB = 1e+12 GB
=1 000 000 000 000 GB
Source: https://www.statista.com/statistics/871513/worldwide-data-created/ 4
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Pourquoi l’extraction d’information?
● L’information est au coeur de l’informatique d'aujourd'hui
● La proportion des données non structurées est beaucoup plus grande que les
données structurées ou semi structurées
● Les besoins des organisations s’orientent vers la transformation des données en
des informations de valeur
● L’information de valeur exploitable i-e structurée et requêtable
5
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Exemples d’applications
● Extraction d'événements pour effectuer une veille informationnelle et surveiller
activement l’environnement concurrentiel des entreprises
● Extraction d’opinions à partir des réseaux sociaux pour effectuer une veille
d’image et surveiller l'e-réputation des entreprises
● Alimentation automatique des bases de données/bases de connaissances des
organisations
● …etc.
6
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Brand and opinion tracking
7
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
IE-Google knowledge Graph
Things not strings!
8
Master ESI 2023, Extraction d’Information H. OUFAIDA, [email protected]
Knowledge base population [Khouri, Oufaida et. al., 2023]
9
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Knowledge base population [Khouri, Oufaida et. al., 2023]
12
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Extraction d’information-Définitions
“L’extraction d’information est le processus qui transforme les informations non
structurées dans les textes en informations structurées pour alimenter une base de
données par exemple ou pour effectuer d’autres traitements “[Dan Jurafsky et James
H. Martin, 2020]
“L’extraction d’information est le processus d’analyse de texte afin d’identifier les
entités et les relations entre elles” [Grishman, 2015]
13
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Extraction d’information-Objectifs
● Trouver des segments de textes qui sont pertinents
● Prendre en entrée différents types de données
● Organiser ces informations pour les rendre utiles
● Produire en sortie des informations structurées tels que des BDDs ou
des knowledge bases, graphs, etc.
● Cette nouvelle organisation sémantique permettra des traitements
automatiques (inférence de nouvelles connaissances par exemple)
14
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Donnees structurées vs données non structurées
● Données structurées: ce sont des données hautement organisées et facilement
déchiffrables par des algorithmes Machine Learning. Elles possèdent un format
prédéfini.
Exemples: Bases de données, données des cartes bancaires, adresses, etc.
● Données non structurées: données ne possèdent pas un format prédéfini.
Exemples: textes en langage naturel, posts sur les réseaux sociaux, données
mobiles, etc.
Source: https://www.ibm.com/cloud/blog/structured-vs-unstructured-data
15
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Exemples
[Cardoso, 2007] 16
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Exemples
[Zhang et al., 2017] 17
Master ESI 2024, Extraction d’Information H. OUFAIDA,
[email protected] Exemples
18
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Pipeline général d’extraction d’information
Pipeline NLP bas niveau
[Singh, 2018] 19
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Extraction d’information vs NLP
● Niveaux d’analyse du discours
● Le NLP, NLU et NLG opèrent sur ces
différents niveaux d’analyse du langage
en fonction de la tâche cible
Source: https://en.wikipedia.org/wiki/Syntax
20
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Extraction d’information vs NLP
Source: https://nlp.stanford.edu/~wcmac/papers/20140716-UNLU.pdf
21
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Extraction d’information vs NLP
Source: IBM Technology chanel on youtube
22
Master ESI 2024, Extraction d’Information H. OUFAIDA,
[email protected] Historique de l’EI
1. 1987-1997: Message Understanding Conferences MUC: NER. RE, EVENT en
utilisant des patrons et des règles manuellement écrites
2. Usage des techniques d’apprentissage supervisé: datasets annotées
3. Usage des techniques d’apprentissage semi-supervisé: datasets annotées de
petite taille puis augmentées avec des données non annotées
4. Usage des techniques de l’apprentissage non supervisé
5. OpenIE: l’extraction d’information ouverte
6. LLMs: l’extraction d’information générative
[Small, 2014] 23
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Applications
● Médecine
○ Extraction de symptômes
● Commerce
○ Extraction d’opinions des clients
● Juridique
○ Extraction des textes juridiques, des contrats
● Tourisme
○ Extraction d'événements touristiques
○ Extraction des réservations
24
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Techniques
● A base de règles
● ML-Apprentissage supervisé
● ML-Apprentissage semi supervisé
● ML-Apprentissage non supervisé
● Deep learning
● LLMs
25
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Techniques-Timeline
1990s 200Os 2012 2018
A base de règles ML a base de features DL NN DL LLMs
En utilisant des règles manuellement SVM CRF Kmeans RNN CNN Bi-LSTM BERT Llama Camabert Roberta
écrites. GPT
[Zhu et al., 2023] 26
Master ESI 2024, Extraction d’Information H. OUFAIDA,
[email protected] Tâches de l’EI
Séminaire Master
● Extraction d’entités nommées ou Named Entity Recognition NER
● Extraction de relations ou Relation Extraction RE
● Extraction de sujets
● Extraction de résumés
● Extraction d'événements ou Event Extraction EE
● Extraction d’opinion
28
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]
Bibliographie
Jurafsky, D., & Martin, J. H. (2020) Speech and Language Processing: An Introduction to Natural Language Processing, Computational
Linguistics, and Speech Recognition.,
Grishman, R. (2015). Information extraction. IEEE Intelligent Systems, 30(5), 8-15.
Singh, S. (2018). Natural language processing for information extraction. arXiv preprint arXiv:1807.02383.Cardoso, J. (2007). Developing
dynamic packaging applications using Semantic Web-based integration. In Semantic Web Technologies and E-Business: Toward the Integrated
Virtual Organization and Business Process Automation (pp. 1-39). IGI Global.
Sarawagi, S. (2008). Information extraction. Foundations and Trends® in Databases, 1(3), 261-377.
Small, S. G., & Medsker, L. (2014). Review of information extraction technologies and applications. Neural computing and applications, 25(3),
533-548.
Baviskar, D., Ahirrao, S., Potdar, V., & Kotecha, K. (2021). Efficient automated processing of the unstructured documents using artificial
intelligence: A systematic literature review and future directions. IEEE Access, 9, 72894-72936.
Zhu, Z., Wang, L., Gu, D., Wu, H., Janfada, B., & Minaei-Bidgoli, B. (2023). Is Prompt the Future?: A Survey of Evolution of Relation Extraction
Approach Using Deep Learning and Big Data. International Journal of Information Technologies and Systems Approach (IJITSA), 16(1), 1-18.
Zhang, Y., Zhong, V., Chen, D., Angeli, G., & Manning, C. D. (2017). Position-aware attention and supervised data improve slot filling.
In Conference on Empirical Methods in Natural Language Processing.
29