0% ont trouvé ce document utile (0 vote)
20 vues47 pages

RE-Relation Extraction 2024

Le document présente un cours sur l'extraction d'information, en se concentrant sur les méthodes d'extraction des relations. Il aborde divers types de méthodes, y compris celles basées sur des règles, supervisées, faiblement supervisées et non supervisées, ainsi que leurs avantages et limitations. Des exemples pratiques et des approches hybrides sont également discutés pour illustrer les concepts d'extraction de relations.

Transféré par

anissbessalah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues47 pages

RE-Relation Extraction 2024

Le document présente un cours sur l'extraction d'information, en se concentrant sur les méthodes d'extraction des relations. Il aborde divers types de méthodes, y compris celles basées sur des règles, supervisées, faiblement supervisées et non supervisées, ainsi que leurs avantages et limitations. Des exemples pratiques et des approches hybrides sont également discutés pour illustrer les concepts d'extraction de relations.

Transféré par

anissbessalah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master ESI 2024, Extraction d’Information H. OUFAIDA, h_oufaida@esi.

dz

Extraction d’information

Cours 03-Extraction des Relations

1
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Plan du cours

1. Le problème
2. Définitions
3. Méthodes basées sur les règles
4. Méthodes supervisées
5. Méthodes faiblement supervisées
6. Méthodes non supervisées
7. Evaluation
8. LAB 02 : RE

2
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Le problème

Supposons qu’on veut connaître la liste des


médicaments utilisés pour le traitement de la grippe? ou
bien connaître les matériaux utilisés pour la construction
d’une maison de la vallée du Mzab?

3
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Le problème

4
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Le problème

[Ouahab et Cherrad, 2021]


5
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Le problème

[Jurafsky & Martin, 2020]


6
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Le problème

Source: https://www.nlm.nih.gov/research/umls/presentations/2004-medinfo_tut.pdf 7
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Définitions

● L’extraction de relations consiste à trouver et classer la relation sémantique


entre les entités mentionnées dans un texte, comme par exemple enfant-de (X ,
est l'enfant-de, Y) [Jurafsky et Martin, 2020]
● Une relation r peut être définie par un tuple t=(e1,e2,....,en) où ei sont des
entités participantes à une relation prédéfinie dans un domaine D[Bach et al.,
2007]
● Une relation peut aussi être représentée sous la forme d’un triplet (Sujet,
prédicat, objet) dans le méta langage RDF [Jurafsky et Martin, 2020] comme par
exemple (“Oufaida”, enseigne_a , “ESI”)

8
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

MindMap des méthodes RE

9
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Méthodes basées sur les règles

● Les premiers systèmes RE sont basés sur des règles manuellement écrites
● Une règle utilise les propriétés lexicales et syntaxiques du voisinage des
termes
● Les règles sont sous forme d’expressions régulières ou de patrons
spécifiques
● Nécessite au préalable l’extraction des entités nommées qui sont souvent
sujet ou objet des relations à extraire
● Requiert une intervention humaine des experts du domaine

10
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples de règles

● Extraction d’hyponymes i-e relations de type IS-A

[Hearst, 1992] 11
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Exemples de règles

[Ouahab et Cherrad, 2021]


12
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Avantages

➔ Résultats d’extraction très précis


➔ Adaptées aux domaines spécifiques
➔ Langues peu dotées de ressources

13
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Limitations

➔ Rappel réduit
➔ Requiert une expertise humaine
➔ Difficile de généraliser aux autres domaines
➔ Evolution du vocabulaire
➔ Nécessité de prendre en compte les spécificités de chaque
langue: l’arabe, l’amazigh par exemple

14
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

MindMap des méthodes RE

15
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML pour RE

16
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Labeled data

SemEval 2010 dataset [Hendrickx et al., 2010]


17
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Labeled data

SemEval 2010 dataset [Hendrickx et al., 2010]


18
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Labeled data TACRED

TACRED 2017 dataset [Zhang et al., 2017]


19
Source: https://nlp.stanford.edu/projects/tacred/
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Labeled data TACRED

TACRED 2017 dataset [Zhang et al., 2017]


20
Source: https://nlp.stanford.edu/projects/tacred/
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Labeled data TACRED

TACRED 2017 dataset [Zhang et al., 2017]


21
Source: https://nlp.stanford.edu/projects/tacred/
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Feature Extraction

● Caractériser les propriétés des mots se trouvant entre les deux


arguments de la relation i-e les deux entités
● Features appartenant à différents niveaux d’analyse du texte:
○ Lexical: les deux premiers mots , n-grammes des deux entités ,
mots précédents et suivants, n-grammes des mots entre les
deux entités, etc.
○ NER : labels des deux entités, concaténation des deux labels,
labels des entités au milieu,
○ Syntaxique: POS des deux entités , chemin POS au milieu, arbre
syntaxique au milieu, etc.
○ Sémantique: embeddings, etc.
22
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Classification des relations

[Jurafsky & Martin, 2020]


23
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Maximum Entropy Classifier


● Classifieur : MaxEnt Dataset: ACE 2004
● Features:

[Kambhatla et al., 2004]


24
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches supervisées ML-Limitations

● Feature engineering par des experts


● Nécessité d’avoir de larges corpus annotés
● L’annotation est coûteuse
● Les modèles ne sont pas facilement généralisables à
d’autres domaines
● Modèles utilisés pour des données très différentes des
données d'entraînement

25
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

MindMap des méthodes RE

27
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML semi supervisées

28
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML semi supervisées

➢ Réduire la dépendance au domaine/exemples d’apprentissage


➢ Améliorer la généralisation des modèles entraînés
➢ Usage de caractéristiques automatiquement extraites à partir des
données brutes
➢ Généralisation du contexte des relations déjà identifiées dans la
labeled data
➢ Trouver de nouvelles relations à partir des données brutes en prenant
les relations dans la labeled data comme graines (seed patterns)

29
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-Bootsrapping

[Jurafsky & Martin, 2020]


30
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-SnowBall Algorithm

[Agichtein et Gravano, 2000]


31
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-SnowBall Algorithm Termes du contexte à gauche, à


droite et au mileu plus les tags
des entités

➢ Snowball tupple <left L, tag1; middle M, tag2, right R>


➢ Pour chaque String S dans les données brutes, rechercher son meilleur match
dans la liste des tuples P
○ Match (tp, tS)=Lp*Ls+Mp*Ms+Rp*Rs si les tags sont identiques/ 0 sinon
➢ Générer les nouveaux patterns d’extraction
➢ Appliquer ces nouveaux patterns pour trouver d’autres tuples de relations
➢ Retenir les tuples dont le score de confiance est élevé

[Jurafsky & Martin, 2020][Agichtein et Gravano, 2000]


32
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches ML-SnowBall Algorithm-Exemple

Seed sentence Ryanair has a hub at Charleroi

Seed pattern [ORG] has a hub at [LOC]

Match sentences 1. Budget airline Ryanair, which uses Charleroi as a hub,


scrapped all weekend flights out of the airport.
2. All flights in and out of Ryanair’s hub at Charleroi airport
were grounded on Friday...
3. A spokesman at Charleroi, a main hub for Ryanair,
estimated that 8000 passengers had already been
affected.

Generated patterns 1. / [ORG], which uses [LOC] as a hub /


2. / [ORG]'s hub at [LOC] /
3. / [LOC], a main hub for [ORG] /

[Jurafsky & Martin, 2020][Agichtein et Gravano, 2000]


33
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches DL-BERT pour la RE

Sentence
embeddings

[Jurafsky & Martin, 2020] 35


Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approches DL-Joint RE-NER

[Bekoulis et al., 2018] 36


Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

MindMap des méthodes RE

38
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

OpenIE-Méthodes non supervisées

● Apprendre à partir de larges corpus de données non


étiquetées
● Pas besoin d’avoir des exemples de tuples de relations
● Les patterns sont automatiquement extraits à partir du
texte brut
● Les relations sont des suites de mots commençants par
des verbes

39
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

OpenIE-Méthodes non supervisées [Ouahab et Cherrad, 2021]

Critères Extraction d’information Extraction d’information


ouverte

Domaine cible spécifique (ontologie du Domaine général


domaine, lexiques du
domaine, etc.)

Type d’apprentissage Supervisé Non supervisé

Dataset en entrée Oui, annotées Non


manuellement en général

Taille du corpus Petit/Moyen Très volumineux


d’apprentissage

Performance Elevée Moyenne

Langue Une seule langue Multilingue 40


Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

OpenIE-Méthodes non supervisées-ReVerb

Algorithme d’extraction de relations


Pour chaque phrase S:
1. Effectuer une analyse POS et identifier les syntagmes nominaux
2. Pour chaque verbe dans S, trouver la séquence de mots la plus
longue w qui commence par ce verbe et respecte les contraintes
lexicales et syntaxiques
3. Pour chaque séquence w , trouver à gauche et à droite les syntagmes
nominaux x , y respectivement qui n’est pas un pronom, wh-word ou
“there”
4. Assigner un score de confiance à la relation r=(x,w,y)

[Fader et al.,, 2011]-


41
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approche hybride-Distant supervision

● Ne requiert pas de données annotées


● Combine entre les avantages des approches supervisées
et non supervisées
● Utilise de larges ressources sémantiques comme
WikiPedia (générale) pour remplacer les données
étiquetées
● Extraire automatiquement les relations et leurs types
● Définir des mesures pour réduire le bruit

[Mintz et al.,, 2009]-


43
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approche hybride-Distant supervision

[Jurafsky & Martin, 2020]


44
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Approche hybride-Distant supervision-Exemple DBPedia

Source: https://nausheenfatma.wordpress.com/2017/05/31/gsoc-2017-knowledge-base-embeddings-for-dbpedia/ 45
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Métriques d'évaluation-Approches supervisées

● Tâche ML: Classification multi classes


● Pour chaque classe:
○ Matrice de confusion
○ Précision, rappel, F1 score, Exactitude

46
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Métriques d'évaluation-Approches supervisées

● Pour chaque classe

Source:https://towardsdatascience.com/confusion-matrix-for-your-multi-class-machine-learning-model-ff9aa3bf7826 47
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Métriques d'évaluation-Approches supervisées

● Score global: combiner les scores des classes:


○ Macro: moyenne des scores P,R et F1-Score
○ Weighted: moyenne pondérées par la proportion de chaque
classe des scores P,R ET F1-Score
○ Accuracy global
○ Micro: micro P, micro R et micro F1-Score

Source:https://towardsdatascience.com/confusion-matrix-for-your-multi-class-machine-learning-model-ff9aa3bf7826 48
Master ESI 2024, Extraction d’Information H. OUFAIDA, [email protected]

Métriques d'évaluation-Approches semi et non


supervisées

● Prendre des exemples de textes annotées


● Calculer la précision sur ces exemples

P=# relations correctes/# total de relations extraites

[Jurafsky & Martin, 2020]


49
Master ESI 2023, Extraction d’Information H. OUFAIDA, [email protected]

Questions?

50
Master ESI 2023, Extraction d’Information H. OUFAIDA, [email protected]

Bibliographie
Bach, N., & Badaskar, S. (2007). A review of relation extraction. Literature review for Language and Statistics II, 2, 1-15.

Hearst, M. A. (1992). Automatic acquisition of hyponyms from large text corpora. In COLING 1992 Volume 2: The 14th International Conference on Computational
Linguistics.

Hendrickx, I., Kim, S. N., Kozareva, Z., Nakov, P., Séaghdha, D. Ó., Padó, S., ... & Szpakowicz, S. (2010, July). SemEval-2010 Task 8: Multi-Way Classification of
Semantic Relations between Pairs of Nominals. In Proceedings of the 5th International Workshop on Semantic Evaluation (pp. 33-38).
Kambhatla, N. (2004, July). Combining lexical, syntactic, and semantic features with maximum entropy models for information extraction. In Proceedings of the ACL
interactive poster and demonstration sessions (pp. 178-181).

Pawar, S., Palshikar, G. K., & Bhattacharyya, P. (2017). Relation extraction: A survey. arXiv preprint arXiv:1712.05191.

Agichtein, E., & Gravano, L. (2000, June). Snowball: Extracting relations from large plain-text collections. In Proceedings of the fifth ACM conference on Digital libraries
(pp. 85-94).

Bekoulis, G., Deleu, J., Demeester, T., & Develder, C. (2018). Joint entity recognition and relation extraction as a multi-head selection problem. Expert Systems with
Applications, 114, 34-45.
Fader, A., Soderland, S., & Etzioni, O. (2011, July). Identifying relations for open information extraction. In Proceedings of the 2011 conference on empirical methods in
natural language processing (pp. 1535-1545).
Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009, August). Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of
the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP (pp. 1003-1011).
Sainz, O., de Lacalle, O. L., Labaka, G., Barrena, A., & Agirre, E. (2021, November). Label Verbalization and Entailment for Effective Zero and Few-Shot Relation
Extraction. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 1199-1212).
Zhang, Y., Zhong, V., Chen, D., Angeli, G., & Manning, C. D. (2017). Position-aware attention and supervised data improve slot filling. In Conference on Empirical
Methods in Natural Language Processing.
52

Vous aimerez peut-être aussi