0% ont trouvé ce document utile (0 vote)
64 vues20 pages

Fouille de graphes et détection d'événements

Le document présente une journée de recherche sur la fouille de graphes et la détection d'événements, abordant les défis liés aux données graphes, tels que le volume, la vélocité, la variété et la véracité. Il décrit également des travaux de recherche sur la découverte de motifs dans les graphes hétérogènes, la maximisation d'influence en ligne, et les requêtes efficaces dans des graphes incertains. Enfin, il souligne l'importance de ces recherches pour résoudre des problèmes pratiques dans divers domaines.

Transféré par

Walida BOUSSOUF
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
64 vues20 pages

Fouille de graphes et détection d'événements

Le document présente une journée de recherche sur la fouille de graphes et la détection d'événements, abordant les défis liés aux données graphes, tels que le volume, la vélocité, la variété et la véracité. Il décrit également des travaux de recherche sur la découverte de motifs dans les graphes hétérogènes, la maximisation d'influence en ligne, et les requêtes efficaces dans des graphes incertains. Enfin, il souligne l'importance de ces recherches pour résoudre des problèmes pratiques dans divers domaines.

Transféré par

Walida BOUSSOUF
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Fouille de graphes

et détection d’évènements
Pierre Senellart

2 octobre 2015, Journée de la Chaire Big Data & Market Insights


Données graphes
Un graphe c’est :
un ensemble de nœuds (ou sommets)
un ensemble d’arêtes (ou liens), chacune
reliant deux de ces nœuds

   Variantes :
Les arêtes peuvent être orientées ou non
orientées
Les nœuds ou arêtes peuvent être étiquetées
0.5 par un identifiant, un nom, une chaîne de
1 2 3 caractères
0.8 0.2 0.4 Les nœuds ou arêtes peuvent être pondérés
4 5 6 par un entier, un nombre décimal
Les arêtes multiples entre deux mêmes
nœuds ou non

PAGE 2 / 20 Chaire BD&MI Pierre Senellart


Données modélisées par des graphes

nœud arête
réseau social individu connexion, amitié, suiveur. . .
Internet ordinateur, routeur connexion filiaire ou sans fil
Web page Web hyperlien
Web sémantique concept, valeur fait
réseau ferroviaire gare connexion
réseau routier intersection segment de route
transactions compte bancaire transfert
métabolisme protéine interaction métabolique
cerveau neurone connexion

PAGE 3 / 20 Chaire BD&MI Pierre Senellart


Défis des données graphes

Les mêmes que les Big Data en général :


Volume : très grand nombre de nœuds ou d’arêtes rendant
nécessaire l’utilisation d’algorithmes très efficaces
(linéaires ou quasi-linéaires en la taille du graphe), ou la
distribution
Vélocité : certains graphes évoluent très rapidement, des nœuds ou
arêtes apparaissant ou disparaissant continûment
Variété : hétérogénéité des liens entre nœuds, différences de
structure d’un graphe à un autre
Véracité : incertitude sur les pondérations ou les annotations d’un
graphe

PAGE 4 / 20 Chaire BD&MI Pierre Senellart


Types de problèmes à résoudre
requêtes de chemin ou de distance
Quel est le chemin le plus court de Pau à Grenoble dans le
graphe de la SNCF ?
identification de communauté ou de nœuds centraux
Quels sont les individus influents sur Twitter dans le domaine
des cosmétiques ?
fiabilité
Quelle est la robustesse du sous-réseau Internet du
gouvernement face à des attaques par déni de service ?
recherche de motifs intéressants
Quels comptes bancaires reçoivent-ils des transferts dont les
caractéristiques les rendent remarquables (et suspects) ?
etc.
PAGE 5 / 20 Chaire BD&MI Pierre Senellart
Dans cet exposé

Vue d’ensemble de trois travaux de recherche conduits à Télécom


ParisTech :
Découverte de motifs dans les graphes hétérogènes
(avec C. Meng, R. Cheng, S. Maniu, U. Hong Kong ; WWW 2015)
Maximisation d’influence en ligne
(avec S. Lei, S. Maniu, L. Mo, R. Cheng, U. Hong Kong ; KDD 2015)
Requêtes efficaces dans des graphes incertains
(avec M. Monet)

Zoom sur un quatrième travail d’une doctorante de la chaire :


Détection d’événèments dans les graphes
(O. Balalau ; WSDM 2015)

PAGE 6 / 20 Chaire BD&MI Pierre Senellart


Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

PAGE 7 / 20 Chaire BD&MI Pierre Senellart


Problème

Trouver des paires de nœuds de ce


graphe qui sont similaires à la paire
(« B. Obama », « M. Obama »).

PAGE 8 / 20 Chaire BD&MI Pierre Senellart


Approche

Trouver des méta-chemins de longueur non bornée dans un


métagraphe de types qui relient la paire exemple pairs :

Person ! Person
marriedTo

! University ! Person
1
graduateOf graduateOf
Person

Énumérer efficacement les méta-chemins dans un ordre glouton, les


plus prometteurs d’abord, en s’appuyant sur une structure d’index
Raffiner avec les types de nœuds

PAGE 9 / 20 Chaire BD&MI Pierre Senellart


Résultats

Utilisé pour la prédiction de liens dans divers réseaux hétérogènes

Fonctionne mieux que les approches classiques basées sur le fait de


borner la longueur d’un chemin
Reste efficace

PAGE 10 / 20 Chaire BD&MI Pierre Senellart


Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

PAGE 11 / 20 Chaire BD&MI Pierre Senellart


Problème

Trouver les utilisateurs les plus influents dans un réseau social, en


lançant des campagnes de marketing et en en observant le résultat
Le but est d’avoir touché le plus grand nombre d’individu
On ne connaît pas la probabilité qu’un utilisateur va influencer un
autre

PAGE 12 / 20 Chaire BD&MI Pierre Senellart


Approche

Uncertain Influence Graph Choose Seeds Real World


PDF
Seed
1 X Heuristic
Nodes
follow follow
2 4 Explore‐Exploit (EE)
follow follow
Feedback
3

Update Graph
Selection Phase Action Phase

Maintenir une connaissance partielle du monde sous la forme d’un


graphe probabiliste 0.5
1
0.5
0.2
2 4
Mettre à jour cette connaissance du monde en observant le
0.1 0.9

résultat de la campagne de marketing 3

Décider de la prochaine campagne en explorant le monde ou en


exploitant la connaissance partielle du monde
PAGE 13 / 20 Chaire BD&MI Pierre Senellart
Résultats

PAGE 14 / 20 Chaire BD&MI Pierre Senellart


Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

PAGE 15 / 20 Chaire BD&MI Pierre Senellart


Problème
On se donne un graphe avec des probabilités sur les arêtes
(probabilité qu’une connexion Internet soit fonctionnelle,
distribution de probabilité sur les temps de trajet dans un réseau
de transport, etc.)
On pose une requête sur ce graphe probabiliste (quelle est la
probabilité que ce graphe soit connexe ? quelle est la probabilité
que j’arrive à mon domicile en moins d’une heure ?)
Même pour une modélisation très simple et des requêtes très
#
simple, ce problème est P-difficile : aucun espoir de le résoudre
en temps raisonnable
Mais les graphes du monde réel ne sont pas arbitraires, certains
ont une faible largeur d’arbre et peuvent êtres « décomposés en
arbres »
PAGE 16 / 20 Chaire BD&MI Pierre Senellart
Approche

Instance I Encodage
de treewidth O(EXP(k).|I|) d’arbre
≤k T

O(|A|.|I|)

Query q, Automate
O(f(q,k))
int k A

Circuit de
Provenance
C

PAGE 17 / 20 Chaire BD&MI Pierre Senellart


Résultats

Significativement plus rapide que MayBMS, un système de gestion de


données probabilistes, pour certaines requêtes (celles qui ne se prêtent
pas à des optimisations) et certains jeux de données (ceux avec faible
largeur d’arbre)

PAGE 18 / 20 Chaire BD&MI Pierre Senellart


Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

PAGE 19 / 20 Chaire BD&MI Pierre Senellart

Vous aimerez peut-être aussi