0% ont trouvé ce document utile (0 vote)

34 vues60 pages

Cours SwarmIntelligence BigData PlateForme

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

34 vues60 pages

Cours SwarmIntelligence BigData PlateForme

Transféré par

diddy

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Présenté par : Mme Mohamed Ben Ali

1
Big Data
Enjeux du Big data

2
Big Data fait référence aux vastes quantités
Big Data
d’informations qui proviennent de différentes sources.

Ce n’est pas qu’une question de masse

d’informations: Mais, de différents types de data
délivrées à différentes vitesses et fréquences.

3 Dimensions
Qualité des Données
 Le volume: lié aux multiples sources de production des données. Qu'il s'agisse de données d'entreprises, de
données publiques, de données issues de transactions, de données produites par des capteurs automatisés,
des objets connectés ou publiées sur les médias sociaux, ces informations sont toujours collectées et stockées
sur des supports numériques sous forme de fichiers binaires. Leur volume est donc facilement calculable.
 La variété résulte des sources de données hétérogènes, souvent non ou peu structurées (données de
capteurs, données de géolocalisation, sons, vidéos, textes,...). Cette variété a motivé la construction de
systèmes capables de « gérer » la non structuration (NoSql, Hadoop,...) tout en assurant une meilleure
répartition de la charge des volumes sur l'infrastructure de calcul.
 La vélocité intervient dans les contextes de données en mouvement, de « data streaming » et de traitement
temps réel de ces données. Elle est liée à la vitesse de production de la source, au flux, au débit et à la vitesse
de collecte du système. Ici encore, la vélocité est une grandeur facilement mesurable.
 La visibilité des données dépend fortement du support de stockage, et de l'efficacité des algorithmes de
collecte et autres crawler . On pourrait compléter ces quatre premiers V par celui de la variabilité de la
donnée dans certains contextes. Cette variabilité s'exprime pour des données dont le contenu évolue dans le
temps et l'espace. Ces évolutions produisent alors de nouvelles données indicées par le temps.
 Les deux derniers V désignent la valeur et la véracité d'une donnée, des qualités beaucoup plus complexes à
définir et à mesurer que les quatre premières.
 La valeur recouvre en effet plusieurs spectres nécessitant chacun une analyse spécifique. On parlera ainsi de
valeur d'impact sur un contexte, de valeur de modélisation, de valeur de prédiction, de valeur de
management, de valeur économique ou de revente.
 La véracité conditionne quant à elle directement la pertinence de la donnée. Si des données incertaines
peuvent être traitées au même titre que des données « certifiées », leur interprétation dans le cadre de fausses
données peut engendrer de fortes turbulences sur l'ensemble des systèmes associés et provoquer des sinistres
conséquents lorsque des décisions sont prises sur la base de cette interprétation. En fait, il n'existe pas de
valeur « absolue » d'une donnée mais plutôt des valeurs relatives à un contexte d’interprétation, à un instant
4donné.
Nouveaux
Métiers du
Big Data

5
Nouveaux
Métiers du
Big Data

6
Nouveaux
Métiers
du Big
Data

7
Big Data
Typologies

SMART
DATA

OPEN
DATA

8
Big Data
1

9
Relation entre les challenges en optimisation
d’ingénierie Complexe et la nature du Big data

10
Challenges Big Data
Ce n’est pas un problème dû aux
Génération des nombreuses sources : Réseau de
Données et Capteurs, achat de clients, données
Acquisition astronomiques, messages texte, etc.
Challenge = identifier les données
intéressantes à générer

Développement de technologies
allant avec les spécificités du Big
Stockage data (oublier SGBD relationnelles)
des Spécificités: Scalabilité (adaptation
Données à l’échelle des infrastructures),
données non structurées, vélocité
incluant l’acquisition asynchrone
des données. Résultat: BD non-
relationnelles / NoSQL et le modèle
à paires de (clé, valeur).
Analyse
des Créer ou Adapter les outils de
Données
data mining au profit du Big
Data. Analyse complexe pour
découvrir de nouveaux patterns.

11
Analyse des Données Massives et Métaheuristiques
Quelle association ?
• Problèmes grandes • Donnée temps réel (Mise à jour),
échelle (Large scale), métaheuristiques sont des
High dimensionnalité, méthodes anytime (proposent
Nature parallélisable rapidement des solutions) pour
des environnements
dynamiques.

Volume Vélocité
Métaheuristiques
basées - fonction
objective - ce qui
Valeur Variété Véracité permet d’extraire
la connaissance la
plus pertinente.

• Vu la nature des données

• Métaheuristiques encodent
incertaines/incomplètes
différents types de données
(bruit), les métaheuristiques
ce qui permet d’analyser
peuvent impliquer des
jointement des données de
processus stochastiques pour
diverses sources
approximer des données
incertaines.
12
Quand et Comment intégrer les
métaheuristiques en Big data ?

Vision1:
Augmenter
Modèles Data
Mining par
Métaheuristiques

Vision2:
Vision3:
Parallélisation de
Métaheuristiques Modéliser
Métaheuristique en tant que
Framework Parallèle
« MapReduce »

13
Quand et Comment intégrer les
métaheuristiques en Big data ?
Découverte des Connaissances en Big
Data (KDD)

Problèmes
d’Optimisation Tâches Data Mining

Classification/ Sélection de
Clustering caractéristiques
Régression (classification non
Règles
supervisée) d’association
1. Construire un modèle 4. Réduire l’espace des
prédiction et prédire une 2. Partitionner ensemble attributs, recherche et
valeur de variable cible. 3. Elles fournissent le moyen de complexité de calcul
des données en classes ou
présenter corrélations ou
groupes d’observations
autres relations entre attributs
similaires
exprimées

AC

14
Quand et Comment intégrer les
métaheuristiques en Big data ?
Quatre problèmes pertinents Règles
existent en Data Mining associatives

Sélection de
Classification
caractéristiques

Clustering

Parallélisasion ou
Adaptation des
métaheuristiques

Quatre problèmes de Data Mining

deviennent des problèmes
d’optimisation

15
Parallélisasion
de l’ Algorithme K-Means
Basé MapReduce
1. Algorithme K-Means

 Tout d'abord, il sélectionne aléatoirement k objets

parmi les objets entiers qui représentent les centres
de cluster initiaux.
Algorithme K-Means

 Chaque objet restant est affecté au cluster auquel il

se rapproche le plus, en fonction de la distance entre
l'objet et le centre du cluster.
1. Algorithme K-Means

 La nouvelle moyenne pour chaque cluster est

ensuite calculée. Ce processus itère jusqu'à ce
que la fonction critère converge.
2. Algorithme K-Means parallèle
basés MapReduce

 Basé sur MapReduce, le calcul le plus intensif est le

calcul des distances.
 chaque itération nécessite une distance nk.
2. Algorithme K-Means parallèle
basés MapReduce

 les calculs de distance entre un objet avec les

centres sont sans importance pour les calculs de
distance entre d'autres objets avec les centres
correspondants.

 les calculs de distance entre différents objets avec

des centres peuvent être exécutés en parallèle.
2. Algorithme K-Means parallèle
basés MapReduce

data

Nœud 1

Nœud 2
2. Algorithme K-Means parallèle
basés MapReduce

Choix de
2 centres aléatoires
2. Algorithme K-Means parallèle
basés MapReduce

 Nœud 1

 Nœud 2
2. Algorithme K-Means parallèle
basés MapReduce

Nœud 1

  
Nœud 2

   
2. Algorithme K-Means parallèle
basés MapReduce

  affecter à
2. Algorithme K-Means parallèle
basés MapReduce