0% ont trouvé ce document utile (0 vote)
34 vues60 pages

Cours SwarmIntelligence BigData PlateForme

Transféré par

diddy
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues60 pages

Cours SwarmIntelligence BigData PlateForme

Transféré par

diddy
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Présenté par : Mme Mohamed Ben Ali

1
Big Data
Enjeux du Big data

2
Big Data fait référence aux vastes quantités
Big Data
d’informations qui proviennent de différentes sources.

Ce n’est pas qu’une question de masse


d’informations: Mais, de différents types de data
délivrées à différentes vitesses et fréquences.

3 Dimensions
Qualité des Données
 Le volume: lié aux multiples sources de production des données. Qu'il s'agisse de données d'entreprises, de
données publiques, de données issues de transactions, de données produites par des capteurs automatisés,
des objets connectés ou publiées sur les médias sociaux, ces informations sont toujours collectées et stockées
sur des supports numériques sous forme de fichiers binaires. Leur volume est donc facilement calculable.
 La variété résulte des sources de données hétérogènes, souvent non ou peu structurées (données de
capteurs, données de géolocalisation, sons, vidéos, textes,...). Cette variété a motivé la construction de
systèmes capables de « gérer » la non structuration (NoSql, Hadoop,...) tout en assurant une meilleure
répartition de la charge des volumes sur l'infrastructure de calcul.
 La vélocité intervient dans les contextes de données en mouvement, de « data streaming » et de traitement
temps réel de ces données. Elle est liée à la vitesse de production de la source, au flux, au débit et à la vitesse
de collecte du système. Ici encore, la vélocité est une grandeur facilement mesurable.
 La visibilité des données dépend fortement du support de stockage, et de l'efficacité des algorithmes de
collecte et autres crawler . On pourrait compléter ces quatre premiers V par celui de la variabilité de la
donnée dans certains contextes. Cette variabilité s'exprime pour des données dont le contenu évolue dans le
temps et l'espace. Ces évolutions produisent alors de nouvelles données indicées par le temps.
 Les deux derniers V désignent la valeur et la véracité d'une donnée, des qualités beaucoup plus complexes à
définir et à mesurer que les quatre premières.
 La valeur recouvre en effet plusieurs spectres nécessitant chacun une analyse spécifique. On parlera ainsi de
valeur d'impact sur un contexte, de valeur de modélisation, de valeur de prédiction, de valeur de
management, de valeur économique ou de revente.
 La véracité conditionne quant à elle directement la pertinence de la donnée. Si des données incertaines
peuvent être traitées au même titre que des données « certifiées », leur interprétation dans le cadre de fausses
données peut engendrer de fortes turbulences sur l'ensemble des systèmes associés et provoquer des sinistres
conséquents lorsque des décisions sont prises sur la base de cette interprétation. En fait, il n'existe pas de
valeur « absolue » d'une donnée mais plutôt des valeurs relatives à un contexte d’interprétation, à un instant
4donné.
Nouveaux
Métiers du
Big Data

5
Nouveaux
Métiers du
Big Data

6
Nouveaux
Métiers
du Big
Data

7
Big Data
Typologies

SMART
DATA

OPEN
DATA

8
Big Data
1

9
Relation entre les challenges en optimisation
d’ingénierie Complexe et la nature du Big data

10
Challenges Big Data
Ce n’est pas un problème dû aux
Génération des nombreuses sources : Réseau de
Données et Capteurs, achat de clients, données
Acquisition astronomiques, messages texte, etc.
Challenge = identifier les données
intéressantes à générer

Développement de technologies
allant avec les spécificités du Big
Stockage data (oublier SGBD relationnelles)
des Spécificités: Scalabilité (adaptation
Données à l’échelle des infrastructures),
données non structurées, vélocité
incluant l’acquisition asynchrone
des données. Résultat: BD non-
relationnelles / NoSQL et le modèle
à paires de (clé, valeur).
Analyse
des Créer ou Adapter les outils de
Données
data mining au profit du Big
Data. Analyse complexe pour
découvrir de nouveaux patterns.

11
Analyse des Données Massives et Métaheuristiques
Quelle association ?
• Problèmes grandes • Donnée temps réel (Mise à jour),
échelle (Large scale), métaheuristiques sont des
High dimensionnalité, méthodes anytime (proposent
Nature parallélisable rapidement des solutions) pour
des environnements
dynamiques.

Volume Vélocité
Métaheuristiques
basées - fonction
objective - ce qui
Valeur Variété Véracité permet d’extraire
la connaissance la
plus pertinente.

• Vu la nature des données


• Métaheuristiques encodent
incertaines/incomplètes
différents types de données
(bruit), les métaheuristiques
ce qui permet d’analyser
peuvent impliquer des
jointement des données de
processus stochastiques pour
diverses sources
approximer des données
incertaines.
12
Quand et Comment intégrer les
métaheuristiques en Big data ?

Vision1:
Augmenter
Modèles Data
Mining par
Métaheuristiques

Vision2:
Vision3:
Parallélisation de
Métaheuristiques Modéliser
Métaheuristique en tant que
Framework Parallèle
« MapReduce »

13
Quand et Comment intégrer les
métaheuristiques en Big data ?
Découverte des Connaissances en Big
Data (KDD)

Problèmes
d’Optimisation Tâches Data Mining

Classification/ Sélection de
Clustering caractéristiques
Régression (classification non
Règles
supervisée) d’association
1. Construire un modèle 4. Réduire l’espace des
prédiction et prédire une 2. Partitionner ensemble attributs, recherche et
valeur de variable cible. 3. Elles fournissent le moyen de complexité de calcul
des données en classes ou
présenter corrélations ou
groupes d’observations
autres relations entre attributs
similaires
exprimées

AC

14
Quand et Comment intégrer les
métaheuristiques en Big data ?
Quatre problèmes pertinents Règles
existent en Data Mining associatives

Sélection de
Classification
caractéristiques

Clustering

Parallélisasion ou
Adaptation des
métaheuristiques

Quatre problèmes de Data Mining


deviennent des problèmes
d’optimisation

15
Parallélisasion
de l’ Algorithme K-Means
Basé MapReduce
1. Algorithme K-Means

 Tout d'abord, il sélectionne aléatoirement k objets


parmi les objets entiers qui représentent les centres
de cluster initiaux.
Algorithme K-Means

 Chaque objet restant est affecté au cluster auquel il


se rapproche le plus, en fonction de la distance entre
l'objet et le centre du cluster.
1. Algorithme K-Means

 La nouvelle moyenne pour chaque cluster est


ensuite calculée. Ce processus itère jusqu'à ce
que la fonction critère converge.
2. Algorithme K-Means parallèle
basés MapReduce

 Basé sur MapReduce, le calcul le plus intensif est le


calcul des distances.
 chaque itération nécessite une distance nk.
2. Algorithme K-Means parallèle
basés MapReduce

 les calculs de distance entre un objet avec les


centres sont sans importance pour les calculs de
distance entre d'autres objets avec les centres
correspondants.

 les calculs de distance entre différents objets avec


des centres peuvent être exécutés en parallèle.
2. Algorithme K-Means parallèle
basés MapReduce

data

Nœud 1

Nœud 2
2. Algorithme K-Means parallèle
basés MapReduce

Choix de
2 centres aléatoires
2. Algorithme K-Means parallèle
basés MapReduce

 Nœud 1

 Nœud 2
2. Algorithme K-Means parallèle
basés MapReduce

Nœud 1

  
Nœud 2

   
2. Algorithme K-Means parallèle
basés MapReduce

  affecter à
2. Algorithme K-Means parallèle
basés MapReduce

temporaire pour calculer le nouveau centre


2. Algorithme K-Means parallèle
basés MapReduce

Nœud 1


2. Algorithme K-Means parallèle
basés MapReduce

Nœud 1


Nœud 2


2. Algorithme K-Means parallèle
basés MapReduce

Nœud 1


2. Algorithme K-Means parallèle
basés MapReduce


2. Algorithme K-Means parallèle
basés MapReduce

temporaire pour calculer le nouveau centre de


gravité, les objets, le nombre d'objets
2. Algorithme K-Means parallèle
basés MapReduce


2. Algorithme K-Means parallèle
basés MapReduce


2. Algorithme K-Means parallèle
basés MapReduce



2. Algorithme K-Means parallèle
basés MapReduce


2. Algorithme K-Means parallèle
basés MapReduce

Mettre à jour le nouveau centre et la prochaine


itération jusqu'à ce qu'ils convergent ou on parvienne
au nombre d'itérations.
Calcul Distribué utilisant Hadoop

Architecture du cluster Hadoop montrant les nœuds de calcul distribués qui sont
Master Node, (NameNode), Slaves Nodes (DataNode), et le switch Ethernet.

38
39
Métaheuristiques Parallèles mais encore!...
Question: Comment peut-on exploiter réellement les
caractéristiques parallèles d’une métaheuristique
telle que un Algorithme génétique?

1. Utilisation d’une infrastructure de calcul


distribué et traitement de données à large
échelle tel que le Système Cloud.

2. Utilisation Apache Hadoop


plateforme : Framework elephant56.
Cette appélation provient de 2 idées:
 elephant. pour la plateforme Hadoop
 56 pour le nombre de chromosomes dans le génotype d’un
éléphant.
40
Modèle d’Inspiration AG Parallèle
pour MapReduce (1)

Il existe dans ce modèle trois niveaux de parallélisme.

1. Niveau Evaluation Fitness (modèle de parallélisasion global).


Le nœud master gère la population et calcule toutes le
fonctions AG. Evaluation fitness est calculée par les nœuds
esclaves.

41
Modèle d’Inspiration AG Parallèle
pour MapReduce (2)

2. Niveau Population (coarse-grained parallelization model ou


Island model). La population est divisée en îlots et l’AG est
exécuté indépendamment pour chacun. Périodiquement, les
îlots échangent des informations par migration d’individus.

42
Modèle d’Inspiration AG Parallèle
pour MapReduce (3)

3. Niveau Individu (fine-grained parallelization model ou


Grid model). Chaque individu est placée sur la grille et les
opérations sont exécutées en parallèle en évaluant
simultanément la fitness et en appliquant la sélection est
uniquement limitée au voisinage adjacent le plus petit.

43
44
Hadoop MapReduce Framwork

45
: A chaque génération, la population d’individus est décomposée
en m blocs, le Master Node propage m individus à chaque Slave Node dans le
cluster. Chaque Mapper évalue la fitness de chaque individu et renvoie la valeur au
Master Node. Le Master Node exécute les opérations de sélection, de crossover et
de mutation sur la population déjà évaluée.

46
 On applique les opérateurs génétiques uniquement à des portions de la population
appelées «Destinations». Les portions sont choisies aléatoirement à chaque génération.
Master Node génère une séquence aléatoire (nombre de destinations, et individus par
destination). Le « 0» représente les individus n’appartenant pas au pool de reproduction.
 Chaque mapper évalue sa sous population. N peut représenter le nombre de
destinations. On a N+1 Reducer avec la destination N+1 =«0».
Uniquement les individus appartenant aux destinations de rang >0 sont changés.
47
A la sortie des Reducers la nouvelle population est reconstruite et écrite dans HDFS.
48
All
Master Node/ Map1
Particles1
Driver Input
Generate Read All
swarm of Particles
Map2 Reduce
particles Particles2
files
and write
in HDFS …
….
Key: Gbest,Value:
List(Gbest1,
All Gbest2,..Gbestn)
Mapn
Particlesn

Key: Gbest,Value: Gbesti

First Version: All nodes of Hadoop cluster


work on the entire population. Mappers
take the complete population and evaluate
fitness
49 of particles and update their
positions.
First Version: All nodes of Hadoop cluster work on
the entire population. Mappers take the complete
population and evaluate fitness of particles and
update their positions.

50
All m data
points + k
Centroids

Key: oldCentroid,
Value: NewCentroid
Key: Centroid,Value: pt
51
Updating of Centroids is done
by PSO not by Reducers.

52
Algorithme K-Nearest Neighbors (KNN)
 Soit un ensemble de points à classer.
 Chaque point est un vecteur multidimensionnel appartenant à
une classe donnée tel que: pti (vi , ci )
 Soit k le nombre de voisins.
 Objectif: Classer un ensemble de points par rapport à leurs
distances aux points connus.
 Etape1. Pour un est point pti calculer sa distance par rapport à
l’ensemble des points connus.
 Etape2. Trier les distances par ordre croissant.
 Etape3. Prendre les k premières distances, et faire le vote
pour élire la classe d’appartenance du point en cours de
classification.
 Epate4. Refaire la procédure pour l’ensemble des points à
classer.

53
Split classified data
m portions
(Ligne,( v, c ))
Map1
(v1, c1)
( v 2, c 2 )
MAP2 Reduce
(v 3, c 3)
ou driver
.....
(vn, cn )
MAPj

MAPm

54
Split classified data
m portions Shuffle
(v , c )
1 1 (Ligne,( v, c ))
( v 2, c 2 )
(v 3, c 3) Map1 (v11,c1)
(v11,c1)
..... (v11,c1)
( vn , cn )
MAP2
(v11, k )
(v 22, k )
(v 33, k ) MAPj
.....
(vpp, k )
MAPm
Split unknown data
• Les données déjà classées sont envoyées en un premier temps à tous les MAP.
• Chaque MAP calcule la distance d’un point vii avec l’ensemble des points connus en
sa possession. Le point vii doit alors visiter tous les MAP.
•Chaque MAP
55
Métaheuristiques et le
Cloud Computing
Définition.
Le Cloud Computing est un ensemble de services informatiques fournis via
Internet. Il désigne le stockage et l’accès aux données par l’intermédiaire d’internet
plutôt que via le disque dur d’un ordinateur. Il s’oppose ainsi au stockage local.

BUT Cloud Computing

• Serveurs,
• Stockage,
• bases de données,
• Composants réseau,
• Logiciels,
• Outils d’analyse, etc.
Les sociétés qui proposent ces services informatiques
sont appelées fournisseurs de services.
Métaheuristiques et le Cloud
Computing
Fonctionnement (1)
Cloud Computing fournit une infrastructure basée sur la virtualisation des
ressources et des dispositifs sur la base de la demande.

 Dans une environnement Cloud, les machines physiques exécutent plusieurs


machines virtuelles (VM) qui sont présentées aux clients comme des ressources de
calculs.

 L’augmentation de l’adoption et la migration vers la technologie virtuelle a


poussé les providers à établir des infrastructures à large-échelle des services Cloud.

 Les services du Cloud public sont fournis par un tiers, Les services sont vendus sur
demande généralement (minute ou l’heure qui suit la requête.) Les clients payent
uniquement pour les cycles des CPU, le stockage ou la bande passante qu’ils
consomment. Principaux fournisseurs de Cloud public sont Amazon Web Services,
Microsoft Azure, IBM et Google Compute Engine.
57
Métaheuristiques et le Cloud Computing
Clouds offrent des services regroupés en 3 catégories.
Fonctionnement (2)
1. Plus basique: Louer une
infrastructure informatique
(serveurs, machines virtuelles,
stockage, réseaux, systèmes
d’exploitation) auprès d’un
fournisseur de services avec
un paiement en fonction de
l’utilisation.
2. Environnement à la
demande pour le
développement, le test, la
diffusion et la gestion des
applications logicielles.
Création des applications du
web, ou mobiles sans souci la
configuration, la gestion de
l’infrastructure de serveurs,
stockage, etc.
3. Fournisseurs de services hébergent et gèrent les
Plateforme Cloud
applications logicielles, et gèrent la maintenance, par
exemple la mise à niveau des logiciels et l’application
58 sécurité
des correctifs de
Métaheuristiques et le Cloud Computing
Position du problème.
Clients
Ressources access
softwares

Informations

Dispositifs
hardware

 Due to the large number of requests for access to resources and service level
agreements between cloud service providers and clients, few burning issues in cloud
environment .

59
Métaheuristiques et le Cloud Computing
Deux Principaux Acteurs

Les Clients Providers

But 1 But 2

Providers du Cloud cherchent à


Clients cherchent un temps, le plus maximiser l’utilisation de leurs
court possible, pour compléter leurs ressources afin d’optimiser les coûts
jobs et requêtes avec un coût réduit. globaux pour augmenter leurs profits.

Deux Objectifs en conflit,


manque de satisfaction du point
de vue: allocation de ressources
et équilibrage de ressources
60

Vous aimerez peut-être aussi