0% ont trouvé ce document utile (0 vote)
73 vues24 pages

Introduction aux enjeux des BIG DATA en France

Transféré par

ted junior pouhe tjega
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
73 vues24 pages

Introduction aux enjeux des BIG DATA en France

Transféré par

ted junior pouhe tjega
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Introduction aux BIG DATA

Quelques repères….
Par Dr Charles MANGA EBONGUE
BIG DATA, la situation actuelle en France

• En France… (source 01Business, 17/07/14) « Environ 10 %


des entreprises françaises en utiliseraient déjà (une solution BIG
DATA) selon une étude de STERIA de 2013, contre un tiers au
niveau mondial.
• « De nombreuses structures ont commencé
Big Data, situation actuelle à réaliser des POC
(Proof of Concept), mais peu ont déroulé un projet de A à Z pour
en tirer des enseignements et un retour sur investissement clair »
Gilbert Grenié, associé de l’activité conseil au sein de PWC, partenaire de l’EBG pour le livre blanc
BIG DATA.

• Principales causes : manque de compétences autour des BIG


DATA : informatique pour les données massives, statistique, …
Mots autour des BIG DATA
Unités de mesure de capacité de stockage
Unité de mesure Equivalent en Octets Exemple représentatif
KiloOctets (K) 103 Une page de texte
MégaOctets (M) 106 Vitesse de transfert par seconde
GigaOctets (G) 109 DVD, Clé USB
TeraOctets (T) 1012 Disque dur
PetaOctets (P) 1015
ExaOctets (E) 1018 FaceBook, Amazon
ZetaOctets (Z) 1021 Internet tout entier depuis 2010
Dimensions des BIG DATA ou les BIG V ou 3V

• Volumétrie Grande quantité de données • Difficultés :


stockage, recherche, partage, analyse, visualisation,.. .
• Vélocité Flux continus de données : capteurs,
appareils mobiles, réseaux sociaux…
Difficultés : analyse et traitement des données à la
volée, sans les avoir en intégralité (One-Pass
Processing)
• Variété Différents formats : séquences, graphes,
Difficulté d’intégration (jointure, association) par le
sens, l’échelle, la qualité, …
Vocabulaire de base
Mot Signification
MAP REDUCE Principe de programmation qui consiste à distribuer et
paralléliser le traitement sur plusieurs nœuds
HADOOP, HDFS (Hadoop Distributed Hadoop est une plate-forme informatique open-source de la
fondation Apache, capable de gérer/traiter des BIG DATA sur
File System) une architecture distribuée. HDFS est le système de gestion
de fichier de base qui supporte Hadoop
NoSQL Technologie qui se différencie à la notion relationnelle des
données, adaptée à des données peu structurées (nombre
dynamique de colonnes, document, graphes,..
Hbase, Cassandra, MongoDB, NE04J, SGBD qui supportent l’approche d’interrogation des
données NoSQL
Couche DB, Redis
SAS, TALEND, R, PYTHON Outils et/ou environnements de programmation et analyse
adaptés aux BIG DATA
CLOUD COMPUTING Ensemble de processus permettant d’offrir un espace de
stockage sous forme de serveurs, accessibles à distance,
sous forme de location. Utile pour les entités (entreprises)
qui ne souhaitent pas investir dans les infrastructures de
stockage
Quelles solutions pour le Big Data ?

• Direction majeure : Exploiter le parallélisme sur une architecture multi-


processeurs
• Comment ?
• Machines de bases de données
– Pour les données massives, structurées, semi-structurées
– Permet de pérenniser les solutions BD existantes => préservation des acquis, économie d’argent
– Solutions propriétaires : ORACLE, MySQL, ..: amélioration des services à moindre coût
• Environnement de programmation parallèle
– MAP REDUCE , inventé par Google
– Version logiciel libre (Open source) par HADOOP
– Adapté aux données dynamiques, irrégulières, sans schéma qui sont inadaptées pour SQL, Xquery
• Systèmes de Gestion de Bases de Données NoSQL
– Pour les données non structurées : graphes, textes, ..

Avec possibilités de combinaisons de ces solutions


BD et SGBD : historique (1970-2000)

Vers les BIG DATA 2010…


-Volume, Variété, Vélocité des donnés
(3V)
-Données peu (pas) structurées

-Solutions open-source

-Paradigme MAP REDUCE

– Infrastructures pour la gestion des BIG


DATA : HADOOP, Cassandra, ..
BIG DATA, c’est quoi ?
• Quelques définitions
• Définition 1 : « data of a very large size, typically to the extent that its
manipulation and management present significant logistical challenges » Oxford
English Dictionary, « données de très grande taille, dont la manipulation et
gestion présentent des enjeux du point de vue logistiques »
• Définition 2 : « an all-encompassing term for any collection of data sets so
large and complex that it becomes difficult to process using on-hand data
management tools or traditional data processing applications » Wikipédia, «
englobe tout terme pour décrire toute collection de données tellement
volumineuse et complexe qu’il devient difficile de la traiter en utilisant des outils
classiques de traitement d’applications »
• Définition 3 : « datasets whose size is beyond the ability of typical database
software tools to capture, store, manage, and analyze » McKinsey, 2011, «
collections de données dont la taille dépasse la capacité de capture, stockage,
gestion et analyse des systèmes de gestion de bases de données classiques»
BIG DATA, c’est quoi ?
• Bien d’autres définitions encore…
http://datascience.berkeley.edu/what-is-big-data/
• Ce qu’on retient …
Volume des données, Complexité,
Limites des outils classiques de gestion des données,
Passage à l’échelle
BIG DATA, pourquoi ?
• Explosion des volumes des données générées sur le web,
web mobile…
• Réseaux sociaux : FaceBook, Twitter,..
• Moteurs de recherche : Google, Yahoo, Bing
• Internet des objets
• Sites commerciaux
• Appareils mobiles
• Capteurs
• Systèmes d’information des entreprises
• + Disponibilité, ouverture des données
• Open data : données ouvertes au grand public
– Gouvernement :
– Industries
– Services : transports, météo, …
BIG DATA, pourquoi ?
BIG DATA, pourquoi ?
+ Variété des données, peu de structure…
• Image
• Vidéo,
• Logs,
• Graphes,
• Son
+ Dynamique des données…
• Flux de d’images (TV Stream),..
• Flux de Tweets
• Flux de données des capteurs
+ Variété des sources
• Mobiles
• Machine-Machine
• Machine-Homme
• Homme-Homme
BIG DATA, pourquoi ?
• + Limites des SGBD
• Capacités de stockage / traitement des SGBD
– 1980 : TeraData Database machine
– 2010 : Oracle ExaData Database machine
• Nature/type des données
– Structurée ou semi-structurées
• Vitesse de stockage
– Temps de stockage ne suit pas le progrès en termes de
vitesse des réseaux
• + Passage à l’échelle des SGBD à quel coût ?
BIG DATA, à quoi ça sert ?
Explosion des domaines d’application utilisant les BIG
DATA
• Médical
• Marketing
• Politique
• Economie,
•…

Pour ?
• L’aide à la décision
• La prévision
• La découverte de nouvelles connaissances,…
BIG DATA, à quoi ça sert ?
Quelques cas d’étude
• Prédire les conflits mondiaux
L’outil GDELT, développé par l’université de Georgetown et accessible de manière open source,
compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979. Il
applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour
faciliter la compréhension des événements récents et des principes de cause à effet pour arriver à
prédire les conflits mondiaux

• Gérer les catastrophes naturelles


En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel,
l’Organisation Mondiale de la Migration a pu assister les forces locales en dégageant les urgences
sanitaires, la localisation des ressources clés et en optimisant l’allocation des ressources sur le terrain
lors du typhon qui a frappé les Philippines en 2013

• Faire de la veille sanitaire


Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches
tsé-tsé dans le but d’aider à contrôler la propagation d’épidémies. De la même manière, la police de
Chicago utilise le Big Data et la visualisation de données pour contrôler les populations de rats dans la
ville.
BIG DATA, à quoi ça sert ?
Autres cas d’étude
• Cibler les clients sur le web
Dans le marketing web par exemple, le phénomène d’enchères en temps réel (Real-Time-
Bidding – RTB), s’appuie sur de la data en mouvement pour proposer une publicité
spécifique en fonction de l’utilisateur qui se connecte au site. L’entreprise Turn par
exemple, classe l’utilisateur dans un segment lorsqu’il se connecte au site, en fonction de
son historique de navigation et des informations issues de réseaux sociaux et lui affiche la
publicité de l’annonceur ayant fait la meilleure enchère pour ce segment…en moins de 10
millisecondes -
http://www.data-business.fr/big-data-definition-enjeuxetudescas/#sthash.kRSvs3hq.dpuf
• Bien d’autres…
– Secteurdes Télecom. : analyse de la qualité de service en temps réel
– Secteur des banques : prévention des fraudes et gestion du risque
– Secteur des transports : optimisation de trafics et des taux de remplissage
– Secteur de l’éducation : au travers des Massive Open Online Courses : pour
comprendre les comportements des apprenants, et adapter les programmes
–…
Les 5 V des BIG DATA
1. Volume
2. Variété
3. Vélocité
4. Valeur
5. Véracité

3V + 2V = 5V
NoSQL = Not Only SQL, base de données distribuées
BIG DATA = Données distribuées et Traitements parallèles
Utilisation des BIG DATA
BIG DATA = traitement et analyse des données
massives

• Descriptive : Que s’est-il passé ? Pourquoi ?


• Prédictive : Que va-t-il se passer ?
• Prescriptive : Comment atteindre l’objectif ?

Parallélisme des traitements


Distribution des données
BIG DATA =! Business Intelligence (BI)

BIG DATA BI
Charge de travail Ad-Hoc Préparée
Types de données Brutes Structurées
Sources Externes et opérationnelles Opérationnelles

Les BIG DATA utilisent le paradigme : DAG (Directed


Acyclic Graph), Graphe Orienté Acyclique.

Graphe => Liens entre les différents nœuds.


Acyclique => On progresse d’une étape après
l’autre sans jamais revenir en arrière.
La distribution en BIG DATA
Volume : stockage de données massives
Vélocité : augmentation de la vitesse de traitement
Solution matérielle (hardware) : CLUSTER,
plusieurs serveurs connectés entre eux.
Solution logicielle (software) : HADOOP,
système de fichiers distribués (HDFS) et
parallélisme massif des traitements
(MAPREDUCE)
HADOOP : une solution BIG DATA

Projet OPEN SOURCE géré par la Fondation APACHE depuis


plus de 15 ans écrit en JAVA.
Objectif : régler le problème des gros volumes de
données brutes avec un temps de réponse correct.
Sur des serveurs répartis en grappe (cluster), HADOOP
permet d’y adjoindre un système de fichiers distribués
HDFS (HADOOP Distributed File System) et un système
de traitement parallèle (MAPREDUCE). HADOOP gère les
données avec une scalabilité quasi linéaire en maitrisant
les coûts (serveurs les plus simples et surtout solution
OPEN SOURCE).
HADOOP : une solution BIG DATA

C’est le LINUX du BIG DATA


– OPEN SOURCE
– Internet
– Grande communauté dynamique
– Tout secteur d’activité (banques,
téléphonie, télévision,…)
BIG DATA, quelques repères

Merci de votre attention.

Avez-vous des questions ?

Vous aimerez peut-être aussi