0% ont trouvé ce document utile (0 vote)
106 vues17 pages

BD 1

Le document présente une introduction aux Big Data, soulignant la quantité massive de données générées quotidiennement et les défis associés à leur gestion. Il décrit les 5 V des Big Data : Volume, Vitesse, Variété, Véracité et Valeur, qui sont essentiels pour transformer les données en informations exploitables. Enfin, il compare l'approche traditionnelle de gestion des données avec l'approche Big Data, mettant en avant la nécessité d'une intégration des deux méthodes pour une meilleure exploitation des données.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
106 vues17 pages

BD 1

Le document présente une introduction aux Big Data, soulignant la quantité massive de données générées quotidiennement et les défis associés à leur gestion. Il décrit les 5 V des Big Data : Volume, Vitesse, Variété, Véracité et Valeur, qui sont essentiels pour transformer les données en informations exploitables. Enfin, il compare l'approche traditionnelle de gestion des données avec l'approche Big Data, mettant en avant la nécessité d'une intégration des deux méthodes pour une meilleure exploitation des données.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Big Data

GL4 (Option Management des Systèmes d'Information) - 2017

Chp1 : Introduction
Approche et Vocabulaire

Dr. Lilia SFAXI


1
[Link]/liliasfaxi
Faits
Introduction aux Big Data
• Chaque jour, nous générons 2,5 trillions d’octets de données
• 90% des données dans le monde ont été créées au cours des deux
dernières années
• 90% des données générées sont non structurées
• Source:
▪ Capteurs utilisés pour collecter les informations climatiques
▪ Messages sur les médias sociaux
▪ Images numériques et vidéos publiées en ligne
▪ Enregistrements transactionnels d’achat en ligne
▪ Signaux GPS de téléphones mobiles
▪ …
• Données appelées Big Data ou Données Massives

2
Intérêts
Introduction aux Big Data
• Chefs d’entreprise prennent fréquemment des

• 1 /3 décisions basées sur des informations en


lesquelles ils n’ont pas confiance, ou qu’ils
n’ont pas

1/2
• Chefs d’entreprise disent qu’ils n’ont pas accès
• aux informations dont ils ont besoin pour faire
leur travail
• Des DSI (Directeurs des SI) citent :

• 83 % « L’informatique décisionnelle et analytique »


comme faisant partie de leurs plans pour
améliorer leur compétitivité

60 %
• Des PDG ont besoin d’améliorer la capture et la
• compréhension des informations pour prendre
des décisions plus rapidement

3
Sources
Introduction aux Big Data

• Sources multiples: sites, bases de données, téléphones, serveurs:


▪ Détecter les sentiments et réactions des clients
▪ Détecter les conditions critiques ou potentiellement mortelles dans les
hôpitaux , et à temps pour intervenir
▪ Prédire des modèles météorologiques pour planifier l’usage optimal des
éoliennes
▪ Prendre des décisions risquées basées sur des données transactionnelles en
temps réel
▪ Identifier les criminels et les menaces à partir de vidéos, sons et flux de
données
▪ Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont
réussir, d’après les statistiques et modèles réunis au long des années
(domaine Big Data in Education)

4
Challenges
Introduction aux Big Data

• Réunir un grand volume de données variées pour trouver de nouvelles


idées

• Capturer des données créées rapidement

• Sauvegarder toutes ces données

• Traiter ces données et les utiliser

5
Les 5 V
Introduction aux Big Data

• Extraction d’informations et décisions à partir de données, caractérisées par les


5 V:
Volume Vitesse

▪ Volume (Volume) -
-
Téraoctets
Enreg. / Archives
-
-
Batch
Temps réél
- Transactions - Processus
- Tables, fichiers - Flot de données

▪ Variété (Variety) Variété Valeur


5 Vs du
- Structurées Big Data - Statistiques
- Non structurées
Vitesse (Velocity)
- Évènements
▪ - Multi-facteur - Corrélations
- Probabilistes - Hypothétiques

- Confiance
- Authenticité
▪ Véracité (Veracity) -
-
Origine, réputation
Disponibilité
- Responsabilité

Véracité
▪ Valeur (Value)

6
Volume
Introduction aux Big Data
• Le prix de stockage des données a beaucoup diminué ces 30 dernières
années:
▪ De $100,000 / Go (1980)
▪ À $0.10 / Go (2013)
• Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou Volume Vitesse
réseaux de stockage peuvent être très coûteux
- Téraoctets - Batch
▪ Choisir de ne stocker que certaines données, jugées sensibles - Enreg. / Archives
- Transactions
- Temps réél
- Processus
- Tables, fichiers
▪ Perte de données, pouvant être très utiles, comme les logs - Flot de données

• Comment déterminer les données qui méritent d’être stockées?


Variété Valeur
▪ Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? 5 Vs du
- Structurées Big Data - Statistiques
Sociales? - Non structurées - Évènements
- Multi-facteur - Corrélations
➔ Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. - Probabilistes - Hypothétiques

• Problèmes: - Confiance
- Authenticité
- Origine, réputation
▪ Comment stocker les données dans un endroit fiable, qui soit moins - Disponibilité
- Responsabilité
cher
▪ Comment parcourir ces données et en extraire des informations Véracité

facilement et rapidement?

7
Variété
Introduction aux Big Data
• Pour un stockage dans des bases de données ou dans des entrepôts
de données, les données doivent respecter un format prédéfini.
• La plupart des données existantes sont non-structurées ou semi-
structurées
Volume Vitesse
Vitesse
• Données sous plusieurs formats et types
- Téraoctets - Batch
• On veut tout stocker: - Enreg. / Archives - Temps réél
- Transactions - Processus
▪ Exemple: pour une discussion dans un centre d’appel, on peut la - Tables, fichiers - Flot de données

stocker sous forme textuelle pour son contenu, comme on peut stocker
Valeur
l’enregistrement en entier, pour interpréter le ton de voix du client Variété 5 Vs du
• Certaines données peuvent paraître obsolètes, mais sont utiles pour
- Structurées Big Data - Statistiques
- Non structurées - Évènements
- Multi-facteur - Corrélations
certaines décisions: - Probabilistes - Hypothétiques

- Confiance
▪ Exemple: Pour le transport de marchandise, on a tendance à choisir le - Authenticité
- Origine, réputation
camion le plus proche. Mais parfois, ce n’est pas la meilleure solution. - Disponibilité
- Responsabilité
D’autres problèmes peuvent intervenir.
▪ Besoin de : Données GPS, Plan de livraison du camion, Circulation, Véracité

Chargement du camion, Niveau d’essence…

8
Vitesse
Introduction aux Big Data
• Rapidité d’arrivée des données
• Vitesse de traitement
• Les données doivent être stockées à l’arrivée, Volume Vitesse

parfois même des Teraoctets par jour - Téraoctets - Batch


- Enreg. / Archives - Temps réél
▪ Sinon, risque de perte d’informations -
-
Transactions
Tables, fichiers
-
-
Processus
Flot de données

• Exemple Variété Valeur


5 Vs du
▪ Il ne suffit pas de savoir quel article un client a -
-
Structurées
Non structurées
Big Data -
-
Statistiques
Évènements
- Multi-facteur
acheté ou réservé
- Corrélations
- Probabilistes - Hypothétiques

- Confiance
▪ Si on sait que vous avez passé plus de 5mn à -
-
Authenticité
Origine, réputation
- Disponibilité
consulter un article dans une boutique d’achat - Responsabilité

en ligne, il est possible de vous envoyer un Véracité

email dès que cet article est soldé.

9
Véracité
Introduction aux Big Data
• Cela fait référence au désordre ou la fiabilité des
données. Avec l’augmentation de la quantité, la qualité
et précision se perdent (abréviations, typos,
déformations, source peu fiable…) Volume Vitesse
Vitesse

• Les solutions Big Data doivent remédier à cela en se -


-
Téraoctets
Enreg. / Archives
-
-
Batch
Temps réél
- Transactions - Processus
référant au volume des données existantes - Tables, fichiers - Flot de données

• Nécessité d’une (très) grande rigueur dans Variété Valeur


5 Vs du
l’organisation de la collecte et le recoupement, -
-
Structurées
Non structurées
Big Data -
-
Statistiques
Évènements
- Multi-facteur - Corrélations
croisement, enrichissement des données pour lever - Probabilistes - Hypothétiques

- Confiance
l’incertitude et la nature imprévisible des données -
-
Authenticité
Origine, réputation
- Disponibilité
introduites dans les modèles mais aussi pour - Responsabilité

respecter le cadre légal pour créer la confiance et Véracité

garantir la sécurité et l’intégrité des données.

10
Valeur
Introduction aux Big Data

• Le V le plus important
• Il faut transformer toutes les données Volume Vitesse
Vitesse

en valeurs exploitables: les données -


-
-
Téraoctets
Enreg. / Archives
Transactions
-
-
Batch
Temps réél
- Processus

sans valeur sont inutiles


- Tables, fichiers - Flot de données

Variété Valeur
• Atteindre des objectifs stratégiques de - Structurées
5 Vs du
Big Data - Statistiques
- Non structurées
création de valeur pour les clients et
- Évènements
- Multi-facteur - Corrélations
- Probabilistes - Hypothétiques

pour l’entreprise dans tous les - Confiance


- Authenticité
- Origine, réputation
- Disponibilité
domaines d’activité - Responsabilité

Véracité

11
Approche Traditionnelle
Introduction aux Big Data
Les besoins métier guident la conception de la solution

Le responsable métier définit les besoins :


Quelles questions doit-on poser?

De nouvelles exigences
nécessitent une nouvelle
IT conçoit une solution avec un
conception et construction
ensemble de structures et
fonctionnalités

Le responsable métier exécute les requêtes


pour répondre aux questions – encore et
encore

12
Approche Traditionnelle
Introduction aux Big Data

• Appropriée pour:

▪ Des données structurées


▪ Opérations et processus répétitifs
▪ Sources relativement stables
▪ Besoins bien compris et bien cadrés

13
Approche Big Data
Introduction aux Big Data
Les sources d’information guident la découverte créative

Le responsable métier et IT
identifient les sources de données
disponibles

De nouvelles idées conduisent à


l’intégration de technologies
traditionnelles

Le responsable métier détermine les questions


à poser en explorant les données et relations
entre elles IT fournit une plateforme qui
permet une exploration
créative de toutes les
données disponibles

14
Approche Big Data vs Approche Traditionnelle
Introduction aux Big Data

Entrepôt de Données Plateforme Big Data

• La question n’est pas :


▪ Dois-je choisir entre
l’approche classique et
l’approche Big Data?
Intégration
• Mais plutôt:
▪ Comment les faire
fonctionner ensemble?

Sources Traditionnelles Nouvelles Sources

15
Approche Big Data vs Approche Traditionnelle
Introduction aux Big Data
Approche Traditionnelle Approche Big Data
Analyse Structurée et Répétée Analyse Itérative et Exploratoire

Responsables Métier Responsables IT

Déterminent quelles Fournissent une plateforme


questions poser pour permettre la découverte
créative

Responsables IT Responsables Métier

Structurent les données pour Explorent la plateforme pour


répondre à ces questions déterminer quelles questions
poser

16
Sources
Introduction aux Big Data

• Cours
▪ Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University
▪ Intro to Hadoop and MapReduce, Coursera, Udacity
• Articles
▪ Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”, LinkedIn

17

Vous aimerez peut-être aussi