0% ont trouvé ce document utile (0 vote)
52 vues43 pages

Big Data : Révolution des Données

Transféré par

triocom223
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues43 pages

Big Data : Révolution des Données

Transféré par

triocom223
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction

Les données devenant de plus en plus volumineuses et complexes, nos bases de données
traditionnelles sont limitées face à l’analyse et au traitement de ces données. Dans un
souci de gain de temps, de nouvelles technologies sont venues pour soulager les
entreprises génératrices d’un grand nombre de données.

Définition
La Big Data est le stockage et l’analyse de volume de données complexes et massives. Ils
ne peuvent être stockés par une base de données relationnelle traditionnelle dans la
mesure où les données sont beaucoup trop importantes en termes de capacité, doivent se
déplacer rapidement et ne nécessitent pas les structures d’une base de données
relationnelles. En outre, la Big data se compose de trois dimensions :
Volume : Comme mentionnez plus haut, l’un des buts majeurs de la BIG Data est le
stockage et la gestion des données massives, raison pour laquelle le volume joue un rôle
très important dans les dimensions de la BIG DATA ;
Variété : Parlez de données massives sans énoncé la pluralité du type de données est
une erreur, la Big Data met en avant sa capacité à traiter plusieurs types de données
différents tel que les données structurées, semi-structurée et non structurée. En somme,
aucune donnée, quel que soit son type n’est mise à l’écart.
Vélocité / Vitesse : Face à des données énormes, la vélocité vient palier le problème de
lenteur de traitement de données. Le flux de données analysé en temps réel est très
important (énorme). Sans la vélocité les temps de réponse court ou encore le real time en
Big Data ne le serait pas.
Contexte d'évolution
La BIG Data joue un rôle important dans le domaine des organisations gouvernementales,
des compagnies privées et les multinationales, quelques soient le domaine d’activité elle
s’applique à toute entreprise quel soit grande ou petite mais qui génère et tra ite un grand
volume de données.

Architecture Big Data


Le succès du fonctionnement de la Big data dépend de son architecture, son infrastructure
correcte et de son l’utilité que l’on fait ‘’ Data into Information into Value ‘’. L’architecture
de la Big data est composé de 4 grandes parties : Intégration, Data Processing &
Stockage, Sécurité et Opération comme le montre le schéma si dessous:
1. Intégration : Consiste à charger le volume de données au sein du stockage.
2. Stockage de données (Data Storage) : En gros c’est le stockage du volume de
données. Nous avons plusieurs types de stockages de données. La Big Data s’appuie sur
les bases de données NOSQL avec comme variété :
a. Key Value Data Stores: a donnée est stockée dans une clé, dans ce cas de stockage,
le data store ne connait pas le contenue de la clé mais effectue des opérations sur la valeur
de la clé, donc sur la clé en elle-même. Nous avons plusieurs types de Key value disponible
tel que : Redis, Riak, Amazon S3 and Dynamo DB.
b. Document Data stores : C’est un stockage de document pour les documents semi -
structuré. Les documents sont identifiés par une Clé unique. Exemple : Le titre d’un fichier
PDF. Les différents types de document data stores sont les suivantes : MongoDB,
Terrastore et RavenDB.
c. Column Family Data Stores : Stockage de données sous forme tabulaire. Nous avons
plusieurs types de Column Family comme Cassandra, HBase et Hypertable.
d. Graph data : C'est un type de stockage de données orienté graphe sa particularité est
l'exploitation des données de ce type. Chaque entité est accessible via un pointeur. Les
types de graphes disponibles sont Neo4j, OrientDB, FlockDB.
3. Manipulation de données (Data Processing) : Il s'agit de la manipulation et du
traitement de données appelé Map Reduce.
Le framework Big data Hadoop utilise une partie du stockage HDFS (Hadoop Distributed
File System) pour la distribution des fichiers dans le système et une partie du processing
Map Reduce pour le traitement des données. L'écosystème de l'Hadoop lui permet la
connexion d’un ensemble de logiciels tel que : Pig, Hive, HBase et encore bien autre.
Hadoop est
4. Sécurité : Sert à autorisation, l’authentification et la protection des données.
5. Opérations : Pour la gestion, le monitoring et les taches planifiés.

Les Technologies Big Data


Les technologies sont classifiées dans l'illustration ci-dessous
Avantages
La big data joue un rôle très important au sein des entreprises qui l'utilise. La Big data
vient pour résoudre les problèmes de lenteurs de traitement de requête, le stockage est
beaucoup plus robuste et permet un stockage en masse des données extérieures ou
interne à l'entreprise. Aussi le tri des données pour extraire certaines données non
compatible ou non accepté par les bases de données traditionnelles n'est plus un soucis,
dans la mesure ou la big data gère tout type de données qu'ils soient structuré ou pas
(Vidéo, musique, fichier csv, json, xml, etc...).

Inconvénients
Le cout lié à l'implémentation des technologies et la formation du personnel n'est pas
accessible à beaucoup d'entreprise. Étant donné que c'est une nouvelle technologie en
pleine expansion il y'a une forte demande de personnel qualifié ayant de l'expérience pour
les implémentation et conseil des entreprises.

Conclusion
L'arrivée des technologies Big data dans le monde professionnel est perçus comme une
bonne nouvelle pour les entreprises génératrices de grand volume de données qui avaient
du mal à les traités. Ces bienfaits se ressentent dans tous les domaines d’activités.
Beaucoup d’entreprise de technologie développe des solutions de Big data, ce qui nous
donne une pluralité de solutions avec des fonctionnalités parfois diverses. Mais libre est
le choix aux entreprises de choisir la solution ‘’qui collent’’ le plus à ses besoins.
Big Data : définition, enjeux, impact sur les démarches RSE
Qu’est-ce que le Big Data ? Quels sont les enjeux des mégadonnées
(stockage et exploitation) ? En quoi le Big Data peut-il influer sur les
stratégies de Développement durable et de Responsabilité
sociale/sociétale des entreprises ?

Définition du Big Data : le Big Data, c’est quoi ?

Popularisé à la croisée des années 2000 avec l’explosion des nouvelles


technologies, le terme de « Big Data » (« mégadonnées » en français)
désigne la masse des données numériques, toutes sources confondues,
générées par l’usage de ces technologies.

Ces données peuvent être de nature aussi bien personnelle que


professionnelle ou institutionnelle, et touchent à tous les types
d’informations circulant sur les réseaux numériques (texte, vidéo, audio,
base de données, coordonnées GPS, transactions de e-commerce,
données émises par des objets connectés…).

Selon l’analyste Doug Laney, les données du Big Data se définissent par le
critère des trois V :

• leur volume plus ou moins massif,


• leur variété (nature et niveau de structuration),
• leur vélocité de production, de collecte et d’analyse.

Dans certains contextes, un quatrième V vient compléter la série : celui de


la véracité des données, dont le contrôle s’impose pour leur exploitation.

Les enjeux du Big Data : quel avenir pour le Big Data ?

Enjeux économiques : pourquoi le big data devient un gros business


?

Généralement stockées dans de gigantesques Data Centers dont la plupart


sont contrôlés par les plus grands acteurs de l’économie numérique, les
mégadonnées constituent une manne inépuisable dont l’exploitation est
favorisée par la démocratisation du Cloud Computing (stockage à distance
par les usagers d’internet) et les performances des supercalculateurs. Le
marché du Big Data, en constante croissance, se chiffre en dizaines de
milliards de dollars.

Enjeux sociétaux : le big data transforme le monde


L’impact du Big Data n’est pas seulement économique et commercial.
L’abondance des données, ainsi que le développement d’outils d’analyse
et de modélisation dédiés, ouvrent d’immenses perspectives dans les
domaines de la recherche en général, de la santé, des réseaux intelligents
(Smartgrids), de l’écologie et de bien d’autres secteurs de l’activité
humaine. En d’autres termes, le Big Data pourrait changer la façon dont on
appréhende le monde… et donc transformer le monde.

En contrepartie, des structures comme la CNIL en France (Commission


nationale de l’information et des libertés), et plus largement aux niveaux
européen et mondial, doivent constamment adapter leurs référentiels et
procédures d’encadrement légal de l’exploitation des données et de
protection de la vie privée.

Big Data et Développement durable des entreprises

En matière de gestion de la chaîne des approvisionnements (Supply Chain


Management), d’efficacité énergétique, de satisfaction client et
d’implication des diverses parties prenantes, mais aussi de management
dans son ensemble, le Big Data peut influer notablement et durablement
sur la pertinence et la qualité des actions menées dans le cadre d’une
démarche RSE. En effet, la collecte et l’exploitation des données
disponibles permettent de développer des outils d’analyse prédictive et de
modélisation organisationnelle efficaces et pérennes, adaptables en temps
réel aux évolutions de conjoncture, tant en interne qu’en externe.

Pour plus de détails sur le rôle des mégadonnées dans les stratégies RSE
: Comment le Big Data peut rendre l’Entreprise plus Durable ?

Comment le Big Data peut rendre l’Entreprise plus Durable


?
par Clément Fournier
12 FÉVRIER 2016
Le Big Data est probablement la prochaine révolution dans la gestion des
entreprises. Collecter et utiliser les données au sein de systèmes intégrés
intelligents, capables de faire des prédictions, de dégager des espaces
d’optimisation : voilà l’idée du Big Data. Mais comment cela peut-il contribuer
à rendre les entreprises plus durables ? Éléments de réponse.

Une supply chain plus durable grâce au Big Data

On sait qu’aujourd’hui, notamment pour les grandes entreprises, la supply chain est
un élément crucial des politiques de développement durable. En effet, les
fournisseurs, les matières premières, et le transport sont dans beaucoup de cas les
sources les plus importantes d’impacts environnementaux dans les entreprises. Or,
l’un des champs d’application les plus évidents du Big Data est bien-sûr dans la
supply chain. 64% des directeurs de supply chain déclarent que le Big Data est une
vraie technologie disruptive en matière de gestion des fournisseurs, car elle permet
d’optimiser les inventaires, les livraisons et les besoins. Plus, elle permet de rendre la
supply chain plus prédictive et donc permet aux entreprises de mettre en place une
gestion de la supply chain qui répond en temps réel à leurs besoins.
Concrètement, prenons l’exemple d’une entreprise de la distribution agro-
alimentaire. Optimiser sa supply chain grâce au Big Data lui permet de recevoir ses
produits au moment où le consommateur en a besoin : elle optimise ses transports,
n’a plus besoin de prendre en stock des surplus qui pourraient être jetés, elle
optimise donc à la fois ses coûts, mais aussi ses impacts environnementaux.

L’étude Accenture « Big Data analytics in supply chain » a ainsi montré que
l’utilisation du Big Data dans la supply chain permet d’améliorer la capacité des
fournisseurs à mieux réagir aux besoins des entreprises, d’améliorer la réactivité et
l’interactivité de l’ensemble de la chaine de production. Résultat ? Une augmentation
de 10 à 36% de l’efficience de la supply chain. Réduction des coûts, mais aussi
réduction des émissions de CO2, réduction des consommations d’énergie… Tout cela
permet de rendre la supply chain plus durable.

Big Data : optimiser l’efficacité énergétique

La deuxième application importante que pourrait avoir le Big Data sur la durabilité
des entreprises se situe au niveau de l’efficacité énergétique. En matière énergétique,
le Big Data permet déjà d’optimiser les dépenses : en créant des systèmes de gestion
énergétique prédictifs et intelligents, on peut réguler par exemple la température, ou
l’éclairage en fonction des moments dans les bâtiments des entreprises. Des
thermostats intelligents basés sur le Big Data et l’Internet des Objets existent déjà
pour les entreprises et pour les particuliers.

Le Big Data permet aussi d’évaluer les fuites énergétiques sur un réseau, d’identifier
les systèmes énergétiques ou thermiques concurrents et de mieux les gérer. Ainsi, on
constate que les entreprises qui utilisent le Big Data pour gérer leur management
énergétique rapportent une réduction d’environ 20% de leurs dépenses
énergétiques. C’est autant d’énergie économisée et donc des impacts
environnementaux évités.

Appliquer le Big Data à la gestion énergétique des entreprises, c’est créer de


véritables smart grid, une gestion intelligente et plus optimale.

Avec le Big Data, améliorer le management organisationnel et


environnemental

L’utilisation du Big Data pourrait aussi permettre d’améliorer le management


organisationnel en général. Mettre en place un système de co-voiturage
intégré permettant aux employés de rationaliser leurs transports ? Mieux gérer les
achats pour les fournitures de bureaux et le matériel ? Améliorer le bien être au
travail et la productivité de ses salariés ? Mieux gérer ses flux de déchets et les
réduire ? Tous ces éléments sont rendus plus faciles grâce au Big Data aujourd’hui.

C’est le management organisationnel dans son ensemble qui pourrait s’améliorer


grâce au Big Data. En analysant les évolutions des marchés mais aussi leurs
évolutions internes, les entreprises seront capables de prendre des décisions plus
justes et plus rapidement, économisant ainsi du temps, de l’argent, et
éventuellement des ressources matérielles. Cette réactivité accrue grâce au Big Data,
on la retrouvera également au sein des systèmes de management environnemental.
On sait d’ores et déjà que le Big Data est d’une importance cruciale pour mieux lutter
contre le réchauffement climatique à l’échelle des sociétés. Il pourrait l’être
également à l’échelle des entreprises, puisqu’il permettra de mieux comprendre les
impacts environnementaux des entreprises, mais aussi leurs risques
environnementaux. Ainsi, les entreprises auront une meilleure connaissance de leur
environnement et une meilleure capacité à identifier les processus qu’ils doivent
ajuster pour s’y adapter.

La même chose est possible vis-à-vis des impacts économiques et sociaux.


Globalement, grâce au Big Data, les entreprises pourraient être capables de mieux
réagir aux évolutions du monde, de mieux s’y adapter, de prévoir les conséquences
de leurs activités et de les faire évoluer plus facilement.

La révolution du Big Data est en marche, et elle pourrait entraîner dans son sillage
des entreprises qui veulent s’investir dans l’amélioration de leurs impacts
environnementaux, mais aussi sociaux et économiques.
Big Data : comment créer sa
base de données clients-
fournisseurs ?
Par
La Rédaction
-
29/11/2017

Les bases de données NoSQL sont nées, sous l’impulsion des grands
acteurs du Web comme Facebook ou Google, pour répondre à la
problématique du Big Data. Elles sont aujourd’hui stratégiques pour
toutes les entreprises.

« Big data » : voici une expression que l’on entend désormais sans cesse mais
dont tous les chefs d’entreprises ne connaissent pas forcément la définition.

Des données qui valent de l’or.

Pourtant, à l’heure du développement incessant des nouvelles technologies,


les données sont partout aujourd’hui : issues de nos réseaux sociaux, de notre
téléphone mobile, de notre passage en caisse, de l’utilisation d’une carte de
transport, etc.

Toutes ces données en disent beaucoup plus sur nous que nous ne le croyons.
Elles sont aujourd’hui une manne financière pour les groupes qui les
exploitent, mais elles peuvent être également très utiles pour développer nos
entreprises grâce à des outils marketing perfectionnés.

Un nouveau modèle relationnel.

Grâce à leur flexibilité et leur souplesse, ces bases non relationnelles


permettent en effet de gérer de très grands volumes de données disparates
sur un ensemble de serveurs de stockage distribués, avec une capacité de
montée en charge très élevée.

Réservées jusqu’à peu aux ténors du Web, elles tendent aujourd’hui à se poser
en successeur du modèle relationnel qui dominait le marché depuis 20 ans.
Les bases NoSQL vont-elle sonner le glas des bases de données relationnelles
? C’est tout l’enjeu du monde digital du troisième millénaire et cela va
profondément changer la façon de travailler, de prospecter et de
commercialiser des entreprises.

Un atout pour les entreprises.

Les experts de la question affirment que le big data va aider les entreprises à
réduire leurs risques et faciliter la prise de décision, ou créer la différence
grâce à l’analyse prédictive et une « expérience client » plus personnalisée et
contextualisée. C’est donc l’un des grands défis informatiques de la décennie
2015-2025, ce qui en fait une nouvelle priorité en recherche et
développement, qui pourra notamment conduire à des systèmes élaborés
d’intelligence artificielle.
Un véritable défi informatique.

Aujourd’hui, une multinationale de la grande distribution a presque la même


productivité, en matière de données, qu’une société Internet de taille
moyenne. De plus en plus d’entreprises espèrent pouvoir exploiter les
données associées à leurs clients avec la même efficacité que les sociétés
technologiques, et pouvoir ainsi prendre des décisions sur la base des
informations collectées.

Mais la quantité colossale des données ainsi générées et les multiples sources
d’où elles proviennent constituent un défi informatique, même pour les
entreprises spécialisées qui rêveraient pourtant d’être en mesure de collecter
et analyser en temps réel cette masse d’information.

Faire appel à des opérateurs experts. Pour optimiser les temps de traitement
sur des bases de données géantes, plusieurs solutions et technologies sont
utilisées : des bases de données NoSQL (comme MongoDB, Cassandra ou
Redis), des infrastructures de serveurs (le framework Hadoop l combine le
système de fichiers distribué HDFS, la base NoSQL HBase et l’algorithme
MapReduce) et le stockage des données en mémoire (Memtables) permet
d’accélérer les temps de traitement des requêtes.

De nombreux opérateurs du big data proposent aujourd’hui aux entreprises


des solutions optimisées pour créer, gérer, optimiser et développer leur base
de données clients-fournisseurs. Pour faciliter l’adoption de la solution,
garantir une adhésion rapide des différentes organisations et concrétiser une
valeur quantifiable, Daniel Crowe, directeur France de Netscout recommande «
une approche en cinq parties qui intègre la formation des utilisateurs, le modèle
Quickstart, de bonnes pratiques, un expert résident et une automatisation du
système choisi ».
Big Data : une opportunité à saisir pour les PME

Des géants du web, aux startups spécialisées dans le Big Data en passant par des ESN et des
fournisseurs tels HPE ou Microsoft, le marché foisonne de solutions de Big Data. Pour innover
plus rapidement et proposer des produits et services mieux ciblés et plus performants, les PME
doivent, sans plus attendre, se saisir du sujet.

La maitrise du Big Data devient un des éléments majeurs de la compétitivité des


entreprises. « Si une entreprise fait l’impasse sur le Big Data, elle se fera doubler sur son propre
marché par une startup ou par une entreprise concurrente qui saura exploiter les gisements de
données disponibles et innovera plus rapidement qu’elle », affirme Nicolas Vincent, senior
manager chez Kurt Salmon.
En effet, grâce à l’exploitation d’une grande variété de données (texte, vidéos, sons, images,
etc.) issues d’une multitude de sources (bases de données internes à l’entreprise, externes,
réseaux sociaux, études, observatoires, indicateurs, open data, etc.), les entreprises sont
capables de mieux identifier les besoins du marché et de proposer plus rapidement de
nouveaux services et modèles économiques.

Mais pour Florence Laget, directrice Big Data chez HPE France, le volume de données n’est
pas indispensable à la mise en œuvre d’une stratégie Big Data. « L’absence d’un grand volume
de données ne doit pas, pour autant, dispenser les PME d’une stratégie de Big Data, car, quel que
soit le volume dont elles disposent, il est devenu crucial d’en tirer parti au maximum afin
d’innover, de prendre des parts de marché et d’améliorer ses processus. Toutes les entreprises
sont concernées par la valorisation des données. »
Tous les secteurs d’activité sont concernés
Si les startups furent les premières à se saisir du Big Data, tous les grands comptes de la vieille
économie ont compris l’intérêt de puiser dans la donnée des sources d’innovation, de
productivité, de rentabilité et de disruption.

C’est ainsi que les compagnies d’assurance ont revu leur façon d’assurer leurs clients. Grâce
à l’analyse de données issues de diverses sources – outils de CRM, objets connectés, études
de marché, indicateurs économiques, réseaux sociaux, données géographiques, etc. -, elles
sont devenues capables de proposer des contrats personnalisés pour coller au plus près des
risques quotidiens des clients.
Autre domaine révolutionné par le Big Data ; la relation marque-consommateurs. « En
collectant les données issues de la navigation des consommateurs sur les sites d’e-commerce, les
achats effectués en ligne, les commentaires laissés sur les forums ou sur les réseaux sociaux, les
e-commerçants acquièrent une vision 360° des consommateurs. Grâce à l’analyse et au
recoupement de toutes ces données par des outils de Big Data, ils proposent en temps réel aux
clients des recommandations personnalisées : offres promotionnelles, autres produits
susceptibles de les intéresser, alertes sur leurs produits préférés, prêts personnalisés,
etc. » précise Luc Germain, directeur Open Solutions chez Devoteam.
D’autres secteurs comme l’e-santé, les transports ou l’agriculture bénéficient aussi de la
valorisation des données. Par le croisement de données météorologiques, d’indicateurs sur
la qualité des sols et de l’air (température, humidité…), de photos d’exploitations issues de
satellites ou de drones, les exploitants agricoles gagnent en productivité. L’industrie n’est pas
en reste avec les données issues des capteurs, des process de fabrication ou de la
logistique. « Une entreprise comme UBS, par exemple, a constaté en collectant des données sur
les parcours des livreurs, qu’en organisant les trajets de façon à les faire tourner uniquement à
droite, les temps de livraison étaient considérablement raccourcis », raconte Ludovic
Nonclercq, skill unit manager, Devoteam.
Mais si le Big Data est désormais présent dans tous les secteurs d’activité, force est de
constater que de nombreuses PME ont encore des réticences face à cette technologie qu’elles
estiment trop complexe à mettre en œuvre. Or, de nombreuses solutions existent, que ce soit
des outils « on premise » ou des offres disponibles dans le Cloud. Tout est question
d’organisation et de pragmatisme.

Première étape : définir l’objectif d’un projet Big Data


En préambule d’une stratégie Big Data, l’entreprise doit définir son objectif. Ainsi, la première
question qu’elle doit se poser est la finalité de cette stratégie. Quelle difficulté souhaite-t-elle
surmonter ? Cherche-t-elle à améliorer la productivité de telle ou telle activité, à acquérir une
meilleure connaissance de ses clients, à créer de nouveaux services, à développer un nouveau
modèle économique ou encore à améliorer son image. « Soit l’amélioration porte sur le
business de l’entreprise et concerne alors toutes les activités commerciales, marketing,
communication de l’entreprise, soit elle porte sur les processus et se focalise alors sur la chaine
de production, la logistique, les achats, etc. » précise Florence Laget. Pour Luc Germain, « faire
l’impasse sur cette première étape conduit immanquablement l’entreprise à un échec ».
La deuxième étape consiste à faire un état des lieux des données présentes dans l’entreprise :
données issues des systèmes de gestion (CRM, achats, production, etc.), données
transactionnelles, registres officiels, sites internet, médias sociaux, données issues de
capteurs et objets connectés, traces numériques, études, etc. La PME peut alors faire le choix
de ne s’appuyer que sur ses propres données ou de les enrichir par des informations externes
issues de nombreuses sources : open data, objets connectés, indicateurs, mesures,
statistiques, bases de données, réseaux sociaux, etc. « Il existe, par exemple, des API capables
d’aspirer des informations sur Facebook ou Twitter » précise Nicolas Vincent. Et, poursuit
Florence Laget, « l’acquisition d’informations extérieures peut susciter dans l’entreprise des
idées qu’elle n’aurait pas eues en exploitant uniquement ses sources ».
Déploiement interne ou Cloud : quelle stratégie adopter ?
En fonction du volume de données, de la maturité de l’entreprise en matière de Big Data et
de ses compétences, plusieurs choix s’offrent à elle. « En cas de faible volume, elle peut
acquérir une solution comme HPE Vertica, qui lui permettra de gérer des données structurées
et semi-structurées sous SQL. Cette solution implémentée sur le serveur de l’entreprise est
gratuite jusqu’à un téraoctet de données et ne nécessite aucune compétence spécifique, SQL
étant maîtrisé par toutes les PME », souligne notre interlocutrice. Une PME peut aussi
développer des applications qui font appel à des fonctions analytiques dans le cloud sans
s’équiper de tous les outils. C’est le cas pour Haven on Demand et ses 70 fonctions Big Data
accessibles en mode API.
Une entreprise peut aussi faire le choix de souscrire une offre chez un opérateur de Cloud
public, privé ou auprès d’une startup spécialisée dans le Big Data. En faisant ce choix,
l’entreprise accède via internet aux outils de Big Data (infrastructures, logiciels et stockage).
Inutile donc pour elle d’investir dans l’achat d’une infrastructure et de logiciels. Il lui revient
en revanche la responsabilité de l’exploitation des données et l’interfaçage avec le système
d’information de l’entreprise. Des compétences sont donc requises. « C’est pourquoi, pour une
PME totalement néophyte, des startups spécialisées comme C-Radar (mise à disposition de
données de marché) ou Dataiku (studio d’analyse de données) sont de bons partenaires pour
mettre le pied à l’étrier. Ces prestataires accompagnent l’entreprise soit dans l’enrichissement
de ses données par des sources extérieures, soit dans leur exploitation et leur valorisation. Au-
delà des données et outils mis à disposition, c’est surtout l’apport de compétences en data
analytics, via les data scientists, qui est porteur de valeur pour l’entreprise » explique Nicolas
Vincent.
Ces spécialistes de la donnée sont indispensables, car le Big Data, en rupture totale avec
l’analyse classique des données qui repose sur l’effet de causalité, est basé sur la corrélation
entre des données qui n’ont rien en commun. « Par ailleurs, son fonctionnement se base sur
l’exécution d’un traitement réparti sur des serveurs mis en parallèle, c’est-à-dire plusieurs
ordinateurs indépendants fédérés comme un système unique », explique Florence Laget. En
fonction du volume de données, ce traitement peut nécessiter d’importantes capacités de
calcul. Or, ces moyens sont disponibles dans les grands datacenters comme Amazon, Google
ou chez des fournisseurs comme Microsoft, HPE, IBM, des ESN (Atos, Ysance, Micropole…) ou
des startups spécialisées. Mais, comme le précise Nicolas Vincent, « il est possible pour une
PME de tirer de la valeur liée à la bonne exploitation de ses données sans avoir recours à des
puissances de calcul importantes. C’est pourquoi je préfère parler de Smart Data pour les PME
que de Big Data. »
Big Data : une stratégie qui se construit étape par étape
Tous les professionnels sont unanimes : une stratégie Big Data se construit par
étape. « L’entreprise doit procéder par itération. Elle doit débuter par un cas d’usage, le tester,
et en cas de succès industrialiser le processus. L’industrialisation du process s’accompagne
généralement d’une croissance du volume de données et il est alors pertinent d’implémenter en
interne une solution de Big Data », conseille Florence Laget, la directrice Big Data de HPE.
Un avis partagé par Nicolas Vincent. « Si dans un premier temps il est pertinent de souscrire un
contrat chez un prestataire de services pour tester un ou plusieurs projets, une fois l’entreprise
convaincue des bénéfices, il est plus intéressant de mettre en œuvre une solution interne afin
d’être plus réactif et de mener des analyses très spécifiques à son activité ». Pour Ludovic
Nonclercq, « il est préférable de former ou de recruter un data analyst dont le rôle est
d’identifier les données qui fournissent des informations utiles à la performance de l’entreprise,
plutôt qu’un data scientist dont la mission est de développer des algorithmes et des modèles
statistiques qui optimisent les performances métiers. »
Par ailleurs, il est important pour les entreprises de s’organiser en rapprochant la DSI, les
spécialistes de la donnée et les métiers, car une donnée n’a de valeur que lorsqu’on sait
l’interpréter. « Une information sur une machine de production sera lisible par les spécialistes
de la chaine de production. Dans le cadre de la maintenance prédictive, ils seront capables
d’évaluer la pertinence de la changer ou d’opter pour une nouvelle machine plus performante
sachant, par exemple, que les réglementations ou les besoins du marché ont évolué. C’est en
collectant toutes ces données et en les faisant analyser en relation avec les métiers que
l’entreprise prend les meilleures décisions, » souligne Florence Laget.
Mise en place d’une gouvernance de la donnée
Enfin, le Big Data nécessite de bien connaître les données collectées et produites par
l’entreprise. Il nécessite aussi de reconsidérer les processus de collecte, de traitement, de
stockage et de repenser leur organisation de manière transversale et non en silo. Il est en
effet contre-productif, par exemple, de voir dans les services marketing et commercial deux
bases de données clients disjointes et incompatibles alors qu’une partie des informations
collectées est similaire.

Une stratégie Big Data nécessite de gérer et centraliser l’ensemble des données produites ou
collectées par l’entreprise. Stockées dans un data lake, ces données sont déposées sans
connaître leur finalité. « Le Big Data ne s’inscrit pas dans un processus statique, mais dans une
démarche de création de valeur en continu », précise notre interlocutrice. Une approche très
différente de celle pratiquée dans le cadre du décisionnel, où les données étaient orchestrées
dans des bases en fonction de l’objectif de leur exploitation. Bien que la philosophie du Big
Data soit de collecter la donnée sans but précis, les process de collecte et de stockage doivent
être, en revanche, finement orchestrés. La mise en place d’une stratégie Big Data nécessite
donc de la part de l’entreprise de déployer une gouvernance de la donnée et de considérer
que la data est au cœur de son activité.
Avis d’expert – Les 4 exigences de la
révolution Big Data dans le Cloud
BIG DATACLOUD

Facebook

Twitter

Linkedin

Pour Karine Calvet, directrice générale de Verizon France, l’incontournable Big Data ne pourra
émerger qu’à condition de réunir les critères qualitatifs du Cloud. Un niveau d’exigence
qu’auront du mal à atteindre certains acteurs du Cloud. Ce qui ouvre la voie à la consolidation
de ce marché.
Depuis quelques années, la question du Cloud occupe les gros titres en ne laissant que peu d’espace
pour les autres tendances IT. Mais récemment, le « Big Data » a supplanté le Cloud dans les discussions
et mobilise plus encore l’attention des professionnels. Une chose est sûre, maintenant que l’on connaît
mieux les capacités et le potentiel du Big Data : celui-ci n’aurait jamais pu exister sans le Cloud, et
à cause de lui, le Cloud ne sera plus jamais pareil. Nous autres, fournisseurs et utilisateurs des
technologies Cloud, nous devons nous interroger sur les changements à venir pour l’industrie.
Sommes-nous prêts à gérer la déferlante du Big Data ? Est-ce que tous les fournisseurs Cloud pourront
assumer les nouvelles demandes générées ?

Karine Calvet, directrice générale de Verizon France


Si le Big Data apparaît compliqué de prime abord, un large pourcentage de la population s’expose à
son utilisation chaque jour sans s’en rendre forcément compte. Par exemple, grâce au Big Data, les
grands moteurs de recherche suggèrent des mots dans leur barre de recherche avant même que
l’utilisateur ait fini de taper un terme. Comment est-ce possible ? C’est effectivement une opération
complexe, mais pour faire simple, disons que les moteurs de recherche stockent de grandes quantités
de termes de recherche, qu’ils trient et classent pour pouvoir suggérer aux internautes les mots les
plus populaires et pertinents.

La nature perturbatrice du Big Data


Dans le contexte du Cloud, la nature complexe et perturbatrice du Big Data prend tout son sens. Cette
nature perturbatrice est liée aux différents facteurs qui entrent en jeu pour parvenir à exploiter ces
énormes volumes de données, mais aussi pour les sollicitations supplémentaires auxquelles les
fournisseurs de services Cloud doivent faire face. Par exemple :
1. Toutes les données doivent être stockées au même endroit : en effet, il faut pouvoir analyser
et traiter les données au même endroit, sans quoi les déplacements de données entre différents
lieux prolongeraient considérablement les délais d’analyse. Les fournisseurs de Cloud doivent
donc avoir au moins un datacenter pouvant stocker toutes les données. Est-ce que c’est le cas de
tous les fournisseurs Cloud ?
2. La fiabilité du réseau compte : pour pouvoir analyser avec efficacité de grandes quantités de
données, les fournisseurs de Cloud doivent pouvoir offrir un réseau ultra-fiable et puissant, sans
quoi on risque bien d’attendre le résultat d’une analyse pourtant censée être instantanée. Est-ce
que tous les fournisseurs peuvent offrir un réseau aussi puissant ?
3. Le strict respect des accords de niveau de service (SLA) : en cours d’analyse, une défaillance de
machine virtuelle (VM) suffit à interrompre l’opération et le client devra réexécuter toute sa
requête. Autrement dit, avec le Big Data, les accords de niveau de service cessent d’être une simple
préférence pour devenir obligatoires. Est-ce que tous les fournisseurs Cloud satisfont à cette
exigence ?
4. Configuration sur mesure, au cas par cas : puisque la stabilité, la puissance du réseau et la
capacité de stockage prennent de l’importance avec le Big Data, les niveaux de performance et de
qualité de service doivent pouvoir être configurés pour chaque client. Est-ce que tous les
fournisseurs peuvent honorer cette exigence, et surtout l’accepteront-ils ?
Satisfaire toutes les exigences
Il est clair que la qualité de service du réseau, les accords de niveau de service portant sur la
performance et la disponibilité, ainsi que les API sont des aspects critiques pour le bon
fonctionnement des outils d’analyse du Big Data. Pour cette raison, tout fournisseur Cloud doit
satisfaire chacune de ces exigences afin de pouvoir exécuter correctement les analyses et prétendre
fournir des services autour du Big Data.

Or, la majorité des fournisseurs Cloud ne sont pas prêts. En conséquence et dans le contexte de la
future croissance exponentielle des services autour du Big Data, on assistera probablement à
la consolidation de l’industrie, qui va se resserrer autour d’une poignée de fournisseurs qui
poursuivront leur développement, tandis que les autres se spécialiseront sur des niches et résoudront
les problèmes IT secondaires des clients. Ne vous y trompez pas : la révolution du Big Data a déjà
commencé, et alors que chaque DSI se sent contraint de trouver de nouveaux moyens économiques
pour stimuler la croissance, le Big Data va continuer d’alimenter les conversations et devenir un
facteur de consolidation du marché du Cloud.
Karine Calvet, directrice générale de Verizon France
Définition : Qu'est-ce que le Big Data ?

Pour
répondre aux nouveaux enjeux de traitement de très hautes volumétries de données, les
entreprises peuvent faire appel à des solutions spécialisées dans le Big Data. JDN Solutions
fait le point.

EN SAVOIR PLUS
• Chronique : Les innovations technologiques Big Data (Brian Gentile - JasperSoft)
• Dossier : Business Intelligence
Que recouvre la notion de Big Data ?
Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux
moyens technologiques proposés par les éditeurs, en particulier de la Business Intelligence, pour y
répondre. Le terme même de Big Data a été évoqué la première fois par le cabinet
d'études Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001 et ont été
évoquées par le cabinet Meta Group racheté en 2005 par... Gartner.
A quels enjeux répondent les solutions de Big Data ?
Les fournisseurs de solutions ont commencé à élaborer leurs offres à la fin des années 2000 et le
mouvement s'est accéléré ces derniers temps avec l'arrivée sur ce créneau d'acteurs historiques
comme Oracle, IBM et Microsoft.
Les objectifs de ces solutions sont de traiter un volume très important de données aussi bien
structurées que non structurées, se trouvant sur des terminaux variés (PC, smartphones, tablettes,
objets communicants...), produites ou non en temps réel depuis n'importe quelle zone géographique
dans le monde.
L'un des principaux points forts de la base de données NoSQL est sa performance
Sur quelles technologies reposent les solutions Big Data ?
Pour analyser les hautes et disparates volumétries de données, les solutions peuvent s'appuyer sur
trois types de technologies distinctes : une accélération matérielle à l'aide de mémoires dynamiques
DRAM ou Flash, le recours à des bases de données massivement parallèles (Massively Parallel
Processing) ou encore les solutions utilisant des formats de bases de données non relationnelles
basées sur NoSQL.
Quel est l'intérêt de proposer du Big Data basé sur NoSQL ?
L'un des principaux points forts de la base de donnée NoSQL est sa performance. Ce n'est d'ailleurs
pas pour rien que des géants du Web comme Facebook, Twitter et ou encore LinkedIn ont choisi de
migrer une partir de leurs données dessus. Les atouts de NoSQL sont au moins au nombre de trois :
cohérence (visibilité par tous les nœuds d'un système des données identiques à un instant T), haute
disponibilité des données même en cas de panne, et possibilité de partitionner tout système
distribué.
Quels fournisseurs s'appuient sur NoSQL et Hadoop pour leurs solutions Big Data ?
Les fournisseurs proposant des solutions basées sur ce type de bases de données sont de plus en
plus nombreux. Ils y associent également le plus souvent le framework Open Source d'analyse de
données en masse Hadoop, comme c'est le cas pour Microsoft et IBM. Mais également Oracle qui
de son côté propose une appliance (boîtier) dédiée au Big Data reposant à la fois sur Hadoop mais
aussi une version personnalisée de NoSQL. Des pure players se positionnent également sur le
terrain du Big Data. C'est le cas de Palantir et Basho. Des acteurs du cloud y sont aussi présents, en
intégrant Hadoop à leur infrastructure (Google, Microsoft Azure et Amazon Web Services par
exemple).
A LIRE AILLEURS
• Article : Big Data : 5 choses à savoir avant de se lancer (en anglais)
• Encyclopédie :Wikipedia (en anglais)
Le Big Data fait-il partie des préoccupations centrales des DSI ?
Pour le cabinet d'études Gartner, aucun doute là-dessus. Elle arrive même devant le Cloud
Computing et l'analyse en mémoire dans le palmarès des 10 tendances technologiques stratégiques
pour l'année 2012. Mais le Big Data se fait tout de même voler la vedette par d'autres
problématiques clés dont l'intégration dans le système d'information des tablettes ou encore
l'Internet des objets.
Data Management – Top des meilleurs
fournisseurs de solutions de gestion de
données
Bastien L 14 juillet 2017 Data Analytics, Startups Big Data Ecrire un commentaire

Afin d’améliorer leur business, les entreprises s’en remettent de plus en plus au
Big Data et à l’analyse de données. Toutefois, la gestion de larges quantités de
données peut s’avérer très complexe. Plus les données sont nombreuses, plus la
gestion devient difficile. C’est la raison pour laquelle il est essentiel de choisir des
solutions de Data Management adaptées aux besoins de l’entreprise. Découvrez
notre sélection des meilleurs fournisseurs de solutions de gestion de données.

Alation : une plateforme centralisée pour le data management


L’entreprise Alation propose des services de gestion de données basés sur le cloud
conçus pour centraliser les connaissances sur les données d’une entreprise et la
façon optimale de les utiliser. Ses solutions permettent à tous les employés d’une
entreprise de consulter les données depuis une plateforme centralisée pour simplifier
la collaboration. La plateforme indexe automatiquement les données en fonction de
leur source. Tout comme Google, Alation utilise le Machine Learning pour s’améliorer
en continu.

Ataccama : une plateforme combinant data management, data


gouvernance et data quality
Ataccama combine des solutions de data management, de découverte de
données, de data quality et de data governance au sein d’une même plateforme
EIM collaborative. Depuis son lancement en 2009, cette solution est parvenue à
fédérer plus de 19 000 analystes de données, data scientists, architectes de base de
données et enseignants universitaires. Cette solution est disponible sous forme
d’application desktop ou directement depuis un navigateur web.
AtScale : une plateforme permettant d’effectuer des requêtes Hadoop avec des
outils BI
La technologie AtScale permet d’effectuer des requêtes de données stockées sur
Hadoop en utilisant les outils de Business Intelligence les plus populaires. Ainsi, tous
les employés de l’entreprise peuvent accéder facilement aux données et les exploiter.
Ce fournisseur est en partenariat avec de nombreux acteurs du secteur du Big Data et
de la BI comme Cloudera, Databricks, HortonWorks, Microsoft, Google, Mapr et
Tableau.

Cloudera : l’un des principaux distributeurs de solutions Hadoop


Cloudera est l’un des trois principaux distributeurs de solutions Hadoop. La firme
propose ses propose solutions de gestion Big Data et de technologies analytiques
pour les entreprises. Intel possède une grande partie de Cloudera. Sa plateforme
permet à la fois de comprendre les clients, de connecter les produits à l’internet des
objets, et de protéger l’entreprise contre les cybermenaces. Son Data Hub est le logiciel
Big Data le plus rapide, sécurisé est simple d’utilisation.

Collibra : une solution d’automatisation de data management


Collibra permet aux entreprises d’automatiser le data management et la data
gouvernance des entreprises afin de rendre les données accessibles, traçables et
utiles pour tous les employés. Sa plateforme permet d’utiliser des recherches
sémantiques pour découvrir des informations précieuses au sein des ensembles de
données, d’automatiser la gouvernance des données, d’offrir un accès instantané aux
données, et de collaborer pour développer et maintenir un contexte autour des
données. Ses diagrammes interactifs permettent également d’explorer les données
visuellement. Collibra permet aussi d’identifier les problèmes de données, de lier les
sources de données, les applications, les data lakes et les métadonnées de toute
l’entreprise par le biais de templates et de créer un catalogue complet de données
pour savoir quelles sont les informations à disposition.

Confluent : une solution en streaming


Confluent est le créateur et le distributeur de Apache Kafka, une plateforme de
streaming permettant de publier, de stocker et de traiter des données au sein
d’un Stream. Cette solution vise à répondre au problème rencontré par de
nombreuses entreprises qui peinent à gérer leurs données en utilisant des plateformes
traditionnelles. Depuis peu, Confluent propose également Confluent Cloud,
permettant de profiter de Apache Kafka sous forme de service.
Databricks : le créateur de Apache Spark
Databricks est le principal distributeur de Apache Spark, une technologie Big Data
open source perçue par beaucoup comme un système d’exploitation ayant
permis d’accélérer l’adoption du Big Data au sein des entreprises. Sparks accélère
les opérations Big Data et permet l’exploitation de données en temps réel.

Dell Boomi : la plateforme de data management de Dell


Acquis par Dell en 2010, Boomi se spécialise dans l’intégration cloud, la gestion
d’API, et le master data management. Cette plateforme se présente comme la
principale PaaS de l’industrie et permet aux entreprises d’améliorer leur gestion de
données.

Hortonworks : une solution pour tous les types de données


Tout comme Cloudera, Hortonworks est l’un des trois principaux vendeurs
Hadoop. Il est également le créateur de l’ODPI (Open Data Platform Initiative). Sa
plateforme permet de gérer les données en mouvement, les données au repos, les
données structurées et les données non structurées. Sa technologie Open Source laisse
une indépendance totale aux entreprises.

Informatica : une solution modulaire pour le data management


Informatica propose de nombreux produits pour la data integration, la cloud data
integration, la data quality, la data replication, la data virtualization et le master
data management. Sa solution de data management permet de maximiser la valeur
des données pour une entreprise, avec une solution modulaire offrant une vue unifiée
des données. Ainsi, la prise de données est facilitée, et l’expérience client est améliorée.

Information Builders : une plateforme de data management installable sur


le cloud ou en interne
Information Builders est principalement connu pour sa technologie de business
intelligence et sa technologie analytique, mais propose aussi un ensemble
d’outils iWay pour le data management. La plateforme de data management de
Information Builders est suffisamment puissant pour permettre aux entreprises d’avoir
un contrôle complet de leurs ensembles de données. Installée sur le cloud ou en
interne, elle offre un accès rapide et précis aux données sur tous les systèmes.

MongoDB : le créateur de la base de données NoSQL éponyme


MongoDB est le distributeur de la base de données NoSQL du même nom, très
populaire, utilisée par des entreprises de renom comme Facebook, eBay, Expedia
et de nombreuses entreprises de Fortune 100. Sa base de données permet de
développer des solutions de gestion de données facilement, rapidement, à un coût
très réduit. Les utilisateurs peuvent également développer de nouvelles sources
d’avantages compétitifs.

SAP : une solution complète de data management et data governance


Le logiciel Master Data Governance de SAP est conçu pour permettre de
consolider et de gouverner les données de façon centrale pour garantir leur
qualité et leur consistance au sein de l’entreprise.

[Link]

[Link]

[Link]

[Link]
Qui sont les acteurs du marché Big Data ?

L’évolution technologique actuelle fait du Big Data un outil incontournable pour toute
entreprise souhaitant mieux connaître ses clients potentiels. En pleine croissance, le
marché du Big Data regroupe plusieurs acteurs proposant des services spécifiques.

1. Les acteurs historiques

Les fournisseurs historiques de solutions IT tels que HP, Oracle, IBM ou SAP figurent
parmi les principaux acteurs du Big Data. Ainsi, IBM propose depuis fin
2011 InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. Cette version
pouvant gérer 10To de données est accessible gratuitement aux utilisateurs de Linux.
Cependant, BigInsights Enterprise est payant.

De son côté, Microsoft a privilégié l’utilisation du framework Hadoop en 2011 au


détriment de LINQ to HPC. Le géant de l’informatique l’a ainsi utilisé pour
développer Windows Azure et Windows Server. L’éditeur de Redmond a également
développé SQL Server2012, un logiciel spécialisé dans la gestion des bases de
données dans le souci de répondre aux besoins du Big Data.

2. Les grands noms du web

Les grands acteurs du web, dont les moteurs de recherche Yahoo et Google, ainsi
que les réseaux sociaux comme Facebook proposent également des solutions Big
Data. Dès 2004, Google a proposé MapReduce, un algorithme capable de traiter et de
stocker une grande quantité de données. En 2014, Google a annoncé son
remplacement par Google Cloud Dataflow, une solution SaaS.

Pour sa part, Yahoo figure parmi les principaux contributeurs du projet Hadoop en
embauchant Doug Cutting, son créateur. Le moteur de recherche a également créé
Hortonworks, une entreprise se consacrant entièrement au développement de
Hadoop.

Amazon, le géant américain de la vente en ligne, figure également parmi les


précurseurs du Big Data. Depuis 2009, il met à la disposition des entreprises des
outils tels qu’Amazon Web Services et Elastic MapReduce, plus connu sous le sigle
EMR. Ce dernier est accessible à tous étant donné que son utilisation ne requiert
aucune compétence en installation et ajustement des clusters Hadoop.

L’analyse des données est facilitée par un supercalculateur de 50000 cœurs, dont
l’accès est monnayé 5000 dollars de l’heure. Retrouvez toutes les définitions du big
data dans cet article.

3. Les spécialistes

Parmi les spécialistes des solutions Big Data, on peut citer les intégrateurs tels que :

• CapGemini
• Accenture
• EMC
• MapR
• Teradata
• Sopra
• Atos

On retrouve également les spécialistes de l’analytique :

• Qliktech
• SAS
• Micro-strategy

ou encore les fournisseurs spécialisés tels que :

• Zettaset
• Datameer

On peut citer les PME spécialisées dans le Big Data à l’image des éditeurs de logiciels
comme :

• Dataiku
• Hurence

et les spécialistes de l’analyse des données tels que


• Criteo
• Actian
• Tiny Clues
• IKO System

Enfin, certaines entreprises spécialisées dans le conseil se démarquent, comme Data


Publica ou Ysance.
Voici 10 caractéristiques et fonctionnalités indispensables à un
outil analytique Big Data, pour qu'il puisse réduire la complexité du travail
des Data Scientists dans leur mission d'améliorer les résultats de
l'entreprise grâce à l'exploitation des données.

1 - Résultats encapsulables et partageables


L'analytique Big Data crée véritablement de la valeur lorsque les connaissances
générées à partir des modèles de données peuvent aider à prendre des décisions
avec d'autres applications.

« Il est primordial de pouvoir intégrer ces informations dans un processus


décisionnel en temps réel », avertit Dheeraj Remella, responsable de la technologie
chez VoltDB, un fournisseur de base de données in memory.

Pour cela, l'outil doit être capable de créer des aperçus dans un format facilement
intégrable, notamment dans une plate-forme décisionnelle de type BI, qui elle
même doit d'intégrer ces aperçus dans un flux de données et d'événements pour
prendre des décisions en temps réel.

2 - Data Wrangling
Les Data Scientists ont tendance à consacrer beaucoup de temps au nettoyage, à la
classification et à l'organisation des données avant leur analyse. Pour faciliter leur
tâche, il faut pouvoir intégrer de façon transparente des sources et des types de
données disparates, des applications et des API et gérer les accès de manière
granulaire et sécurisée, basée sur les rôles.

« Les outils d'analyse des Big Data doivent donc prendre en charge l'ensemble des
types de données, des protocoles et des scénarios d'intégration afin d'accélérer et de
simplifier ces différentes étapes du Data Wrangling », conseille Joe Lichtenberg,
directeur marketing pour les plates-formes de données chez InterSystems, un
fournisseur de bases de données.

3 - Data Exploration
L'analytique implique souvent une phase de découverte (Data Discovery) et
d'exploration (Data Exploration) ad hoc des données sous-jacentes.

Cette exploration aide à comprendre le contexte fonctionnel d'un problème et à


formuler de meilleures questions analytiques.

Toutes les fonctionnalités qui aident à rationaliser ce processus facilitent le test de


nouvelles hypothèses, accélère l'élimination des mauvaises données et simplifient
la découverte de corrélations cachées dans ces données.

De solides capacités de visualisation (DataViz) peuvent également faciliter ce


processus d'exploration.

4 - Être une base pour différents cas d'usages


Il existe plusieurs manières d'exploiter en production les résultats d'une analyse
Big Data : Business Intelligence, analyse prédictive, analyse en temps réel ou
l'apprentissage machine par exemple. Chaque approche apporte une valeur
différente.

Les bons outils d'analytique Big Data doivent être suffisamment fonctionnels et
flexibles pour prendre en charge ces différents cas d'utilisation, avec un minimum
d'effort et peu d'apprentissage supplémentaire.

5 - Scalabilité
Les Data Scientists ont généralement le luxe de pouvoir développer et tester
pendant longtemps différents modèles sur de petits ensembles de données. Mais les
modèles qui en résultent doivent fonctionner de manière rentable, et ils doivent
souvent produire des résultats rapidement.

Cela exige de ces modèles qu'ils acceptent des montées en charge rapides, en
supportant en production l'ingestion et le traitement de grosses quantités de
données, et ce sans avoir de coûts exorbitants en matériel ou en services cloud.

« Un outil qui sait accompagner un algorithme dans sa croissance, pour qu'il passe
de manière simple du traitement de petits jeux de données à celui de très gros
ensembles de données est essentiel », affirme Eduardo Franco, responsable des
données chez Descartes Labs, une société d'analyse prédictive. « Beaucoup de
temps et d'efforts sont consacrés à cette montée en puissance, donc l'automatisation
est d'une grande aide ».

6 - Versioning
Dans un projet Big Data, plusieurs personnes peuvent être impliquées dans
l'ajustement des paramètres du modèle d'analyse. Certains de ces changements
semblent prometteurs au départ, mais ils peuvent créer des problèmes inattendus
lorsqu'ils sont mis en production.

Un contrôle de version (versioning) directement intégré aux outils Big Data peut
améliorer leur capacité à suivre ces modifications. Si des problèmes surviennent, il
peut également être plus facile de revenir à une version antérieure du modèle
d'analyse qui a mieux fonctionné.

« Sans versioning, un changement effectué par un développeur, seul de son côté,


peut entraîner un dysfonctionnent de tout ce qui a déjà été créé », constate Charles
Amick, vice-président Data Sciences chez Devo, un fournisseur d'outils
analytiques pour les données opérationnelles.

7 - Intégration simple
Moins les Data Scientists et les développeurs passeront de temps à personnaliser
les intégrations, aux sources de données et aux applications, plus ils consacreront
du temps à améliorer les modèles analytiques et leurs usages.

Des intégrations simples facilitent également le partage des résultats avec d'autres
développeurs et d'autres spécialistes des données.

Les outils d'analyse Big Data doivent donc s'intégrer facilement avec les
applications, les entrepôts de données de l'entreprise et le cloud.

8 - Gestion des données


« Les outils d'analyse Big Data ont besoin, en fondation, d'une gestion des données
robuste et efficace pour assurer la continuité et la standardisation de tous les
livrables », ajoute Tim Lafferty, directeur de l'analyse chez Velocity Group
Development, une société de conseil en analyse de données. « Or la volatilité des
données augmente avec leur volumétrie ».

Une plate-forme de gestion de données digne de ce nom aide à maintenir une


« source unique de vérité », ce qui est essentiel au succès d'une initiative Big Data.

9 - Gouvernance des données


Les fonctions de gouvernance de données sont importantes pour les outils Big
Data. Elles aident les entreprises à rester conformes et sécurisées.

La gouvernance permet de suivre les données (leurs sources et leurs


caractéristiques) pour construire des modèles sécurisés et pour gérer leurs flux
(déplacements, modifications, etc.) jusqu'aux Data Scientists et aux ingénieurs.

La gouvernance est particulièrement cruciale pour les données sensibles, comme


les informations de santé ou les informations personnelles qui doivent être
conformes aux réglementations en matière de confidentialité.

Certains outils proposent aujourd'hui la possibilité de « pseudonymiser » les


données, ce qui permet aux analystes de construire des modèles fondés sur des
renseignements personnels tout en restant conforme au RGPD.

10 - Framework
De nombreux outils d'analyse Big Data se focalisent soit sur l'analyse, soit sur le
traitement des données. Mais certains frameworks, comme Apache Spark,
supportent les deux.

Ce framework permet d'utiliser les mêmes outils aussi bien pour le traitement en
temps réel, que pour les tâches complexes d'extraction, de transformation et de
chargement (ETL), ou pour l'apprentissage machine, le reporting ou les requêtes
SQL.
Un tel framework est bénéfique parce que la Data Science est un processus
hautement itératif. Un spécialiste peut créer 100 modèles avant d'en élaborer un qui
sera finalement mis en production. Ce processus itératif implique souvent
l'enrichissement des données pour améliorer les résultats des modèles.

« Les outils d'analyse qui unifient ces tâches aident les entreprises à construire des
pipelines de données à travers une multitude de systèmes de stockage, souvent en
silo, tout en formant et en modélisant des solutions de manière itérative », vante
Ali Ghodsi, CEO et co-fondateur de Databricks, un éditeur de plate-forme de data
analytics.
Organisation, rôles et gouvernance : de nouveaux
modèles à l’heure du Big Data
Publié le 29 avril 2016

D’après notre étude sur les grandes tendances Data & Analytics 2016,
65% des sociétés françaises estiment que les opportunités liées à la Data
vont engendrer des changements d’organisation et de nouvelles façons
de travailler. Entre développement d’écosystèmes de partenaires,
renforcement des processus collaboratifs et émergence de nouveaux
rôles, les organisations et les pratiques évoluent au sein des entreprises.

L’intelligence collective au cœur des nouveaux modèles organisationnels

Le Big Data, et plus généralement la transformation digitale des entreprises,


favorisent et accélérèrent l’émergence de nouveaux modèles de travail et de
gouvernance plus ouverts, transverses et décloisonnés.

En interne, les relations entre les différentes entités de l’entreprise se fluidifient


et le fonctionnement en silos semble reculer au profit d’une organisation en
mode projet, plus souple et davantage axée sur la collaboration et l’échange.
L’essor du Big Data joue un rôle clé dans ces évolutions, puisque la collecte et
l’interprétation des données nécessitent l’intervention croisée de plusieurs
types de compétences (compétences mathématiques et statistiques,
compétences informatiques, compétences en architecture et urbanisation des
données, en communication etc.). Les équipes techniques doivent collaborer
avec les équipes métiers pour savoir où capter la donnée et pour quel objectif
business, tandis que les différents départements métiers sont amenés à
davantage communiquer entre eux pour échanger leurs données et les
corréler entre elles. La collaboration est donc un impératif au cœur du
déploiement des projets Big Data. Une réalité qui est pourtant encore loin de
s’imposer dans la plupart des entreprises : pour au moins 55% des répondants
de notre enquête, le fonctionnement en silos fait partie des principaux freins
au développement de la Data analytics. Ces obstacles seront sans nul doute
levés avec l’arrivée des Millennials aux postes de direction, et l’adoption
progressive par cette génération de modes de travail plus souples et de
processus plus agiles, en rupture avec les modèles d’organisation historiques.

En externe, cette tendance à l’ouverture et à la collaboration commence à


s’observer également. Les entreprises s’ouvrent sur l’extérieur pour capter plus
simplement et plus rapidement la connaissance et la compétence qui leur sont
nécessaires. Des liens se nouent ainsi avec des écosystèmes
externes (alliances entre le monde industriel et le monde académique,
partenariats avec des start up…). Là encore, les projets Big Data sont des
vecteurs importants d’ouverture : 50% des organisations envisagent de plus en
plus d’échanges de données avec des tiers (clients, fournisseurs, partenaires…)
dans les prochaines années et 23% d’entre elles ont initié une réflexion autour
de l’ouverture des données (Open Data).

L’émergence de nouveaux rôles clés

Ce vent du changement favorise l’émergence de nouveaux rôles clés au sein


des entreprises, et notamment de deux rôles liés à la data, de plus en plus
plébiscités aujourd’hui: le Chief Data Officer (CDO) et le Data Scientist. Selon
notre enquête, plus de 70% des organisations considèrent qu’il est urgent de
renforcer ces rôles même si les activités associées ne sont pas complètement
clarifiées ou normées.

Le rôle du CDO est de piloter la stratégie Data et de fédérer l’ensemble des


directions de l’entreprise (directions financières, direction des risques…) autour
des projets Big Data. Il est chargé de créer des synergies, de fluidifier les
échanges et de multiplier les interactions entre les différentes entités. C’est à
lui de donner les grandes orientations stratégiques en matière de data :
quelles données rechercher ? A partir de quelles sources ? Quelles données
sont utiles à l’entreprise et pourquoi ? On estime que 90% des entreprises
auront un CDO d’ici 2020, même si pour l’instant seuls 48% des répondants
ont une bonne vision de son rôle dans leur organisation. Le Data Scientist,
quant à lui, met ses compétences au service de l’analyse des données. Il est
capable de faire parler les données, de leur donner du sens et de les
interpréter correctement. L’augmentation des volumes de données crée un
intérêt croissant pour ce type de profil, dont le rôle et les fonctions sont
d’ores-et-déjà bien appréhendées par 72% des entreprises.
Au-delà de la technologie, l’humain reste le facteur clé de succès des projets
Big Data au sein des entreprises. Ces dernières doivent professionnaliser les
pratiques de gestion et d’exploration des données et ancrer durablement les
rôles de CDO et de Data Scientists au sein de leur organisation.

Comment accompagner et encourager ce mouvement de


transformation ?

L’intégration de ces nouveaux rôles dans l’entreprise et tous les changements


organisationnels induits par l’essor du Big Data nécessitent l’adoption d’une
démarche volontaire d’accompagnement du changement.

Pour réussir leur virage organisationnel, les entreprises doivent


notamment investir dans la formation et le recrutement. Il est désormais vital
pour elles d’acquérir de nouvelles compétences (data scientist, data
manager…) pour tirer parti des opportunités offertes par les nouvelles
technologies et la data. C’est en en formant leurs collaborateurs et en
recrutant de nouveaux types de profils qu’elles pourront y parvenir.

Il est également nécessaire d’insuffler une culture maîtrisée du changement.


Les enjeux de la data ne sont pas seulement d’ordre technologique : ils sont
également culturels. Les nouveaux modèles d’organisations, basés sur le
décloisonnement des structures, l’ouverture sur l’extérieur et l’émergence de
nouvelles fonctions clés, peuvent venir s’entrechoquer avec la réalité de
certaines entreprises, encore largement attachées aux modes d’organisation
traditionnels. Changer d’organisation peut prendre du temps et nécessite
donc un effort constant d’explication, de communication et de transparence,
pour rassurer les collaborateurs sur les nouvelles méthodes et leurs impacts.

Enfin, les processus de gouvernance doivent être adaptés pour permettre


davantage de souplesse et de coopération entre les différentes entités de
l’entreprise. Une gouvernance décentralisée notamment, fondée sur la
confiance, favorisera l’autonomie et la responsabilisation des salariés en faveur
d’une intelligence collective efficiente.

Les entreprises, en effectuant leur transformation digitale et en mettant


progressivement en place des projets Data, sont donc amenées à adopter
de nouveaux codes, à développer des mécanismes d’intelligence
collective et à recourir à de nouveaux types de compétences. Tout l’enjeu,
pour elles, est de concilier ces modèles d’organisation émergents avec les
modèles historiques, et de s’appuyer sur ces évolutions pour développer
de nouvelles sources de croissance et de performance.
INGENIEUR BIG DATA
L’essor du Big Data a entraîné la naissance de nombreux nouveaux métiers. Pour collecter,
analyser et exploiter des données afin de stimuler leur croissance et d’aiguiller leurs
stratégies, les entreprises de tous les secteurs ont besoin de professionnels qualifiés. Parmi les
profils en mesure d’accomplir ces tâches, les métiers du Big Data, on compte l’ingénieur Big
Data.
Tout savoir sur le métier d'ingénieur Big Data
Rôle et missions de l'ingénieur Big Data
Ingénieur Big Data : compétences et qualités nécessaires
Ingénieur Big Data : diplômes et formations
Ingénieur Big Data : insertion sur le marché professionnel
Salaire de l'ingénieur Big Data

Missions
• Valoriser les données de l’entreprise
• Analyser les données de l’entreprise
• Classer les informations recueillies en fonction des besoins
• Fournir des rapports à ses supérieurs
• Concevoir et gérer l’architecture Big Data de l’entreprise
• Veille technologique

Compétences
• Expertise en informatique, mathématiques et statistiques
• Maîtrise d’internet et des bases de données
• Maîtrise de l’anglais technique
• Maîtrise des langages de programmation (Java, Scala…)
• Connaissance de l’entreprise
• Maîtrise des cadriciels (Hadoop, Spark, Hive, Storm, Pig)
• Talent pour la communication écrite et orale

Diplômes et formations
• Bac+5 Big Data
• Bac+8 Statistiques
• Formation Big Data

Salaire
Entre 2500 et 3000 euros bruts pour un débutant
Environ 5000 euros bruts après 3 à 5 ans d’expérience

1. Emplois Big Data


2. Chief Data Officer
3. Architecte Big Data
4. Business Intelligence Manager
5. Master Data Manager
6. Data Protection Officer
7. Data Scientist et Chef Data Scientist
8. Data Miner
9. Data Analyst

DATA MINER
Au sein d’une entreprise, les données peuvent être utilisées pour prendre des
décisions stratégiques. Par exemple, les informations sur les préférences des clients
peuvent aiguiller l’entreprise pour ses créations de produits ou pour ses campagnes
marketing. Le rôle du Data Miner, ou fouilleur de données, est d’explorer les
données à sa disposition pour trouver celles qui peuvent aider l’entreprise. Il s’agit
de l’un des métiers du Big Data.
Tout savoir sur le métier de Data Miner
Rôle et missions du Data Miner
Data Miner : compétences et qualités nécessaires
Data Miner : diplômes et formations
Data Miner : insertion sur le marché professionnel
Salaire du Data Miner

Missions
• Choisir les données potentiellement exploitables
• Formater et nettoyer les données
• Analyser les données
• Réaliser des rapports (tableaux et Dataviz)
• Comparer les performances de l’entreprise avec ses objectifs

Compétences
• Passion pour l’analyse de données
• Sens de l’analyse et de l’observation
• Rigueur et concentration
• Talent de communication et pédagogie
• Connaissance de l’entreprise

Diplômes et formations
• Bac+4 ou 5 en statistiques
• Formation Big Data

Salaire
Environ 50 000 euros bruts par an

ARCHITECTE BIG DATA


Chaque jour, de plus en plus de données sont générées dans le monde entier. Ces
données peuvent être utilisées par les entreprises de tous les secteurs pour mieux
comprendre leur clientèle, aiguiller leurs décisions et prendre un avantage compétitif
sur la concurrence. Toutefois, pour pouvoir être utilisées, les données doivent d’abord
être collectées et organisées. Tel est le rôle de l’architecte Big Data, l’un des métiers
du Big Data.
Tout savoir sur le métier d'architecte Big Data
Rôle et missions de l'architecte Big Data
Architecte Big Data : compétences et qualités nécessaires
Architecte Big Data : diplômes et formations
Architecte Big Data : insertion sur le marché professionnel
Salaire de l'architecte Big Data

Missions
• Collecter des données brutes pour l’entreprise
• Créer des infrastructures de stockage, manipulation et restitution
• Elaborer une architecture de Data Management

Compétences
• Maîtrise des technologies Big Data
• Maîtrise des infrastructures serveur
• Esprit de collaboration
• Talent de communication

Diplômes et formations
• Bac+4 ou 5 en informatique, management, statistiques ou marketing
• Formation Big Data
• Ecole d’ingénieur spécialisée
• Expérience professionnelle Business Intelligence

Salaire
Environ 3000 euros par mois

CHIEF DATA OFFICER (CDO)


DIRECTEUR DES DONNEES
Chief Data Officer (CDO) ou directeur des données est l’un des métiers du Big Data.
Avec l’essor d’internet et des objets connectés, de nombreuses entreprises se sont
retrouvées avec un grand nombre d’informations à disposition, sans forcément
savoir qu’en faire. Si les données peuvent apporter de nombreux bénéfices à
l’entreprise, elles peuvent aussi être coûteuses et complexes à exploiter. Il
est nécessaire de développer l’infrastructure adéquate pour collecter les données,
mais aussi d’avoir la capacité d’accéder à ces données et de les extraire. Par la suite, il
faut également pouvoir les convertir en insights utilisables.
Au départ, ces tâches étaient allouées aux responsables des départements
informatiques. Cependant, au milieu des années 2010, face à l’augmentation
exponentielle des données à disposition, certaines entreprises ont décidé de créer un
pont entre les départements informatiques et les dirigeants (responsables des
ventes, des ressources humaines ou du marketing) qui ont besoin des informations en
temps réel. Tel est le rôle du Chief Data Officer (CDO).
Tout savoir sur le métier de Chief Data Officer (CDO) ou directeur des
données
Rôle et missions du Chief Data Officer (CDO)
Chief Data Officer (CDO) : compétences et qualités nécessaires
Chief Data Officer : diplômes et formations
Chief Data Officer : insertion sur le marché professionnel
Salaire du Chief Data Officer (CDO)

Missions
• Créer un environnement Big Data pour l’entreprise
• Choisir les données à analyser
• Assurer la qualité, la cohérence des données
• Réaliser des rapports à partir des données analysées
• Développer une stratégie data driven

Compétences
• Maîtrise des outils analytiques et bases de données
• Expertise mathématiques, statistiques, informatique, analyse
• Communication et pédagogie
• Charisme, diplomatie, leadership
• Connaissance de l’entreprise et son secteur d’activité

Diplômes et formations
• Bac+4 ou 5 en en informatique, management, statistiques ou en marketing
• Formation Big Data
• Ecole d’ingénieur spécialisée

Salaire
Entre 3500 et 4900 euros par mois

Vous aimerez peut-être aussi