0% ont trouvé ce document utile (0 vote)
37 vues10 pages

Introduction Au Cloud Computing

BigQuery est un entrepôt de données entièrement géré par Google, conçu pour faciliter l'analyse de grandes quantités de données. Il permet aux utilisateurs de stocker, ingérer et interroger des données à l'aide du langage SQL, tout en évitant les problèmes d'infrastructure et de silos de données. Le service offre également un bac à sable gratuit pour expérimenter avec des ensembles de données publics et charger ses propres données.

Transféré par

georges.libissa
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
37 vues10 pages

Introduction Au Cloud Computing

BigQuery est un entrepôt de données entièrement géré par Google, conçu pour faciliter l'analyse de grandes quantités de données. Il permet aux utilisateurs de stocker, ingérer et interroger des données à l'aide du langage SQL, tout en évitant les problèmes d'infrastructure et de silos de données. Le service offre également un bac à sable gratuit pour expérimenter avec des ensembles de données publics et charger ses propres données.

Transféré par

georges.libissa
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Qu’est-ce que BigQuery ?

Intro

De plus en plus d’entreprises cherchent à exploiter des


informations commerciales à partir de leurs données.
Mais il peut s’avérer difficile d’ingérer, de stocker,
d’analyser ces données de manière évolutive à mesure
qu’elles augmentent rapidement. L’entrepôt de données
d’entreprise de Google, BigQuery, a été conçu pour
rendre l’analyse de données à grande échelle accessible
à tous. Dans ce cours, nous allons voir comment
BigQuery peut vous aider à obtenir facilement des
informations précieuses à partir de vos données.

Qu'est-ce que BigQuery

Si on est développeur, analyste de données ou Data


Engineer, nous travaillons probablement avec des
données. Si votre entreprise dispose de petites quantités
de données, vous pourriez les stocker dans un tableur
Excel. Mais à mesure que la quantité de données
augmente en giga-octets, téraoctets, voire pétaoctets,
vous commencez à avoir besoin d'un système plus
efficace comme un entrepôt de données. C'est parce que
toutes ces données ne sont pas très utiles à moins
d'avoir un moyen de les analyser. Traditionnellement,
des ensembles de données plus importants signifient des
délais plus longs entre la formulation de vos questions et
l'obtention des réponses. BigQuery a été conçu pour
gérer des quantités massives de données, telles que des
données de journal provenant de milliers de systèmes de
vente au détail ou des données IoT provenant de millions
de capteurs de véhicules à travers le monde. C'est un
entrepôt de données entièrement géré et sans serveur
qui vous permet de vous concentrer sur l'analyse au lieu
de gérer l'infrastructure. Conçu de cette manière,
BigQuery vous aide à éviter le problème des silos de
données qui se produit lorsque différentes équipes au
sein de votre entreprise possèdent leurs propres
entrepôts de données indépendants. Cela peut créer des
frictions importantes lors de l'analyse des données entre
les équipes et poser des problèmes de contrôle des
versions des données.

Comment fonctionne BigQuery Grâce à l'intégration à


l'identité et à la gestion des accès natives de Google
Cloud, vous pouvez attribuer des permissions de lecture
ou d'écriture à des utilisateurs spécifiques, des groupes
ou des projets, et sécuriser vos données sensibles, tout
en collaborant toujours entre les équipes. Travailler avec
des données dans BigQuery implique trois parties
principales : le stockage, l'ingestion et les requêtes.
Google gère tout le reste. BigQuery est un service
entièrement géré, ce qui signifie que vous n'avez pas
besoin de configurer ou d'installer quoi que ce soit. Et
vous n'avez pas besoin d'un administrateur de base de
données. Vous pouvez simplement vous connecter à
votre projet Google Cloud à partir d'un navigateur et
commencer. Tout d'abord, parlons du stockage de
BigQuery.

Stockage Les données sont stockées dans une table


structurée, ce qui signifie que vous pouvez utiliser le SQL
standard pour des requêtes faciles et l'analyse des
données. Par exemple, disons que vous avez des
données qui représentent les ventes de chacun de vos
magasins de l'année dernière. Vous pourriez
probablement utiliser une base de données plus petite
pour cela. Mais que se passe-t-il si vous avez des milliers
de magasins ? Et que se passe-t-il si vous voulez que les
revenus soient ventilés par numéro de produit ou par
région, par période de temps ? BigQuery est parfait pour
les grosses données car il gère tout le stockage et les
opérations de mise à l'échelle automatiquement pour
vous. Bien sûr, stocker les données ne sert à rien si vous
ne pouvez pas accéder à BigQuery en premier lieu.

Intégration des données Vous pouvez télécharger des


données depuis Cloud Storage et diffuser simplement des
données depuis Cloud Dataflow, créer un pipeline ETL en
utilisant Cloud Data Fusion, importer des données à
partir de divers formats de fichier, ou utiliser une
combinaison de tout cela. Nous aborderons tout cela et
plus encore plus tard avec les recherches des différents
groupes.

Langage de requête structuré (SQL) Une fois que vos


données sont dans BigQuery, vous êtes prêt à
commencer à répondre à ces questions. BigQuery prend
en charge le même langage de requête structuré, ou
SQL, que vous connaissez peut-être si vous avez travaillé
avec des bases de données relationnelles conformes à la
norme ANSI dans le passé.

Nous examinerons plusieurs façons de travailler avec les


données dans BigQuery afin que vous puissiez choisir ce
qui convient le mieux à votre cas d'utilisation. De plus,
vous pourrez partager l'accès avec d'autres utilisateurs
pour qu'ils puissent se servir de vos données également.
Vous voulez passer directement à l'analyse de certaines
données ?

Jeux de données publics Vous pouvez contourner les


étapes d'ingestion et de stockage en analysant les jeux
de données publics de BigQuery. Ce sont des ensembles
de données tiers rendus publics pour que n'importe qui
puisse les interroger. Google gère tout le stockage pour
que vous puissiez vous concentrer sur la recherche de
réponses à des questions comme : comment la météo à
New York City affecte-t-elle la demande de taxis ?

Transition Dans la suite nous verrons à travers les


étapes, certaines des tâches les plus courantes dans
BigQuery, et partagerons quelques meilleures pratiques
pour vous aider à améliorer vos compétences. Nous
allons commencer avec le bac à sable BigQuery. Le bac à
sable vous offre un environnement gratuit pour tester
BigQuery. Et vous pouvez commencer en analysant
immédiatement des ensembles de données publics.

BigQuery SandBox

SPEAKER: nous allons passer en revue toutes sortes de


méthodes utiles pour travailler avec les données dans
BigQuery. Une excellente manière d'apprendre est de
pratiquer, donc dans cette partie, nous allons vous
montrer comment démarrer avec un bac à sable
BigQuery.

Getting started Le bac à sable BigQuery vous offre un


accès gratuit pour essayer BigQuery et utiliser l'interface
utilisateur sans avoir à fournir de carte de crédit ni à
utiliser un compte de facturation. C'est un moyen rapide
de démarrer et d'essayer certains des concepts dont
nous parlerons dans cette série. Pour commencer,
cliquez sur le lien dans la description ci-dessous. Si vous
êtes un nouvel utilisateur de Google Cloud, vous devrez
créer un compte et un projet en suivant les invitations.
Une fois qu'un projet est créé, vous serez redirigé vers la
console BigQuery, où vous verrez "Sandbox" en haut à
gauche. Si vous êtes un utilisateur de Google Cloud déjà
enregistré, créez un nouveau projet en sélectionnant le
menu déroulant "Projet". Votre nouveau projet peut être
créé avec un compte de facturation par défaut. Si c'est le
cas, accédez à la page de gestion des comptes de
facturation et sélectionnez "Désactiver la facturation" en
suivant également les instructions liées ci-dessous.
Ensuite, utilisez la barre de recherche dans la console
pour accéder à BigQuery. Assurez-vous que votre
nouveau projet est sélectionné dans le menu déroulant
"Projet", et là, vous verrez également "Sandbox" en haut
à gauche. Maintenant que vous êtes dans le bac à sable
BigQuery, vous êtes prêt à commencer les requêtes.
Voilà tout ce qu'il faut pour la configuration.

Limitations Étant donné que l'utilisation du bac à sable


BigQuery ne vous est pas facturée, il y a quelques
limitations. Principalement, toutes les tables ou vues que
vous créez expireront après 60 jours. Vous êtes
également limité à 10 gigaoctets de stockage et à un
téraoctet de traitement de données par mois. Cela laisse
quand même beaucoup de place pour expérimenter. Ces
chiffres peuvent changer, alors assurez-vous de consulter
la documentation pour les informations les plus récentes.

Ensembles de données publics Mis à part cela, vous


pouvez facilement commencer à travailler avec des
ensembles de données publics, charger vos propres
données et exécuter des requêtes. BigQuery propose des
ensembles de données publics accessibles à quiconque
souhaite les analyser, couvrant une variété de types de
données, de la météo historique aux trajets en taxi
effectués à New York. Pour analyser des données
publiques, il vous suffit de cliquer sur le bouton "Ajouter
des données" à gauche pour voir la liste des ensembles
de données publics que vous avez déjà à disposition.

Exemple À titre d'exemple rapide, utilisons l'ensemble


de données public "sunroof" pour que vous puissiez voir
combien de soleil frappe votre toit en une année. Dans
cette requête d'exemple, nous calculons la moyenne
d'ensoleillement par État aux États-Unis, et nous classons
les trois États ayant le plus fort potentiel
d'ensoleillement. Comme vous pouvez le voir, les trois
premiers États sont le Nouveau-Mexique, l'Arizona et le
Nevada. C'est beaucoup de soleil. Ne vous inquiétez pas
si vous ne savez pas comment nous avons construit cette
requête.

Poser des questions, effectuer des


requêtes
SPEAKER: Maintenant nous allons plonger profondément
dans la manière de poser une question ou d'exécuter une
requête dans BigQuery. L'exécution de requêtes est l'une
des parties les plus fondamentales pour découvrir des
informations à partir de vos données. La question
d'aujourd'hui - quel est le meilleur numéro de maillot à
choisir pour améliorer votre jeu de basketball ? Restez à
l'écoute et découvrez-le.

Big Data Il n'est pas surprenant que les données


volumineuses aient fait leur chemin dans le monde du
sport professionnel. Les équipes à tous les niveaux
commencent à collecter, traiter et analyser des données
afin de tirer le meilleur parti de leurs joueurs et de
trouver un avantage compétitif dans le jeu. Pour voir
comment cela fonctionnerait, examinons l'ensemble de
données public de basketball NCAA disponible dans
BigQuery. L'ensemble de données contient des données
de jeu par jeu pour plusieurs années de matchs. Vous
pouvez obtenir des informations telles que les fautes, les
lancers francs, les scores, les numéros de joueur, les
temps morts, essentiellement autant de données que les
professionnels ont. Alors voyons si nous pouvons utiliser
ces données pour répondre à la question du jour et
déterminer quel est le meilleur tireur à trois points selon
le numéro de maillot. Si vous voulez suivre, cliquez sur le
lien dans la description ci-dessous pour configurer votre
propre bac à sable BigQuery où vous pouvez analyser
des données sans avoir besoin d'une carte de crédit. Une
fois dans le bac à sable BigQuery, rendez-vous sur le
Google Cloud Marketplace en cliquant sur "Ajouter des
données", puis sur "Explorer les ensembles de données".
Recherchez le basketball NCAA et cliquez pour lancer
l'ensemble de données dans l'interface BigQuery.
L'ensemble de données de basketball NCAA comporte
plusieurs tables différentes. En cliquant sur la table de
jeu par jeu, vous pouvez d'abord consulter les détails de
la table, ce qui indique qu'il y a plus de quatre millions de
lignes d'événements. C'est beaucoup de données de
basketball. Consultez le schéma de la table, et vous
verrez chaque colonne ou champ de données disponible
pour chacun de ces événements. Mais d'abord,
regardons ce que sont ces événements. Vous pouvez
commencer à explorer les données en cliquant sur
l'onglet "Aperçu" pour voir quelques lignes de données
d'exemple. Mais pour obtenir une liste plus complète de
tous les types d'événements, la meilleure façon de le
découvrir est d'exécuter une requête. Cliquez sur
"Requête de la table" et une requête vierge apparaîtra
dans l'éditeur avec une référence de table préremplie.
Avant d'écrire notre requête, il est important de savoir
que le langage utilisé pour communiquer avec BigQuery
est le SQL, ou langage de requête structuré. Le SQL est
également le langage standard pour communiquer avec
les bases de données relationnelles. BigQuery est
conforme au SQL ANSI, donc les praticiens expérimentés
commenceront sur de bonnes bases. Ne vous inquiétez
pas si vous n'êtes pas familier avec le SQL. Il existe de
nombreuses ressources pour apprendre ou réviser vos
compétences en SQL, à portée de recherche rapide sur le
web. Alors maintenant, copions une requête SQL pour
explorer les types d'événements. La commande clé en
SQL pour récupérer des données est "SELECT", que nous
utiliserons pour extraire une liste de tous les types
d'événements différents et le nombre d'occurrences de
chaque événement dans la table de jeu par jeu.
Remarquez que la référence de table est au format du
nom du projet GCP, suivi du nom de l'ensemble de
données, puis du nom de la table, séparés par des points
et encadrés de guillemets inversés, pas de guillemets.
Nous sélectionnerons tous les types d'événements et
regrouperons les résultats pour obtenir le compte de
chaque événement. Une fois la requête SQL écrite,
cliquez sur la coche verte à droite de la fenêtre pour
ouvrir le validateur de requêtes. Une coche verte signifie
que la requête est valide et affichera la quantité estimée
de données que la requête traitera lors de son exécution.
Si la requête est invalide, une icône de point
d'exclamation rouge est affichée. Vous pouvez cliquer
dessus et obtenir des conseils pour résoudre le
problème. Cliquez sur "Exécuter" et BigQuery se met au
travail. Après l'exécution de la requête, le service de
requêtes affiche les résultats sous forme de tableau dans
l'interface web. Vous pouvez voir que la colonne "Type
d'événement" contient à la fois des

Charger la donnée dans Big Query

SPEAKER: Pour cette partie nous allons commencer à


poser des questions sur nos propres données, vous
apprendrez comment charger et analyser vos propres
données dans BigQuery. À la fin, vous aurez les données
nécessaires pour répondre à la question millénaire : qui
est l’artiste le plus suivi de ma playlist ? Pour connaître
les résultats de ce match, restez avec moi.
Loading data Si vous souhaitez analyser des données
qui ne sont pas déjà disponibles en tant que parties du
programme d'ensembles de données publics ou
hébergées publiquement par un autre utilisateur de
BigQuery, vous devrez charger vos propres données dans
BigQuery. La manière dont vous chargez les données
dépend de vos besoins en matière d'analyse et de votre
pipeline de données. Si vos données changent lentement
ou doivent être chargées pour une analyse ponctuelle,
vous pouvez très bien charger les données dans
BigQuery en batch. Mais si vous devez ingérer et
analyser des données presque en temps réel, dans ce
cas, vous devrez peut-être envoyer vos données en
streaming dans BigQuery. Heureusement, BigQuery
propose des options de chargement de données qui
couvrent ces deux scénarios et ceux qui se trouvent
entre les deux.

Création d'un ensemble de données Pour créer un


nouvel ensemble de données, sélectionnez le nom du
projet dans la navigation à gauche et cliquez sur le
bouton "Créer un ensemble de données". Donnez ensuite
un nom à l'ensemble de données et décidez d'un
emplacement. Dans ce cas, nous devons co-localiser
notre ensemble de données avec l'ensemble de données
public NCAA, qui se trouve dans la région multi-
américaine. Nous devrons faire référence aux deux
tables dans une seule requête en effectuant une jointure,
ce qui ne peut être fait qu'avec des tables résidant dans
le même emplacement géographique. Vous pouvez
toujours voir l'emplacement de l'ensemble de données
en cliquant sur l'onglet "Détails" dans l'interface Web.
Cliquez sur "Créer un ensemble de données" et le nouvel
ensemble de données apparaîtra dans la navigation de
gauche.
Chargement de données Il est maintenant temps de
créer une nouvelle table dans l'ensemble de données en
chargeant le fichier CSV de playlist. Mettez en
surbrillance l'ensemble de données et cliquez sur "Créer
une table". Cette boîte de dialogue nous permet de
télécharger directement des fichiers depuis notre
ordinateur local jusqu'à 10 mégaoctets et contenant
moins de 16 000 lignes. Si vous avez quelque chose de
plus grand, ne vous inquiétez pas. Vous pouvez
simplement le télécharger dans Cloud Storage, puis le
sélectionner à partir de là. Comme notre CSV est assez
petit, nous pouvons passer cette étape et utiliser la
fonctionnalité de navigation pour sélectionner le fichier à
partir de notre ordinateur local. Donnez un nom à la
table, puis définissez le schéma. Le schéma est une liste
de chaque colonne et de son type de données. Nous
pouvons définir le schéma manuellement en cliquant sur
"Ajouter un champ" ou cocher la case pour que BigQuery
le détecte automatiquement. Cliquez sur "Créer la table"
et un travail de chargement sera créé. Une fois que les
données ont fini de se charger, vous pouvez accéder aux
détails de la table, consulter le schéma et prévisualiser
les données directement dans la console. Notre table de
mascottes est prête à être interrogée.

Vous aimerez peut-être aussi