L’Intégrité des Données
• Une analyse fiable repose sur des données de qualité.
Si les données sont compromises, les résultats risquent d’être
erronés, même si l’analyse est bien réalisée.
• ✅ L’intégrité des données repose sur quatre critères fondamentaux :
• Exactitude 📊 : Les valeurs doivent être correctes.
Exemple : Une date de naissance enregistrée comme « 32/01/2023 »
est une erreur qui fausse l’analyse.
• Exhaustivité 🔍 : Toutes les informations essentielles doivent être présentes.
Exemple : Un fichier client sans adresse e-mail peut rendre une campagne
de communication inefficace.
• Cohérence 🔄 : Les données doivent être uniformes sur toutes les
plateformes.
Exemple : Un prix affiché à 9,99 € sur le site web, mais à 8,99 € en magasin
crée une confusion chez les clients.
• Fiabilité 🔐 : Les données doivent rester dignes de confiance tout au long de
leur cycle de vie.
Exemple : Un fichier de transactions bancaires corrompu peut entraîner des
erreurs de facturation.
Les Risques qui Compromettent
l’Intégrité des Données
• L’intégrité des données peut être mise en danger de plusieurs manières :
1
• 1️⃣ Problèmes de réplication des données
• La réplication consiste à stocker des copies des données à plusieurs
endroits.
• Si ces copies ne sont pas synchronisées correctement, les utilisateurs
peuvent se baser sur des versions différentes, entraînant des
incohérences.
• Exemple : Un client change son adresse dans son espace en ligne, mais le
service client utilise encore l’ancienne adresse pour une livraison.
2
• 2️⃣ Erreurs lors du transfert des données
• Le transfert de données se fait entre systèmes, disques de stockage
ou ordinateurs.
• Une interruption du transfert peut créer un jeu de données
incomplet, inutilisable pour l’analyse.
• Exemple : Un fichier CSV contenant des transactions est transféré vers
un serveur, mais une coupure réseau tronque les 500 dernières lignes.
• 3️⃣ Manipulation des données
• Modifier, organiser ou nettoyer les données facilite l’analyse.
• Cependant, une erreur dans ce processus peut altérer la qualité des
données, compromettant ainsi toute l’analyse.
• Exemple : Un employé applique par erreur une formule Excel qui divise
tous les chiffres de ventes par 100, faussant complètement le rapport
financier.
• 4️⃣ Autres menaces courantes
• Erreurs humaines : saisies incorrectes, suppressions accidentelles.
• Exemple : Une secrétaire inscrit « 10 000 » au lieu de « 1 000 » dans une
facture, générant une facturation erronée.
• Cyberattaques : virus, malwares, piratage.
• Exemple : Un hôpital victime d’un ransomware ne peut plus accéder aux
dossiers médicaux de ses patients.
• Défaillances systèmes : panne de serveurs, corruption de fichiers.
• Exemple : Une base de données e-commerce crash en pleine période de
soldes, empêchant toute transaction.
Assurer l’Intégrité des Données
• en tant qu’analyste, voici vos responsabilités :
• ✔️Vérifier que les données sont complètes et valides avant toute analyse.
Exemple : Si une base de données clients comporte des champs vides pour
les numéros de téléphone, une campagne de télémarketing sera inefficace.
✔️S’assurer que les données utilisées sont synchronisées et cohérentes.
Exemple : Un tableau de bord qui affiche les ventes en temps réel doit être
mis à jour avec la même source de données pour éviter les écarts.
✔️Mettre en place des contrôles pour détecter les anomalies et
incohérences.
Exemple : Un script Python peut être utilisé pour vérifier que toutes les
dates de transaction sont dans un format valide.
Exemples de Contraintes de
Données
• 11️⃣Type de données
• 📌 Les valeurs doivent être d’un type spécifique : date, nombre, pourcentage,
booléen (vrai/faux), etc.
🔹 Exemple : Si un champ attend une date, une valeur comme "30" seule sera
invalide.
• 2️⃣Intervalle de valeurs (Data Range)
• 📌 Les valeurs doivent être comprises entre une limite minimale et maximale.
🔹 Exemple : Si une valeur doit être entre 10 et 20, alors 30 ne sera pas valide.
• 3️⃣Champ obligatoire (Mandatory)
• 📌 Certaines valeurs ne peuvent pas être laissées vides.
🔹 Exemple : Si l’âge est un champ obligatoire, il doit obligatoirement être renseigné.
• 4️⃣Unicité (Unique)
• 📌 Une valeur ne peut pas être dupliquée.
🔹 Exemple : Deux clients ne peuvent pas avoir le même numéro de téléphone dans
une même base de données.
• 5️⃣Expression régulière (Regex Patterns)
• 📌 Les valeurs doivent respecter un format précis.
🔹 Exemple : Un numéro de téléphone doit suivre le format 123-456-7890 (aucun
autre caractère autorisé).
• 6️⃣Validation croisée des champs (Cross-Field Validation)
• 📌 Certaines conditions doivent être respectées entre plusieurs champs.
🔹 Exemple : Dans un fichier de statistiques, la somme de plusieurs pourcentages
doit être égale à 100%.
• 77️⃣Clé primaire (Primary Key) [Bases de données]
• 📌 Une valeur doit être unique par colonne dans une table.
🔹 Exemple : Une base de données ne peut pas avoir deux entrées avec la même clé
primaire.
• 8️⃣Appartenance à un ensemble (Set-Membership) [Bases de données]
• 📌 Une colonne doit contenir uniquement des valeurs issues d’un ensemble prédéfini.
🔹 Exemple : Une colonne peut uniquement contenir "Oui", "Non" ou "Non applicable".
• 9️⃣Clé étrangère (Foreign Key) [Bases de données]
• 📌 Une colonne doit contenir uniquement des valeurs provenant d’une autre table.
🔹 Exemple : Dans une base de données fiscale américaine, la colonne "État" doit
contenir uniquement des noms d’États valides définis dans une autre table.
Gérer l'Insuffisance des Données en
Analyse
• Chaque analyste se retrouve un jour face à un manque de données
pour répondre à un objectif métier. Cela peut sembler surprenant vu
la quantité de données générées chaque jour, mais c’est une réalité !
• 💡 Que faire dans ces situations ?
Problème 1 : Absence Totale de
Données
• 🔹 Solutions possibles :
✔ Collecter des données à petite échelle pour une analyse préliminaire,
puis demander plus de temps pour collecter les données manquantes.
✔ Utiliser des données de substitution provenant d’autres ensembles de
données similaires.
• 🔹 Exemples réels :
📊 Sondage interne : Pour analyser l’opinion des employés sur un nouveau
système de primes, interroger un échantillon avant de collecter l’ensemble
des réponses sur 3 semaines.
🚦 Transport et mobilité : Si les données sur les heures de pointe d’une ville
sont absentes, utiliser les données d’une autre ville de taille et de population
similaires.
Problème 2 : Données Insuffisantes
• 🔹 Solutions possibles :
✔ Compléter les données réelles avec des données de substitution.
✔ Adapter l’analyse aux données existantes en précisant les limites
de l’étude.
• 🔹 Exemples réels :
🐶 Étude des tendances chez les propriétaires de Golden Retrievers :
Étendre l’analyse aux propriétaires de Labradors pour augmenter la
taille de l’échantillon.
👥 Analyse démographique : Si les données des 18-24 ans sont
manquantes, préciser que les conclusions s’appliquent uniquement
aux 25 ans et plus.
Problèmes Courants et Solutions
1 Données provenant d’une seule source
• 1️⃣
• 🔹 Exemple : Dans le secteur du tourisme, analyser uniquement les
données d’un site de réservation limite la vision des tendances
globales.
✔ Solution : Étendre l’analyse à plusieurs sources de données.
• 2️⃣Données incomplètes ou en cours d’actualisation
• 🔹 Exemple : Une nouvelle attraction touristique vient d’ouvrir, mais il
n’y a pas encore assez de données pour identifier une tendance.
✔ Solutions :
• Attendre quelques semaines pour recueillir plus de données.
• Ajuster l’objectif en analysant les tendances à plus court terme (ex.
évolution semaine par semaine au lieu de mois par mois).
• Faire une estimation basée sur les trois derniers mois et proposer une
prévision pour le mois suivant.
• 3️⃣Données obsolètes
• 🔹 Exemple : Des notes et avis clients sur des hôtels ne tiennent pas
compte des changements récents.
✔ Solution : Trouver un jeu de données plus récent pour éviter des
conclusions dépassées.
• 4️⃣Données géographiquement limitées
• 🔹 Exemple : Une entreprise mondiale ne peut pas se baser uniquement
sur des données d’un seul pays pour une analyse globale.
✔ Solution : Utiliser des jeux de données couvrant toutes les régions
concernées.
Problème 3 : Données Erronées ou
Mal Comprises
• 🔹 Solutions possibles :
✔ Reformuler clairement les besoins en données pour éviter les erreurs de
compréhension.
✔ Corriger les erreurs à la source en identifiant des schémas d’erreurs répétitifs.
✔ Si la correction est impossible, ignorer les données erronées à condition que
cela ne crée pas de biais systématique.
• 🔹 Exemples réels :
📩 Erreur de compréhension : Demander les données des électrices et recevoir
celles des électeurs → Reformuler la demande.
📊 Erreur dans un tableur : Une mauvaise formule conditionnelle fausse les
résultats → Corriger la formule plutôt que les valeurs calculées.
Problème de traduction : Si une base de données traduite contient des
incohérences, exclure ces lignes de l’analyse.
• 🔹 Pas de données ? → Recueillir un échantillon ou utiliser des
données similaires.
🔹 Données insuffisantes ? → Compléter avec des données proxy ou
préciser les limitations de l’analyse.
🔹 Données erronées ? → Corriger si possible, sinon ignorer si cela ne
crée pas de biais.
• ✅ Savoir gérer ces défis vous aidera à devenir un analyste efficace et
rigoureux !
Taille de l’Échantillon et
Représentativité des Données
• Nous avons vu l’importance d’avoir les bonnes données en quantité
suffisante pour garantir une analyse fiable. Mais que faire lorsque
collecter toutes les données d’une population est impossible ?
• 💡 La solution : utiliser un échantillon représentatif !
• 🧩 Population vs. Échantillon
• 📌 Population = Ensemble complet des données disponibles.
📌 Échantillon = Sous-ensemble de la population qui sert à l’analyse.
• Exemple :
🐱 Une entreprise veut connaître les jouets préférés des propriétaires
de chats au Canada.
❌ Impossible d’interroger des millions de propriétaires !
✔ Solution : Sélectionner un échantillon de quelques centaines ou
milliers de personnes, représentatif de la population totale.
• ✅ Un échantillon bien choisi permet d’obtenir des conclusions valables,
tout en économisant du temps et des ressources.
• ⚠️Attention au Biais d’Échantillonnage
• Lorsque l’échantillon ne représente pas bien l’ensemble de la population, l’analyse est
faussée.
• 📌 Exemple de biais :
Si l’enquête sur les propriétaires de chats est menée uniquement via smartphone,
alors les personnes sans smartphone ne seront pas prises en compte, ce qui introduit
un biais.
• 📌 Solution : Le Sondage Aléatoire (Random Sampling)
Cette méthode permet à chaque individu de la population d’avoir une chance égale
d’être sélectionné.
• 🔹 Exemple : Un échantillon bien conçu garantit que les propriétaires de chats en
appartement à Toronto et ceux en maison en Alberta ont la même probabilité d’être
représentés.
Terminologie et Définitions
• 📌 Population = L’ensemble des données concernées par l’étude.
🔹 Exemple : Si une entreprise réalise une enquête interne, la population comprend tous ses employés.
• 📌 Échantillon = Un sous-ensemble représentatif de la population.
🔹 Exemple : Si l’entreprise est trop grande, un échantillon d’employés est sélectionné pour l’enquête.
• 📌 Marge d’erreur = Différence entre les résultats de l’échantillon et ceux que l’on obtiendrait en
interrogeant toute la population.
🔹 Plus la marge d’erreur est petite, plus les résultats sont précis.
• 📌 Niveau de confiance = Mesure du degré de certitude dans les résultats.
🔹 Exemple : Un niveau de confiance de 95 % signifie que si l’enquête était réalisée 100 fois, les résultats
seraient similaires dans 95 cas.
• 📌 Intervalle de confiance = Plage de valeurs où se situe probablement le résultat réel de la
population.
🔹 Intervalle = Résultat de l’échantillon ± Marge d’erreur.
• 📌 Signification statistique = Vérifie si un résultat est réel ou simplement dû au hasard.
Contexte : Enquête de Satisfaction
des Employés
• Une entreprise de 10 000 employés souhaite mesurer la satisfaction
de son personnel. Il est trop coûteux et long d’interroger toute la
population, donc un échantillon est sélectionné.
• Données de l’étude :
📌 Population totale (N) = 10 000 employés
📌 Taille de l’échantillon (n) = 400 employés
📌 Pourcentage de satisfaction dans l’échantillon = 80 %
📌 Niveau de confiance = 95 %
📌 Marge d’erreur à déterminer
Calcul de la Marge d’Erreur (ME)
• La marge d’erreur se calcule avec la formule :
•
🔹 Z = Score du niveau de confiance (1,96 pour 95 %)
🔹 p = Proportion observée dans l’échantillon (80 % = 0,80)
🔹 n = Taille de l’échantillon (400)
• ME=0,0392 soit 3,92%
• ✅ Interprétation :
Avec un niveau de confiance de 95 %, la marge d’erreur est ±3,92 %.
Calcul de l’Intervalle de Confiance
(IC)
• La plage des valeurs probables est donnée par :
• ✅ Interprétation :
On peut dire avec 95 % de confiance que la satisfaction réelle des
employés se situe entre 76,08 % et 83,92 %.
Signification Statistique : Résultat
Fiable ou Non ?
• Si la marge d’erreur est grande, le résultat devient incertain.
• 💡 Si on veut réduire la marge d’erreur, il faut augmenter la taille de
l’échantillon.
• Par exemple, en augmentant n = 1 000, la marge d’erreur chute à
±2,48 %, rendant l’analyse plus précise.
Points Clés pour Déterminer une
Taille d’Échantillon
• ✔ Ne jamais utiliser un échantillon de moins de 30
📊 D’après le Théorème Central-Limite (CLT), une taille minimale de 30 est nécessaire
pour que la distribution des données commence à ressembler à une distribution
normale.
• ✔ Le niveau de confiance standard est de 95 %
📉 Un niveau de 90 % peut parfois suffire, mais pour des analyses critiques, 95 % est
recommandé.
• ✔ Pourquoi augmenter la taille de l’échantillon ?
🔹 Pour un niveau de confiance plus élevé.
🔹 Pour réduire la marge d’erreur.
🔹 Pour obtenir une plus grande signification statistique.
• 📌 Les calculateurs de taille d’échantillon permettent d’automatiser ces calculs en
fonction du niveau de confiance et de la marge d’erreur souhaités.
📊 Exemples Concrets : Taille
d’Échantillon et Enjeux
• 11️⃣ Enquête sur une bibliothèque municipale (Population = 200 000
personnes)
📌 Échantillon de 200 personnes acceptable ?
✔ Oui si l’objectif est de connaître l’opinion générale sur la bibliothèque.
❌ Non si l’objectif est d’anticiper les résultats d’un vote pour son financement.
• 2️⃣ Analyse de préférences consommateurs vs. Études
médicales
📌 Une marque lançant un nouveau produit peut se contenter d’un échantillon plus
petit, car une marge d’erreur plus grande est tolérable.
📌 Une étude clinique sur un nouveau médicament nécessite un échantillon plus
grand pour assurer des résultats fiables et sûrs.
• 💰 Plus l’échantillon est grand, plus le coût est élevé.
📌 Un bon échantillon est un compromis entre précision et coût.