0% ont trouvé ce document utile (0 vote)
28 vues31 pages

Part 4

L'intégrité des données est cruciale pour des analyses fiables, reposant sur l'exactitude, l'exhaustivité, la cohérence et la fiabilité des données. Des risques tels que la réplication incorrecte, les erreurs de transfert et la manipulation des données peuvent compromettre cette intégrité. Les analystes doivent s'assurer de la validité des données, mettre en place des contrôles d'anomalies et gérer les insuffisances de données pour garantir des analyses précises.

Transféré par

m.boutaounte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
28 vues31 pages

Part 4

L'intégrité des données est cruciale pour des analyses fiables, reposant sur l'exactitude, l'exhaustivité, la cohérence et la fiabilité des données. Des risques tels que la réplication incorrecte, les erreurs de transfert et la manipulation des données peuvent compromettre cette intégrité. Les analystes doivent s'assurer de la validité des données, mettre en place des contrôles d'anomalies et gérer les insuffisances de données pour garantir des analyses précises.

Transféré par

m.boutaounte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

L’Intégrité des Données

• Une analyse fiable repose sur des données de qualité.


Si les données sont compromises, les résultats risquent d’être
erronés, même si l’analyse est bien réalisée.
• ✅ L’intégrité des données repose sur quatre critères fondamentaux :
• Exactitude 📊 : Les valeurs doivent être correctes.
Exemple : Une date de naissance enregistrée comme « 32/01/2023 »
est une erreur qui fausse l’analyse.
• Exhaustivité 🔍 : Toutes les informations essentielles doivent être présentes.
Exemple : Un fichier client sans adresse e-mail peut rendre une campagne
de communication inefficace.
• Cohérence 🔄 : Les données doivent être uniformes sur toutes les
plateformes.
Exemple : Un prix affiché à 9,99 € sur le site web, mais à 8,99 € en magasin
crée une confusion chez les clients.
• Fiabilité 🔐 : Les données doivent rester dignes de confiance tout au long de
leur cycle de vie.
Exemple : Un fichier de transactions bancaires corrompu peut entraîner des
erreurs de facturation.
Les Risques qui Compromettent
l’Intégrité des Données
• L’intégrité des données peut être mise en danger de plusieurs manières :
1
• 1️⃣ Problèmes de réplication des données
• La réplication consiste à stocker des copies des données à plusieurs
endroits.
• Si ces copies ne sont pas synchronisées correctement, les utilisateurs
peuvent se baser sur des versions différentes, entraînant des
incohérences.
• Exemple : Un client change son adresse dans son espace en ligne, mais le
service client utilise encore l’ancienne adresse pour une livraison.
2
• 2️⃣ Erreurs lors du transfert des données
• Le transfert de données se fait entre systèmes, disques de stockage
ou ordinateurs.
• Une interruption du transfert peut créer un jeu de données
incomplet, inutilisable pour l’analyse.
• Exemple : Un fichier CSV contenant des transactions est transféré vers
un serveur, mais une coupure réseau tronque les 500 dernières lignes.
• 3️⃣ Manipulation des données
• Modifier, organiser ou nettoyer les données facilite l’analyse.
• Cependant, une erreur dans ce processus peut altérer la qualité des
données, compromettant ainsi toute l’analyse.
• Exemple : Un employé applique par erreur une formule Excel qui divise
tous les chiffres de ventes par 100, faussant complètement le rapport
financier.
• 4️⃣ Autres menaces courantes
• Erreurs humaines : saisies incorrectes, suppressions accidentelles.
• Exemple : Une secrétaire inscrit « 10 000 » au lieu de « 1 000 » dans une
facture, générant une facturation erronée.
• Cyberattaques : virus, malwares, piratage.
• Exemple : Un hôpital victime d’un ransomware ne peut plus accéder aux
dossiers médicaux de ses patients.
• Défaillances systèmes : panne de serveurs, corruption de fichiers.
• Exemple : Une base de données e-commerce crash en pleine période de
soldes, empêchant toute transaction.
Assurer l’Intégrité des Données
• en tant qu’analyste, voici vos responsabilités :
• ✔️Vérifier que les données sont complètes et valides avant toute analyse.
Exemple : Si une base de données clients comporte des champs vides pour
les numéros de téléphone, une campagne de télémarketing sera inefficace.
✔️S’assurer que les données utilisées sont synchronisées et cohérentes.
Exemple : Un tableau de bord qui affiche les ventes en temps réel doit être
mis à jour avec la même source de données pour éviter les écarts.
✔️Mettre en place des contrôles pour détecter les anomalies et
incohérences.
Exemple : Un script Python peut être utilisé pour vérifier que toutes les
dates de transaction sont dans un format valide.
Exemples de Contraintes de
Données
• 11️⃣Type de données
• 📌 Les valeurs doivent être d’un type spécifique : date, nombre, pourcentage,
booléen (vrai/faux), etc.
🔹 Exemple : Si un champ attend une date, une valeur comme "30" seule sera
invalide.
• 2️⃣Intervalle de valeurs (Data Range)
• 📌 Les valeurs doivent être comprises entre une limite minimale et maximale.
🔹 Exemple : Si une valeur doit être entre 10 et 20, alors 30 ne sera pas valide.
• 3️⃣Champ obligatoire (Mandatory)
• 📌 Certaines valeurs ne peuvent pas être laissées vides.
🔹 Exemple : Si l’âge est un champ obligatoire, il doit obligatoirement être renseigné.
• 4️⃣Unicité (Unique)
• 📌 Une valeur ne peut pas être dupliquée.
🔹 Exemple : Deux clients ne peuvent pas avoir le même numéro de téléphone dans
une même base de données.
• 5️⃣Expression régulière (Regex Patterns)
• 📌 Les valeurs doivent respecter un format précis.
🔹 Exemple : Un numéro de téléphone doit suivre le format 123-456-7890 (aucun
autre caractère autorisé).
• 6️⃣Validation croisée des champs (Cross-Field Validation)
• 📌 Certaines conditions doivent être respectées entre plusieurs champs.
🔹 Exemple : Dans un fichier de statistiques, la somme de plusieurs pourcentages
doit être égale à 100%.
• 77️⃣Clé primaire (Primary Key) [Bases de données]
• 📌 Une valeur doit être unique par colonne dans une table.
🔹 Exemple : Une base de données ne peut pas avoir deux entrées avec la même clé
primaire.
• 8️⃣Appartenance à un ensemble (Set-Membership) [Bases de données]
• 📌 Une colonne doit contenir uniquement des valeurs issues d’un ensemble prédéfini.
🔹 Exemple : Une colonne peut uniquement contenir "Oui", "Non" ou "Non applicable".
• 9️⃣Clé étrangère (Foreign Key) [Bases de données]
• 📌 Une colonne doit contenir uniquement des valeurs provenant d’une autre table.
🔹 Exemple : Dans une base de données fiscale américaine, la colonne "État" doit
contenir uniquement des noms d’États valides définis dans une autre table.
Gérer l'Insuffisance des Données en
Analyse
• Chaque analyste se retrouve un jour face à un manque de données
pour répondre à un objectif métier. Cela peut sembler surprenant vu
la quantité de données générées chaque jour, mais c’est une réalité !
• 💡 Que faire dans ces situations ?
Problème 1 : Absence Totale de
Données
• 🔹 Solutions possibles :
✔ Collecter des données à petite échelle pour une analyse préliminaire,
puis demander plus de temps pour collecter les données manquantes.
✔ Utiliser des données de substitution provenant d’autres ensembles de
données similaires.
• 🔹 Exemples réels :
📊 Sondage interne : Pour analyser l’opinion des employés sur un nouveau
système de primes, interroger un échantillon avant de collecter l’ensemble
des réponses sur 3 semaines.
🚦 Transport et mobilité : Si les données sur les heures de pointe d’une ville
sont absentes, utiliser les données d’une autre ville de taille et de population
similaires.
Problème 2 : Données Insuffisantes
• 🔹 Solutions possibles :
✔ Compléter les données réelles avec des données de substitution.
✔ Adapter l’analyse aux données existantes en précisant les limites
de l’étude.
• 🔹 Exemples réels :
🐶 Étude des tendances chez les propriétaires de Golden Retrievers :
Étendre l’analyse aux propriétaires de Labradors pour augmenter la
taille de l’échantillon.
👥 Analyse démographique : Si les données des 18-24 ans sont
manquantes, préciser que les conclusions s’appliquent uniquement
aux 25 ans et plus.
Problèmes Courants et Solutions
1 Données provenant d’une seule source
• 1️⃣
• 🔹 Exemple : Dans le secteur du tourisme, analyser uniquement les
données d’un site de réservation limite la vision des tendances
globales.
✔ Solution : Étendre l’analyse à plusieurs sources de données.
• 2️⃣Données incomplètes ou en cours d’actualisation
• 🔹 Exemple : Une nouvelle attraction touristique vient d’ouvrir, mais il
n’y a pas encore assez de données pour identifier une tendance.
✔ Solutions :
• Attendre quelques semaines pour recueillir plus de données.
• Ajuster l’objectif en analysant les tendances à plus court terme (ex.
évolution semaine par semaine au lieu de mois par mois).
• Faire une estimation basée sur les trois derniers mois et proposer une
prévision pour le mois suivant.
• 3️⃣Données obsolètes
• 🔹 Exemple : Des notes et avis clients sur des hôtels ne tiennent pas
compte des changements récents.
✔ Solution : Trouver un jeu de données plus récent pour éviter des
conclusions dépassées.
• 4️⃣Données géographiquement limitées
• 🔹 Exemple : Une entreprise mondiale ne peut pas se baser uniquement
sur des données d’un seul pays pour une analyse globale.
✔ Solution : Utiliser des jeux de données couvrant toutes les régions
concernées.
Problème 3 : Données Erronées ou
Mal Comprises
• 🔹 Solutions possibles :
✔ Reformuler clairement les besoins en données pour éviter les erreurs de
compréhension.
✔ Corriger les erreurs à la source en identifiant des schémas d’erreurs répétitifs.
✔ Si la correction est impossible, ignorer les données erronées à condition que
cela ne crée pas de biais systématique.
• 🔹 Exemples réels :
📩 Erreur de compréhension : Demander les données des électrices et recevoir
celles des électeurs → Reformuler la demande.
📊 Erreur dans un tableur : Une mauvaise formule conditionnelle fausse les
résultats → Corriger la formule plutôt que les valeurs calculées.
Problème de traduction : Si une base de données traduite contient des
incohérences, exclure ces lignes de l’analyse.
• 🔹 Pas de données ? → Recueillir un échantillon ou utiliser des
données similaires.
🔹 Données insuffisantes ? → Compléter avec des données proxy ou
préciser les limitations de l’analyse.
🔹 Données erronées ? → Corriger si possible, sinon ignorer si cela ne
crée pas de biais.
• ✅ Savoir gérer ces défis vous aidera à devenir un analyste efficace et
rigoureux !
Taille de l’Échantillon et
Représentativité des Données
• Nous avons vu l’importance d’avoir les bonnes données en quantité
suffisante pour garantir une analyse fiable. Mais que faire lorsque
collecter toutes les données d’une population est impossible ?
• 💡 La solution : utiliser un échantillon représentatif !
• 🧩 Population vs. Échantillon
• 📌 Population = Ensemble complet des données disponibles.
📌 Échantillon = Sous-ensemble de la population qui sert à l’analyse.
• Exemple :
🐱 Une entreprise veut connaître les jouets préférés des propriétaires
de chats au Canada.
❌ Impossible d’interroger des millions de propriétaires !
✔ Solution : Sélectionner un échantillon de quelques centaines ou
milliers de personnes, représentatif de la population totale.
• ✅ Un échantillon bien choisi permet d’obtenir des conclusions valables,
tout en économisant du temps et des ressources.
• ⚠️Attention au Biais d’Échantillonnage
• Lorsque l’échantillon ne représente pas bien l’ensemble de la population, l’analyse est
faussée.
• 📌 Exemple de biais :
Si l’enquête sur les propriétaires de chats est menée uniquement via smartphone,
alors les personnes sans smartphone ne seront pas prises en compte, ce qui introduit
un biais.
• 📌 Solution : Le Sondage Aléatoire (Random Sampling)
Cette méthode permet à chaque individu de la population d’avoir une chance égale
d’être sélectionné.
• 🔹 Exemple : Un échantillon bien conçu garantit que les propriétaires de chats en
appartement à Toronto et ceux en maison en Alberta ont la même probabilité d’être
représentés.
Terminologie et Définitions
• 📌 Population = L’ensemble des données concernées par l’étude.
🔹 Exemple : Si une entreprise réalise une enquête interne, la population comprend tous ses employés.
• 📌 Échantillon = Un sous-ensemble représentatif de la population.
🔹 Exemple : Si l’entreprise est trop grande, un échantillon d’employés est sélectionné pour l’enquête.
• 📌 Marge d’erreur = Différence entre les résultats de l’échantillon et ceux que l’on obtiendrait en
interrogeant toute la population.
🔹 Plus la marge d’erreur est petite, plus les résultats sont précis.
• 📌 Niveau de confiance = Mesure du degré de certitude dans les résultats.
🔹 Exemple : Un niveau de confiance de 95 % signifie que si l’enquête était réalisée 100 fois, les résultats
seraient similaires dans 95 cas.
• 📌 Intervalle de confiance = Plage de valeurs où se situe probablement le résultat réel de la
population.
🔹 Intervalle = Résultat de l’échantillon ± Marge d’erreur.
• 📌 Signification statistique = Vérifie si un résultat est réel ou simplement dû au hasard.
Contexte : Enquête de Satisfaction
des Employés
• Une entreprise de 10 000 employés souhaite mesurer la satisfaction
de son personnel. Il est trop coûteux et long d’interroger toute la
population, donc un échantillon est sélectionné.
• Données de l’étude :
📌 Population totale (N) = 10 000 employés
📌 Taille de l’échantillon (n) = 400 employés
📌 Pourcentage de satisfaction dans l’échantillon = 80 %
📌 Niveau de confiance = 95 %
📌 Marge d’erreur à déterminer
Calcul de la Marge d’Erreur (ME)
• La marge d’erreur se calcule avec la formule :


🔹 Z = Score du niveau de confiance (1,96 pour 95 %)
🔹 p = Proportion observée dans l’échantillon (80 % = 0,80)
🔹 n = Taille de l’échantillon (400)

• ME=0,0392 soit 3,92%


• ✅ Interprétation :
Avec un niveau de confiance de 95 %, la marge d’erreur est ±3,92 %.
Calcul de l’Intervalle de Confiance
(IC)
• La plage des valeurs probables est donnée par :

• ✅ Interprétation :
On peut dire avec 95 % de confiance que la satisfaction réelle des
employés se situe entre 76,08 % et 83,92 %.
Signification Statistique : Résultat
Fiable ou Non ?
• Si la marge d’erreur est grande, le résultat devient incertain.
• 💡 Si on veut réduire la marge d’erreur, il faut augmenter la taille de
l’échantillon.
• Par exemple, en augmentant n = 1 000, la marge d’erreur chute à
±2,48 %, rendant l’analyse plus précise.
Points Clés pour Déterminer une
Taille d’Échantillon
• ✔ Ne jamais utiliser un échantillon de moins de 30
📊 D’après le Théorème Central-Limite (CLT), une taille minimale de 30 est nécessaire
pour que la distribution des données commence à ressembler à une distribution
normale.
• ✔ Le niveau de confiance standard est de 95 %
📉 Un niveau de 90 % peut parfois suffire, mais pour des analyses critiques, 95 % est
recommandé.
• ✔ Pourquoi augmenter la taille de l’échantillon ?
🔹 Pour un niveau de confiance plus élevé.
🔹 Pour réduire la marge d’erreur.
🔹 Pour obtenir une plus grande signification statistique.
• 📌 Les calculateurs de taille d’échantillon permettent d’automatiser ces calculs en
fonction du niveau de confiance et de la marge d’erreur souhaités.
📊 Exemples Concrets : Taille
d’Échantillon et Enjeux
• 11️⃣ Enquête sur une bibliothèque municipale (Population = 200 000
personnes)
📌 Échantillon de 200 personnes acceptable ?
✔ Oui si l’objectif est de connaître l’opinion générale sur la bibliothèque.
❌ Non si l’objectif est d’anticiper les résultats d’un vote pour son financement.
• 2️⃣ Analyse de préférences consommateurs vs. Études
médicales
📌 Une marque lançant un nouveau produit peut se contenter d’un échantillon plus
petit, car une marge d’erreur plus grande est tolérable.
📌 Une étude clinique sur un nouveau médicament nécessite un échantillon plus
grand pour assurer des résultats fiables et sûrs.
• 💰 Plus l’échantillon est grand, plus le coût est élevé.
📌 Un bon échantillon est un compromis entre précision et coût.

Vous aimerez peut-être aussi