Concepts Clés en Analyse de Données
Concepts Clés en Analyse de Données
à - t(⍺/2 (n-2)dl
Si la valeur de 0 appartient à l’intervalle de confiance de β zero ; on rejette
l’hypothèse nulle .
Sachant que z=(b1 – β1) ÷ Sb1 si n-2 sup à 30 ; t=(b1 – β1) ÷ Sb1 si n-2 inf à 30
La loi du x² (x=t ou z) suit une relation Asymétrique dont la forme dépend du
nombre de degrés de liberté.
1. Quelles sont les différences cruciales entre les méthodes de Non supervisée : la segmentation ; la supervisée : pour
prédiction et nécessite une variable output et un échantillon
classification supervisées et les non supervisées. d’apprentissage.
2. Dans le cadre de la régression linéaire, si la valeur 0 Dans le cadre la régression linéaire simple oui MAIS multiple
appartient à l’intervalle de confiance de la β0 nous non, il faut vérifier les autres β i. (il faut voir les autres
acceptons le modèle ou nous le rejetons ? justifiez. prédicteurs)
3. Qu’est-ce que l'homoscédasticité ? Une des prémisses de la régression linéaire qui devrait être
vérifiée avant de continuer l’analyse, qui signifie la
variance constante des erreurs.
4. A quoi sert le test de Durbin-Watson? et comment Vérifier l’indépendance des termes d’erreurs.
L’idéal qu’il soit égal à 2 et admissible entre 1 «et 3.
l’interpréter ?
5. L'intensité et/ou le signe de la relation entre une variable
X Y
indépendante et une autre dépendante peut être
influencé par une co-variable. Expliquer à travers un Z
schéma illustratif.
6. Faites une distribution d’échantillonnage des moyennes Nombre d’échantillons : 3
(4 ; 5) (4 ; 6) (5 ; 6) qui ont comme moyenne
sachant que la population est la suivante : {4;5;6}, et que la respectivement
taille de l’échantillon est de deux (2). 4,5 5 5,5 et la moyenne des moyennes est de 5.
Enquête approfondie réalisée périodiquement sur les
mêmes clients. S'appuyant sur des échantillons importants
7. Qu’est-ce que des panels ?
de 2 000 à 10,000 individus.
…
8. L'erreur systématique est : Due à l’échelle de mesure (manque de clarté de l'échelle, ,
due à sa longueur…..),
9. L’erreur aléatoire est : Elle est due aux aléas comme la fatigue, l’humeur du
répondant, etc.
Fischer est pour tester le modèle dans sa globalité alors
que le test t de student ou Z testent les prédicteurs c’est-à-
10. Qu’elle est la différence entre le test de « Fischer », le test
dire distinguer entre celle qui expliquent Y et les autres qui
« t » et le test « Z » ? n’expliquent pas. (selon taille ou ddl)
Vérifiez l’hypothèse nulle β1 = 0 et qui consiste à comparer le t
11. En quoi consiste le test d’hypothèse sur la β1 ? calculer au t tabulé. Rejeter H0 tc est sup au tt.
1 : linéarité du phénomène.
2 : homosedasticité
12. Citez brièvement les prémisses de la régression linéaire
3 :L’indépendance des termes d’erreur
multiple. 4 : La normalité de la distribution des termes
d’erreurs ;
5 : L’indépendance des variables exogènes (pas de
colinéarité)
13. Est-ce que le niveau de satisfaction explique le rendement ANOVAa
au seuil de 80% ? justifiez. Somme des Carré
Modèle carrés ddl moyen F Sig.
Au niveau de 80% oui parce que sigANOVA ≤ α 19 ,1% ≤ 20% (100% – 80%)
1 Régression 141071,479 2,119 ,191b
14. Calculez et interprétez le coefficient de détermination. Résidu 1130332,807
R2 = SCR / SCT = 141071,479 / 1271404,286 = 11%. 11% de de la variance du Total 1271404,286
la satisfaction est expliquée par a. Variable dépendante : Rendement
Prédicteurs : (Constante), Satisfaction
Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected] 1/6
www.encgcasa.ac.ma
15. Interprétez le modèle et écrivez le CA en fonction des Coefficients
variables explicatives. standardisés
Modèle B Bêta t Sig.
Nous ne pouvons pas écrire le modèle parce que la publicité est une variable
1 (Constante) 140,757 19,463 ,000
non explicative, elle devrait être retirée et l’analyse devrait être refaite.
recherche 13,084 ,811 31,645 ,000
publicité -,124 -,012 -,470 ,639
a. Variable dépendante : CA
Composante
1 2
Esprit d’analyse ,979 - Les étudiants 5 ; 1 ; 3 ; et
Ambition ,996 4 sont des analystes ont les
Charisme ,963 caractères de la première composante (Esprit d’analyse, Ambition, Charisme, Niveau d’éducation,
Niveau d’éducation ,996 Raison, Imagination)
Raison ,996 - Les élements 2 et 7 sont des paresseux ont les caractères de la deuxième composante.
Imagination ,998
Emotions ,985 ,896
Paresse ,997 PS : Le nombre d’observations est inférieur à 50 et aucune analyse ne pourrait être exécutée.
Idiotisme ,989
20. interprétez les grandeurs soulignées.
Bêta : Lorsque « le niveau perception de sureté des achats sur net » augmente de son écart type « la fréquence d’achat » augmente de son écart
type x ,978.
T : t calculé est de 176,692, il faut le comparer au t tabulé de student. (test student ou test d’hypothèse.)
Tolérance : test la colinéarité, il est excellent et d’ailleurs nous n’avons qu’une seule variable indépendante donc c’est évident de ne pas avoir de
colinéarité.
21. Estimez la fréquence d’achat au seuil de 95%
Avec quelle fréquence achetez-vous sur Internet = ,028+ ,969* Je pense que faire des achats sur Internet est sûr.
Avec quelle fréquence achetez-vous sur Internet = ,095 + ,991* Je pense que faire des achats sur Internet est sûr.
Nous n’avons pas de valeur de la variable indépendante pour l’estimer !!!!!
Coefficients
Coefficients non standardisés standardisés
Modèle B Erreur standard Bêta t
1 (Constante) ,062 ,017 3,582
Je pense que faire des achats sur ,980 ,006 ,978 176,692
Internet est sûr.
Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma 2/6
22. L’objectif de l’étude est prendre une décision à propos de la société X voulant contracter un CMT (crédit
à moyen terme). Coefficients non standardisés
Résultats du test Fonction 1
M de Box 1,186
R05 ,009
F Approximativement 8,434
R08 -,066
ddl1 28
R09 4,562
ddl2 6805,124
R10 ,418
Signification 1,000
R11 ,006
Test l'hypothèse nulle d'égalité de matrices de
covariance des populations. R12 2,535
R14 ,260
(Constante) -,796
Y = -,796 + 0,009xR05 -,066x R08 + 4,562x R09 + ,418x R10 + ,006xR11 + 2,535x R12 +,260xR14
Justificatif : le score de l’entreprise x est de 1,875 est supérieur au score critique -0,106
PS : la bonne réponse : la signification de M de BOX supérieur à α (5%) l’analyse doit
s’arrêter.
Ratios R01 R02 R04 R05 R07 R08 R09 R10 R11 R12 R14
E/se X 10,764 479 5,765 0,10 0,10 0,010 0,10 0,00 0,010 0,010 10
Défaillante -1,760
Saine 1,548
Exercice II :
1- Les principales applications des équations structurelles sont regroupées dans le tableau sur la feuille de
réponses ainsi que l’objectif de chacune d’elles. Complétez le tableau.
Rhô de Jöreskog.
Rhô de validité convergente.
Validation d’une échelle de Test de la validité discriminante.
mesure
Vérification de la validité nomologique ou prédictive.
Identification de
l’importance des
effets médiateurs dans le Test de Sobel. Procédure de bootstrap (avec simulation de
modèle. Monte Carlo).
Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc 3/6
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma
2- Selon Hoyle (1995), la modélisation par les équations structurelles représente « une approche statistique
globale permettant de tester des hypothèses traitant des relations entre les variables observées et les
variables latentes ». L’élaboration d’un modèle d’équations structurelles rend nécessaire le suivi d’une
démarche composée d’un ensemble d’étapes successives. Citez-les et développez l’objectif de chaque
étape.
- Respécification du
modèle. La respécification du modèle représente une phase de réflexion qui offre l’opportunité
de reconsidérer la conception du modèle et d’en proposer des modifications éventuelles,
en tenant compte du cadre théorique de la recherche en question
A titre d’exemple, il serait possible d’ajouter ou de supprimer des paramètres, de fixer
ou de modifier des contraintes, etc.
3- Votre directeur vous demande de mesurer le niveau d’ambition moyen des employés.
Recherche documentaire
Revue de littérature
Entretien
Élaborer une échelle de mesure, vue que la variable est subjective ou latente il faut faire
appel au paradigme de Churchill pour approcher la vraie valeur (M = V + Es + Ea)
M : Mesure obtenue
V : Vraie valeur
Es : Erreur systématique
Ea : Erreur aléatoire
Nous devrions faire appel à l’AFE ou l’ACP pour valider l’échelle de mesure
Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc 4/6
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
ﺍﻟﻤﺪﺭﺳﺔ ﺍﻟﻮﻁﻨﻴﺔ ﻟﻠﺘﺠﺎﺭﺓ ﻭﺍﻟﺘﺴﻴﻴﺮ ﺍﻟﺪﺍﺭ ﺍﻟﺒﻴﻀﺎء
Examen final (2019/2020) Nom : ………………………………..………………………………………………………………..…………………………………….…..… …….…..… Note : …………………………………………..………
EXERCICE III
1- Voulant établir un modèle conceptuel en matière de capacité d’innovation, basé sur les facteurs que
sont le leadership, le réseautage externe et l’innovation. Nous avons formulé une série d’hypothèses:
- Les facteurs d’innovation et le réseautage externe sont tous deux positivement associés à la capacité
d’innovation autoproclamée ;
- Les types de leadership qui sont favorables à l’innovation sont positivement associés aux facteurs que
sont la capacité d’innovation autoproclamée, le réseautage et l’innovation ;
- Les facteurs d’innovation sont positivement associés au réseautage.
La Figure ci-après et le tableau au-dessous présentent les résultats finaux de l’analyse.
Effets directs, scores standardises a partir des modelés par équation structurelle.
Capacité GV DU ENTREPRENEURIAL TRANSFORMA ALTRUISTE FACTEURS RESEAUT
D’innovation RESEAU TIONNEL D’INNOVATION AGE
autoproclamée
Echantillon complet 0,25 0,17 0,16 −0,10 0,02 0,05
Barcelone 0,40 −0,15 0,34 −0,18 0,08 0,07
Copenhague 0,35 0,13 0,20 −0,07 −0,01 0,03
Rotterdam 0,25 0,33 0,10 0,08 0,04
−0,17
5/6
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
اﻟﻤﺪرﺳﺔ اﻟﻮطﻨﯿﺔ ﻟﻠﺘﺠﺎرة واﻟﺘﺴﯿﯿﺮ اﻟﺪار اﻟﺒﯿﻀﺎء
Examen final Nom : ………………………………..…………….. Note :
Matière : Analyse de données.
Aucun document n’est autorisé. Prénom : ………………………..………………..
Durée : Une heure (1h)
2. Une distribution avec un Skewness 1. Asymétrique à droite. 2. Asymétrique à gauche 3. indique donc que les
positif significatif est une queues
distribution : 4. Comptent un plus grand nombre d'observations que dans une distribution
gaussienne.
5. Autre : ..................................
3. La moyenne harmonique sert à 1. Un taux moyen. 2. Un rapport moyen. 3. Autre : ..................................
calculer :
4. Le mode est : 1. La valeur la plus répétitive. 2. La valeur la plus redondante.
3. La valeur correspondante à l’effectif le plus élevé.
5. L'étude ad hoc est une : 1. Étude purement quantitative réalisée pour le compte d'un seul client.
2. Étude réalisée à date fixe pour le compte d'un ou de plusieurs clients.
3. Autre : ..................................
6. Le baromètre est une : 1. Étude réalisée à date variable, avec le même questionnaire d'une étude à l'autre,
pour le compte d'un ou de plusieurs clients.
2. Étude réalisée à date fixe comme l'omnibus, mais avec le même questionnaire
d'une étude à l'autre, pour le compte d'un ou de plusieurs clients.
3. Autre : ..................................
7. Une régression linéaire simple va 1. D’interpréter les variations d’une variable en fonction d’une autre.
permettre : 2. De prévoir les variations d’une variable en fonction d’une autre.
3. Autre : ..................................
8. Le diagramme de dispersion : 1. Est une représentation graphique d’un nuage de points.
2. Est un histogramme.
3. Est la première étape de la régression linéaire multiple.
4. Permet de soupçonner l’existence de relation entre les variables qualitatives
étudiées.
9. Pour considérer que la variable suit 1. Le coefficient « Skewness » doit être inférieur à 1 et le coefficient
bien une loi normale : d'aplatissement ou Kurtosis doit être inférieur à 1,5.
2. Le coefficient « Skewness » doit être inférieur à 1 et le coefficient
d'aplatissement ou Kurtosis doit être inférieur à 1.
3. Le coefficient « Skewness » doit être inférieur à 1,5 et le coefficient
4. d'aplatissement ou Kurtosis doit être inférieur à 1.
10. La méthode des moindres 1. De construire une droite de régression qui minimise la somme des carrés des
carrés permet : distances horizontales entre cette droite et chacun des points observés.
2. De construire une droite de régression théorique qui minimise la somme des
carrés des résidus.
3. Autre : ..................................
11. La régression est une méthode 1. De mesurer la force de la relation entre deux variables.
statistique qui permet : 2. D’étudier le type de relation pouvant exister entre certaines variables.
3. D’étudier les variations de la variable dépendante en fonction des variations des
variables indépendantes.
4. Autre : ..................................
12. Pour quantifier l’intensité de la 1. Le coefficient de détermination de Y en fonction de X
relation entre deux variables nous 2. Le coefficient de corrélation entre X et Y
utilisons : 3. La covariance entre X et Y
4. Autre : ..................................
1 3. ɛ est : 1. L’erreur théorique aléatoire.
2. La différence entre la valeur observée et estimée.
Pr. BOULAHOUAL Adil
3. Le résidu.
4. Autre : ..................................
14. y = β0 + β1x est 1. La fonction de la droite de régression linéaire multiple théorique.
2. La fonction de la droite de régression linéaire multiple empirique.
3. Autre : ..................................
1
n 1. La formule du coefficient de détermination.
x 2
i nx 2 2. La formule du coefficient de corrélation.
b2 i 1
1 n
3. Autre : ..................................
y 2
i ny 2
15. i 1 est :
1 6. La régression est dite simple si elle 1. De décrire plusieurs variables.
permet : 2. De décrire une seule variable.
3. De prédire les valeurs d’une variable exogène à partir des valeurs d’une autre
variable endogène.
4. Autre : ..................................
17 . Le coefficient de détermination 1. σ2
théorique de Y en fonction de X est 2. ρ
noté : 3. r2
4. Autre : ..................................
1 8. Le coefficient de détermination r2 1. r2 = SCreg/SCT
est égale à : 2. r2 = SCreg/SCres
3. r2 = SCres/SCT
4. Autre : ..................................
1 9. SCreg est : 1. Le seuil de confiance de la régression.
2. Le seuil de signification de la régression.
3. Autre : ..................................
20. En statistique π est : 1. Égale à 3,14.
2. Un paramètre.
3. Le pourcentage de la population.
4. Un estimateur du pourcentage de la population.
5. Autre : ..................................
21. Lorsque le seuil de confiance 1. La marge d’erreur augmente.
grandit 2. La marge d’erreur baisse.
3. L’intervalle de confiance est plus étroit.
4. Autre : ..................................
22. Dans le cadre de la régression 1. Nous rejetons l’hypothèse nulle.
linéaire si la valeur 0 appartient à 2. Nous acceptons le modèle.
l’intervalle de confiance de β1 : 3. Nous rejetons le modèle.
4. Autre : ..................................
n 1. La formule de b0.
x y i i nx y 2. La formule de b1.
i 1 3. La formule du coefficient de la pente de la droite empirique.
n
4. Autre : ...................................
x 2
i nx 2
23. i 1 est :
24. Les tris croisés ont pour objet : 1. De vérifier l’existence de relation entre des variables à caractères qualitatifs
2. De rassembler dans un tableau unique les distributions de fréquences de
plusieurs variables.
3. Autre : ..................................
25. ρ2 est 1. Le coefficient de détermination théorique.
2. Le coefficient de détermination empirique.
3. L’écart-type de la population.
4. Autre : ..................................
n 1. La formule de la variance des erreurs théoriques.
e 2
i 2. La formule de la variance des erreurs empiriques.
i 1 3. La formule des moindres carrés ordinaires.
26. n2 est : 4. Autre : ..................................
27. Les relations dites symétriques 1. L'analyse cherche à mesurer la liaison entre les deux variables.
lorsque : 2. l'analyse cherche à expliquer les variations d'une variable dépendante par les
variations d'une variable indépendante.
3. Autre : ..................................
28. Pour analyser la relation entre des 1. AFE
variables à caractère qualitatif nous 2. AFC
utilisons : 3. ACP
4. Autre : ..................................
29. Le test est assez sensible 1. A la taille de l'échantillon.
Pr. BOULAHOUAL Adil
2
32. Une des prémisses du test de Khi- 1. Chaque case du tableau devrait avoir un effectif théorique au moins égal à dix.
deux est que : 2. Chaque case du tableau devrait avoir un effectif égal à cinq.
3. Autre : ..................................
3
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
اﻟﻤﺪرﺳﺔ اﻟﻮطﻨﯿﺔ ﻟﻠﺘﺠﺎرة واﻟﺘﺴﯿﯿﺮ اﻟﺪار اﻟﺒﯿﻀﺎء
Examen de rattrapage (2015-2016) Nom : ………………………………..…………….. Note :
Matière : Analyse de données.
Aucun document n’est autorisé. Prénom : ………………………..………………..
Durée : 1h
Pr. BOULAHOUAL Adil
1
14. Le coefficient de 1. σ2
détermination théorique 2. ρ2
de Y en fonction de X est 3. r2
no t é :
15. Le coefficient de 1. SCreg/SCT.
détermination r2 est égale 2. SCreg/SCres.
à: 3. SCres/SCT.
4. Autre.
1 6. L’examen de 1. L’examen de l'indépendance des termes d'erreur.
L'homoscédasticité est : 2. Fait à l’aide du test de Durbin-Watson.
3. L’examen de la variance du terme d'erreur.
17 . Lorsque le seuil de 1. La marge d’erreur augmente.
signification grandit : 2. La marge d’erreur baisse.
3. L’intervalle de confiance devient plus petit.
1 8. Dans le cadre de la 1. Nous rejetons l’hypothèse nulle.
régression linéaire si la 2. Nous acceptons le modèle.
valeur 0 appartient à 3. Nous rejetons le modèle.
l’intervalle de confiance
d e β0 :
1 9. Les tris croisés ont pour 1. De vérifier l’existence de relation entre des variables à caractères
objet : qualitatifs.
2. De soupçonner l’existence d’association entre des variables à
caractères qualitatifs
20. L'hypothèse nulle du test 1. La dépendance des variables à caractère quantitatif.
de KHI-DEUX est : 2. L’indépendance des variables à caractère qualitatif.
3. La dépendance des variables à caractère qualitatif.
21. L’hypothèse 1. 2 > 2 α ;ddl
d’indépendance entre 2. 2 2 α ;ddl
variables à caractère 3. La signification du teste de khi-deux est inferieur à α
qualitatif est rejetée
4. La signification du teste de khi-deux est superieur à α
lorsque :
22. Une des prémisses du test 1. Chaque case du tableau devrait avoir un effectif au moins égal à dix.
de Khi-deux est que : 2. Chaque case du tableau devrait avoir un effectif égal à cinq.
3. Chaque case du tableau devrait avoir un effectif théorique au moins
égal à cinq.
23. Lorsque la statistique « V 1. Moyenne.
de cramer » est 2. Forte.
supérieure à 0, 70 la 3. Très forte.
relation est dite :
24. le test de Shapiro-Wilks 1. L’indépendance des termes d’erreurs.
mesure : 2. La normalité de la distribution des erreurs.
3. Autre.
25. Le test de Kolmogorov- 1. L’indépendance des termes d’erreurs.
Smirnov mesure : 2. La normalité de la distribution des erreurs.
3. La normalité de la distribution d’une variable quelconque.
26. Lorsque le facteur 1. L’existence de multi-colinéarité.
d’inflation de la variance 2. La dépendance entre les termes d’erreurs.
est égal à un (1o) ceci 3. La forte relation entre les variables explicatives.
signifie:
EXERCICE II : (5 points)
27. ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. 1. Le revenu explique le
Régression 2,206 1 2,206 ,428 ,510b rendement.
1 Résidu 25,794 5 5,159
2. Le rendement explique le
Total 28,000 6
a. Variable dépendante : RENDEMENT
revenu.
b. Valeurs prédites : (constantes), REVENU 3. Le revenu n’explique pas
le rendement.
4. Le rendement n’explique
pas le revenu.
2
28. Coefficients 1. Au niveau de 97% nous
Modèle Coefficients non Coefficients Sig. 97,0% % intervalles de pouvons confirmer que
standardisés standardisés confiance pour B
A Erreur Bêta Borne Limite
le revenu explique le
standard inférieure supérieure rendement.
Constante -544,181 277,174 ,081 -1257,574 169,211
2. Au niveau de 99% nous
2 devons rejeter le
,294 ,077 ,785 ,023 ,095 ,493
REVENU
a. Variable dépendante : RENDEMENT
modèle.
b. Valeurs prédites : (constantes), REVENU
31 .
1. Les groupes 1,6, et 10 se ressemblent est sont des paresseux, des orgueilleux, etc.
2. Les groupes 8,11, 5, et 2 sont des personnes ambitieuses, pleines d’action, jouissant d’une imagination
fertile, etc.
3. Les groupes 1,6, et 10 se ressemblent est sont des personnes ambitieuses, pleines d’action, jouissant
d’une imagination fertile, etc.
4. Les groupes 8,11, 5, et 2 sont des paresseux, des orgueilleux, etc.
3
GOOD LUCK GUYS !!!
Introduction à la science des données :
-La réelle valeur ajoutée de la recherche : Quantifier l’ampleur des relations.
-Qui a développé la technique statistique « régression » : Sir Frances Galton.
-Le but ultime de l’analyse : Communiquer les résultats aux intéressés.
-Le rôle de DATA SCIENTIST : utiliser les informations pour construire le récit afin
de communiquer les résultats.
-La section d’introduction est utile pour : Configurer le problème pour le lecteur.
-La section des résultats est l’endroit où vous présentez : Les résultats empiriques.
-La science des données : ce que font les scientifiques de données.
-La définition du Dr.Patil : comprend des personnes divers au milieux
universitaires et de formation.
-Les caractéristiques présentés par les « meilleurs » data scientists : Penseurs,
poser de bonnes questions, OK pour gérer des situations non structurées.
-La sortie d’un exercice d’exploration de données dépend de : La qualité des
données.
-Quelques étapes de la mine de données : Etablir des objectifs, sélectionner des
données, prétraiter les données, transformer les données.
-Quand les données manquent de manière systématique il faut : Déterminer
l’impact des données manquantes sur les résultats.
-Un exemple d’algorithme de réduction des données : Analyse des composants
principaux.
-La principale préoccupation pour le stockage des données : Sécurité et
confidentialité des données.
-Un bon point pour l’exploration des données : Visualisation des données.
-Lors de l’évaluation des résultats du minage, le data mining et l’évaluation
deviennent : Un processus itératif.
-Lors de l’établissement des objectifs d’exploration des données, la précision
attendue des résultats influence également : Les coûts.
-Le facteur conduisant à des erreurs dans les données lors du traitement est :
erreur humaine.
-L’évaluation formelle pourrait inclure le test... : Prévisions dans l’échantillon