0% ont trouvé ce document utile (0 vote)
129 vues30 pages

Concepts Clés en Analyse de Données

Le document présente plusieurs notions statistiques comme la régression linéaire simple et multiple, les tests d'hypothèses, la classification supervisée et non supervisée.

Transféré par

ibrighthoe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
129 vues30 pages

Concepts Clés en Analyse de Données

Le document présente plusieurs notions statistiques comme la régression linéaire simple et multiple, les tests d'hypothèses, la classification supervisée et non supervisée.

Transféré par

ibrighthoe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exam Final Mardi ADD

Coefficient de variation : permet de comparer le degré de variation d’un


échantillon à un autre.
Distribution avec un skewness positif signifie une distribution asymétrique
à droite.
Moyenne harmonique sert à calculer un rapport moyen. La moyenne
géometrique sert à calculer un taux moyen.
Etude ad hoc est une étude quanti ou quali réalisée pour le compte d’un seul
client .
Baromète est une étude réalisée à date fixe comme l’omnibus , mais avec le
meme questionnaire d’une étude à l’autre , pour le compte d 1 ou plusieurs
clients.
Rls permet d’estimer la valeur d’une variable dépendante par un ensemble de
variations indépendantes quantitatives.
Méthode théorique de RLS : Y= β zero + β un fois X
Diagramme de dispersion est une représentation graphique d’un nuage de
points.
Loi normale : S ≤1 et K ≤ 1,5
Méthode des moindres carrés permet de construire une droite de régression
empirique qui minimise la somme des carrés des résidus càd les distances
verticales entre la droite et chacun des points observés.
La régression est une méthode statistique qui permet d’expliquer une
variable dépendante par une ou plusieurs variables indépendantes.Elle dite
simple si elle permet de prédire la valeur dépendante par des vars
indépendants.
Le coefficient de corrélation r yx est utilisé pour quantifier la relation entre 2
variables.
£ : différence entre valeur calculée et valeur estimée.
Relation symétrique : L'analyse cherche à mesurer la liaison entre les deux
variables.
Coefficient de détermination : r²=b² x (Ʃxi² - n (moy de x)² ) ÷ (Ʃyi² - n (moy
de y)² ) = SC rég(somme des carrés de la rég) ÷ SC totale
Lorsque le seuil de confiance grandit la marge d’erreur baisse et
l’intervalle de confiance grandit
Test hypothèses : on rejette H zero si t supérieur à t(⍺/2 (n-2)dl ou t inférieur

à - t(⍺/2 (n-2)dl
Si la valeur de 0 appartient à l’intervalle de confiance de β zero ; on rejette
l’hypothèse nulle .

On rejette H un si z supérieur à z (⍺/2 (n-2)dl ou z inférieur à - z(⍺/2 (n-2)dl

Sachant que z=(b1 – β1) ÷ Sb1 si n-2 sup à 30 ; t=(b1 – β1) ÷ Sb1 si n-2 inf à 30
La loi du x² (x=t ou z) suit une relation Asymétrique dont la forme dépend du
nombre de degrés de liberté.

Khi-deux : analyser entre des variables qualitatives.


Degré de liberté= (nbr ligne – 1)x(nbr collones-1)
Hypothèse nulle : l’indépendance des variables à caractère qualitatif
Prémisses du test khi : Chaque Effectifs théorique dans chacune des classes
ou cases jsp ≥5
Phi (Φ) : comparer 2 variables à 2 modalités
Indice V de cramer : Association sans contrainte de taille du tableau ;
mesurer dans quelle proportion une var qualitative indépendante influence
une var qualitative dépendante.

La statistique « V de cramer » : V ≥ 70 Relation très forte ; 0 ,5≤ V≤ 0,69


forte ; 0 ,3≤ V≤ 0,49 modérée ; 0,1≤ V≤ 0,29 faible ; 0,01≤ V≤ 0,09 très
faible ; V=0 relation nulle
Test shapio-wilks et le test Test kolmogorov-smirnov mesurent la
normalité de distribution des erreurs.

La moyenne de distribution de l’échantillonnage des moys égale à la


moyenne de la population.
Ei est le symbole de résidu-erreur empirique.
Population : l’ensemble des élements étudiés . Un échantillon est un sous-
ensemble des éléments étudiés .
Coefficient de skewness évalue le défaut de symétrie d’une distrubition . le
coefficient de kurtosis évalue la dispersion des valeurs extremes par
référence à la loi normale.
Un paramètre est une valeur numérique qui indique une chose sur l’étude de
toute la poplation .Une statistique indique une chose sur l’étude d‘un
échantillon.
Lorsque la variable dépendante est de nature qualitative on choisit le modele
de regression logistique.
Tris croisés consistent à mettre en relation les réponses à des questions
différentes pour rechercher quels critères jouent les uns sur les autres.Ils sont
essentiels pour affiner l’analyse des resultats.
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
‫ﺍﻟﻤﺪﺭﺳﺔ ﺍﻟﻮﻁﻨﻴﺔ ﻟﻠﺘﺠﺎﺭﺓ ﻭﺍﻟﺘﺴﻴﻴﺮ ﺍﻟﺪﺍﺭ ﺍﻟﺒﻴﻀﺎء‬
Examen final (2019/2020)
Nom : ………………………………..…………………………………..…………………………………….…..……………………….…..… Note : ……………………………………………………….…..….…..…
Matière : Analyse de données.
Aucun document n’est autorisé. Prénom : …………………………………….……………….………..…………………………………….…..…

Pr. BOULAHOUAL Adil Numéro d’examen : …………………………………..…………………………………….


Durée : 1:30.
Exercice I :

1. Quelles sont les différences cruciales entre les méthodes de Non supervisée : la segmentation ; la supervisée : pour
prédiction et nécessite une variable output et un échantillon
classification supervisées et les non supervisées. d’apprentissage.
2. Dans le cadre de la régression linéaire, si la valeur 0 Dans le cadre la régression linéaire simple oui MAIS multiple
appartient à l’intervalle de confiance de la β0 nous non, il faut vérifier les autres β i. (il faut voir les autres
acceptons le modèle ou nous le rejetons ? justifiez. prédicteurs)

3. Qu’est-ce que l'homoscédasticité ? Une des prémisses de la régression linéaire qui devrait être
vérifiée avant de continuer l’analyse, qui signifie la
variance constante des erreurs.
4. A quoi sert le test de Durbin-Watson? et comment Vérifier l’indépendance des termes d’erreurs.
L’idéal qu’il soit égal à 2 et admissible entre 1 «et 3.
l’interpréter ?
5. L'intensité et/ou le signe de la relation entre une variable
X Y
indépendante et une autre dépendante peut être
influencé par une co-variable. Expliquer à travers un Z
schéma illustratif.
6. Faites une distribution d’échantillonnage des moyennes Nombre d’échantillons : 3
(4 ; 5) (4 ; 6) (5 ; 6) qui ont comme moyenne
sachant que la population est la suivante : {4;5;6}, et que la respectivement
taille de l’échantillon est de deux (2). 4,5 5 5,5 et la moyenne des moyennes est de 5.
Enquête approfondie réalisée périodiquement sur les
mêmes clients. S'appuyant sur des échantillons importants
7. Qu’est-ce que des panels ?
de 2 000 à 10,000 individus.

8. L'erreur systématique est : Due à l’échelle de mesure (manque de clarté de l'échelle, ,
due à sa longueur…..),
9. L’erreur aléatoire est : Elle est due aux aléas comme la fatigue, l’humeur du
répondant, etc.
Fischer est pour tester le modèle dans sa globalité alors
que le test t de student ou Z testent les prédicteurs c’est-à-
10. Qu’elle est la différence entre le test de « Fischer », le test
dire distinguer entre celle qui expliquent Y et les autres qui
« t » et le test « Z » ? n’expliquent pas. (selon taille ou ddl)
Vérifiez l’hypothèse nulle β1 = 0 et qui consiste à comparer le t
11. En quoi consiste le test d’hypothèse sur la β1 ? calculer au t tabulé. Rejeter H0 tc est sup au tt.
1 : linéarité du phénomène.
2 : homosedasticité
12. Citez brièvement les prémisses de la régression linéaire
3 :L’indépendance des termes d’erreur
multiple. 4 : La normalité de la distribution des termes
d’erreurs ;
5 : L’indépendance des variables exogènes (pas de
colinéarité)
13. Est-ce que le niveau de satisfaction explique le rendement ANOVAa
au seuil de 80% ? justifiez. Somme des Carré
Modèle carrés ddl moyen F Sig.
Au niveau de 80% oui parce que sigANOVA ≤ α 19 ,1% ≤ 20% (100% – 80%)
1 Régression 141071,479 2,119 ,191b
14. Calculez et interprétez le coefficient de détermination. Résidu 1130332,807
R2 = SCR / SCT = 141071,479 / 1271404,286 = 11%. 11% de de la variance du Total 1271404,286
la satisfaction est expliquée par a. Variable dépendante : Rendement
Prédicteurs : (Constante), Satisfaction

Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected] 1/6
www.encgcasa.ac.ma
15. Interprétez le modèle et écrivez le CA en fonction des Coefficients
variables explicatives. standardisés
Modèle B Bêta t Sig.
Nous ne pouvons pas écrire le modèle parce que la publicité est une variable
1 (Constante) 140,757 19,463 ,000
non explicative, elle devrait être retirée et l’analyse devrait être refaite.
recherche 13,084 ,811 31,645 ,000
publicité -,124 -,012 -,470 ,639
a. Variable dépendante : CA

16. Devons- nous accepter ou rejeter le modèle au seuil de Coefficients


a

confiance de 97% ? justifiez. Intervalle de confiance à


Nous devons l’accepter parce que lorsque le seuil de confiance baisse l’intervalle 99,0% pour B
Borne Borne
de confiance devient plus restreint est ainsi au seuil de 97%, zéro (0)
Modèle inférieure supérieure
n’appartiendrait plus à l’intervalle de confiance. (Les deux bornes seraient du
1 (Constante) 406,460 560,206
même signe Démotivation -2,244 ,
17. Analysez les résultats de l’AFE.
Indice de Kaiser-Meyer-Olkin pour la mesure de la ,838
Les données sont FACTORISABLES. qualité d'échantillonnage.
KMO ≥≥≥ 0.3 (seuil admis) Test de sphéricité de Bartlett Khi-deux 375,529
approx.
La signification du Test de sphéricité de Bartlett ≤≤≤≤ 5% : Les données
ddl 21
sont FACTORISABLES
Signification ,000
18. Proposez des noms pour les deux axes factoriels.
AXE I : esprit d’analyse Étudiant 2 .  Étudiant 7
 Étudiant 8
AXE I : idiotisme
19. Interprétez la matrice des composantes et décrivez les
étudiants :
Les six premiers items sont fortement corrélés a la première composante Étudiant 5 .
(coefficients structurels tous supérieur très élevés) les deux derniers sont Étudiant 1 .
corrélés à la deuxième (coefficients structurels très élevés) MAIS Étudiant 3 .
l’« émotion » devrait être ignorée ou retirée de l’analyse vu qu’elle est
corrélée à deux composantes à la fois (validité discriminante) Étudiant 4 .
Matrice des composantes a

Composante
1 2
Esprit d’analyse ,979 - Les étudiants 5 ; 1 ; 3 ; et
Ambition ,996 4 sont des analystes ont les
Charisme ,963 caractères de la première composante (Esprit d’analyse, Ambition, Charisme, Niveau d’éducation,
Niveau d’éducation ,996 Raison, Imagination)
Raison ,996 - Les élements 2 et 7 sont des paresseux ont les caractères de la deuxième composante.
Imagination ,998
Emotions ,985 ,896
Paresse ,997 PS : Le nombre d’observations est inférieur à 50 et aucune analyse ne pourrait être exécutée.
Idiotisme ,989
20. interprétez les grandeurs soulignées.
Bêta : Lorsque « le niveau perception de sureté des achats sur net » augmente de son écart type « la fréquence d’achat » augmente de son écart
type x ,978.
T : t calculé est de 176,692, il faut le comparer au t tabulé de student. (test student ou test d’hypothèse.)
Tolérance : test la colinéarité, il est excellent et d’ailleurs nous n’avons qu’une seule variable indépendante donc c’est évident de ne pas avoir de
colinéarité.
21. Estimez la fréquence d’achat au seuil de 95%
Avec quelle fréquence achetez-vous sur Internet = ,028+ ,969* Je pense que faire des achats sur Internet est sûr.
Avec quelle fréquence achetez-vous sur Internet = ,095 + ,991* Je pense que faire des achats sur Internet est sûr.
Nous n’avons pas de valeur de la variable indépendante pour l’estimer !!!!!
Coefficients
Coefficients non standardisés standardisés
Modèle B Erreur standard Bêta t
1 (Constante) ,062 ,017 3,582
Je pense que faire des achats sur ,980 ,006 ,978 176,692
Internet est sûr.

Borne inférieure Borne supérieure


Modèle sig 95% 95% Tolérance
1 (Constante) ,000 ,028 ,095
Je pense que faire des achats sur ,000 ,969 ,991 1,000
Internet est sûr.

……z a. Variable dépendante : Avec quelle fréquence achetez-vous sur Internet?

Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma 2/6
22. L’objectif de l’étude est prendre une décision à propos de la société X voulant contracter un CMT (crédit
à moyen terme). Coefficients non standardisés
Résultats du test Fonction 1
M de Box 1,186
R05 ,009
F Approximativement 8,434
R08 -,066
ddl1 28
R09 4,562
ddl2 6805,124
R10 ,418
Signification 1,000
R11 ,006
Test l'hypothèse nulle d'égalité de matrices de
covariance des populations. R12 2,535
R14 ,260

(Constante) -,796

Le score critique : (-1,760 + 1,548)/2 = -0,106


La règle de décision :
Octroyer le crédit si le score de l’entreprise X est supérieur au score critique.
La fonction discriminante :

Y = -,796 + 0,009xR05 -,066x R08 + 4,562x R09 + ,418x R10 + ,006xR11 + 2,535x R12 +,260xR14

La décision : oui accorder le crédit.

Justificatif : le score de l’entreprise x est de 1,875 est supérieur au score critique -0,106
PS : la bonne réponse : la signification de M de BOX supérieur à α (5%) l’analyse doit
s’arrêter.

Ratios R01 R02 R04 R05 R07 R08 R09 R10 R11 R12 R14
E/se X 10,764 479 5,765 0,10 0,10 0,010 0,10 0,00 0,010 0,010 10

Fonctions aux barycentres des groupes

E/se Scores moyens

Défaillante -1,760
Saine 1,548
Exercice II :
1- Les principales applications des équations structurelles sont regroupées dans le tableau sur la feuille de
réponses ainsi que l’objectif de chacune d’elles. Complétez le tableau.

Objectifs opérationnels Techniques et démarches adoptées

Rhô de Jöreskog.
Rhô de validité convergente.
Validation d’une échelle de Test de la validité discriminante.
mesure
Vérification de la validité nomologique ou prédictive.

Identification de
l’importance des
effets médiateurs dans le Test de Sobel. Procédure de bootstrap (avec simulation de
modèle. Monte Carlo).

Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc 3/6
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma
2- Selon Hoyle (1995), la modélisation par les équations structurelles représente « une approche statistique
globale permettant de tester des hypothèses traitant des relations entre les variables observées et les
variables latentes ». L’élaboration d’un modèle d’équations structurelles rend nécessaire le suivi d’une
démarche composée d’un ensemble d’étapes successives. Citez-les et développez l’objectif de chaque
étape.

- Citez ici les étapes 1 : La spécification du modèle


de l’élaboration 2: L’identification du modèle
d’un modèle 3 : L’estimation du modèle
d’équations 4 : L’évaluation du modèle
structurelles
5 : La respécification du modèle
- La spécification
La spécification du modèle à étudier consiste à préciser ses principales caractéristiques
en se basant sur la théorie
cette étape contribue de manière effective à la formulation des hypothèses de
recherche.

- Respécification du
modèle. La respécification du modèle représente une phase de réflexion qui offre l’opportunité
de reconsidérer la conception du modèle et d’en proposer des modifications éventuelles,
en tenant compte du cadre théorique de la recherche en question
A titre d’exemple, il serait possible d’ajouter ou de supprimer des paramètres, de fixer
ou de modifier des contraintes, etc.

3- Votre directeur vous demande de mesurer le niveau d’ambition moyen des employés.

Précisez les étapes à suivre.

Recherche documentaire
Revue de littérature
Entretien
Élaborer une échelle de mesure, vue que la variable est subjective ou latente il faut faire
appel au paradigme de Churchill pour approcher la vraie valeur (M = V + Es + Ea)
M : Mesure obtenue
V : Vraie valeur
Es : Erreur systématique
Ea : Erreur aléatoire
Nous devrions faire appel à l’AFE ou l’ACP pour valider l’échelle de mesure

Ecole Nationale de Commerce et de Gestion de Casablanca, B.P. 2725, Beau site Ain Sebaâ - Casablanca - Maroc 4/6
Tel.: +212 5 22 66 08 52/ +212 5 22 66 06 95 | Fax: +212 5 22 66 01 43 | Email: [email protected]
www.encgcasa.ac.ma
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
‫ﺍﻟﻤﺪﺭﺳﺔ ﺍﻟﻮﻁﻨﻴﺔ ﻟﻠﺘﺠﺎﺭﺓ ﻭﺍﻟﺘﺴﻴﻴﺮ ﺍﻟﺪﺍﺭ ﺍﻟﺒﻴﻀﺎء‬
Examen final (2019/2020) Nom : ………………………………..………………………………………………………………..…………………………………….…..… …….…..… Note : …………………………………………..………

Matière : Analyse de données.


Aucun document n’est autorisé. Prénom : ………………………………..………………………………………………………………..…………………………………….…..… …….…..…

Pr. BOULAHOUAL Adil Numéro d’examen : …………………………………………..………

EXERCICE III
1- Voulant établir un modèle conceptuel en matière de capacité d’innovation, basé sur les facteurs que
sont le leadership, le réseautage externe et l’innovation. Nous avons formulé une série d’hypothèses:

- Les facteurs d’innovation et le réseautage externe sont tous deux positivement associés à la capacité
d’innovation autoproclamée ;
- Les types de leadership qui sont favorables à l’innovation sont positivement associés aux facteurs que
sont la capacité d’innovation autoproclamée, le réseautage et l’innovation ;
- Les facteurs d’innovation sont positivement associés au réseautage.
La Figure ci-après et le tableau au-dessous présentent les résultats finaux de l’analyse.

TAF : Testez les hypothèses et interprétez les différents indicateurs.

Mesures CFI NFI TLI IFI RMSEA CMIN/df GFI


Modèle SEM 0,998 0,997 0,952 0,998 0,075 2,818 0,998
Modèle testé appliqué à des sous­échantillons (groupes de villes):
Barcelone 0,987 0,981 0,722 0,989 0,158 2,320 0,988
Copenhague 0,997 0,995 0,940 0,997 0,089 2,081 0,996
Rotterdam 1,0 0,999 1,0 1,0 0,00 0,300 0,999

Effets directs, scores standardises a partir des modelés par équation structurelle.
Capacité GV DU ENTREPRENEURIAL TRANSFORMA­ ALTRUISTE FACTEURS RESEAUT­
D’innovation RESEAU TIONNEL D’INNOVATION AGE
autoproclamée
Echantillon complet 0,25 0,17 0,16 −0,10 0,02 0,05
Barcelone 0,40 −0,15 0,34 −0,18 0,08 0,07
Copenhague 0,35 0,13 0,20 −0,07 −0,01 0,03
Rotterdam 0,25 0,33 0,10 0,08 0,04
−0,17

5/6
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
‫اﻟﻤﺪرﺳﺔ اﻟﻮطﻨﯿﺔ ﻟﻠﺘﺠﺎرة واﻟﺘﺴﯿﯿﺮ اﻟﺪار اﻟﺒﯿﻀﺎء‬
Examen final Nom : ………………………………..…………….. Note :
Matière : Analyse de données.
Aucun document n’est autorisé. Prénom : ………………………..………………..
Durée : Une heure (1h)

EXERCICE I: Questions à choix multiple.


1. Le coefficient de variation permet 1. Calculer la variance. 2. d’étudier la concentration d’une série. 3 Autre :
de : ……….

2. Une distribution avec un Skewness 1. Asymétrique à droite. 2. Asymétrique à gauche 3. indique donc que les
positif significatif est une queues
distribution : 4. Comptent un plus grand nombre d'observations que dans une distribution
gaussienne.
5. Autre : ..................................
3. La moyenne harmonique sert à 1. Un taux moyen. 2. Un rapport moyen. 3. Autre : ..................................
calculer :
4. Le mode est : 1. La valeur la plus répétitive. 2. La valeur la plus redondante.
3. La valeur correspondante à l’effectif le plus élevé.
5. L'étude ad hoc est une : 1. Étude purement quantitative réalisée pour le compte d'un seul client.
2. Étude réalisée à date fixe pour le compte d'un ou de plusieurs clients.
3. Autre : ..................................
6. Le baromètre est une : 1. Étude réalisée à date variable, avec le même questionnaire d'une étude à l'autre,
pour le compte d'un ou de plusieurs clients.
2. Étude réalisée à date fixe comme l'omnibus, mais avec le même questionnaire
d'une étude à l'autre, pour le compte d'un ou de plusieurs clients.
3. Autre : ..................................
7. Une régression linéaire simple va 1. D’interpréter les variations d’une variable en fonction d’une autre.
permettre : 2. De prévoir les variations d’une variable en fonction d’une autre.
3. Autre : ..................................
8. Le diagramme de dispersion : 1. Est une représentation graphique d’un nuage de points.
2. Est un histogramme.
3. Est la première étape de la régression linéaire multiple.
4. Permet de soupçonner l’existence de relation entre les variables qualitatives
étudiées.
9. Pour considérer que la variable suit 1. Le coefficient « Skewness » doit être inférieur à 1 et le coefficient
bien une loi normale : d'aplatissement ou Kurtosis doit être inférieur à 1,5.
2. Le coefficient « Skewness » doit être inférieur à 1 et le coefficient
d'aplatissement ou Kurtosis doit être inférieur à 1.
3. Le coefficient « Skewness » doit être inférieur à 1,5 et le coefficient
4. d'aplatissement ou Kurtosis doit être inférieur à 1.
10. La méthode des moindres 1. De construire une droite de régression qui minimise la somme des carrés des
carrés permet : distances horizontales entre cette droite et chacun des points observés.
2. De construire une droite de régression théorique qui minimise la somme des
carrés des résidus.
3. Autre : ..................................
11. La régression est une méthode 1. De mesurer la force de la relation entre deux variables.
statistique qui permet : 2. D’étudier le type de relation pouvant exister entre certaines variables.
3. D’étudier les variations de la variable dépendante en fonction des variations des
variables indépendantes.
4. Autre : ..................................
12. Pour quantifier l’intensité de la 1. Le coefficient de détermination de Y en fonction de X
relation entre deux variables nous 2. Le coefficient de corrélation entre X et Y
utilisons : 3. La covariance entre X et Y
4. Autre : ..................................
1 3. ɛ est : 1. L’erreur théorique aléatoire.
2. La différence entre la valeur observée et estimée.
Pr. BOULAHOUAL Adil

3. Le résidu.
4. Autre : ..................................
14. y = β0 + β1x est 1. La fonction de la droite de régression linéaire multiple théorique.
2. La fonction de la droite de régression linéaire multiple empirique.
3. Autre : ..................................

1
n 1. La formule du coefficient de détermination.
x 2
i  nx 2 2. La formule du coefficient de corrélation.
b2 i 1
1 n
3. Autre : ..................................
y 2
i  ny 2
15. i 1 est :
1 6. La régression est dite simple si elle 1. De décrire plusieurs variables.
permet : 2. De décrire une seule variable.
3. De prédire les valeurs d’une variable exogène à partir des valeurs d’une autre
variable endogène.
4. Autre : ..................................
17 . Le coefficient de détermination 1. σ2
théorique de Y en fonction de X est 2. ρ
noté : 3. r2
4. Autre : ..................................
1 8. Le coefficient de détermination r2 1. r2 = SCreg/SCT
est égale à : 2. r2 = SCreg/SCres
3. r2 = SCres/SCT
4. Autre : ..................................
1 9. SCreg est : 1. Le seuil de confiance de la régression.
2. Le seuil de signification de la régression.
3. Autre : ..................................
20. En statistique π est : 1. Égale à 3,14.
2. Un paramètre.
3. Le pourcentage de la population.
4. Un estimateur du pourcentage de la population.
5. Autre : ..................................
21. Lorsque le seuil de confiance 1. La marge d’erreur augmente.
grandit 2. La marge d’erreur baisse.
3. L’intervalle de confiance est plus étroit.
4. Autre : ..................................
22. Dans le cadre de la régression 1. Nous rejetons l’hypothèse nulle.
linéaire si la valeur 0 appartient à 2. Nous acceptons le modèle.
l’intervalle de confiance de β1 : 3. Nous rejetons le modèle.
4. Autre : ..................................
n 1. La formule de b0.
x y i i nx y 2. La formule de b1.
i 1 3. La formule du coefficient de la pente de la droite empirique.
n
4. Autre : ...................................
x 2
i  nx 2
23. i 1 est :
24. Les tris croisés ont pour objet : 1. De vérifier l’existence de relation entre des variables à caractères qualitatifs
2. De rassembler dans un tableau unique les distributions de fréquences de
plusieurs variables.
3. Autre : ..................................
25. ρ2 est 1. Le coefficient de détermination théorique.
2. Le coefficient de détermination empirique.
3. L’écart-type de la population.
4. Autre : ..................................
n 1. La formule de la variance des erreurs théoriques.
e 2
i 2. La formule de la variance des erreurs empiriques.
i 1 3. La formule des moindres carrés ordinaires.
26. n2 est : 4. Autre : ..................................
27. Les relations dites symétriques 1. L'analyse cherche à mesurer la liaison entre les deux variables.
lorsque : 2. l'analyse cherche à expliquer les variations d'une variable dépendante par les
variations d'une variable indépendante.
3. Autre : ..................................
28. Pour analyser la relation entre des 1. AFE
variables à caractère qualitatif nous 2. AFC
utilisons : 3. ACP
4. Autre : ..................................
29. Le test est assez sensible 1. A la taille de l'échantillon.
Pr. BOULAHOUAL Adil

2. A la taille du tableau croisé.


3. Au degré de liberté.
4. Autre : ..................................
30. L'hypothèse nulle du test de KHI- 1. L’indépendance des variables à caractère quantitatif.
DEUX est : 2. L’indépendance des variables à caractère qualitatif.
3. La dépendance des variables à caractère quantitatif.
4. La dépendance des variables à caractère qualitatif.
31 . L’hypothèse d’indépendance entre 1. 2 > 2 α ;ddl
variables à caractère qualitatif t 2. 2  2 α ;ddl
rejetée est : 3. Autre : ..................................

2
32. Une des prémisses du test de Khi- 1. Chaque case du tableau devrait avoir un effectif théorique au moins égal à dix.
deux est que : 2. Chaque case du tableau devrait avoir un effectif égal à cinq.
3. Autre : ..................................

33. Voulant mesurer la force 1. Le V de cramer


d’association entre deux variables à 2. Autre : ..................................
caractère qualitatif à deux
modalités chacune, il est
recommandé d’utiliser :
34 . La loi du 2 suit une distribution : 1. Asymétrique dont la forme dépend du nombre de degrés de liberté.
2. Symétrique dont la forme dépend du nombre de degrés de liberté.
3. Autre : ..................................

35. Lorsque la statistique « V de 1. Modérée


cramer » est comprise entre 0, 30 2. Moyenne
est 0,49 la relation est : 3. Forte
4. Très forte
36 . le test de Shapiro-Wilks mesure : 1. L’indépendance des termes d’erreurs
2. La normalité de la distribution des erreurs
3. Autre : ..................................
37 . Le test de Kolmogorov-Smirnov 1. L’indépendance des termes d’erreurs
mesure : 2. La normalité de la distribution des erreurs
3. Autre : ..................................
38. Dans le cadre de l'analyse 1. Pose un problème.
factorielle, la corrélation entre 2. N’est pas un problème.
variables : 3. Autre : ..................................
39 . Dans le cadre de l’analyse factorielle 1. 45%
il est souvent conseillé d'imposer un 2. 55%
pourcentage de variance expliquée 3. 65%
égal à : 4. Autre : ..................................
40. L’analyse factorielle est : 1. Une analyse descriptive bi-variée ;
2. Une analyse exploratoire unidimentionnelle ;
3. Une analyse explicative multidimentionnelle ;
4. Autre : ..................................
41. Pour déterminer le nombre de 1. L'« eigenvalue ».
composantes principales à retenir 2. Règle des valeurs propres.
plusieurs critères peuvent être 3. Règle de Kaiser-Guttman.
utilisés à savoir : 4. Autre : ..................................
42. Dans le cadre de l'analyse 1. Avoir un minimum de 5 observations par item.
factorielle, Il faut : 2. Avoir un minimum de 10 observations par item.
3. Interroger au moins 50 individus.
4. Interroger au moins 50 individus.

EXERCICE II : Traitez au choix une des deux thématiques suivantes :


1. La régression logistique.
2. Mesurer d’un phénomène. Les étapes de A à Z (Construits, items, moyenne,….).

EXERCICE III : Interprétations des tableaux


Pr. BOULAHOUAL Adil

3
Université Hassan II Mohammedia – Casablanca
Ecole Nationale de Commerce et de Gestion
‫اﻟﻤﺪرﺳﺔ اﻟﻮطﻨﯿﺔ ﻟﻠﺘﺠﺎرة واﻟﺘﺴﯿﯿﺮ اﻟﺪار اﻟﺒﯿﻀﺎء‬
Examen de rattrapage (2015-2016) Nom : ………………………………..…………….. Note :
Matière : Analyse de données.
Aucun document n’est autorisé. Prénom : ………………………..………………..
Durée : 1h
Pr. BOULAHOUAL Adil

EXERCICE I (8 points): Encerclez les bonnes réponses.


1. Le coefficient de variation 1. Calculer la variance. 2. De comparer deux séries statistiques en
permet de : termes de concentration. 3. De comparer deux séries statistiques en
termes de dispersion.
2. Une distribution avec un 1. Asymétrique à droite. 2. Asymétrique à gauche 3. indique que
Skewness positif les queues comptent un plus grand nombre d'observations que dans
significatif est u ne une distribution gaussienne.
distribution :
3. La moyenne géométrique 1. Un taux moyen. 2. Un rapport moyen. 3 . A u t re :
sert à calculer :
4. La moyenne de la 1. La moyenne de l’échantillon 2. La moyenne de la population
distribution 3. La médiane.
d’échantillonnage des
moyenne est égale à :
5. Les statistiques servent 1. Décrire un échantillon. 2. Décrire une population. 3. Estimer les
à: critères de la population.
6. Les panels sont des 1. Entre 2 00 à 1000.
Investigations 2. Entre 1 000 à 2 000.
approfondies réalisées 3. Entre 2 000 à 10 000.
périodiquement sur les
mêmes clients. En
s’appuyant sur des
échantillons de tailles
comprises:
7. Les données primaires 1. Des données brutes, qui doivent être préparées, analysées puis
s o nt : interprétées.
2. Plus pertinentes que les données secondaires.
3. les données internes issues de l'entreprise.
8. Le diagramme de 1. Est la première étape de la régression linéaire multiple.
dispersion : 2. Permet de soupçonner l’existence de relation entre plusieurs variables à
caractère quantitatif.
3. Permet de soupçonner l’existence de relation entre seulement deux
variables caractère quantitatif.
9. L'erreur systématique est 1. Erreur dépendante de l'instrument de mesure.
u ne : 2. Erreur dépendante des circonstances de mesure.
10. La méthode des moindres 1. Construire une droite de régression qui minimise la somme des carrés
carrés permet de : des distances horizontaux entre cette droite et chacun des points
observés.
2. Construire une droite de régression linéaire empirique qui minimise la
somme des carrés des résidus.
11. Pour quantifier l’intensité 1. Le coefficient de détermination de Y en fonction de X.
de la relation entre deux 2. Le coefficient de corrélation entre X et Y.
variables nous utilisons : 3. La covariance entre X et Y.
12. ei est le symbole : 1. De l’erreur théorique aléatoire.
2. Du résidu.
1 3. y = β0 + β1x1 + β2x2 est : 1. La fonction de la droite de régression linéaire multiple théorique.
2. La fonction de la droite de régression linéaire multiple empirique.
3. L’estimation ponctuelle de Y.
4. Autre.

1
14. Le coefficient de 1. σ2
détermination théorique 2. ρ2
de Y en fonction de X est 3. r2
no t é :
15. Le coefficient de 1. SCreg/SCT.
détermination r2 est égale 2. SCreg/SCres.
à: 3. SCres/SCT.
4. Autre.
1 6. L’examen de 1. L’examen de l'indépendance des termes d'erreur.
L'homoscédasticité est : 2. Fait à l’aide du test de Durbin-Watson.
3. L’examen de la variance du terme d'erreur.
17 . Lorsque le seuil de 1. La marge d’erreur augmente.
signification grandit : 2. La marge d’erreur baisse.
3. L’intervalle de confiance devient plus petit.
1 8. Dans le cadre de la 1. Nous rejetons l’hypothèse nulle.
régression linéaire si la 2. Nous acceptons le modèle.
valeur 0 appartient à 3. Nous rejetons le modèle.
l’intervalle de confiance
d e β0 :
1 9. Les tris croisés ont pour 1. De vérifier l’existence de relation entre des variables à caractères
objet : qualitatifs.
2. De soupçonner l’existence d’association entre des variables à
caractères qualitatifs
20. L'hypothèse nulle du test 1. La dépendance des variables à caractère quantitatif.
de KHI-DEUX est : 2. L’indépendance des variables à caractère qualitatif.
3. La dépendance des variables à caractère qualitatif.
21. L’hypothèse 1. 2 > 2 α ;ddl
d’indépendance entre 2. 2  2 α ;ddl
variables à caractère 3. La signification du teste de khi-deux est inferieur à α
qualitatif est rejetée
4. La signification du teste de khi-deux est superieur à α
lorsque :
22. Une des prémisses du test 1. Chaque case du tableau devrait avoir un effectif au moins égal à dix.
de Khi-deux est que : 2. Chaque case du tableau devrait avoir un effectif égal à cinq.
3. Chaque case du tableau devrait avoir un effectif théorique au moins
égal à cinq.
23. Lorsque la statistique « V 1. Moyenne.
de cramer » est 2. Forte.
supérieure à 0, 70 la 3. Très forte.
relation est dite :
24. le test de Shapiro-Wilks 1. L’indépendance des termes d’erreurs.
mesure : 2. La normalité de la distribution des erreurs.
3. Autre.
25. Le test de Kolmogorov- 1. L’indépendance des termes d’erreurs.
Smirnov mesure : 2. La normalité de la distribution des erreurs.
3. La normalité de la distribution d’une variable quelconque.
26. Lorsque le facteur 1. L’existence de multi-colinéarité.
d’inflation de la variance 2. La dépendance entre les termes d’erreurs.
est égal à un (1o) ceci 3. La forte relation entre les variables explicatives.
signifie:

EXERCICE II : (5 points)
27. ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. 1. Le revenu explique le
Régression 2,206 1 2,206 ,428 ,510b rendement.
1 Résidu 25,794 5 5,159
2. Le rendement explique le
Total 28,000 6
a. Variable dépendante : RENDEMENT
revenu.
b. Valeurs prédites : (constantes), REVENU 3. Le revenu n’explique pas
le rendement.
4. Le rendement n’explique
pas le revenu.

2
28. Coefficients 1. Au niveau de 97% nous
Modèle Coefficients non Coefficients Sig. 97,0% % intervalles de pouvons confirmer que
standardisés standardisés confiance pour B
A Erreur Bêta Borne Limite
le revenu explique le
standard inférieure supérieure rendement.
Constante -544,181 277,174 ,081 -1257,574 169,211
2. Au niveau de 99% nous
2 devons rejeter le
,294 ,077 ,785 ,023 ,095 ,493
REVENU
a. Variable dépendante : RENDEMENT
modèle.
b. Valeurs prédites : (constantes), REVENU

29. Variable dépendante : REVENU 1. Acceptons le modèle tel


Modèle Coef standardisés t Sig. qu’il est.
Bêta 2. Soupçonnons l’existence
(Constante) 13,916 ,000 de colinéarité
MOTIVATION ,022 ,678 ,503
3. Devons mesurer la force
3 DIPMOLE -,229 -6,568 ,000
de la relation entre la
JOURS CONGéS 1,109 11,766 ,000
AMBITION -,072 -,747 ,461
MOTIVATION et
l’AMBITION.
Voulant expliquer le REVENU et sachant que la signification de l’ANOVA est 4. Devons mesurer la force
de ( ,001) nous : de la relation entre
DIPLOME et JOURS
CONGéS.
30. 1. Nous pouvons retenir
Variance totale expliquée
quatre (4) composantes
Valeurs propres initiales Extraction Sommes des carrés des au maximum.
Composante facteurs retenus
2. La variance totale est
Total % de la % Total % de la variance % cumulés
variance cumulés égale à 92,52%.
3. La variance totale est
7,745 51,634 51,634 7,745 51,634 51,634
1 égale à 70,270%.
2,795 18,635 70,270 2,795 18,635 70,270
2
2,062 13,750 84,019 2,062 13,750 84,019
3
1,276 8,510 92,529 1,276 8,510 92,529
4

31 .

1. Les groupes 1,6, et 10 se ressemblent est sont des paresseux, des orgueilleux, etc.
2. Les groupes 8,11, 5, et 2 sont des personnes ambitieuses, pleines d’action, jouissant d’une imagination
fertile, etc.
3. Les groupes 1,6, et 10 se ressemblent est sont des personnes ambitieuses, pleines d’action, jouissant
d’une imagination fertile, etc.
4. Les groupes 8,11, 5, et 2 sont des paresseux, des orgueilleux, etc.

3
GOOD LUCK GUYS !!!
Introduction à la science des données :
-La réelle valeur ajoutée de la recherche : Quantifier l’ampleur des relations.
-Qui a développé la technique statistique « régression » : Sir Frances Galton.
-Le but ultime de l’analyse : Communiquer les résultats aux intéressés.
-Le rôle de DATA SCIENTIST : utiliser les informations pour construire le récit afin
de communiquer les résultats.
-La section d’introduction est utile pour : Configurer le problème pour le lecteur.
-La section des résultats est l’endroit où vous présentez : Les résultats empiriques.
-La science des données : ce que font les scientifiques de données.
-La définition du Dr.Patil : comprend des personnes divers au milieux
universitaires et de formation.
-Les caractéristiques présentés par les « meilleurs » data scientists : Penseurs,
poser de bonnes questions, OK pour gérer des situations non structurées.
-La sortie d’un exercice d’exploration de données dépend de : La qualité des
données.
-Quelques étapes de la mine de données : Etablir des objectifs, sélectionner des
données, prétraiter les données, transformer les données.
-Quand les données manquent de manière systématique il faut : Déterminer
l’impact des données manquantes sur les résultats.
-Un exemple d’algorithme de réduction des données : Analyse des composants
principaux.
-La principale préoccupation pour le stockage des données : Sécurité et
confidentialité des données.
-Un bon point pour l’exploration des données : Visualisation des données.
-Lors de l’évaluation des résultats du minage, le data mining et l’évaluation
deviennent : Un processus itératif.
-Lors de l’établissement des objectifs d’exploration des données, la précision
attendue des résultats influence également : Les coûts.
-Le facteur conduisant à des erreurs dans les données lors du traitement est :
erreur humaine.
-L’évaluation formelle pourrait inclure le test... : Prévisions dans l’échantillon

Méthodologie de la science des données :


-Une méthodologie : est un système de méthodes utilisées dans un domaine
d’étude ou d’activité particulier.
-La méthodologie expliqué dans cette formation est décrite par : John Rollins.
-La 1ère étape de la méthodologie de la science des données : la compréhension
des affaires
- « si le problème est un plat, les données sont un ingrédient »
-Une exigence de données : l’ensemble initial d’ingrédients
-Les scientifiques des données : déterminent comment préparer les données,
identifient les données nécessaires à la modélisation des données et déterminent
comment les collecter.
-La préparation des données implique : de formater correctement les données, la
correction des valeurs non valides et le traitement des valeurs aberrantes, la
suppression des données en double, le traitement des valeurs manquantes.
-La compréhension des données : englobe toutes les activités liées à la
construction de l’ensemble des données.
-Pendant la préparation des données, les data scientists et les DBA :
*Identifient les données manquantes.
*Déterminent le moment des évènements
*Agrègent les données et les fusionnent à partir de différentes sources.
*Définissent la variable à utiliser dans le modèle
-Un ensemble d’apprentissage est utilisé pour : la modélisation prédictive
-Un statisticien appelle un faux (-), une erreur de type I et un faux (+) une erreur
de type II : FAUX
-L’évaluation du modèle : Peut inclure des tests de signification statistique,
consiste d’assurer que les données sont correctement traitées et interprétées,
s’assurer que le modèle est conçu et fonctionne comme prévu.
-Les dernières étapes de la méthodologie de la science des données sont un cycle
itératif entre la modélisation, l’évaluation, le déploiement et la rétroaction : VRAI
-l’évaluation du modèle sert à : évaluer le modèle avant son déploiement.
-La rétroaction est essentielle à la viabilité à long terme du modèle
-La méthodologie de la science des données fournit au scientifique des données
un cadre sur la façon de procéder pour obtenir des réponses.
-La compréhension des affaires est importante car :
*Façonne le reste des étapes méthodologiques
*Définit clairement le problème et le besoin d’un point de vue commercial
*Garantit que le travail génère la solution voulue
*implique une expertise du domaine
-Un scientifique des données détermine que la création d’un système de
recommandation est la solution à un problème commercial particulier :
APPROCHE ANALYTIQUE
-2 caractéristiques importantes de la méthodologie des donnés : Un processus
hautement itératif et il ne s’arrête jamais.
-Les scientifiques utilisent pour l’exploration des données : des statistiques
descriptives et des techniques de visualisation des données.
-La préparation des données implique de traiter les données manquantes mal
codées et peut inclure l’utilisation d’une analyse de texte pour structurer des
données de texte non structurées ou semi structurées
-meilleur description de l’étape de modélisation : la modélisation peut nécessiter
de tester plusieurs algorithmes et paramètres
-Le déploiement d’un modèle en production représente : le début d’1 processus
itératif qui inclut la rétroaction, le raffinement et le redéploiement du modèle…
-Des systèmes performants sont utilisés pour faciliter : la préparation et
modélisation des données.
-Approche descendante : définit un problème commercial puis analyse les
données pour trouver une solution
-Approche ascendante : commence par les données puis aborde un prob
commercial en se basant sur ces données.
-tous des exemples de technologie en évolution rapide affectant la méthodologie
sauf pour : Echantillonnage des données.
-La compréhension des données tt les éléments suivant sauf : Recueillir et
analyser les commentaires pour évaluer les performances du modèle
-Les data scientists peut revenir à une étape précédente pour effectuer des
ajustements… VRAI
-Les data scientists doivent communiquer aux sponsors tout au long du projet
pour que les sponsors :
*puissent fournir une expertise du domaine
*s’assurer que le travail reste sur la bonne voie pour générer la solution souhaitée
*puissent examiner les résultats intermédiaires.

Vous aimerez peut-être aussi