0% ont trouvé ce document utile (0 vote)

168 vues149 pages

Data Analytics

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

168 vues149 pages

Data Analytics

Transféré par

El Mehdi OUAFIQ

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Analytics

Par: Asmaa Mountassir, PhD

1
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive

FORMATION

Chapitre IV : Analyse par

Composants Principaux

Travaux Pratiques Python

Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive

FORMATION

Chapitre IV : Analyse par

Composants Principaux

Travaux Pratiques Python

Data Analytics ?
Analyse de Données ?

4
?
A partir de QUOI on construit tous
ces graphes ?
DATA
DATA ??

DATA vs INFORMATION ?
Data…
Où est l’information ?
Données Structurées
Colonnes = Variables = Caractéristiques

Lignes = Observations = Enregistrements

Données
Non Structurées
Pourquoi l’Analyse de
Données ?
RECENSEMENT
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et

Type d’habitat

- Prédiction de la situation
économique du pays
Qu’en est-il pour
votre Organisme ?!
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive

FORMATION

Chapitre IV : Analyse par

Composants Principaux

Travaux Pratiques Python

Faut-il TOUJOURS
TOUT recenser ??
Aléatoire
Stratifié
Colonnes = Variables = Caractéristiques

Lignes = Observations = Enregistrements

Population
Variables

Observations

Population
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES

- Variable nominale : possède un nombre fini de

valeurs dites modalités.
- Variable ordinale : variable nominale mais dont
l’ordre a un sens. On peut ordonner les modalités
de la variable.
- Variable discrète : possède des valeurs
numériques discrètes.
- Variable continue : généralement les valeurs de
cette variable sont découpées en intervalles.
TYPES DE VARIABLES

Exemples : Exemples : Exemples : Exemples :

- Sexe - Mention Bac - Nbre enfants - Salaire
- Couleur - Classe Sociale - Age - Poids
- Code Postal - Grade - Expérience - Consommation
- Type - Niveau
- Oui/Non Satisfaction
TYPES DE VARIABLES

?
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES

Age Patient
TYPES DE VARIABLES
TYPES DE VARIABLES ET GRAPHES
INDICATEURS STATISTIQUES
TENDANCE CENTRALE

Quelle est la Tendance

Centrale de la classe
En DROIT ?
TENDANCE CENTRALE

Médiane ?

Moyenne ? Mode ?
TENDANCE CENTRALE

Moyenne = 10.36
TENDANCE CENTRALE

Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10 }

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 }

50 % 50 %
Médiane

Puisque Total = 12 est pair,

Médiane = (9+10)/2
TENDANCE CENTRALE

X}
Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 11 ; 11 ; 12 ; 15 ; 15 }

50 % 50 %
Médiane
TENDANCE CENTRALE

Quelle différence entre

la Moyenne et la Médiane ?
TENDANCE CENTRALE

La médiane n’est pas affectée

Par les valeurs exceptionnelles La médiane tient compte
du rang de tous les individus
et non de
leur valeur

La médiane est valable La médiane est la valeur centrale

sur caractères quantitatifs la plus proche de tous les
et qualitatifs ordinaux individus
TENDANCE CENTRALE

La Moyenne ne correspond pas

toujours à la Médiane !!
TENDANCE CENTRALE

Le Mode est la valeur la plus fréquente

LES QUARTILES

Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10 }

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 } - Q1 = la valeur en dessous de
laquelle se trouvent 25% des
50 % 50 % observations inférieurs
Médiane - Q3 = la valeur en dessous de
laquelle se trouvent 75% des
Q2 observations inférieures

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 }
25% 25% 25% 25%
min Q1 Q3 max
Q2
MESURES DE DISPERSION

Peut-on dire que

les deux classes
sont identiques ??

10 10
10 10
MESURES DE DISPERSION

Ecart-Type !!

m : moyenne
n : nb observations
MESURES DE DISPERSION

Ecart-Type vs Variance ?? Variance = (Ecart-Type)2

MESURES DE DISPERSION

- La dispersion indique dans quelle mesure les

observations s'écartent d'une mesure appropriée de
la tendance centrale.
- La variance montre dans quelle mesure chaque
observation diffère de la moyenne.
- Plus la variance est faible plus les observations
sont proches de la moyenne, et vice versa.
- L’écart-type quantifie le degré de dispersion des
observations dans un jeu de données.
MESURES DE DISPERSION
MESURES DE DISPERSION

Moyenne de la classe 1 Moyenne de la classe 2

Est 10 ± 6.38 Est 10 ± 1.89
MESURES DE DISPERSION

BOITES A MOUSTACHES
MESURES DE DISPERSION

BOITE A MOUSTACHES : résumé

graphique d’une distribution
MESURES DE DISPERSION
MESURES DE DISPERSION

On repère sur la boîte à moustaches d’une variable :

 L’échelle des valeurs, située sur l’axe vertical.

 La valeur du 1er quartile Q1 => trait inférieur de la boîte.
 La valeur du 2ème quartile Q2 => trait au milieu de la boîte.
 La valeur du 3ème quartile Q3 => trait supérieur de la boîte.
 Les 2 moustaches, délimitent les valeurs dites adjacentes qui sont
déterminées à partir de l’écart interquartile (Q3-Q1).
 Les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers)
situées au-delà des valeurs adjacentes sont individualisées. Elles
sont représentées par des marqueurs (o, ou *, etc.)
MESURES DE DISPERSION

On peut tracer des boites à

Moustaches pour plusieurs
Groupes sur le même graphe !
MESURES DE DISPERSION

Que peut-on dire

Des deux distributions ?

Filles Garçons
MESURES DE DISPERSION
- Les deux groupes ont des médianes
très rapprochées
- Les valeurs pour le 2ème groupe sont très
dispersées car corps de la boite plus grand
et moustaches plus étalées
- La première distribution suit une loi normale
car la boite est symétrique
MESURES DE FORME
MESURES DE FORME

- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane
MESURES DE FORME
- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane

Est-ce naturel ?
Est-ce normal ?
MESURES DE FORME

Oui c’est normal !!

On dit que cette distribution
suit la Loi Normale
MESURES DE FORME
Ce n’est pas toujours
évident à observer
MESURES DE FORME
Présence de deux
Distributions Normales
=˃ Deux sous-groupes
hétérogènes
MESURES DE FORME

S’agit-il d’une
distribution normale ?
MESURES DE FORME
MESURES DE FORME

Droite vs Gauche
MESURES DE FORME

On dit que la distribution suit

Une loi normale N(7, 4)
7 étant la moyenne
4 étant l’écart-type
MESURES DE FORME

En général...
MESURES DE FORME
MESURES DE FORME

On a transformé
la variable X en Z-score,
dit score centré réduit
=˃ standardisation
MESURES DE FORME

- Z-score : convertir un score individuel en un score

standardisé, encore appelé score centré et réduit.
- Z=(X-m)/σ
- Le score Z permet de fournir une indication
précise de la position du score de l’individu
au sein de la distribution.
- Cette transformation consiste essentiellement à
exprimer les données dans un système
de mesure standard.
MESURES DE FORME
MESURES DE FORME

Pour tester la normalité,

on peut également tracer
un graphe dit QQ-plot.
Si les points/observations
s’alignent avec la droite théorique,
on peut dire qu’il s’agit d’une
distribution normale.
INDICATEURS STATISTIQUES

Tendance Centrale Dispersion Forme

➔
Moyenne ➔
Écart Type ➔
Distribution Normale
➔
Médiane ➔
Variance ➔
Z-scores
➔
Mode ➔
Étendue
➔
Coefficient de
variation
➔
Boite à moustaches
LIAISON ENTRE LES VARIABLES
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et

Type d’habitat

- Prédiction de la situation
économique du pays
LIAISON ENTRE VARIABLES
LIAISON ENTRE VARIABLES

Comment peut-on S’il existe une relation

détecter cette liaison ? entre ces deux variables,
on peut déduire l’une
à partir de l’autre,
on comprend mieux le phénomène.

Corrélation ≠ Causalité
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

Nuage de Points

Existe-t-il une
relation entre
Poids et Taille ?
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

Nuage de Points

La connaissance de la taille
donne une information sur
le poids
=˃ Les deux variables sont
dépendantes
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

où

Quand x augmente Quand x augmente

y diminue, et vice versa y augmente, et vice versa
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

On dit que PM10 et NO

Sont fortement corrélées, Et si on étudie
Corrélation positive plusieurs variables ?

Matrice de Corrélation
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

Variable 1 Variable 2 La réussite dans le test

Sexe Résultat
de conduite
●
Homme ●
Pass dépend-elle du sexe ?
●
Femme ●
Fail
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

Variable 1 Variable 2 a : nombre d’observations

Sexe Résultat ayant Xa et Ya
●
Homme ●
Pass
●
Femme ●
Fail

Table de Contingence

30 70 100

70 30 100

100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100 Théoriquement parlant ??

Si les deux variables
70 30 100
Étaient indépendantes ?
100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100 Théoriquement parlant ??

Si les deux variables
70 30 100
Étaient indépendantes ?
100 100

Valeurs réelles
Valeurs théoriques

50 50 100

100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES
Valeurs théoriques
Si x et y indépendants Table de contingence
pour variables avec
plusieurs modalités

χ2 Est nul si les variables

sont indépendantes,
i.e. si les valeurs réelles
correspondent aux valeurs
théoriques.
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100

70 30 100

100 100
χ2 = 32 Forte relation
entre les deux variables
LIAISON ENTRE VARIABLES
VARIABLE QUALITATIVE & QUANTITATIVE

On découpe la population des

Existe-t-il une liaison acteurs en H/F,
Entre l’age et le sexe puis on analyse les boites
des acteurs ayant eu à moustache de chaque
Le prix Oscar ? sous-groupe.
LIAISON ENTRE VARIABLES
On analyse chaqueVARIABLE
boite à part.
QUALITATIVE & QUANTITATIVE
La distribution de la variable age
est différente entre les hommes
et les femmes.
Pour les hommes, valeurs hautes
de l’age, contrairement aux femmes.
La distribution est normale pour
les hommes. Pour les femmes
la distribution est plutôt
étalée vers la gauche.
LIAISON ENTRE VARIABLES

Quels types de variables ?

Quelles liaisons peut-on
étudier et comment ?
LIAISON ENTRE VARIABLES

QUANTITATIVE QUALITATIVE QUANT & QUALIT

➔
Nuage de points ➔
NOMINALE : ➔
Découper la
➔
Corrélation Pearson Coefficient χ2 population selon
➔
ORDINALE : modalités
Corrélation Spearman ➔
Tracer boite à
moustaches pour
chaque modalité
➔
Analyser chaque
boite à moustaches
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive

FORMATION

Chapitre IV : Analyse par

Composants Principaux

Travaux Pratiques Python

RÉGRESSION LINÉAIRE
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et

Type d’habitat

- Prédiction de la situation
économique du pays
Que peut-on prédire ?

- La météo
- Panne de machines
Il s’agit d’une
Il s’agit deprédiction
prédire
- Séisme
De variable
une qqch
- Evolution de CA
À partir
à partir de qqch
d’autres !
variables !
- ...
RÉGRESSION LINÉAIRE
D’après le nuage de points,
on déduit qu’il peut y
avoir une relation entre
les deux variables.

Peut-on prédire
la taille à partir
du poids ?

Le coefficient de corrélation
Corrélation : r=0.79 fort nous confirme l’existence
d’une relation entre les
deux variables.
RÉGRESSION LINÉAIRE

Que veut dire

taille et poids
sont en relation ?? Il s’agit de trouver une
fonction f telle que :
Poids = f(Taille)
RÉGRESSION LINÉAIRE

Comment est la relation

dans notre cas ?
Relation linéaire !
Donc il s’agit de trouver
La droite qui représente
Le mieux cette liaison.
RÉGRESSION LINÉAIRE

Il y a une infinité de droite !!

Laquelle choisir
et comment ?

Problème d’optimisation !
RÉGRESSION LINÉAIRE

Est-ce qu’il n’existe

que les liaisons linéaires ?

Voyons voir...
RÉGRESSION LINÉAIRE

TYPES DE LIAISON
RÉGRESSION LINÉAIRE

- Régression : Prédiction d’une valeur numérique continue.

- Régression Linéaire pour deux variables X et Y :
trouver une fonction linéaire f telle que Y = f(X)
- X est dite variable explicative, exogène, indépendante.
- Y est dite variable expliquée, endogène, dépendante.
- Si on a deux variables, on parle de régression linéaire
simple.
- Si on prédit une variable à partir de plusieurs on parle de
régression linéaire multiple.
RÉGRESSION LINÉAIRE

a : la pente
b : constante
ε : l’erreur du modèle

Il existe des paramètres

Les deux variables sont
a, b et ε tels que
en relation linéaire
Poids = a*Taille + b + ε
RÉGRESSION LINÉAIRE

Il existe des paramètres

Les deux variables X et Y sont
a, b et ε tels que
en relation linéaire
Y = a*X + b + ε

Pour chaque observation (xi,yi)

Que signifie chaque
yi = a*xi + b + εi
Paramètre ?

a : si X varie d’une unité, de combien

d’unités varie Y ?
Si a˃0, X et Y varient dans le même sens
b : si X vaut 0, quelle est la valeur de Y ?
ε : la différence entre la valeur réelle
et la valeur prédite de Y
RÉGRESSION LINÉAIRE
Droite de régression
qui modélise la relation
entre X et Y.

Pour chaque observation (xi,yi)

yi = a*xi + b + εi

yi : valeur réelle de y pour

ŷi
yi
}ε =ŷ -y
i i i
l’observation i
ŷi : valeur prédite par le modèle
εi : résidu, erreur pour l’observation i
xi
RÉGRESSION LINÉAIRE

On peut appliquer la méthode des

Comment s’assurer qu’il Moindres Carrés.
s’agit du bon/meilleur Chercher la droite qui vérifie : la somme
modèle/droite ? des carrés des εi soit minimale.
RÉGRESSION LINÉAIRE

Est-ce que je dois Non !! C’est la machine

faire tous les calculs ?? qui s’en occupe !
RÉGRESSION LINÉAIRE

Meilleure droite de régression

Obtenue après application de
La méthode des moindres carrés.

A votre avis le modèle

représente bien le phénomène ?
Peut-on dire que la droite
nous permet de faire une
bonne prédiction ?
RÉGRESSION LINÉAIRE

Lequel des deux Y a-t-il un moyen de

phénomènes est bien l’estimer avec des
représenté ? calculs ?
RÉGRESSION LINÉAIRE

- Coefficient de Détermination R2
pour mesurer la qualité du modèle.
- Il exprime la part de variabilité
de Y expliquée par le modèle

-
RÉGRESSION LINÉAIRE

- On dit que le premier modèle représente

48.9 % de la population.
- Par contre le deuxième modèle représente
92.7 % de la population.
- Plus R2 s’approche de 1 plus le modèle est bon,
Et vice versa.
RÉGRESSION LINÉAIRE

- Le problème est que R2 augmente quand on

ajoute de nouvelles variables explicatives.
=˃ Utilisation d’un autre coefficient qui ne s’influence
pas par le nombre de variables : Le R2 ajusté
n : nb d’observations
k : nb de variables
RÉGRESSION LINÉAIRE

Dorénavant, on qualifie les modèles

de régression par le R2 ajusté

En cas de régression linéaire simple,

On constate que le coefficient de
corrélation correspond à :
RÉGRESSION LINÉAIRE

Non, pas encore. Il faut encore

analyser les résidus (écarts entre
valeurs réelles et prédites) et vérifier
leur normalité (QQ-plot, etc)
?
RÉGRESSION LINÉAIRE

On rajoute de nouvelles
variables explicatives
=˃ Régression Linéaire
Multiple
Qu’est ce qu’on fait
si on n’arrive pas à
trouver un bon modèle ?
On suit la même démarche
qu’on a fait avec deux
Variables. Ici on manipule
Plusieurs variables.
RÉGRESSION LINÉAIRE

Supposant qu’on veut savoir s’il

est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.

[Link]
[Link]
RÉGRESSION LINÉAIRE

Supposant qu’on veut savoir s’il

est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.
On s’assure d’abord de la relation
qui puisse exister entre la
variable à expliquer et les
variables explicatives :
1. On trace les nuages de points
2.

=˃ D’après les nuages de points :

Oui il existe une certaine relation
RÉGRESSION LINÉAIRE
Supposant qu’on veut savoir s’il
est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.
On s’assure d’abord de la relation
qui puisse exister entre la
variable à expliquer et les
variables explicatives :
1. On trace les nuages de points
2. On établit la matrice de
corrélation Matrice de Corrélation

=˃ On s’assure de la matrice de
corrélation qu’il existe
effectivement des relations.
RÉGRESSION LINÉAIRE
Donc on cherche les paramètres ai
qui réalisent l’équation :
GPA = cste + a1 * HS_English
+ a2 * HS_Math
+ a3 * SAT_Verbal
+ a4 * Math

Au début on inclut toutes les

variables et on construit le
modèle. Après on raffine…
RÉGRESSION LINÉAIRE

Résumé du modèle
de régression linéaire
multiple
RÉGRESSION LINÉAIRE
Ordinary Least Squares
Regression :
Régression se basant sur
La méthode des moindres carrés

GPA = 0.161 + 0.002 * SAT_Math

+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE
Il s’agit d’un bon modèle.
On dit qu’il représente
81.4 % de la population.

C’est la statistique F

Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
GPA = 0.161 + 0.002 * SAT_Math
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

A quel degré peut-on

faire confiance à ces
coefficients ?
Et si c’est dû au hasard ??

GPA = 0.161 + 0.002 * SAT_Math

+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

Test de Significativité

GPA = 0.161 + 0.002 * SAT_Math

+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

P-value, probabilité de rejeter

l’hypothèse nulle pour ce coefficient.

H0 : ai est nul
H1 : ai n’est pas nul

On choisit un degré de risque et

on teste :

Si p-value(a
p-value(ai)i)≤≤risque
risque: a: i≠0
ai≠0
GPA = 0.161 + 0.002 * SAT_Math Sinon
Sinonaai=0 =0
+ 0.0013 * SAT_Verbal i

+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

- On choisit communément des degrés

de 1%, 5% ou 10%
- Le plus souvent on prend 5% comme
degré de risque, i.e. pourcentage de
chance que les résultats de
l’expérience soient dus au hasard.
- En considérant un risque d’erreur 5%:

p-value(aSAT_Math)=0.4% ≤ 5%
Donc aSAT_Math est non nul

p-value(aHS_Math)=5.7% ˃ 5%
Donc aHS_Math est nul
….On fait ainsi pour tous les
GPA = 0.161 + 0.002 * SAT_Math
coefficients.
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

- On choisit communément des degrés

p-value(aSAT_Math)=0.4%≤5%
Donc aSAT_Math est non nul

p-value(aHS_Math)=5.7%˃5%
Donc aHS_Math est nul
….On fait ainsi pour toutes les variables
En considérant un risque d’erreur 5%,
explicatives
les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,

les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,

les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

En considérant un risque d’erreur 5%,

les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,

les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,

les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

Qu’est ce que ça veut

Dire ? On fait quoi
Par la suite ??

En considérant un risque d’erreur 5%,

les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,

les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,

les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

Selon le degré de confiance

choisi, on garde les variables
significatives et on
refait le modèle de régression.
En considérant un risque d’erreur 5%,
les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 10%,

les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

A un risque de 10% l’équation est :

GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal
+ 0.216 * HS_Math
RÉGRESSION LINÉAIRE C’est la statistique F

Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
C’est la p-value pour la
Statistique F.

H0 : Pas de relation dans la population

H1 : Il existe une relation
A un risque de 10% l’équation est :
Si p-value(F) ≤ risque : on rejette H0
GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal Sinon On accepte H0
+ 0.216 * HS_Math
Pour notre cas : risque 10 %, il existe
une relation dans la population.
RÉGRESSION LINÉAIRE

On peut maintenant utiliser

le modèle établi pour faire
la prédiction pour de
nouveaux étudiants.

A un risque de 10% l’équation est :

GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal
+ 0.216 * HS_Math
RÉGRESSION LINÉAIRE

Application du modèle

Résultats de prédiction
RÉGRESSION LINÉAIRE
Excellente question :
- Soit on enlève les observations avec
données manquantes
- Soit on ne travaille pas avec les
variables avec trop de valeurs manquantes
- Soit on estime ces valeurs manquantes
en utilisant une régression linéaire
Et si je rencontre des données Ou en y mettant la moyenne de
manquantes ?! La variable
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive

FORMATION

Chapitre IV : Analyse par

Composants Principaux

Travaux Pratiques Python

Python for Data
Science
Python?
• General-purpose programming language
• You can use Python for developing desktop GUI applications,
websites and web applications.

• Popular for data science

• Python has a simple syntax

• Yes! python is very easy to learn!

Python Libraries for Data
Science
• Pandas: data structures and data analysis tools
• Matplotlib: data 2D visualization
• Numpy: for scientific computing.
• Scikit Learn: machine learning
• SciPy: scientific programming
• …
Anaconda
• A platform for Data Science with Python or R programming
languages
• Brings many of the needed tools for data science and
machine learning with just one install
• Contains all necessary libraries for data analysis:
• Pandas
• Matplotlib
• Numpy
• Scikit Learn
• SciPy
• …
Allons découvrir ensemble...

Vous aimerez peut-être aussi

Fouille de Donnée
Pas encore d'évaluation
Fouille de Donnée
253 pages
CC Architecture Des Ordinateurs Correction
100% (1)
CC Architecture Des Ordinateurs Correction
3 pages
TD1 Architecture Des Ordinateurs
100% (1)
TD1 Architecture Des Ordinateurs
2 pages
Gradient Boosting
Pas encore d'évaluation
Gradient Boosting
4 pages
Introduction aux Bases de Données
Pas encore d'évaluation
Introduction aux Bases de Données
8 pages
Introduction à l'Algorithmique et Python
Pas encore d'évaluation
Introduction à l'Algorithmique et Python
100 pages
Cours Archi L3INFO 2015
Pas encore d'évaluation
Cours Archi L3INFO 2015
168 pages
PlanDuCoursUML SMI 2020
100% (1)
PlanDuCoursUML SMI 2020
52 pages
19 2 Structures Algorithmiques Cours
Pas encore d'évaluation
19 2 Structures Algorithmiques Cours
19 pages
Conception Orientée Objet - Uml - : Filière SMI - S5 Pr. Anas El Ansari
Pas encore d'évaluation
Conception Orientée Objet - Uml - : Filière SMI - S5 Pr. Anas El Ansari
210 pages
Chap IIIfinal
Pas encore d'évaluation
Chap IIIfinal
52 pages
Chap1 Intro Au Big Data
Pas encore d'évaluation
Chap1 Intro Au Big Data
28 pages
Systemes Sup
Pas encore d'évaluation
Systemes Sup
130 pages
Histoire des Processeurs AMD
Pas encore d'évaluation
Histoire des Processeurs AMD
4 pages
Systèmes Distribués : Concepts et Architecture
Pas encore d'évaluation
Systèmes Distribués : Concepts et Architecture
18 pages
Examen Test et Validation Logiciel
Pas encore d'évaluation
Examen Test et Validation Logiciel
7 pages
Exercice Algo
Pas encore d'évaluation
Exercice Algo
7 pages
Cours: Bases de Données et MERISE
Pas encore d'évaluation
Cours: Bases de Données et MERISE
162 pages
Atelier de Système
Pas encore d'évaluation
Atelier de Système
13 pages
Algorithmique Objet Version Final 1
Pas encore d'évaluation
Algorithmique Objet Version Final 1
323 pages
SGBDR: Guide pour Master 2 GL
Pas encore d'évaluation
SGBDR: Guide pour Master 2 GL
18 pages
Chap 1
Pas encore d'évaluation
Chap 1
44 pages
GP Introduction
Pas encore d'évaluation
GP Introduction
32 pages
Atelier C: Maîtrisez les Conditions
Pas encore d'évaluation
Atelier C: Maîtrisez les Conditions
4 pages
CorrectionDevoir 3 SMI4 - 2022
Pas encore d'évaluation
CorrectionDevoir 3 SMI4 - 2022
7 pages
Algorithmes sur tableaux et structures en Python
Pas encore d'évaluation
Algorithmes sur tableaux et structures en Python
10 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
16 pages
Top 500
0% (2)
Top 500
26 pages
Prédiction Météo par Réseaux Neurones
Pas encore d'évaluation
Prédiction Météo par Réseaux Neurones
4 pages
Culture Informatique
Pas encore d'évaluation
Culture Informatique
4 pages
Système de réservation hôtelier MCD
Pas encore d'évaluation
Système de réservation hôtelier MCD
2 pages
Cours CPP
Pas encore d'évaluation
Cours CPP
263 pages
Algo Chapitre 4
Pas encore d'évaluation
Algo Chapitre 4
9 pages
AMP1B
Pas encore d'évaluation
AMP1B
54 pages
Tests et Vérification en Informatique
Pas encore d'évaluation
Tests et Vérification en Informatique
2 pages
Résumé Du Cours - Gestion Des Processus
Pas encore d'évaluation
Résumé Du Cours - Gestion Des Processus
10 pages
Cours Mcpi 1
100% (1)
Cours Mcpi 1
168 pages
Architecture Ordinateur: Hard & Soft
100% (1)
Architecture Ordinateur: Hard & Soft
59 pages
Types Ordinateurs
0% (1)
Types Ordinateurs
14 pages
Tri et Recherche dans Tableaux C
Pas encore d'évaluation
Tri et Recherche dans Tableaux C
38 pages
Initiation à l'algorithmique
Pas encore d'évaluation
Initiation à l'algorithmique
30 pages
Cours de Développement Mobile Android
Pas encore d'évaluation
Cours de Développement Mobile Android
95 pages
K-means : Classification Non Supervisée
Pas encore d'évaluation
K-means : Classification Non Supervisée
44 pages
Informatique 3e ESG 4ea EST
Pas encore d'évaluation
Informatique 3e ESG 4ea EST
45 pages
Examen21 v2 1FIN Sol
Pas encore d'évaluation
Examen21 v2 1FIN Sol
6 pages
Guide du Matériel Informatique
Pas encore d'évaluation
Guide du Matériel Informatique
30 pages
Introduction au PHP pour Débutants
Pas encore d'évaluation
Introduction au PHP pour Débutants
137 pages
Fiche D'un Cours Analyse Des Reseaux Sociaux PDF
Pas encore d'évaluation
Fiche D'un Cours Analyse Des Reseaux Sociaux PDF
2 pages
Chapitre 2 Gestion Des Processus Debut Suite Et Fin PDF
100% (1)
Chapitre 2 Gestion Des Processus Debut Suite Et Fin PDF
4 pages
Enregistrements en C : Structures et Syntaxe
Pas encore d'évaluation
Enregistrements en C : Structures et Syntaxe
36 pages
Plan de Cours de Programmation Orientée Objet Avec Python
Pas encore d'évaluation
Plan de Cours de Programmation Orientée Objet Avec Python
6 pages
Optimisation UML : Héritage et Interfaces
100% (1)
Optimisation UML : Héritage et Interfaces
4 pages
Examen
Pas encore d'évaluation
Examen
3 pages
Guide Complet PL-SQL Oracle : Variables et Structures
Pas encore d'évaluation
Guide Complet PL-SQL Oracle : Variables et Structures
26 pages
Analyse Et Conception Orientées Objet
Pas encore d'évaluation
Analyse Et Conception Orientées Objet
14 pages
03 Polymorphisme
Pas encore d'évaluation
03 Polymorphisme
142 pages
Introduction à la Programmation C
Pas encore d'évaluation
Introduction à la Programmation C
28 pages
Statistique Descriptive S4 Psychologie
Pas encore d'évaluation
Statistique Descriptive S4 Psychologie
18 pages
Climatologie Statistique
0% (1)
Climatologie Statistique
35 pages
Asymétrie Statistique et Graphiques
Pas encore d'évaluation
Asymétrie Statistique et Graphiques
32 pages