0% ont trouvé ce document utile (0 vote)
55 vues9 pages

Méthodes Statistiques et Analyse de Données

Ce document présente plusieurs méthodes statistiques comme l'analyse de données, l'ACP et leurs applications. Il décrit également des notions statistiques telles que la moyenne, la variance, l'écart-type, la corrélation et le test du Khi-deux. Le document est structuré en plusieurs chapitres abordant des sujets comme la statistique descriptive, les prévisions, les relations entre variables et l'ACP.

Transféré par

muhammedatilgan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues9 pages

Méthodes Statistiques et Analyse de Données

Ce document présente plusieurs méthodes statistiques comme l'analyse de données, l'ACP et leurs applications. Il décrit également des notions statistiques telles que la moyenne, la variance, l'écart-type, la corrélation et le test du Khi-deux. Le document est structuré en plusieurs chapitres abordant des sujets comme la statistique descriptive, les prévisions, les relations entre variables et l'ACP.

Transféré par

muhammedatilgan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

INTRODUCTION

Les méthodes statistiques sont utilisées dans la plupart des domaines scientifiques, c’est
incontournable de les maitriser un minimum.
Par rapport à la statistique, l’analyse de données utilise les statistiques mais apporte en plus une
interprétation.
 Objectif : synthétiser, résumer, structurer une information complexe contenue dans des
données
 Actuellement, on a trop de données, on parle de Big Data et on a des outils synthétiques
comme l’ACP (Analyse à Composante Principale) qui est beaucoup utilisé en finance
(Risk,…) ou encore l’AFC (Analyse Factorielle des Correspondances) qui est beaucoup
utilisé en sociologie ou encore en marketing (exemple : étude entre l’origine
socioprofessionnelle des parents et le choix d’étude des enfants)
Les dernières évolutions en analyse de données sont les I.A.

CHAPITRE 1 : STATISTIQUE
DESCRIPTIVE RAPPEL
I) RAPPEL
On connait déjà, à notre niveau, la moyenne, l’écart-type et la variance.
Mais, on a 2 critères supplémentaires :
- Skewness (=[Link])
- Kurtosis (=KURTOSIS)
 Si k>0 : Leptokurtique
 Si k<0 : Platikurtique : avec des cas extrêmes beaucoup plus accessibles

On a des méthodes dites aléatoires pour faire un bon échantillon d’étude et des méthodes pseudo-
aléatoires.
L’échantillon minimum doit être de 30 données.
Dans EXCEL, il y’a 2 types d’écart-type :
 Ecart-type pour un échantillon (=ECARTYPE)
 Ecart-type pour la population mère (=[Link])

II) LOI GAUSS


On va créer une loi normale avec Excel à partir de nos observations.
Pour créer une loi normale, on a besoin de la moyenne et de l’écart-type.
Ensuite, nous allons classer nos informations par ordre croissant.
Après, il faut établir l’échelle de valeur
CHAPITRE 2 : PREVISIONS
Elle sert à la finance pour faire des prévisions de ventes par exemple en prenant en compte les effets
se saisonnalité

Résidu statistique, autrement dit Epsilon ε

R2 = indicateur de qualité de la formule proposé ; coefficient de détermination

Si R2=1, correspond à la courbe


Si R2=0, correspond pas à la courbe

Le résidu statistique est l’écart entre le modèle et la réalité

On trace une courbe, on crée une courbe de tendance qui est associé à la courbe de base, on cherche
le degré auquel on se rapproche de la forme de la courbe et on trouve ici par exemple, R 2=0,79434 au
degré 6, ce qui est plus satisfaisant que R2=0,00401 au degré 1

Rappel : un bon R2 est nécessaire mais pas suffisant car il faut également un minimum de logique
 Si on voit que les prévisions chutent, on va pas se dire « mais j’ai le bon R2 pourtant…) car le
forecast nous montre que le résultat chute

 Solution 2 : les moyennes mobiles

Les moyennes mobiles permettent de « noyer » les aléas de la courbe, elle va donc atténuer la
courbe et garder uniquement la tendance
 Mais ici, encore une fois, on voit que la prévision va de nouveau vers le bas. On peut donc
prendre un degré plus faible mais avec une meilleure prévision. Mais avec le forecast, on a
une courbe irréelle

 Solution 3 : modéliser la dernière portion de la courbe

On choisit la linéaire car elle est la plus raisonnable en terme de prévision

Travail à faire : faire une prévision du CAC 40

Feuille 6 : comment intégrer les effets de saisonnalité

La production vente de 2010 à 2017


Pour la formule pour trouver 83, on cherche le meilleur modèle (ici degré 6), on reprend la formule
et x=numéro de l’année donc 9, autrement dit les pas de temps
Conditions : essayer de garder le même coefficient saisonnier
Examen : 2/3 un exo donnée en ligne a faire a la maison et 1/3 sur le cac40 avec representatrice
statistique échantillon et analyse en commentaire des données

Problème : si on a des résultats qui montent et qui descendent a chaque fois, la meilleure prévision
quand on est bloqué est le dernier point, ca reste la moins pire

CHAPITRE 3 : RELATIONS
STATISTIQUES ENTRE 2
VARIABLES
VARA VARB
Personne 1 10 12
Personne 2 5 6
Personne 3 7 9

Corrélation statistique : indice de dépendance entre les variables


 Valeur qui partent de -1 (corrélation négative) à 1 (corrélation positive) et si = 0 (corrélation
nulle)
 Exemple :
 corrélation taille-poids (+on est grand, + on est susceptible d’être lourd) -> corrélation
positive
 Corrélation poids-accélération du véhicule (+il est lourd, -il va vite) -> corrélation négative

Il existe des tests pour nous dire si la corrélation est retenue ou pas d’un point de vue statistique. Ce
test se nomme la P-Value de Pearson (il n’existe pas dans Excel mais il en existe d’autre comme
(Python, SAS, R,…)

Probabilité que les corrélations ne soient pas ok

 Les tests d’hypothèses sur la moyenne et la variance :


- Test F(ANOVA)
- Test T(MEAN)

On aura jamais le même écart-type, cela nous permet de voir si statistiquement s’ils sont différents

On va comparer les derniers écarts types de chaque colonne qui est la référence de toutes les autres
Quand on fait les tests, on commence toujours par F donc la variance puis T
 Cela nous donne des pourcentages (seuil de 5%)
 Quand on est au-dessus de 5%, on a la même variance
 Quand on est en dessous, on a une variance différente
Contexte RH :

On est chef RH, on a les chiffres de vente mensuel par commercial. En bleu, le commercial de
référence. On a le commercial reconnu, et 3 outsiders à côté. On doit identifier le meilleur
commercial pour le poste de directeur commercial.

 Si il a un écart type moins important et une moyenne + haute, on va le sélectionner car il


vend mieux que les autres et ses écarts de prix par rapport à la moyenne sont faibles donc il
sait vendre à de hauts prix

Dans ce cas, la variance correspond à la constance de vente. On cherche donc un vendeur qui vend
régulièrement. Il faut donc un écart-type le plus bas possible.

KHI DEUX

Objectif : comparer 2 distributions statistiques

Est-ce que les hommes sont plus alcooliques que les femmes ?
Il permet de dire si c’est pareil ou différent.

En dessous de 5%, on a un écart important entre les 2 variables, on parle d’indépendance. Au-dessus
de 5%, on peut dire qu’elles sont proches et donc dépendance.

On a pas affaire à une distribution normale, pour le 1,3 et 4 les moyennes sont un poeu près pareil.

Dans le tableau en haut à gauche : indépendant car 3,94%<5%


On sait que l’un des 2 consomment le +

KHI2BIS

Difficulté : redressement judiciaire


A la fin, une faillite ou une survie ?

Est-ce que la modernisation permet d’écarter le spectre de la faillite lorsque l’on est en redressement
judiciaire ?

 Réponse sur excel avec le doc damel…  afc khi deux 1

Lien entre le niveau d’étude et le CSP des parents

$$
CHAPITRE 4 : ACP
C’est un outil de synthèse intéressant lorsqu’on a plus de 2 variables.
Pour cette méthode, on démarre par une méthode de préparation des variables.
Doc ACP Données CR :
En ACP quand c’est corrélé, il supprimer les variables corrélées qui sont identiques (une
Capital Dette
mesure en pieds et en mètres par exemple. Autre exemple : et . Les 2
Dette Passif
mesurent la même chose).
Données centrées réduites : même variable mais ça permet d’unifier les dimensions entre les
variables. La moyenne deviendra 0 et l’écart type 1 quand on centre et réduit.
Certains logiciels indiquent les valeurs de façon centrée réduite de manière automatique.
Pour ACP, il faut toujours centrer et réduire les données.
L’ACP propose un plan de projection qui permet de conserver un maximum de distance
entre les points. La méthode cherche la droite delta rendant maximum la distance entre
alpha 1 et alpha 2, puis la droite perpendiculaire delta 2 qui rend maximum les distance
entre béta 1 et béta 2. C’est une résolution mathématiques. Avant l’ACP, on avait les
coordonnés (logo bizarre 1 : taille poids et âge). Après transformation, on a des nouvelles
coordonnées.
U1, U2 et U3 sont des coefficients qui peuvent être positifs ou négatifs.
Le moteur de cette méthode est basé sur Pythagore.
L’ACP est une méthode factorielle car la réduction du nombre des caractères ne se fait pas
par une simple sélection de certains d’entre eux mais par la construction de nouveaux
facteurs synthétiques (delta 1 et delta 2) obtenus en combinant des variables initiales. Les
facteurs (delta 1 et delta 2) sont des combinaisons linéaires des variables initiales.
Exemple ACP Données

$$

Dans la couleur jaune, on écoute beaucoup de musiques locales mais elles subissent beaucoup de
piratage.
 Les bleus et les jaunes fonctionnent de la même façon
 Dans l’axe 1, les bleus ont des valeurs élevées, contrairement aux valeurs jaunes. Les
bleus ont beaucoup de ventes et peu de piratage. Les jaunes eux sont peu écoutés et peu
piratés (et inversement)

 Dans l’axe 2, on apprend pas grand-chose à part la comparaison entre l’écoute de la


musique internationale et la musique nationale

Ainsi, dans l’Axe 1, on prend en compte le piratage ou l’achat propre. Dans l’axe 2, on prend en
compte l’écoute de musique nationale ou internationale.
Par exemple, la suisse écoute beaucoup de musique internationale et les achète, contrairement à la
Russie qui écoute de la musique nationale et les pirate
En revanche, pour prendre un pays du même niveau que la France, à savoir l’Italie, on pirate
beaucoup plus que l’Allemagne ou la France car il y’a une raison culturelle et moins organisé.

En effet, en Italie, les ventes de CD piratés sont beaucoup plus élevées et il faut prendre en compte
qu’en Italie, la vente en générale s’effectue par petites boutiques, contrairement en France ou en
Allemagne avec Auchan, Cora,…

$$

Chapitre 5 : AFC
L’analyse AFC est une technique mise au point pour mettre en évidence des correspondances entre 2
ensembles de caractères.
Comme l’ACP, l’AFC a pour but de décrire sous forme de graphique le maximum d’informations
contenus dans un tableau de données.
D’un point de vue mathématiques, l’AFC utilise une métrique spéciale, qui est le KHI DEUX

Exemple : est-ce qu’il y’a un lien entre la CSP des parents et le type d’étude des enfants ?

 Test de KHI 2 via une matrice, un test d’hypothèse

Le % est le « R2 »
Les coordonnées est le Δ 1 ; les contributions sont le Δ 2 ; les cosinus carrées sont le Δ 3
Les contributions sortant du lot sont en rouge

Ici, ce sont les CSP de type LIB-CSUP et les OUVRIERS


 CSP conditionnent fortement la poursuite d’études des enfants

Lorsqu’on regarde les coordonnées, on peut trouver certaines valeurs négatives(en gris)
 Lorsque c’est négatif, une dépendance a lieu entre le CSP et les études des parents

En bleu par exemple, on observe qu’il y’a une surreprésentation d’enfants ouvriers en IUT
 En médecine, il y’a très peu de parents ouvriers. Et en IUT, il y’a très peu de parents
médecins.

Les carrées représentent les poursuites d’études et les ronds représentent les CSP
On fait ainsi une projection d’axe vers l’axe 1
 Par exemple, ceux qui vont en médecine ont généralement des parents LIB-CSUP
 En fac de lettres, les parents sont généralement employés ou cadres moyen

Résumé :
 On analyse la qualité de l’axe (=la qualité de l’axe est issue des valeurs propres car l’axe 1 a
83,72% par exemple)
 On classe par paquet positif et négatif
 On regarde les variables importantes et leurs contributions
 On fait l’analyse pour les variables importantes, secondaires et homogènes
2nd exemple :
 En terme de qualité d’axe, on observe que l’axe F1(46,718%) et F2(22,740%) sont les axes qui
ont des valeurs propres supérieurs aux autres

 D’abord, pour les CSP des parents :


- Dans les coordonnées, on observe que le patron, les professions libérales et cadre sup santé
ainsi que autres que santé sont ensemble ; les cadres moyens et les employés sont ensemble
et l’exploitant agricole et l’ouvrier sont ensemble
- Dans les contributions, on observe que l’exploitant agricole, la profession libérale et cadre
sup santé ainsi que les ouvriers sont ceux qui sont les plus importants

 Ensuite, par rapport au niveau d’études :


- Dans les coordonnées, on observe que les sciences et médecine dentiste pharma et les
[Link] – gestion – commerce sont ensemble ; le droit et les lettres sont ensemble et l’IUT
tertiaire et le PLURI DISCI sont ensemble.
- En terme de contributions, ce sont les études de sciences, de médecine dentiste pharma
ainsi que l’IUT Secondaire Industrie qui sont les plus importants

Pour les CSP :

En delta 1, on prend en compte les exp agrico > 0 ; prof lib santé < 0 ; ouvrier > 0
En delta 2, on prend en compte les exp agrico > 0 ; cadre moyen < 0

Pour le niveau d’études :

En delta 1, on prend en compte sciences < 0 ; médecine < 0 ; IUT secondaire > 0
En delta 2, on prend en compte lettres < 0 ; IUT secondaires > 0

Pour les IUT Secondaire Industrie, on a des parents qui sont plus ouvriers et exploitant
agricole
Pour les fac de lettres, y’a une surreprésentation des enfants de cadres moyens

CHAPITRE 6 : L’ANALYSE
DISCRIMINANTE
En analyse de données, on a des observations.
Avant, il y’avait 2 paquets de variables mais ici, on a affaire à 2 paquets d’individus différents
 On va donc chercher les variables et les déterminants de ces paquets d’individus

Pour déterminer ça, on va utiliser la régression logistique, elle probabilise le fait d’être en faillite ou
non faillite.
 On recherche une probabilité de 0 pour non-faillite et 1 pour la faillite donc la probabilité
d’appartenir à un des 2 groupes.
 On trouve des variables avec un coefficient qui va augmenter la faillite ou la faire baisser,
donc influencer la probabilité du modèle

Cette méthode est utilisée pour le scoring, donc l’échelle d’appréciation


Ici, le R2 est représenté par les valeurs dns
le cercle bleu
DT/AT (dette total/actif total)
CP (capitaux propres); QFP (quasi fond
propres) ; TB (Total Bilan) ; Frais Financier ;
ACT (Actif CT) ; DCT (Dettes CT); FRN (Fond
de Roulement) ; TNB (Trésorerie)

Image 355

Parameter estimate = coefficient


Chi square = voir si le coeff estimé statistiquement est différent de 0. Plus il est proche de 1, moins il
est utile.
 En général, on prend un seuil de 5% ou 10%
 + khi 2 se rapproche de 1, plus le coeff tend vers 0

Il y’a des tests deux par deux, faillite et non faillite, toutes les combinaisons sont testées.
Concordant = correspond à la réalité, discordant contraire
Tied : c’est l’incertitude, on se prononce pas

Image 353 :

RATIO 7 = trésorerie
RATIO 14 = frais financiers
RATIO 16 = structure financière
RATIO 18 = BFR

Un coefficient positif augmente la note et réduit le risque.


Ici, pour les frais financiers, vu que c’est négatif, ca baisse ma note et ca augmente le risque de faillite
Mais, pour la trésorerie, vu que c’est positif, ca augmente ma note et ca baisse le risque de faillite

Pour la structure financière, plus l’endettement est important et donc ca augmente le risque

Vous aimerez peut-être aussi