0% ont trouvé ce document utile (0 vote)
30 vues3 pages

ST M Intro ExploMultidim

Le document traite des méthodes d'exploration statistique multidimensionnelle, en se concentrant sur les méthodes factorielles et la classification non supervisée. Il décrit les objectifs de ces méthodes, leur historique, ainsi que les techniques et algorithmes associés pour analyser des données complexes. L'accent est mis sur l'importance de la réduction de dimension et de la représentation graphique pour comprendre des volumes de données considérables.

Transféré par

mess687 kaskh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues3 pages

ST M Intro ExploMultidim

Le document traite des méthodes d'exploration statistique multidimensionnelle, en se concentrant sur les méthodes factorielles et la classification non supervisée. Il décrit les objectifs de ces méthodes, leur historique, ainsi que les techniques et algorithmes associés pour analyser des données complexes. L'accent est mis sur l'importance de la réduction de dimension et de la représentation graphique pour comprendre des volumes de données considérables.

Transféré par

mess687 kaskh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1 Exploration statistique multidimensionnelle

1.1 Méthodes factorielles


Exploration statistique
Le premier groupe concerne les méthodes dites factorielles de décomposi-
multidimensionnelle tion sur une base adaptée : les facteurs sur lesquels projeter projeter les données
pour des représentations graphiques en dimension réduite. Les principales mé-
thodes se différencient selon le type (quantitatif, qualitatif) des variables consi-
Résumé dérées.
Statistique, fouille ou Science des Données, les appellations changent
1.2 Classification non supervisée ou clustering
le volume et la diversité des données explosent, les technologies se
succèdent, les modèles et algorithmes se complexifient. L’estima- Le deuxième groupe concerne les méthodes ou algorithmes visent la re-
tion devient un apprentissage, la prévision remplace l’explication. cherche de classes, ou regroupements des individus, se ressemblant au mieux
Le parcours pour devenir data scientist est structuré en quatre ou les plus proches au sens d’une mesure de distance. Ce groupe de méthodes
parties : est référencée sous l’appellation de classification non supervisée dans la com-
munauté de l’apprentissage machine.
Retour à l’introduction générale
Attention : Ne pas confondre la classification non supervisée, en anglais
Saison 1 (L3) Statistique élémentaire, descriptive vs. inférentielle.
clustering, avec la classification supervisée, en anglais classification, qu’il est
Saison 2 (M1) Statistique Exploratoire multidimensionnelle et ap- préférable de traduire en français par le terme : discrimination, moins ambigu.
prentissage non supervisé.
En classification non supervisée les classes ne sont pas connues a priori
Saison 3 Apprentissage Statistique / Machine supervisé. mais déterminées à partir des données. En classification supervisée ou discri-
Saison 4 (M2) Technologies pour la Science des (grosses) Don- mination, objet de la saison 3, les classes sont connues, observées, apprises,
nées. pour être prévues sur de nouvelles observations.
plus des réflexions sur : Statistique et Déontologie scientifique.
2 Méthodes factorielles
1 Objectifs
2.1 Historique
Avec la taille des données, le nombre des variables observées augmentent
Les bases théoriques de ces méthodes sont anciennes et sont principale-
et des outils adaptés sont nécessaires pour en analyser et mieux comprendre les
ment issues de “psychomètres” américains : Spearman (1904) et Thurstone (1931,
structures d’un point de vue global ou multidimensionnel. Les objectifs sont
1947) pour l’Analyse en Facteurs, Hotteling (1935) pour l’Analyse en Compo-
de résumer, représenter graphiquement, réduire la dimension, regrouper. Les
santes Principales et l’Analyse Canonique, Hirschfeld (1935) et Guttman (1941,
outils présentés, multidimensionnels, sont à utiliser à la suite de ceux uni et
1959) pour l’Analyse des Correspondances. Pratiquement, leur emploi ne s’est
bidimensionnels de la saison 1, sans chercher à bruler les étapes.
généralisé qu’avec la diffusion des moyens de calcul dans le courant des années
Les méthodes de Statistique exploratoire multidimensionnelle se décom- 60. Sous l’appellation “Multivariate Analysis” elles poursuivent des objectifs
posent en deux grands groupes selon l’objectif fixé. sensiblement différents à ceux qui apparaîtront en France. Un individu ou unité
statistique n’y est souvent considéré que pour l’information qu’il apporte sur
la connaissance des liaisons entre variables au sein d’un échantillon statistique
2 Exploration statistique multidimensionnelle

dont la distribution est le plus souvent soumise à des hypothèses de normalité. position en valeurs singulières (SVD) d’une matrice rectangulaire.
En France, l’expression “Analyse des Données” recouvre les techniques • Non negative Matrix Factorisation ou NMF. Cette dernière approche
ayant pour objectif la description statistique des grands tableaux (n lignes, de décomposition en facteurs sous des contraintes de non-négativité,
où n varie de quelques dizaines à quelques milliers, p colonnes, où p varie de contrairement à la SVD, peut être obtenue par différents algorithmes
quelques unités à quelques dizaines). Ces méthodes se caractérisent par une plus ou moins complexes, efficaces, selon les données à étudier.
utilisation intensive de l’ordinateur, leur objectif exploratoire et une absence
quasi systématique d’hypothèses de nature probabiliste au profit des proprié- 3 Classification non supervisée
tés et résultats de géométrie euclidienne. Elles insistent sur les représentations
graphiques en particulier de celles des individus qui sont considérés au même L’objectif d’une méthode de classification déborde le cadre strictement ex-
titre que les variables. ploratoire. C’est la recherche d’une typologie, ou segmentation, c’est-à-dire
d’une partition, ou répartition des individus en classes, ou catégories. Ceci est
Depuis la fin des années 1970, de nombreux travaux ont permis de rap-
fait en optimisant un critère visant à regrouper les individus dans des classes,
procher ou concilier les deux points de vue en introduisant, dans des espaces
chacune le plus homogène possible et, entre elles, les plus distinctes possible.
multidimensionnels appropriés, les outils probabilistes et la notion de modèle,
usuelle en statistique inférentielle. Les techniques se sont ainsi enrichies de no- 3.1 Contraintes
tions telles que l’estimation, la convergence, la stabilité des résultats, le choix
de critères. . . Un calcul élémentaire de combinatoire montre que le nombre de partitions
possibles d’un ensemble de n éléments croît plus qu’exponentiellement avec
L’objectif essentiel de ces méthodes est l’aide à la compréhension de vo-
n ; le nombre de partitions de n éléments en k classes est
Ple nombre de Stirling,
lumes de données souvent considérables. Réduction de dimension, représenta- n
le nombre total de partition est celui de Bell : Pn = 1e k = 1∞ kk! .
tion graphique optimale, recherche de facteurs ou variables latentes... sont des
formulations équivalentes. Pour n = 20, il est de l’ordre de 1013 . Il n’est donc pas question de cher-
cher à optimiser le critère sur toutes les partitions possibles. Les méthodes se
2.2 Méthodes limitent à l’exécution d’un algorithme itératif convergeant vers une “bonne”
partition qui correspond en général à un optimum local. Même si le besoin
Les méthodes factorielles se classifient selon le type des variables à analy-
de classer des objets est très ancien, seule la généralisation des outils infor-
ser (quantitatives et/ou qualitatives) :
matiques en a permis l’automatisation dans les années 1970. Celeux et col.
• Analyse en Composantes Principales (p variables quantitatives),
(1989)[1] décrivent en détail ces algorithmes.
• Analyse Factorielle Discriminante (p variables quantitatives, 1 variable
qualitative), 3.2 Méthodes
• Analyse Factorielle des Correspondances simple (2 variables qualita-
tives) et Multiple (p variables qualitatives), Il n’existe donc pas de solution analytique du problème de classification
• Analyse Canonique (p et q variables quantitatives), et un très grand nombre d’algorithmiques ont été proposés pour atteindre cet
• Multidimensional Scaling (M.D.S.) ou positionnement multidimension- objectif. En voici quelques uns parmi les plus utilisés, tous ne sont pas ou pas
nel ou analyse factorielle d’un tableau de distances. encore décrits.
Toutes les précédentes méthodes sont basées sur des outils classiques • Classification ascendante hiérarchique,
de géométrie euclidienne qui sont développés dans les rappels et com- • Algorithmes de réallocation dynamique,
pléments d’algèbre linéaire. Ils font appel à un algorithme de décom- • Cartes de Kohonen (réseaus de neurones),
3 Exploration statistique multidimensionnelle

• DBSCAN,
• Mélanges gaussiens.
• ...

4 Déroulement de la saison 3
Les apprentissages de cette saison nécessitent l’acquisition, en parallèle, de
compétences plus approfondies en R, Python, éventuellement SAS. Approfon-
dir successivement les différents tutoriels découpés en épisodes qui alternent
la pratique des environnements logiciels et celles de l’exploration statistique.
multidimensionnelle.

Références
[1] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambondrainy,
Classification automatique des données, Dunod, 1989.

Vous aimerez peut-être aussi