faculté des Sciences, Kenitra
MASTER Intelligence Artificielle & Objets Connectés
Analyse et Sécurité
de Données Multimédia
Tarik BOUJIHA
Année Universitaire 2024/2025
Introduction
L'analyse de données, à quoi ça sert?
La statistique classique n’étudie en général qu’un petit nombre de variables d’une
population.
La statistique étudie une, deux ou trois variables.
Pourtant, les individus sont souvent caractérisés par un grand nombre de variables.
Sources de données:
Appareils de mesure : capteurs, images satellitaires, radar...
Le Web, Téléphonie, ...
Un bon dessin vaut mieux qu'un long discours
L’analyse de données permet de prendre en compte toutes ces variables et d’en faire
une représentation graphique pertinente.
20/03/2025 T. BOUJIHA 2
Introduction
Objectif : extraire des informations pertinentes à partir de ces données.
Le but : de façon générale, de décrire et/ou prédire une situation à l'aide de variables
relevées.
Données:
Les variables: sont soit de nature quantitative, soit de nature qualitative.
Une variable est quantitative si elle reflète une notion de grandeur, c'est-à-dire si
les valeurs qu'elle peut prendre sont des nombres.
Une variable qualitative (on dit aussi catégorielle ) est une variable pour laquelle la
valeur mesurée sur chaque individu ne représente pas une quantité. Les différentes
valeurs que peut prendre cette variable sont appelées: les catégories, modalités ou
niveaux.
20/03/2025 T. BOUJIHA 3
Introduction
Représentation des données: Variables
X1 X2 Xj …. Xp
ind1
ind2
Individus indi Vi,j
…
indn
Notations vectorielles:
ième Observation = Vecteur Xi=[X1, X2, ..., Xp]T
Le tableau de données = une matrice V(i,j) avec i = 1, ..., n et j = 1, ..., p.
Les différents types de tableaux:
Tableau de variables quantitatives décrit sur des individus.
Tableau de variables qualitatives décrit sur les individus.
Autre type de tableaux (tableau de paquets de variables).
20/03/2025 T. BOUJIHA 4
Introduction
Domaines d’application:
1. Sciences et Recherche:
Etude statistique des phénomènes naturels;
Prévision climatique;
Analyse de données biologiques (génomique, bio-informatique,…)
2. Santé et Médecine:
Diagnostic médical assisté par ordinateur;
Prévision d’épidémies (Covid-19 par exemple);
développement de médicaments ( analyse des résultats cliniques)
3. Finance et Banque:
Analyse du risque financier;
Prévision des tendances boursières;
Analyse de crédit des clients
20/03/2025 T. BOUJIHA 5
Introduction
Domaines d’application:
4. Marketing et Commerce :
Analyse des comportements des clients;
Segmentation de la clientèle;
Personnalisation des publicités
5. industrie et logistique :
Gestion des stocks;
Maintenance prédictive des machines ;
Analyse de la quantité des produits
6. Télécommunications:
Détection de pannes de réseau;
Prévision du trafic réseau;
Analyse de la satisfaction des clients
20/03/2025 T. BOUJIHA 6
Introduction
Domaines d’application:
7. Sécurité et Défense :
Détection de cyberattaques;
Surveillance et reconnaissance faciale;
détection de mouvement
8. Education :
Analyse des performances des étudiants;
Prévision du taux de réussite ;
Développement de cours en ligne personalisés
9. Transport:
Gestion du trafic routier;
Optimisation des itinéraires;
prévision des retards (Compagnies aériennes)
20/03/2025 T. BOUJIHA 7
Introduction
Domaines d’application:
10. Environnement:
Prévision des catastrophes naturelles;
suivi de la pollution;
Gestion des ressources naturelles
En général:
L’analyse de données est aujourd’hui dans tous les secteurs. Elle permet d’améliorer la prise de décision, d’optimiser
les performances et d’anticiper les tendances futures
Démarche:
Conception: définition de la population et des caractères (variables);
Collecte des données;
Vérification;
Analyse;
Description ou/et Prédiction.
20/03/2025 T. BOUJIHA 8
Introduction
Description Monodimensionnelle: les individus sont caractérisés par une seule variable
Statistiques élémentaires:
Min, Max, Moyenne, Médiane;
La Dispersion : la variance, l’écart type.
Histogramme: Représente une estimation de la fonction de densité
Description Bidimensionnelle: les individus sont caractérisés par deux variables
Description Multidimensionnelle: les individus sont caractérisés par plusieurs
variables
20/03/2025 T. BOUJIHA 9
Outils Mathématiques
Moyenne arithmétique
On note:
Ou pour des données pondérées
Chaque individu peut avoir un poids pi, tel que p1 + · · · + pn = 1, notamment quand les
individus n’ont pas la même importance.
Propriétés: la moyenne arithmétique est une mesure de tendance centrale qui dépend
de toutes les observations. Elle est sensible aux valeurs extrêmes.
20/03/2025 T. BOUJIHA 10
Outils Mathématiques
Variance et écart-type
La variance de X est définie par:
Ou
La variance est « la moyenne des carrés moins le carré de la moyenne ».
L’écart-type бx est la racine carrée de la variance.
l'écart type est une mesure de la dispersion d'une variable aléatoire ; en statistique, il
est une mesure de dispersion de données. Il est défini comme la racine carrée de la
variance.
Plus il est faible, plus les valeurs sont regroupées autour de la moyenne
20/03/2025 T. BOUJIHA 11
Outils Mathématiques
Mesure de liaison entre deux variables
La covariance observée entre deux variables X et Y est:
La covariance caractérise les variations simultanées de deux variables aléatoire.
Le coefficient rxy de Bravais-Pearson ou coefficient de corrélation est donné par:
Propriétés:
Cov(x,x) = Var(x) et Cor(x,x) =1.
Cov(x,y) = Cov(y,x) et Cor(x,y) = Cor(y,x)
Variables corrélées si | cor(x, y)| =1.
Variables décorrélées si cor(x, y) = 0. Cela ne veut pas dire qu’elles sont indépendantes!
20/03/2025 T. BOUJIHA 12
Outils Mathématiques
Transposition:
Echange des lignes et des colonnes d’une matrice ; on note AT la transposée de A.
(AT)T = A, (A + B)T = AT + BT, (AB)T = BTAT
Trace:
La trace d’une matrice est la somme des termes de sa diagonale.
inverse:
A et B sont deux matrices carrées de taille n, alors:
Si AB = In et BA = In On note B = A−1 (inverse de A)
20/03/2025 T. BOUJIHA 13
Méthodes d’analyse de données
Les méthodes multidimensionnelles permettent d'obtenir des représentations graphiques qui
constituent le meilleur résumé possible de l'information contenue dans un grand tableau de
données. Pour cela, il faut consentir à une perte d'information afin de gagner en lisibilité.
Méthodes de réductions
Extraction d’attributs Sélection d’attributs
Calcul de tous les attributs initiaux pour extraire Il est uniquement nécessaire de calculer les
les plus pertinents attributs qui caractérisent les données en question
- Analyse en Composantes Principales (ACP) - Méthodes de Sélection Itératives
descendantes et ascendantes
- Analyse en Composantes Indépendantes (ACI)
20/03/2025 T. BOUJIHA 14
Analyse en Composantes Principales (ACP)
Introduction:
Dans la littérature, on trouve deux approches différentes de l'ACP :
Elle peut être présentée comme la recherche d'un ensemble réduit de variables
non corrélées, combinaisons linéaires des variables initiales résumant avec
précision les données (approche anglo-saxonne).
Une autre interprétation repose sur la représentation des données initiales à
l'aide de nuage de points dans un espace géométrique. L'objectif est alors de
trouver des sous-espaces (droite, plan,...) qui représentent au mieux le nuage
initial.
20/03/2025 T. BOUJIHA 15
Analyse en Composantes Principales (ACP)
Définition:
L’analyse en composantes principales est une méthode descriptive dont le but est de
représenter, sous formes graphique, un tableau de données quantitatives X (n, p)
représentant n individus décrits par p variables dans un espace de dimension inférieur
k<p.
Ceci s’effectue par projection orthogonale du nuage initial dans ce nouveau sous espace
Fk de dimension k<p.
20/03/2025 T. BOUJIHA 16
Analyse en Composantes Principales (ACP)
En général:
Dans ce type des tableaux de données, les individus sont représentés dans un espace de
dimensions p, ou il est pratiquement impossible de voir :
Les interactions entre différentes variables.
La répartition des individus.
L’ACP permet donc, de trouver des espaces de dimensions plus petite dans lesquels il est
possible d’observer au mieux :
La structuration des variables : quelles sont celles qui sont associées ? Quelles sont
celles qui ne le sont pas? Quelles sont celles qui varient dans le même sens ? Quelles
sont celles qui s’opposent ?
La répartition des individus : quels sont ceux qui se ressemblent ? Quels sont ceux qui
sont dissemblables ?
20/03/2025 T. BOUJIHA 17
Analyse en Composantes Principales (ACP)
Principe général de l’ACP:
L’algorithme de l’ACP effectue sur la matrice individus/variables, différentes opération:
Centrage et réduction des données,
Diagonalisation de la matrice d’inertie,
Extraction de valeurs propres et de vecteurs propre.
En résumé, l’algorithme de l’ACP procède en deux étapes:
La 1ere étape consiste à élaborer à partir de la matrice individus/variables, la matrice de
variance covariance ou la matrice de corrélation, appelée matrice d’inertie.
La 2eme étape consiste à trouver les valeurs propres et les vecteurs propres pour
diagonaliser la matrice de corrélation.
20/03/2025 T. BOUJIHA 18
Analyse en Composantes Principales (ACP)
Centrage - Réduction:
Quand les variables sont mesurées avec des échelles différentes où elles ont des dispersions
hétérogènes, il peut s’avérer utile de centrer et de réduire ces variables.
Centrer une variable consiste à en soustraire sa moyenne :
Soit le tableau de données X (n,p) rassemblant les observations de p variables sur n individus :
Le tableau Y(n,p) tel que: Yij X ij X j
est le tableau centré associé à X (n,p).
Xj étant la moyenne de la variable j pour tous les individus.
20/03/2025 T. BOUJIHA 19
Analyse en Composantes Principales (ACP)
Centrage - Réduction:
Réduire une variable consiste à la diviser sur son écart-type:
Le tableau Z(n,p) tel que: Z ij ( X ij X j
)/S j
est le tableau de données centrées réduites.
Sj étant l’écart-type de la variable Xj.
La représentation matricielle de Z(n,p) est: Z(n,p)=Y(n,p)×D1/s
Avec D1/s est la matrice diagonale des inverses des écarts-types et Y(n,p) est la matrice des
données centrées.
20/03/2025 T. BOUJIHA 20
Analyse en Composantes Principales (ACP)
Matrice de variance covariance:
Les variances et les covariances sont représentées sous la forme d’une matrice carrée
symétrique, appelée matrice de variance covariance des p variables :
Cette matrice s’écrit comme suit :
V=YTDY
D= (1/n)×Id est une matrice diagonale de taille n, Y est le tableau de données centrées et YT la
matrice transposée.
20/03/2025 T. BOUJIHA 21
Analyse en Composantes Principales (ACP)
Matrice de corrélation:
La réduction des données peut conduire au calcul des coefficients de corrélation des différentes
variables considérées deux à deux.
Ces coefficients peuvent être réunis en une matrice carrée symétrique à éléments diagonaux
unitaires, appelée matrice de corrélation:
Obtenue matériellement par :
R = ZT D Z
D= (1/n)×Id est une matrice diagonale de taille n, Z est le tableau de données centrées réduites et
ZT la matrice transposée.
20/03/2025 T. BOUJIHA 22
Analyse en Composantes Principales (ACP)
Définition de vecteur et valeur propre:
Un vecteur v ≠ 0 de taille p est un vecteur propre d’une matrice A de taille p × p, s’il existe
un scalaire λ telle que Av = λv.
En général, les vecteurs propres et valeurs propres sont complexes ; dans tous les cas qui
nous intéressent, ils seront réels.
Interprétation des vecteurs propres:
ce sont les directions privilégiées dans lesquelles la matrice agit.
Interprétation des valeurs propres:
c’est le facteur multiplicatif associé à une direction donnée.
20/03/2025 T. BOUJIHA 23
Analyse en Composantes Principales (ACP)
Axes principaux – Facteurs principaux:
Les vecteurs propre de la matrice d’inertie sont appelés axes principaux d’inertie.
A l’axe principale a est associé le facteur principal : U=M.a
Si M=Id, les facteurs principaux et les axes principaux seront confondus.
Composantes principales:
Ce sont les nouvelles variables Ci définies par les facteurs principaux Ui :
Ci=X*Ui
Ci est le vecteur reformant les coordonnées des projections des individus sur l’axe défini
par l’axe principal ai.
Ces composantes sont obtenues par des combinaisons linéaires des variables.
20/03/2025 T. BOUJIHA 24
Analyse en Composantes Principales (ACP)
Qualité de la projection:
Une valeur propre représente la variance des individus sur l’axe correspondant. Par
conséquent, le rapport de chaque valeur propre λ à la somme de toutes les valeurs propres ∑ λ
fournit un renseignement intéressant sur la part de toute l’information initiale visible sur
chaque axe.
var iance i i (%)
i
La première composante (axe horizontal) est celle qui résume le mieux les informations
contenues dans le tableau. la deuxième (axe vertical) apporte un pourcentage inférieur mais
complémentaire d’information, et ainsi de suite.
Remarque:
La somme des pourcentages d’explication des composantes renseigne sur le taux de
déperdition d’information à partir des données de bases. Ce qui permet de déterminer le
nombre d’axes à prendre en compte.
20/03/2025 T. BOUJIHA 25
Analyse en Composantes Principales (ACP)
Exemple d’application:
Ci-dessous, figure un tableau de données regroupant les valeurs des huit variables pour six
individus .
Matrice individus/variables: X (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT
Ind 1 0.635204 0.107143 1052.207311 46.625294 0.946429 187.535714 0.668111 9921.30838
Ind 2 0.332245 0.228571 1972.648656 56.227247 0.885714 230.171429 1.153605 9538.819240
Ind3 0.892245 0.057143 429.973267 24.960953 0.971429 101.200000 0.219033 10001.263575
Ind 4 0.418776 0.142857 1002.687786 32.184390 0.928571 128.142857 0.955700 9920.974267
Ind 5 0.635918 0.028571 839.28338 33.754703 0.985714 134.542857 0.623663 10082.779804
Ind 6 0.662041 0.057143 782.388660 34.068765 0.971429 136.4000 0.6200056 9921.623682
Dans ce tableau, les individus sont représentés dans un espace de p=8 dimensions, ou il est
pratiquement impossible de voir :
Les interactions entre les différentes variables.
La répartition des individus.
20/03/2025 T. BOUJIHA 26
Analyse en Composantes Principales (ACP)
Exemple d’application:
Tableau de données centrées: Y (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT
Ind 1 0.0391 0.0036 39.0091 8.6550 -0.0017 34.5369 -0.0385 23.5135
Ind 2 -0.2638 0.125 9.5945 18.2570 -0.06250 77.1726 0.4469 -3.5897
Ind3 0.2961 -0.0464 -5.8322 -13.0092 0.0232 -51.7988 -0.4876 1.0346
Ind 4 -0.1777 0.0392 -10.5103 -5.7858 -0.0196 -24.8559 0.2490 23.1794
Ind 5 0.0398 -0.0750 -1.7391 -4.2155 0.0374 -18.4559 -0.0830 1.8498
Ind 6 0.0659 0.0464 -2.3080 -3.9014 0.0232 -16.5988 -0.0866 23.8288
Le tableau Y(6,8) tel que: Yij X ij X j
est le tableau centré associé à X (6,8).
Xj étant la moyenne de la variable j pour tous les individus.
20/03/2025 T. BOUJIHA 27
Analyse en Composantes Principales (ACP)
Exemple d’application:
Tableau de données centrées réduites: Z (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT
Ind 1 0.1975 0.0485 0.0752 0.7627 -0.0485 0.7341 -0.1201 0.1255
Ind 2 -1.3318 1.6973 1.8493 1.6088 -1.6974 1.6404 1.3919 -1.9164
Ind3 1.4950 -0.6304 -1.1241 -1.1463 0.6305 -1.1011 -1.5188 0.5524
Ind 4 -0.8950 0.5335 -0.0203 -0.5098 -0.5335 -0.5284 0.7756 0.1237
Ind 5 0.2011 -1.0184 -0.3352 -0.3715 1.0184 -0.3923 -0.2586 0.9875
Ind 6 0.3332 -0.6304 -0.4449 -0.3438 0.6305 -0.3528 -0.2700 0.1273
La représentation matricielle de Z(6,8) est: Z(6,8)=Y(6,8)×D1/s
Avec D1/s est la matrice diagonale des inverses des écarts-types et Y(6,8) est la matrice des
données centrées.
Une variable centrée réduite satisfait aux deux propriétés suivantes :
Sa moyenne est nulle
Son écart type est égal à un
20/03/2025 T. BOUJIHA 28
Analyse en Composantes Principales (ACP)
Matrice de variance covariance:
Matrice de variance covariance: V(8,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT
ENG 0.0327 -0.0099 -74.1050 -1.2884 0.0049 -5.2956 -0.0528 21.8509
CONT -0.0099 0.0045 28.4158 0.5311 -0.0022 2.2255 0.0164 -10.6102
COR_NOR -74.105 28.4158 2.2430 4.5226 -14.2080 1.8817 1.2392 -7.3627
VAR -1.2884 0.5311 4.5226 1.0732 -0.2655 4.4468 2.2361 -1.4505
HOM 0.0049 -0.0022 -14.2080 -0.2655 0.0011 -1.1127 -0.0082 5.3051
VAR_SOM -5.2956 2.2255 1.8817 4.4468 -1.1127 1.8442 9.1998 -6.1060
ENT_SOM -0.0528 0.0164 1.2392 2.2361 -0.0082 9.1998 0.0859 -37.2413
ENT 21.8509 -10.6102 -7.3627 -1.4505 5.3051 -6.1060 -37.2413 2.9241
Cette matrice s’écrit comme suit :
V=YTDY
D= (1/6)×Id est une matrice diagonale de taille n, Y est le tableau de données centrées et YT la
matrice transposée.
20/03/2025 T. BOUJIHA 29
Analyse en Composantes Principales (ACP)
Valeurs propres de la matrice de variance covariance:
λ1 λ2 λ3
Valeur propre *105 2.5064 0.0485 0.0027
Variance en % 97.99 % 1.89% 0.10%
Variance cumulée en % 97.99% 98.87% 98.97%
Facteurs principaux Ui:
F1 F2 F3
ENG -0.0003 -0.0006 -0.0036
CONT 0.0001 -0.0002 0.0005
COR_SOM 0.9451 0.3138 0.0918
VAR 0.0190 0.014 -0.2367
HOM -0.0001 0.0001 -0.0003
VAR_SOM 0.0793 0.0437 -0.9671
ENT_SOM 0.0005 0.0009 0.0047
ENT -0.3166 0.9484 0.0176
20/03/2025 T. BOUJIHA 30
Analyse en Composantes Principales (ACP)
Composantes principales:
Ce sont les nouvelles variables Ci définies par les facteurs principaux Ui :
Ci=X*Ui
F1 F2 F3
-2.1308 9.7483 0.0792
Ind 1
-1.1363 9.6763 0.1135
Ind 2
-2.7514 9.6248 0.1121
Ind 3
-2.1825 9.7296 0.1355
Ind 4
-2.3876 9.8321 0.1168
Ind 5
-2.3902 9.6615 0.1069
Ind 6
N.B: Ci*103
20/03/2025 T. BOUJIHA 31
Analyse en Composantes Principales (ACP)
9850
ind5
9800
ind4
Axe F2(1.89%)
9750
ind1
9700
ind2
ind6
9650
ind3
9600
-2800 -2600 -2400 -2200 -2000 -1800 -1600 -1400 -1200 -1000
Axe F1(97.99%)
Projection des individus
20/03/2025 T. BOUJIHA 32
Analyse en Composantes Principales (ACP)
Matrice de corrélation:
Matrice de Corrélation: R(8,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT
ENG 1.0000 -0.6809 -0.7210 -0.5730 0.6809 -0.5682 -0.8306 -0.7053
CONT -0.6809 1.0000 0.7437 0.6355 -0.8333 0.6423 0.6935 -0.7691
COR_NOR -0.7210 0.7437 1.0000 0.7681 -0.7437 0.7709 0.7439 -0.7575
VAR -0.5730 0.6355 0.7681 1.0000 -0.6355 0.8329 0.6137 -0.6823
HOM 0.6809 -0.8333 -0.7437 -0.6355 1.0000 -0.6423 -0.6936 0.7691
VAR_SOM -0.5682 0.6423 0.7709 0.8329 -0.6423 1.0000 0.6090 -0.6929
ENT_SOM -0.8306 0.6935 0.7439 0.6137 -0.6936 0.6090 1.0000 -0.6192
ENT -0.7053 -0.7691 -0.7575 -0.6823 0.7691 -0.6929 -0.6192 1.0000
Cette matrice s’écrit comme suit :
R=ZTDZ
D= (1/6)×Id est une matrice diagonale de taille n, Z est le tableau de données centrées réduites et
ZT la matrice transposée.
20/03/2025 T. BOUJIHA 33
Analyse en Composantes Principales (ACP)
Cercle de corrélation:
Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales, par
exemple C1 et C2, on représente chaque variable Xj par un point d’abscisse cor(Xj , C1)
et d’ordonnée cor(Xj, C2).
20/03/2025 T. BOUJIHA 34
Analyse en Composantes Principales (ACP)
Cercle de corrélation:
D’après l’analyse en composantes principales, trois variables parmi les huit variables peuvent
être utilisées pour décrire ces individus. Les trois variables sont : l’énergie, la variance et
l’entropie.
20/03/2025 T. BOUJIHA 35