0% ont trouvé ce document utile (0 vote)
55 vues35 pages

Analyse Et Sécurité de Données Multimédia

Le document présente une analyse approfondie de l'analyse de données multimédia, en mettant l'accent sur l'importance de la collecte et de la représentation graphique des données pour extraire des informations pertinentes. Il explore divers domaines d'application tels que la santé, la finance, et l'éducation, tout en décrivant des outils mathématiques et des méthodes d'analyse comme l'Analyse en Composantes Principales (ACP). L'objectif global est d'améliorer la prise de décision et d'anticiper les tendances futures à travers une approche multidimensionnelle des données.

Transféré par

hossam.el-mossaid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues35 pages

Analyse Et Sécurité de Données Multimédia

Le document présente une analyse approfondie de l'analyse de données multimédia, en mettant l'accent sur l'importance de la collecte et de la représentation graphique des données pour extraire des informations pertinentes. Il explore divers domaines d'application tels que la santé, la finance, et l'éducation, tout en décrivant des outils mathématiques et des méthodes d'analyse comme l'Analyse en Composantes Principales (ACP). L'objectif global est d'améliorer la prise de décision et d'anticiper les tendances futures à travers une approche multidimensionnelle des données.

Transféré par

hossam.el-mossaid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

faculté des Sciences, Kenitra

MASTER Intelligence Artificielle & Objets Connectés

Analyse et Sécurité
de Données Multimédia

Tarik BOUJIHA

Année Universitaire 2024/2025


Introduction
L'analyse de données, à quoi ça sert?

 La statistique classique n’étudie en général qu’un petit nombre de variables d’une


population.

La statistique étudie une, deux ou trois variables.

 Pourtant, les individus sont souvent caractérisés par un grand nombre de variables.
 Sources de données:

 Appareils de mesure : capteurs, images satellitaires, radar...


 Le Web, Téléphonie, ...

Un bon dessin vaut mieux qu'un long discours

 L’analyse de données permet de prendre en compte toutes ces variables et d’en faire
une représentation graphique pertinente.
20/03/2025 T. BOUJIHA 2
Introduction

 Objectif : extraire des informations pertinentes à partir de ces données.

 Le but : de façon générale, de décrire et/ou prédire une situation à l'aide de variables
relevées.
Données:

 Les variables: sont soit de nature quantitative, soit de nature qualitative.

 Une variable est quantitative si elle reflète une notion de grandeur, c'est-à-dire si
les valeurs qu'elle peut prendre sont des nombres.

 Une variable qualitative (on dit aussi catégorielle ) est une variable pour laquelle la
valeur mesurée sur chaque individu ne représente pas une quantité. Les différentes
valeurs que peut prendre cette variable sont appelées: les catégories, modalités ou
niveaux.
20/03/2025 T. BOUJIHA 3
Introduction
Représentation des données: Variables

X1 X2 Xj …. Xp
ind1
ind2
Individus indi Vi,j

indn

 Notations vectorielles:
ième Observation = Vecteur Xi=[X1, X2, ..., Xp]T
Le tableau de données = une matrice V(i,j) avec i = 1, ..., n et j = 1, ..., p.
Les différents types de tableaux:
 Tableau de variables quantitatives décrit sur des individus.
 Tableau de variables qualitatives décrit sur les individus.
 Autre type de tableaux (tableau de paquets de variables).
20/03/2025 T. BOUJIHA 4
Introduction
 Domaines d’application:

1. Sciences et Recherche:
 Etude statistique des phénomènes naturels;
 Prévision climatique;
 Analyse de données biologiques (génomique, bio-informatique,…)
2. Santé et Médecine:
 Diagnostic médical assisté par ordinateur;
 Prévision d’épidémies (Covid-19 par exemple);
 développement de médicaments ( analyse des résultats cliniques)
3. Finance et Banque:
 Analyse du risque financier;
 Prévision des tendances boursières;
 Analyse de crédit des clients

20/03/2025 T. BOUJIHA 5
Introduction
 Domaines d’application:

4. Marketing et Commerce :
 Analyse des comportements des clients;
 Segmentation de la clientèle;
 Personnalisation des publicités
5. industrie et logistique :
 Gestion des stocks;
 Maintenance prédictive des machines ;
 Analyse de la quantité des produits
6. Télécommunications:
 Détection de pannes de réseau;
 Prévision du trafic réseau;
 Analyse de la satisfaction des clients

20/03/2025 T. BOUJIHA 6
Introduction
 Domaines d’application:

7. Sécurité et Défense :
 Détection de cyberattaques;
 Surveillance et reconnaissance faciale;
 détection de mouvement
8. Education :
 Analyse des performances des étudiants;
 Prévision du taux de réussite ;
 Développement de cours en ligne personalisés
9. Transport:
 Gestion du trafic routier;
 Optimisation des itinéraires;
 prévision des retards (Compagnies aériennes)

20/03/2025 T. BOUJIHA 7
Introduction
 Domaines d’application:
10. Environnement:
 Prévision des catastrophes naturelles;
 suivi de la pollution;
 Gestion des ressources naturelles
En général:

L’analyse de données est aujourd’hui dans tous les secteurs. Elle permet d’améliorer la prise de décision, d’optimiser
les performances et d’anticiper les tendances futures

 Démarche:
 Conception: définition de la population et des caractères (variables);
 Collecte des données;
Vérification;
 Analyse;
 Description ou/et Prédiction.
20/03/2025 T. BOUJIHA 8
Introduction
 Description Monodimensionnelle: les individus sont caractérisés par une seule variable
 Statistiques élémentaires:
 Min, Max, Moyenne, Médiane;
 La Dispersion : la variance, l’écart type.

 Histogramme: Représente une estimation de la fonction de densité

 Description Bidimensionnelle: les individus sont caractérisés par deux variables

 Description Multidimensionnelle: les individus sont caractérisés par plusieurs


variables

20/03/2025 T. BOUJIHA 9
Outils Mathématiques
 Moyenne arithmétique
On note:

Ou pour des données pondérées


Chaque individu peut avoir un poids pi, tel que p1 + · · · + pn = 1, notamment quand les
individus n’ont pas la même importance.

 Propriétés: la moyenne arithmétique est une mesure de tendance centrale qui dépend
de toutes les observations. Elle est sensible aux valeurs extrêmes.

20/03/2025 T. BOUJIHA 10
Outils Mathématiques
 Variance et écart-type

La variance de X est définie par:

Ou

La variance est « la moyenne des carrés moins le carré de la moyenne ».


L’écart-type бx est la racine carrée de la variance.
l'écart type est une mesure de la dispersion d'une variable aléatoire ; en statistique, il
est une mesure de dispersion de données. Il est défini comme la racine carrée de la
variance.

Plus il est faible, plus les valeurs sont regroupées autour de la moyenne

20/03/2025 T. BOUJIHA 11
Outils Mathématiques
 Mesure de liaison entre deux variables
La covariance observée entre deux variables X et Y est:

La covariance caractérise les variations simultanées de deux variables aléatoire.

Le coefficient rxy de Bravais-Pearson ou coefficient de corrélation est donné par:

 Propriétés:
 Cov(x,x) = Var(x) et Cor(x,x) =1.
 Cov(x,y) = Cov(y,x) et Cor(x,y) = Cor(y,x)
Variables corrélées si | cor(x, y)| =1.
Variables décorrélées si cor(x, y) = 0. Cela ne veut pas dire qu’elles sont indépendantes!
20/03/2025 T. BOUJIHA 12
Outils Mathématiques
 Transposition:

Echange des lignes et des colonnes d’une matrice ; on note AT la transposée de A.

(AT)T = A, (A + B)T = AT + BT, (AB)T = BTAT


 Trace:

La trace d’une matrice est la somme des termes de sa diagonale.

 inverse:
A et B sont deux matrices carrées de taille n, alors:

Si AB = In et BA = In On note B = A−1 (inverse de A)

20/03/2025 T. BOUJIHA 13
Méthodes d’analyse de données
Les méthodes multidimensionnelles permettent d'obtenir des représentations graphiques qui
constituent le meilleur résumé possible de l'information contenue dans un grand tableau de
données. Pour cela, il faut consentir à une perte d'information afin de gagner en lisibilité.

Méthodes de réductions

Extraction d’attributs Sélection d’attributs

Calcul de tous les attributs initiaux pour extraire Il est uniquement nécessaire de calculer les
les plus pertinents attributs qui caractérisent les données en question

- Analyse en Composantes Principales (ACP) - Méthodes de Sélection Itératives


descendantes et ascendantes
- Analyse en Composantes Indépendantes (ACI)

20/03/2025 T. BOUJIHA 14
Analyse en Composantes Principales (ACP)

Introduction:

Dans la littérature, on trouve deux approches différentes de l'ACP :

 Elle peut être présentée comme la recherche d'un ensemble réduit de variables
non corrélées, combinaisons linéaires des variables initiales résumant avec
précision les données (approche anglo-saxonne).

 Une autre interprétation repose sur la représentation des données initiales à


l'aide de nuage de points dans un espace géométrique. L'objectif est alors de
trouver des sous-espaces (droite, plan,...) qui représentent au mieux le nuage
initial.

20/03/2025 T. BOUJIHA 15
Analyse en Composantes Principales (ACP)

Définition:

L’analyse en composantes principales est une méthode descriptive dont le but est de
représenter, sous formes graphique, un tableau de données quantitatives X (n, p)
représentant n individus décrits par p variables dans un espace de dimension inférieur
k<p.

Ceci s’effectue par projection orthogonale du nuage initial dans ce nouveau sous espace
Fk de dimension k<p.

20/03/2025 T. BOUJIHA 16
Analyse en Composantes Principales (ACP)

En général:

 Dans ce type des tableaux de données, les individus sont représentés dans un espace de
dimensions p, ou il est pratiquement impossible de voir :
 Les interactions entre différentes variables.
 La répartition des individus.
 L’ACP permet donc, de trouver des espaces de dimensions plus petite dans lesquels il est
possible d’observer au mieux :

 La structuration des variables : quelles sont celles qui sont associées ? Quelles sont
celles qui ne le sont pas? Quelles sont celles qui varient dans le même sens ? Quelles
sont celles qui s’opposent ?

 La répartition des individus : quels sont ceux qui se ressemblent ? Quels sont ceux qui
sont dissemblables ?

20/03/2025 T. BOUJIHA 17
Analyse en Composantes Principales (ACP)

Principe général de l’ACP:

L’algorithme de l’ACP effectue sur la matrice individus/variables, différentes opération:

 Centrage et réduction des données,


 Diagonalisation de la matrice d’inertie,
 Extraction de valeurs propres et de vecteurs propre.

En résumé, l’algorithme de l’ACP procède en deux étapes:

 La 1ere étape consiste à élaborer à partir de la matrice individus/variables, la matrice de


variance covariance ou la matrice de corrélation, appelée matrice d’inertie.

 La 2eme étape consiste à trouver les valeurs propres et les vecteurs propres pour
diagonaliser la matrice de corrélation.

20/03/2025 T. BOUJIHA 18
Analyse en Composantes Principales (ACP)

 Centrage - Réduction:

Quand les variables sont mesurées avec des échelles différentes où elles ont des dispersions
hétérogènes, il peut s’avérer utile de centrer et de réduire ces variables.

 Centrer une variable consiste à en soustraire sa moyenne :

Soit le tableau de données X (n,p) rassemblant les observations de p variables sur n individus :

Le tableau Y(n,p) tel que: Yij  X ij  X j


est le tableau centré associé à X (n,p).

Xj étant la moyenne de la variable j pour tous les individus.

20/03/2025 T. BOUJIHA 19
Analyse en Composantes Principales (ACP)

 Centrage - Réduction:

 Réduire une variable consiste à la diviser sur son écart-type:

Le tableau Z(n,p) tel que: Z ij  ( X ij  X j


)/S j
est le tableau de données centrées réduites.

Sj étant l’écart-type de la variable Xj.

La représentation matricielle de Z(n,p) est: Z(n,p)=Y(n,p)×D1/s

Avec D1/s est la matrice diagonale des inverses des écarts-types et Y(n,p) est la matrice des
données centrées.

20/03/2025 T. BOUJIHA 20
Analyse en Composantes Principales (ACP)

 Matrice de variance covariance:

Les variances et les covariances sont représentées sous la forme d’une matrice carrée
symétrique, appelée matrice de variance covariance des p variables :

Cette matrice s’écrit comme suit :

V=YTDY

D= (1/n)×Id est une matrice diagonale de taille n, Y est le tableau de données centrées et YT la
matrice transposée.

20/03/2025 T. BOUJIHA 21
Analyse en Composantes Principales (ACP)

 Matrice de corrélation:
La réduction des données peut conduire au calcul des coefficients de corrélation des différentes
variables considérées deux à deux.

Ces coefficients peuvent être réunis en une matrice carrée symétrique à éléments diagonaux
unitaires, appelée matrice de corrélation:

Obtenue matériellement par :


R = ZT D Z
D= (1/n)×Id est une matrice diagonale de taille n, Z est le tableau de données centrées réduites et
ZT la matrice transposée.

20/03/2025 T. BOUJIHA 22
Analyse en Composantes Principales (ACP)

 Définition de vecteur et valeur propre:

Un vecteur v ≠ 0 de taille p est un vecteur propre d’une matrice A de taille p × p, s’il existe
un scalaire λ telle que Av = λv.

En général, les vecteurs propres et valeurs propres sont complexes ; dans tous les cas qui
nous intéressent, ils seront réels.

Interprétation des vecteurs propres:


ce sont les directions privilégiées dans lesquelles la matrice agit.

Interprétation des valeurs propres:


c’est le facteur multiplicatif associé à une direction donnée.

20/03/2025 T. BOUJIHA 23
Analyse en Composantes Principales (ACP)

 Axes principaux – Facteurs principaux:

Les vecteurs propre de la matrice d’inertie sont appelés axes principaux d’inertie.

A l’axe principale a est associé le facteur principal : U=M.a

Si M=Id, les facteurs principaux et les axes principaux seront confondus.

 Composantes principales:

Ce sont les nouvelles variables Ci définies par les facteurs principaux Ui :

Ci=X*Ui
Ci est le vecteur reformant les coordonnées des projections des individus sur l’axe défini
par l’axe principal ai.
Ces composantes sont obtenues par des combinaisons linéaires des variables.

20/03/2025 T. BOUJIHA 24
Analyse en Composantes Principales (ACP)

 Qualité de la projection:

Une valeur propre représente la variance des individus sur l’axe correspondant. Par
conséquent, le rapport de chaque valeur propre λ à la somme de toutes les valeurs propres ∑ λ
fournit un renseignement intéressant sur la part de toute l’information initiale visible sur
chaque axe.

var iance  i  i (%)


i
La première composante (axe horizontal) est celle qui résume le mieux les informations
contenues dans le tableau. la deuxième (axe vertical) apporte un pourcentage inférieur mais
complémentaire d’information, et ainsi de suite.
Remarque:

La somme des pourcentages d’explication des composantes renseigne sur le taux de


déperdition d’information à partir des données de bases. Ce qui permet de déterminer le
nombre d’axes à prendre en compte.

20/03/2025 T. BOUJIHA 25
Analyse en Composantes Principales (ACP)
 Exemple d’application:
Ci-dessous, figure un tableau de données regroupant les valeurs des huit variables pour six
individus .
Matrice individus/variables: X (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT

Ind 1 0.635204 0.107143 1052.207311 46.625294 0.946429 187.535714 0.668111 9921.30838

Ind 2 0.332245 0.228571 1972.648656 56.227247 0.885714 230.171429 1.153605 9538.819240

Ind3 0.892245 0.057143 429.973267 24.960953 0.971429 101.200000 0.219033 10001.263575

Ind 4 0.418776 0.142857 1002.687786 32.184390 0.928571 128.142857 0.955700 9920.974267

Ind 5 0.635918 0.028571 839.28338 33.754703 0.985714 134.542857 0.623663 10082.779804

Ind 6 0.662041 0.057143 782.388660 34.068765 0.971429 136.4000 0.6200056 9921.623682

Dans ce tableau, les individus sont représentés dans un espace de p=8 dimensions, ou il est
pratiquement impossible de voir :
 Les interactions entre les différentes variables.
 La répartition des individus.

20/03/2025 T. BOUJIHA 26
Analyse en Composantes Principales (ACP)

 Exemple d’application:
Tableau de données centrées: Y (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT

Ind 1 0.0391 0.0036 39.0091 8.6550 -0.0017 34.5369 -0.0385 23.5135

Ind 2 -0.2638 0.125 9.5945 18.2570 -0.06250 77.1726 0.4469 -3.5897

Ind3 0.2961 -0.0464 -5.8322 -13.0092 0.0232 -51.7988 -0.4876 1.0346

Ind 4 -0.1777 0.0392 -10.5103 -5.7858 -0.0196 -24.8559 0.2490 23.1794

Ind 5 0.0398 -0.0750 -1.7391 -4.2155 0.0374 -18.4559 -0.0830 1.8498

Ind 6 0.0659 0.0464 -2.3080 -3.9014 0.0232 -16.5988 -0.0866 23.8288

Le tableau Y(6,8) tel que: Yij  X ij  X j


est le tableau centré associé à X (6,8).

Xj étant la moyenne de la variable j pour tous les individus.

20/03/2025 T. BOUJIHA 27
Analyse en Composantes Principales (ACP)
 Exemple d’application:
Tableau de données centrées réduites: Z (6,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT

Ind 1 0.1975 0.0485 0.0752 0.7627 -0.0485 0.7341 -0.1201 0.1255

Ind 2 -1.3318 1.6973 1.8493 1.6088 -1.6974 1.6404 1.3919 -1.9164

Ind3 1.4950 -0.6304 -1.1241 -1.1463 0.6305 -1.1011 -1.5188 0.5524

Ind 4 -0.8950 0.5335 -0.0203 -0.5098 -0.5335 -0.5284 0.7756 0.1237

Ind 5 0.2011 -1.0184 -0.3352 -0.3715 1.0184 -0.3923 -0.2586 0.9875

Ind 6 0.3332 -0.6304 -0.4449 -0.3438 0.6305 -0.3528 -0.2700 0.1273

La représentation matricielle de Z(6,8) est: Z(6,8)=Y(6,8)×D1/s


Avec D1/s est la matrice diagonale des inverses des écarts-types et Y(6,8) est la matrice des
données centrées.
Une variable centrée réduite satisfait aux deux propriétés suivantes :
 Sa moyenne est nulle
 Son écart type est égal à un

20/03/2025 T. BOUJIHA 28
Analyse en Composantes Principales (ACP)
 Matrice de variance covariance:
Matrice de variance covariance: V(8,8)
ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT

ENG 0.0327 -0.0099 -74.1050 -1.2884 0.0049 -5.2956 -0.0528 21.8509

CONT -0.0099 0.0045 28.4158 0.5311 -0.0022 2.2255 0.0164 -10.6102

COR_NOR -74.105 28.4158 2.2430 4.5226 -14.2080 1.8817 1.2392 -7.3627

VAR -1.2884 0.5311 4.5226 1.0732 -0.2655 4.4468 2.2361 -1.4505

HOM 0.0049 -0.0022 -14.2080 -0.2655 0.0011 -1.1127 -0.0082 5.3051

VAR_SOM -5.2956 2.2255 1.8817 4.4468 -1.1127 1.8442 9.1998 -6.1060

ENT_SOM -0.0528 0.0164 1.2392 2.2361 -0.0082 9.1998 0.0859 -37.2413

ENT 21.8509 -10.6102 -7.3627 -1.4505 5.3051 -6.1060 -37.2413 2.9241

Cette matrice s’écrit comme suit :


V=YTDY
D= (1/6)×Id est une matrice diagonale de taille n, Y est le tableau de données centrées et YT la
matrice transposée.
20/03/2025 T. BOUJIHA 29
Analyse en Composantes Principales (ACP)

 Valeurs propres de la matrice de variance covariance:

λ1 λ2 λ3
Valeur propre *105 2.5064 0.0485 0.0027
Variance en % 97.99 % 1.89% 0.10%
Variance cumulée en % 97.99% 98.87% 98.97%

 Facteurs principaux Ui:

F1 F2 F3
ENG -0.0003 -0.0006 -0.0036
CONT 0.0001 -0.0002 0.0005
COR_SOM 0.9451 0.3138 0.0918
VAR 0.0190 0.014 -0.2367
HOM -0.0001 0.0001 -0.0003
VAR_SOM 0.0793 0.0437 -0.9671
ENT_SOM 0.0005 0.0009 0.0047
ENT -0.3166 0.9484 0.0176

20/03/2025 T. BOUJIHA 30
Analyse en Composantes Principales (ACP)
 Composantes principales:

Ce sont les nouvelles variables Ci définies par les facteurs principaux Ui :

Ci=X*Ui

F1 F2 F3

-2.1308 9.7483 0.0792


Ind 1
-1.1363 9.6763 0.1135
Ind 2
-2.7514 9.6248 0.1121
Ind 3
-2.1825 9.7296 0.1355
Ind 4
-2.3876 9.8321 0.1168
Ind 5
-2.3902 9.6615 0.1069
Ind 6

N.B: Ci*103

20/03/2025 T. BOUJIHA 31
Analyse en Composantes Principales (ACP)

9850
ind5

9800

ind4
Axe F2(1.89%)

9750
ind1

9700
ind2
ind6
9650
ind3

9600
-2800 -2600 -2400 -2200 -2000 -1800 -1600 -1400 -1200 -1000
Axe F1(97.99%)

Projection des individus

20/03/2025 T. BOUJIHA 32
Analyse en Composantes Principales (ACP)
 Matrice de corrélation:

Matrice de Corrélation: R(8,8)


ENG CONT COR_NOR VAR HOM VAR_SOM ENT_SOM ENT

ENG 1.0000 -0.6809 -0.7210 -0.5730 0.6809 -0.5682 -0.8306 -0.7053

CONT -0.6809 1.0000 0.7437 0.6355 -0.8333 0.6423 0.6935 -0.7691

COR_NOR -0.7210 0.7437 1.0000 0.7681 -0.7437 0.7709 0.7439 -0.7575

VAR -0.5730 0.6355 0.7681 1.0000 -0.6355 0.8329 0.6137 -0.6823

HOM 0.6809 -0.8333 -0.7437 -0.6355 1.0000 -0.6423 -0.6936 0.7691

VAR_SOM -0.5682 0.6423 0.7709 0.8329 -0.6423 1.0000 0.6090 -0.6929

ENT_SOM -0.8306 0.6935 0.7439 0.6137 -0.6936 0.6090 1.0000 -0.6192

ENT -0.7053 -0.7691 -0.7575 -0.6823 0.7691 -0.6929 -0.6192 1.0000

Cette matrice s’écrit comme suit :


R=ZTDZ
D= (1/6)×Id est une matrice diagonale de taille n, Z est le tableau de données centrées réduites et
ZT la matrice transposée.
20/03/2025 T. BOUJIHA 33
Analyse en Composantes Principales (ACP)

 Cercle de corrélation:

Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales, par
exemple C1 et C2, on représente chaque variable Xj par un point d’abscisse cor(Xj , C1)
et d’ordonnée cor(Xj, C2).

20/03/2025 T. BOUJIHA 34
Analyse en Composantes Principales (ACP)

 Cercle de corrélation:

D’après l’analyse en composantes principales, trois variables parmi les huit variables peuvent
être utilisées pour décrire ces individus. Les trois variables sont : l’énergie, la variance et
l’entropie.
20/03/2025 T. BOUJIHA 35

Vous aimerez peut-être aussi