Tel 00005283
Tel 00005283
THÈSE
pour l’obtention du
par
HARKAT Mohamed-Faouzi
Composition du jury
Remerciements
Les travaux présentés dans ce mémoire ont été réalisé au sein de l’équipe Diagnostic et
Robustesse du Centre de Recherche en automatique de Nancy (UMR-CNRS 7039).
Mes remerciement vont à Gilles MOUROT pour son aide, sa disponibilité, ses judicieux
conseils pendant toute la durée de ma thèse. Ses remarques m’ont été d’une grande utilité dans
l’avancement des travaux.
Je n’oublie pas dans mes remerciements tous les membres de l’équipe Diagnostic et Robus-
tèsse du Centre de recherche en Automatique de Nancy pour la bonne ambiance qu’ils ont su
faire régner au sein de l’équipe et tout particulièrement Marjorie Schwartz pour sa constante
disponibilité.
Enfin, je ne saurais oublier de trop remercier mes parents pour leur soutien le long de ce
parcours.
iv
Table des matières
Notations xiii
v
vi Table des matières
Bibliographie 165
173
viii Table des matières
Table des figures
ix
x Table des figures
3.44 Résultat de la localisation par reconstruction d’un défaut affectant les variables
x3 et x4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.45 Résultat de la localisation par reconstruction de la variable x9 avec un défaut
affectant les variables x3 et x9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.46 Résultat de la localisation par reconstruction de la variable x3 avec un défaut
affectant les variables x3 et x9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4 Concentration d’ozone des sites de Brabois, Dan et Fléville sur une période de
quelques jours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.5 Concentration de N O2 des sites de Brabois, Dan et Fléville sur une période de
quelques jours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.6 Concentration de NO des sites de Brabois, Dan et Fléville sur une période de
quelques jours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.7 Concentration d’ozone et de NO2 des sites de Fléville, Tomblaine et Lunéville. . . 138
5.8 Concentration d’ozone et de NO des sites de Fléville, Tomblaine et Lunéville. . . 138
5.9 Degrés de corrélation entre les capteurs (réseau AIRLOR). . . . . . . . . . . . . . 139
5.10 Evolution de la variance non reconstruite en fonction de ℓ. . . . . . . . . . . . . . 142
5.11 Mesure et estimation de l’ozone de Brabois (v1 ) par le modèle ACP linéaire. . . . 143
5.12 Mesure et estimation du NO2 de Brabois (v2 ). . . . . . . . . . . . . . . . . . . . . 143
5.13 Mesure et estimation du NO de Brabois (v3 ). . . . . . . . . . . . . . . . . . . . . 144
5.14 Evolution de l’erreur quadratique en présence d’un défaut affectant la variable 7. 145
5.15 Evolution de l’indice D2 en présence d’un défaut affectant la variable v7 . . . . . . 145
5.16 Localisation de la variable v7 par reconstruction des 18 variables. . . . . . . . . . 146
(j)
5.17 Localisation par l’indice A2 calculé après la reconstruction de la j eme variable. . 147
5.18 Localisation par calcul des contributions des variables à l’indice D2 . . . . . . . . . 147
5.19 Reconstruction de la variable en défaut cas de l’ozone de Fléville O3−F LE . . . . . 148
5.20 Evolution de l’indice D3 filtré en présence d’un défaut affectant la variable v10 . . 149
5.21 Localisation de la variable v10 par reconstruction des 18 variables. . . . . . . . . . 150
(j)
5.22 Localisation par l’indice A2 calculé après la reconstruction de la j eme variable. . 151
5.23 Localisation de la variable v10 par calcul des contributions des variables à l’indice
D3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.24 Reconstruction de la variable en défaut cas de l’ozone de St-Nicolas O3−ST N . . . 152
5.25 Evolution de l’indice D1 filtré en présence d’un défaut affectant la variable v2 . . . 152
5.26 Localisation de la variable v2 par reconstruction des 18 variables. . . . . . . . . . 153
(j)
5.27 Localisation par l’indice A2 calculé après la reconstruction de la j eme variable. . 154
5.28 Localisation de la variable v2 par calcul des contributions des variables à l’indice
D1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.29 Reconstruction de la variable en défaut du dioxyde d’azote de Brabois NO2−BRA . 155
5.30 Evolution de l’indice D1 filtré en présence d’un défaut affectant la variable v3 . . . 155
5.31 Localisation de la variable v3 par reconstruction des 18 variables. . . . . . . . . . 156
5.32 Reconstruction de la variable en défaut NOBRA de Brabois. . . . . . . . . . . . . 157
Notations
xiii
xiv Notations
Introduction générale
1
Les enjeux économiques en constante évolution amènent à produire toujours plus. La moindre
défaillance sur un processus est néfaste dans un environnement où le rendement est primordial.
Il est donc nécessaire de s’assurer en permanence de la conduite optimale du procédé. L’infor-
mation permettant de traduire le comportement d’un système est donnée par les mesures des
variables de ce processus. La qualité des mesures est un élément essentiel pour permettre la sur-
veillance et l’évaluation des performances d’un processus. La qualité de l’information peut être
accrue en améliorant la précision de l’instrumentation et en multipliant les capteurs. Pour des
raisons techniques ou financières, cette solution, où une même grandeur est mesurée par plusieurs
capteurs, est réservée aux industries de haute technologie. De plus, cette redondance matérielle
ne permet pas de se protéger contre une défaillance de certains éléments communs de la chaîne
de mesure : plusieurs capteurs mesurant la même grandeur sont généralement géographiquement
voisins et alimentés par le même réseau électrique ; une panne d’alimentation entraîne un arrêt de
tout le système de mesure. L’exploitation de modèles a priori exacts liant différentes grandeurs
mesurées offre un autre moyen pour vérifier la fiabilité des mesures. Cette redondance analytique
présente l’avantage de ne pas augmenter le coût de l’installation et de se dégager des contraintes
matérielles. Dans le domaine du diagnostic, des méthodes basées sur le concept de redondance
de l’information ont été développées. Leur principe repose généralement sur un test de cohé-
rence entre un comportement observé du processus fourni par des capteurs et un comportement
prévu fourni par une représentation mathématique du processus. Les méthodes de redondance
analytique nécessitent donc un modèle du système à surveiller. Ce modèle comprend un certain
nombre de paramètres dont les valeurs sont supposées connues lors du fonctionnement normal.
La comparaison entre le comportement réel du système et le comportement attendu donné par
le modèle fournit une quantité, appelée résidu, qui va servir à déterminer si le système est dans
un état défaillant ou non.
L’architecture générale du système de diagnostic à base de redondance analytique pour la
détection et la localisation de défaillances de capteurs, sachant qu’on ne s’intéresse qu’à des
défaillances d’instrumentation (capteurs ou actionneurs), est représentée sur la figure (fig 1.1).
Dans une première étape, il s’agit de comparer les observations avec les connaissances sur le
comportement normal du système contenues dans un modèle afin de vérifier leur cohérence. Cette
comparaison conduit à la génération d’indicateurs de défauts appelés résidus. Ces indicateurs
1
2 Chapitre 1. Introduction générale
Système
Observations
Résidus
Tolérances
Modèle de
comportement Test de cohérence
normal
Facteurs de cohérence
Signature du comportement
normal Test de cohérence Hypothèse de
Signature défauts a priori
des défauts
Comportement
(normal/anormal) Facteurs de vraisemblance des
hypothèses de défauts
sont souvent des écarts entre les caractéristiques observées et les caractéristiques de références
qui définissent le comportement normal du système. Sur la (fig 1.3), on présente le principe de
base de génération de résidus. Généralement, les méthodes de génération des résidus sont basées
soit sur une estimation d’état ou une estimation paramétrique. Dans le cadre des méthodes
reposant sur l’estimation d’état on retrouve trois approches :
1. l’approche de l’espace de parité : une représentation générale des différents aspects de cette
méthode est donnée dans [6].
2. l’approche par observateur ou filtre de Kalman [20].
3. les filtres sensibles aux défauts (limités aux procédés invariants) [110].
En estimation paramétrique [45], le ou les vecteurs des paramètres sont estimés, à partir des
mesures d’entrée et de sortie du système. Les paramètres du modèle (paramètres de référence)
et les paramètres estimés sont alors comparés pour générer des résidus.
Les valeurs des résidus doivent refléter l’effet des défaillances. Elles doivent être proches de
zéro en l’absence de défaut et différentes de zéro dans le cas contraire.
La seconde étape, appelée évaluation des résidus (fig 1.4), consiste à décider de la présence
ou non d’anomalies de comportement au sein du système et à localiser la ou les composantes
3
dont le dysfonctionnement est à l’origine de ces anomalies. L’évaluation des résidus consiste
à effectuer un premier test de cohérence, sous la forme d’une comparaison des résidus à des
tolérances caractérisant le comportement normal du système, en prenant en compte leurs aspects
non déterministes (bruits de mesure, erreurs de modélisation). Cette phase de détection permet
alors de recenser les équations de modèle qui ne sont plus vérifiées révélant ainsi une ou plusieurs
anomalies de comportement au sein du système. Les résidus sont donc conçus en vue de faciliter
leur exploitation ultérieure par un outil de décision destiné à détecter et à localiser les défauts.
Pour cela, deux approches sont possibles [23] :
– génération de résidus directionnels [24] : les résidus sont conçus de telle sorte que le vecteur
des résidus reste confiné dans une direction particulière de l’espace des résidus, en réponse
à un défaut particulier (fig 1.2).
– génération de résidus structurés [23] : les résidus sont conçus de façon à répondre à des sous-
ensembles de défauts différents. Ces sous-ensembles de défauts permettent de structurer
une table de signature appelée également matrice d’incidence ou matrice de signatures
théoriques de défauts. Ces signatures traduisent l’influence des défauts sur les résidus.
Pour que tous les défauts puissent être détectés, aucune colonne de la matrice des signatures
théoriques de défauts ne doit être nulle, et pour que tous les défauts puissent être localisés,
toutes les signatures théoriques doivent être distinctes. On peut distinguer trois cas pour
une matrice d’incidence (tab 1.1) :
– non localisante : une colonne est nulle ou deux au moins sont identiques.
– faiblement localisante : les colonnes sont non nulles et distinctes deux à deux.
– fortement localisante : en plus d’être faiblement localisante, aucune colonne ne peut être
obtenue à partir d’une autre en remplaçant un 1 par un 0.
Direction du défaut 3 Direction du défaut 2
Résidu
Direction du défaut 1
Figure 1.2 – Exemple de résidu directionnel ou le résidu est dans la direction du défaut 1
A l’issue de la phase de prise de décision, dans le cas des résidus structurés, un facteur de
cohérence est obtenu pour chacune des équations de modèle. A chaque instant, l’ensemble des
valeurs des facteurs de cohérence constitue ce que l’on appelle une signature expérimentale [22].
La phase de localisation consiste alors à effectuer un nouveau test de cohérence entre la signature
expérimentale et les signatures de références afin de déterminer les hypothèses de défauts les plus
vraisemblables.
Les méthodes de redondance analytique sont fondées sur l’utilisation des redondances pré-
sentes dans les mesures des variables. Le prix à payer est toutefois l’élaboration d’un modèle
mathématique aussi complet que possible dont la qualité est primordiale pour l’obtention d’un
système de détection performant. Cela est tout à fait envisageable lorsqu’il s’agit des systèmes de
petite dimension. En revanche, pour les systèmes de taille plus importante, établir de telles rela-
tions mathématiques entre les variables paraît moins immédiat. De plus, le choix de modèle pour
la génération de résidus est arbitraire et il se peut très bien que les corrélations entre certaines
4 Chapitre 1. Introduction générale
Evaluation
des résidus
ŷ(k) e(k) = y(k) − ŷ(k)
Modèle
Décision
Figure 1.3 – Principe de génération des rési- Figure 1.4 – Structure générale d’un système
dus de détection
1
° d1 d2 d3 2
° d1 d2 d3 3
° d1 d2 d3
r1 1 1 0 r1 1 1 0 r1 1 1 0
r2 1 1 1 r2 1 0 1 r2 1 0 1
r3 1 1 1 r3 1 1 1 r3 0 1 1
2 et °
Table 1.1 – Exemple de structure de résidus. Les structures ° 3 sont localisantes alors que
1 est non localisante.
°
variables ne soient pas prises en compte. Comme alternative, les méthodes basées sur l’analyse en
composantes principales (ACP), sont très intéressantes pour la mise en évidence des corrélations
linéaires significatives entre les variables du processus sans formuler de façon explicite le modèle
du système. Ainsi, toutes les corrélations entre les différentes variables sont prises en compte
dans le modèle ACP. L’ACP est employée pour modéliser le comportement du processus en fonc-
tionnement normal et les défauts sont alors détectés en comparant le comportement observé et
celui donné par le modèle [57].
L’ACP permet de générer un modèle du processus basé sur la connaissance issue du système
sans avoir une forme explicite d’un modèle entrées/sorties. Ainsi, elle permet d’exploiter toutes
les relations linéaires qui peuvent exister entres les différentes variables. Dans ce mémoire nous
allons étudier ce modèle particulier pour le diagnostic.
Chapitre 2
Le deuxième chapitre présentera le principe de l’analyse en composantes principales (ACP).
Les deux phases de modélisation et de génération de résidus avec l’ACP y seront exposées.
L’identification du modèle ACP repose, généralement, sur deux étapes ; la première consiste à
déterminer la structure du modèle alors que la seconde consiste en l’estimation des paramètres.
La deuxième étape est très simple et se ramène à un calcul de valeurs et vecteurs propres alors
que la première, qui est du moins la plus difficile, consiste à déterminer le nombre de composantes
principales à retenir dans le modèle ACP. Quelques critères classiques de sélection de ce nombre
seront exposés dans ce chapitre. Un critère basé sur le principe de l’erreur de reconstruction,
exploitant la redondance qui existe entre les variables, sera également présenté et adopté pour la
5
Chapitre 3
Ce chapitre sera consacré à la détection et localisation de défauts par analyse en composantes
principales linéaires.
Pour que le lecteur puisse faire le lien avec des méthodes classiques, l’équivalence entre la
génération de résidus avec les relations de parités et l’analyse en composantes principales est
présentée.
Dans la plupart des travaux publiés utilisant l’analyse en composantes principales pour la
détection de défauts, deux indices sont souvent utilisés. La statistique T 2 de Hotelling calculée à
partir des premières composantes principales et l’erreur quadratique d’estimation. Cependant, la
statistique T 2 ne représente pas vraiment un résidu puisqu’elle est calculée dans le sous espace
principal (sous-espace représentant les variations significatives des variables du processus) et
l’erreur quadratique d’estimation calculée dans le sous-espace résiduel (somme quadratique des
résidus) est sensible aux erreurs de modélisation. L’objectif est de trouver un indice de détection
permettant de s’affranchir de ce problème et d’être plus sensible aux défauts. Nous proposons
alors un indice Di utilisant les dernières composantes principales dans différents sous-espaces de
l’espace résiduel [31, 32].
Pour la localisation de défaut, plusieurs approches seront exposées. La première approche
est basée sur la structuration des résidus, comme dans le cas de l’espace de parité. D’autres
approches utilisent le même principe que les approches classiques utilisant des bancs de modèles,
comme l’approche par ACP partielles qui utilise des ACP avec des ensembles réduits de variables
ou encore l’approche par élimination qui génère des résidus en éliminant une variable à chaque
fois. Basée sur le même principe l’approche exploitant le principe de reconstruction sera égale-
ment présentée. La dernière approche est une approche basée sur le calcul des contributions des
variables à l’indice de détection [35].
Les deux dernières approches sont adaptées à l’indice de détection proposé pour la localisation
de défauts.
Les deux exemples présentés dans le premier chapitre sont utilisés pour illustrer les différentes
approches présentées dans ce chapitre.
Chapitre 4
L’extension de l’analyse en composantes principales dans le cas non linéaire sera présentée
dans ce chapitre.
Dans le cas non linéaire plusieurs approches seront présentées. L’approche des courbes prin-
cipales a été présentée comme une technique de généralisation de l’ACP linéaire. Cependant
cette approche ne permet pas d’obtenir un modèle de représentation permettant de calculer
les composantes principales non linéaires en ligne à partir de nouvelles observations du proces-
sus à surveiller. Indépendamment de ces travaux, des représentations neuronales de l’analyse
en composantes principales non linéaires (ACPNL) ont été développées. Nous présenterons les
principales représentations et leurs principes.
Dans le cas de l’ACPNL utilisant les réseaux de fonctions à base radiale RBF (Radial Basis
Function), nous proposons de combiner ce type de réseau avec les courbes principales. Ainsi, le
problème ce ramène a un problème de régression linéaire avec un gain considérable en temps de
calcul.
6 Chapitre 1. Introduction générale
Chapitre 5
Le dernier chapitre de cette thèse sera consacré à l’application de l’analyse en composantes
principales pour la détection et la localisation de défauts de capteurs d’un réseau de surveillance
de la qualité de l’air en Lorraine [31, 32].
Beaucoup d’activités humaines produisent des polluants primaires comme les oxydes d’azote
(NO2 et NO), le dioxyde de soufre et les composés organiques volatiles (COV) qui forment dans
la basse atmosphère, par des réactions chimiques ou photochimiques, des polluants secondaires
comme l’ozone. Un certain nombre de ces polluants sont susceptibles de poser des problèmes
pour la santé humaine et les systèmes écologiques.
L’étude présentée concerne trois polluants qui sont l’ozone et les oxydes d’azote NO2 et NO
mesurés sur différents sites en Lorraine.
Un modèle ACP est donc calculé à partir des mesures disponibles et la détection de défauts
est effectuée en utilisant l’indice de détection proposé dans le deuxième chapitre. La variable en
défaut est ainsi localisée en utilisant l’approche par reconstruction ou l’approche des contributions
appliquées à l’indice de détection proposé. Les résultats obtenus sont discutés.
Analyse en Composantes Principales Linéaires
2
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Principes de l’analyse en composantes principales . . . . . . . . . . . 9
2.3 Identification du modèle ACP . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . 14
2.3.2 Détermination de la structure du modèle . . . . . . . . . . . . . . . . . 18
2.3.3 Sélection de capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1 Introduction
Dans le domaine du diagnostic, des méthodes basées sur le concept de redondance de l’infor-
mation ont été développées. Leur principe repose généralement sur un test de cohérence entre un
comportement observé du processus fourni par des capteurs et un comportement prévu fourni
par une représentation mathématique du processus.
Les méthodes de redondance analytique nécessitent un modèle du système à surveiller. Ce
modèle comprend un certain nombre de paramètres dont les valeurs sont supposées connues
lors du fonctionnement normal. La comparaison entre le comportement réel du système et le
comportement attendu donné par le modèle fournit une quantité appelée résidu qui va servir à
déterminer si le système est dans un état défaillant ou non.
Les méthodes statistiques utilisées pour la détection de défauts dans des processus industriels
sont inclues dans un domaine généralement connu sous le nom de maîtrise ou contrôle statistique
de processus (CSP) (traduction française de SPC, Statistical Process Control). Les origines du
CSP remontent aux travaux de Shewhart publiés en 1931 [85]. Les techniques les plus utilisées et
les plus populaire du CSP sont des méthodes univariées, c’est-à-dire, surveillant chaque variable
ainsi que ses statistiques (moyenne et variance) indépendamment des autres variables.
Cette approche exige un opérateur surveillant sans interruption peut être des douzaines de
différents diagrammes univariés, ce qui réduit sensiblement sa capacité à faire des évaluations
7
8 Chapitre 2. Analyse en Composantes Principales Linéaires
précises au sujet de l’état du processus. Ainsi, l’application de cette approche à des systèmes de
grande dimension (grand nombre de variable) devient difficile sinon impossible.
De plus le calcul de la moyenne et de l’écart-type donne, pour chaque variable, des infor-
mations concernant l’ordre de grandeur et la dispersion des données ; le calcul de la matrice
de corrélation des variables donne des indications sur l’évolution simultanée des variables prises
deux à deux. Ces éléments de statistique descriptive univariée et bivariée ne donnent cependant
aucune information lorsque les variables sont considérées simultanément. Cette étude simultanée
des variables est précisément le but de l’analyse en composantes principales.
L’utilisation de l’analyse en composantes principales pour l’exploitation des données remonte
au début du siècle dernier. Elle est principalement issue des travaux de psychomètres américains
[75, 91, 41, 95].
L’analyse en composantes principales (ACP) est une technique descriptive permettant d’étu-
dier les relations qui existent entre les variables, sans tenir compte, a priori, d’une quelconque
structure [48, 11]. Le but de l’ACP est d’identifier la structure de dépendance entre des ob-
servations multivariables afin d’obtenir une description ou une représentation compacte de ces
dernières. Son utilisation a été restreinte à la projection des données sur les différents axes fac-
toriels et au calcul de distances par rapport à ces axes comme outil de détection de valeurs
aberrantes. L’utilisation de l’ACP de cette manière n’est pas très pratique, car un opérateur doit
visualiser les projections pour prendre une décision quant à la présence de valeurs aberrantes.
Depuis les années 70, de nombreux travaux ont proposé d’utiliser l’analyse en composantes
principales comme un outil de modélisation des processus à partir de laquelle un modèle peut être
obtenu [48, 114, 57, 62]. Ainsi, cette alternative permet d’estimer les variables ou les paramètres
du processus à surveiller.
Mathématiquement l’ACP est une technique de projection orthogonale linéaire qui projette
les observations multidimensionnelles représentées dans un sous-espace de dimension m (m est
le nombre de variables observées) dans un sous-espace de dimension inférieure (ℓ < m) en maxi-
misant la variance des projections.
La solution de ce problème de maximisation définit à la fois la projection du sous-espace
de dimension m dans le sous-espace de dimension ℓ et la projection inverse (du sous-espace de
dimension ℓ vers le sous espace de dimension m) permettant d’estimer les variables originelles.
Dans ce sens, l’ACP peut être considérée comme une technique de minimisation de l’erreur
quadratique d’estimation ou une technique de maximisation de la variance des projections (il
faut noter que ces deux critères sont équivalents).
Dans ce travail l’ACP est utilisée comme un outil de modélisation des relations linéaires entre
les différentes grandeurs représentant le comportement d’un processus quelconque.
L’estimation des paramètres du modèle ACP est effectué par calcul des valeurs et vecteurs
propres de la matrice de corrélation des données. Cependant, pour la détermination de la struc-
ture du modèle, il faut déterminer le nombre de composantes à retenir dans ce modèle. Pour
cette raison, plusieurs critères de sélection du nombre de composantes seront présentés.
Le critère basé sur le principe de la variance de reconstruction est adopté pour la sélection
du nombre de composantes à retenir dans le modèle ACP car il exploite les redondances entre les
variables. Ce nombre permettra d’identifier le modèle ACP dont dépend étroitement la procédure
de détection et de localisation.
Il faut noter que nous avons travaillé uniquement sur un modèle ACP statique et que l’ex-
tension au cas dynamique est possible [107, 78].
2.2. Principes de l’analyse en composantes principales 9
Notons que la trace d’une matrice carrée est définie par la somme de ces éléments diago-
naux. Du fait que la matrice de covariance Σ est indépendante de la matrice des paramètres P ,
minimiser Je revient à maximiser le second terme Jv de son expression :
ℓ
Jv (P ) = E{tT t} = E{t2j }
X
(2.3)
j=1
Remarque 2.2.1 Lorsque le vecteur de données présente une moyenne non nulle, celle-ci lui
est préalablement retranchée avant analyse.
∂L(p, λ)/∂p = 0
½
(2.7)
∂L(p, λ)/∂λ = 0
En utilisant la propriété de symétrie de la matrice de covariance des données ΣT = Σ, le
système d’équations s’écrit :
Σp − λp = 0
½
(2.8)
pT p − 1 = 0
La résolution de ce système d’équations est identifiée comme un problème d’estimation de
valeur propre et de vecteur propre de la matrice de covariance sous contrainte de normalisation
du vecteur propre. Ce problème est communément rencontré en algèbre linéaire. L’équation
(2.8) admet des solutions réelles de la variable λ obtenues par résolution directe de l’équation
caractéristique :
(Σ − λIm ) p = 0 (2.10)
Notons par λ1 , ..., λm les m valeurs propres de la matrice de covariance Σ et par p1 ∈
ℜm , ..., pm ∈ ℜm les m vecteurs propres qui leurs sont associés. Nous pouvons alors écrire :
ΣP = P Λ (2.12)
avec P = [p1 , p2 , ..., pm ] ∈ ℜm×m et Λ = diag (λ1 , λ2 , ..., λm ) ∈ ℜm×m . La notation diag (λ1 , λ2 , ..., λm )
se réfère à la matrice carrée dont les seuls éléments non nuls situés sur la diagonale sont les valeurs
λ1 , ..., λm . En raison de la propriété de symétrie de la matrice de covariance Σ, les m valeurs
propres λi sont réelles et les m vecteurs propres pi sont distincts et orthogonaux. Si l’on ajoute
à cette propriété la contrainte de norme unité, les vecteurs propres pi (i = 1, ..., m) forment une
base orthonormée :
P T P = P P T = Im (2.13)
Par définition, la transposée de la matrice carrée orthogonale correspond à son inverse, c’est-
à-dire : P T = P −1 . En conséquence, l’équation matricielle (2.12) admet la forme équivalente :
P T ΣP = Λ (2.14)
qui s’écrit sous forme développée :
λi si j = i
½
pTi Σpj = (2.15)
0 si j 6= i
De la comparaison des relations (2.5) et (2.15), il résulte :
ti = pTi x = xT pi i = 1, . . . , m (2.17)
Celles-ci sont dénommées composantes principales et sont statistiquement non corrélées. En
effet, en vertu des relations vectorielles
t = PTx (2.19)
m
X
x = Pt = ti p i (2.20)
i=1
ℓ ℓ ³ ´
pTj x pj
X X
x̂ = tj p j = (2.21)
j=1 j=1
Les données sont ainsi encodées par l’intermédiaire des ℓ composantes principales t1 , . . . , tℓ
présentant les plus fortes variances, en comparaison des m valeurs descriptives x1 , . . . , xm initia-
lement requises.
La perte d’information induite par la réduction de dimension de représentation de chaque
vecteur de données x est mesurée par la différence e entre ses représentations exacte (2.20) et
approchée (2.21) :
m
X
e = x − x̂ = ti p i (2.22)
i=ℓ+1
m
E{eT e} =
X
var{ti } (2.23)
i=ℓ+1
Ainsi, le vecteur de données x peut être exprimé sous la forme :
x = x̂ + e (2.24)
Dans la suite nous allons représenter la matrice des ℓ premiers vecteurs propres par P̂ , d’où :
t̂ = P̂ T x (2.25)
où t̂ est le vecteur des premières composantes principales et
x̂ = Ĉx (2.26)
où Ĉ = P̂ P̂ T .
Ainsi, l’erreur quadratique d’estimation est donnée par :
SP E = eT e (2.27)
p1
p2
Figure 2.1 – Déroulement d’une analyse en composantes principales. (a) Distribution d’entrée.
(b) Centrage et réduction de cette distribution. (c) Les deux axes principaux, correspondant aux
vecteurs propres de la matrice de covariance de la distribution.
Ainsi, l’analyse en composantes principales peut être considérée comme une approche de
modélisation avec laquelle on peut obtenir un modèle du système. On peut montrer également
que les derniers vecteurs propres représentent en fait les relations linéaires ou quasi linéaires qui
existent entre les variables [44]. Cette solution peut être obtenue par d’autres méthodes classique
comme la méthode TLS (Total Least Square) [100].
14 Chapitre 2. Analyse en Composantes Principales Linéaires
Xjb − Mj
Xj = (2.29)
σj
où Xjb est la j ieme colonne de la matrice X b et Mj est sa moyenne donnée par :
N
1 X
Mj = xj (k) (2.30)
N k=1
X = [ X1 . . . Xm ] (2.32)
La matrice de corrélation est donnée par :
1
Σ= XT X (2.33)
N −1
Généralement, la procédure d’identification de modèles, consiste, après le choix d’une classe
de modèle, à choisir une structure fixe puis à estimer les paramètres du modèle et enfin à valider
ce modèle. Dans le cas de l’ACP, l’estimation des paramètres du modèle est très simple et revient
en fait à un calcul de valeurs et vecteurs propres. Cependant le choix de la structure est plus
délicat comme nous le verrons par la suite.
m
Σ = P ΛP T = λi pi pTi
X
(2.34)
i=1
x1 = u1 + ε1
x2 = u1 + ε2
x3 = u1 + ε3
x4 = u2 + ε4 (2.35)
x5 = u2 + ε5
x6 = 3u1 + 2u2 + ε6
x7 = 2u1 + u2 + ε7
où les bruits de mesure εi sont des bruits aléatoires uniformément réparties entre −0.05 et +0.05,
u1 et u2 sont des signaux en forme de créneaux dont les amplitudes et les durées changent de
manière aléatoire.
Les mesures simulées des variables x1 , x4 et x7 sont données, à titre indicatif, sur la figure
(fig 2.2).
La matrice de corrélation des variables est donnée par :
4.69 0 0 0 0 0 0
0 2.15 0 0 0 0 0
0 0 0.04 0 0 0 0
Λ= 0 0 0 0.04 0 0 0
0 0 0 0 0.03 0 0
0 0 0 0 0 0.02 0
0 0 0 0 0 0 0.00
16 Chapitre 2. Analyse en Composantes Principales Linéaires
0.2
0
x1
−0.2
0.2
0
x5
−0.2
0.5
x7
−0.5
50 100 150 200 250 300 350 400 450 500
Temps
et
10
5
1
t
−5
0 50 100 150 200 250 300 350 400 450 500
5
0
2
t
−5
0 50 100 150 200 250 300 350 400 450 500
1
0
3
t
−1
0 50 100 150 200 250 300 350 400 450 500
0
t4
−1
0 50 100 150 200 250 300 350 400 450 500
0.5
0
t5
−0.5
50 100 150 200 250 300 350 400 450 500
0.5
0
t6
−0.5
50 100 150 200 250 300 350 400 450 500
0.5
0
t7
−0.5
50 100 150 200 250 300 350 400 450 500
Temps
Cependant, pour l’estimation des variables originelles on ne doit conserver que les compo-
santes porteuses d’information significative permettant d’expliquer les différentes variables. Pour
cette raison, la suite de ce chapitre sera consacrée au problème de la détermination de la struc-
ture du modèle ACP, c’est-à-dire, la détermination du nombre de composantes à conserver ou à
retenir dans le modèle.
18 Chapitre 2. Analyse en Composantes Principales Linéaires
La variance du bruit étant inconnue a priori, la décision basée seulement sur le pourcentage de
la variance expliquée est un peu arbitraire. Sa capacité à fournir le nombre correct de composantes
principales dépendra fortement du rapport signal sur bruit.
2.3. Identification du modèle ACP 19
Si les observations constituent un échantillon aléatoire d’individus prélevés dans une popu-
lation normale à m dimensions, on peut tester l’égalité des (m − ℓ) dernières valeurs propres.
Si cette hypothèse est acceptée, on conserve les ℓ premiers axes et on néglige les (m − ℓ) der-
niers axes. Cependant l’utilisation de ce test conduit souvent à considérer un nombre élevé de
composantes, dont certaines risquent de ne présenter aucun intérêt pratique.
Des règles empiriques peuvent également guider l’utilisateur. Une de ces règles consiste à ne
prendre en considération que les composantes pour lesquelles la valeur propre est supérieure à la
moyenne arithmétique de toutes les valeurs propres. En particulier, si on travaille sur les données
centrées réduites, cela revient à négliger les composantes dont la variance est inférieure à l’unité
1
(m trace (Σ) = 1). Dans le cas du modèle ACP calculé à partir de la matrice de covariance Σ, la
1
moyenne arithmétique des valeurs propres est donnée par m trace (Σ).
N X m
1 X (ℓ)
P RESS(ℓ) = (x̂ (k) − xi (k))2 (2.37)
N m k=1 i=1 i
Principe de reconstruction
Le principe de reconstruction consiste à estimer une des variables du vecteur x(k) à un instant
donné, notée xi (k), en utilisant toutes les autres variables xj (k) au même instant à partir du
modèle ACP déjà obtenu. Il existe trois approches différentes de reconstruction qui aboutissent
exactement à la même solution.
x
xi x̂i x̂T
pri
ce
a
esp
P̂
us-
So
zi
P̂ T
xi xT
Cette opération est répétée jusqu’à convergence vers la valeur zi (fig 2.4). Chaque itération
à travers le modèle ACP est une projection orthogonale dans le sous-espace des composantes
principales. Ces itérations peuvent être calculées par l’expression suivante :
(iter) (iter−1)
et zi est la nouvelle valeur de la mesure estimée par l’ACP à partir du vecteur x̂i qui
représente le vecteur x dont la ieme composante a été reconstruite à l’itération précédente.
[ cT−i 0 cT+i ]
zi = x (cii 6= 1) (2.41)
1 − cii
et zi = xi pour cii = 1. Dans ce cas :
ci = [ 0 . . . 1 . . . 0 ]T (2.42)
est la ieme colonne de la matrice identité. Ceci correspond au cas où xi ne serait pas corrélée
avec les autres variables et la variable ne peut donc pas être reconstruite à partir des autres.
sachant que x̂(i) = P̂i t, c’est le vecteur des composantes principales qui minimise le SP E.
³ ´−1
t̂ = P̂iT P̂i P̂iT x(i) (2.45)
P̂−i
· ¸
où P̂i = ∈ ℜ(m−1)×ℓ
P̂+i
La valeur reconstruite de x(i) est :
³ ´−1
zi = ξiT P̂ t̂ = ξiT P̂ P̂iT P̂i P̂iT x(i) (2.46)
La reconstruction, par l’approche itérative, donnée par l’équation (2.41) est équivalente à celle
de l’équation (2.46). La seule différence est que l’approche itérative ne nécessite pas d’inversion
matricielle [14].
22 Chapitre 2. Analyse en Composantes Principales Linéaires
ei = zi − ẑi = 0 (2.53)
Cette propriété de la reconstruction est très intéressante et a été à la base d’une méthode de
localisation de défauts proposée par Dunia et al. [14].
Remarque 2.3.1 Nous avons présenté le principe de reconstruction dans le cas d’une seule
variable, mais il peut être généralisé à la reconstruction de plusieurs variables.
° °2
°ˆ °
°ξi °
ρ̂i = ρ̃i ° °2 (2.63)
°˜ °
°ξi °
Dunia et al. [17] ont montré que ρ̃i est monotone décroissante avec ℓ et ρ̂i tend vers l’infini
pour ℓ = m ; ρi doit nécessairement avoir un minimum dans l’intervalle [1, m]. Il est possible que
le minimum soit pour ℓ = 1 ; toutefois, pour une meilleure reconstruction, ℓ doit être inférieur à
m. La réduction de ρi , en choisissant ℓ, améliore la reconstruction. Donc, un problème d’optimi-
sation peut être formulé où l’objectif est de minimiser ρi par rapport au nombre de composantes
principales ℓ :
Dans ce deuxième exemple, nous allons essayer de nous rapprocher de la réalité (cas pratiques)
en introduisant des non linéarités douces dans l’exemple 1. Nous disposons de dix variables qui
sont décrites par le système d’équations suivant :
x1 = u1 + ε1
x2 = u1 + ε2
x3 = u1 + ε3
x4 = u2 + ε4
x5 = u2 + ε5
(2.66)
x6 = u22 + ε6
x7 = u1 + u22 + ε7
x8 = 5u21 + 3u22 + ε8
x9 = 2u1 + 3u2 + ε9
x10 = u21 + u2 + ε10
Dans l’ensemble des variables simulées, nous avons une redondance directe d’ordre 3 entre
les variables x1 , x2 et x3 et une autre redondance directe d’ordre 2 entre x4 et x5 . Nous avons
également des redondances analytiques linéaires et non linéaires. Les non linéarités ne sont pas
très fortes, comme on peut le constater pour les variables x6 et x8 car les variables sur lesquelles
les non linéarités ont été introduites ont une plage de variation comprise entre −0.25 et +0.25.
Nous disposons de 500 échantillons pour chaque variable, les 300 premiers échantillons ont été
2.3. Identification du modèle ACP 25
0.2
x1
−0.2
0.2
x5
−0.2
−1
50 100 150 200 250 300 350 400 450 500
Temps
utilisés pour l’identification du modèle ACP et le reste des échantillons a été utilisé pour le
diagnostic (fig 2.5).
Les figures (fig 2.6) et (fig 2.7) présentent les résultats de la comparaison entre quatre indices
de sélection du nombre de composantes principales appliqués sur les deux exemples 1 et 2. Le
critère basé sur la variance de l’erreur de reconstruction (variance non reconstruite) est le critère
le plus intéressant pour les objectifs de diagnostic car il tient compte des redondances qui existent
entre les différentes variables en utilisant le principe de reconstruction.
Pour les deux exemples de simulation que nous avons présentés, le critère des valeurs propres
donne le même nombre de composantes que le critère VNR (Variance Non Reconstruite). Ce-
pendant, pour des applications réelles, ce critère a tendance à souestimer le nombre exact de
composantes à retenir dans le modèle ACP [99].
100 4
Valeurs Propres
3
80
PCV
2
60
1
40 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Nombre de Composantes Nombre de Composantes
0.8 4
VNR (variance non reconstruite)
VNR dans l’espace résiduel
0.6 3 VNR dans l’espace principal
PRESS
VNR
0.4 2
0.2 1
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6
Nombre de Composantes Nombre de Composantes
Figure 2.6 – Evolution des différents critères de sélection du nombre de composantes en fonction
du nombre de composantes pour l’exemple 1
d’un modèle avec aucune composante principale. En particulier, ρi (0) = ρ̃i (0) et ρ̂i = 0. Ceci
peut s’expliquer par le fait que l’espace résiduel est de dimension m, ainsi toute la variance est
projetée dans le sous-espace résiduel.
En ajoutant des composantes principales, il est possible que ρi (ℓ) ≥ ρi (0) si la croissance de
ρ̂i est supérieure à la décroissance de ρ̃i . Si la variance non reconstruite ρi (ℓ) est supérieure à
ρi (0), la moyenne x̄ donne une variance non reconstruite pour l’estimation de xi plus faible que
celle obtenue avec ℓ composantes. Donc, Le modèle ACP obtenu à partir des données ne donne
pas une estimation de x meilleure que x̄. Dans ce cas, l’utilisation de x̄ comme valeur reconstruite
est la meilleure solution, qui peut être interprétée comme l’utilisation de zéro composante.
Comme la reconstruction d’une variable dépend des autres variables utilisées dans le modèle
ACP, la qualité d’une reconstruction est d’autant meilleure que la variable reconstruite est plus
corrélée avec les autres variables et la variance de reconstruction est plus petite. Si la ième
variable n’est pas corrélée avec les autres, la variance ρi tend à croître car la valeur ρi est plus
grande que ρi (0). Qin et al. [77] proposent une procédure pour la détermination des m variables
à retenir pour la surveillance et le nombre ℓ de composantes à retenir en utilisant la variance non
reconstruite (fig 2.8).
1. Prendre m le nombre total de variables comme valeur initiale.
m
2. Estimer la matrice de covariance Σ à partir des données. Minimiser la fonction ρi par
P
i=1
rapport à ℓ.
3. Écarter, de l’ensemble des capteurs utilisés pour la surveillance, les variables pour lesquelles
les variances non reconstruites individuelles sont supérieures à ξiT Σξi (qui seront égales à
un si les données sont centrées réduites),
2.3. Identification du modèle ACP 27
100 4
80
Valeurs Propres
3
60
PCV
2
40
1
20
0 0
2 4 6 8 10 2 4 6 8 10
Nombre de Composantes Nombre de Composantes
1.5 30
VNR (variance non reconstruite)
VNR dans l’espace résiduel
VNR dans l’espace principal
1 20
PRESS
VNR
0.5 10
0 0
0 2 4 6 8 10 1 2 3 4 5 6
Nombre de Composantes Nombre de Composantes
Figure 2.7 – Evolution des différents critères de sélection du nombre de composantes en fonction
du nombre de composantes pour l’exemple 2
4. Mettre à jour le nombre des variables utilisées pour la surveillance, si m reste le même, la
procédure d’optimisation est terminée, sinon aller à l’étape 2.
Pour illustrer le principe de cette méthode, considérons l’exemple 2 précédent dans lequel
on a rajouté une variable x11 qui est corrélée avec aucune autre variable. Les résultats sont
représentés sur le tableau (tab 2.1), où le nombre de composantes qui minimise la fonction coût
est ℓ = 3. Pour ce nombre de composantes, on remarque bien que la variance de l’erreur de
reconstruction de la variable x11 est supérieure à ξiT Σξi = 1. Ceci implique que cette variable
est corrélée avec aucune autre variable et ainsi elle est écartée de l’ensemble des variables à
surveiller et on ne conserve que les dix premières variables. Le tableau (tab 5.3) présente les
variances non reconstruites pour l’ensemble des dix variables qui restent. Il montre bien que le
minimum est obtenu pour ℓ = 3 et que les variances individuelles non reconstruites de toutes
les variables calculées en se basant sur un modèle à trois composantes sont toutes inférieures à
1. Ceci implique d’après la procédure de sélection des variables présentée que ces dix variables
seront conservées et peuvent être utilisées pour la surveillance de ce processus.
Une fois le nombre de composantes ℓ déterminé, le modèle ACP est ainsi identifié et la
matrice de donnée X peut être approximée à partir des ℓ premières composantes principales
correspondant aux ℓ plus grandes valeurs propres de la matrice Σ.
ℓ ℓ
Ti pTi = Xpi pTi
X X
X̂ = (2.68)
i=1 i=1
28 Chapitre 2. Analyse en Composantes Principales Linéaires
ℓ : Nombre de composantes
Figure 2.8 – Différentes étapes pour la détermination du nombre de composantes (modèle ACP)
et des variables à surveiller.
ℓ
Sachant que pi pTi = P̂ P̂ T et que l’on notera par Ĉ. L’estimation de X sera donnée par :
P
i=1
X̂ = X Ĉ (2.69)
Les deux figures (fig 2.9) et (fig 2.10) présentent les mesures et les estimations des trois
premières variables de l’exemple 1 et de l’exemple 2, respectivement. Ainsi, les deux modèles
identifiés dans le cas des deux exemples traités donnent une estimation assez correcte des mesures.
2.4 Conclusion
Dans ce chapitre nous avons présenté le principe de l’analyse en composantes principales
linéaires. L’idée de base de l’ACP est de réduire la dimension de la matrice des données, en
retenant le plus possible les variations présentes dans le jeu de données de départ. Cette réduction
ne sera possible que si les variables initiales ne sont pas indépendantes et ont des coefficients de
corrélation entre elles non nuls. Ces variables initiales sont transformées en de nouvelles variables,
appelées composantes principales. Elles sont obtenues par combinaisons linéaires des précédentes
et sont ordonnées et non corrélées entre elles.
2.4. Conclusion 29
Tablem 2.1 – Variances des erreurs de reconstruction des différentes variables avec m = 11 et
P
min ρi (ℓ) = 3
ℓ i=1
Tablem 2.2 – Variances des erreurs de reconstruction des différentes variables avec m = 10 et
P
min ρi (ℓ) = 3
ℓ i=1
Mesure
0.2
Estimation
0
x1
−0.2
0
x5
−0.2
−0.5
50 100 150 200 250 300 350 400 450 500
Temps
Figure 2.9 – Evolution des mesures et des estimations des trois variables x1 , x4 et x7 de l’exemple
1
Mesure
0.2 Estimation
x1
−0.2
−0.2
−1
50 100 150 200 250 300 350 400 450 500
Temps
Figure 2.10 – Evolution des mesures et des estimations des trois variables x1 , x5 et x9 de l’exemple
2
32 Chapitre 2. Analyse en Composantes Principales Linéaires
Détection et localisation de défauts par Analyse en
3
Composantes Principales
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Détection de défauts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1 Génération de résidus par estimation d’état . . . . . . . . . . . . . . . . 35
3.2.2 Génération de résidus par estimation paramétrique . . . . . . . . . . . . 56
3.3 Localisation de défauts . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1 Localisation par structuration des résidus . . . . . . . . . . . . . . . . . 60
3.3.2 Localisation utilisant un banc de modèles . . . . . . . . . . . . . . . . . 69
3.3.3 Localisation par calcul des contributions . . . . . . . . . . . . . . . . . . 85
3.3.4 Localisation de défauts multiples . . . . . . . . . . . . . . . . . . . . . . 92
3.4 Identification des caractéristiques du défaut . . . . . . . . . . . . . . 97
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.1 Introduction
Récemment, les méthodes de détection et de localisation de défauts reposant sur l’analyse
en composantes principales linéaires (ACP) ont reçu une attention particulière et ont été large-
ment utilisées pour la surveillance des processus industriels [63, 87, 69, 98]. Le principe de cette
approche est d’utiliser l’analyse en composantes principales pour modéliser le comportement du
processus en fonctionnement normal et les défauts sont alors détectés en comparant le compor-
tement observé et celui donné par le modèle ACP. La plupart des méthodes récentes utilisent
l’erreur quadratique de prédiction SP E et la statistique de Hotteling T 2 pour la détection de
défauts sur les mesures [57, 55, 14, 97, 63, 113, 76, 27, 18]. Toutefois ces deux indices de détec-
tion jouent des rôles différents dans la stratégie de surveillance par ACP. La statistique T 2 décrit
le comportement des variables du processus qui sont corrélées avec les composantes principales
tandis que la statistique SP E dépend de toutes les variables à surveiller. Cependant, le SP E
33
34 Chapitre 3. Détection et localisation de défauts par ACP
est un test global qui cumule les erreurs de modélisation présentes sur chaque résidu [31] et la
statistique T 2 est calculée à partir des premières composantes principales qui ne représentent pas
des résidus de plus que les conditions d’utilisation de cette statistique sont rarement vérifiées [4].
Pour améliorer les capacités de détection de la méthode d’analyse en composantes principales,
un test basé sur les dernières composantes principales a été proposé [31].
Pour localiser la (ou les) variable en défaut, plusieurs méthodes de localisation de défauts
utilisant l’analyse en composantes principales ont été proposées ces dix dernières années.
Inspirée des méthodes de localisation à base de redondances analytiques, la localisation de
défauts utilisant la structuration des résidus à partir d’un modèle ACP a été récemment déve-
loppée [25]. Une extension de cette approche, maximisant la sensibilité des résidus structurés
aux défauts, a été proposée par Qin et al. [79]. Gertler et al. [26] utilisent une structuration
particulière des résidus appelée ACP partielle. L’inconvénient majeur de cette approche est qu’il
n’y a pas de méthode systématique permettant de choisir les ACP partielles . De plus, on est
souvent confronté au problème de l’insensibilité des résidus à certains défauts, ce qui donne dans
la plupart des cas des fausses localisations.
La méthode proposée par Dunia et al. [14] basée sur le principe de reconstruction est détaillée.
Cette méthode est basée sur l’indice SP E pour la localisation. Elle suppose que chaque capteur
peut être suspecté est reconstruit. Après la reconstruction de chaque variable un SP E est calculé.
La comparaison du SP E avant et après reconstruction permet de définir la variable incriminée.
Une approche largement utilisée pour la localisation avec l’ACP consiste à calculer les contri-
butions individuelles des variables à l’indice de détection (T 2 ou SP E) [55, 113, 68, 108]. La
variable ayant la plus forte contribution à l’indice considéré est la variable incriminée.
Cependant, comme les deux statistiques T 2 et SP E ne sont pas utilisés pour la détection,
nous avons exploité les principes des deux méthodes de localisation utilisant le principe de re-
construction et le calcul des contributions pour les appliquer à l’indice de détection proposé.
Ainsi, concernant la méthode de localisation par reconstruction, le principe consiste à re-
construire chaque variable et de comparer l’indice proposé avant et après reconstruction. La
reconstruction de la variable en défaut permet d’éliminer l’effet du défaut et l’indice de détection
calculé après reconstruction de cette variable ne présente pas de dépassement de son seuil de dé-
tection. Ainsi, la variable incriminée peut être localisée par simple test sur les différents indices
calculés après la reconstruction des différentes variables.
Pour la localisation en utilisant le calcul des contributions des variables à l’indice proposé,
nous avons proposé deux définitions de ces contributions. La première définition exploite le fait
que l’indice proposé est un SP E particulier calculer sur un sous-espace de l’espace résiduel et
donc nous utilisons une définition similaire a celle donnée dans le cas du SP E. Puisque l’indice
proposé peut être exprimé en fonction des dernières composantes, la seconde définition calcul
les contributions des variables aux composantes intervenants dans le calcul de l’indice proposé
ayant subit une variation significative due à la présence d’un défaut.
Ce chapitre a pour but de présenter le principe de détection et localisation de défauts basé
sur l’analyse en composantes principales linéaires.
La deuxième section de ce chapitre présentera le principe de détection utilisant l’analyse en
composantes principales. Ainsi, les deux approches de générations de résidus (estimation d’état et
estimation paramétrique) seront exposées. Dans un premier temps nous présenterons les indices
de détection utilisés dans le cas de l’approche par estimation d’état ainsi que l’indice de détection
proposé. Ensuite une présentation de l’approche de détection par estimation paramétrique sera
exposée.
Les différentes approches de localisation basée sur l’ACP seront présentées dans la troisième
section. Dans le cadre de l’ACP, les deux approches les plus populaires, sont basées sur les prin-
3.2. Détection de défauts 35
ℓ ℓ
Ti pTi = Xpi pTi
X X
X̂ = (3.1)
i=1 i=1
Notons que la matrice des vecteurs propres et la matrice des composantes principales peuvent
chacune être décomposées en deux sous-matrices P = [P̂ P̃ ] et T = [T̂ T̃ ]. Les deux premières
sous-matrices P̂ et T̂ représentent les matrices des ℓ premiers vecteurs propres et les ℓ premières
composantes principales, respectivement. Les deux sous-matrices P̃ et T̃ représentent les matrices
des (m − ℓ) vecteurs propres et les (m − ℓ) dernières composantes principales, respectivement.
36 Chapitre 3. Détection et localisation de défauts par ACP
T = XP = X [ P̂ P̃ ] (3.2)
Sachant que Σ = P ΛP T , la matrice de covariance des données transformées Σt est donnée
par :
Σt = P T ΣP = P T P Λ = Λ (3.3)
A partir de l’équation (3.2), on peut écrire :
T̂ = X P̂ (3.4)
et
X̂ = T̂ P̂ T (3.5)
T̂ représente la projection de X sur les ℓ premiers vecteurs propres de la matrice de covariance
Σ et T̃ représente la projection de X sur les (m − ℓ) derniers vecteurs propres.
T̃ = X P̃ (3.6)
et
X̃ = T̃ P̃ T (3.7)
où X̃ représente la matrice des résidus notée E.
On en déduit la décomposition suivante de la matrice X :
X = X̂ + X̃ = X̂ + E (3.8)
Les matrices X̂ et X̃ représentent, respectivement, les variations modélisées et non modélisées
de X. La matrice d’erreur est calculée par :
E = X C̃ (3.9)
et
X̂ = X Ĉ (3.10)
où Ĉ = P̂ P̂ T et C̃ = (I − Ĉ).
Pour un nouveau vecteur de mesure x à un instant donné k, les équations précédentes de-
viennent :
et
t̃(k) = [tℓ+1 , ..., tm ]T (3.14)
3.2. Détection de défauts 37
x̂(k) = Ĉx(k) représente le vecteur des mesures estimées et e(k) = (I − Ĉ)x(k) représente le
vecteur des erreurs d’estimation (fig 3.1). Cette relation est très intéressante pour la surveillance
des processus, en effet, on peut calculer l’erreur quadratique SP E(k) (squared prediction error),
connue aussi sous le nom de statistique Q, comme :
t1
t2 x̂
P̂
x tℓ
P
tℓ+1
e
P̃
tm
x = x̂ + x̃ (3.18)
où
x̂ = Cx ∈ Sp̂ (3.19)
est la projection du vecteur dans le sous-espace des composantes principales, et
38 Chapitre 3. Détection et localisation de défauts par ACP
x̃ = (I − Ĉ)x ∈ Sr (3.20)
est la projection dans le sous-espace des résidus.
Sr
(Dimension (m − ℓ))
x̃ = e
ℜm
x
x̂
Sp̂
(Dimension ℓ)
p̂
B = P̃ T (3.29)
Ainsi la matrice B permettant la génération de résidus dans le cadre des relations de parité
est équivalente à la matrice P̃ T dans cas de l’ACP.
Avant d’aborder les différents indices de détection, nous allons montrer les expressions des
résidus en présence d’un défaut d quelconque sur la j eme variable du processus à surveiller. Notons
par x∗ (k) le vecteur des mesures à l’instant k en absence de défaut et ξj la direction du défaut.
Ainsi on peut écrire que :
e(k) = C̃x(k)
c̃11 c̃12 . . c̃1m
c̃
21 . .
= . . . (x∗ (k) + ξj d(k))
. . .
c̃m1 . . . c̃mm
(3.31)
c̃1j
c̃2j
.
= e∗ (k) + d(k)
.
.
c̃mj
40 Chapitre 3. Détection et localisation de défauts par ACP
où e∗ représente le vecteur des résidus en absence de défaut qui sont statistiquement nuls. Ainsi,
le défaut d se propage dans tout les résidus, et plus précisément un défaut dj affectant la variable
xj se propage dans le résidu ei avec une amplitude c̃ij dj .
De la même façon nous allons voir l’effet du défaut sur les composantes principales. Les
premières composantes principales à l’instant k peuvent être données par l’équation suivante :
t̂(k) = P̂ T x(k)
T
p11 p12 p1ℓ
p21 . .
. . .
= (x∗ (k) + ξj d(k))
. . .
. . .
pm1 . . . . pml (3.32)
pj1
pj2
.
∗
= t̂ (k) + d(k)
.
.
pjℓ
Ainsi, le défaut se propage dans toutes les composantes avec un amplitude pji d affectant la
ieme composante (i = 1, ..., ℓ). Il faut noter que ce vecteur est statistiquement non nul.
De même pour les dernières composantes qui sont données par :
t̃(k) = P̃ T x(k)
T
p1,ℓ+1 p1,ℓ+2 p1,m
p . .
2,ℓ+1
. . .
= (x∗ (k) + ξj d(k))
. . .
. . .
pm,ℓ+1 . . . . pm,m (3.33)
pj,ℓ+1
p
j,ℓ+2
.
= t̃∗ (k) + d(k)
.
.
pjm
La leme composante est affectée par un défaut d’amplitude pjl d (l = ℓ + 1, ..., m) et t̃∗ (k) est
statistiquement nul.
3.2.1.1 Statistique SP E
Une statistique typique pour détecter ces conditions anormales est la statistique SP E, appelée
aussi Q (Squared Prediction Error) qui est donnée par l’équation :
Puisque ke∗ (k)k2 représente le SP E(k) dans les conditions normales, ke∗ (k)k ≤ δ définit la
région de confiance. Donc on peut écrire :
42 Chapitre 3. Détection et localisation de défauts par ACP
¯ ¯
¯˜ ¯
ke(k)k ≥ ¯d(k)¯−δ (3.42)
2δ
x̃∗
dξ˜i
Sr
x̃
Pour garantir la détectabilité du défaut avec la condition : SP E(k) = ke(k)k2 > δ 2 , il faut
que (fig 3.3) :
¯ ¯
¯˜ ¯
¯d(k)¯ > 2δ (3.43)
ℓ(N + 1)(N − 1)
χ2ℓ,α = Fℓ,(N −ℓ),α (3.45)
N (N − ℓ)
Le processus est supposé en défaut (déviation anormale), à l’instant k, si :
Puisque la statistique T 2 n’est pas affectée par le bruit, qui est représenté par les dernières
valeurs propres, théoriquement elle est capable de représenter le comportement normal du pro-
cessus. La statistique T 2 peut être interprétée comme la mesure des variations normales du
processus, et la violation du seuil de détection de cette statistique indique que ces variations sont
en dehors des limites de contrôle et correspondent à un fonctionnement anormal.
° °2 ° °2
° −1/2 T ° −1/2
T 2 (k) = °Λℓ P̂ x(k)° = °Λℓ P̂ T P̂ P̂ T x(k)° (3.47)
° °
° ³ ´°2
° −1/2
= °Λℓ P̂ T P̂ P̂ T x∗ (k) + P̂ P̂ T ξi d(k) °
°
° ³ ´°2 ° °2 ° °2
° −1/2 T ° −1/2 ° −1/2
T 2 (k) = °Λℓ P̂ x̂∗ (k) + ξˆi d(k) ° ≥ °Λℓ P̂ T ξˆi d(k)° − °Λℓ P̂ T x̂∗ (k)° (3.48)
° ° °
° °2
° −1/2 T ∗
Puisque °Λℓ P̂ x̂ (k)° ≤ χ2ℓ,α , pour garantir que T 2 (k) > χ2ℓ,α , il faut avoir :
°
° °
° −1/2 T ˆ
°Λℓ P̂ ξi d(k)° ≥ 2χℓ,α (3.49)
°
Un autre indice de détection SW E (Squared Weighted Error), plus sensible au défaut [109],
peut être défini comme le SP E pondéré par l’inverse de la variance des dernières composantes,
et n’est en fait que la statistique T 2 appliquée aux dernières composantes :
où Λ(m−ℓ) = diag {λℓ+1 , ..., λm } est une matrice diagonale contenant les (m − ℓ) dernières valeurs
propres de la matrice de corrélation Σ.
Cet indice suit une distribution du chi-2 avec (m − ℓ) degrés de liberté :
Il est important de noter que cet indice n’impose aucune supposition sur la distribution des
variables du processus x, mais il suppose que les résidus t̃(k) = P̃ T x(k) sont des bruits blancs
gaussiens centrés.
44 Chapitre 3. Détection et localisation de défauts par ACP
λ1 0
µ ¶
Λ2 = (3.54)
0 λ2
on peux écrire :
Région des N OC
T2
t1
Détecter par T 2
t2
NOC : Normal Operating Conditions
Figure 3.4 – Illustration graphique de la détection de défaut par les deux statistiques SP E et T 2
Les deux statistiques permettent de déterminer une région de fonctionnement normal limitée
par l’ellipse que définit le seuil χ2α de la statistique T 2 et le seuil δα2 du SP E. Théoriquement,
cette zone représente, pour chaque échantillon, la zone de fonctionnement normal et toute mesure
qui se trouve à l’extérieur de cette zone est jugée en défaut.
Yue and Qin [115] proposent la formulation suivante de ce nouvel indice :
SP E(k) T 2 (k)
ζ(k) = + 2 = xT (k)Mx(k) (3.56)
δα2 χℓ,α
où M est donné par :
³ ´
I − P̂ P̂ T P̂ Λ−1 T
P̃ P̃ T P̂ Λ−1 T
ℓ P̂ ℓ P̂
M= + = + (3.57)
δα2 χ2ℓ,α δα2 χ2ℓ,α
3.2. Détection de défauts 45
λj est la j eme valeur propre de la matrice ΣM et le nombre de degrés de liberté pour le χ2 est
donné par :
à !2
m
P
λj
j=1 (trace (ΣM))2
h= m = (3.60)
P
λ2j trace (ΣM)2
j=1
SP E(k) T 2 (k)
υ(k) = ς + (1 − ς) (3.62)
δα2 χ2ℓ,α
où ς ∈ [0, 1] est une constante. Cette statistique indique un fonctionnement normal si elle est
inférieure à 1, sinon la présence d’un défaut est suspectée.
β = γI (3.65)
où γ est un facteur d’oubli. L’équation (3.63) équivaut à filtrer les données, puis à calculer les
résidus. D’où :
n o n ³ ´o
Σ̄ = E x̄(k)x̄T (k) = E ((1 − γ) x̄(k − 1) + γx(k)) (1 − γ) x̄T (k − 1) + γxT (k)
n o n o
= (1 − γ)2 E x̄(k − 1)x̄(k − 1)T + γ 2 E x(k)x(k)T
n o (3.68)
+2 (1 − γ) E x(k)x̄(k − 1)T
= 1 − 2γ + γ 2 Σ̄ + γ 2 Σ
¡ ¢
γ
Σ̄ = Σ (3.69)
2−γ
où Σ est la matrice de covariance de x(k) et Σ̄ la matrice de covariance de x̄(k). Comme consé-
quence, les valeurs propres de Σ̄ et Σ sont reliées par :
γ
λ̄i = λi pour i = 1, ..., m (3.70)
2−γ
Donc, un raisonnement similaire à celui de Jackson [46], permet d’écrire :
#h̄
kē(k)k2
" " #
h̄0 − 1 2θ̄2 h̄20
¡ ¢
∼ N 1 + θ̄2 h̄0 , (3.71)
θ̄1 θ̄12 θ̄12
m ³ ´i m ´i
γ
³
λ̄ij = λij = γ pour i = 1, 2, 3.
P P
θ̄i = 2−γ 2−γ
θi
j=ℓ+1 j=ℓ+1
2θ̄1 θ̄3 2θ1 θ3
puisque, h̄0 = 1 − 3θ̄32
= 1− 3θ22
= h0 , la distribution dans l’équation (3.71) peut être
simplifiée comme :
#h̄
kē(k)k2
" " #
θ2 h0 (h0 − 1) 2θ2 h20
∼N 1+ , (3.72)
θ̄1 θ12 θ12
La statistique SP E filtrée est :
q h1
cα 2θ2 h20 θ2 h0 (h0 − 1)
0
γ
δ̄α2 = δ2 (3.75)
2−γ α
Cette équation relie la statistique SP E filtrée à celle du SP E non filtrée par une constante.
Le SP E définit une région de confiance plus étroite que celle du SP E à cause du filtrage.
Il faut noter que le filtrage peut être appliqué aux autres indices de détection. Nous l’avons
présenté uniquement dans le cas du SP E pour des raisons que nous verrons ultérieurement.
Pour montrer l’intérêt du filtrage, nous allons considérer l’exemple 1.
Sur la figure (fig 3.5), on présente l’évolution du SP E et SP E obtenue à partir de l’exemple
1 avec un défaut affectant la variable x3 à partir de l’instant 300 avec une amplitude qui s’élève à
environ 20% de la plage de variation de cette variable. Le filtrage permet d’améliorer la détection,
mais il introduit un certain retard à la détection. La figure (fig 3.6) présente l’évolution de T 2
avec le même défaut sur la variable x3 . A partir de cette figure, on peut constater que le défaut
n’est pas détectable sur T 2
Le tableau (tab 3.1) présente les résultats de détection avec l’indice SP E filtré (fig 3.7) pour
différents défauts simulés sur différentes variables de l’exemple 1. di représente le défaut sur la
ieme variable et kd est l’instant d’apparition du défaut.
a
Les défauts simulés représentent, respectivement : un biais d1 d’une amplitude de 20% de la plage de variation
de la variable x1 , une dérive d4 variant entre 0.8% et 150% et qui a été détectée une fois atteint une amplitude de
11% de la plage de variation de x4 , une défaillance complète d7 d’amplitude 23% de la plage de variation de x7 .
Il faut noter qu’aucun de ces défauts n’a été détecté par la statistique T 2 . En réalité, la
statistique T 2 telle qu’elle a été définie dans le cas de l’ACP ne peut être utilisée comme un
indice pour la détection de défaut. Nous constatons en fait que les premières composantes prin-
cipales, qui interviennent dans le calcul de la statistique T 2 , ne sont pas des résidus. Les résidus
sont représentés par les dernières composantes principales comme le montre la figure (fig 2.3)
représentant l’évolution des composantes principales de l’exemple 1.
Concernant l’indice SW E et d’après l’équation (3.51), cet indice n’est défini que si les der-
nières valeurs propres sont non nulles. Ainsi, si les valeurs propres sont nulles voire de faibles
valeurs (ce qui est souvent le cas), cet indice n’est pas défini.
48 Chapitre 3. Détection et localisation de défauts par ACP
1.5
Seuil à 95%
Seuil à 99%
1
SPE
0.5
0
200 220 240 260 280 300 320 340 360 380 400
Temps
0.6
0.3
0.2
0.1
0
200 220 240 260 280 300 320 340 360 380 400
Temps
10
9
Seuil à 95%
8 Seuil à 99%
6
T2
0
200 220 240 260 280 300 320 340 360 380 400
Temps
Figure 3.6 – Evolution de la statistique T 2 avec un défaut affectant x3 à partir de l’instant 300.
3.2. Détection de défauts 49
0.2
Biais
SPE Filtré
0.1
0
300 310 320 330 340 350 360 370 380 390 400
0.2
Dérive
SPE Filtré
0.1
0
250 260 270 280 290 300 310 320 330 340 350
0.2
Défaillance complète
SPE Filtré
0.1
0
250 260 270 280 290 300 310 320 330 340 350
Temps
Figure 3.7 – Evolution des SP E filtrés correspondant aux différents défauts simulés et représentés
sur le tableau (tab 3.1).
4 Seuil à 95%
Seuil à 99%
3
SPE
0
0 50 100 150 200 250 300 350 400 450 500
Temps
1
0.6
0.4
0.2
0
0 50 100 150 200 250 300 350 400 450 500
Temps
4.5
4 Seuil à 95%
Seuil à 99%
3.5
2.5
SPE
1.5
0.5
0
0 50 100 150 200 250 300 350 400 450 500
Temps
Figure 3.9 – Evolution du SP E avec un défaut affectant la variable x3 à partir de l’instant 300
3.2. Détection de défauts 51
1.4
Seuil à 95%
Seuil à 99%
1.2
0.8
SPE Filtré
0.6
0.4
0.2
0
0 50 100 150 200 250 300 350 400 450 500
Temps
Figure 3.10 – Evolution du SP E avec un défaut affectant la variable x3 à partir de l’instant 300
Ainsi, le Di (k) est un indice de détection de défaut calculé à partir des dernières composantes
principales t̃(k) à la différence de l’indice T 2 qui est calculé à partir des premières composantes.
m
En analysant l’expression de Di et en tenant compte du fait que t2j (k) = SP E(k) est
P
j=ℓ+1
calculé avec un modèle ACP à ℓ composantes, l’indice Di correspond à un SP E calculé avec un
modèle ACP à (m − i) composantes principales.
2 de cet indice peuvent être calculés, avec un raisonnement
De ce fait, les seuils de détection τi,α
semblable à celui de Box [5], par :
2
τi,α = g (i) χ2h(i) ,α (3.77)
où
m m
,
(i) (i) (i)
λ2j
X X
g = θ2 /θ1 = λj (3.78)
j=m−i+1 j=m−i+1
2 ,
m m
2(i) (i)
h(i) = λ2j
X X
θ1 /θ2 = λj (3.79)
j=m−i+1 j=m−i+1
Pour améliorer la détection, on utilise le filtre EWMA (3.63). Dans le cas de cet indice de
détection, les dernières composantes filtrées sont données par l’équation suivante :
52 Chapitre 3. Détection et localisation de défauts par ACP
Les seuils de détection des indices D̄i seront calculés comme dans le cas du SP E (3.75), par :
2 γ
τ̄i,α = τ2 (3.82)
2 − γ i,α
Il faut noter que, dans le cas où ces seuils de détection τi (i = 1, 2, ..., (m − ℓ)), correspondant
aux différents indices Di , ne sont pas adéquats, ils peuvent être déterminés par apprentissage
pendant la phase d’identification (en absence de défauts).
Ainsi, la procédure de détection proposée peut se résumer par :
1. Appliquer l’ACP sur les données pour déterminer le modèle ACP, soit T̂ ∈ ℜℓ .
2. Calculer l’indice D̄i (i = 1, ..., (m − ℓ)) (3.81) et déterminer les seuils de détection τ̄i pour
chaque indice.
3. Surveiller le processus en utilisant la procédure de détection basée sur les différents sous-
espace résiduels :
(a) Pour chaque mesure à l’instant k, sélectionner le sous-espace résiduel pour i = 1
(b) Calculer D̄i (k)
Si D̄i (k) > τ̄i2 aller à (c),
sinon i = i + 1, aller à (b),
répéter jusqu’à ce que i = m − ℓ
Fin de la procédure de détection.
(c) Procédure de localisation.
L’exemple choisi pour illustrer cette procédure de détection sera l’exemple 2. Un modèle ACP
à trois composantes a été retenu. Un défaut affectant la variable x3 avec une amplitude de 20%
de la plage de variation de cette variable a été simulé. Le défaut simulé est un biais introduit
à partir de l’instant 300. La figure (fig 3.9) présente l’évolution du SP E, tandis que la figure
(fig 3.10) présente l’évolution du SP E. Le défaut apparaît nettement mieux sur le SP E filtré
que sur le SP E. Comme nous l’avons déjà expliquer, à cause du taux de fausses alarmes élevé
que présente le SP E filtré, une augmentation du seuil s’impose mais dans ce cas le défaut ne
peut pas être détecté.
Par contre, en utilisant l’indice D̄i , le défaut est détecté sur l’indice D̄3 comme le montre la
figure (fig 3.11).
Un autre défaut a été simulé sur la variable x9 à partir de l’instant 350, avec une amplitude
d’environ 22% de la plage de variation de cette variable. La figure (fig 3.12) présente l’évolution
du SP E en présence du défaut. A cause des erreurs de modélisation, la détection de ce défaut est
impossible. En appliquant la méthode de détection proposée, le défaut est détecté avec l’indice
D̄1 (fig 3.13).
Une comparaison quantitative entre les indices SP E et Di est effectuée en exploitant les
conditions suffisantes de détection des deux indices. Dans le cas du SP E, l’amplitude minimale
3.2. Détection de défauts 53
0.6
Seuil de détection
0.5
0.4
D Filtré
0.3
3
0.2
0.1
0
50 100 150 200 250 300 350 400 450 500
Temps
Figure 3.11 – Evolution de l’indice D3 filtré avec un défaut affectant la variable x3 à partir de
l’instant 300
0.9
Seuil à 95%
0.8 Seuil à 99%
0.7
0.6
SPE Filtré
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250 300 350 400 450 500
Temps
Figure 3.12 – Evolution du SP E avec un défaut affectant la variable x9 à partir de l’instant 350
54 Chapitre 3. Détection et localisation de défauts par ACP
0.4
0.35
0.3
0.25
D1 Filtré
0.2
0.15
0.1
0.05
0
50 100 150 200 250 300 350 400 450 500
Temps
Figure 3.13 – Evolution de l’indice D̄1 avec un défaut affectant la variable x9 à partir de l’instant
350
du défaut affectant la j eme variable et vérifiant la condition suffisante de détectabilité est donnée
par :
2δ
dj = °
°˜ °
° (3.83)
°ξj °
(i) 2τi
dj = ° °
° ˜(i) ° (3.84)
°ξj °
(i)
où dj est l’amplitude du défaut affectant la j eme variable et vérifiant la condition suffisante de
détectabilité avec l’indice Di (i = 1, ..., (m − ℓ)).
(i)
ξj = (I − Ĉi )ξj , Ĉi = P̂ (i) P̂ (i)T et P̂ (i) est formé par les i derniers vecteurs propres de la matrice
Σ.
Le tableau (tab 3.2) présente les résultats du calcul des amplitudes minimales de défauts
vérifiant les conditions suffisantes de détectabilité, dans le cas de l’exemple 1, pour les deux
indices SP E et Di respectivement.
Le tableau (tab 3.3) présente les résultats du calcul des amplitudes minimales de défauts
vérifiant les conditions suffisantes de détectabilité, dans le cas de l’exemple 2, pour les deux
indices SP E et Di respectivement.
Il est clair que les amplitudes de défauts détectées par les indices Di sont, dans la plupart
des cas, nettement inférieures à celles détectées par le SP E.
3.2. Détection de défauts 55
d1 d2 d3 d4 d5 d6 d7
SP E 0.80 0.80 0.80 0.92 0.92 0.80 0.79
D1 1.55 3.91 1.43 0.57 0.69 0.11 0.12
D2 0.55 0.52 0.62 0.62 0.60 0.19 0.19
D3 0.53 0.79 0.88 0.64 0.64 0.40 0.40
D4 0.69 0.64 0.98 0.81 0.82 0.60 0.60
Table 3.2 – Les amplitudes de défaut affectant les différentes variables et vérifiant la condition
suffisante de détectabilité dans le cas du SP E et des indices Di pour l’exemple 1.
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
SP E 5.87 5.85 5.85 6.03 5.99 6.93 5.88 7.62 5.77 6.11
D1 0.29 0.29 0.29 0.78 0.96 1.92 0.29 8.46 0.28 1.22
D2 0.52 0.53 0.52 0.83 1.07 3.16 0.52 3.21 0.51 0.54
D3 0.82 0.82 0.82 0.85 0.85 4.94 0.82 4.95 0.80 0.85
D4 1.22 1.24 1.22 3.27 4.02 8.05 1.22 35.44 1.19 5.12
D5 1.93 1.96 1.92 3.08 3.96 11.70 1.93 11.87 1.89 2.01
D6 2.57 2.58 2.57 2.66 2.66 15.48 2.59 15.52 2.53 2.68
Table 3.3 – Les amplitudes de défauts affectant les différentes variables et vérifiant la condition
suffisante de détectabilité dans le cas du SP E et des indices Di pour l’exemple 2.
Dans le deuxième exemple (tab 3.3), on constate que l’écart entre les amplitudes vérifiant la
condition de détectabilité dans le cas de D6 et le SP E est beaucoup plus important que celui de
l’exemple 1 (tab 3.2).
En analysant les expressions des deux indices, on constate que l’indice SP E est égal à l’indice
D6 en ajoutant la composante t24 . Ainsi, on peut dire que dans le deuxième exemple on a plus
d’incertitudes de modélisation et que la composante t4 est porteuse de ces incertitudes qui font
que le SP E a une amplitude de défaut vérifiant la condition de détectabilité plus grande.
Si on définit la sensibilité ϑi de l’indice Di par rapport au SP E comme le rapport des
amplitudes des défauts vérifiant la condition de détectabilité dans le cas de l’indice Di et de
l’indice SP E pour la même variable :
dj
ϑi = (i)
(3.85)
dj
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
ϑ1 20.24 20.17 20.17 7.73 6.23 3.60 20.27 0.90 20.60 5.00
ϑ2 11.28 11.03 11.25 7.26 5.59 2.19 11.30 2.37 11.31 11.31
ϑ3 7.15 7.13 7.13 7.09 7.04 1.40 7.17 1.53 7.21 7.18
ϑ4 4..81 4.71 4.79 1.84 1.49 0.86 4.81 0.21 4.84 1.19
ϑ5 3.04 2.28 3.04 1.85 1.51 0.59 3.04 0.64 3.08 3.03
ϑ6 2.28 2.26 2.27 2.26 2.25 0.44 2.27 0.49 2.28 2.27
Table 3.4 – Sensibilité des indices Di aux défauts affectant les différentes variables par rapport
au SP E pour l’exemple 2.
où pi (k) est la ieme direction principale calculée à l’instant k et pi0 représente la ieme direction de
référence, pTi (k) pi0 représente le cosinus de l’angle entre les deux vecteurs. Pour l’application de
la méthode de détection proposée, les vecteurs pi0 de référence représentant le fonctionnement
normal, les seuils de détection et les tailles des fenêtres glissantes utilisées pour le calcul des
nouvelles directions pi (k) doivent être déterminés. Ainsi, la procédure suivante est adoptée :
1. appliquer l’ACP pour modéliser le comportement du processus en fonctionnement normal
sur un jeu d’identification et déterminer les directions pi0 de référence,
3.2. Détection de défauts 57
P̂ (k + 1)
P̂ (k)
P̂ = [p10 p20 ...pℓ0 ]
k
k+1
Figure 3.14 – Principe de la génération de résidus par estimation paramétrique dans le cas de
l’ACP
où w est un bruit centré et a = 0.8, b = 1, c = 0.7, d = 1. La figure (fig 3.15) présente l’évolution
des deux variables y et u en fonctionnement normal, 2000 échantillons ont été générés. Un défaut
d’environ 13% sur le paramètre a a été simulé, le nouveau paramètre est a = 0.7 à partir de
l’instant 1000. La figure (fig 3.16) présente l’évolution de la variable y en présence du défaut.
Pour la détection du défaut, nous avons calculé dans un premier temps les deux indices T 2 et
SP E qui sont représentés sur la figure (fig 3.17), sachant qu’une seule composante a été retenue
par le modèle ACP. On constate que le défaut simulé n’est pas détecté par les deux indices. La
figure (fig 3.18) présente l’évolution de l’indice de détection In1 en absence et en présence du
défaut, la taille de la fenêtre glissante utilisée est de 130 point. A partir de cet exemple simple
nous avons montré les capacités de détection de l’indice Ini par rapport aux autres indices de
détection.
58 Chapitre 3. Détection et localisation de défauts par ACP
10
5
y
0
−5
−10
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
0
u
−2
−4
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
Figure 3.15 – Evolution des deux variables y et u en absence de défaut
10
5
y
−5
−10
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
Figure 3.16 – Evolution de la variable y avec un changement de 13% sur le paramètre a à l’instant
1000.
Le principal inconvénient de cet indice est qu’il introduit un retard à la détection qui dépend
directement de la taille de la fenêtre glissante utilisée.
3.3. Localisation de défauts 59
2.5
1.5
SPE
0.5
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
6
2
T
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
Figure 3.17 – Evolution de T 2 et de SP E en présence du défaut
−3
x 10
4
1
In
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
0.025
0.02
0.015
1
In
0.01
0.005
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps
Figure 3.18 – Evolution de l’indice de détection In1 en absence et en présence de défaut
wiT B i = 0 (3.90)
où B i représente une matrice regroupant les colonnes de la matrice B correspondant à des zéros
dans la ieme ligne de la matrice d’incidence.
d1 d2 d3 d4
r1 0 1 1 0
r2 0 0 1 1
r3 1 0 0 1
r4 1 1 0 0
Table 3.5 – Exemple d’une matrice de signature théorique dans le cas de quatre résidus
De plus, pour ne pas avoir un zéro non voulu dans l’une des lignes de la matrice de struc-
turation, c’est-à-dire pour que le résidu ne soit pas découplé d’un défaut qui apparaît avec un 1
sur l’une des lignes de la matrice de signatures théoriques, la condition :
³ ´
rang [ B i bj ] = rang B i + 1 (3.92)
doit être vérifiée pour toutes les colonnes bj de la matrice B qui n’appartiennent pas à B i .
B = P̃ T (3.95)
Ainsi, l’équation (3.89) peut s’écrire dans ce cas sous la forme :
³ ´
r(k) = W t̃(k) = W t̃∗ (k) + P̃ T d(k) (3.96)
Donc, on doit chercher une matrice W telle que pour obtenir un zéro à l’intersection de la
ieme ligne et la j eme colonne de la matrice de signatures théoriques, on doit avoir : wiT pj = 0 où
pj représente la j eme colonne de la matrice P̃ T . Soit l’exemple 1 précédent, avec m = 7 et ℓ = 2.
La matrice de signatures théoriques (d’incidence) est donnée par (tab 3.6) :
d1 d2 d3 d4 d5 d6 d7
r1 1 0 0 0 1 1 1
r2 1 1 0 0 0 1 1
r3 1 1 1 0 0 0 1
r4 1 1 1 1 0 0 0
r5 0 1 1 1 1 0 0
r6 0 0 1 1 1 1 0
r7 0 0 0 1 1 1 1
0.41 0.24 −0.67 0.38 −0.40 −0.00 −0.01
−0.36 0.70 −0.36 −0.35 0.33 0.00 0.03
P̃ T = 0.60 −0.30 −0.30 −0.48 0.47 0.00 0.00
−0.31 −0.32 −0.27 −0.26 −0.27 0.45 0.60
−0.67 0 0 0 −0.37 0.13 0.62
−0.69 0.63 0 0 0 −0.21 0.26
−0.50 −0.30 0.80 0 0 0 0.00
(3.98)
−0.50 −0.30 0.80 0.00
r(k) = 0 0 0 x(k)
0 −0.53 0.53 −0.45 0.45 0 0
0 0 −0.36 0.43 −0.69 0.44 0
0 0 0 0.70 −0.70 −0.01 0.00
Pour illustrer cette méthode, des défauts ont été simulés sur les différentes variables (un
défaut simple à la fois) d’une amplitude d’environ 20% de la plage de variation de la variable
considérée et les résidus obtenus sont représentés sur la figure (fig 3.19). A partir de cette figure,
on constate de nombreuses fausses alarmes sur les résidus. De plus, les signatures expérimentales
de certains défauts sont dégradées (exemple des défauts d4 , d6 et d7 ).
Pour améliorer la qualité des résidus structurés, Qin et al. [79] proposent de maximiser la
sensibilité de ces derniers aux défauts.
0 0.15
0.05 0.05 0.05 0 0.4
0.1
r filtré
−0.3 −0.05 0
−0.6 −0.1 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.1 0.1
0
0.4 0 0.2
r filtré
−0.2 0 0 0 0.1
0.2 −0.1
−0.4
2
−0.2 0
0 −0.1 −0.1 −0.1
−0.6 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.1 0.1 0.1
0 0.6
0
r filtré
−0.1 0.4
−0.2 0 0 0 0
−0.2 0.2
3
−0.4 −0.3 0
−0.1 −0.1 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.1 0.1 0.1
0 0.6
0
r filtré
−0.1 0.4
−0.2 0 0 0 0
−0.2 0.2
4
−0.4 −0.3 0
−0.1 −0.1 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.4 0.1 0.1
0 0.4 0
r filtré
−0.4 0 0
−0.1 −0.4 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.4 0 0.4 0.1
0
0.05 0.05 0.05
r filtré
−0.1 −0.2
0 0 0.2 0.2 0
−0.2 −0.4
6
0.4 −0.2
0 0 0 0 0
0.2 −0.4
7
Figure 3.19 – Evolution des différents résidus filtrés des défauts affectant les différentes variables
(exemple 1)
" #
h i x (k)
gi
t̃(k) = Bx(k) = Bgi Bḡi (3.103)
xḡi (k)
Le ieme résidu structuré (i ∈ gi ) est :
ri (k) = wiT t̃(k) = wiT Bgi xgi (k) + wiT Bḡi xḡi (k) (3.104)
La structuration nécessite que ri (k) soit insensible aux défauts dans xgi mais plus sensible
aux défauts dans xḡi . Mathématiquement, wi doit être choisi comme :
° °2
J = max °wiT Bḡi ° (3.105)
° °
wi
∂L
= Bḡi BḡTi wi + Bgi λ + µwi = 0 (3.107)
∂wi
∂L
= BgTi wi = 0 (3.108)
∂λ
∂L ³ ´
= 1
2 wiT wi − 1 = 0 (3.109)
∂µ
En multipliant l’équation (3.107) à gauche par wiT et en tenant compte de (3.109), on obtient :
³ ´−1
λ = − BgTi Bgi BgTi Bḡi BḡTi wi (3.112)
Le report des équations (3.110) et (3.112) dans l’équation (3.107) nous donne :
³ ´−1 ³ ´ ³ ´
Bḡi BḡTi wi − Bgi BgTi Bgi BgTi Bḡi BḡTi wi − wiT Bḡi BḡTi wi wi = 0 (3.113)
µ µ ³ ´−1 ¶ ³ ´ ¶
Bḡi BḡTi I − Bgi BgTi Bgi BgTi − wiT Bḡi BḡTi wi I wi = 0 (3.114)
µ ³ ´−1 ¶
Posons : A = Bḡi BḡTi et Q = I − Bgi BgTi Bgi BgTi
³ ´
AQ − wiT Awi I wi = (AQ − αI) wi = 0 (3.115)
Rappelons que l’on cherche wi qui maximise le critère J, ainsi wi est le vecteur propre de la
matrice AQ correspondant à la plus grande valeur propre.
La différence entre la méthode de structuration avec maximisation de la sensibilité aux défauts
et la méthode conventionnelle de structuration des résidus peut être illustrée géométriquement.
66 Chapitre 3. Détection et localisation de défauts par ACP
b1
B
w1c
Sw1
b2
A w1b
Sw2
La figure (fig 3.20) montre le cas de deux défauts capteurs b1 et b2 dans un espace tridimensionnel.
Les plans orthogonaux à b1 et b2 sont notés par Sw1 et Sw2 , respectivement, qui passent par la
même droite AB. L’approche avec maximisation de la sensibilité aux défauts cherche à trouver w1b
dans le plan Sw1 qui a l’angle le plus petit avec b2 (le plus sensible). L’approche conventionnelle
de structuration de résidus peut choisir w1c arbitrairement dans le plan Sw1 . Un cas possible
pour le choix de w1c est qu’il soit colinéaire avec AB ce qui rend l’isolation des défauts b1 et b2
impossible.
Pour illustrer cette méthode, nous allons considérer l’exemple 1 avec la même matrice de
signatures théoriques précédente (tab 3.6).
La matrice B = P̃ T contient cinq colonnes (m − ℓ = 5) et gi contient trois indices. Avec les
conditions wiT Bgi = 0 pour i ∈ gi et kwi k = 1, la matrice de transformation W est donnée par :
Ainsi le vecteur des résidus structuré résultant, est donné par l’expression suivante :
3.3. Localisation de défauts 67
A partir de cette équation, on constate que cette approche de maximisation, pour cet exemple,
n’a rien apporté de plus par rapport à l’approche classique. Certains coefficients de la matrice
W B = W P̃ T sont améliorés alors que d’autres sont devenus plus petits qu’avant. On constate
aussi que, par exemple, les deux défauts d6 et d7 ne sont pas localisables car ils ont la même
signature expérimentale (fig 3.21).
−0.2
0 0.05 0 0 0 0.2 −0.4
2
0
−0.05 −0.05 −0.05 −0.05 0 −0.6
−0.05
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.1 0.1 0.1
0 0.6
0
r filtré
−0.1 0.4
−0.2 0 0 0 0
−0.2 0.2
3
−0.4 −0.3 0
−0.1 −0.1 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.3 0.1 0.1 0.1 0.1
0.4 0
0.2
r4 filtré
−0.2
0.2 0.1 0 0 0 0
−0.4
0 0
−0.6 −0.1 −0.1 −0.1 −0.1
−0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.4 0.1 0.1
0 0
0.4
r filtré
0 −0.3 −0.4
0
−0.1 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.1 0.1 0.1 0.6 0.1 0.1
0
0.05
r filtré
0.4 −0.2
0 0 0 0
0 0.2 −0.4
6
−0.05
−0.1 −0.1 0 −0.6 −0.1 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.04 0.04 0.04 0.04 0.6 0
0.02 0.02 0.02 0 0.02 0.4
r filtré
−0.2
0 0 0 −0.05 0
0.2
7
Figure 3.21 – Evolutions des différents résidus structurés filtrés pour des défauts affectant les
différentes variables (exemple 1)
Considérons l’exemple 2. La matrice d’incidence, indiquant les occurrences des variables dans
les différents résidus ainsi que l’influence des défauts sur les résidus, est donnée par :
68 Chapitre 3. Détection et localisation de défauts par ACP
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
r1 1 0 0 0 0 0 1 1 1 1
r2 1 1 0 0 0 0 0 1 1 1
r3 1 1 1 0 0 0 0 0 1 1
r4 1 1 1 1 0 0 0 0 0 1
r5 1 1 1 1 1 0 0 0 0 0
r6 0 1 1 1 1 1 0 0 0 0
r7 0 0 1 1 1 1 1 0 0 0
r8 0 0 0 1 1 1 1 1 0 0
r9 0 0 0 0 1 1 1 1 1 0
r10 0 0 0 0 0 1 1 1 1 1
et
0.6 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2
0.4 0.1 0.1 0.1 0.1 0.1 0 0.1 0.1
0.1
−0.2 0
1
0.2 0 0 0 0 0 0
r
−0.4 0
0 −0.1 −0.1 −0.1 −0.1 −0.1 −0.1 −0.1
−0.6 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.6
0.1 0.3
0.4 0 0.1 0.1 0.1 0.1 0.1 0 0.2
0.2 0 0.1
2
−0.2 0 0 0 0 0 −0.2
r
0 −0.1 0
−0.4 −0.1 −0.1 −0.1 −0.1 −0.1 −0.4 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.6 0.1
0 0 0.1 0.1 0.1 0.1 0.1 0.1
0.4 0
0 0 0 0 0 0
3
−0.2 0.2
r
−0.2 −0.1
0 −0.1 −0.1 −0.1 −0.1 −0.1 −0.2 −0.1
−0.4 −0.4
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.6
0 0 0.1 0.1 0.1 0.1 0.1 0.1 0.1
0.4
0 0 0 0 0 0 0
4
−0.1
0 −0.1 −0.1 −0.1 −0.1 −0.1 −0.1
−0.4 −0.4 −0.2
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.6 0.1 0 0.1 0.1 0.1 0.1 0.1 0.1 0.1
0.4 0
−0.2 0
5
0.2 −0.1 0 0 0 0 0 0
r
0.2
r
0.2
r
−0.4 −0.1 0
−0.1 −0.1 −0.1 0 −0.1 −0.1 −0.1
−0.6 −0.2 −0.1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.5
0.5 0.5 0.5 0.5 0.5 1 0.5 0.5 0.5
0.5 0
0 0 0 0 0 0 0
8
0
r
0 −0.5
−0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5
−1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
1 0.5
0.5 0.5 0.5 0.5 1 0.5 0.5 0.5
0.5 0
0.5 0
0 0 0 0 0 0
9
0
r
0 −0.5
−0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5 −0.5
−1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.5 1
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0 0.5 0
0 0 0 0 0 0
10
−0.5 0
r
0 −0.5
−0.5 −0.5 −0.5 −0.5 −0.5 −1 −0.5 −0.5
−0.5 −1
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
Temps Temps Temps Temps Temps Temps Temps Temps Temps Temps
Figure 3.22 – Evolution des différents résidus structurés (filtrés avec un filtre EWMA, γ = 0.1)
pour des défauts affectant les différentes variables (exemple 2)
est piloté par toutes les entrées (sorties), sauf la ieme et toutes les sorties (entrées). La sortie de
cet observateur est donc sensible aux défauts de toutes les entrées (sorties) sauf ceux de la ieme
[20, 65]. Ainsi, on retrouve trois approches.
calculant les ACP partielles ainsi que les seuils de détection des indices correspondants (fig 3.23).
Procédure de structuration des résidus
1. Appliquer l’ACP à la matrice des données.
2. Construire une matrice d’incidence fortement localisable (Matrice de signatures théoriques).
3. Construire un ensemble de modèles d’ACP partielles, chacune correspondant à une ligne
de la matrice d’incidence (prendre les variables ayant un 1 sur cette ligne).
4. Déterminer les seuils pour la détection des défauts (seuil τi2 sur l’indice SP Ei ).
Matrice de ACP 1
données Modèle 1
partielles 1
du système
Matrice de ACP q
données Modèle q
partielles q
Modèle ACPP
Matrice
d’incidence
données Modèle 1
Partielles 1 SP E1 Seuil1
données Modèle 2
Partielles 2 SP E2 Seuil2
Nouvelles
données
données Modèle q
Partielles q SP Eq Seuilq
Modèle
ACPP
Localisation du défaut
T
X−j = T−j P−j + E−j (j = 1, 2, ..., m) (3.122)
La statistique SP E(k) est ainsi donnée, à l’instant k, par :
³ ´
SP E−j (k) = xT−j (k) Im−1 − P̂−j P̂−j
T
x−j (k) (3.123)
où x−j (k) désigne le vecteur x(k) à l’instant k, après élimination de la j ieme variable, P̂−j
représente la matrice P̂ du modèle ACP dont la j eme ligne est éliminée. Cette procédure est
répétée en éliminant une variable à chaque fois. La quantité définie par Qr qui représente le
2
rapport entre le SP E−j et le seuil correspondant que l’on notera δα,−j [46] est ainsi calculée
pour les m modèles :
3.3. Localisation de défauts 73
0.2 0.1
0.2 0.2
0.005 0.005 0.005 0.05
0 0 0 0 0 0 0
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.4 0.3 0.4
0.4 0.015 0.015 0.015
0.2
2
0 0 0 0 0 0 0
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.8 0.8
0.8
0.6 0.6 0.6 0.2 0.2 0.2 1
3
SPE
1 1 1 2
0.5 0.5 0.5 1 0.5 0.5 0.5
0 0 0 0 0 0 0
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
0.4 0.4 0.4
0.015 0.4 0.015 0.015
SPE5
0.2
SPE
0.2 0.2
0.005 0.005 0.005 0.2
0.1 0.1
0 0 0 0 0 0 0
200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400 200 300 400
Temps Temps Temps Temps Temps Temps Temps
Figure 3.25 – Evolutions des différents SP E correspondant aux ACP partielles des différents
défauts (exemple 1)
SP E−j
Qr = 2 (3.124)
δα,−j
La variable éliminée, pour laquelle la valeur du rapport Qr est la plus petite, est considérée
comme la variable incriminée.
Cependant cette approche présente un inconvénient majeur que nous allons illustrer par
l’exemple 1. La figure (fig 3.26) présente les différents résidus en absence de défaut. On constate
que indices de détection SP Ei sont entachés d’erreur de modélisation et présentent un taux de
fausses alarmes très élevé. En fait, l’élimination d’une ligne de la matrice P̂ crée un déséquilibre
dans les équations permettant de générer les résidus (dans le cas où les équations sont équilibrées,
les résidus générés sont statistiquement nuls).
Si, par contre, on augmente les seuils de détection de façon à ne plus être sensible à ces
erreurs, on arrive à localiser la variable incriminée. Pour illustrer ce cas, un défaut sur la variable
x1 d’une amplitude d’environ 20% de la plage de variation de cette variable, a été simulé entre
les instants 350 et 500. Le résultat de l’application de l’algorithme d’élimination pour localiser
la variable en défaut est représenté sur les figures (fig 3.27) et (fig 3.28).
Il faut noter que cet exemple simple (exemple 1) a été choisi pour illustrer le principe de la
74 Chapitre 3. Détection et localisation de défauts par ACP
0.2 0.2
−1
SPE−2
SPE
0.1 0.1
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.2
−3
SPE−4
0.2
SPE
0.1
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
−5
SPE−6
0.2
SPE
0.2
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps
−7
0.2
SPE
0
200 250 300 350 400 450 500
Temps
Figure 3.26 – Evolution des différents SP E obtenus par la méthode d’élimination en absence de
défauts.
méthode. Comme le SP E est sensible aux erreurs de modélisation, il est souhaitable d’adapter
cette approche à l’indice de détection proposé et qui a été décrit au début de ce chapitre.
Ainsi, reprenant l’exemple 2 avec un défaut affectant la variable x3 . Il faut rappeler ici que ce
défaut a été détecté avec l’indice D3 (fig 3.11). L’application de la procédure proposée par Stork
[89] sur l’indice D3 (utilisant un modèle à m − 3 composantes au lieu de ℓ composantes) permet
de localiser la variable x3 . La figure (fig 3.29) présente l’évolution des différents indices D3 (qui
ne sont en fait que des SP E calculer à partir d’un modèle à (m − 3) composantes). L’élimination
de la variable x3 permet d’avoir un indice qui n’est pas affecté par le défaut, ce qui indique que
la variable considérée est la variable incriminée.
GTj = [ ξ1 ξ2 . . . gj . . . ξm ] (3.125)
1
où gjT = 1−cjj [ cT−j 0 cT+j ].
3.3. Localisation de défauts 75
0.2 0.5
SPE−1
−2
SPE
0.1
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5
SPE−3
−4
0.5
SPE
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
SPE−5
−6
0.5 0.5
SPE
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps
0.5
SPE−7
0
200 250 300 350 400 450 500
Temps
Figure 3.27 – Evolution des différents SP E obtenus par la méthode d’élimination avec un défaut
affectant la variable x1 à partir de l’instant 350 avec seuils modifiés
1.4
1.2
1
r
0.8
Rapport Q
0.6
0.4
0.2
0
1 2 3 4 5 6 7
Variables
0.5
3,−1
3,−2
0.5
D
D
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.2 0.5
3,−3
D3,−4
0.1
D
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
3,−5
3,−6
D
D
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
D3,−8
3,−7
D
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
3,−9
D3,−10
D
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps Temps
Résidus H Description
e1 (I − Ĉ) Mesures - Estimations par le modèle
e2 I − ĈGj Mesures - Estimations par le modèle des mesures
reconstruites
e3 Gj − Ĉ Mesures reconstruites - Estimations par le mo-
dèle
e4 I − Gj Mesures - Mesures reconstruites
e5 (I − Ĉ)Gj Mesures reconstruites - Estimations des mesures
reconstruites
Table 3.8 – Description des différents expressions de H utilisées pour définir les résidus
A partir des différentes expression de H, nous pouvons écrire les équations des différents
résidus en présence d’un défaut affectant la ieme variable.
résidu quelle que soit la variable reconstruite.
A partir de l’expression du vecteur des résidus e2 , il est clair que le défaut se propage dans chaque
e1 = I − Ĉ x = C̃ (x∗ + ξi d)
0 . ..01 cm1 . . . cmm
. 1 0
0 . . . 0 . .0 1
³
= C̃x∗ + c̃1i c̃2i . . . c̃mi
(3.129)
µ ¶
c21j
c1j cj,j−1 c1,j cj,j+1 c1j cjm
1 − c11 + 1−cjj . . −cj−1,1 − 1−cjj 0 −cj+1,1 − 1−cjj .. −c1m − 1−cjj
´
. . . .
. . . .
h
. . . .
cjj cj1 cjj cj,j−1 cjj cj,j+1 cjj cjm ∗
−cj1 − . . −cj−1,j − 1 −cj+1,j − −cjm −
=
1−cjj 1−cjj 1−cjj 1−cjj
(x + ξi d)
. . . .
. . . .
iT
. . . .
d
µ ¶
cmj cj1 c2mj
−cm1 − 1−cjj .. . 0 . . . 1 − cmm + 1−cjj
(3.128)
77
78 Chapitre 3. Détection et localisation de défauts par ACP
De même pour le vecteur des résidus e3 , le défaut se propage dans tous les résidus même si
la variable en défaut est la variable reconstruite (i = j).
e4 = (I − Gj ) x = (I − Gj ) (x∗ + ξi d)
1 0 . . . . 0
1 0 . . . 0 0 1 0 .
. . .
0 1. .
.
. .
. . . .
cj1 cj,j−1 cj,j+1 cjm
= − . . 1−c 0 1−c . . 1−c (x∗ + ξi d)
1−c
. . . jj jj jj jj
. . .
. . 0
. . .
0 . ..01
. 1 0
0 . . . . . .0 1 (3.131)
0 .. 0 . . .. 0
. . . .
. . . .
. . . .
cj1 cj,j−1 cj,j+1 cjm
∗
− 1−cjj . . − 1−cjj 1 − 1−cjj − 1−cjj (x + ξi d)
=
. . . .
. . . .
. . . .
0 .. . 0 . .. 0
3.3. Localisation de défauts 79
(3.132)
(x + ξi d)
(x + ξi d)
∗
∗
1−cjj
1−cjj . . 1−cjj
c2mj
cjm
0
1 0
1
c1j cjm
.
.
.
1−cjj
. . (1 − cmm ) −
.0
.
−c1m −
0
.
.
.
.
.
.
cj,j+1
0
.
.
.
.
cj,j−1
1−cjj
1
.
.
.
..
..
.
c1j cj,j+1
10
.
. .
1−cjj
0
1−cjj .
cj1
1
0
0
.
.
.
.
.
0 −c1,j+1 −
.
.
.
−cm−1,m
. . −cm,m−1 1 − cmm
−c1m
.
.
.
0
.
.
.
.
.
.
c1j cj,j−1
1−cjj
e5 = (I − C) Gj x = (I − C) Gj (x∗ + ξi d)
.
.
. . −c1,j−1 −
.
.
.
cjj
.
1 −
..
..
.
.
11 −c12 .
.
−c21 1 − c22
1−cjj
c21j
cmj cj1
1−c11
.
.
(1 − c11 ) −
−cm1 −
0
.
.
.
.
.
.
−cm1
j1
1−c
−c
.
.
=
=
L’expression du vecteur des résidus e5 est très intéressante, car si la variable en défaut (la ieme )
est la variable reconstruite (i = j), le défaut est éliminé et aucun résidu n’est affecté.
Pour les différentes expression des ei (i = 1, ..., 5), nous supposons que la reconstruction
s’effectue dans la direction du défaut (i = j). Nous pouvons constater que le défaut se propage
dans les résidus e1 , e2 , e3 , e4 et qu’il est éliminé de e5 (3.132). La figure (fig 3.30) présente les
différents indices calculés à partir de l’exemple 1 avec un défaut affectant la variable x1 .
La propriété de cet indice est très importante car elle est à la base d’une méthode de locali-
sation de défaut proposée par Dunia et al. [14].
80 Chapitre 3. Détection et localisation de défauts par ACP
2
1
Res
1
0
350 360 370 380 390 400 410 420 430 440 450
2 Temps
2
Res
1
0
350 360 370 380 390 400 410 420 430 440 450
0.5 Temps
3
Res
0
350 360 370 380 390 400 410 420 430 440 450
2 Temps
4
Res
1
0
350 360 370 380 390 400 410 420 430 440 450
0.5 Temps
5
Res
0
350 360 370 380 390 400 410 420 430 440 450
Temps
Rappelons que x̃ = e, d˜j est l’estimation du défaut dans la direction ξj projeté dans le sous-espace
˜
résiduel et que ξ˜j◦ = ξ/kξk.
SP E − SP Ej = d˜2j (3.134)
SP Ej d˜2j
ηj2 =
=1− (3.135)
SP E SP E
où SP E est calculé avant reconstruction et SP Ej est calculé après la reconstruction de la valeur
du j eme capteur.
On peut rencontrer les trois situations suivantes :
1. le j eme capteur est en défaut et le ieme est reconstruit :
3.3. Localisation de défauts 81
³ ´2 ³ ³ ´´2 ³ ´2
ξ˜j◦ T x̃ ξ˜j◦ T x̃∗ + d˜ξ˜i◦ ξ˜j◦ T x̃∗
ηj2 = 1 − =1− =1− ° (3.136)
kx̃k2
° °2 °2
°x̃ + d˜ξ˜i◦ ° °x̃ + d˜ξ˜i◦ °
° ∗ ° ° ∗ °
l’indice ηj peut prendre des valeurs entre zéro et un, et en particulier ηj = 0 si x̃∗ = kx̃∗ k ξ˜j◦ .
Donc, l’indice ηj ne peut pas être utilisé pour la détection mais uniquement pour la localisation.
La figure (fig 3.31) présente l’évolution de l’indice de localisation pour les différentes variables
dans le cas de l’exemple 1, avec un défaut affectant la variable x1 à partir de l’instant 400. L’indice
correspondant à la variable x1 est proche de zéro ce qui indique que c’est la variable incriminée.
0.9
0.8
Indice de Validité de Capteur (IVC)
0.6 Indice de x1
0.5
0.4
0.3
0.2
0.1
0
350 360 370 380 390 400 410 420 430 440 450
Temps
Figure 3.31 – Indices de validité de capteur filtrés avec un défaut affectant x1 entre les instants
400 et 500
82 Chapitre 3. Détection et localisation de défauts par ACP
e = p m tm (3.139)
où tm est la dernière composante principale et pm est le dernier vecteur propre. Rappelons que
pm = [p1m p2m ...pmm ]T , alors tous les résidus sont identiques à un facteur pim près. Ainsi, si on
reconstruit dans n’importe quelle direction le résidu correspondant est nul et ej représentant
l’erreur de reconstruction de la variable j est nul ∀ j. D’où la condition nécessaire de localisation
par reconstruction donnée par :
(m − ℓ) ≥ 2 (3.140)
Pour illustrer cette condition nous allons supposer que la dimension de l’espace résiduel est
1
(m − ℓ) = 1 et que nous avons le dernier vecteur propre suivant : p̃T = √a2 +b 2 +c2
[ a b c ]. Les
différentes directions de défauts dans le cas d’un processus tridimensionnel sont données par :
1 0 0
[ ξ1 ξ2 ξ3 ] = 0 1 0
0 0 1
a2 ab ac
T 1 ab b2 bc = √
1
C̃ = p̃p̃ = 2 2 2
[ ap̃ bp̃ cp̃ ]
(a + b + c ) 2 a2 + b2 + c2
ac bc c
1
[ ξ˜1 ξ˜2 ξ˜3 ] = C̃ [ ξ1 ξ2 ξ3 ] = √ [ ap̃ bp̃ cp̃ ]
a2 + b2 + c2
Après normalisation, nous obtenons l’équation suivante :
°³ ´ °2
SP Ei = ° I − ξ˜i◦ ξ˜i◦T x̃°
° °
°³ ´ °2
SP Ei = ° I − p̃p̃T p̃° kx̃k2 = 0
° °
3.3. Localisation de défauts 83
³ ´
car I − p̃p̃T p̃ = 0
Ainsi, SP Ei = 0 pour toutes les directions ∀ kx̃k.
De plus, si les défauts dans deux directions i et j sont tels que ξ˜i◦ = ±ξ˜j◦ , alors on aura :
°³ ´ °2 °³ ´ °2
SP Ej = ° I − ξ˜j◦ ξ˜j◦T x̃° = ° I − ξ˜i◦ ξ˜i◦T x̃° = SP Ei
° ° ° °
h i 2
(j)
m m cT−j 0 cT+j
t2l (k) = T (x∗ (k) + ξf d(k))
X X
Di (k) = p diag (ζj ) + ξj
l 1 − cjj
l=m−i+1 l=m−i+1
(3.145)
Le développement de l’expression à l’intérieur de la somme permet d’écrire :
à !
[ cT 0 cT+j ]
pTl diag (ζj ) + ξj −j (x∗ (k) + ξf d(k)) =
1 − cjj
84 Chapitre 3. Détection et localisation de défauts par ACP
à !
[ cT 0 cT+j ]
pTl diag (ζj ) + ξj −j x∗ (k) (3.146)
1 − cjj
à !
[ cT 0 cT+j ]
+pTl diag (ζj ) ξf + ξj −j ξf d(k)
1 − cjj
(j)
Ainsi, l’expression finale de l’indice Di est donnée par :
h i 2
cT 0 cT
m −j +j
P
p T diag (ζ ) + ξ x∗ (k) pour j = f
l j j 1−cjj
l=m−i−1
h i 2
(j)
Di (k) = cT−j 0 cT+j (3.148)
T diag (ζ ) + ξ x∗ (k)
p
j j
l 1−cjj
m
pour j 6= f
P
h i
cT−j 0 cT+j
l=m−i+1
+pTl diag (ζj ) ξf + ξj
ξf d(k)
1−cjj
(j)
(j) D̄ (k)
Ai (k) = i2 (3.149)
τ̄i,α
2 est le seuil de détection du D̄ .
où τ̄i,α i
(j)
Si la variable j est la variable incriminée alors l’indice Ai sera inférieur à 1 :
3.3. Localisation de défauts 85
( (j)
6 f
Ai > 1 pour j =
(j) (3.150)
Ai ≤ 1 pour j = f
Pour l’exemple 2, en appliquant la procédure de localisation par reconstruction à l’indice de
détection D̄3 sur lequel on a détecté le défaut affectant la variable x3 , les résultats sont représentés
(3)
sur la figure (fig 3.32). L’indice A3 (indice calculé après reconstruction de la variable x3 ) est en
dessous du seuil de détection ce qui indique que la variable x3 est la variable incriminée (fig 3.33).
De même pour le défaut affectant la variable x9 et qui a été détecté avec l’indice D̄1 , la figure
(fig 3.34) présente l’évolution de l’indice D1 après reconstruction des différents variables et la
(j) (j) (9)
figure (fig 3.35) présente l’indice A1 calculé à partir de l’indice D̄1 . L’indice A1 est inférieur
à 1, ce qui indique que la variable x9 est la variable incriminée.
0.5 0.5
D(1)
D(2)
3
3
0 0
0.1200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5
D(3)
D(4)
0.05
3
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
D(5)
D(6)
3
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
D(7)
D(8)
3
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.5 0.5
D(10)
D(9)
3
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps Temps
Figure 3.32 – Evolution des différents indices D3 filtrés après reconstruction des différents va-
riables (exemple 2)
1.5
1
A(j)
3
0.5
0
1 2 3 4 5 6 7 8 9 10
Variables
(j)
Figure 3.33 – Indices A3 et localisation de la variable en défaut x3
0.5 0.5
D(1)
D(2)
1
0 0
0.5200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(3)
D(4)
1
0 0
0.5200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(5)
D(6)
1
0 0
0.5200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(7)
D(8)
1
0 0
0.05200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(10)
D(9)
1
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps Temps
Figure 3.34 – Evolution des différents indices D1 filtrés après reconstruction des différents va-
riables (exemple 2)
3.3. Localisation de défauts 87
1.5
1
A(j)
1
0.5
0
1 2 3 4 5 6 7 8 9 10
Variables
(j)
Figure 3.35 – Indices A1 et localisation de la variable en défaut x9
contSP
j
E
(k) = (ej (k))2 = (xj (k) − x̂j (k))2 (3.151)
où xj (k) est le j eme
élément du vecteur de mesures x.
Si on considère le vecteur de mesures suivant dont la ieme composante est affectée par un
défaut d :
x = x∗ + ξi d (3.152)
Le vecteur des résidus peut être obtenu par l’équation suivante :
³ ´
e(k) = I − P̂ P̂ T x(k) = C̃ (x∗ (k) + ξi d(k)) (3.153)
Le SP E peut être calculé par :
m
SP E(k) = eT (k)e(k) = e2j (k)
X
(3.154)
j=1
Ainsi, les contributions de toutes les variables sont affectées par le défaut.
Cette dernière expression peut être utilisée pour le calcul des contributions à l’indice proposé
D̄i (3.81). En tenant compte du fait que :
m
t̄2j (k) = SP E (i) (k)
X
D̄i (k) = (3.157)
j=m−i+1
où SP E (i) (k) est l’erreur quadratique filtrée calculée à partir d’un modèle ACP à (m − i) com-
posantes, ce qui nous permet d’écrire :
m
D̄i (k) = ēT(i) ē(i) = ē2j,(i) (k)
X
(3.158)
j=1
où e(i) est le vecteur des résidus obtenu à partir d’un modèle ACP avec ℓ = (m − i) composantes
et ej,(i) (k) est le j eme élément de e(i) (k). Ainsi, nous définissons les contributions des variables
au D̄i (k) par :
contD̄ 2
j (k) = ej,(i) (k)
i
(3.159)
La variable ayant la plus forte contribution par rapport aux autres variables est considérée
comme la variable en défaut.
Le résultat de l’application de l’analyse des contributions aux indices de détection D̄3 et
D̄1 , sur lesquels les défauts affectant, respectivement, les variables x3 et x9 (exemple 2) ont été
détectés, est illustré sur les deux figures (fig 3.36) et (fig 3.37)
0.04
0.02
0.035
0.018
0.03
0.016
0.025 0.014
Contributions
Contributions
0.012
0.02
0.01
0.015 0.008
0.006
0.01
0.004
0.005
0.002
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Variables Variables
Figure 3.36 – Contributions des variables à l’in- Figure 3.37 – Contributions des variables à l’in-
dice D̄3 avec un défaut affectant x3 dice D̄1 avec un défaut affectant x9
Comme l’expression de l’indice Di peut être exprimée en fonction des dernières composantes
principales (3.76), la deuxième définition que nous proposons est basée sur le calcule des contri-
butions des variables aux composantes principales. Dans un premier temps nous allons présenter
les définitions des contribution à la statistique T 2 car ces définition utilisent les contribution aux
composantes principales.
Chaque composante s’exprime comme suit :
m
ti (k) = pTi x(k) =
X
pij xj (k) (3.160)
j=1
Comme la statistique T 2 n’est pas utilisée comme un indice de détection, le calcul des contri-
butions à cette statistique n’a pas d’intérêt particulier. Cependant, nous allons le présenter à
titre indicatif et l’exploiter pour calculer les contributions des variables à l’indice de détection
Di que nous avons proposé. Plusieurs auteurs se sont intéressés au calcul des contributions à la
statistique T 2 [113, 55, 68, 108].
Wise et Gallagher [113] proposent d’évaluer les contributions des variables à la statistique
T 2 . En utilisant l’équation (3.160), la contribution globale des variables à la iieme composante
³ ´2
ti
principale normalisée σi est définie par :
m
ti (k) X
conti (k) = pij xj (k) (3.161)
σi2 j=1
√
où pij est la j eme composante du vecteur propre pi et σi = λi .
On approxime la contribution d’une variable xj à cette composante principale normalisée
ti (k) 2
³ ´
σi par :
ti (k)
contij (k) = pij xj (k) (3.162)
λi
La contribution totale de la variable xj (k) à la statistique T 2 , à l’instant k, sera donnée par
l’équation :
ℓ
X
Contj (k) = contij (k) (3.163)
i=1
A partir de cette formule de calcul des contributions, on peut remarquer que chaque contri-
bution dépend des termes croisés de la variable considérée avec les autres variables. Ainsi, cette
définition ne représente pas vraiment la contribution de la variable à la statistique T 2 mais une
simple approximation, vue que la contribution exacte ne peut pas être calculée.
Kourti et al. [55] proposent une utilisation simultanée des composantes principales et des
contributions des variables initiales. Lors de la détection d’un défaut, ils proposent d’analyser les
composantes principales normalisées ayant subi une variation significative. La contribution totale
de la variable xj (k) sur les q composantes les plus élevées (parmi les ℓ premières) est donnée par :
q
X
Contj (k) = contij (k) (3.164)
i=1
p4 p5 p6 p7 p8 p9 p10
−0.017 0.445 −0.189 0.737 −0.045 0.023 −0.002
−0.039 0.564 −0.077 −0.664 −0.126 0.002 0.003
−0.059 −0.267 0.068 −0.060 0.807 −0.216 −0.021
0.030 0.162 0.687 0.061 0.002 0.015 0.013
0.079 −0.167 −0.679 −0.077 0.006 −0.007 −0.007
−0.773 0.171 −0.061 0.017 0.102 −0.044 −0.005
−0.191 −0.417 0.075 −0.023 −0.212 0.675 0.311
0.554 0.249 −0.038 −0.010 0.303 0.320 0.192
0.145 −0.207 0.067 −0.004 −0.226 0.001 −0.819
0.152 −0.218 0.059 0.016 −0.362 −0.626 0.440
Table 3.9 – Matrice des derniers vecteurs propres de la matrice de corrélation de l’exemple 2
Cependant, on remarque bien que les différentes expressions de contij (k) (contribution de
la variable j à la composante i) dépendent directement de l’amplitude de la variable xj et du
coefficient pij . De ce fait, on ne peut mettre des seuils sur les contributions, que ce soit dans le
cas du T 2 ou du SP E, car ces contributions dépendent directement des amplitudes des variables.
Ainsi, la localisation des variables en défaut, par analyse des contributions consiste à considérer
les variables ayant la plus grande contribution à l’indice de détection comme des variables en
défaut.
Les définitions des contributions données précédemment sont appliquées aux premières com-
posantes principales. Pour les exploiter dans le cas de notre indice, il faut les appliquées aux
dernières composantes. Ainsi, pour tester l’application de ces définition à notre indice de détec-
tion Di , nous allons simuler un défaut (exemple 2) de telle sorte que la variable en défaut soit
proche de zéro, ce qui peut toujours arriver (panne totale d’un capteur). Le défaut est simulé sur
la variable x1 de l’exemple 2 entre les instants 430 et 500 avec une amplitude d’environ 20% de
la plage de variation de cette variable.
La figure (fig 3.38) présente l’évolution des variables x1 , x2 et le défaut affectant x1 , le défaut
a été détecté sur l’indice D4 à l’instant 434 (fig 3.39). Le calcul des contributions à D4 à cet
instant est présenté sur les figures (fig 3.40) et (fig 3.41). Prenons par exemple le cas de l’approche
de Kourti et al. [55], la variable qui contribue le plus à cet indice est la variable x2 alors que c’est
x1 qui est en défaut (fig 3.40). Pour préciser ce point, analysons l’expression de l’indice D4 :
D4 (k) = t210 (k) + t92 (k) + t28 (k) + t27 (k) (3.166)
A partir de cette expression et an analysant la matrice des derniers vecteurs propres (tab 3.9),
il est claire que tous les coefficients avec lesquels x1 intervient dans le calcul des composantes
t10 , t9 et t8 sont très faibles. Ainsi, le défaut est porté par la composante t7 car le vecteur p7
(septième colonne de la matrice des vecteurs propres) (tab 3.9) est à la base de la détection avec
l’indice D4 puisque les coefficients correspondant aux variables x1 et x2 sont les plus significatifs
sur ce vecteur.
On remarque bien que les coefficients des deux variables x1 et x2 sont presque égaux et de
signes opposés puisque les deux variables sont corrélées, ce qui explique en fait qu’en absence de
défaut les projections des deux variables sur le vecteur p7 se compensent. La présence d’un défaut
affectant l’une des variables est facilement détectable par projection sur ce vecteur (incohérence
de la relation entre les deux variables). Cependant, le calcul des contributions dépend directement
3.3. Localisation de défauts 91
0
x
−0.1
−0.2
0.2
0
2
x
−0.2
Figure 3.38 – Evolution des deux variables x1 et x2 avec un défaut affectant x1 à l’instant 430
et détecté à l’instant 434.
0.6
0.5
0.4
D Filtré
0.3
4
0.2
0.1
0
350 400 450 500
Temps
Figure 3.39 – Evolution de l’indice D4 filtré avec un défaut affectant x1 à l’instant 430.
des amplitudes des variables. Comme dans notre cas l’amplitude de la variable x1 affectée par le
défaut est plus petite que celle de x2 , cela signifie que la contribution de la variable x2 sera plus
92 Chapitre 3. Détection et localisation de défauts par ACP
importante que celle de x1 . Avec cet exemple simple, nous avons mis en évidence les limites de
la méthode de localisation par calcul des contributions aux dernières composantes principales en
utilisant les approches existantes.
Pour résoudre ce problème, nous proposons d’analyser les dernières composantes principales
(intervenant dans le calcul de l’indice Di ) ayant subit des variations significatives, et de calculer
la variation des contributions des différents variables à ces composantes avant et après détection
du défaut. Ainsi, en supposant qu’il n’y a pas de changement de régime de fonctionnement, les
variations des contributions à la ieme composante est définie par :
d k −1 kd +k w −1
1 X X
vcontij = xj (k) − xj (k) pij (3.167)
kw k=k −k k=kd
d w
0.08 0.1
0.07
0.05
0.06
Contributions
Contributions
0.05
0
0.04
0.03 −0.05
0.02
−0.1
0.01
0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Variables Variables
Figure 3.40 – Contributions des différentes Figure 3.41 – Contributions des différentes
variables à l’indice D4 à l’instant 434, ap- variables à l’indice D4 à l’instant 434, ap-
proche de Kourti proche de Wise
Il faut noter que la recherche des composantes présentant des variations significatives n’est
pas facile. Il nécessite de surveiller toute les composantes en plus du problème de détermination
de la fenêtre à utiliser pour le calcul de la moyenne.
0.18
0.16
0.14
0.12
Contributions
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10
Variables
cas d’un système de grande dimension, ceci conduit inévitablement à une explosion combinatoire
du nombre de signatures théoriques si l’on considère des possibilités de défauts doubles, triples,
etc. Pour réduire le nombre de signature théoriques dans ce cas, Weihua et Sirish [106] proposent
de déterminer le nombre maximal de capteurs qui peuvent tomber en panne simultanément et
cela par un calcul de la probabilité d’occurrence de défauts multiples.
Or, la méthode de localisation par reconstruction peut être utilisée pour la localisation de
défauts multiples en reconstruisant simultanément les variables supposées en défauts.
Pour simplifier le problème, nous allons supposer que l’on veut reconstruire deux variables à
l’instant k, xi (k) et xj (k) de x(k). La première chose à faire est de regrouper les deux variables
dans un sous-vecteur xa (k) pour mettre x(k) sous la forme x(k) = [xa (k) xb (k)]T , où xb repré-
sente un sous-vecteur de x contenant le reste des variables. En fonction de ces notations l’écriture
de l’expression du SP E(k) est donnée par :
h i µ C̃ C̃ab
¶·
xa (k)
¸
T aa
SP E(k) = x (k)C̃x(k) = xTa (k) xTb (k) (3.169)
C̃ba C̃bb xb (k)
(I − C) = C̃
i j Matrice C̃
C̃aa C̃ab
i
j
C̃ba C̃bb
T , l’ex-
Après développement de l’expression du SP E et en tenant en compte que C̃ba = C̃ab
pression suivante du SP E(k) est obtenue.
94 Chapitre 3. Détection et localisation de défauts par ACP
x(r) −1 T
a (k) = −C̃aa C̃ba xb (k) (3.171)
Ce résultat est donné sous la condition que C̃aa soit inversible. Dans le cas de défaut simple,
nous avons xa = xi , xb (k) = x(i) (i)
h (k) où x (k) est un vecteur contenanti toutes les variables sauf
eme T
la i . C̃aa = 1 − cii , C̃ba = −c1i ... − c(i−1)i − c(i+1)i ... − cmi , et ainsi :
(r) −1 T 1 h i
xi (k) = −C̃aa C̃ba xb (k) = c1i ...c(i−1)i c(i+1)i ...cmi xb (k) (3.172)
1 − cii
Cette dernière équation est la même que celle donnée par l’équation (2.41).
Cette expression peut être exprimée en fonction des directions de défaut comme dans le cas
de défaut simple. Ainsi, en posant Ξi comme la matrice des directions du ieme défaut, qui est
supposé affecté plusieurs variables, et Ξi = Ξ̂i + Ξ̃i où Ξ̂i = ĈΞi et Ξ̃i = C̃Ξi . Comme dans le
cas simple, nous pouvons écrire [18] :
µ ³ ´−1 ¶
xi (k) = I − Ξi Ξ̃Ti Ξ̃i Ξ̃Ti x(k) (3.173)
³ ´
à condition que la matrice Ξ̃Ti Ξ̃i soit inversible.
Le principe de localisation dans ce cas reste le même que dans le cas de défaut simple. Toute-
fois, il faut considéré toutes les combinaisons de défauts possibles. La reconstruction simultanée
des capteurs en défauts éliminera l’effet des défauts et l’indice de détection résultant sera en
dessous de son seuil de détection. La figure (fig 3.44) présente l’évolution des différents indices
obtenus par reconstruction des variables correspondant aux différentes combinaisons de défauts
possibles, dans le cas d’un défaut affectant les variables x3 et x4 de l’exemple 1. Il est clair que
le seul indice qui est en dessous de son seuil de détection, est SP E34 obtenu par reconstruction
simultanée des deux variables x3 et x4 .
La direction du défaut sera donnée par :
00
0 0
1 0
(3.174)
Ξ3,4 0 1
=
0 0
0 0
00
Ainsi, le vecteur x dont les deux variables x3 et x4 sont reconstruites sera donnée par :
1 0 00 0 0 0
0 1 00 0 0 0
0.33 0.33 0 0 −0.19 0.16 0.20
(3.175)
−0.19 −0.19 0 0 0.75 0.27 0.18 x(k)
x3,4 (k) =
0 0 00 1 0 0
0 0 00 0 1 0
0 0 00 0 0 1
3.3. Localisation de défauts 95
(3.176)
0
e3,4 (k) = 0 00 0 0 0 x(k)
0.19 0.19 0 0 0.24 −0.27 −0.18
−0.16 −0.16 0 0 −0.27 0.70 −0.27
−0.20 −0.20 0 0 −0.18 −0.27 0.72
0.4 0.5
12
SPE13
14
SPE
SPE
0.5 0.2
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
SPE16
17
SPE15
SPE
0.5 0.5 0.5
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
0.4 0.5
SPE24
SPE23
SPE25 0.5
0.2
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
0.02
SPE34
SPE27
SPE26
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
0.2 0.4 0.4
SPE36
35
SPE37
SPE
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
0.5 0.5 0.5
SPE46
SPE45
SPE47
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
SPE56
SPE67
2
SPE57
0.5 0.5
0 0 0
200 300 400 500 200 300 400 500 200 300 400 500
Figure 3.44 – Résultat de la localisation par reconstruction d’un défaut affectant les variables x3
et x4 .
Cependant, il faut noter que dans le cas de défauts multiples la méthode de localisation
par reconstruction nécessite un nombre très grand de combinaisons à tester. Comme le nombre
96 Chapitre 3. Détection et localisation de défauts par ACP
de capteurs défaillants n’est pas connu a priori, on commence par la reconstruction d’un seul
capteur. Si l’indice de détection révèle toujours la présence d’un défaut pour chaque capteur
reconstruit, alors on passe à la reconstruction de deux capteurs en prenant en compte toutes les
combinaisons possibles.
Pour cette raison nous proposons d’adapter l’approche de reconstruction à notre indice de
détection Di . Le nombre de combinaison à tester est considérablement réduit. Pour illustrer
l’approche de localisation de défauts multiples avec l’indice Di , nous allons considérer l’exemple
2 avec deux défauts affectant les variables x3 et x9 avec les mêmes défauts que précédemment
entre les instants 300 et 500.
La procédure de détection est lancée et un défaut est détecté sur l’indice D1 . Aussitôt la
procédure de localisation en utilisant l’approche de reconstruction est exécutée et la variable
incriminée x9 est localisée comme le montre la figure (fig 3.45). Une fois la variable localisée,
(9)
elle est reconstruite et la procédure de détection et relancée. Ainsi les indices de détection Di
(9)
avec la variable x9 reconstruite sont calculés. L’indice D3 indique la présence d’un défaut. Pour
localiser la deuxième variable on n’a plus besoin de tester toutes les combinaison deux a deux
mais juste celles qui sont liées à x9 . De plus en analysant la matrice des derniers vecteurs propres
(tab 3.9) et plus particulièrement les vecteurs p8 , p9 et p10 qui interviennent dans le calcul de
l’indice D4 , on constate que les variables x1 , x4 et x5 ont des coefficients très faibles et donc
ne peuvent être en cause du défaut détecté. Ainsi, ces variables ne sont pas reconstruites. Les
variables à reconstruire sont x2 , x3 , x6 , x7 , x8 , x10 en combinaison avec la variable x9 . Le résultat
de l’application de cette procédure est illustré sur la figure (fig 3.46) et la deuxième variable est
localisée.
0.5 0.5
D(1)
D(2)
1
0 0
0.5200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(3)
D(4)
1
0 0
0.5200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(5)
D(6)
1
0 0
200 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
0.2
D(7)
D(8)
1
0.1
0 0
0.05 250 300 350 400 450 500 0.5200 250 300 350 400 450 500
D(10)
D(9)
1
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps Temps
Cependant, cette procédure n’est pas automatique. Ainsi, il est intéressant d’automatiser cette
3.4. Identification des caractéristiques du défaut 97
0.6
0.2
0.4
D(2,9)
(3,9)
3
D3
0.1
0.2
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.6 0.6
0.4 0.4
D(6,9)
(7,9)
3
D3
0.2 0.2
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
0.6 0.6
(9,10)
0.4 0.4
D(8,9)
3
D3
0.2 0.2
0 0
200 250 300 350 400 450 500 200 250 300 350 400 450 500
Temps Temps
procédure de localisation de défauts multiples en tenant compte des sensibilités des coefficients
intervenants dans le calcul de l’indice de détection Di .
où x est alors le vecteur de mesures affecté par le défaut d dans la direction ξi . x∗ est le vecteur de
mesure supposé sans défaut. La reconstruction des mesures pour des capteurs en défaut consiste
à trouver une estimation de x∗ , c’est-à-dire corriger au mieux l’effet du défaut. Ainsi le vecteur
dont la ieme variable est reconstruite est donné par :
xi = x − di ξi (3.178)
° °2
di = arg min kxi − x̂i k2 = arg min kx̃i k2 = arg min °x̃ − di ξ˜i ° (3.179)
° °
di di di
où ξ˜i est la projection de ξi dans le sous-espace des résidus, ξ˜i = (I − Ĉ)ξi et x̂i représente
l’estimation de xi fournie par le modèle ACP. La solution du problème de minimisation de
l’équation (3.179) est donnée par :
ξ˜iT x̃ ξ˜iT x
di = = (3.180)
ξ˜iT ξ˜i ξ˜iT ξ˜i
3.5 Conclusion
Ce chapitre a été consacré à la présentation des techniques de détection et de localisation de
défaut dans le cadre d’une procédure de diagnostic utilisant l’analyse en composantes principales
linéaires.
Avec l’ACP, on peut générer des résidus qui sont équivalents à ceux que l’on peut obtenir par
l’espace de parité.
Plusieurs indices de détection ont été présentés dans le cas des approches par estimation
d’état et par estimation paramétrique. Les indices de détection les plus utilisés dans le cadre de
l’ACP sont les statistiques T 2 et l’erreur quadratique d’estimation SP E.
Cependant, le SP E est sensible aux erreurs de modélisation [31] car c’est un test global qui
cumule les erreurs de chacun des résidus et la statistique T 2 telle qu’elle a été définie avec l’ACP
ne peut être utilisée pour la détection car elle est calculée à partir des premières composantes
principales et ces dernières ne sont pas des résidus. Pour cette raison nous avons proposé un nouvel
indice de détection basé sur les dernières composantes principales, permettant de s’affranchir
des inconvénients des indices existants et d’améliorer la qualité de la détection [31]. Cet indice
s’exprime comme une somme des carrés des dernières composantes principales dans différents
sous-espaces de l’espace résiduel. Ainsi, il représente un SP E calculé dans des sous-espaces plus
petits que l’espace résiduel et donc il présente l’avantage d’être plus sensible aux défauts que les
autres indices.
Différentes approches de localisation ont été également présentées. Dans un premier temps
nous avons présenté le principe des méthodes de localisation avec structuration des résidus dans
le cas de l’ACP et les différentes approches proposées dans la littérature. Nous avons mis en
évidence les limites d’utilisation de ces approches. Il faut noter que ces approches cherchent
une matrice de signatures théorique fortement localisante sans tenir compte de la sensibilité des
résidus primaires aux différents défauts.
La deuxième approche présenté dans ce chapitre concerne l’approche utilisant un banc de
modèles comme dans les approches utilisant des observateurs (GOS). Dans cette approche on
retrouve trois méthodes. La méthode utilisant les ACP partielles, la méthode utilisant le principe
de reconstruction et la méthode utilisant le principe d’élimination. Cependant, dans le cas de
la méthode des ACP partielles on ne sait pas s’il est possible d’élaborer un modèle ACP réduit
a priori d’autant plus quelle utilise le SP E comme indice de détection. La deuxième méthode
présentée utilise le principe de reconstruction qui consiste à suspecter qu’un capteur est défaillant
3.5. Conclusion 99
et à reconstruire la valeur de sa mesure en se basant sur le modèle ACP et les mesures des autres
capteurs. Comme cette méthode utilise initialement l’indice SP E nous l’avons adaptée à l’indice
de détection Di . De cette manière, la reconstruction se fait avec le modèle qui donne la meilleurs
reconstruction alors que la détection se fait avec un autre modèle (en utilisant l’indice Di )
permettant d’être de plus sensible aux défauts. La procédure de localisation proposée permet de
localiser des défauts simples et peut être utilisée pour la localisation de défauts multiples. Nous
avons présenté le principe d’utilisation de cette approche pour les défauts multiples mais il reste
à automatiser la procédure proposée.
De même pour la méthode utilisant le principe d’élimination, cette approche a été adaptée à
l’indice de détection proposé et donne de bons résultats comme nous l’avons vu sur les exemples
de simulation.
La troisième approche qui a été abordée dans ce chapitre concerne l’approche par calcul des
contributions des variables à l’indice de détection. Cette approche est largement utilisée dans la
littérature pour la localisation de défauts par l’analyse en composantes principales. A partir de
l’expression de l’indice Di , nous avons proposé deux définitions des contributions des variables à
l’indice proposé. La première définition est basée sur le fait que cet indice est un SP E particulier
et de ce fait on peut exploiter la définition des contributions dans le cas du SP E. La deuxième
définition vient du fait que l’indice proposé peut être calculé également à partir des dernières
composantes principales. Ainsi, un calcul des contributions aux dernières composantes ayant
subi une variation significative peut être utilisé pour cette définition. Dans les deux définitions,
la variable ayant la plus grande contribution est considérée comme la variable incriminée.
Les deux exemples de simulation du chapitre 2 ont été utilisés pour illustrer les différentes
approches présentées dans ce chapitre.
100 Chapitre 3. Détection et localisation de défauts par ACP
Analyse en composantes principales non linéaires
4
(ACPNL)
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2 Analyse en composantes principales non linéaires . . . . . . . . . . . 103
4.3 Méthode des Courbes Principales . . . . . . . . . . . . . . . . . . . . 104
4.3.1 Algorithme de calcul des courbes principales de Hastie . . . . . . . . . . 107
4.3.2 Algorithme de calcul des courbes principales de Verbeek . . . . . . . . . 107
4.4 Approches neuronales de l’ACPNL . . . . . . . . . . . . . . . . . . . . 110
4.4.1 ACPNL par réseau à cinq couches . . . . . . . . . . . . . . . . . . . . . 111
4.4.2 ACPNL par optimisation des entrées du réseau (Input Training network) 116
4.4.3 Réseaux à trois couches et courbes principales . . . . . . . . . . . . . . . 117
4.4.4 Réseaux de fonctions à base radiale (RBF) . . . . . . . . . . . . . . . . 119
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1 Introduction
L’ACP linéaire, comme elle a été introduite dans le premier chapitre, est une des méthodes
d’analyse de données les plus connues. Elle consiste à chercher un sous-espace de dimension
plus petite que l’espace de départ et à y projeter les données étudiées, en perdant un minimum
d’information. Le résultat ainsi obtenu est une représentation des données avec réduction de
dimension.
Pour réduire les calculs, dans le cas où la matrice de corrélation est de grande dimension,
des implantations sous forme de réseaux de neurones de l’ACP linéaire ont été proposées ([72],
[73], [84], [83], [59]). Les approches neuronales de l’analyse en composantes principales linéaires
se distinguent généralement par deux critères d’apprentissage optimisés qui sont d’ailleurs équi-
valents : maximisation des variances de projection des données [41], et minimisation de l’erreur
quadratique d’estimation des données [75].
101
102 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
Malheureusement, comme c’est une opération de projection linéaire, seules les dépendances
linéaires ou quasi-linéaires entre les variables peuvent être révélées. Si les données à traiter
présentent des comportements non linéaires, l’ACP est incapable de trouver la représentation
compacte décrivant ces données. Ainsi, l’extension de l’analyse en composantes principales pour
traiter les problèmes non linéaires a été développée [28, 38, 56, 12, 92, 104, 70, 49]. Hastie [38, 39]
propose une approche pour une généralisation de l’ACP dans le cas non linéaire basée sur le prin-
cipe des courbes principales. Une courbe principale est une courbe lisse minimisant la distance
entre tous les points de données et leurs projections sur cette courbe. Toutefois, cette approche est
non paramétrique (pas de modèle de représentation) et ne peut être utilisée pour la surveillance.
De plus elle ne permet de calculer que des composantes principales non linéaires unidimension-
nelles. Indépendamment des travaux de Hastie, Kramer [56] propose une analyse en composantes
principales non linéaires (ACPNL) en utilisant un réseau de neurones à cinq couches dont les
poids sont calculés par apprentissage en minimisant l’erreur quadratique entre les entrées et les
sorties du réseau. Vue la complexité d’un tel réseau, Dong [12] propose une ACPNL combinant
les réseaux de neurones et l’approche des courbes principales, deux sous-réseaux à trois couches
étant utilisés dans cette approche. Les composantes principales sont obtenues à partir de l’algo-
rithme des courbes principales de Hastie [39, 96] et le problème est transformé en un problème de
régression non-linéaire. Tan et Mavrovouniotis [92] ont proposé une ACPNL obtenue en utilisant
un réseau de neurones à trois couches et dont l’apprentissage est effectué en minimisant à la fois
les poids et les entrées du réseau. Cependant, pour de tels réseaux, l’apprentissage est très lourd
et demande beaucoup de temps de calcul en plus des problèmes d’initialisation et de convergence.
Pour cette raison, Webb [104] a proposé une approche pour l’analyse en composantes principales
en utilisant deux réseaux de fonctions de bases radiales (RBF) à trois couches en cascade. Le
même principe a été adopté par Wilson [111]. Cependant l’apprentissage d’un tel réseau reste
très complexe.
Comme, la plupart des approches utilisent les réseau de neurones MLP (multi-layer percep-
trons) pour l’obtention du modèle ACPNL, on rencontre souvent des problèmes d’optimisation
non linéaires comme les problème de convergence et d’initialisation de ce type de réseaux. Pour
cette raison et en combinant les courbes principales et les réseaux RBF, nous proposons une
approche pour l’ACPNL avec deux réseaux à trois couches en cascade ou le problème d’appren-
tissage se ramène a un problème de regression linéaire par rapport aux poids de la couche de
sortie.
De plus, comme dans le cas linéaire, nous proposons un algorithme permettant de déterminer
le nombre de composantes non-linéaires à retenir dans le modèle ACPNL. Cette algorithme est
une extension du principe de la variance non reconstruite que nous avons présenté dans le cas
linéaire.
Dans ce chapitre nous allons présenter la généralisation de l’ACP linéaire dans le cas non
linéaire. Dans un premier temps, le principe de l’analyse en composantes principales non linéaires
est présenté ainsi que les principales approches pour le calcul du modèle ACPNL.
Il faut noter que dans notre travail, on ne s’intéresse pas à la recherche de la structure des
réseaux étudiés. Cependant nous nous sommes intéressés plus particulièrement au nombre de
composantes à retenir dans le modèle ACPNL. Ainsi, nous proposons une approche permettant
de déterminer le nombre de composantes dans le cas non linéaire basée sur l’extension du principe
de la variance non reconstruite dans le cas non linéaire.
Tout au long de ce chapitre, un exemple non-linéaire simple sera présenté pour illustrer les
méthodes présentées. L’exemple choisi est décrit par les équations suivantes :
4.2. Analyse en composantes principales non linéaires 103
x2 x2
x1 x1
Pour mieux comprendre le problème et pouvoir faire le lien avec le modèle linéaire, nous allons
considéré la figure (fig 4.3) qui représente le principe du modèle ACP général, que se soit le modèle
linéaire ou non linéaire. Le modèle global est composé de deux sous-modèles, un sous-modèle de
compression projette des données de dimension m vers l’espace des composantes principales de
dimension ℓ et le deuxième sous-modèle effectue l’opération inverse, à savoir une projection de
ℜℓ vers ℜm . Ainsi dans le cas linéaire nous avons les deux sous-modèles qui sont donnés par les
deux matrices orthogonales des vecteurs propres de la matrice de corrélation des données : P̂ et
P̂ −1 = P̂ T et le modèle global est donné par la matrice de projection Ĉ définie par Ĉ = P̂ P̂ T .
Dans le cas non linéaire, le but est de chercher deux fonctions non linéaires F et G . G représente
le modèle non linéaire de compression qui permet de calculer les composantes principales non
linéaires à partir des données et F représente le modèle non linéaire de décompression permettant
l’estimation des variables originelles à partir des composantes principales non linéaires données
par le modèle de compression.
Ainsi, la matrice de données X peut être représentée par une estimation X̂, donnée par le
modèle ACP, plus une erreur d’estimation E :
X = X̂ + E = F (T ) + E (4.2)
où T = [t1 , ..., tℓ ] ∈ ℜN ×ℓ est la matrice des composantes principales non linéaires qui est donnée
par :
104 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
m ℓ ℓ m
X ∈ ℜN ×m T ∈ ℜN ×ℓ X̂ ∈ ℜN ×m
T = G (X) (4.3)
A partir de cette équation le modèle de l’ACP non linéaire (ACPNL) est représenté par la
fonction F(G(.)) et l’estimation de X, notée X̂, est donnée par :
X̂ = F (G (X)) (4.4)
Gnanadesikan [28] propose l’un des premiers algorithmes pour l’analyse en composantes prin-
cipales non linéaires : l’analyse en composantes principales généralisées. Pour explorer la structure
non linéaire des données, Gnanadesikan propose d’ajouter des termes quadratiques et peut-être
des termes avec un ordre plus grand à la liste des variables et d’appliquer l’ACP linéaire à cet
ensemble étendu de variables. Par exemple si nous avons deux variables x1 et x2 , l’ACP linéaire
est appliquée sur les cinq variables x1 , x2 , x21 , x22 et x1 x2 . Cette approche n’a pas connue d’ap-
plication réelle, parce que les transformations à appliquer aux variables ne sont pas évidentes.
De plus les relations linéaires que nous allons chercher ne sont pas des relations exactes mais des
relations entre des variables entachées de bruit de mesure car les transformations sont effectuées
sur les variables mesurées.
Dans la suite nous allons présenter les différentes approches pour l’extraction des composantes
principales non linéaires. Dans un premier temps nous présenterons le principe des courbes princi-
pales, ensuite seront présentées les approches neuronales pour l’ACPNL utilisant soit les réseaux
de neurones MLP soit les réseaux de fonctions à base radiale.
Définition 4.3.1 Une courbe dans un espace Euclidien est une fonction continue F : I → ℜm ,
où I = [a, b] est un interval fermé de ℜ. La courbe F peut être considérée comme un vecteur
4.3. Méthode des Courbes Principales 105
de fonctions de dimension m de la variable t, F(t) = (f1 (t), ..., fm (t)), où f1 (t), ..., fm (t) sont
appelées fonctions coordonnées.
Définition 4.3.2 (Longueur d’une courbe) La longueur de la courbe F le long d’un inter-
valle [α, β] ⊂ [a, b], notée par l (F, α, β), est définie par :
N
X
l (F, α, β) = sup kF(ti ) − F(ti−1 )k (4.5)
i=1
Définition 4.3.3 (Distance entre un point et une courbe) Soit F(t) = (f1 (t), ..., fm (t))
une courbe lisse (dont les fi sont infiniment dérivables) dans ℜm paramétrée par t ∈ ℜ, et pour
x ∈ ℜm soit tF (x) la valeur du paramètre t pour laquelle la distance entre x et F(t) est minimisée.
Plus formellement, l’indice de projection tF (x) est défini par l’équation :
n o
tF (x) = sup t : kx − F(t)k = inf kx − F(τ )k (4.6)
τ
Définition 4.3.4 (Propriétés géométriques des courbes) Soit F : [a, b] → ℜm une courbe
lisse F = (f1 , ..., fm ) dont la dérivée est donnée par :
Une courbe principale est définie comme une courbe auto-consistante, où la propriété d’auto-
consistance peut s’interpréter par le fait que chaque point de la courbe F est la moyenne de
tous les points qui sont projetés sur elle. Ainsi, les courbes principales sont des courbes lisses
auto-consistantes qui passent au milieu du nuage de point de dimension m et donne un résumé
unidimensionnel non linéaire des données [39].
Généralement la courbe est paramétrée par sa longueur d’arc, c’est-à-dire que chaque point
sur la courbe peut être décrit par sa distance le long de la courbe à partir de l’origine. La calcul
de la longueur d’arc de la courbe F entre t0 et t1 est donnée par :
v
u m ∂Fj 2
Z t1 uX µ ¶
l (F, t0 , t1 ) = t dz (4.9)
t0 j=1
∂t (t=z)
Comme la définition de la courbe n’est pas unique, il y a différentes fonctions F qui définissent
la même courbe, mais avec une paramétrisation différente. Ainsi, une propriété additionnelle pour
l’unicité de la fonction est donnée par :
106 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
x4
F(tF (x4 )) x7
x2 F(tF (x3 )) x5
x3 F(tF (x5 ))
F(tF (x2 )) F(tF (x7 ))
F(tF (x1 ))
F(tF (x6 ))
x1 x6
m µ
∂Fj 2
X ¶
=1 (4.10)
j=1
∂t
Dans le cas linéaire nous avons la même propriété, à savoir que dans le cas d’une seule
m ³
∂Fj 2
´
composante x̂ = F(x) où F(x) = pt. Ainsi, = kpk = 1.
P
∂t
j=1
Il faut noter que la courbe F n’a pas une forme paramétrique fixe et peut être représentée
sous forme polygonale avec les sommets F(t1 ), ..., F(tN ).
Avant de présenter l’algorithme de Hastie, nous allons présenter un algorithme pour le calcul
des composantes principales linéaires. L’algorithme que nous allons introduire ici pour le calcul
des composantes principales linéaires a été récemment proposé par Roweis [82]. La raison pour
laquelle nous le présentons ici est qu’il y a une analogie entre cet algorithme qui calcule les
composantes principales et l’algorithme de Hastie pour le calcul des courbes principales. L’idée
de base consiste à choisir une droite arbitraire, et de projeter les points de données sur cette
droite. Ainsi, nous avons les indices de projection, et on cherche la nouvelle droite qui minimise
une certaine distance entre les points de données et cette droite. Une fois la nouvelle droite
calculée, répéter les deux étapes précédentes jusqu’à convergence. Formellement, soit F (j) la
(j) (j)
droite obtenue à la j eme itération et t(j) = [t1 , ..., tN ]T = [xT1 p(j) , ..., xTN p(j) ]T le vecteur des
(j)
indices de projection des données sur F . La fonction de distance de F(t) = tp en supposant
que le vecteur t(j) fixe, est définie par :
³ ´ n ° (j) °2
°
∆N F|t(j) = °xi − ti p°
P °
i=1
N N ³ ´2 N (j) (4.11)
(j)
kxi k2 + kpk2 − 2pT
P P P
= ti ti xi
i=1 i=1 i=1
Ainsi, pour trouver la droite optimale F (j+1) , on doit minimiser (4.11) sous la contrainte
kpk = 1.
N (j)
P
³ ´ ti xi
(j+1) (j) i=1
p = arg min ∆N F|t = ° ° (4.12)
kpk=1 ° N (j) °
°P °
° ti xi °
°i=1 °
4.3. Méthode des Courbes Principales 107
N ³ Z Ã 2 (j) !2
2
X
(j)
³
(j+1)
´´2 ∂ f
D (f ) = xi − f ti +λ dt (4.13)
i=1
∂t2
centre du nuage de points, on cherche à tracer une droite ou plus exactement un segment de droite
pour approximer la courbe F.
Verbeek utilise des modèles locaux unidimensionnels représentant ainsi des segments de droite
et le raccordement entre les segments adjacents est effectué par des arêtes entre les sommets de
ces derniers.
Dans l’algorithme des k-lignes, la droite si est définie comme si = { si (t)| t ∈ ℜ}, où si (t) =
ci + pi t. La distance entre un point et la droite est donnée par :
Soit X l’ensemble des échantillons avec N mesures et m variables. Des régions R1 , ..., Rr sont
définies par :
½ ¾
Ri = x ∈ X| i = arg min d (x, sj ) (4.15)
j
Dans l’algorithme k-lines, l’objectif est de trouver r droites s1 , ..., sr qui minimisent :
r X
d (x, si )2
X
(4.16)
i=1 x∈Ri
Ainsi, pour déterminer les droites qui sont des optima locaux de (4.16), Verbeek [101] propose
d’exploiter l’algorithme des k-lignes. Commencer avec des centres et des directions aléatoires des
k droites, et répéter les deux étapes suivantes jusqu’à convergence :
1. déterminer les régions Ri
2. déterminer la droite pour chaque région Ri comme étant la première composantes principale
de la matrice de corrélation des données ∈ Ri .
Puisque on cherche à construire une courbe polygonale, il ne faut pas chercher des droites
mais des segments de droite. Ainsi, on doit remplacer l’étape 2 de l’algorithme. Au lieu d’utiliser
la première composante principale, on doit utiliser un segment de cette dernière. Ainsi, on utilise
le plus petit segment de la première composantes telle que les projections des points de la région
correspondante sur cette composante soient incluses dans le segment.
Cependant, il reste à résoudre le problème de liaison entre les différents segments de droite
obtenus pour obtenir une courbe polygonale. Pour cela, Vereek [101] défini un graphe totalement
connecté G = (R, E), ou l’ensemble de sommets est constitué de 2k points des k-segments. Ainsi,
deux sommets adjacents sont connecté par une arête minimisant la distance euclidienne entre ces
sommets tout en minimisant la distance entre la courbe obtenues et l’ensemble des points [101].
Il faut noter qu’une fois la courbe principale est obtenue, chaque point de la composante
principale non-linéaire correspondante est calculé, comme dans le cas de l’algorithme de Hastie,
comme étant la longueur d’arc le long de la courbe.
Les figures (fig 4.5), (fig 4.6), (fig 4.7) et (fig 4.8) présentent, respectivement, les courbes
obtenues en utilisant 1, 2, 3 et 4 segments de droite. La figure (fig 4.9) présente la courbe
représentant les relations non linéaires entre les trois variables x1 , x2 , x3 ainsi que l’estimation de
cette courbe en utilisant l’algorithme des courbes principales développé par Verbeek [101]. Pour
l’estimation de cette courbe nous avons utilisé cinq segments de droite.
L’approche des courbes principales a été présentée comme une technique de généralisation de
l’ACP linéaire monodimensionnelle. Une méthode des surfaces principales (cas de dimension 2) a
été également présentée par Hastie [38]. Cependant, pour des problèmes de dimension plus élevée,
la paramétrisation des hyper-surfaces est plus complexe. L’extension de l’algorithme des courbes
4.3. Méthode des Courbes Principales 109
2 2
1.5 1.5
1 1
0.5 0.5
x3
x3
0 0
−0.5 −0.5
−1 −1
−1.5 −1.5
−2 −2
1 1
0.5 0.8 0.5 0.8
0.6 0.6
0 0.4 0 0.4
0.2 0.2
−0.5 0 −0.5 0
−1 −0.2 −1 −0.2
x2 −0.4 x2 −0.4
x1 x1
Figure 4.5 – Utilisation d’un seul segment de Figure 4.6 – Utilisation de deux segments de
droite droite
2 2
1.5 1.5
1 1
0.5 0.5
x3
x3
0 0
−0.5 −0.5
−1 −1
−1.5 −1.5
−2 −2
1 1
0.5 0.8 0.5 0.8
0.6 0.6
0 0.4 0 0.4
0.2 0.2
−0.5 0 −0.5 0
−1 −0.2 −1 −0.2
x2 −0.4 x2 −0.4
x1 x1
Figure 4.7 – Utilisation de trois segments de Figure 4.8 – Utilisation de quatres segments de
droite droite
principales dans ce cas a été proposée [60] ; le nouvel algorithme est basé sur une extraction des
courbes principales d’une manière séquentielle. Ainsi, l’équation (4.2) peut s’écrire :
Segment
Arête
2
1.5
0.5
x3
−0.5
−1
−1.5
−2
1
0.5 0.8
0.6
0 0.4
0.2
−0.5 0
−1 −0.2
x2 −0.4
x1
Figure 4.9 – Courbe principale pour l’exemple présenté avec l’algorithme de Verbeek en utilisant
cinq segments de droite
t1 (k)
wr(t)
xm (k) x̂m (k)
wr(x)
(x) (t)
vmr vrm
Figure 4.10 – Réseau à cinq couches pour l’extraction d’une seule composante principale non
linéaire
Pour effectuer l’ACPNL, le réseau de neurones (fig 4.10) contient trois couches entre les
variables d’entrées et de sorties. Une fonction de transfert G1 réalise une projection du vecteur x,
vecteur d’entrée de dimension m, vers la première couche cachée (couche de codage), représentée
(x)
par hj (j = 1, ..., r), un vecteur colonne de dimension r et r représente le nombre de neurones
dans la première couche cachée :
Ãm !
³³ ´´
(x) (x) (x)
X
x (x)
hj = G1 V x+b = G1 vij xi + bj (4.18)
i=1
V (x) est la matrice des poids de dimension (r ×m), b(x) un vecteur contenant les r paramètres
de biais. La deuxième fonction de transfert G2 projette les données de la première couche cachée
vers la couche d’étranglement "bottleneck layer" contenant un seul neurone, qui représente la
composante principale non linéaire t. La fonction de transfert G1 est généralement non linéaire
(on utilise la fonction tangente hyperbolique ou la fonction sigmoïde), tandis que la fonction G2
représente la fonction identité (G2 (x) = x) :
³ ´ r
(x) (x)
t = G2 w(x) h(x) + b̄(x) = + b̄(x)
X
wj hj (4.19)
j=1
Ensuite, la fonction de transfert G3 , qui est une fonction non linéaire, projette les données à
112 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
(t)
partir de t vers la dernière couche cachée (couche de décodage) hj (j = 1, . . . , r) et r représente
le nombre de neurones dans la troisième couche cachée :
µ³ ´ ¶ ³ ´
(t) (t) (t) (t) (t)
hj = G3 w t+b = G3 wj t + bj (4.20)
j
la dernière fonction de transfert G4 est la fonction identité et projette les données à partir de
h(t) vers x̂, le vecteur de sortie de dimension m :
³³ ´´ r
(t) (t) (t)
V(t) h(t) + b̄(t)
X
x̂i = G4 = vji hj + b̄i (4.21)
i
j=1
La fonction coût E = kx − x̂k2 est minimisée pour trouver les valeurs optimales de V (x) ,
b(x) , w(x) , b̄(x) , w(t) , b(t) , V (t) et b̄(t) .
Une fois la structure générale définie, il reste à déterminer la structure précise du modèle
neuronal (architecture du réseau). Pour cela, il faut déterminer le nombre de couches cachées
nécessaire et le nombre de neurones dans chaque couche cachée. Pour la détermination du nombre
de couches cachées, Funahashi [21] et Cybenko [8] ont montré que toute fonction continue peut
être approximée par un réseau de neurones à trois couches utilisant une fonction d’activation
sigmoïdale pour les neurones de la couche cachée et une fonction d’activation linéaire pour les
neurones de la couche de sortie. Le nombre de neurones dans la couche cachée est généralement
déterminé en effectuant une validation croisée sur un jeu de validation. Il existe des algorithmes
permettant de construire itérativement la couche cachée, le contrôle de la croissance du réseau
est effectué par une validation croisée. D’autres méthodes utilisent exactement un chemin inverse
des précédentes, partant d’un réseau avec un grand nombre de neurones dans la couche cachée ;
les connexions jugées inutiles sont éliminées progressivement jusqu’à l’obtention d’une structure
satisfaisante. Une synthèse des techniques d’élimination est présentée dans le papier de Kerling
[53]. Cependant, il faut noter ici que l’on ne s’intéresse pas à ce problème.
∂E(k) (t)
(t)
= − (xi (k) − x̂i (k)) hj (4.24)
∂vji
Ainsi, les modifications des poids sont données par :
(t) (t)
∆vji = µ (xi (k) − x̂i (k)) hj (4.25)
De même pour les couches intermédiaires, commençons par calculer le gradient de E(k) par
(t)
rapport à wj :
(t)
∂E(k) ∂E(k) ∂ x̂i (k) ∂hj
(t)
= (4.26)
∂wj ∂ x̂i (k) ∂h(t) w(t)
j j
m
∂E(k) ³
(t) (t)
´ X
(t)
(t)
= −G3′ wj t + bj t (xi (k) − x̂i (k)) vji (4.27)
∂wj i=1
(t)
Les modifications de wj sont données par :
³ m
´ X
(t) (t) (t) (t)
∆wj = µG3′ wj t + bj t (xi (k) − x̂i (k)) vji (4.28)
i=1
Les mêmes opérations de dérivation et de calcul des modifications seront appliquées pour les
(x) (x)
poids wj et vij , ce qui nous permet d’écrire :
∂E(k) ∂E(k) ∂t
(x)
= (4.29)
∂wj ∂t ∂w(x)
j
(x)
La quantité ∂t(x) peut être exprimée comme ∂t
(x) = hj et ainsi on obtient l’expression du
∂wj ∂wj
(x)
gradient de E(k) par rapport à wj :
r m
∂E(k) (x)
³
(t)
´
(t) X (t)
G3′ wj t + b(t) wj
X
(x)
= −hj (xi (k) − x̂i (k))vji (4.30)
∂wj j=1 i=1
(x)
Finalement, le gradient de E(k) par rapport aux poids vij est donné par :
(x)
∂E(k) ∂E(k) ∂t ∂hj
(x)
= (4.31)
∂vij ∂t ∂h(x) ∂v (x)
j ij
Ãm ! r r m
∂E(k) X (x) (x)
³
(t)
´
(t) X (t)
−G1′ wp(x) G3′ wj t + b(t) wj
X X
(x)
= vij xi + bj xi (xi (k) − x̂i (k))vji
∂vij i=1 p=1 j=1 i=1
Ainsi, on a obtenu les gradients de E(k) par rapport aux différents poids du réseau et la règle
∂E
de modification de ces poids est donnée par ∆w = −µ ∂w où µ est le pas d’adaptation.
Malthose [64] propose pour l’apprentissage du réseau de neurones à cinq couches pour pro-
duire ces entrées de minimiser la fonction de coût suivante :
114 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
N
Ãm µ
X ∂F (x(k)) ¶2
à !!
2
X
min kx(k) − F (G (x(k)))k + −1 (4.32)
F ,G
k=1 i=1
∂t
Le terme additif force le réseau à produire une courbe avec la propriété (4.10).
L’approximation de la courbe de l’exemple traité avec un réseau a cinq couches, avec six
neurones dans chaque couche cachée, est illustrée sur la figure (fig 4.11). Ainsi, on obtient une
estimation permettant d’expliquer environ 97% des corrélations totales des variables.
1
x3
−1
−2
1.5
1 1.5
0.5 1
0 0.5
−0.5
x2 0
x1
Figure 4.11 – Mesures et estimation avec la première composante non linéaire avec un réseau à
cinq couches
Il faut noter que l’extraction des composantes principales peut se faire de deux façons.
La première consiste à extraire les composantes séquentiellement en ayant qu’un seul neurone
dans la couche du milieu "bottleneck layer" (ACPNL séquentielle) (fig 4.12). La seconde consiste
à extraire les ℓ composantes désirées simultanément en insérant ℓ neurones dans la couche du
milieu (ACPNL parallèle ou simultanée) (fig 4.13).
L’ACPNL parallèle nécessite, avant l’apprentissage du réseau, la détermination du nombre de
composantes non linéaires à retenir ℓ. Tandis que dans le cas de l’ACPNL séquentielle le réseau
est entraîné initialement avec une seule composante principale non linéaire. Après estimation des
données à partir de cette première composante non linéaire, on doit soustraire le résultat obtenu
4.4. Approches neuronales de l’ACPNL 115
de l’ensemble des données de départ et l’opération d’extraction d’une deuxième composante non
linéaire est effectuée sur les résidus obtenus. Cette procédure peut être répétée jusqu’à ce que le
nombre de composantes voulu soit atteint ou l’erreur d’estimation inférieure à un certain seuil
choisi a priori.
t1 (k)
e
t2 (k)
(t)
(x) (t)
v11
x1 (k) w11 w11 x̂1 (k)
t1 (k)
x2 (k) x̂2 (k)
t2 (k)
4.4.2 ACPNL par optimisation des entrées du réseau (Input Training net-
work)
Tan et Mavrovouniotis [92] proposent une approche pour l’analyse en composantes princi-
pales non linéaires (ACPNL) basée sur le concept d’apprentissage des entrées (représentant les
composantes principales recherchées) d’un réseau de neurones IT-net (Input Training Network).
L’architecture d’un réseau IT-net est illustrée sur la figure (fig 4.14). C’est un réseau à trois
couches dont une couche cachée. La couche de sortie est composée de m neurones correspondant
à la dimension des données x. La couche d’entrée contient ℓ neurones correspondant au nombre
de composantes principales non linéaires t.
Au lieu d’entraîner un réseau auto-associatif à cinq couches, il est préférable d’entraîner
seulement une partie de ce réseau composée de trois couches (sous-réseau de décompression).
Entraîner un tel sous-réseau est intéressant et peut être effectué par extension de l’algorithme de
rétro-propagation, puisque la fonction d’erreur est bien définie. La différence entre l’apprentissage
de ce réseau et un réseau multi-couches ordinaire est que les entrées de ce réseau ne sont pas
connues, car elles représentent les composantes principales recherchées. Donc, dans la phase
d’apprentissage il faut ajuster non seulement les paramètres internes du réseau mais également
les valeurs des entrées par minimisation de l’erreur de sortie du réseau.
Il faut noter que Tan [92] a montré que l’apprentissage de ce réseau avec des neurones linéaires
et sans couche cachée est équivalent à la méthode de puissance (Power method) [86] utilisée pour
le calcul des vecteurs propres de la matrice de covariance des données. Il a montré également que
l’apprentissage d’un réseau IT avec une seule entrée et avec une seule couche cachée non linéaire
4.4. Approches neuronales de l’ACPNL 117
∆t
w11
v11 x̂1 (k)
t2 (k)
tℓ (k)
whm
b1 b2
L’apprentissage des deux réseaux à trois couches peut être effectué par n’importe quel algo-
rithme adéquat : gradient conjugué ou Levenberg-Marquardt [61, 66].
L’illustration de cette approche est effectuée en utilisant notre exemple en utilisant l’algo-
rithme de Verbeek [101] pour le calcul de la composante principale utilisée pour l’apprentissage
des deux sous-réseaux. Les figures (fig 4.22) et (fig 4.23) présentent l’estimation de la courbe
de l’exemple traité en combinant deux sous-réseaux de neurones avec six neurones dans chaque
couche cachée. L’estimation obtenue explique environ 97% des corrélations des variables que se
soit sur le jeu de données d’identification ou sur le jeu de validation.
De plus, à partir des deux figures (fig 4.17) et (fig 4.18) représentant, respectivement, la
première composante principale non-linéaire obtenue en utilisant le réseau à cinq couches et
l’approche des courbes principales, il est clair que les deux composantes sont quasiment identiques
d’où l’intérêt de cette approche de combinaison. Pour un cas plus compliqué, on peut extraire
plusieurs composantes on utilisant l’algorithme de Verbeek.
3 3
2 2
1 1
3
x3
x
0 0
−1 −1
−2 −2
1.5 1.5
1 1.5 1 1.5
0.5 1 0.5 1
0 0.5 0 0.5
−0.5 −0.5
x2 0 x2 0
x1 x1
2 2
1.5 1.5
1 1
0.5 0.5
0
1
0
t1
t
−0.5 −0.5
−1 −1
−1.5 −1.5
−2 −2
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
Temps Temps
Figure 4.17 – Evolution de la première com- Figure 4.18 – Evolution de la première compo-
posante principale non-linéaire obtenue avec le sante principale non-linéaire obtenue avec l’al-
réseau de neurones à cinq couches gorithme de Verbeek
4.4. Approches neuronales de l’ACPNL 119
Il est clair que le problème d’apprentissage est devenu plus simple en le comparant avec
l’apprentissage du réseau a cinq couches ou le réseau IT. Toutefois, on peut encore simplifier
l’apprentissage en utilisant les réseaux RBF.
t = G(x) (4.34)
r
wi φi (x) = wT Φ(x)
X
t= (4.35)
i=1
x̂ = F(t) (4.36)
r
vj ψj (t) + v0 = VT Ψ(t) + v0
X
x̂ = (4.37)
j=1
où ψj (j = 1, . . . , r) représente les fonctions noyau et V T = [v1 ...vr ] ∈ ℜm×r est la matrice des
poids. v0 est un terme de biais et r représente le nombre de noyaux.
Dans la suite, nous allons considérer deux cas d’apprentissage du réseau RBF pour le calcul
du modèle ACPNL en utilisant deux sous-réseaux RBF a trois couches. Les deux sous-réseau
sont représenté sur les figures (fig 4.19) et (fig 4.20).
120 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
φ1 v01
ψ1
v11
x1 x̂1
w1
x2 x̂2
φ2
. . w2
t
ψ2
. .
t
. . . .
. . .
xm . x̂m
wr
vmr
ψr
φr
Figure 4.19 – Réseau RBF pour la compression Figure 4.20 – Réseau RBF pour la décompres-
des données (projection) sion des données (projection inverse)
Puisque les composantes principales non-linéaires t, représentant a la fois les sorties du pre-
mier réseau (fig 4.19) et les entrées du second réseau (fig 4.20), ne sont pas connues. Webb [104]
propose de calculer les composantes principales à partir du premier réseau en maximisant la
variance de sortie de ce dernier.
L’approche que nous proposons, utilise l’algorithme de Verbeek [101] pour le calcul des com-
posantes principales non linéaires, une fois les composantes connues l’apprentissage des deux
réseaux se ramène à un problème de régression linéaire par rapport aux poids.
(4.38)
wT Bw = 1 (4.40)
où B est une matrice symétrique.
Cette contrainte impose une condition sur le gradient de t [104, 111]. La condition imposée
est que l’amplitude quadratique moyenne du gradient de t soit égale à 1. Dans le cas linéaire
(ℓ = m et φ(xi ) = xi , i = 1, ..., m), on se ramène à la contrainte de normalisation sur les poids
wT w = 1 puisque la matrice B sera une matrice identité.
On cherche à maximiser V ar(t) sous la contrainte précédente :
L = wT Aw − λwT Bw (4.41)
Ce qui revient à résoudre l’équation de vecteurs propres généralisés suivante :
Aw = λBw (4.42)
´T
∂φT ∂φ
³
où bij = ∂xi ∂xj et ∂φ ∂φi ∂φi
∂x = ∂x1 , ..., ∂xm
i
N
à !
1 X ∂tT ∂t
≡ wT Bw = 1 (4.43)
N k=1 ∂x ∂x x=x(k)
Le modèle que nous venons de présenter définit une projection d’un espace de grande dimen-
sion vers un espace à une seule dimension. Étendons cette définition pour un espace de projection
de dimension ℓ > 1 (fig 4.21). Ainsi, on cherche à calculer les poids de ce nouveau réseau à ℓ
composantes. La plus grande différence est par rapport à la contrainte de normalisation, où
l’équation (4.40) est remplacée par :
WBW = Iℓ (4.44)
φ1
w11
x1
t1
w1ℓ
x2 φ2
. .
.
.
. .
. .
xm
.w r1 tℓ
wrℓ
φr
Ici, W = [w1 , ..., wℓ ] représente la matrice des vecteurs de poids. Ainsi la contrainte de
normalisation peut être exprimée par :
N
!
1 X ∂tT ∂tj
i = [Ir ]ij , 1 ≤ i, j ≤ ℓ(4.45)
N k=1 ∂x ∂x x=x(k)
La solution de W peut être calculée en prenant les vecteurs propres correspondant aux ℓ plus
grandes valeurs propres à partir de la solution de la version matricielle de (4.42) :
AW = λBW (4.46)
Pour le calcul de la transformation inverse qui permettra d’estimer x̂ à partir de la composante
principale t donnée par le premier réseau RBF à trois couches, le deuxième réseau RBF (fig 4.20)
est utilisé pour définir cette transformation inverse et qui est donnée par l’équation (4.36). Comme
précédemment et pour simplifier en présentera le cas d’une seule composantes principale
Pour ce deuxième réseau, en supposant pour le moment que les centres et les dispersions des
fonctions radiales sont optimisées, le problème de détermination des poids de la couche de sortie
se ramène à un problème de regression linéaire.
Ainsi, pour le détermination des poids on doit minimiser l’erreur quadratique moyenne :
N
1 X
E= kx(k) − F(t(k))k2 (4.47)
N k=1
A partir de cette équation, on peut constater que l’apprentissage de ces deux réseau reste
une tache compliqué car on a besoin de x̂ qui est donnée par le deuxième réseau. Ainsi, les deux
réseaux ne sont pas totalement indépendants la procédure d’apprentissage doit mettre à jour les
centres, les dispersions et les poids des deux réseaux.
Pour plus de simplification, nous proposons de combiner les réseau RBF à trois couches et
les courbes principales.
4.4. Approches neuronales de l’ACPNL 123
N
1X
E= (tk − G(xk ))2 (4.52)
2 k=1
Pour la détermination des règles d’adaptation des deux vecteurs de paramètres (centres et
dispersions), ont doit calculer le gradient de (4.52) par rapport aux centres ci et aux dispersions
σi . Ainsi nous obtenons :
N
∂E X ∂G(xk )
= (G (xk ) − tk ) (4.53)
∂ci k=1 ∂ci
∂G(xk )
avec ∂ci = wi xkσ−c
2 φi (xk ) et
i
i
N
∂E X ∂G(xk )
= (G(xk ) − tk ) (4.54)
∂σi k=1 ∂σi
2
∂G(xk )
avec ∂σi = wi kci −x
σ3
kk
φi (xk ).
i
Ces deux dérivées sont utilisées pour la minimisation de (4.52) par la méthode du gradient
et les poids wi sont solution des moindres carrés minimisant (4.52) :
³ ´−1
w = ΦT Φ ΦT T (4.55)
où la ieme colonne de ΦT est φ(xi ) = (φ1 (xi ), ..., φr (xi )), wT = (w1 , ..., wr ) et la ieme composante
de T est ti .
L’apprentissage du deuxième réseau est identique au premier en ayant la composante t comme
entrée et les variables originelles x comme sorties. La solution est donnée par la même expression
(4.49).
124 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
³ ´ ³ ´
Cependant, l’inversion des matrices ΦT Φ et ΨT0 Ψ0 peut être sujette à des problème
numériques liés à son mauvais conditionnement. Pour éviter ce type de problème, des techniques
de régularisation [29, 74] sont appliquées pour stabiliser la solution des moindres carrés.
Le résultat de l’application de l’approche proposé à notre exemple est illustré sur les figures
(fig 4.22) et (fig 4.23).
3 3
2 2
1 1
3
x3
x
0 0
−1 −1
−2 −2
1.5 1.5
1 1.5 1 1.5
0.5 1 0.5 1
0 0.5 0 0.5
−0.5 −0.5
x2 0 x2 0
x1 x1
Le tableau (tab 4.1) présente les corrélations expliquées dans le cas des différentes approches.
Table 4.1 – Corrélation expliquée par la première composante avec les quatre réalisations de
l’ACP : ACP linéaire, ACNL 1 (réseau à cinq couches), ACPNL 2 (réseaux MLP à trois couches
et courbes principales), ACPNL 3 (réseaux RBF et courbes principales)
Pour cet exemple, on a constaté que le fait d’utiliser les réseaux RBF pour construire le
modèle ACPNL permet de simplifier le problème et de diminuer considérablement le temps de
calcul tout en ayant la même qualité d’estimation des variables.
Dans notre travail nous n’avons pas traité le problème de l’optimisation de la structure
des couches cachées. Cependant, nous nous sommes intéressé au problème de détermination du
nombre de composantes à retenir dans le modèle ACPNL (nombre de neurones de la couche
de sortie du premier réseau et qui représente le nombre de neurones de la couche d’entrée du
deuxième réseau).
Webb [105] propose d’utiliser un indice classique pour la détermination du nombre de com-
posantes non linéaires :
4.4. Approches neuronales de l’ACPNL 125
° °2 12
X̂ − X
° °
° °
ε = ° (4.56)
°X − X̄ °2
°
où X̂ est l’estimation de X par le modèle neuronal et X̄ est une matrice dont les lignes repré-
sentent le vecteur de moyenne de la matrice X.
Dans le cas d’une ACP linéaire utilisant les ℓ premières composantes :
m 1
P 2
λi
i=ℓ+1
ε= P (4.57)
m
λi
i=1
ε2 = 1 − η (4.58)
ℓ
P
λi
où η = i=1
Pm donne le fraction de la variance retenue dans un espace de dimension ℓ défini par
λi
i=1
les vecteurs propres associés à ces valeurs propres.
Dans le cas non linéaire, on va augmenter le nombre ℓ progressivement et on surveille la valeur
de ε. Cependant, nous avons déjà vu, dans le cas linéaire, que l’utilisation d’un tel indice tend
à considérer un nombre excessif de composantes. Pour cette raison, nous proposons d’étendre le
principe de la variance non reconstruite dans le cas non linéaire.
A partir des données représentées par le vecteur x, on peut calculer le vecteur des composantes
principales t par :
r
X
t= wj φ(yj ) (4.59)
j=1
° x−c °2
° °
où yj = − 12 ° σj j ° . De plus, on peut obtenir l’estimation de x par :
SP E = eT e = kx − x̂k2 (4.61)
La reconstruction de la ieme variable notée zi peut être effectuée, comme dans le cas linéaire,
par minimisation du SP E par rapport à cette variable.
126 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
à !
∂SP E ∂ψ T (t)
= ξiT − V (x − x̂) = 0 (4.62)
∂zi ∂zi
On a les résultats intermédiaires suivants :
∂ψ T (t) ∂t ∂ψ T (t)
= (4.63)
∂zi ∂zi ∂t
r
∂t X ∂φ(yj )
= wj (4.64)
∂zi j=1 ∂zi
r
( Ã ! )
∂SP E T 1 x − cj ∂φ(yj ) ∂ψ T (t)
wj ξiT
X
= ξi + V (x − x̂) = 0
∂zi j=1
σj σj ∂yj ∂t
r
( Ã ! )
1 x − cj ∂φ(yj ) ∂ψ T (t)
ξiT x ξiT x̂ wj ξiT
X
− + V (x − x̂) = 0
j=1
σj σj ∂yj ∂t
Or x̂ = V T ψ(t) et ξiT x = zi .
r
" Ã ! #
zi − cij ∂φj ∂ψ T ³ ´
ξiT V T ψ(t) V x − V T ψ(t) = 0
X
zi − + wj
j=1
σj2 ∂yj ∂t
r
" Ã ! #
zi − cij ∂φj ∂ψ T ³ ´
ξiT V T ψ(t) V x − V T ψ(t)
X
zi = − wj (4.67)
j=1
σj2 ∂yj ∂t
où x(i) représente le vecteur des mesures sans la ieme variables et Vi est la matrice des poids dont
la ieme colonne est éliminée.
4.4. Approches neuronales de l’ACPNL 127
µ° °2 ¶
∂ °x(i) − ViT ψ(t)°
° °
∂SP E (i)
= (4.70)
∂t ∂t
∂ψ T ³ ´ ∂ψ T ³ (i) ´ ∂ψ T ³ ´
V x − V T ψ(t) = Vi x − ViT ψ(t) + vi zi − viT ψ(t) (4.73)
∂t ∂t ∂t
où viT est la iieme colonne de la matrice V .
Puisque la reconstruction zi est obtenue par projection répétée via le modèle non linéaire, à
la convergence zi = viT ψ(t) et ainsi le second terme de l’équation (4.72) s’annulera. Si on note t̂
la valeur de t obtenue à la convergence par t̂, alors l’expression de zi peut s’écrire sous la forme :
Ainsi nous proposons une méthode de reconstruction dans le cas non linéaire pour la déter-
mination du nombre de composantes à retenir dans le modèle ACPNL et qui peut être utiliser
pour la localisation de défauts. Cette méthode utilise l’équation (4.72) pour la reconstruction des
variables :
r
" Ã (iter−1) ! #
(iter) zi − cij ∂φj ∂ψ T ³ (iter−1) ´
ξiT V T ψ(t) − viT ψ(t)
X
zi = − wj vi zi (4.75)
j=1
σj2 ∂yj ∂t
Comme c’est une méthode itérative, il faut choisir une initialisation pour zi . Nous avons
(0)
choisi de poser comme valeur initiale (iter = 0) zi = xi . Après convergence zi est la valeur
reconstruite de xi . Ainsi, la variance non reconstruite de la ieme variable, en utilisant un modèle
avec ℓ composantes, est définie comme dans le cas linéaire par :
n o
ρi (ℓ) = var {xi − zi } = E (xi − zi )2 (4.76)
et le critère à minimiser par rapport à ℓ est donné par :
m
X
min ρi (ℓ) (4.77)
ℓ
i=1
Pour illustrer cette approche, nous proposons l’exemple à deux variables suivant :
x1 = a2 + ǫ1
(4.78)
x2 = a + ǫ2
où a ∈ [−1, 1] est une variable aléatoire uniforme et ǫi un bruit aléatoire uniformément distribué
dans l’intervalle [−0.1, 0.1].
128 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
Le modèle ACPNL à deux réseaux RBF à trois couches est utilisé. Chaque réseau a trois
neurones dans sa couche cachée. La variance non reconstruite calculée (4.77), pour les différents
nombre de composantes ℓ = 1, 2, 3, est représentée dans le tableau (tab 5.3).
Ainsi, le nombre de composantes à retenir dans le modèle est ℓ = 1. L’estimation fournie par
le modèle ACPNL à une composante est représenté sur la figure (fig 4.24).
1.5
0.5
Mesure
x2
0
Estimation
−0.5
−1
−1.5
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
x1
Dans la suite nous allons simuler un biais d’une amplitude égale à 1 sur la première variable
entre les instants 134 et 161. Les figures (fig 4.25) et (fig 4.26) représentent respectivement
les mesures avec le défaut et la reconstruction de la première variable ainsi que l’erreur de
reconstruction.
A partir de ces dernières figures, la reconstruction de la variable x1 est très satisfaisante et
l’amplitude du défaut peut être estimée en calculant l’erreur de reconstruction (fig 4.25).
Il faut noter que l’algorithme converge assez rapidement, toutefois, il reste à trouver les
conditions de convergence.
Une fois le modèle ACPNL déterminé, les résidus peuvent être générés pour effectuer le
diagnostic de fonctionnement du processus.
4.5. Conclusion 129
1.5
1.2
1 1 Reconstruction de x1
0.8
0.5
Recontsruction de x
1
Mesure avec défaut 0.6
2
0
x
Erreur
0.4
−0.5
0.2
−1
0
−1.5
−0.2 0 0.2 0.4 0.6 0.8 1 1.2 −0.2
50 100 150 200 250 300 350 400
x1
Temps
4.5 Conclusion
Dans ce chapitre nous avons présenté le principe de l’analyse en composantes principales non
linéaire. Ainsi, plusieurs approches utilisées pour le calcul du modèle ACPNL sont présentés.
Dans un premier temps, nous avons présenté le principe de l’approche des courbes principales.
Cet approche est une généralisation non paramétrique de l’analyse en composantes principales
dans le cas non-linéaire. Cependant, elle ne permet pas d’avoir un modèle de représentation et
donc elle n’est pas intéressante pour des objecifs de diagnostic.
Les approches neuronales semblent plus intéressantes pour la modélisation des systèmes non
linéaires. Ainsi, plusieurs approches sont présentées utilisant différentes structures des réseaux de
neurones. Le réseau le plus utilisé pour le calcul de l’ACPNL est un réseau à cinq couches. Vue
la taille du réseau, le nombre de paramètres à optimiser est considérable et donc l’apprentissage
est plus difficile. Pour simplifier l’apprentissage, d’autres alternatives ont été proposées. Ainsi, on
trouve le réseau à trois couches (IT network) dont la procédure d’optimisation cherche à optimiser
les entrées de ce réseau (représentant les composantes principales) en plus de l’optimisation des
poids. L’autre solution de ce problème consiste à combiner les courbes principales et les réseaux
de neurones à trois couches. Ainsi, le modèle ACPNL est obtenu par apprentissage supervisé de
deux réseaux de neurones à trois couches. Cependant, comme l’apprentissage de ces réseaux pose
souvent énormément de problèmes de convergence et d’initialisation, les réseau RBF semblent
être plus intéressants à utiliser.
Ainsi, nous proposons une méthode pour le calcul du modèle ACPNL en combinant des ré-
seaux RBF à trois couches et l’approche des courbes principales. Ce qui permet d’obtenir un
modèle ACPNL dont la solution des poids est donnée par une estimation des moindres carrés
pour les deux réseaux. Ainsi, le temps de calcul est considérablement réduit par rapport aux
approches utilisant les réseaux de neurones. De plus, pour la détermination du nombre de com-
posantes principales, les réseaux RBF offre la possibilité d’étendre le critère de la variance non
reconstruite pour la sélection du nombre de composantes dans le cas non-linéaire. Ainsi, nous
avons proposé une méthode pour la détermination de ce nombre en exploitant le critère de mi-
nimisation de la variance non reconstruite développé dans le cas linéaire. Les résultats obtenus
sont très satisfaisants. Il nous reste à trouver les conditions de convergence de la méthode pro-
posée. Les résultats obtenus sont encourageants pour appliquer les procédures proposées sur des
systèmes plus compliqués et en optimisant la structure des réseau RBF utilisées.
130 Chapitre 4. Analyse en composantes principales non linéaires (ACPNL)
Détection et localisation de défauts capteurs d’un
5
réseau de surveillance de la qualité de l’air
Sommaire
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.2 Description du phénomène . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.3 Description du réseau de surveillance de la qualité de l’air . . . . . 133
5.4 Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.5 Application de l’ACP linéaire . . . . . . . . . . . . . . . . . . . . . . . 139
5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.1 Introduction
Beaucoup d’activités humaines produisent des polluants primaires comme les oxydes d’azote
(NO2 et NO), le dioxyde de soufre et les composés organiques volatiles (COV) qui forment dans
la basse atmosphère, par des réactions chimiques ou photochimiques, des polluants secondaires
comme l’ozone.
Un certain nombre de ces polluants sont susceptibles de poser des problèmes pour la santé
humaine et les systèmes écologiques. C’est pourquoi une directive européenne a défini des normes
de qualité de l’air afin de protéger la santé humaine. Ainsi, les valeurs seuils suivantes ont été
fixées pour la concentration d’ozone :
– 360µg/m3 (valeur moyenne sur une heure) : seuil d’alerte de la population,
– 180µg/m3 (valeur moyenne sur une heure) : seuil d’information de la population,
– 110µg/m3 (valeur moyenne sur une heure) : seuil de protection pour la santé.
et des seuils ont été également étendus aux NOx .
La surveillance de la qualité de l’air est effectuée par les réseaux de mesures. Leurs missions
sont : la production de données (mesures de concentration de polluants et d’un ensemble de
paramètres météorologiques liés aux événements de pollution) comprenant la gestion des réseaux
131
132 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
Dans une atmosphère non polluée, l’ozone résulte principalement de la seule réaction de
combinaison d’un atome d’oxygène O avec l’oxygène de l’air O2 en présence d’un corps stabilisant
M (fig 5.1). L’atome d’oxygène nécessaire à cette réaction est obtenu par photodissociation du
dioxyde d’azote NO2 en NO et O. Mais la molécule de NO ainsi formée est oxydée rapidement
par l’ozone pour reformer le NO2 . Il s’établit un cycle appelé cycle de Chapman [1]. Un régime
stationnaire s’établit, caractérisé par une concentration d’ozone plus ou moins constante qui
dépend des concentrations de NO et de NO2 et des vitesses des trois réactions.
Production de l’ozone
N O2 + hv(λ < 400nm) → N O + O
O + O 2 + M → O3 + M
Destruction de l’ozone
N O + O3 → N O 2 + O2
Dès lors, une augmentation de la concentration d’ozone est due à une transformation du NO
en NO2 sans consommation de molécules d’ozone. En atmosphère polluée, l’action de produits
comme les composés organiques volatiles COV (hydrocarbures et composés oxygénés) et l’aérosol
urbain perturbent le cycle de Chapman en offrant des voies d’oxydation des NO autres que celle de
l’ozone. L’action de ces composés conduit, à travers une série de réactions chimiques complexes,
à une oxydation de NO en NO2 sans destruction de l’ozone. Les molécules de NO2 formées sont
ensuite dissociées sous l’action de la lumière. Les atomes d’oxygène O qui en résultent alimentent
le processus de production de l’ozone. Par conséquent, on comprend aisément l’augmentation de
la teneur en ozone dès que le rayonnement solaire est suffisamment intense. Une partie des NO
participe à la destruction de l’ozone alors que l’autre partie se combine de nouveau beaucoup
plus rapidement avec les COV pour produire du NO2 . Il faut noter que l’ozone O3 est moins
localisé et donc plus facile à modéliser. De plus, comme les COV et les oxydes d’azote NO et NO2
sont des polluants émis et liés à l’activité humaine (transport, chauffage collectif, industries,...)
ils sont donc plus localisés que l’ozone et donc plus difficiles à relier les mesures des différents
sites.
– température (◦ C),
– humidité relative (%),
– rayonnement solaire global (W/m2 ),
– pression atmosphérique (hPa),
– vitesse du vent (m/s),
– direction du vent (degré).
Une station de mesure est un local dans lequel se trouvent des analyseurs. L’air extérieur
est pompé et amené jusqu’à l’analyseur qui va mesurer sa teneur en un ou plusieurs polluants
spécifiques. L’air est prélevé à 3 mètres environ. La mesure se fait en continu tous les quarts
d’heure, 24 heures sur 24 et toute l’année. Les stations de mesures, réparties sur différents sec-
teurs géographique, sont reliées à un ordinateur central par ligne téléphonique. Les données sont
ainsi télétransmises tous les jours. Elles sont validées manuellement, traitées statistiquement et
analysées avant d’être transmises aux médias et à une banque de données nationale (fig 5.3).
Nous disposons des mesures pour les sites de mesures du réseau AIRLOR. Les dates indi-
quées sur le tableau (tab 5.1) correspondent aux jours pour lesquels les premières mesures sont
disponibles.
Les figures (fig 5.4), (fig 5.5) et (fig 5.6) présentent l’évolution des concentrations de O3 , NO2
et NO pour les trois sites Brabois, Nancy kennedy (Dan) et Fléville.
Sur ces figures, il peut être remarqué que la concentration d’ozone est modulée par un cycle
jour-nuit et présente une évolution quotidienne sous la forme d’une courbe en cloche. Faible la
nuit, le niveau d’ozone augmente progressivement en début de journée pour atteindre ses valeurs
maximales dans l’après-midi. Il descend ensuite à une valeur nocturne faible et comparable à
celle de la veille.
Ainsi, on remarque qu’il y a des valeurs manquantes pour le site de Brabois par exemple
pour les trois signaux O3 , NO et NO2 (panne de batterie par exemple). On constate également
que le O3 de Brabois et celui de Fléville sont comparables en évolution et en ordre de grandeur
alors que le O3 de Dan est comparable uniquement en évolution par rapport aux deux premiers
(fig 5.4). Ainsi, il est possible de trouver des modèles reliant ces différentes grandeurs. Les NO2
5.3. Description du réseau de surveillance de la qualité de l’air 135
Figure 5.3 – Schéma du système d’acquisition et d’archivage des données caractérisant la qualité
de l’air.
Station N Ox O3
Bar le Duc 05/01/95 05/01/95 05/01/95 05/01/95 05/01/95
Brabois 03/07/94 03/07/94 - 03/07/94 03/07/94
Nancy Centre DAN 00/07/94 00/07/94 00/07/94 00/07/94 -
Fléville 27/01/95 27/01/95 - 27/01/95 -
Tomblaine 12/12/95 12/12/95 - 12/12/95 -
St Nicolas 04/07/95 04/07/95 - 04/07/95 04/07/95
Lunéville 11/12/95 11/12/95 - 11/12/95 -
Epinal 24/03/95 24/03/95 24/03/95 24/03/95 24/03/95
par contre sont très différents pour les trois sites (fig 5.5) alors que pour le NO les mesures sur les
trois sites sont un peu plus comparables (fig 5.6) que les NO2 . D’où le problème de modélisation
de ces deux derniers polluants.
136 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
En se référant au tracé comparatif de l’ozone et des NOx , on peut constater que les concentra-
tions de NOx et d’ozone varient en raison inverse. La nuit, les NOx sont présents alors que l’ozone
est piégé. En début de journée, quand le niveau d’ozone monte, il y a décroissance de celui des
NOx . La relation inverse s’établit en fin de journée au moment de la baisse de la concentration
d’ozone (fig 5.7) et (fig 5.8).
150
Ozone de Brabois
O3(µ g/m )
3
100
50
50
0
1.8 1.82 1.84 1.86 1.88 1.9 1.92
4
x 10
Ozone de Fléville
O3(µ g/m )
100
3
50
0
1.8 1.82 1.84 1.86 1.88 1.9 1.92
Temps(quart−horaire) 4
x 10
Figure 5.4 – Concentration d’ozone des sites de Brabois, Dan et Fléville sur une période de
quelques jours
400 NO de Brabois
NO2(µ g/m ) 2
3
300
200
100
100
50
80
60
40
20
1.8 1.82 1.84 1.86 1.88 1.9 1.92
Temps(quart−horaire) 4
x 10
Figure 5.5 – Concentration de N O2 des sites de Brabois, Dan et Fléville sur une période de
quelques jours
300 NO de Brabois
NO(µ g/m )
3
200
100
0
1.8 1.82 1.84 1.86 1.88 1.9 1.92
4
400 x 10
NO de Dan
NO(µ g/m )
300
3
200
100
100
0
1.8 1.82 1.84 1.86 1.88 1.9 1.92
Temps(quart−horaire) 4
x 10
Figure 5.6 – Concentration de NO des sites de Brabois, Dan et Fléville sur une période de
quelques jours
la concentration d’ozone d’un site et celles délivrées par d’autres capteurs d’ozone sur d’autres
sites, fonctionne bien pour les valeurs maximales obtenues pendant l’après-midi mais pose des
problèmes en début et fin de journée. On a constaté également que le fait d’ajouter d’autres
138 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
O3 de Fléville
100 NO2 de Fléville
50
0
9000 9100 9200 9300 9400 9500 9600
O3 de Tomblaine
100
NO2 de Tomblaine
50
0
9000 9100 9200 9300 9400 9500 9600
O3 de Lunéville
100 NO2 de Lunéville
50
0
9000 9100 9200 9300 9400 9500 9600
Temps(quart−horaire)
Figure 5.7 – Concentration d’ozone et de NO2 des sites de Fléville, Tomblaine et Lunéville.
O3 de Fléville
100 NO de Fléville
50
0
9000 9100 9200 9300 9400 9500 9600
O3 de Tomblaine
100
NO de Tomblaine
50
0
9000 9100 9200 9300 9400 9500 9600
O3 de Lunéville
100
NO de Lunéville
50
0
9000 9100 9200 9300 9400 9500 9600
Temps(quart−horaire)
variables explicatives dans le modèle telles que les concentrations en NO2 et NO permet de pal-
lier en partie aux limitations du modèle précédent et l’erreur était inférieure à 20µg/m3 tout
en sachant que l’erreur relative de mesure des capteurs d’ozone est de 15%. Cependant, on doit
chercher un ensemble de modèles pour les différents capteurs. En revanche, pour les systèmes avec
un grand nombre de capteurs, établir de tels modèles pour les variables paraît moins immédiat.
5.5. Application de l’ACP linéaire 139
De plus, le choix de modèle pour la génération de résidus est arbitraire et il se peut très bien
que les corrélations entre certaines variables ne soient pas prise en compte. Pour cette raison, on
utilise l’ACP car avec cette méthode toutes les corrélations entre les variables sont prisent en
compte.
Ainsi, l’application de l’analyse en composantes principales devrait nous permettre de mieux
prendre en compte les changement dans les la nature de la dépendance entre ozone et NO2 et
NO.
Corrélation
1
11
12
14
15
18
17
10
16
13
N°
9
3
2
8
1
7
0.8
11
12 0.6
9
3 0.4
2
8 0.2
14
15 0
6
18 −0.2
17
5
−0.4
10
16
−0.6
1
7
−0.8
13
4
−1
Pour l’identification du modèle ACP, la matrice des corrélations des mesures est calculée. Sur
le tableau (tab 5.2), on présente les valeurs propres de la matrice des corrélations des données
ainsi que les parts de corrélation expliquée par chaque valeur propre. Pour définir la structure du
modèle ACP on doit déterminer le nombre de composantes à retenir dans ce modèle en utilisant
le critère de la variance non reconstruite. Le tableau (tab 5.3) représente les variances non
reconstruites des différentes variables pour différentes valeurs de ℓ et la figure (fig 5.10) présente
l’évolution du critère de la variance non reconstruire en fonction du nombre de composantes.
Ainsi, pour notre application, un modèle ACP à sept composantes a été retenu ce qui explique
91% des corrélations entre les variables. Alors qu’en utilisant le critère sur les valeurs propres on
trouve un ℓ = 5 en expliquant uniquement 85% des corrélations. Il faut rappeler que ce dernier
critère a donné le même nombre ℓ que le critère de la variance non reconstruire appliqué sur les
exemples de simulation dans le chapitre 2. Ainsi, en pratique on montre bien les limites d’un tel
critère.
A partir du tableau (tab 5.3) et pour ℓ = 7, on constate que toutes les variables peuvent être
reconstruites mais il y a quelque difficultés envisageables pour les variables 9, 11, 12 et 15 qui
ont des coefficients un peu élevés par rapport aux autres variables. Il faut noter que ces variables
représentent, respectivement, le NO mesuré sur le site de Fléville, NO2 et NO de Dan, et le NO2
de St-Nicolas.
Ainsi, les deux matrices (5.1) et (5.2) représentent respectivement la matrices des premiers
vecteurs propres retenus dans le modèle ACP et la matrice des derniers vecteurs propres repré-
sentant l’espace résiduel.
5.5. Application de l’ACP linéaire 141
15
14
13
12
Variance Non Reconstruite
11
10
4
2 4 6 8 10 12 14 16
Nombre de Composantes
−0.09 0.11 −0.08 0.01 0.04 0.48 −0.68 0.00 0.18 −0.01 −0.22
0.30 0.00 0.04 0.04 0.01 −0.05 0.08 −0.09 0.01 −0.05 −0.71
0.62 0.30 0.07 0.04 0.11 −0.01 0.04 −0.26 0.07 −0.02 0.62
0.03 0.10 0.04 −0.01 0.30 0.40 0.53 0.35 0.13 0.13 0.07
−0.04 −0.27 −0.19 −0.18 −0.34 0.25 0.18 0.18 0.05 0.08 0.04
0.07 0.22 0.37 0.33 0.38 0.04 0.10 −0.02 −0.00 0.01 −0.01
0.08 0.05 −0.02 0.07 −0.13 −0.14 0.11 −0.61 0.14 0.59 0.08
−0.32 −0.15 0.26 −0.26 0.53 −0.05 −0.19 −0.12 0.05 0.23 0.03
−0.78 0.13 −0.13 0.13 −0.16 −0.06 0.11 −0.02 −0.01 −0.01 −0.00
P̃ =
−0.02 0.04 −0.05 −0.01 0.09 −0.20 −0.10 0.21 −0.82 0.15 −0.06
(5.2)
0.06 0.41 0.27 0.09 −0.32 0.07 −0.00 0.01 −0.14 0.03 −0.00
0.15 −0.43 −0.33 −0.09 0.26 −0.10 −0.00 −0.01 −0.01 0.03 0.02
−0.05 −0.07 0.12 −0.09 0.08 0.03 0.16 −0.46 −0.10 −0.70 0.13
0.15 0.44 −0.57 −0.05 0.15 −0.14 −0.00 −0.08 0.06 −0.12 0.04
0.09 −0.38 0.34 0.06 −0.28 0.03 −0.07 −0.00 −0.06 −0.00 0.00
−0.01 0.07 0.19 −0.13 −0.04 −0.62 −0.10 0.37 0.42 −0.09 −0.01
−0.02 −0.17 −0.11 0.52 0.03 −0.15 −0.02 0.12 0.12 −0.06 0.00
0.07 0.20 0.13 −0.64 −0.08 −0.01 0.03 0.00 −0.01 0.01 0.01
Les trois figures (fig 5.11), (fig 5.12) et (fig 5.13) présentent, respectivement, les mesures et les
estimations d’ozone, de NO2 et de NO pour une station de mesure. Les estimations sont données
par le modèle ACP.
5.5. Application de l’ACP linéaire 143
120
100
O (µ g/m3)
80
3
60
40
20
0 100 200 300 400 500 600 700 800 900 1000
Temps
Figure 5.11 – Mesure et estimation de l’ozone de Brabois (v1 ) par le modèle ACP linéaire.
Mesure NO2−BRA
500
Estimation
450
400
350
NO (µ g/m3)
300
250
2
200
150
100
50
0 100 200 300 400 500 600 700 800 900 1000
Temps
En tenant compte de la nature du processus modélisé, les résultats obtenus sont très satisfai-
sants avec le modèle ACP obtenu. En effet, on estime la plupart des pics de NO, O3 et NO2 qui
sont prépondérants pour les procédures d’alerte. De plus, dans le cas des oxydes d’azote (NO et
144 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
Mesure NOBRA
300 Estimation
250
200
NO (µ g/m3)
150
100
50
0 100 200 300 400 500 600 700 800 900 1000
Temps
NO2 ) qui sont des polluants plus localisés, et plus difficile à modéliser, l’estimation de ces deux
grandeurs reste correcte pour les faibles valeurs ainsi que pour les valeurs élevées.
Basés sur le modèle ACP déjà obtenu, les indices de détection et de localisation de capteurs
défaillants peuvent être calculés en ligne. Ainsi, la figure (fig 5.14) présente l’évolution du SP E
et SP E filtré en présence d’un défaut affectant la variable v7 (O3 de Fléville). L’amplitude du
défaut simulé s’élève à environ 20% de la plage de variation de la mesure v7 entre les instants
800 et 1080. Comme on peut le constater sur la figure (fig 5.14), le défaut n’est pas détecté sur
SP E ni sur SP E filtré à cause des erreurs de modélisation. Face à ce problème, trois solutions
sont envisageables :
– la première solution consiste à considérer plus de composantes dans le modèle afin de
réduire les erreurs de modélisation, mais en adoptant cette solution certains défauts ne
seront plus détectables car ils seront directement projetés dans le sous-espace principal,
– la deuxième solution consiste à calculer des indices de détection dans les différents sous-
espaces résiduels (somme successive des carrés des dernières composantes principales),
– la troisième solution utilise une approche non-linéaire pour la modélisation du processus.
Nous avons opté pour la solution utilisant l’indice de détection Di que nous avons développé
dans le troisième chapitre de cette thèse. En appliquant la procédure de détection utilisant la
somme des carrés des dernières composantes principales, le défaut a été très nettement détecté
sur l’indice D2 filtré (somme des carrés des deux dernières composantes) (fig 5.15).
Une fois le défaut détecté, nous cherchons à localiser la variable en défaut. Pour cela, deux
approches ont été appliquées : la première consiste à exploiter la procédure de reconstruction et
la deuxième approche consiste à calculer les contributions des différentes variables à l’indice de
détection D2 .
Ainsi, le résultat de l’application de la première approche est illustré sur les deux figures
(fig 5.16) et (fig 5.17).
5.5. Application de l’ACP linéaire 145
40
30
SPE
20
10
0
0 100 200 300 400 500 600 700 800 900 1000
Temps
3
SPE Filtré
0
0 100 200 300 400 500 600 700 800 900 1000
Temps
Figure 5.14 – Evolution de l’erreur quadratique en présence d’un défaut affectant la variable 7.
0.5
0.4
Indice D Filtré
0.3
2
0.2
0.1
0
0 100 200 300 400 500 600 700 800 900 1000
Temps
La figure (fig 5.16) présente l’évolution des différents indices de détection calculés après la
reconstruction d’une variable parmi l’ensemble des variables à surveiller. Il est clair que l’indice
calculé après la reconstruction de la variable v7 ne présente pas un dépassement de son seuil ce
146 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
qui implique que la variable considérée est la variable en défaut. Ce résultat est confirmé par la
figure (fig 5.17).
Filtré
D2 Filtré
0.4 0.4 0.4
D(1)
D(2)
(3)
0.2 0.2 0.2
2
2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
0.6 0.6 0.6
Filtré
Filtré
D2 Filtré
0.4 0.4 0.4
D(4)
D(5)
(6)
0.2 0.2 0.2
2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
0.2 0.6 0.6
Filtré
Filtré
D2 Filtré
0.4 0.4
0.1
D(7)
D(8)
(9)
0.2 0.2
2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
Filtré
D(11)
(12)
D2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
0.6 0.6 0.6
Filtré
Filtré
Filtré
D(14)
(15)
D2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
0.6 0.6 0.6
Filtré
Filtré
Filtré
D(17)
(18)
D2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Temps Temps Temps
1.8
1.6
1.4
1.2
A(j)
1
2
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18
Variables
(j)
Figure 5.17 – Localisation par l’indice A2 calculé après la reconstruction de la j eme variable.
0.08
0.07
0.06
0.05
Contributions
0.04
0.03
0.02
0.01
0
0 2 4 6 8 10 12 14 16 18 20
Variables
Figure 5.18 – Localisation par calcul des contributions des variables à l’indice D2 .
modèle ACP et les mesures des autres capteurs. La figure (fig 5.19) représente l’évolution de la
variable v7 représentant l’ozone mesuré par la station de Fléville, l’évolution de cette variable
avec le défaut simulé et la reconstruction de cette dernière.
148 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
150
Mesures reconstruites
Mesures avec défaut
Mesures sans défaut
100
3−FLE
O
50
0
700 750 800 850 900 950 1000 1050
Temps
Un autre défaut a été simulé sur une autre variable v10 représentant l’ozone de St-Nicolas.
Le défaut simulé est un biais avec une amplitude d’environ 20% de la plage de variation de cette
variable entre les instant 800 et 1080.
L’application de la procédure de détection a permis de détecter le défaut à l’instant 805 sur
l’indice D3 filtré qui est représenté sur la figure (fig 5.20). Il faut noter que le retard à la détection
est assez faible de plus que la détection est nette.
Pour la localisation de la variable incriminée, les figures (fig 5.21) et (fig 5.22) présentent le
résultat de l’application de l’approche basée sur le principe de reconstruction. Ainsi, sur la figure
(10)
(fig 5.21) l’évolution des différents indices indique que c’est l’indice D3 qui ne présente pas de
dépassement de son seuil ce qui indique que la variable v10 est la variable incriminée comme le
montre la figure (fig 5.22).
La figure (fig 5.23) présente les contribution des différentes variables à l’indice de détection
D3 filtré calculé à l’instant de détection et montre que v10 est la variable en défaut.
On a montré que la procédure de détection et localisation marche très bien pour les variables
v7 et v10 , vue les corrélations entre les différents capteurs d’ozone, on est à peu près sûr que sa
marche aussi pour tous les O3 surtout avec les résultats du tableau (tab 5.3) et la matrice des
derniers vecteurs propres (5.2).
Maintenant intéressons nous aux NOx qui sont des signaux plus difficiles à modéliser.
Dans la suite nous allons considérer le cas des oxydes d’azote. Dans un premier temps,
nous allons simuler un défaut affectant la variable v2 représentant le NO2 de Brabois avec une
amplitude d’environs 20% de la plage de variation de cette variable entre les instants 800 et 1080.
A partir de la matrice des derniers vecteurs propres il est évident que le défaut sera détecté en
utilisant l’indice D1 car cette variable apparaît avec un coefficient de −0.7 sur le dernier vecteur
propre. Ainsi, l’évolution de l’indice D1 filtré en présence de ce défaut est illustré sur la figure
(fig 5.25).
Comme dans le cas de l’ozone, pour la localisation on applique les deux approches de recons-
5.5. Application de l’ACP linéaire 149
0.9
0.8
0.7
0.6
D Filtré
0.5
3
0.4
0.3
0.2
0.1
0
500 600 700 800 900 1000
Temps
Figure 5.20 – Evolution de l’indice D3 filtré en présence d’un défaut affectant la variable v10 .
1 1 1
Filtré
Filtré
D3 Filtré
0.5 0.5 0.5
D(1)
D(2)
(3)
3
3
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1
0.8
Filtré
Filtré
D3 Filtré
0.6
0.5 0.5
0.4
D(4)
D(5)
(6)
3
0.2 3
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1 1
Filtré
Filtré
D3 Filtré
0.5 0.5 0.5
D(7)
D(8)
(9)
3
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
0.4 1 1
Filtré
Filtré
Filtré
D(11)
(12)
3
D3
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1 1
Filtré
Filtré
Filtré
D(14)
(15)
3
D3
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1
0.8
Filtré
Filtré
Filtré
0.6
0.4 0.5 0.5
D(16)
D(17)
(18)
3
D3
0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Temps Temps Temps
du fait de la nature des polluants traités. En effet les oxydes d’azote sont des polluants localisés
qui dépends de phénomènes non mesurés comme les COV par exemple et la circulation des
voiture.
Toutefois, il faut noter que certaines variables seront plus difficilement reconstructibles. Ces
variables ont les coefficients les plus forts dans le tableau des variances non reconstruites.
5.6. Conclusion 151
1.8
1.6
1.4
1.2
A(j)
1
3
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18
Variables
(j)
Figure 5.22 – Localisation par l’indice A2 calculé après la reconstruction de la j eme variable.
0.1
0.09
0.08
0.07
0.06
Contributions
0.05
0.04
0.03
0.02
0.01
0
0 2 4 6 8 10 12 14 16 18 20
Variables
Figure 5.23 – Localisation de la variable v10 par calcul des contributions des variables à l’indice
D3 .
5.6 Conclusion
Ce chapitre à été consacré à l’application de l’analyse en composantes principales pour la
détection et la localisation de défauts de capteurs d’un réseau de surveillance de la qualité de
152 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
160
Mesures reconstruites
Mesures avec défaut
140 Mesures sans défaut
120
100
80
60
40
20
0
700 750 800 850 900 950 1000 1050
Temps
0.9
0.8
0.7
Indice D Filtré
0.6
1
0.5
0.4
0.3
0.2
0.1
0
0 100 200 300 400 500 600 700 800 900 1000
Temps
Figure 5.25 – Evolution de l’indice D1 filtré en présence d’un défaut affectant la variable v2 .
l’air. Une partie du réseau a été prise en compte et une partie des données sur une période de
plusieurs jours. Ainsi, 18 variables correspondant à six stations de mesures ont été considérées.
Un modèle ACP a été identifié avec sept composantes en minimisant la variance de l’erreur de
reconstruction.
Le modèle établi permet ainsi une prédiction satisfaisante des concentrations de polluant pour
chacun des capteurs à partir les mesures fournies par l’ensemble des capteurs. On arrive à estimer
5.6. Conclusion 153
0.15
0.8 0.3
Filtré
Filtré
Filtré
0.6 0.1
0.2
0.4
(1)
(2)
(3)
0.05
1
1
0.1
D
D
0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
Filtré
0.6 0.6 0.6
0.4 0.4 0.4
(4)
(5)
(6)
1
1
D
D
0.2 0.2 0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
Filtré
0.6 0.6 0.6
0.4 0.4 0.4
(7)
(8)
(9)
1
1
D
D
0.2 0.2 0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
Filtré
(11)
(12)
1
D
Filtré
Filtré
0.6
0.5 0.5
(13)
(14)
(15)
0.4
1
1
D
0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
Filtré
(17)
(18)
1
D
en plus des concentrations d’ozone, les concentrations en NO2 et NO qui sont des variables plus
localisées que l’ozone et donc plus difficiles à modéliser.
Disposant d’un comportement prédit de chaque capteur, des tests de cohérence des mesures
peuvent être appliqués afin de détecter, puis de localiser d’éventuelles anomalies de comporte-
ment des capteurs. Pour tester les approches de détection et de localisation proposées dans ce
mémoire, nous avons simulé dans un premier temps, des défauts sur les variables représentant
les concentrations d’ozone.
154 Chapitre 5. Détection et localisation de défauts capteurs d’un RSQL
1.8
1.6
1.4
1.2
A(j)
1
1
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18
Variables
(j)
Figure 5.27 – Localisation par l’indice A2 calculé après la reconstruction de la j eme variable.
0.08
0.07
0.06
0.05
Contributions
0.04
0.03
0.02
0.01
0
0 2 4 6 8 10 12 14 16 18 20
Variables
Figure 5.28 – Localisation de la variable v2 par calcul des contributions des variables à l’indice
D1 .
550
Mesures avec défaut
500 Mesures reconstruites
Mesures sans défaut
450
400
350
2−BRA
300
NO
250
200
150
100
50
0
500 600 700 800 900 1000
Temps
0.9
0.8
0.7
0.6
D Filtré
0.5
1
0.4
0.3
0.2
0.1
0
500 550 600 650 700 750 800 850 900 950 1000
Temps
Figure 5.30 – Evolution de l’indice D1 filtré en présence d’un défaut affectant la variable v3 .
1 0.2 0.06
Filtré
Filtré
Filtré
0.04
0.5 0.1
D(1)
D(2)
D(3)
1
1
0.02
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1 1
Filtré
Filtré
D1 Filtré
0.5 0.5 0.5
D(4)
D(5)
(6)
1
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Filtré
D1 Filtré
0.6 0.6 0.6
0.4 0.4 0.4
D(7)
D(8)
(9)
1
1 1
0.8
Filtré
Filtré
Filtré
0.6
0.5 0.5
D(10)
D(11)
(12)
0.4
1
D1
0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1
0.8
Filtré
Filtré
Filtré
0.6
0.5 0.5
D(13)
D(14)
(15)
0.4
1
D1
0.2
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
1 1 1
Filtré
Filtré
Filtré
D(17)
(18)
1
D1
0 0 0
500 600 700 800 900 1000 500 600 700 800 900 1000 500 600 700 800 900 1000
Temps Temps Temps
Ainsi, nous avons montré la faisabilité pour une partie du réseau et pour une période de temps
de quelques jours. Les résultats obtenus nous encouragent à approfondir l’étude pour finaliser
une procédure de diagnostic.
5.6. Conclusion 157
350
Mesures avec défaut
Mesures reconstruites
300 Mesures sans défaut
250
200
BRA
NO
150
100
50
0
500 600 700 800 900 1000
Temps
159
160 Chapitre 6. Conclusions et Perspectives
car il tient compte de la redondance entre les mesures. L’approche de reconstruction permet
également une sélection des variables à surveiller. Ainsi, une procédure permettant à la fois de
déterminer les variables à surveiller et le nombre de composantes à retenir dans le modèle ACP
peut être appliquée sur les données collectées sur le système ou le processus à surveiller.
Une fois le modèle identifié (détermination à la fois des variables à surveiller et du nombre de
composantes à retenir ainsi que l’estimation des vecteurs propres de la matrice de corrélation des
données), la procédure de détection et localisation de défauts peut être effectuée par génération
des indicateurs de défauts (résidus) en comparant le comportement observé du processus donné
par les variables mesurées et le comportement prévu donné par le modèle ACP. La plupart des
méthodes de détection à base de l’ACP utilises la statistique SP E (erreur quadratique) et la
statistique T 2 de Hotteling pour la détection de défauts. Cependant, le SP E est un test global
qui cumule les erreurs de modélisation présentes sur chaque résidu et la statistique T 2 n’est
pas efficace car les conditions d’utilisation de cette statistique sont rarement vérifiées d’autant
plus que cette statistique est calculée à partir des premières composantes principales qui ne
représentent an aucun cas des résidus et donc ne représente pas un indice de détection. Deux
exemples de simulation ont été présentés pour illustrer l’approche proposée et pour montrer les
problème rencontrés avec les approches classiques.
Pour ces raisons, nous avons proposé un nouvel indice de détection basé sur les dernières
composantes principales. Cet indice est défini par la somme successive des carrés des dernières
composantes. Ainsi, l’expression générale de ce test est similaire a celle d’un SP E défini dans des
sous-espaces inférieurs à celui du SP E. De même, les seuils de détection peuvent être calculés
avec un raisonnement similaire à celui du calcul du seuil pour le SP E en utilisant les dernières
valeurs propres.
Cet indice présente l’avantage d’être moins sensible aux erreurs de modélisation et plus sen-
sible au défauts que le SP E et de détecter des défauts avec des amplitudes inférieures a celles
que peut détecter un SP E.
Concernant le problème de localisation, plusieurs approches de localisation basée sur l’analyse
en composantes principales ont été présentées. Nous avons présenté dans un premier temps la
méthode basée sur la structuration des résidus ou les résidus primaires sont transformé en de
résidus secondaire avec une certaine propriété de localisation. Les résidus structurés obtenus par
cette méthodes dans le cas de l’ACP présentent de nombreuses fausses alarmes de plus que les
conditions d’utilisation de cette approche avec les résidus utilisé pour le calcul de l’indice proposé
ne sont pas vérifiées.
La deuxième approche que nous avons présentée ici, utilise des bancs de modèles comme dans
le cas des observateurs. Dans cette catégorie d’approches on trouve trois méthodes : la méthode
utilisant des modèles ACP partielles (ACP avec un nombre réduit de variable), la méthode
utilisant le principe de reconstruction et la méthode utilisant le principe d’élimination.
Dans le cadre de la méthode utilisant des ACP partielles, nous avons montré avec un exemple
simple qu’avec cette méthode on ne sait pas s’il est possible d’élaborer un modèle ACP réduit
a priori, d’autant plus qu’elle utilise l’indice SP E comme indicateur de défaut. La deuxième
méthode présentée est basée sur le principe de reconstruction qui consiste à suspecter qu’un
capteur est défaillant et à reconstruire la valeur de sa mesure en se basant sur le modèle ACP
déjà calculé et les mesures des autres capteurs. Comme cette approche utilise initialement l’indice
SP E nous avons proposé de l’adapter à notre indice de détection. La procédure de localisation
proposée permet de localiser les défauts simples et peut être utilisée pour la localisation de
défauts multiples. La dernière méthode présentée dans la catégorie des méthodes utilisant des
bancs de modèles est l’approche par élimination. Cette méthode est très proche de la méthode par
reconstruction ou un ensemble d’indicateur de défaut sont générés en éliminant à chaque fois une
6.2. Perspectives 161
variable de l’ensemble des variables à surveiller bien sûr en éliminant, de la matrice du modèle
ACP, la colonne correspondant à la variable éliminée. Comme toutes les autres approches, cette
dernière utilise l’indice SP E. Pour cette raison nous avons adapté cette approche pour l’appliquer
à l’indice de détection proposé.
La dernière méthode de localisation basée sur l’analyse en composantes principales est la
méthode utilisant le calcul des contributions des variables aux indices de détection. A partir de
l’expression de l’indice que nous proposé, nous avons proposé deux définitions des contributions
des variables à l’indice proposé. La première définition est basée sur le fait que cet indice est un
SP E particulier et de ce fait on peut exploiter la définition des contributions dans le cas du SP E.
La deuxième définition que nous proposons vient du fait que l’indice proposé peut être calculé
également à partir des dernières composantes principales. Ainsi, un calcul des contributions
aux dernières composantes ayant subits une variation significative peut être utiliser pour cette
définition. Dans les deux définitions, la variable ayant la plus grande contribution est considérée
comme la variable incriminée.
Dans le troisième chapitre de cette thèse, nous avons présenté l’extension de l’ACP dans
le cas non-linéaire (ACPNL). Nous avons présenté les principales méthodes pour le calcul du
modèle ACPNL. La méthode la plus connue est la méthode des courbes principales, cependant
cette méthode donne une estimation des variables originelles et des composantes principales
non-linéaires mais ne permet pas d’avoir un modèle de représentation pour une estimation en
ligne. Les méthodes les plus utilisées, dans le domaine du diagnostic, font appele aux réseaux
de neurones. La méthode la plus utilisée et la plus connue utilise un réseau à cinq couches.
L’apprentissage d’un tel réseau est très coûteux en terme de temps de calcul en plus du problème
de convergence. Pour cette raison, nous avons proposé un nouvelle méthode pour le calcul du
modèle ACPNL combinant la méthode des courbes principales et les réseaux à fonction de base
radiale (RBF). Avec cet approche l’apprentissage se ramène a un problème de régression d’où
un gain considérable en temps de calcul. La deuxième proposition dans ce chapitre concerne
la détermination du nombre de composantes à retenir dans le modèle ACPNL. En exploitant
le critère utilisant le principe de reconstruction dans le cas linéaire, nous avons proposé une
extension de ce critère dans le cas non-linéaire. Un exemple de simulation a été introduit pour
illustrer les méthodes proposées.
Dans le dernier chapitre nous avons présenté l’application des méthodes proposées dans le
cas linéaire à la détection et la localisation de défauts de capteurs d’un réseau de surveillance
de la qualité de l’air en Lorraine. L’étude menée est une étude de faisabilité et donc nous nous
sommes limité à des périodes de mesures de quelques jours. Avec l’indice proposé on arrive à
détecter et à localiser des défauts sur les variables d’ozone et même sur certains oxydes d’azote
qui sont des variables plus localisées que l’ozone et donc plus difficile à modéliser. Les résultat
obtenus sont très encourageants à approfondir l’étude pour finaliser une procédure de diagnostic
6.2 Perspectives
Dans le deuxième chapitre nous avons proposé d’étendre l’approche de localisation, utilisant
le principe de reconstruction avec l’indice de détection, aux défauts multiples. Toutefois, la procé-
dure proposée n’est pas automatique et nécessite l’intervention d’un opérateur pour déterminer
les variables à reconstruire. Une perspective directe de ce travail consiste à automatiser cette
procédure par analyse de la matrice des derniers vecteurs propres.
Dans le cas de l’ACP non linéaire, l’approche proposée utilise un algorithme des courbes
principales choisi sans tenir compte des autres algorithmes des courbes principales. Ainsi, une
étude des différents algorithmes d’extraction des courbes principales est indispensable pour la
162 Chapitre 6. Conclusions et Perspectives
sélection d’une approche qui sera combinée avec les réseaux RBF. Concernant le problème de
recherche de structure, dans le cas de l’ACPNL, deux problèmes peuvent être traités. Le premier
concerne la détermination du nombre de neurones dans la couche cachée et la détermination du
nombre de neurones de la couche de sortie qui représente le nombre de composantes principales
non-linéaires. Pour la détermination du nombre de neurones de la couche cachée plusieurs mé-
thodes peuvent être utilisés comme l’algorithme OLS (orthogonal Least square) par exemple.
Cependant, pour le nombre de composantes à retenir dans le modèle ACPNL, l’algorithme que
nous avons proposé peut être utilisé. Ainsi, une procédure d’optimisation plus complète peut être
proposée. De plus concernant la procédure de sélection du nombre de composantes non-linéaire
il reste à déterminer les condition de reconstruction et de convergence de cet algorithme.
En ce qui concerne l’application traitée dans le dernier chapitre, quelques propositions sont
faites pour améliorer la qualité du modèle ACP. Une proposition à moyen terme consiste à
utiliser différents modèles ACP pour différentes zones de fonctionnement, vu que les différents
polluants présentent un comportement cyclique jour-nuit, ils peuvent être modélisés par une
ACP utilisant des lots de données où chaque lot correspond à une période de fonctionnement.
Ainsi, une utilisation de la MWPCA (Multi-Way PCA) peut être exploitée dans ce cas. Une
autre solution consiste à exploiter le formalisme multi-modèles pour la modélisation en utilisant
des multi-ACP comme une première extension vers un modèle non-linéaire.
L’application de l’approche utilisant les courbes principales et les réseaux RBF pour la mo-
délisation des différents polluants, peut être envisagée une fois la procédure d’identification de
structure du réseau achevée.
Références bibliographiques
163
164 Références bibliographiques
Bibliographie
[1] Rapport de l’académie des sciences. (1993). Ozone et propriétés oxydantes de la troposphère,
Technique et documentation. Lavoisier.
[2] Akaike H. (1974). Information theory and an extension of the maximum likelihood principle.
In Proceedings 2nd International Symposium on Information theory, Petrov and Caski Eds.,
pp. 267-281.
[3] Besse P. et Ferré L. (1993). Sur l’usage de la validation croisée en analyse en composantes
principales. Revue de Statistique Appliquée, XLI (1), pp. 71-76.
[4] Boudaoud N., Cherfi Z. (2000). Maîtrise statistique des processus multivariés : Avantages et
limites des différentes approches sur les cartes de contrôle multivariées. Journal Européen
des Systèmes Automatisés, vol. 34, pp. 379-390.
[5] Box G. E. P. (1954). Some theorems on quadratique forms applied in the study of analysis
of variance problems : Effect of inequality of variance in one-way classification. The Annals
of Mathematical Statistics, vol. 25, pp. 290-302.
[6] Brunet M., Jaume D., Labarrère M., Rault A., Vergé M. (1990). Détection et diagnostic de
pannes - Approche par modélisation. Traité des Nouvelles Technologies, série Diagnostic et
Maintenance, Hermès, Paris.
[7] Conlin A. K., Martin E. B. and Morris A. J. (2000). Confidence limits for contribution plots.
Journal of Chemometrics, vol. 14, pp. 725-736.
[8] Cybenko G. (1989). Approximation by superposition od sigmoidal function. Mathematics
of Control Signal and Systems, vol. 2, pp. 303-314.
[9] Delicado P. (1998). Principal curves and principal oriented point. Technical Report, N◦ 309,
Departament d’Economica Empresa, Univesitat Pompen Fabra.
[10] Der R., Steinmetz U., Balzuweit G. (1998). Nonlinear principal component analysis. Tech-
nical Report at the Institut fur Informatik, Universitat Leipzig.
[11] Diamantaras K. I., Kung S. Y. (1996). Principal component neural networks. Theory and
applications. John Wiley & Sons.
[12] Dong D. and McAvoy T. J. (1994). Nonlinear principal component analysis - based on
principal curves and neural networks. Proceeding of the American Control Coference, ACC.
[13] Doymaz F., James C., Romagnoli J. A., Palazoglu A. (2001). A robust strategy for real-time
process monitoring. Journal of Process Control, vol. 11, pp. 343-359.
[14] Dunia R., Qin S. J. and Edgar T. F. (1996). Identification of faulty sensors using principal
component analysis. AIChE Journal, vol. 42, N◦ . 10, pp. 2797-2812.
[15] Dunia R., Qin S. J. and Edgar T. F. (1996). Multivariable process monitoring using nonlinear
approches. Proceeding ACC, Seattle, Washinghton, pp. 756-760.
[16] Dunia R., Qin S. J. (1998). Joint diagnosis of process and sensor faults using principal
component analysis. Control Engineering Practice, vol. 6, pp. 457-469.
165
166 Bibliographie
[17] Dunia R. and Qin S. J. (1998). A unified geometric approch to process and sensor fault
identification and reconstruction : the unidimensional fault case. Computers Chem. Engng.,
vol. 22, N◦ . 7-8, pp. 927-943.
[18] Dunia R. and Qin S. J. (1998). A subspace approch to multidimentional identification and
reconstruction. AIChE Journal, vol. 44, pp. 1813-1831.
[19] Ferré L. (1995). Selection of components in principal component analysis : A comparaison
of methods. Computational Statistics and Data Analysis, pp. 669-682.
[20] Frank P. M. (1990). Fault diagnosis in dynamic systems using analytical and knowledge -
based redundancy - a survey and some new results. Automatica, vol. 26, N◦ 3, pp. 459-474.
[21] Funahashi K. (1989). On the approximate realization of continuous mappings by neural
networks. Neural Networks, vol. 2, pp. 183-192.
[22] Gertler J. (1988). Survey of model-based failure detection and isolation in complex plants.
IEEE Control Systems Magazine, vol. 8, N◦ 6, pp. 3-11.
[23] Gertler J. (1991). Analytical redundancy methods in fault detection and isolation - survey
and synthesis. Proceeding of the IFAC Symposium on Fault Detection Supervision and
Safety for Technical Process, Baden Baden, Germany, pp. 9-22.
[24] Gertler J., and Monajemy R. (1993). Generating directional residuals with dynamic pa-
rity equations.IFAC Symposium on Fault Detection Supervision and Safety for Technical
Process, Sydney, Australia, pp. 507-512.
[25] Gertler J. and McAvoy T. (1997). Principal component analysis and parity relations - A
strong duality. IFAC Conference SAFEPROCESS, Hull, UK, pp. 837-842.
[26] Gertler J., Weihua L., Yunbing H. and McAvoy T. (1998). Isolation enhanced principal
component analysis. 3rd IFAC Workshop on On-line Fault Détection and Supervision in the
Chemical Process Industries, Lyon, June 4-5, France.
[27] Gertler J. (1998). Fault detection and diagnosis in engineering systems. Marcel Dekker
Editions, New York.
[28] Gnanadesikan R. (1977). Methods for statistical data analysis of multivariate observations.
Wiley Editions, New York.
[29] Hansen C. (1992). Regularization tools - A MATLAB package for analysis and solution
of discrete ill-posed problems. Technical University of Danmark. Disponible sur le site
http ://www.imm.dtu.dk/ pch/.
[30] Gasso K., Harkat M. F., Mourot G. et Ragot J. (1998). Elaboration de modèles pour la
validation, la crédibilité des données et la prédiction du taux d’ozone et de NO2 en région
lorraine. Rapport N◦ 1, 52 pages.
[31] Harkat M.F., Mourot G., Ragot J. (2000). Sensor failure detection of air quality monito-
ring network. IFAC Symposium on Fault Detection, Supervision and Safety for Technical
Processes, SAFEPROCESS’2000, Budapest, Hungary, June 14-16.
[32] Harkat M.F., Mourot G., Ragot J. (2000). Détection de défauts de capteurs d’un réseau de
surveillance de la qualité de l’air. Conférence Internationale Francophone d’Automatique,
CIFA’2000, Lille, France.
[33] Harkat M.F., Mourot G., Ragot J. (2001). Sensor failure detection and Isolation of air quality
monitoring network. 4th International Conference on Acoustical and Vibratory Surveillance
Methods and Diagnostic Techniques, Compiègne, France.
167
[34] Harkat M.F., Mourot G., Ragot J. (2001). Détection et localisation de défauts de capteurs
d’un réseau de surveillance de la qualité de l’air. 2ème Colloque Automatique et Environ-
nement, A&E’2001, St Etienne, France.
[35] Harkat M. F., Mourot G., Ragot J. (2002). Différentes méthodes de localisation de défauts
basées sur les dernières composantes principales. Conférence Internationale Francophone
d’Automatique, CIFA’02, Nantes, France.
[36] Harkat M. F., Mourot G., Ragot J. (2003). Variable reconstruction using RBF-NLPCA
for process monitoring. IFAC Symposium on Fault Detection, Supervision and Safety for
Technical Processes, SAFEPROCESS’2003.
[37] Harkat M. F., Mourot G., Ragot J. (2003). Nonlinear PCA combining principal curves and
RBF-Networks for process monitoring. Soumis au CDC’2003.
[38] Hastie T. (1984). Principal curves and surfaces. PhD thesis, Stanford University.
[39] Hastie T. and Stuetzle W. (1989). Principal curves. Journal of the American Statistical
Association, vol. 84, N◦ 406, pp. 502-516.
[40] Himes D. M., Storer R. H. and Georgakis C. (1994). Determination of the number of principal
component for disturbance detection and isolation. Proceedings of ACC, Baltimore.
[41] Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components.
Journal of Educational Psychology, vol. 24, pp. 417-441.
[42] Hsieh W. W. (2001). Nonlinear principal component analysis by neural networks. Journal
of Climate.
[43] Huang Y. and Gertler J. (1999). Fault isolation by partial PCA and partial NLPCA.
IFAC’99, 14th Triennial world congress, Beijing, P. R. China, pp. 545-550.
[44] Huang B. (2001). Process identification based on last principal component analysis. Journal
of Process Control, vol. 11, pp. 19-33.
[45] Isermann R. (1984). Process fault detection based on modeling and estimation methods - a
survey. Automatica, vol. 20, pp. 387-404.
[46] Jackson J. E., Mudholkar G. S. (1979). Control procedures for residuals associated with
principal component analysis. Technometrics, vol. 21, N◦ 3.
[47] Jia F., Martin E. B. and Morris A. J. (1999). Multiple sensor disturbance identification
through principal component analysis. IFAC, 14th Triennial World Congress, Beijing, China.
[48] Jolliffe I. T. (1986). Principal component analysis. Springer-Verlag, New York.
[49] Juinghui C. and Jialin L. (1999). Mixture principal component analysis models for process
monitoring. Industrial & Engineering Chemistry Research, vol. 39, pp. 1478-1488.
[50] Kano M., Shinji H. and Hashimoto I. (2000). Contribution plots for fault identification based
on the dissimilarity of process data. AIChE Annual Meeting, paper 255e, Los Angeles, CA,
Nov. 12-17.
[51] Kano M., Ohmo H., Shinji H. and Hashimoto I. (2001). New multivariate statistical process
monitoring method using principal component analysis. Computers and Chemical Enginee-
ring, (in press), 2001.
[52] Kégl B., Krzyzak A., Linder T. and Zeger K. (1999). Learning and design of principal curves.
IEEE Transactions on Pattern analysis and Machine Intelligence.
[53] Kerling M. (1999). Optimizing the multilayer perceptron - Problems, tools and strategies.
Proc. of Eufit’99, Aachen, Germany.
168 Bibliographie
[73] Oja E. (1989). Neural networks, principal components, and subspaces. International Journal
of Neural Systems, vol. 1, pp. 61-68.
[74] Orr M. J. (1996). Introduction to radial basis function networks. Rapport technique dispo-
nible sur le site http ://www.anc.ed.ac.uk/ mjo/rbf.html
[75] Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. The
London, Edinburgh and Dublin Phylosophical Magazine and Journal of Science, vol. 6, pp.
559-572.
[76] Qin S. J., Hongyu Y. and Dunia R. (1997). Self validating inferntial sensors with application
to air emission monitoring. Industrial & Engineering Chemistry Research, vol. 36, pp. 1675-
1685.
[77] Qin S. J. and Dunia R. (1998). Determining the number of principal components for best
reconstruction. Proc. of the 5-th IFAC Symposium on Dynamics and Control of process
Systems, pp. 359-364, Corfu, Greece.
[78] Qin S. J., Weihua L., Yue H. (1999). Recursive PCA for adaptive process monitoring.
IFAC’99, 14th Triennial World Congress, Beijing, China.
[79] Qin, S. J. and Weihua L. (1999). Detection, identification and reconstruction of faulty sensors
with maximized sensitivity. AIChE Journal, vol. 45, N◦ 9, pp. 1963-1976.
[80] Raich A. and Cinar A. (1996). Process disturbance diagnosis by statistical distance and
angle measures, In Proceedings of IFAC Congress, San Francisco, vol. N, pp. 283-288.
[81] Rissanen J. (1978). Modelling by shortest data description. Automatica, vol. 14, pp. 465-471.
[82] Roweis S. T. (1998). EM algorithms for PCA and SPCA. In Michael I. Jordan, Michael J.
Kearns, and Sara A. Sola, Editors, Advences in Neural Information Processing Systems, vol.
10, MIT Press.
[83] Rubner J., Tavan P. (1989). A self-organizing network for principal component analysis.
Europhysics Lettre, vol. 20, pp. 693-698.
[84] Sanger T. D. (1989). Optimal unsupervised learning in a single-layer linear feedforward
neural network. Neural Networks, vol. 2, pp. 459-473.
[85] Shewhart, W. A. (1931). Economic control of quality of manufactured product. D. Van
Nostrand, New York, NY.
[86] Stewart G. W. (1973). Introduction to matrix computations. Academic Press, London.
[87] Simoglou A., Martin E. B., Morris, A. J. (1997). Multivariate statistical process control in
chemicals manufacturing. IFAC Conference SAFEPROCESS’97, Hull UK.
[88] Spearman, C. (1904). General intelligence objectively determined and measured. American
Journal of Psychology, vol. 15, pp. 201-293.
[89] Stork C. L., Veltkamp D. J. and Kowalski B. R. (1997). Identification of multiple sensor
disturbances during process monitoring. Analytical Chemistry, vol. 69, N◦ 24, pp. 5031-5036.
[90] Staroswiecki M., Cassar J. P. (1996). Approche structurelle pour la conception des systèmes
de surveillance. Ecole d’Eté d’Automatique, Grenoble, 2-6 septembre.
[91] Spearman, C. (1904). General intelligence objectively determined and measured. American
Journal of Psychology, vol. 15, pp. 201-293.
[92] Tan S. and Mavrovouniotis M. L. (1995). Reduction data dimentionality through optimizing
neural network inputs. AIChE Journal, vol. 41, N◦ 6, pp. 1471-1480.
170 Bibliographie
[93] Teppola P., Mujunen S., Minkkinen P., Puijola T., Pursiheimo P. (1998). Principal com-
ponent analysis, contribution plots and feature weights in the monitoring of sequential
process data from a paper machine’s wet end. Chemometrics and Intelligent Laboratory
Systems, vol. 44, pp. 307-317.
[94] Thissen U., Willem J. M., Lutgarde M. C. B. (2001). Nonlinear process monitoring using
bottle-neck neural networks. Analytica Chimica Acta, vol. 446, pp. 371-383.
[95] Thurstone, L. L. (1947). Multiple factor analysis. Chicago : University of chicago Press.
[96] Tibshirani R. (1992). Principal curves revisited. Statistics and computation, vol. 2, pp. 183-
190.
[97] Tong H. and Crowe C. M. (1995). Detection of Gross errors in data reconciliation by Principal
Component Analysis. Process Systems Engineering, vol. 41, N◦ 7.
[98] Tong H. and Bluck D. (1998). An inndustrial application of principal component test to fault
detection and identification. 3rd IFAC Workshop on On-line Fault Detection and Supervision
in the Chemical Process Industries, Lyon, France.
[99] Valle S., Weihua L., and Qin S. J. (1999). Selection of the number of principal components :
The variance of the reconstruction error criterion with a comparison to other methods.
Industrial & Engineering Chemistry Research, vol. 38, pp. 4389-4401.
[100] Van Huffel S. (1997). Recent adances in total least squares techniques and errors-in-
variables modeling. Proceedings of the Second International Workshop on Total Least
Squares and Errors-in-Variables Modeling. Edited by Sabine Van Huffel, Katholieke Univer-
siteit Leuven, Leuven-Heverlee, Belgium.
[101] Verbeek J. J., Vlassis N. and Kröse B. (2000). A k-segments algorithm for finding principal
curves. IAS Technical Report Series, nr. IAS-UVA-00-11, University of Amesterdam.
[102] Voss B. (1999). A simulation study on nonlinear principal component analysis. Technical
Report 42/99 SFB 475, Department of Statistics, University of Dortmund.
[103] Wax M., Kailath T. (1985). Detection of signals by information criteria. IEEE Trans.
Acoust. Speech Signal Process. ASSP-33, pp. 387-392.
[104] Webb A. R. (1996). An approach to nonlinear principal component analysis using radially
symmetric kernel functions. Statist. Comput., vol. 6, pp. 159-168.
[105] Webb A. R. (1999). A loss function to model selection in nonlinear principal components.
Neural Networks, vol. 12, pp. 339-345.
[106] Weihua L., Sirish S. (2002). Structured residual vector-based approach to sensor fault
detection and isolation. Journal of Process Control, vol. 12, pp. 429-443.
[107] Wenfu K., Storer R. H. and Georgakis C. (1995). Disturbance detection and isolation by
dynamique principal component analysis. Chemometrics and intelligent laboratory systems,
vol. 30, pp. 179-196.
[108] Westerhuis J. A., Gurden S. P., Smilde A. K. (2000). Generalized contribution plots in mul-
tivariate statistical process monitoring. Chemometrics and Intelligent Laboratory Systems,
vol. 51, pp. 95-114.
[109] Westerhuis J. A., Gurden S. P., and Smilde A. K. (2000). Standardized Q-statistic for
improved sensitivity in the monitoring of residuals in MSPC. Journal of Chemometrics, vol.
14, pp. 335-349.
[110] Willsky A. S. (1976). A survey of design methods for failure detection in dynamic systems.
Automatica, vol. 12, pp. 601-611.
171
[111] Wilson D. J. H., Irwin G. W. (1999). RBF principal manifolds for process monitoring.
IEEE Transaction on Neural Networks, vol. 10, N◦ 6, pp. 1424-1434.
[112] Wise B. M. (1991). Adapting Multivariate Analysis for Monitoring and Modeling of Dy-
namic Systems. Ph.D. Dissertation, University of Washington, Seattle.
[113] Wise B. M. and Gallagher N. B. (1996). The process chemometrics approach to process
monitoring and fault detection. Journal of Process Control, vol. 6, N◦ 6, pp. 329-348.
[114] Wold S., Esbensen K., Geladi P. (1987). Principal component analysis. Chemom. Intell.
Lab. Syst., vol. 2, pp. 37-52.
[115] Yue H. H. and Qin S. J. (2001). Reconstruction-based fault idntification using a combined
index. Industrial & Engineering Chemistry Research, vol. 40, pp. 4403-4414.
172 Bibliographie
173
Résumé
Les travaux présentés dans ce mémoire sont axés sur la détection et la localisation de défauts
en utilisant l’analyse en composantes principales (ACP).
Dans le premier chapitre les principes fondamentaux de l’analyse en composantes principales
linéaire sont présentés. L’ACP est utilisée pour la modélisation des processus en fonctionnement
normal.
Dans le deuxième chapitre le problème de détection et localisation de défauts par ACP linéaire
est abordé. A partir de l’analyse des indices de détection classiques, un nouvel indice de détection
de défaut basé sur les dernières composantes principales a été développé. Pour la localisation de
défauts, les méthodes classiques, utilisant par exemple le principe de reconstruction ou encore le
calcul des contributions à l’indice de détection, ont été adaptées à l’indice de détection proposé.
Le troisième chapitre est consacré à l’ACP non-linéaire (ACPNL). Une extension de l’ACP
pour des systèmes non-linéaires, combinant l’algorithme des courbes principales et les réseaux
RBF, est proposée. Pour la détermination du nombre de composantes à retenir dans le modèle
ACPNL, une extension du critère basé sur la variance de l’erreur de reconstruction a été proposée.
Une application réalisée dans le cadre d’une collaboration avec le réseau de surveillance de la
qualité de l’air en Lorraine AIRLOR fait l’objet du quatrième chapitre. Cette application concerne
la détection et la localisation de défauts de capteurs de ce réseau en utilisant la procédure de
détection et de localisation développée dans le cas linéaire.
Mots-clé : Diagnostic, Analyse en composantes principales, Détection et localisation de
défauts de capteurs, Reconstruction de variables, Contribution des variables, Réseaux RBF,
Qualité de l’air.
Abstract
The aim of this thesis is to study the fault detection and isolation using principal components
analysis (PCA).
In the first chapter the fundamental principles of linear principal component analysis are
presented. PCA is used to model normal process behaviour.
In the second chapter the problem of fault detection and isolation based on linear PCA is
tackled. On the basis of the analysis of the classical detection indices, a new fault detection index
based on the last principal components is developed. For fault isolation, the classical methods,
using for instance the reconstruction principle or the contribution calculation, are adapted for
the proposed fault detection index.
The third chapter is focused on the nonlinear PCA. An extension of the PCA for nonlinear
systems, combining principal curves algorithm and RBF networks, is proposed. For the determi-
nation of the number of principal components to be kept in the NLPCA model, we propose an
extension of the unreconstructed variance criteria in the non-linear case.
Finally, an application, carried out in collaboration with air quality monitoring network in
Lorraine AIRLOR, is presented in the fourth chapter. This application concerns the sensor fault
detection and isolation of this network by using the fault detection and isolation procedure
developed in the linear case.
Keywords : Diagnosis, Principal component analysis, Sensor fault detection and isolation,
Variable reconstruction, Variable contribution, RBF Neural Networks, Air quality.