0% ont trouvé ce document utile (0 vote)
165 vues150 pages

TH8753

Transféré par

Arsalan Tlm
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
165 vues150 pages

TH8753

Transféré par

Arsalan Tlm
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

N° d’ordre : 08/2017-D/ELC

République Algérienne Démocratique et Populaire


Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie Houari Boumédiène
Faculté d’Electronique et d’Informatique

Thèse présentée pour l’obtention du grade de


DOCTEUR EN SCIENCES
En : Electronique

Spécialité : Traitement du Signal et des Images

Par : ABIDINE M’hamed Bilal

--Sujet --

Application des méthodes à vecteurs de support à


la classification des activités humaines à partir
d’un réseau de capteurs sans fils d’un habitat
intelligent

Soutenue publiquement, le 20/05/2017, devant le jury composé de :

M. HOUACINE Amrane Professeur à l’USTHB Président


M. FERGANI Belkacem Professeur à l’USTHB Directeur de thèse
Mme. FALEK Leila Professeur à l’USTHB Examinatrice
Mme. HAMMAMI Latifa Professeur à l’ENP Examinatrice
M. BENSLAMA Zoubir Professeur à l’U. BLIDA Examinateur
M. KENAZA Tayeb Maître de Conférences A à l’EMP Examinateur
Remerciements

Au terme de ce travail, je remercie DIEU Le Tout Puissant qui m’a donné la force et la
vo lonté d’achever mon travail et nous lui rendons grâce.

Ce travail a été réalisé au sein du Laboratoire d'Ingénierie des Systèmes Intelligents et


Communicants (LISIC) de la faculté d’électronique et d’informat ique de l’Université des
Sciences et de la Techno logie Houari BOUMEDIENE (USTHB).

Le travail de recherche, comme tout autre travail, nécessite de la motivat ion pour être
accompli d’une manière optimale. Pendant mes années de thèse j’ai été motivé, et ce grâce à la
confiance que m’a donné mo n Directeur de thèse. Je tiens à exprimer ma profonde grat itude et
ma sincère reconnaissance à M. FERGANI Belkacem qui m’a encadré durant ces années de
Thèse, pour ces conseils, son aide inest imable et son optimisme contagieux.

Je remercie les membres de jury en co mmençant par M. HOUACINE Amrane qui m’a
fait l’honneur d’accepter de présider ce jury. Aussi je t iens également à remercier les membres du
jury : Mme. FALE K Leila, Mme. HAMMAMI Latifa, M. BENSLAMA Zoubir et M. KENAZA
Tayeb, pour l’honneur qu’ils me font à juger ce travail.

Le travail de recherche n’exclut pas des mo ments difficiles pour des raisons
psycho logiques, administratives, techniques, et autres. Je tiens à remercier mes parents qui ont
veillé à ce que ces mo ments diffic iles so ient les plus courts grâce à leur écoute, encouragement,
affect ion, et aide, sans qui ce travail n’aurait jamais pu vo ir le jour. Je leur dédie ce travail en
témo ignage de ma profonde affect ion pour toute la patience et les sacrifices qu’ils ont consent i
pour moi et dont je serai à jamais redevable, et d’avo ir porté ce travail à terme représente pour
mo i aujourd’hui la plus belle des récompenses.

Enfin, je ne saurais terminer cette liste sans adresser un remerciement particulier à ceux
qui m’ont soutenu dans l’o mbre de prés ou de lo in, mes amis, et toute ma famille.

2
TABLE DES MATIERES

Table des matières

Introduction Générale………………………………………………………………………….. 1
Motivation……………………………………………………………………………………… 2
Objectif de la thèse ……………………………………………………………………………. 3
Contributions……………………………………………………………………………………. 4
Organisation de la thèse………………………………………………………………………... 5
Chapitre I. LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES
HUMAINES…………………………………………………………………………………… 7
І.1. Introduction ………………………………………………………………………………... 7
І.2. Le Contexte……………………………………………......................................................... 8
I.3. Habitats Intelligents pour la Santé (HIS) et les Activité de la Vie Quotidienne (AVQ)… .. 10
І.3.1. Notion de l’Habitat Intelligent pour la Santé (HIS).……………………………….. 10
I.3.2. Etat de l’art des systèmes HIS……………….. ……………..................................... 11
I.3.3. Définition des Activités de la Vie Quotidienne (AVQ) ………………………....... 12
I.4. Technologies d’assistance aux personnes âgées dans une maison intelligente …………… 13
І.4.1. La reconnaissance sonore …………………………………………………………. 14
I.4.2. La reconnaissance à partir de séquences vidéo ……………………………………. 15
І.4.3. Les réseaux de capteurs …………………………………………………………… 16
I.4.4. Avantages et inconvénients des technologies du soutien à domicile ……………... 18
I.5 Les Bases de données pour la RAH…………………….………………………………… 19
I.5.1 Annotation des données …………………………………………………………..... 20
I.5.2. Etude des bases de données………………..……………………………................... 21
I.5.2.1. La base de données TK ……………………………………….……….......... 22
I.5.2.2. La base de données TAP80F ……………………………………………...... 24
I.5.2.3. La base de données OrdonezA ……………………………….………......... 26
I.5.3. Description détaillée des données ………………………………………………….. 26
I.5.3.1. Protocole expérimental ………………………….…………………………. 27
I.5.3.2. Représentation des données (Vecteurs caractéristiques)…………………… 27
I.5.3.3. Pré-traitements des bases de données issues des capteurs binaires ………… 30
I.6. Conclusion…………………………………………………...……………………….......... 34
Chapitre II. METHODES DE CLASSIFICATION POUR LA RAH…………………….. 36
II.1 Introduction ……………………………………………………………………………….. 36
II.2. Etat de l’art des méthodes de classification automatique des activités humaines ……...... 38
II.3. Fonctionnement général des méthodes de classification…………………………………. 40
II.3.1. Principe …………………………………………………………………………… 40
II.3.2. Modèles de Markov cachés (HMM)………………………………………………. 41
II.3.3. Champs Aléatoires Conditionnels (CRF)…………………………………………. 42
II.3.4. k-plus proches voisins (k-NN)…………………………………………………….. 45
II.3.5. Analyse Discriminante Linéaire (LDA)…………………………………………… 46
TABLE DES MATIERES

II.3.6. Méthodes à Vecteurs de Support (SVM)……………………………………….. 48


II.3.6.1. Introduction…………………………………………………………… 48
II.3.6.2. Classificateur non linéaire…………………………………………..... 49
II.3.6.3. Hyperplans canoniques……………………………………………….. 50
II.3.6.4. Sur et Sous-apprentissage …………………………………………….. 51
II.3.6.5. Classificateur à marge maximale……………………………………... 51
II.3.6.6. Sélection des hyper-paramètres d’un modèle SVM………………...... 55
II.3.7. SVM pondérée (WSVM)……………………………………………………..... 56
II.3.8. Classification SVM multi-classes………………………………………………. 60
II.3.9. Librairie SVM (LIBSVM)…………………………………………………….... 61
II.4. Simulations et Résultats………………………………………………………………… 62
II.4.1. Critères de performances……………………………………………………….. 62
II.4.2. Résultats………………………………………………………………………… 64
II.5. Conclusion…………………………………………………...……………………….... 70
Chapitre III. LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS…………………………………………. 72
III.1. Introduction…………………………………………………………………………….. 72
III.2. Le problème du déséquilibre de données………………………………………………. 73
III.3. Les enjeux du déséquilibre pour les SVMs…………………………………………….. 75
III.4. Les algorithmes de ré-équilibrage de données ………………………………………... 76
III.5. Solution1 : Nouvelle approche de résolution du problème du déséquilibre de
données pour la RAH……………………………………………………………………….. 77
III.5.1. Sous-échantillonnage (Under Sampling)……………….................................... 79
III.5.2. Sur-échantillonnage (Over Sampling)………………………………………… 79
III.5.3. SMOTE (Synthetic Minority Oversampling TEchnique)……………………. 83
III.6. La réduction de dimension …………………………………………………………… 85
III.7. Solution2 : Résolution du problème de dimensionnalité des données par les méthodes
d’extraction de caractéristiques ……………………………………………………………... 87
III.7.1. Analyse en Composantes Principales (PCA)…………………………………. 88
III.7.2. Analyse Discriminante Linéaire (LDA) ……………………………………… 91
III.8. Simulations et Résultats……………..……………………………………………….. 93
III.9. Conclusion……………………………………………………………………………. 103
Chapitre IV. PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH……. 105
IV.1. Introduction……………………………………………………………………………. 105
IV.2. Principe………………………………………………………………………………… 106
IV.3. Simulations et Résultats………………………………………………………………. 109
IV.4. Conclusion……………………………………………………………………………... 117
CONCLUSION GENERALE ET PERSPECTIVES…………………………………….. 120
ANNEXE……………………………………………………………………………………. 122
REFERENCES……………………………………………………………………………... 124
CONTRIBUTIONS SCIENTIFIQUES…………………………………………………… 136
Liste des tableaux

Liste des tableaux

Tableau I.1- Résumé des études existantes et des types de capteurs mis en œuvre …………... 14
Tableau I.2-Classification des capteurs suivant le type d’informations collectées…………..... 17
Tableau I.3- Réponse au questionnaire sur les habitudes de vie de l’occupant ………….……. 21
Tableau I.4- Informations sur les différentes bases de données ……………………………..... 22
Tableau I.5- Liste des activités annotées pour chaque base de données ainsi que le nombre
d’échantillons de chaque activité (.)…………………………………………………………….. 27
Tableau I.6- Exemple de données enregistrées des capteurs dans un habitat intelligent…….... 30
Tableau II.1- Tableau récapitulatif des travaux selon le type d’activités……………………… 37
Tableau II.2- Noyaux usuels pour les SVM………………………………………………........ 55
Tableau II.3- Matrice de confusion dans le cas multi-classes…………………………………. 62
Tableau II.4- Poids wi de la marge pour la base de données TK26M………………………… 64
Tableau II.5- Poids wi de la marge pour la base de données TK28M………………….…….. 64
Tableau II.6- Poids wi de la marge pour la base de données TK57M………………………… 65
Tableau II.7- Poids wi de la marge pour la base de données Tapia80F ……………………… 65
Tableau II.8- Poids wi de la marge pour la base de données OrdonezA……………………… 65
Tableau II.9- Les résultats de reconnaissance d’activités pour les méthodes de classification
LDA, k-NN, SVM et WSVM. …………………….…………………………………………... 66
Tableau II.10- La matrice de confusion de WSVM pour la base de données TK26M……......
69
Tableau II.11- La matrice de Confusion de WSVM pour la base de données TAP80F. …….
69
Tableau II.12- La matrice de Confusion de WSVM pour la base de données OrdonezA. …..
70
Tableau III.1- Les avantages et inconvénients des méthodes de ré-échantillonnage US, OS et
Smote……………………………………………………………………………………………. 84
Tableau III.2- Les résultats de reconnaissance d’activités pour les méthodes de classification
WSVM, US-SVM, OS-SVM et SMOTE-SVM. ………………………………………………. 94
Tableau III.3- Les résultats de reconnaissance d’activités pour les méthodes de classification
WSVM, PCA-WSVM, et LDA-WSVM. ……………………………………………………… 101
Tableau IV.1- Evaluation des résultats de classification humaine pour toutes approches. Nb
Feat. montre le nombre de caractéristiques PCs, LDs et la concaténation PCs-LDs. ………….. 110
Tableau IV.2- La matrice de confusion de PCA-LDA-HMM pour la base de données 115
TK26M………………………….……………………………………………………………….

5
Liste des tableaux

Tableau IV.3- La matrice de confusion de PCA-LDA-HMM pour la base de données


116
TAP80F……………………………………………………………………………………
Tableau IV.4- La matrice de confusion de PCA-LDA-WSVM pour la base de données
116
TK26M…………………………………………………………………………………….
Tableau IV.5- La matrice de confusion de PCA-LDA-WSVM pour la base de données
TAP80F…………………………………………………………………………………… 117

6
Liste des figures

Liste des figures

Figure I.1- Champs d’explorations de l’ « Habitat Intelligent »……………………………….. 8


Figure I.2- Pourcentage de la population âgée de plus de 65 ans (1950-2050), selon l’ONU «
United Nation, population Division »………………………………………………………….. 9
Figure I.3- Architecture matérielle et logicielle du système distribué HIS du Laboratoire
TIMC IMAG à la faculté de médecine de Grenoble-France……………………………………. 11
Figure I.4- L’appartement intelligent du WSU avec les capteurs de mouvement (M), de
température (T), d'eau (W), du four.................................................……………………………. 19
Figure I.5- Une résidente qui exerce une activité de ‘lavage des mains’ (gauche).…………… 20
Figure I.6- Nœud de réseau de capteurs sans fil pour lequel le capteur peut être attaché
………………………………………..…………………………………………………………. 23
Figure I.7- Le plan intérieur des maisons TK26M, TK28M et TK57M. ……………………… 23
Figure I.8- Oreillette bluetooth Jabra BT 250v utilisé pour l'annotation………………………. 24
Figure I.9- Plan d’architecture de la maison TAP80F. ……………………………................. 25
Figure I.10- (a). Les capteurs de changement d'état qui peuvent être installés dans
un habitat intelligent. (b) Une capture d'écran à partir de l'outil ESM pour recueillir des
données d’apprentissage sur les activités humaines…………………………………………….. 25
Figure I.11- Plan d’architecture de la maison ORDONEZ A……………………………..…. 26
Figure I.12- Relation entre les lectures de capteurs et les intervales de temps Δt données…... 28
Figure I.13- Les différentes représentations des caractéristiques a) Raw, b) Change Point et c)
29
Last……………………………………………………………………………………………………….
Figure I.14- Acquisition des données de capteurs pour le premier jour avec les différents
31
attributs (Congélateur, Armoire, Micro-ondes, …) pour la base de données TK26M………....
Figure I.15- (a). Une capture d'écran pour le codage des étiquettes de capteurs installés dans
l’habitat intelligent. (b) Une capture d'écran pour le codage des étiquettes d’activités de la vie
quotidiennes…………………………………………………………………………………….. 32
Figure I.16- La conversion de ‘as’ en format texte au format Matlab. ID : contient le codage
des activités……………………………………………………………………………………… 33
Figure I.17- La conversion de ‘ss’ en format texte au format Matlab. ID : contient le codage
des capteurs………………………………………………………………………………...….… 33
Liste des figures

FigureI.18- Echantillonnage des données………………………………………………………… 34


FigureII.1- Schéma général du système de reconnaissance d’activités humines dans une maison
intelligente…………………..……………………………………….…………............................... 40
FigureII.2-La représentation graphique de premier ordre HMM. Les nœuds ombrés représentent
les variables observables, tandis que les nœuds blancs représentent ceux qui sont
cachés………………………………………………………………………………………………. 41
FigureII.3- Illustration des fonctions potentielles de CRF……………………………………….. 44
FigureII.4- Décision par 1-ppv (cercle pointillé) et 3-ppv (cercle en trait plein) sur un ensemble
d’observations appartenant à 2 classes……………………………………..………….................... 45
FigureII.5-Représentation dans IR2 de l’hyperplan correspondant à la fonction de décisiond’un
classificateur linéaire……………………………………………………………............................. 49
FigureII.6- Hyperplans canoniques…………………………………………………………......... 50
FigureII.7- Sur et sous-apprentissage des données, avec le modèle quadratique est le plus
adapté……………………………………………………………………………………………… 51

FigureII.8- La distance séparant un outlier et l’hyperplan canonique est : i ………………….. 52
w
FigureII.9- Un mapping  rendant les données linéairement séparables……………….……….. 53
FigureII.10- Principe de la Validation Croisée (VC) avec k=4……………………………………. 56
FigureII.11- La classification binaire WSVM……………………………………………………. 57
FigureII.12- Structure de la méthode WSVM multi-classes utilisant l’approche un-contre un… 61
FigureII.13- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données TK26M…………………………….. 67
FigureII.14- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données TAP80F…………………………… 67
FigureII.15- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données OrdonezA…………………………... 68
Liste des figures

FigureIII.1- Représentation d’un jeu de données constitue de trois classes


déséquilibrées………………………………………………………………………………………. 72
FigureIII.2- Nouvelle approche de résolution du problème du déséquilibre de données pour la
RAH …………………………………………………………………………………….………….. 78
FigureIII.3- Sous-échantillonnage des données. a) Avant Sous-échantillonnage b) Après Sous-
échantillonnage……………………………………………………………………………………. 79
FigureIII.4- Sur-échantillonnage des données. a) Avant Sur-échantillonnage b) Après Sur-
échantillonnage……………………………………………………………………………………. 80
FigureIII.5- Schéma de fonctionnement de l’algorithme Smote……………………………….... 84
FigureIII.6- Principe de la sélection de variables………………………………........................... 86
FigureIII.7- Principe de l’extraction de caractéristiques……………………………………....... 86
FigureIII.8- Nouvelle approche de réduction de dimensionnalité pour la RAH en utilisant PCA-
WSVM et LDA-WSVM…………………………………………………….……………………… 88
FigureIII.9- PCA appliquée dans l’espace à trois dimensions. ………………………………….. 89
FigureIII.10- PCA sur des données non-linéaires……………………………………………….. 91
FigureIII.11- Analyse discriminante à une dimension…………………………………………… 93
FigureIII.12-Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de données
TK26M……………………………………………………………………………………………... 95
FigureIII.13-Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de données
TAP80F……………………………………………………………………………………………. 96
FigureIII.14-Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de données
OrdonezA………………………………………………………………………………………….. 99
FigureIII.15-L’extraction des caractéristiques par l’Analyse en composantes Principales
(PCA)……………………………………………………………………………………………. 99
FigureIII.16-L’extraction des caractéristiques par l’Analyse Discriminante Linéaire
(LDA)….…………………………………………………………………………………………… 100
FigureIII.17- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, PCA-WSVM et LDA-WSVM pour chaque activité avec la base de données TK26M…. 102
FigureIII.18- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, PCA-WSVM et LDA-WSVM pour chaque activité avec la base de données TAP80F…. 103
FigureIV.1- Classification de données en deux dimensions avec le premier vecteur de base LDA
et le vecteur de base PCA. Approche de fusion de données avec PCA-LDA pour la classification
supervisée …………………………………………………………….…………………………… 105
FigureIV.2- Approche de fusion de données avec PCA-LDA pour la classification supervisée
…………………………………………………………….……………………………………….. 107
FigureIV.3- La structure de notre approche PCA-LDA-WSVM appliquée à la RAH …………….
FigureIV.4- Comparaison des taux de reconnaissance entre les méthodes de classification HMM, 108
WSVM, PCA-LDA-HMM et PCA-LDA-WSVM pour chaque activité avec la base de données
TK26M…………………………………………………………….……………………………….. 112
Liste des figures

FigureIV.5- Comparaison des taux de reconnaissance entre les méthodes de classification HMM,
WSVM, PCA-LDA-HMM et PCA-LDA-WSVM pour chaque activité avec la base de données 113
TAP80F……………………………………………………….……………………………………..

10
Liste des acronymes

Liste des acronymes


HIS Habitat Intelligent pour la Santé
RAH Reconnaissance des Activités Humaines
C4.5 Un type de classification supervisée- Arbre de décision
k-NN k-Nearest Neighbors / k-plus proches voisins
SVM Support Vector Machines / Séparateurs à Vaste Marge/ Méthodes à Vecteurs de
Support
CRF Conditional Random Fields / Champs aléatoires conditionnels
LDA Linear Discriminant Analysis / Analyse Discriminante Linaire
WSVM Weighted Support Vector Machines / Méthodes à Vecteurs de Support Pondérée
US Undersampling / Sous- échantillonnage
OS Oversampling / Sur-échantillonnage
SMOTE Synthetic Minority Oversampling TEchnique
PCA Principal Component Analysis / Analyse en Composantes Principales
AVQ Activité de la Vie Quotidienne
HIS Habitat Intelligent pour la Santé
RFID Radio Frequency Identification / Identification par Radiofréquence
HMM Hidden Markov Models / Modèle de Markov Caché
DBN Dynamic Bayesian Networks / Les réseaux de neurones artificiels
ONU Organisation des Nations Unies
AVQB Activités de Vie Quotidienne Basique
AVQI Activités de Vie Quotidienne Instrumentales
Liste des acronymes

RCSF Réseau de Capteurs Sans Fils


GPS Global Positioning System / Système de géolocalisation par satellite
SOM Self Organizing Maps
ANN Artificial Neural Networks
MLN Markov Logic Network
IA Intelligence Artificielle
WSU Washington State University
PDA Personal Digital Assistant

VS Vecteurs de Support
QP Quadratic problem
ML Machine Learning
KKT Karush-Kuhn-Tucker
RBF Radial Basic Function
OAA One-Against-All
OAO One-Against-One
LIBSVM Library for Support Vector Machines
SMO Sequential Minimal Optimization
TCC Taux de Classification Correcte
TK26M acronyme du nom de l'auteur Tim van Kasteren 26ans Masculin (M)
TK28M L’auteur :Tim Kasteren -28ans -Masculin (M)
TK57M L’auteur :Tim Kasteren -57ans -Masculin (M)
TAP80F L’auteur :Tapia -80 ans -Féminin (F)
VC Validation Croisée
Liste des acronymes

USB Universal Serial Bus


PIR Passive Infra-Rouge/ Capteur infrarouge passif
API Application Programming Interface
OS-SVM Combinaison OS avec SVM
US-SVM Combinaison US avec SVM
OS-LDA Combinaison OS avec LDA
US-LDA Combinaison US avec LDA
CBA Classification Based on Associations
INTRODUCTION GENERALE

INTRODUCTION GENERALE

La reconnaissance d’activités humaines à partir de capteurs est un domaine scientifique en pleine


effervescence avec de nombreuses applications dans le domaine de la sécurité et de la
vidéosurveillance des lieux publics [1, 2]. Ce domaine de recherche s’est récemment étendu à
l’assistance à domicile et à la surveillance dans des unités de soins spécialisées, ainsi qu’à la
surveillance et l’évaluation de procédés dans l’industrie. La reconnaissance d’activités humaines
est actuellement très exploitée par les chercheurs pour le développement de services aux
personnes non autonomes en utilisant différentes technologies comme les Smartphones et autres
objets intelligents.
Dans cette thèse, nous nous sommes intéressés à la reconnaissance d’activités des personnes en
perte d’autonomie qui ne sont pas capables de prendre soin d’eux-mêmes dans le cadre de
l’assistance à domicile [3, 4, 5]. Une révolution démographique est en cours dans le monde.
Aujourd’hui le nombre de personnes âgées de plus de 60 ans a atteint 600 millions; ce chiffre
doublera vers 2025 et atteindra deux milliards vers 2050 [6]. Cet accroissement accéléré de la
population ces dernières années met en évidence les problèmes liés à la perte d’autonomie. En
effet, les personnes âgées peuvent vivre seules à domicile, avec leurs proches ou dans des
établissements, cela dépend notamment de leur niveau de dépendance. Pour les personnes âgées
encore indépendantes, mais dans une tranche d’âge où le risque de perte d’autonomie est élevé, il
peut s’avérer nécessaire d’avoir un système de suivi pour observer l’évolution de leur niveau de
dépendance et émettre une alerte en cas de perte d’autonomie. Si des limitations fonctionnelles
sont détectées tôt, et sont suivies par des interventions appropriées, la personne âgée a des
chances de récupérer les fonctions atteintes au lieu de les perdre et de restreindre ses activités. Ce
système de suivi est aussi utile dans le cas des personnes non âgées en pertes d’autonomie parce
qu’il détecte tout changement (activités manquantes, désordre, interruptions, répétitions,
inactivité) dans une situation de dépendance de la personne afin de prévenir son référent le plus
tôt possible [7].
Pour assurer un minimum de sécurité à ces personnes et leur permettre de vivre le plus longtemps
possible à leur domicile, une solution peut-être considérée consiste en l’installation d’un réseau
de capteurs dans leur habitat pour en faire un Habitat Intelligent pour la Santé (HIS). Il doit

1
INTRODUCTION GENERALE

pouvoir être capable de reconnaître automatiquement les activités des occupants et permet leur
assistance à distance d’une manière intelligente.

Motivation
La vaste majorité des travaux existants dans le domaine de reconnaissance d’activités humaines
souffre des problèmes comme la variabilité du comportement usagé, le déséquilibre entre les
différentes classes de données, et le bruit affectant les données issues des réseaux de capteurs
sans fil. Dans cette thèse, nous traiterons deux problématiques. La première est que les ensembles
de données sont généralement déséquilibrés [8, 9], certaines activités sont plus fréquentes que
d’autres. Prenons pour exemple deux activités, ‘Dormir’ se produit généralement une fois par
jour tandis que l’activité ‘Boire’ se fait plusieurs fois par jour mais le nombre d’échantillons
obtenus pour l’activité ‘Dormir’ est plus important que celui de ‘Boire’, ceci s’explique par le
temps d’exécution de chaque activité induisant l’apparition de deux types de classes majoritaire
et minoritaire. Cependant, le système d’apprentissage peut avoir des difficultés à apprendre le
concept lié à la classe minoritaire et, par conséquent, ne pas incorporer la notion de déséquilibre
des classes dont l’évaluation finale peut conduire à des conséquences négatives pour les systèmes
de surveillance. Récemment, le problème du déséquilibre des classes a été reconnu comme un
problème crucial dans les méthodes d’apprentissage [10]. La plupart des classificateurs supposent
une répartition uniforme des classes de données et supposent un coût de mauvais classement égal
pour les différentes classes. De nombreux algorithmes d’apprentissage automatique ont été
évalués pour résoudre le problème du déséquilibre de données, par exemple, C4.5 [11], les
Méthodes à Vecteurs de Support (SVM) [12] et les k-Plus Proches Voisins (k-NN) [11], sans
apporter une réponse définitive et satisfaisante dans le domaine RAH. Par conséquent, nous
devons améliorer les algorithmes existants afin de traiter le problème de données déséquilibrées
et choisir la méthode la plus adaptée à la reconnaissance d’activités humaines.
La deuxième problématique est que le choix des descripteurs (attributs) caractéristiques des
données (dans notre cas issues des réseaux de capteurs placés dans les différents endroits de la
maison intelligente) ne sont pas évidents à priori et s’inscrivent en plus dans la catégorie de
données massives (grande dimension) [13, 14]. Par conséquent, nous devons extraire les
meilleures caractéristiques adaptées à la tâche de classification des activités humaines sans perdre
dans la précision des systèmes de reconnaissance.

2
INTRODUCTION GENERALE

Objectif de la thèse
L’objectif de notre travail est la modélisation du comportement de la personne dans sa propre
maison. Ce qui va permettre la détection des situations à risque ou critiques. L’observation des
habitudes de vie quotidienne d’une personne est un bon indicateur de l’évolution de sa situation
médicale. Dans le cas d’une dégradation de l’état de santé, des répercussions immédiates seront
remarquées dans le comportement et le déroulement des activités, par exemple: effectuer
certaines activités très lentement, diminution du temps des repas ou suppression globale d’une
activité par exemple. Le but de construire un modèle de comportement dans une situation
habituelle est de permettre la détection des situations inhabituelles et donc potentiellement
inquiétantes dans l’habitat intelligent pour la santé.
Plus particulièrement, on a adopté plusieurs approches de modélisation d’AVQ [15, 16, 17, 18]
adaptées aux données issues d’un réseau de capteurs installé dans un habitat intelligent dans un
contexte d’assistance aux personnes âgées. Ces capteurs sont issus de plusieurs types, on cite les
capteurs de contact collés dans les portes, les fenêtres et pour les capteurs de cuisine, comme les
capteurs de pression placés sous les pieds de chaises, du lit, ainsi que les capteurs de données
physiologiques tels que des bracelets portés en permanence par la personne.
Notre but de départ était l’amélioration des algorithmes de classification standards afin de choisir
l’approche la plus adaptée à la reconnaissance d’activités humaines dans un habitat intelligent.
Notre première contribution dans le Chapitre ΙΙ consiste à comparer plusieurs méthodes de
classification supervisées afin de pouvoir sélectionner la plus pertinente en termes de bonne
reconnaissance d’activités humaines. Une autre contribution dans le Chapitre III, consiste à traiter
le problème du déséquilibre de données entre les différentes classes d’activités humaines afin de
réaliser une classification cohérente et non biaisée par certaines activités dominantes. Le
problème de dimensionnalité des données a été aussi traité par l’extraction efficace de bons
attributs. Enfin, dans le chapitre IV, nous avons proposé une nouvelle approche de classification
appelée PCA-LDA-WSVM, qui traite les deux problèmes cités précédemment. Les simulations
ont été présentées et analysées indépendamment dans chaque chapitre afin de mener une
discussion plus cohérente des résultats.

3
INTRODUCTION GENERALE

Contributions
Cette thèse contribue à l’amélioration des performances du classificateur SVM dans le cadre de
reconnaissance des activités humaines. Nous avons comparé différentes méthodes de
classification discriminatives à savoir les Champs Aléatoires Conditionnels (CRF) [7, 15],
l’Analyse Discriminante Linéaire (LDA) [15], k-NN [16], SVM [15] et les Méthodes à Vecteurs
de Support pondérée (WSVM) [17] afin de sélectionner la meilleure approche. Cette recherche a
été valorisée à travers les contributions publiées dans [15, 16, 17, 19].
Nous avons aussi traité le problème du déséquilibre de données entre les différentes classes
d’activités afin d’améliorer les performances de reconnaissance des activités humaines. Les
approches pour aborder le problème des données d'apprentissage déséquilibrées peuvent être
classées en deux grandes catégories principales [10, 19].

 Au niveau des données [21] (les algorithmes de ré-échantillonnage). On cite par


exemple les méthodes de Sous-échantillonnage (US), Sur-échantillonnage (OS) et une
variante de OS qui est une technique de sur-échantillonnage synthétique de la classe
minoritaire (SMOTE).

 Au niveau algorithmique [17, 19] en utilisant les poids affectés pour chaque classe
d’activité qui va permettre de corriger les erreurs d'apprentissage causées par ce
déséquilibre et encourager les algorithmes d’apprentissage à se diriger vers un type de
modèle spécifique plus satisfaisant. On utilisera dans notre travail la méthode de
classification WSVM et nous allons intervenir plus particulièrement au niveau de
l’optimisation du processus d’apprentissage WSVM.

Ensuite, nous avons abordé le problème de dimensionnalité des données issues des réseaux de
capteurs dans l’apprentissage automatique, afin d’extraire les meilleurs attributs pour une bonne
classification des activités humaines. Nous avons utilisé deux approches d’extraction de
caractéristiques à savoir l’Analyse en Composantes Principales (PCA) et l’Analyse Discriminante
Linéaire (LDA).
Une autre contribution consiste en la proposition d’une nouvelle approche évaluée à travers un
article de Journal [22] qui traite à la fois le problème du déséquilibre de données et le problème
de dimensionnalité des données afin d’améliorer les résultats de classification des activités

4
INTRODUCTION GENERALE

humaines. Elle combine les deux méthodes d’extraction de caractéristiques à savoir l’Analyse en
Composantes Principales (PCA) et l’Analyse Discriminante Linéaire (LDA), avec la méthode de
classification appelée Méthode à Vecteurs de Support pondéré (WSVM). La combinaison PCA-
LDA vise à réduire le nombre de caractéristiques tout en augmentant le pouvoir de séparation
entre les classes d’activités. Ensuite la méthode WSVM a pour but de classifier les données
réduites issues de la sortie de l’étage PCA-LDA afin d’éviter le sur-apprentissage causé par les
échantillons des classes d’activités majoritaires et d’obtenir de meilleurs résultats de
classification des activités humaines. L’approche proposée a été testée et validée sur des données
réelles issues de réseaux de capteurs installés dans des habitats intelligents [23, 24, 25].

Organisation de la thèse
La thèse est organisée comme suit :
Le Premier Chapitre présente des généralités sur la reconnaissance d’activités des personnes à
partir du traitement de données collectées par des réseaux de capteurs sans fil. Nous aborderons
dans ce chapitre le problème d’augmentation de la population âgée dans le monde, puis nous
définirons par la suite les Activités de la Vie Quotidienne (AVQ) et ses différents types. Nous
donnerons la définition d’un Habitat Intelligent pour la Santé (HIS). Ensuite, nous présenterons le
système d’informations et de communication de l’HIS, suivi d'une description sommaire des
modules constituant ce système. Enfin, nous donnerons un bref aperçu des bases de signaux réels
utilisés dans nos travaux et qui sont issus de réseaux de capteurs sans fil d’un habitat intelligent
ainsi qu’aux pré-traitements nécessaires réalisés.
Le Deuxième Chapitre aborde la classification des activités humaines qui est le cœur de notre
travail. En premier lieu, il consiste à présenter les différentes méthodes de classification utilisées
dans l’état de l’art. Ensuite, il détaillera les méthodes retenues dans cette thèse, en élaborant un
nouveau principe des Méthodes à Vecteurs de Support pondérée (WSVM). A la fin de ce
chapitre, on étalera les résultats obtenus sur différentes bases de données réelles.
Le Troisième Chapitre expose les deux problèmes rencontrés dans les systèmes RAH, à savoir
le déséquilibre de données présent dans les bases de données et le problème de dimensionnalité
des données issues des réseaux de capteurs installés dans les habitats intelligents. Ensuite il
présentera deux solutions respectives proposées pour traiter ces deux problèmes afin d’améliorer
les performances de classification d’activités humaines et avoir des systèmes RAH plus adaptés.

5
INTRODUCTION GENERALE

La première solution était d’utiliser les combinaisons US-SVM, OS-SVM et SMOTE-SVM. La


deuxième solution était d’utiliser les méthodes hybrides PCA-WSVM et LDA-WSVM.
Le Quatrième Chapitre aborde une nouvelle approche de classification intégrée PCA-LDA-
WSVM qui combine l’Analyse en Composantes Principales (PCA), l’Analyse Discriminante
Linéaire (LDA) et les Méthodes à Vecteurs de Support pondérée multi-classes (WSVM). Nous
avons présenté son principe de fonctionnement ainsi que l’algorithme utilisé. Ensuite au niveau
des simulations, nous avons appliqué cette méthode de classification sur des bases de données
réelles issues de réseaux de capteurs sans fil.

6
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

CHAPITRE І : LA RECONNAISSANCE
AUTOMATIQUE DES ACTIVITES HUMAINES

I.1. Introduction
Les personnes en pertes d’autonomie comme les personnes âgées vivant seules à domicile sont
sujettes à plusieurs risques liés au vieillissement à long terme (mauvaise alimentation, perte
d’autonomie, hygiène insuffisante …). Cette croissance n’est probablement pas gérée par les
centres des soins de santé, il est suggéré le maintien à domicile par des résidences assistées, avec
un renforcement de leur sécurité et une amélioration de leur qualité de vie, (voir [26] pour plus de
détails sur les applications de maintien à domicile). Avec l’apparition de ce type de résidences,
toute une réflexion est apparue autour des technologies apportant des réponses pratiques aux
besoins des personnes en perte d’autonomie. Les technologies à base de reconnaissance
d’activités humaines à partir des capteurs sont en plein essor en raison de leur efficacité [27, 28,
29].
On synthétise les champs d’exploration établis dans le domaine de «Maison Intelligente» connue
sous la nomination «Smart Home» dans la Figure I.1 selon différents aspects :
• Personnes en perte d’autonomie, essentiellement les personnes âgées, handicapées et démentes,
• Services, distingués par deux grandes catégories :
- la sécurité des biens et des personnes (surveillance, téléassistance, assistance thérapeutique,
assistance médicale, etc.)
- la gestion du confort, intégrant l’utilisation (multimédia) dans la maison intelligente et le
confort sensoriel (ou des capteurs) (régulation de l’éclairage, gestion énergétique, etc.)
• Bases de données, centralisées ou distribuées (réparties sur plusieurs organismes), stockant
différents types d’informations sur la personne (activités, données physiologiques, traitements
thérapeutiques, etc.),
• Fonctionnalités, par le suivi de trajectoires, l’authentification des personnes, l’identification des
activités ainsi que la communication des informations à un système secondaire ou à un service de
plus haut niveau,

7
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

• Systèmes d’informations, destinés essentiellement à la modélisation des habitudes de vie des


personnes sur une base experte ou par apprentissage,
• Équipements, constitués essentiellement de détecteurs, et différents dispositifs assistées
(Systèmes RFID, actionneurs, … etc.).

Figure I.1- Champs d’explorations de l’Habitat Intelligent. [30]

Dans cette partie, nous allons tout d’abord présenter l’objectif de notre travail dans le cadre
d’assistance aux personnes en perte d’autonomie et plus particulièrement pour les personnes
âgées, ce qui nous permettra de comprendre les enjeux et la nécessité des technologies
d’assistance aux personnes âgées. Nous présenterons ensuite les différents types des technologies
d’assistance, le système d’informations et de communication de l’Habitat Intelligent pour la
Santé (HIS), suivi d'une description sommaire des modules constituant ce système. Nous
définissons par la suite les Activités de la Vie Quotidienne (AVQ) et ses différents types. Enfin,
la dernière section sera consacrée à la présentation des différentes bases de données réelles issues
à partir de réseaux de capteurs sans fils.

I.2. Le Contexte
Ces dernières années, les évolutions dans le domaine médical ont entraîné une augmentation de
l’espérance de vie de la population. Une des conséquences de cette augmentation est
l’accroissement de l’âge moyen qui se traduit par le vieillissement de la population. Au début du
21ème siècle, les personnes âgées étaient environ 600 millions dans le monde, soit trois fois plus

8
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

50 ans plus tard. Selon l’ONU, les personnes âgées de 60 ans ou plus représentaient, en 2007,
près du cinquième de la population dans les pays développés et, d’ici à 2050, elles devraient en
constituer le tiers, soit 2 milliards d’individus (Figure I.2). La population mondiale des personnes
âgées croît au rythme de 2% par an, soit beaucoup plus rapidement que la population dans son
ensemble. Dans les 25 ans à venir, elle devrait continuer d’augmenter à un rythme plus rapide
que les autres tranches d’âge. Une croissance aussi rapide exigera dans la plupart des pays des
mesures socio-économiques de grande portée [31].

Figure I.2- Pourcentage de la population âgée de plus de 65 ans (1950-2050), selon l’ONU «
United Nation, population Division ». [31]

Certes, l’allongement de l’espérance de vie de la population est un bienfait mais cela révèle une
multitude de problèmes de caractère individuel et sociétal liés à la qualité de vie des personnes
âgées. En effet, les problèmes de santé deviennent plus nombreux pour les personnes âgées et les
problèmes liés à la perte d’autonomie se multiplient. Le haut risque de chutes et de troubles dans
le comportement, diminue considérablement la qualité de vie des personnes fragiles. Avec les
avancées médicales, l’accès aux soins de maladies chroniques est devenu aisé, alors que les
difficultés liées à la perte d’autonomie restent un problème majeur de santé publique et également
de société. Si nous prenons l’exemple de la France, aux alentours des années 2030, une personne
sur quatre sera concernée par le problème de dépendance. En revanche, l’entrée en établissement
d’hébergement pour les personnes âgées devient de plus en plus difficile en raison du nombre
limité de places disponibles. Dans les années futures, l’écart entre les besoins de prise en charge
des personnes âgées et le nombre de places en établissements deviendra encore plus important,
vu l’accroissement rapide de l’espérance de vie.

9
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Pour diminuer cette pression, le maintien et l’assistance à domicile des personnes âgées, le plus
longtemps possible, semble être une bonne solution. Cela permet, notamment, à la personne
concernée, de préserver au maximum ses liens familiaux et sociaux, de conserver un
environnement familier, et de bénéficier d’un maximum d’indépendance.
Dans ce contexte d’application, un système de suivi et d’analyse des comportements des
personnes âgées encore indépendantes, vivantes seules à leur domicile est plus que nécessaire.
Cela permettra de garantir leur sécurité, d’observer l’évolution de leur niveau de dépendance et
d’émettre une alerte en cas de perte d’autonomie. De plus, il est bien connu que même des
changements subtils dans le comportement des personnes âgées peuvent donner des signes
importants quant à la manifestation ou progression de certaines maladies. Des troubles de
sommeil, par exemple, pourraient être causés par une insuffisance cardiaque ou par des maladies
chroniques. Les changements dans la démarche, d’autre part, peuvent être associés à des signes
précoces de troubles neurologiques liés à plusieurs types de démence. Ces exemples soulignent
l’importance de l’observation en permanence des changements de comportement chez les
personnes âgées afin de détecter une détérioration de la santé avant que celle-ci ne devienne
critique. Nous allons, dans la section suivante, définir l’habitat intelligent proprement dit, ensuite
donner un aperçu sur les différents systèmes d’habitats intelligents, et finalement définir les
différents types d’activités de la vie quotidiennes effectuées par les personnes en perte
d’autonomie.

I.3. Habitat Intelligent pour la Santé (HIS) et les Activités de la Vie


Quotidienne (AVQ)
I.3.1. Notion de l’Habitat Intelligent pour la Santé (HIS)
L’Habitat Intelligent pour la Santé (HIS), est une spécialisation de la notion d’habitat intelligent
(Smart Home), qui intègre des capteurs et des actionneurs pour reconnaître les AVQ [32], [33].
Son concept vise, notamment, à redonner une vie autonome, dans leur domicile, à des personnes
âgées dépendantes ou à des personnes souffrant de diverses pathologies et handicaps qui
devraient normalement les contraindre à une hospitalisation. Il permet également d’assurer le
maintien à domicile des personnes âgées autonomes.
L’Habitat Intelligent pour la Santé tel que l’ont conçu les chercheurs du laboratoire TIMC-IMAG
de l’UJF (Grenoble, France) [34] avec chambre, séjour, cuisine, toilettes, douche, couloir, voir la

10
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

figure ci-dessous, met en œuvre une chaîne complète de traitement d'informations allant du
recueil des paramètres initiaux à leur analyse en termes médicaux (diagnostic, évaluation
fonctionnelle, télé surveillance), décisionnels (fusion de données, détection d'alarmes), et de
gestion (droits d’accès, archivage, analyses rétrospectives...).

Figure I.3- Architecture matérielle et logicielle du système distribué HIS du Laboratoire TIMC-
IMAG à la faculté de médecine de Grenoble-France. [35].

Des capteurs ont été disséminés en différents endroits de l’habitat : capteurs de présence (PIR),
tensiomètre, pèse-personne, oxymètre, etc. Ces capteurs ont été reliés, via un réseau local filaire
et non filaire, à un logiciel d’acquisition et de traitement des signaux, lequel est chargé d’analyser
les événements, de surveiller l'évolution des paramètres et de détecter d’éventuelles situations
critiques (chutes, malaise, appels vocaux ). Il communique, par réseau téléphonique ou câblé et
technologies Internet, avec un centre de télévigilance médicalisée chargé de la réception et du
traitement des informations et des alarmes. Plusieurs projets de recherche sur les systèmes
d’habitats intelligents [36], [37], [38], [39] sont lancés à travers le monde afin de favoriser le
maintien à domicile.

I.3.2. Etat de l’art des systèmes HIS


Il existe de nombreuses études dans le domaine de l’habitat intelligent pour la santé. Elles font
intervenir différents types de capteurs pour surveiller des paramètres à la fois médicaux,
comportementaux et environnementaux de l’occupant [36].

11
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Dans la littérature, on trouve un état de l’art concernant les HIS :


- Noury et al. [32] évaluent les projets ayant conduit à l’implantation d’HIS. Ils présentent
les principales démarches menées dans les domaines technologiques (systèmes
d’informations, équipements domotiques, capteurs, assistance robotisée).
- Stefanov et al. [37] identifient cinq groupes pour les dispositifs qui peuvent équiper un
habitat intelligent (dispositifs pour automatiser et commander l’environnement, pour
assister les activités de l’occupant, pour surveiller la santé de l’occupant, pour l’échange
d’informations, pour les loisirs). Pour chacun de ces groupes, ils présentent les
technologies existantes et les perspectives de l’habitat intelligent pour des personnes
âgées et pour des personnes ayant des incapacités physiques.
- Chan et al. [38] évaluent et regroupent les principaux projets menés dans le domaine de
l’habitat intelligent par continent. Ils résument les fonctions, les technologies associées et
les méthodes utilisées par la communauté scientifique pour la réalisation de systèmes de
surveillance (systèmes de mesures d’activités, systèmes embarqués, robotique
d’assistance) pour personnes âgées. Ils discutent les futurs défis à relever pour
l’acceptabilité de tels systèmes.
- Nugent et al. [39] présentent les solutions existantes pour automatiser l’habitat afin
d’assister le quotidien des personnes âgées indépendantes.
Cet aperçu sur l’état de l’art recouvre les solutions d’habitat intelligent existantes pour un objectif
de prise en charge du vieillissement à domicile.

I.3.3. Définition des Activités de la Vie Quotidienne (AVQ)


La notion d'AVQ a été décrite pour la première fois par le Dr Katz [40] comme l'ensemble des
activités effectuées par un individu dans sa routine pour prendre soin de lui-même. Cela inclut
des activités telles que la préparation des repas, l'habillement, la toilette personnelle. On peut
également définir une activité comme une séquence d’actions élémentaires. Par exemple,
l’activité ‘Boire un verre d’eau’ consiste en la séquence d’actions élémentaires suivantes : ‘Aller
vers le frigidaire’, ‘Ouvrir le frigidaire’, ‘Prendre une bouteille’, ‘Se servir un verre d’eau’, et
‘Ranger la bouteille dans le frigidaire’ et ‘Fermer le frigidaire’. Les professionnels de la santé
évaluent souvent le niveau d'autonomie d'une personne selon sa capacité ou son incapacité à
exercer certaines AVQ. Cette mesure est utile pour évaluer le degré de dégénérescence cognitive

12
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

d'un patient et de discerner le type de soutien dont il aura besoin [41]. Pour résumer, les AVQ
sont un ensemble d'activités qu'une personne normale est censée être en mesure de réaliser pour
être qualifiée comme autonome. On peut distinguer deux types d'AVQ différents : Basique et
Instrumentale [42].
AVQB: Les activités de base de la vie quotidienne sont l'ensemble des activités qui sont
fondamentales et obligatoires pour répondre aux besoins primaires d'une personne. Cela inclut la
capacité de se déplacer, d’aller à la salle de bains, de s’alimenter, etc. Ces activités sont
composées de quelques étapes seulement et ne nécessitent pas une véritable planification.
AVQI: Ce genre d'activités plus complexes est composé d'un plus grand nombre d'étapes et
nécessite une meilleure planification, un bon jugement et implique la manipulation d’objets. Ces
activités sont nécessaires pour vivre de façon autonome et dans la société. Pour une personne,
être capable de réaliser toutes les AVQ instrumentales signifie être relativement autonome. Cette
catégorie comprend les activités telles que la gestion de son argent, le magasinage, l'utilisation
d'un téléphone, prise de médicaments…
Les AVQ instrumentales sont plus complexes que les activités basiques.
Dans la littérature scientifique sur l'assistance technologique à l'intérieur de maisons intelligentes
[43], les chercheurs utilisent généralement les AVQ sans les distinguer. Cependant, la plupart du
temps les recherches se concentrent sur la reconnaissance et l'aide des AVQ instrumentales. La
raison principale est que la personne qui ne peut pas accomplir avec succès une activité de base
aura des besoins en soins plus complets que l'aide apportée par une maison intelligente. Dans la
section suivante, on présentera les différentes technologies permettant le maintien et l’assistance
des personnes âgées à domicile.

I.4. Technologies d’assistance aux personnes âgées dans une maison


intelligente
Nous pouvons regrouper les différents types de systèmes selon le type de capteurs exploités et
des méthodes de reconnaissance utilisées pour le traitement des données. Cette synthèse est
présentée dans le tableau I.1. Dans la prochaine sous section, nous allons présenter brièvement
trois différents types de technologies utilisées pour mesurer l’activité, à savoir, la reconnaissance
sonore, la reconnaissance à partir de séquences vidéo et les réseaux de capteurs.

13
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

I.4.1 La reconnaissance sonore


Afin d’effectuer la reconnaissance automatique de la parole, des modèles acoustiques adaptés à
l’activité sont nécessaires [44]. La voix humaine évolue au cours du temps, en raison du
vieillissement ou des maladies. Fezari et Bousbia-Salah [45] ont proposé une méthode de
contrôle d’une chaise roulante - utilisée par les personnes handicapées ou bien âgées – via
certaines commandes vocales. Ce type de commande utilise des moteurs de reconnaissance
automatique de la parole existants qui sont adaptés pour ce type d’utilisation.

Tableau I.1- Résumé des études existantes et des types de capteurs mis en œuvre.
Auteurs Description du système Méthode
Mozer [46] Détecteurs Réseaux de neurones
Williams [47] Détecteurs, contacteurs Analyse simple de données
Barnes [48] Capteurs infrarouges passifs, Modélisation et suivi de mouvement,
Commutateurs magnétique, Analyse des activités,
Contacteurs Utilisation anormale des équipements

Noury [32] Capteurs infrarouges passifs, Statistiques et Probabilités


magnétique, contacteurs
Tapia [5] Détecteurs Analyse de contexte
Matsuoka [49] Détecteurs, Caméras vidéo, Analyse statistiques d’activités par les
séries temporelles
Isoda [50] Détecteurs, RFID, objets Représentation spatio-temporelle de l’état
de l’usager
Détecteurs ultrasons Localisation précise
Helal [28] Tapis instrumentés Localisation

Kasteren [7] Capteurs infrarouges passifs, HMM, CRF


Commutateurs magnétique

Fleury [18] Capteurs infrarouges, SVM


Contacteurs, microphones

14
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Le laboratoire CLIPS10 [51] a proposé un système de reconnaissance des situations de détresse à


l’intérieur de l’habitat. À partir de la reconnaissance de sons de la vie courante, le système
proposé permet la reconnaissance des AVQ et aussi la détection des mots-clés de détresse. Virone
et Istrate [52] utilisent la reconnaissance sonore pour fournir une application de télévigilance
médicale des personnes âgées ou fragiles à domicile.
De plus, afin de faciliter l’accès aux nouvelles technologies pour les personnes âgées, Kumiko et
al. [53] proposent un projet qui sert à aider les personnes âgées à effectuer des activités de type
instrumentales. Par exemple pour aider les personnes peu habituées à la saisie au clavier, dans
l’utilisation de l’ordinateur. Cela s’effectue à l’aide de l’utilisation des commandes vocales. Ce
type de recherche trouve ses applications dans les robots de compagnie pour les personnes âgées.

I.4.2 La reconnaissance à partir de séquences vidéo


Toujours dans l’optique d’assistance aux personnes âgées, des solutions à base de reconnaissance
d’images vidéo sont proposées par le projet GERHOME [54]. Ces solutions utilisent un ensemble
de caméras disposées dans l’environnement à surveiller et permettent un suivi des personnes.
Zouba et al. [54] ont proposé une approche de reconnaissance d’un ensemble d’AVQs réalisées
par des personnes âgées vivant seules à leur domicile à partir d’une séquence vidéo, afin d’être
capable de détecter des événements reflétant l’état de l’usager. En effet, les auteurs ont modélisé
trente-quatre événements vidéo, des événements simples comme «une personne qui est debout»
et d’autres complexes tels qu’ «une personne qui a des sentiments de faiblesse». La méthode de
reconnaissance des activités s’appuie sur la reconstruction 3D de la posture humaine.
Joumier et al. [29] ont étudié la capacité d’un système de reconnaissance d’activité vidéo à
détecter si l’activité est réalisée par des personnes âgées avec ou sans démence. En effet, un total
de 28 volontaires (11 sujets âgés en bonne santé, 17 patients atteints de la maladie d’Alzheimer)
ont participé à une expérimentation clinique. L’étude proposée a montré la possibilité de la
distinction entre les deux profils de participants en fonction des paramètres de l’activité motrice
telle que la vitesse de marche calculée à partir du système de reconnaissance automatique de
l’activité vidéo.
D’autres travaux se sont penchés sur la détection de chutes, problème courant de santé publique,
en se basant sur des informations vidéo. [55] détecte la chute en mesurant la vitesse de l’ellipse
qui approxime la silhouette. Les auteurs utilisent une caméra installée au plafond. Ainsi, le champ

15
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

de vision de la caméra est limité et il est donc très difficile de mesurer une vitesse verticale.
Thome et Miguet [56] intègrent les résultats d’une classification de la position de la silhouette
provenant de plusieurs caméras à l’aide d’une fusion basée sur la logique floue. Rougier et al.
[57] présentent une méthode qui utilise une classification par un modèle de mixture de
gaussiennes appliqué au contour de la personne suivi dans le temps afin de détecter la chute. La
détection de la chute se fait par une méthode de vote majoritaire sur le résultat de chacune des
caméras.

I.4.3 Les réseaux de capteurs


Ces dernières années, la miniaturisation des composants électroniques ainsi que la facilité de leur
intégration dans des circuits intégrés ont poussé plusieurs chercheurs à utiliser, dans leurs travaux
des capteurs pour mesurer l’activité de la personne. En effet, un système de capteurs qui est
capable de reconnaître automatiquement les activités à la maison permettrait de nombreuses
applications dans le domaine de la santé publique. Les capteurs sont des dispositifs qui peuvent
être utilisés pour détecter l’interaction entre une personne et son environnement. Il existe
différents types de capteurs qui diffèrent les uns des autres en termes de prix, de facilité
d’installation et de type de données en sortie [58]. Les capteurs peuvent être classés suivant le
type d’informations collectées [32] : Physiologique, Comportemental ou Environnemental (voir
Tableau I.2).
Les capteurs Physiologiques appelés aussi biomédicaux sont conçus pour mesurer les signes
vitaux des personnes. Ce type de capteurs joue un rôle important dans le suivi de l’état de santé
des personnes âgées. Comme nous pouvons le voir dans le tableau ci-dessus, les capteurs
biomédicaux peuvent mesurer la fréquence cardiaque, la pression artérielle, ou la température
cutanée. La deuxième catégorie de capteurs peut être utilisée pour déduire l’activité ou les
comportements d’une personne. Parmi ces capteurs, on peut trouver les capteurs cinématiques
embarqués tels que les accéléromètres tri-axes qui calculent trois accélérations linéaires selon
trois axes orthogonaux de l’objet sur lequel ils sont fixés. L’actimétrie embarquée peut également
utiliser des magnétomètres qui mesurent le champ magnétique perçu.
On trouve aussi les gyroscopes qui délivrent une mesure de la vitesse angulaire instantanée
autour d’un axe. On trouve également les capteurs de détermination de position tels que le

16
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

système de localisation mondial (GPS) et la radio-identification (RFID) qui donnent une


indication de l’endroit où une personne se trouve.

Tableau I.2-Classification des capteurs suivant le type d’informations collectées. [59]


Type Information Capteurs
d’information
Physiologique Rythme cardiaque Electrodes placées sur la peau, tensiomètre
Tension artérielle Dispositifs à brassards (sphygmomanomètres)
Poids Pèse-personne du commerce, outil pesant la personne
dans son lit ou dans les toilettes
Température Thermomètres électroniques qui mesurent le rayonnement
infrarouge de la surface du tympan (thermomètres
tympaniques) ou du fond de la bouche
Ventilation Capteur optique qui évalue l’opacité du sang aux
extrémités des doigts, des orteils ou du lobe de l’oreille
Comportemental Présence Capteur infrarouge passif
Déplacement Capteur ultrason, capteur de pression placé sous le tapis,
GPS
Utilisation d’objet Contact magnétique, capteur de pression (placé sous le matelas, la
chaise…), RFID
Geste Caméra
Posture Accéléromètre, Caméra
Chute Accéléromètre
Environnemental Température Thermomètre
ambiante
Pression Baromètre
atmosphérique
Humidité relative Hygromètre
Luminosité Luxmètre
Sons Sonomètre, microphone
Gaz Détecteurs de gaz

Un capteur RFID pourrait effectuer cette tâche en utilisant des étiquettes RFID placées sur des
objets qui interagissent avec le comportement de la personne. Cette catégorie inclut aussi les
capteurs fixés sur l’ameublement de la maison. Il s’agit, notamment, des capteurs de contact sur
les portes des armoires et des réfrigérateurs qui indiquent qu’elles ont été ouvertes, des capteurs
de pression qui indiquent si une personne est assise dans un lit ou sur une chaise, et des capteurs

17
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

électriques qui indiquent si un poêle a été allumé. Les capteurs environnementaux, appelés aussi :
capteurs de contexte, tels que les capteurs de lumière, les capteurs d’eau et les capteurs de
température permettent de recueillir des informations de contexte sur la scène.

I.4.4. Avantages et inconvénients des technologies du soutien à domicile


Nous avons présenté une analyse des différents types de technologies déjà utilisées pour
l’assistance aux personnes âgées ou en perte d’autonomie. L’utilisation de systèmes sonores
possède des avantages comme leur intrusivité limitée, leur coût faible et leur installation facile.
Cependant, les conditions d’enregistrement du son à traiter peuvent être fortement perturbées. Le
système doit, par exemple, reconnaître le mot ou le son dans un environnement caractérisé par
des bruits ambiants forts.
Les systèmes d’assistance basés sur les séquences vidéo sont confortables puisque l’utilisateur ne
porte aucun capteur sur lui. Depuis quelques années, l’utilisation de la vidéosurveillance
commence à prendre de l’ampleur permettant une analyse plus détaillée du comportement de la
personne par rapport à son environnement car elle peut servir à la détection de plusieurs types
d’activités (chute, prise de médicaments, absence prolongée, sommeil trop long, localisation dans
une pièce, etc.). Ce type de capteurs peut se considérer comme intrusif. Cependant, la question du
respect de l’intimité et de la vie privée de la personne âgée se pose lors de l’utilisation de cette
technologie.
Les systèmes basés sur l’utilisation de capteurs portables fournissent un diagnostic fiable et
objectif. Toutefois, l’utilisation de ce type de capteurs ne présente pas une solution convenable
puisque les personnes suivies, surtout les plus âgées, changent souvent d’habits et risquent de ne
pas remettre les capteurs, par oubli ou par manque de volonté. Certaines personnes ne sont pas
toujours suffisamment habillées pour porter les capteurs sur elles ; les malades d’Alzheimer, par
exemple, se déshabillent souvent et abandonnent ainsi les capteurs. De plus, les personnes âgées
sont très sensibles à tout changement, dans leur environnement de vie [60] et se sentent gênées et
encombrées par les câbles et les capteurs.
Ces risques peuvent être diminués par l’utilisation de capteurs intégrés à l’environnement qui
permettent de sécuriser l’environnement de la personne âgée. Ce type de capteurs non invasifs
(c’est-à-dire non portés par l’occupant), non intrusifs (c’est-à-dire sans déranger l’intimité de
l’occupant) et fonctionnant de façon passive (c’est-à-dire sans la nécessité de mise en marche

18
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

quotidienne), ont de fortes probabilités d’être acceptés par les personnes âgées et d’être diffusés
largement.

I.5. Les bases de données pour la RAH


Dans ce travail, nous avons opté pour la technologie de reconnaissance qui s’appuie sur des
capteurs binaires répartis (détecteurs de mouvement, contacts électromagnétiques, etc.) [5], [7],
[61]. D’ailleurs, l’équipe de Cook & al. [62] a obtenu des résultats intéressants avec ce type de
capteurs. En fait, leur système de collecte de données est constitué d'un réseau de capteurs de
mouvement qui collectent des informations binaires. Il y a plus de 100 capteurs déployés
permettant de recueillir des données sur les mouvements, la lumière, la température, l'humidité et
les interrupteurs. Leur laboratoire se compose d'une grande zone de présentation, d'une cuisine,
d'un bureau d'études et d'un salon. Comme présenté dans la figure ci-dessous.

Figure I.4- L’appartement intelligent du WSU avec les capteurs de mouvement (M), de
température (T), d'eau (W), ... [62]

L’algorithme de reconnaissance est basé sur le paradigme de machine d'apprentissage [63]. Il


traite les données brutes et il s’intéresse particulièrement à la découverte de relations temporelles.
Ils ont d’ailleurs fait des essais cliniques pour recueillir des données et mettre leur algorithme à
l’essai. Pour ce faire, des sujets humains ont effectué des activités présélectionnées que l'on
retrouve dans les questionnaires cliniques habituels [64]. Comme le montre la figure I.5, durant
l’exécution de l’activité, chaque lecture des capteurs est notée avec la date et l'heure de
l'événement, l'identificateur du capteur qui a généré l'événement et la valeur du capteur.

19
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Figure I.5- Une résidente qui exerce une activité de ‘Lavage des mains’ (gauche). Cette activité
déclenche les capteurs de mouvement ainsi que les capteurs de débit d'eau (à droite). [62]

I.5.1. Annotation des données


L’annotation des données, appelée aussi annotation d’activités, constitue un autre aspect de la
reconnaissance d’activités humaines. C’est un défi majeur que rencontrent les approches de
reconnaissance d’activités. L’annotation des activités est une tâche préalable à la reconnaissance
et s’inscrit dans le contexte de prétraitement des données requis afin de permettre aux approches
de reconnaissance d’activités de s’exécuter.
La plupart des chercheurs annotent leurs activités manuellement. Cela veut dire que l’annotation
s’effectue au fur et à mesure de la réalisation des expérimentations en inspectant les états de
capteurs comme le travail présenté par Wren et al.[65]. Une autre manière d’annoter les données
consiste à demander à l’utilisateur d’annoter ses activités [5]. Donc, c’est l’utilisateur qui est
responsable d’annoter ses propres activités en spécifiant les moments de début et fin de chaque
activité. Cependant, cette méthode restreint la liberté de l’usager dans le sens où il ne doit pas
oublier d’annoter une activité particulière. De plus, cette méthode n’est pas pratique lorsque
l’usager est malade, plus spécifiquement s’il présente des déficits cognitifs ou qui souffre de la
maladie d’Alzheimer. Une troisième méthode implique que l’expérimentateur qui doit indiquer à
l’usager l’activité qu’il doit réaliser. Les activités sont alors annotées par l’expérimentateur avant
même que les états de capteurs soient collectés.
Dans le cas de notre travail, nous avons besoin des données annotées pour évaluer notre méthode
de classification. Ainsi, les données issues du réseau de capteurs utilisées dans notre travail ont
été annotées selon la première méthode. L’annotation manuelle a été réalisée soit en utilisant une
méthode indirecte via des notes audio (oreillette Bluetooth) [7] ou à l’aide d’un rapport écrit (Self

20
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

report en anglais) [5]. Dans cette méthode, les données sont collectées par le biais des
questionnaires ou des interviews avec les usagers. Ces questionnaires comportent entre autres des
questions relatives à la façon dont les usagers se comportent avec le système afin d’atteindre leurs
objectifs. Dans le questionnaire, nous posons des questions sur l’heure habituelle, l’endroit
habituel et la durée de réalisation des AVQ de l’occupant. C’est l’occupant qui répond au
questionnaire. Le tableau I.3 présente la réponse au questionnaire de l’occupant vivant dans un
appartement de la plateforme AILISA [59].

Tableau I.3- Réponse au questionnaire sur les habitudes de vie de l’occupant. [59]

I.5.2. Etude des bases de données


Dans notre travail, nous avons utilisé des bases de données générées par un ensemble de capteurs
de changement d'état installés dans différents endroits dans la maison intelligente. Chaque base
de données est composée de données temporelles binaires à partir d'un certain nombre de nœuds
de capteurs afin de permettre une surveillance des Activités de la Vie Quotidienne (AVQ) d’une
personne à son domicile.
Ces ensembles de données ont été utilisés dans les études antérieures [66, 67, 68] et sont
accessibles au public [23, 24, 25]. La disposition des maisons intelligentes diffère fortement

21
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

d’une base de données à l’autre, ainsi que la configuration des capteurs, pour plus de détails voir
le tableau I.4. Le type de capteurs utilisés pour surveiller les utilisateurs a été choisi en
fonction de deux critères principaux: la facilité d'installation et l’intrusion minimale. Les
capteurs utilisés sont : des interrupteurs à lames souples (ou interrupteurs reed) pour détecter
l’état ouvert des portes et des placards, des capteurs de pression pour détecter si le sujet est assis
sur un canapé ou allongé sur son lit, capteurs de contacts en mercure pour détecter le déplacement
des tiroirs, des capteurs infrarouges passifs pour détecter les mouvements dans des endroits
spécifiques, des capteurs de niveau d’eau pour savoir si les toilettes ont été utilisées, et enfin des
capteurs de température pour indiquer l’utilisation de la douche.

Tableau I.4- Informations sur les différentes bases de données.

TK26M TK28M TK57M TAP80F OrdonezA


Age 26 ans 28 ans 57 ans 80 ans -
Genre Homme Homme Homme Femme -
Installation Maison Maison Maison Appartement Appartement
Nb de chambres 6 2 6 3 4
Durée 28 jours 13 jours 18 jours 14 jours 14 jours
Nb de capteurs 14 22 21 70 12
Nb d’activités 8 14 16 10 10
Journal Journal
Annotation Bluetooth Bluetooth PDA
Manuscrit Manuscrit
Tim van Tim van
Tim van
Enregistré par Kasteren Kasteren Tapia [66] Ordonez [67]
Kasteren [68]
[68] [68]

Nous décrivons brièvement le système d’acquisition et d'annotation utilisé pour enregistrer et


étiqueter les ensembles de données issues des réseaux de capteurs pour chacune des bases de
données. Notons que pour les bases de données utilisées, chaque capteur envoie un événement
lorsque l'entrée numérique change d’état ou lorsque l'entrée analogique franchit un certain seuil.
Tous les capteurs sont binaires.

I.5.2.1. La base de données TK [68]


Pour la collecte des mesures, kasteren [68] a utilisé un RCSF de type RFM DM 1810 (Figure I.6)
pour observer le comportement des habitants à l'intérieur des différentes maisons (Figure I.7). Le

22
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

choix de ce RCSF a été fait à cause de son protocole réseau économique en énergie et qui gère
efficacement la communication sans fil, ce qui augmente la durée de vie des batteries de capteurs.
Ce kit de réseaux de capteurs est doté d’un nœud de capteur spécial doté d’une grande puissance
de calcul appelé ‘puits’ (ou sink/station de base) connecté à un PC via une clé USB. Le nœud de
réseau sans fil RFM a une entrée analogique et l’autre numérique.

Figure I.6- Nœud de réseau de capteurs sans fil pour lequel le capteur peut être attaché
[7].

TK26M TK28M

TK57M : Premier étage. TK57M : Deuxième étage.


Figure I.7- Le plan intérieur des maisons TK26M, TK28M et TK57M, les boîtes rouges
représentent les nœuds de capteurs sans fils [7].

23
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

L’annotation a été réalisée de deux manières en utilisant soit un rapport d’activité écrit sur papier
(manuscrit) ou à l’aide d’une oreillette Bluetooth combinée avec le logiciel de reconnaissance
automatique de la parole. Le début et la fin de chaque activité sont annotés avec des commandes
bien définies. Les classes annotées sont par exemple : Autres activités, Sortir, Dormir, Déjeuner.
Dans le procédé d’annotation Bluetooth, le fournisseur de la base de données a utilisé l’oreillette
Bluetooth de type Jabra BT250v combinée avec un logiciel de reconnaissance de la parole
Microsoft API, (Figure I.8). L’oreillette est rechargée pendant la phase du sommeil. La puissance
de batterie de l’oreillette Bluetooth en veille (standby) est de 300 heures et de 10 heures en mode
activé, ce qui est suffisant pour un jour complet d'annotation.

Figure I.8- Oreillette Bluetooth Jabra BT250v utilisé pour l'annotation [7].

Dans la base de données TK57M l’annotation a été réalisée en utilisant le journal électronique.
Plusieurs feuilles de papier ont été distribuées dans toute la maison à des endroits différents où
les activités sont typiquement effectuées. L’usager lui-même annote sur feuille l'heure de début et
de fin des activités en lisant l’heure sur sa montre. L'avantage de ce procédé est qu'il est très
facile à installer et à utiliser par l’usager. L'inconvénient de cette méthode est qu'elle est
consommatrice en temps pour le traitement des données annotées (c'est-à-dire transcrire les
informations qui se trouvent sur les feuilles de papier vers un ordinateur) et que l’heure affichée
sur la montre de l’usager pourrait légèrement différer des horodatages qui enregistrent les
données des capteurs sur l’ordinateur.

I.5.2.2. La base de données TAP80F


La base de données est constituée d’un ensemble de données enregistrées en 14 jours (durée
d’étude) dans la maison d’une femme de 80 ans [66]. Elle vit seule dans un appartement de trois
pièces où 70 capteurs ont été installés, voir la figure suivante.

24
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Figure I.9- Plan d’architecture de la maison TAP80F, les points bleus représentent les nœuds de
capteurs sans fil [5].

Les activités ont été annotées par le sujet lui-même en utilisant un Journal électronique (PDA),
comme le montre la figure I.10. Le sujet a reçu des signaux sonores une fois toutes les 60 minutes
pendant 14 jours (la durée de l'étude).
Au signal sonore, le sujet a reçu la série suivante de questions :
On lui a d'abord demandé ‘Que faites-vous au signal sonore (maintenant) ?’
Le sujet choisit l'activité qu'il faisait au moment du signal sonore dans un menu contenant toutes
les activités.
La question suivante était : ‘Pendant combien de temps avez-vous fait cette activité ?’
Le sujet choisit la réponse sur une liste de quatre propositions : moins de 2 minutes, moins de 5
minutes, moins de 10 minutes et plus de 10 minutes.
On lui a alors demandé : ‘faisiez-vous une autre activité avant le signal sonore ?’. Si l'utilisateur a
répondu positivement, la même liste d’activités lui était représentée une autre fois. Au total dix
activités différentes ont été annotées.

Figure I.10- (a). Les capteurs de changement d'état qui peuvent être installés dans
un habitat intelligent. (b) Une capture d'écran à partir de l'outil PDA pour recueillir des données
d’apprentissage sur les activités humaines.

25
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

I.5.2.3. La base de données OrdonezA


La base de données est constituée d’un ensemble de données enregistrées en 14 jours dans la
maison, ou un homme adulte volontaire vit seul dans un appartement de 4 pièces où 12 capteurs
ont été installés, voir figure I.11. Cette personne a été choisie pour créer de la variabilité dans les
données et ainsi obtenir un système de surveillance efficace en matière de maintien à domicile.

Figure I.11- Plan d’architecture de la maison ORDONEZ A,


Les points rouges représentent les nœuds de capteurs sans fil [69].

Les activités ont été annotées manuellement par le sujet lui-même en utilisant un Journal
manuscrit. Dix activités différentes ont été annotées, voir le tableau I.5 : On remarque que
l’activité Boire n’est pas présentée dans cette base de données, néanmoins deux activités
supplémentaires ont été incluses par rapport aux autres bases de données, à savoir: ‘Faire sa
toilette’ et ‘Loisir’. Cette dernière activité comprend les activités suivantes : Regarder la
télévision, la lecture ou travailler avec son ordinateur.

I.5.3. Description détaillée des données


Le tableau suivant présente des informations sur les bases de données. Le premier comporte les
noms des différentes activités ainsi que le nombre d’échantillons correspondant.

26
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Tableau I.5- Liste des activités annotées pour chaque base de données ainsi que le nombre
d’échantillons de chaque activité (.).
TK26M TK28M TK57M TAP80F OrdonezA
Autres- Autres- Autres- Autres- Autres-
activités(4627) activités(5598) activités(2732) activités(17673) activités(1307)
Sortir(17151) Sortir(10835) Dormir (7886)
Sortir(11993) Aux toilettes(630) Aux toilettes
Aux toilettes(380) Aux toilettes(75) Manger(376) Prendre des (173)
Se doucher(265) Se doucher(112) Aux toilettes(243) médicaments(185) Se doucher
Dormir(11601) (121)
Se Brosser les Se doucher(191) Prép. Petit Prép.
Petit-déjeuner(109) dents(41) déjeuné(466) Déjeuner
Se brosser les
Dîner(348) Dormir(6057) Prép. Déjeuner(843) (132)
dents(102) Faire sa
Boire(59) S’habiller(46) Prép. Dîner(506)
Se Raser(67) toilette (154)
Prep. Déjeuner(81) Prép. le Goûter(320) Loisirs (8646)
Dormir(7738)
Prep. Dîner(90) Laver la Sortir (1692)
S’habiller(112)
Boire(12) Vaisselle(328) Petit-
Prendre des
Faire la Regarder TV(717) déjeuner (331)
médicaments(16)
Vaisselle(34) Ecouter de la Goûter (14)
Petit-déjeuner(73)
Dîner(54) musique(1100)
Déjeuner(62)
Petit-déjeuner(143) Dîner(291)
Jouer au piano(492) Goûter(24)
Boire(34)
Se détendre(2435)

I.5.3.1. Protocole expérimental

Notre but est de déterminer un groupe d’activités que l’on souhaiterait classifier
automatiquement. Dans les différentes bases de données, l’individu a été équipé d’un moyen
d’annotation et a été appelé à entrer dans l’appartement et se comporter comme s’il était dans sa
propre maison. Il lui avait été demandé par la suite d’effectuer au moins une fois chacune des
activités (AVQ) définies précédemment dans le tableau I.5. Il n’y a ni ordre, ni contrainte de
temps pour effectuer ces activités. Les seules conditions requises sont d’effectuer les différentes
activités correctement et pas simultanément afin d’éviter le chevauchement entre les différentes
activités.

I.5.3.2. Représentation des données (Vecteurs caractéristiques)


Les données brutes de capteurs sont divisées en un intervalle de temps constant ΔT. A l'instant t,
le capteur i est affecté une valeur binaire xti  1 pour indiquer que le capteur i a été activé au

27
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

moins une fois dans l'intervalle de temps [t +t], sinon xit  0 . Étant donné un ensemble de n

capteurs, l'observation à l'instant t est donnée par le vecteur binaire x→  (x1t, x 2t ,…, x nt )Tr . Une
activité à l’instant t est donnée par yt avec yt  1,..., N et N est le total nombre des activités
humaines comme Sortir, aller aux toilettes, se doucher, dormir, boire, préparer le dîner, etc. La
tâche de reconnaissance consiste à trouver une correspondance entre une séquence
d’observations x1:T  (x 1, x 2 ,…, x T )Tr et une séquence d’étiquettes y1:T  (y1, y 2,…, y T )Tr pour une
durée d’acquisition de données T. Par la suite, nous allons également utiliser les notations x et y
en faisant référence à x1:T et y1:T .
Les lectures de capteurs ont donc été divisées en segments de données de longueurs constantes,
Δt=60 secondes, sans chevauchement, voir figure І.12. La durée de cette tranche de temps est
suffisamment longue pour être discriminative et suffisamment courte pour fournir des résultats
précis en matière d'étiquetage. Un vecteur de caractéristiques a été généré pour chaque tranche
de temps. Le vecteur contient une entrée pour chaque capteur, où les valeurs des capteurs
peuvent avoir les valeurs 0 ou 1.

Figure I.12- Relation entre les lectures de capteurs et les intervalles de temps Δt.

Concernant la méthode de test, nous avons utilisé l’approche dite validation croisée (VS) de type
leave one day out [7]. Cette approche consiste à séparer, pour une base de données de n jours,
une journée complète de lectures des capteurs pour le test et les jours restants pour
l’apprentissage. Cette opération est ensuite répétée pour chacun des autres jours, ce qui donne
un nombre d’itérations égal au nombre de jours. A la fin du test, nous obtenons des vecteurs
d’étiquettes pour chaque jour de test. Pour obtenir le vecteur d’étiquettes total des classes

28
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

inconnues, on procède à la concaténation des différents vecteurs étiquettes obtenus pour


l’ensemble de donnés de test.
Trois représentations de caractéristiques ont été utilisées [68] : la représentation brute (Raw), la
représentation de changement d’état (Change point) et la représentation du dernier capteur activé
(Last). Dans la représentation brute (figure І.13.a), le capteur donne un 1 lorsqu’il est activé
sinon 0. Pour la représentation changement d’état (figure І.13.b), le capteur donne un 1 s’il y a
des changements de lectures du capteur. Et enfin, dans la représentation du dernier capteur activé
(figure І.13.c), le dernier capteur qui change d’état continu à donner 1 et bascule à 0 lorsqu’un
capteur différent change d’état.
L’état du capteur (représenté par la représentation brute) est non informatif. Il est plus utile de
savoir quand le capteur change d’état. Par exemple, si nous voulons reconnaitre l’activité
‘Dormir’, il serait intéressant de connaître si la porte de la chambre est ouverte. Cependant, de
nombreuses personnes laissent la porte ouverte une fois qu'ils sortent du lit. Dans la
représentation brute le capteur continuera à donner un 1 aussi longtemps que la porte
est ouverte, même si quelqu'un pourrait déjà être impliqué dans une autre activité.
La représentation de changement d’état résout ce problème en représentant que le moment dans
lequel un capteur a été utilisé. Cela indique que la porte de la chambre a été utilisée; cependant, il
reste peu clair si la personne est entrée dans la pièce ou a quitté la pièce. La représentation du
dernier capteur activé est plus efficace des autres représentations. Elle est particulièrement utile
pour les capteurs de porte. Si quelqu’un entre dans une pièce, le dernier capteur qui se déclenche
est soit la porte de cette pièce ou tout autre capteur au sein de la même pièce. Depuis
les gens tendent généralement à fermer les portes derrière eux pour un nombre
d'activités (par exemple dormir, se doucher et sortir). En utilisant les deux représentations
‘Change point’ et ‘Last’ par concaténation de leurs matrices respectives, ceci donnerai de
meilleurs résultats d’après les résultats obtenus dans [7].

Figure I.13- Les différentes représentations des caractéristiques a) Raw, b) Change Point et c)
Last.[7]

29
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

I.5.3.3. Pré-traitements des bases de données issues des capteurs binaires


Dans les environnements intelligents, la reconnaissance d’activités est basée sur le traitement des
événements issus des différents capteurs placés dans l’environnement. Par exemple, le
mouvement de l’occupant dans la zone de détection d’un capteur infrarouge fait déclencher ce
capteur. Chaque déclenchement d’un capteur est enregistré avec la date d’apparition de
l’événement, l’heure d’activation de capteur, le numéro du capteur et l’état ou la valeur de ce
capteur sous la forme :

Détection [Date] [Heure] [Numéro de capteur][Etat/valeur]


Avec :
Date [Jour] [Mois] [Année]
Heure [Heure] [Minute] [Seconde]
État/valeur [ON, OFF, OPEN, CLOSE, etc.]

On a illustré dans le tableau I.6 un exemple d’extrait des données qui peuvent être enregistrées à
partir d’un réseau de capteurs dans un habitat intelligent. On remarque que les états de capteurs
sont binaires ou des valeurs numériques comme dans le cas de capteurs de température,
d’humidité, de pression, etc.

Tableau I.6- Exemple de données enregistrées des capteurs dans un habitat intelligent.

Date Temps Capteur État/ Valeur

10-05-2016 13 :20 :40 Capteur R16 OFF

10-05-2016 13 :20 :41 CapteurIR18 Open

10-05-2016 13 :30 :50 CapteurRFID01 ON

10-05-2016 13 :31 :50 CapteurPorte10 Close

13-05-2016 08 :00 :50 CapteurEauChaude ON

30
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

Dans ce qui suit, nous expliquons les traitements réalisés sur les différentes bases de données
pour avoir des données standard utilisables comme entrées aux classificateurs à savoir la matrice
des données de capteurs et les étiquettes de classes correspondantes aux différentes données. Ces
traitements sont similaires pour toutes les bases de données. On choisira la base de données
TK26M [7]. Dans la figure I.14, on visualise les données issues de réseau de capteurs pour une
journée avec les différents attributs (dans notre cas les objets auxquels les capteurs sont installés)
à savoir : Micro ondes, Lave vaisselle, Machines à laver … etc.

Figure I.14- Exemple d’acquisition des données brutes de capteurs installés dans la maison
(Congélateur, Armoire, Micro-ondes …) pour la base de données TK26M.

Ainsi, au cours d'une AVQ comme la préparation d'un repas, en utilisant seulement des capteurs
binaires, ils permettent d’obtenir l’information sur la présence ou l’absence d’une personne dans
la cuisine qui est obtenue par le détecteur de mouvements ou encore l’information de l'ouverture
et la fermeture des armoires avec des capteurs de contact électromagnétiques.

31
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

On constate d’après la figure I.15 qu’il y a deux types d’étiquettes, celles correspondantes aux
différents capteurs installés dans les différents endroits dans la maison et celles des différentes
activités effectuées durant la période d’acquisition. Ci-dessous, on affiche les deux captures
d’écran du codage des étiquettes des capteurs et le codage des étiquettes des activités avec leurs
identificateurs respectifs de la base de données TK26M :

Figure I.15- (a). Une capture d'écran pour le codage des étiquettes de capteurs installés dans
l’habitat intelligent. (b) Une capture d'écran pour le codage des étiquettes d’activités de la vie
quotidiennes.

L’emplacement des capteurs dans la maison modélise chacune des activités humaines. En
voyant, par exemple, une personne à 9h00 se saisir d'une tasse, nous pouvons associer cette
action, avec une certaine certitude, à l'activité ‘Prendre petit déjeuner’. Sept activités ont été
générées. Chaque capteur est représenté par son code. {6} est le modèle de l'activité ‘Prendre une
douche’, {5, 14} ‘Utilisation de toilettes’ {12} ‘Sortir’, {7, 8} ‘Boire’, {1, 8, 9, 17, 23, 13}
‘Préparer les repas’.

Le même emplacement des capteurs posés sur les objets de la maison intelligente peut donner
une information sur deux activités différentes. Si nous revenons à l'exemple cité ci-haut, et que
l'action ‘Prendre une tasse’ était détectée à 22h00, l'activité qui peut se dégager de ces deux
observations ne serait plus ‘Prendre petit déjeuner’ mais plutôt ‘Faire la vaisselle’.
Des modifications sont apportées à cette base de données à l'aide des algorithmes sur MATLAB
selon les étapes suivantes :

32
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

- Conversion des bases de données du format texte au format Matlab :

Cette étape consiste à convertir des informations de la base de données TK26M en format texte à
des structures manipulables par MATLAB, cette conversion est comme suit :
-as: Les informations des durées des activités, construites par la syntaxe ‘actstruct’.
-ss: C'est les informations des données d’acquisition de capteurs, construites par la syntaxe
‘sensstruct’.

Figure I.16- Exemple d’extraction du vecteur d’étiquettes des classes. La conversion de ‘as’ en
format texte vers le format Matlab. ID : contient le codage des activités.

Figure I.17- Exemple d’extraction des données de capteurs. La conversion de ‘ss’ en format
texte vers le format Matlab. ID : contient le codage des capteurs.

33
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

-Échantillonnage des données et obtention des matrices de données

On a appliqué un algorithme d’échantillonnage disponible sur le site [23] sur les deux structures
de données ‘as’ et ‘ss’ pour obtenir le vecteur ‘Dates’, le vecteur d'étiquettes des classes ‘Labels’
et les matrices des données de capteurs sous leurs différentes représentations ‘FeatMatRaw’,
‘FeatMatChange’ et ‘FeatMatLast’.

Obtention des matrices:


1.FeatMatRaw
2. FeatMatChange
as Algorithme 3. FeatMatLast
d’echantillonnage 4.Dates
[23] 5.Labels

ss

Figure I.18- Échantillonnage des données.

I.6. Conclusion
Dans ce chapitre, nous avons souligné la nécessité de la compréhension et la reconnaissance des
activités humaines. Ensuite, nous avons donné les définitions respectives de l’habitat intelligent
pour la santé (HIS) et les activités de la vie quotidiennes (AVQ) dans le domaine de
reconnaissance d’activités humaines et plus particulièrement des personnes âgées contraintes de
vivre à leur domicile dans des conditions d’autonomie limitée, et nous avons aussi présenté
brièvement un état de l’art sur les différents habitats intelligents pour la santé.
En relation avec notre travail, nous avons focalisé cette reconnaissance sur les activités humaines
(comme boire, manger, dormir ...). Nous avons également abordé le système que sous-entend
cette reconnaissance à savoir le traitement de données centralisées dans un habitat intelligent,
grâce à différentes technologies d’assistance aux personnes âgées à savoir la reconnaissance
sonore, la reconnaissance à partir de séquences vidéo et les capteurs. Nous avons ainsi comparé
ces différents types de technologies et pour chacune, nous avons évalué les avantages et les
inconvénients. Dans notre travail, nous nous sommes focalisés sur les bases de données issues
d’un réseau de capteurs sans fil. Par la suite, nous avons présenté les différentes bases de données
utilisées dans nos travaux afin de mener à bien nos simulations. Nous avons aussi présenté la

34
CHAPITRE I : LA RECONNAISSANCE AUTOMATIQUE DES ACTIVITES HUMAINES

procédure de traitements nécessaires pour extraire la matrice des données de capteurs et les
étiquettes d’activités correspondantes, qui seront utilisées ensuite comme entrées aux
classificateurs. Nous avons utilisé plusieurs jeux de données provenant de plusieurs habitats
intelligents.
Notre objectif est de s’assurer que notre modèle de classification fonctionne quel que soit le type
de capteurs utilisé et la complexité des activités réalisées. Cela nous permet aussi de valider le
pouvoir discriminant de notre modèle. Le tableau I.5 discuté dans la section (I.5.3) a permis de
présenter les détails de chaque ensemble de données utilisé dans nos simulations. Ainsi, ce
tableau a présenté les distributions des activités pour chaque base de données. Ces distributions
nous donnent une idée très claire sur la fréquence de chaque classe d’activité dans chaque base de
données, d’où l’apparition de la notion du déséquilibre de données. Au cours du prochain
chapitre, nous aborderons la notion de classification de données et les méthodes de classification
utilisées pour permettre la prédiction automatique des AVQs

35
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

CHAPITRE ІІ : METHODES DE
CLASSIFICATION POUR LA RAH

II.1. Introduction

Dans un contexte d'habitat intelligent, on peut résumer le problème de la reconnaissance


d'activités comme étant le processus d'interprétation des actions, lesquelles sont détectées par les
capteurs disséminés dans l'environnement, dans le but d'inférer les activités en cours de
réalisation d'un occupant. L'un des objectifs principaux de ce processus de reconnaissance est
l'identification des erreurs comportementales lors de la réalisation de ces activités. Ainsi, cette
reconnaissance permet d'évaluer si une tâche d'assistance est nécessaire, permettant à l'habitat
intelligent de planifier la façon de fournir ce service d'assistance.
La Reconnaissance d’un ensemble prédéfini d’activités est une tâche de classification [70]: des
descripteurs sont extraits à partir des informations spatiales et temporelles collectées d’un
réseau de capteurs puis transformés dans un autre espace de représentation afin de rendre le
problème de classification plus facile à résoudre. Les méthodes de l’état de l’art utilisées pour
reconnaître les activités peuvent être divisées en deux catégories [70], [71]: les modèles
génératifs et les modèles discriminatifs. Les méthodes génératives comme HMM [71], [72] et
le Naïve Bayésien [71] sont bien performantes mais nécessitent la modélisation des données,
qui présupposent une structure particulière (souvent mal justifiée) des distributions de
probabilités des données. Aussi, leur phase d’apprentissage est complexe pour des données de
grande dimension et elles sont généralement très couteuses en charges de calculs, car elles
nécessitent souvent des solutions itératives. Les méthodes discriminatives comme les SVM et
les réseaux de neurones [70], [73] sont plus efficaces et sont très utilisées dans la classification
des données. Leur simplicité à trouver le modèle de classification sans poser des hypothèses
d’estimation de modèles et leur rapidité de la phase de test les rendent robustes en termes de
classification des données en temps réels. Le tableau II.1 [74] présente un récapitulatif des
travaux présentés du point de vue du type d’activités (selon le niveau de complexité) à
reconnaitre. Quand plusieurs travaux se ressemblent, nous n’en citons qu’un seul.

36
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Tableau II.1- Tableau récapitulatif des travaux selon le type d’activités. [74]
Activités Réf Activités reconnues Type de Technique Limites
lassification d’apprentissage
[65] Les AVQ : )Annotation manuelle
garder TV, Lire, écouter la musique Supervisée Réseau Bayésien des données
dynamique 2) activités simples

Assis/ [75] Les activités Marcher, assis, courir, Ne prend pas le temps
Supervisée Arbre de décision
Debout/ Regarder TV, lire des activités
Marcher/ 2)Ne gère pas le bruit
Courir/
Lire/Dormir

[76] Les activités 1)Ne gère pas le bruit


assis, debout, marcher, courir Supervisée Utilise un seul capteur
éseau de neurones
accéléromètre

[77] AVQ : Manger, se baigner


Supervisée Réseau Bayésien 1)Annotation d’AVQ
AVQ : dynamique
’habiller/Préparer [78] VQ : prendre médicaments, entrer Supervisée 1)Annotation d’AVQ
un repas/ ans la maison, préparer des repas, chnique basée sur 2)Taille de la fenêtre
Manger/ dormir les patrons [74] temporelle
Nettoyer

[79] AVQ avec entrelacement : Manger,


préparer un café, préparer la table, HMM entrelacé 1)Annotation d’AVQ
Supervisée
faire un jus
AVQ :
Concurrentes et [80] VQ : prendre médicaments, entrer
entrelacées ans la maison, préparer des repas,
Supervisée Markov logique 1)Ne gère pas le bruit
dormir
) Difficile d’utiliser la
résentation logique des
activités

37
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

II.2. Etat de l’art des méthodes de classification automatique des


activités humaines
Les données brutes provenant de l’habitat intelligent contiennent de l’information qu’il est
nécessaire d’extraire en vue de la reconnaissance d’activité. Le but de la phase d’apprentissage
est de construire un ensemble de règles de décision qui seront utilisées pour pouvoir distinguer
entre les différentes catégories d’activités humaines.
Au cours des dernières années, un certain nombre d’algorithmes issus des méthodes
d’apprentissage automatique [70], [81] ont été proposé pour reconnaître les activités de la vie
quotidienne. La classification naïve bayésienne et les arbres de décision ont été utilisés pour
reconnaître les activités humaines telles que marcher, être debout et assis [82]. Les réseaux de
neurones Non-Bouclés (ou Réseaux Feedforward) ont été appliqués pour la classification des
activités statiques (assis, debout) et les activités dynamiques (marcher, courir) [76]. Une
approche
de reconnaissance de comportement est représentée à l'aide du modèle Naïve bayésien (NB) et k-
moyennes (en anglais k-means) [83]. L’approche de reconnaissance d'activité peut être
développée en utilisant les activités communes réparties sur plusieurs paramètres
environnementaux et différents résidents [60]. Les données de type vecteur de support (SVM) ont
été exploitées pour analyser le comportement des personnes âgées [84]. Une approche basée sur
les cartes auto adaptatives désignée souvent par le terme anglais Self Organizing Maps (SOM)
ont été appliquées pour surveiller les activités quotidiennes [85]. Une approche pour la
surveillance des activités pour accéder au niveau de glucose dans le sang pour les patients
diabétiques à travers des activités quotidiennes a été développée en utilisant les réseaux de
neurones artificiels (ANN) [86]. D'autre part, Helal & al. [87] ont utilisé un service de
reconnaissance pour permettre aux aidants naturels de surveiller et d’intervenir auprès des
personnes âgées en utilisant un réseau de capteurs intégrés dans l’appartement. Plus précisément,
dans leurs travaux, ils ont utilisé des règles de logique floue pour être en mesure de reconnaître
les activités des résidents.
Les méthodes à vecteurs de support (SVM) ont été largement utilisées dans le domaine de la
reconnaissance d'activité humaines pour reconnaître et à discriminer les sons de toux [88].
Ensuite, le classificateur multi-classes SVM un-contre-un a été utilisé pour reconnaître les

38
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

activités quotidiennes telles que dormir, manger en intégrant les connaissances à priori et les
performances de classification ont été améliorées par l'utilisation de l’information temporelle
[89].
Une autre approche consiste à modéliser les activités par modèles de Markov cachés (HMM)
[90]. Plusieurs variantes permettent plus de souplesse dans l’ordre des séquences (on cite : les
HMM hiérarchiques [91]) ou par la modélisation de la durée des activités [90]. Cependant,
malgré les bonnes performances obtenues avec ces modèles, ils nécessitent beaucoup de données
d’apprentissage, données qui sont très rares dans le domaine de l’assistance à domicile. De plus,
il reste difficile d’intégrer des connaissances à priori dans ces modèles probabilistes. Une
nouvelle méthode utilisant les réseaux logiques de Markov (MLN) a été appliquée à ce domaine
[92]. Ceci présente de multiples avantages : le modèle est défini dans un langage logique formel
qui le rend facilement vérifiable et réutilisable, l’incertitude est prise en compte de manière
systématique, et enfin l’apprentissage du modèle permet l’insertion aisée de connaissances à
priori.
Les performances du classificateur appelé les modèles de Markov cachés (HMM) et les champs
aléatoires conditionnels (CRF) ont été aussi comparés pour la reconnaissance des d’activités
humaines [68]. Dans [15], la comparaison des méthodes à vecteurs de support à marge molle (C-
SVM), CRF et l’Analyse Discriminante Linaire (LDA) a été réalisée pour reconnaitre les AVQ,
où C-SVM est trouvé supérieur en termes de bonne classification par rapport aux classificateurs
CRF et LDA, tandis que les classificateurs CRF et SVM sont trouvés sensibles à la classe
dominante dans la base de données. D’autres solutions prometteuses comme celle de Jakkula &
al. [61] et de Moutacalli & al. [93] commencent de plus en plus à être exploitées sérieusement par
de nombreux scientifiques. Ces approches appliquent des techniques d'exploration de données
pour apprendre les comportements, les habitudes et les routines.
Nous avons pu constater que les approches supervisées ont pris de l’ampleur et sont largement
utilisées dans ce domaine. Dans cette section du chapitre, nous avons présenté brièvement les
différentes approches utilisées dans notre travail pour la modélisation du comportement de
l’usager à savoir : Les modèles de Markov cachées (HMM), les Champs Aléatoires Conditionnels
(CRF), les k-plus proches voisins (k-NN), L’Analyse Discriminante Linaire (LDA), les Méthodes
à Vecteurs de Support (SVM) et les Méthodes à Vecteurs de Support Pondérée (WSVM); ces
derniers seront présentés en détails. Nous avons choisi ces classificateurs, de part leur fiabilité et

39
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

leur fondement théorique très solide dans différents domaines de l’apprentissage automatique des
données. Les méthodes HMM et CRF ont été prises comme méthodes de référence [68].

II.3. Fonctionnement général des méthodes de classification


II.3.1. Principe
L’objectif principal de la classification est d’identifier les classes auxquelles appartiennent des
objets à partir des traits descriptifs, appelés aussi attributs, caractéristiques, ou en anglais,
‘features’. Les attributs dans notre cas représentent les événements de capteurs et les classes
représentent les activités. En effet, les approches de classification modélisent cette relation
comme une fonction de transformation entre les événements et les activités i.e. (événement →
activité). La classification est la tâche qui permet d’apprendre une fonction objectif f pour
assigner un ensemble d’attributs x a l’une des classes prédéfinies étiquette y. La fonction de
classification f peut aussi être appelée un modèle de classification. Dans la classification
supervisée, les classes sont connues et l’on dispose d’exemples de chaque classe, ce qui n’est pas
le cas pour la classification non supervisée ou les classes ne sont pas connues.
Nous présentons dans ce qui suit un schéma général d’un système de classification des activités
humaines au sein d’une maison intelligente [18].

Figure II.1- Schéma général de système de classification d’activités humaines dans une maison
intelligente.

40
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

II.3.2. Modèles de Markov cachés (HMM)


Une chaine de Markov cachée (ou HMM : Hidden Markov Model) est une chaine de Markov
dont les états ne sont pas déterminés mais génèrent une suite de variables aléatoires
(observations) indépendantes deux a deux. Les chaines de Markov cachés (HMM) sont une
extension des modèles de Markov. Ces modèles se basent sur deux processus stochastiques
dépendants l’un de l’autre. En effet, l’état du système n’est plus directement observable ; il est
caché par un processus d’observation.
Le modèle de Markov cache tire son nom à partir des deux propriétés suivantes :
– Premièrement, le modèle HMM suppose que l’observation au temps t a été générée par un
processus dont l’état Yt est caché de l’observateur.
– Deuxièmement, le modèle HMM suppose que ce processus caché vérifie la propriété de
Markov qui stipule que, l’état courant du système Yt ne dépend que de l’état Yt−1. En d’autres
termes, l’état à un moment donné encapsule toutes les informations nécessaires sur l’historique
du processus pour prédire l’état futur du processus, voir la figure ci dessous.

Figure II.2- La représentation graphique de premier ordre HMM. Les


nœuds ombrés représentent les variables observables, tandis que les nœuds blancs représentent
ceux qui sont cachés. [68]

Notons que les sorties du modèle HMM satisfont la propriété de Markov : étant donné un état Yt,
l’observation Xt est indépendante de tous les états et de toutes les observations à toutes les autres
tranches de temps [72]. La probabilité jointe d’une séquence d’états et observations peut être
écrite dans un modèle HMM de la façon suivante :
T
P(Y1 : T , X 1 : T )  P(Y1)(X 1 | Y1) P(Yt | Yt1)P( X t | Yt ) (II.1)
t2

Les notations Y1:T et X1:T sont utilisées pour signifier Y1, Y2, ..., YT et X1, X2, ..., XT respectivement.

41
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Généralement, les auteurs utilisent l'algorithme de Baum-Welch Baum et al. [94], Welch [95]
pour entrainer le système, et l'algorithme de Viterbi [96] pour déterminer la séquence la plus
probable à partir des observations. Lorsque l'on utilise un HMM par action, reconnaitre cette
action revient à trouver la chaîne de Markov qui génère la séquence observée avec la plus grande
probabilité.

Eléments d’un HMM


Un modèle HMM est composé des éléments suivants (cette présentation est une adaptation de

[72]) :

1. N est le nombre des états du modèle : Y = {Y1, Y2, ..., YN}


2. M est le nombre de symboles d’observations : X = {X1, X2, ..., XM}
3. la distribution des probabilités de transitions entre états : A = [aij ] avec aij = P(yt+1 = Yj |yt
= Xi)
4. la distribution des probabilités d’observations (probabilités d’émission) : B =[bj(m)] ou
bj(m) = P(xt = Xm|yt = Yj)
5. la probabilité d’état initial π = πi ou πi = P(y1 = Yi)

Soit λ un modèle du HMM. Trois principaux problèmes sont liés au modèle λ :


– Évaluation : étant donne le modèle λ, quelle est la probabilité P(X |λ) d’avoir une
séquence d’observations X = {x1, x2, ..., xT } ?
– Décodage : étant donne le modèle λ et une séquence d’observations X, quelle est la
séquence d’états Y = {y1,y2, ..., yT } qui a vraisemblablement génère X ?
S∗ = argmaxSP(Y|X, λ) (II.2)
– Apprentissage : étant donné un jeu de données d’entrainement D = {Xk} contenant des
séquences d’observations, quel est le modèle λ du HMM qui aurait vraisemblablement généré
D?
λ∗ = argmaxλP(D|λ) (II.3)
- Test : Pour trouver l’étiquette d’une nouvelle donnée, on utilisera cette équation
y*  argmaxy (p( y x)) (II.4)

II.3.3. Champs Aléatoires Conditionnels (CRF)


Les champs aléatoires conditionnels [97] sont des modèles graphiques non dirigés, ayant pour
objectif d’étiqueter et de segmenter les séquences à partir d’une approche probabiliste

42
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

conditionnelle. Pour différents domaines, les CRFs ont montré leur supériorité par rapport aux
modèles génératifs, tels que les HMMs traditionnellement utilisés pour ce genre de problème. Le
principal avantage des CRF est leur capacité à modéliser directement une probabilité
discriminante de l’étiquetage sachant les observations alors que les modèles génératifs sont
amenés à résoudre un problème plus difficile que le problème original : apprendre une probabilité
jointe plutôt que d’apprendre la probabilité de l’étiquetage sachant les données observées. Ces
modèles conditionnels permettent aussi de relaxer les hypothèses d’indépendance conditionnelle
des observations.
Supposons une séquence d’entrée discrète X = {x1, x2, ..., xT} ainsi qu’une séquence de labels
(étiquettes) à prédire Y = {y1, y2, ..., yT}. Les modèles graphiques non orientés, dont CRF est un
cas particulier, peuvent être définis comme suit : Soit G = (V, E) un graphe non dirigé ou V est
l’ensemble des nœuds et E l’ensemble des arcs. Chaque nœud ν V est associé à une variable
aléatoire yν dans Y. Ce graphe est appelé graphe d’indépendance. On dit que (X, Y) est un champ
aléatoire conditionnel si chaque variable aléatoire yν respecte la propriété de Markov suivante :

P(y X, yw ,w  ν)  P(yν X, yw ,w ~ ν) (II.5)

Ou w ~ ν signifie que w et ν sont voisins dans G. Ainsi, chaque variable aléatoire yν ne dépend

que de x et de ses voisins dans le graphe d’indépendance. En respectant cette condition


d’indépendance, le théorème de Hammersley-Clifford [98] permet d’exprimer la probabilité
conditionnelle comme un produit de fonctions potentiel ψc ( yc ,X) sur tous les sous-graphes
complètement connectés, appelés cliques, du graphe d’indépendance.
1
P(Y X)   ψ ( y ,X) (II.6)
c c
Z(X) cC

Ou C est l’ensemble des cliques de G et Z(X) est un terme de normalisation défini comme suit :

Z(X)    ψc ( yc ,X) (II.7)


Y cC

Pour les CRF, Lafferty [97] ont propose de définir la forme de ces fonctions de potentiel comme
l’exponentielle d’une somme pondérée de fonctions f k appelées « primitives » du modèle :

43
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

ψc ( yc ,X)  exp( λk fk ( yc , X, c)
k

(II.8)
Les  k étant les poids associés à chacune de ces fonctions de primitives. Ainsi, les CRFs sont
définis avec différents niveaux de dépendances simples et complexes. Dans notre travail, on
définit le cas des dépendances simples comme l’illustre la figure II.3.

Figure II.3- Illustration des fonctions potentielles de CRF. [99]

Dans le cas de la structure de dépendance la plus simple (Figure II.3), il existe deux types de
cliques :
 Les cliques locales qui relient l’observation xt à son étiquette yt pour lesquelles nous notons les
fonctions de potentiel s.
 Les cliques de transition qui connectent deux étiquettes successives yt-1 et yt pour lesquelles nous
notons les fonctions de potentiel g .

La probabilité conditionnelle de séquence de labels peut donc s’exprimer par l’équation suivante
:

1  
P(Y X)  exp  σ k g k (yt 1 , yt , x, t)   μk sk (yt , x, t) (II.9)
Z(X)
 t,k t,k 
où µ et σ sont les vecteurs de poids relatifs aux fonctions de potentiel s et g. Ces paramètres sont
estimés lors de la phase d’apprentissage du modèle.

44
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Pour la phase de test, la solution consiste à trouver la séquence d’étiquettes Y* qui maximise la
probabilité P(Y X) . La recherche de la séquence optimale Y est réalisée par un algorithme de

programmation dynamique de type Viterbi [96].


y*  argmaxy (p( y x)) (II.10)

II.3.4. k-plus proches voisins (k-NN)


La méthode des k-plus proches voisins (k-Nearest Neighbor ou k-NN en anglais) fait partie des
méthodes de classification, qui détermine une mesure de proximité entre les observations xi et xj.
La règle de décision des k-NN est très simple : une observation nouvelle est classée en prenant la
classe majoritaire parmi les k observations d’apprentissage les plus proches (figure ІI.4). Un cas
particulier est le cas où k =1. L’exemple est alors affecté à la classe de son plus proche voisin. On
évite d’ailleurs de choisir des valeurs de k paires, pour éviter les cas d’égalité.

Figure II.4- Décision par 1-NN (cercle pointillé) et 3-NN (cercle en trait plein) sur un ensemble
d’observations appartenant à 2 classes.

Cette méthode n’a pas réellement de phase d’apprentissage, c’est-à-dire qu’il n’y a pas de
construction de modèle. Tout repose sur :

- L’ensemble d’apprentissage stocké en mémoire;

- Une mesure de distance, c’est-à-dire la fonction noyau. Parmi les distances les plus souvent
utilisées, on peut citer la distance euclidienne, cependant, en fonction du problème, on peut
également utiliser les distances de Hamming, de Mahalanobis, etc.

- Une méthode de choix de la classe, en général, la méthode consiste à choisir la classe


majoritaire parmi les k observations d’apprentissage les plus proches.
Notons que la capacité de généralisation de cette méthode dépend du paramètre k. le réglage de k
permet de lisser la modélisation. En effet, un k élevé permet d’englober plus de voisins et ainsi

45
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

d’être moins sensible aux erreurs d’apprentissage, mais dans le même temps les k plus proches
voisins doivent rester très proches de y pour que les approximations soient fiables. Par suite, il est
nécessaire de réaliser un compromis, en choisissant une valeur de k plus petite que le nombre de
d’observations m. Cette méthode a l’avantage de pouvoir s’appliquer à des cas de discrimination
faisant intervenir un nombre élevé de classes.

Les défauts de ces algorithmes simples sont d’une part le besoin de garder en mémoire les
données d’apprentissage et d’autre part la nécessité de calculer les distances à tous les points
d’apprentissage. Ils sont donc fort consommateur en espace mémoire et en temps de calcul. En
plus, si les données d’apprentissage ne couvrent pas suffisamment les classes à étudier, les
performances du classificateur se dégradent rapidement.

II.3.5. Analyse Discriminante Linaire (LDA)


L'Analyse Discriminante Linéaire, bien connus sous l’appellation anglophone Linear
Discriminant Analysis (LDA) est une méthode très utilisée dans la littérature d’apprentissage
statistique des données [71] pour réduire la dimensionnalité des donnes de grande dimension
permettant d'améliorer la discrimination, de compresser l'information contenue dans un vecteur
de paramètres utile pour la classification. C’est une technique qui peut aussi être employée en
classification des données, et peut être facilement étendu au cas multi-classes. Cette approche est
dite bayésienne, puisqu’elle est fondée sur le théorème de Bayes.
Nous disposons d’un ensemble d'observations avec des étiquettes de classe connus. Étant donné
une base de données à n dimensions d'observations: D  xk ,..., xk  (xk  Rn ) de la classe
k 1 m j

yk (k  1,..., N ) N est le nombre de classes.

Notons Y la variable à prédire, elle prend ses valeurs dans l’ensemble y1 ,..., y N  des classes.
Nous définissons k les centres de gravité des nuages de points conditionnels et k la matrice
de variance-covariance de chaque classe :
mk

x
1
k  i (II.11)
mk i 1

Où mk est le nombre d’échantillons en classe yk .


mk
1
 
k
mk 
 (x
i1
i  k )(xi  k )
Tr
(II.12)

46
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

L’objectif est de produire une règle d’affectation X (w)  Y (w) qui permet de prédire, pour une
observation w donnée, sa valeur associée de Y à partir des valeurs prises par X. La règle
Bayésienne consiste à produire une estimation de la probabilité a posteriori d’affectation.
P(Y  yk )  P( X | Y  yk )
P(Y  yk | X )  k
(II.13)
 P(Y  y )  P( X | Y  y )
i 1
i i

P(Y  y k ) est la probabilité apriori. P( X | Y  yk ) elle représente la fonction de densité des X

conditionnellement à la classe yk . La règle d’affectation pour un individu à classer devient


alors :
Y (w)  argmax k P(Y  yk | X (w)) (II.14)
Le dénominateur de P(Y  yk | X ) est le même pour toutes les classes. La classe d’affectation de
X sera celle pour laquelle le produit P(Y  yk )  P( X | Y  yk ) est maximal.
La probabilité apriori P(Y  yk ) sera estimé facilement par :

mk
P(Y  yk )  N
(II.15)
m
j 1
j

La problématique de l’analyse discriminante revient alors à proposer une estimation de la


quantité P( X | Y  yk ) .
Pour estimer correctement la distribution P( X | Y  yk ) : une hypothèse de multi-normalité sur la
distribution conditionnelle des nuages de points a été introduite. Elle suppose que chacune des
fonctions de densité de probabilité de classe peut être modélisée comme une distribution normale.
Dans le cas de la loi normale multidimensionnelle, la distribution conditionnelle des nuages de
points s’écrit :
1
 ( X   )t 1 ( X   )
1
fk ( X )  P( X | Y  yk )  e 2 k k k
(II.16)
(2 )  k
n/2 1/ 2

Où k représente le déterminant de la matrice de variance covariance conditionnellement à yk .


L’objectif étant de déterminer le maximum de la probabilité a posteriori d’affectation, nous
pouvons négliger tout ce qui ne dépend pas de k. En appliquant le logarithme à la relation de
Bayes, nous obtenons le score discriminant proportionnel à lnP(Y  yk | X  :

47
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

D(Y  y , X )  2lnP(Y  y ) ln   ( X   )t 1( X   ) (II.17)


k k k k k k

Si l’on développe complètement le score discriminant, nous constatons qu’il s’exprime en


fonction du carré et du produit croisé entre les variables prédictives. On parle alors d’analyse
discriminante quadratique.
Une seconde hypothèse permet de simplifier encore les calculs, c’est l’hypothèse
d’homoscédasticité : les matrices de variances covariances sont identiques d’un groupe à l’autre
  1  2  ...  k . Géométriquement, cela veut dire que les nuages de points ont la même

forme (et volume) dans l’espace de représentation.


De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de k, il
devient :
D(Y  y , X )  2ln P(Y  y ) (X   )t  1 (X   ) (II.18)
k k k k

Nous attribuons le nouveau vecteur de caractéristique qui doit être classé w à yk utilisant la
fonction discriminante linéaire D(Y  yk , X ) . La règle de classification est donnée dans

l'équation ci-dessous :

Y (w)  argmax k D(Y  yk , X (w)) (II.19)

La règle de classification pour LDA est très intuitive. Cette méthode nécessite une phase
d'apprentissage, c'est à dire le calcul des fonctions discriminantes et leurs paramètres. Les
données nouvelles w peuvent être classifiées simplement en résolvant la fonction discriminante
appropriée pour chaque classe yk et l'application de la règle de classification.

II.3.6. Méthodes à Vecteurs de Support (SVM)

ІI.3.6.1. Introduction
Ces méthodes de classification sont apparues qu’en 1995 avec Cortes et al. [73]. Elles sont issues
de la théorie de l’apprentissage statistique [71], qui définit un cadre théorique. Les SVM affichent
pour des applications pratiques de très bonnes performances, et leur succès est dû à l’utilisation
de fonctions noyaux pour transformer le SVM en algorithme non-linéaire pouvant être appliqué
sur des données variées. Ces classificateurs biclasses sont connus pour offrir de bonnes capacités
de généralisation, même lorsque la dimension des vecteurs à traiter est grande.

48
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

ІI.3.6.2. Classification non linéaire


Définition : Un classificateur est dit non linéaire lorsqu’il est possible d’exprimer sa fonction
de décision par une fonction non linéaire en x . Dans la suite, nous supposons que les données
n
nous sont fournies dans le format vectoriel. Notre espace d’entrée X correspondant donc à IR où
n est le nombre de composantes des vecteurs contenant les données. On peut, en toute généralité,
exprimer une telle fonction comme ceci :

f (x)  w , x  b

(IІ.20)
n

 w x b
i 1
i i
(II.21)

n
où w  IR et b  IR sont des paramètres à estimer de la fonction de décision.

Pour décider à quelle catégorie une donnée appartienne ~ x , il suffit de prendre le signe de la
fonction de décision : y  sgn( f ( ~
x )). Géométriquement, cela revient à considérer un hyperplan

qui est le lieu des points x satisfaisant w, x  b  0 . En orientant l’hyperplan (C.à.d., en fixant

un coté pour lequel les données sont classées positivement), la règle de décision consiste à
observer de quel coté de l’hyperplan se trouve la donnée ~
x . La figure II.5 représente la situation
dans IR2 (espace d’attributs).

Figure II.5-Représentation dans IR2 de l’hyperplan correspondant à la fonction de décision d’un


classificateur linéaire.

49
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

→ →
On voit que le vecteur w définit la pente de l’hyperplan : w est perpendiculaire à l’hyperplan. Le
terme b quant à lui permet de translater l’hyperplan parallèlement à lui-même. Deux remarques à
propos de la figure ІI.5. Il est facile d’imaginer deux nuages de points tels qu’aucune droite ne
sépare les motifs ronds des croix. On dit dans ce cas que les données sont non-séparables. Nous
nous limitons pour l’instant au cas séparable. La deuxième remarque est que les droites qui
séparent les motifs ronds des croix ne sont pas équivalentes du point de vue de la qualité de
prédiction qui leur est associée.

ІI.3.6.3. Hyperplans canoniques


Dans le cadre de classificateurs à marge maximale, l’hyperplan séparateur correspond à la
médiatrice du plus petit segment de droite reliant les enveloppes convexes des deux catégories.
Notons que l’on suppose aussi que le training set est linéairement séparable. Dès lors, nous
pouvons définir deux plans se trouvant de part et d’autre de l’hyperplan et parallèles à celui-ci,
sur lesquels reposent les données les plus proches. La figure IІ.6 illustre cette situation :

Figure II.6- Hyperplans canoniques.

w , x  b  1 et w , x  b  1. Ces deux hyperplans sont appelés hyperplans canoniques.


1
Notons que la marge des hyperplans canoniques est . Le vecteur w possède à présent une
w
signification très claire.

Les motifs situés sur les lignes canoniques sont les vecteurs supports (VS) d’où l’appellation de
la méthode d’apprentissage. Nous allons voir après que ces vecteurs sont les points représentatifs
de toute la masse de données des deux classes.

50
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

ІI.3.6.4. Sur et Sous-apprentissage

Figure II.7- Sur et sous-apprentissage des données, avec le modèle quadratique est le plus
adapté.

ІI.3.6.5. Classificateur à marge maximale

Maintenant que nous avons défini les notions de marges et d’hyperplans canoniques, nous
pouvons formuler un problème d’optimisation mathématique tel que sa solution nous fournisse
l’hyperplan optimal (maximisant la marge) :
 1
max wIR ,bIR w

2

w, x   b  1 quand y  1 (ІI.22)


 i i

w, xi   b  1 quand yi  1


Pour maximiser la marge, il faut donc minimiser w . Par la suite, nous chercherons au fait à
2
minimiser (1/ 2). w , pour simplifier les calculs. Le problème peut se transformer sous la

formulation suivante équivalente :


m
1
QP1 : Minimiser W (w, b)  k (w, w)  C   (IІ.23)
i
2 i1

 yi ( w, xi  b)  1  i i  1...m
Tel que 
i  0 i  1...m

51
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

La constante C est souvent appelée la constante de trade-off (compromis), parce qu’elle permet
d’indiquer l’importance que nous accordons aux erreurs commises sur le training set par rapport
au fait de maximiser la marge. Si on sait que les données d’apprentissage sont très bruitées, on
accordera davantage d’importance à la marge en utilisant un paramètre C petit. Par contre, si
l’intérêt se porte plutôt sur les résultats obtenus sur le training set, on utilisera un paramètre C de
grande valeur. Plus est grand, plus nous pénalisons les mauvaises classifications et la complexité
de la classe des fonctions de décision sera plus grande.

Géométriquement, la variable d’écart i divisée par w , correspond à la distance euclidienne


prise perpendiculairement entre l’hyperplan canonique du coté de la catégorie de l’exemple et cet
exemple. Notons que pour les exemples correctement classés, i est nul.


Figure II.8- La distance séparant un outlier et l’hyperplan canonique est : i
.
w

La formulation du problème que nous avons présenté est souvent reprise sous la dénomination de
marge douce (soft margin) dans la littérature. Il s’agit d’un problème d’optimisation quadratique
(QP1) sous contraintes linéaires dont la fonction objective (І.6) est à minimiser. Dans cette
formulation, les variables à fixer sont les composantes wi et b, donc QP1 implique le réglage de

n+1 paramètres (n étant la dimension de l’espace d’entrée plus la dimension du scalaire b). En
gardant cette formulation telle quelle, nous soufrons du même problème que les méthodes
classiques du ML (overfitting). Pour éviter cela, il est nécessaire d’introduire une formulation
dite duale du problème. Pour dualiser QP1, nous devons former ce que nous appelons le
Lagrangien.
A partir de quoi nous pouvons formuler le problème dual :

Maximiser W ( )    1 y y   x , x 
m m
(IІ.24)
QP2 :
i1
i
2
 i j i j i j

i, j

52
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

m
i yi  0
Tel que  i1

i  0 i  1...m
Les variables duales  i sont appelées multiplicateurs de Lagrange, une pour chaque point de
donnée. C’est une forme d’optimisation quadratique de dimension m bien étudiée, pour laquelle
il existe de bons algorithmes d’optimisation. Et, ce qui est important, il est connu que les
problèmes de ce type ont des optima globaux uniques. Ce qui signifie, qu’il devrait y avoir un
seul ensemble de  i qui maximise la valeur de W.

La résolution du dual permet donc de calculer la fonction de l’hyperplan. Nous avons à présent
tous les éléments nécessaires pour exprimer la fonction décision de notre classificateur
m

f (x)    i yi x, xi  b (II.25)
i1

La solution de l’hyperplan ne requiert que le calcul des produits scalaires entre les vecteurs de
l’espace d’entrée et un nombre réduit de points : les vecteurs supports.

L’idée retenue dans SVM va dans un autre sens : on va tenter de trouver une projection
(mapping) de l’espace d’entrée vers un autre espace, dit transformé ou espace des caractéristiques
(feature space), dans lequel les données sont linéairement séparables. La figure IІ.9 donne une
représentation imagée de ce genre de mapping. La dimension du feature space est généralement
très élevée. Nous noterons le feature space F, et le mapping vers cet espace :  : X  F .
Ce processus de projection des données dans l’espace induit par le noyau est équivalent à une
extraction de caractéristiques systématique sur les données d’entrée.

Figure II.9- Une projection  rendant les données linéairement séparables.

53
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Notons  une transformation non linéaire de l’espace d’entrée X vers l’espace des
caractéristiques. On remplace x par  (x) partout. Le problème dual d’optimisation devient :

Maximiser W ( )    1 y y   (x ),(x )


m m
QP3 :
i1
i
2

i, j
i j i j i j
(II.26)

m
i yi  0
Tel que  i1
  0 i  1...m
 i
L’équation de l’hyperplan séparateur dans le nouvel espace est alors :
m

f (x)    i yi  (x), (xi )  b (ІI.27)


i1

où les coefficients  i et b sont obtenus comme précédemment par résolution du problème dual.

En effet, il existe des fonctions bilinéaires symétriques définies positives k (xi , x j ) appelées

fonctions Noyaux, facile à calculer et dont il a été montré dans [2], qu’elles correspondent à un
produit scalaire dans un espace de grande dimension. Lorsqu’une telle correspondance est
exploitable, le problème d’optimisation est équivalent au problème suivant :

m  i  1  y i y ji  j k(x i , x j )
m

QP4 : Maximiser W()   (ІI.28)


i1 2 i, j

m
i yi  0
Tel que  i1

C   i  0 i  1...m

L’équation de l’hyperplan séparateur dans le nouvel espace est alors :


mc

f (x)    i yi k(x, xi )  b
i1

(ІI.29)
Avec mc le nombre de points support.

Donc, tout algorithme à produit scalaire (linéaire) peut être noyauté (non linéaire) en remplaçant
.,. par k (., .) . Néanmoins, ce dernier devra remplir certaines conditions appelée les conditions

de Mercer [100].

54
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Nous présentons dans le tableau IІ.2 quelques familles de fonctions noyaux usuels paramétrables
qui vérifient cette condition.
Une liste plus complète de noyaux de Mercer peut être consultée dans [73]. Le choix du noyau
RBF est souvent recommandé. En effet, il correspond à un meilleur “éclatement” des données.
Une autre raison est le faible nombre de paramètres à régler pour le RBF, qui influe dans la
complexité du modèle, où sigma est la déviation standard de la gaussienne.
Tableau II.2- Noyaux usuels pour les SVM.

Les valeurs des hyper-paramètres (σ, C) jouent un rôle très important dans la maximisation de la
marge. La maximisation de celle-ci dans le SVM est une procédure de sélection des hyper-
paramètres implicite à l’apprentissage, qui permet de minimiser l’erreur d’apprentissage tout en
réduisant la complexité du classificateur.

ІI.3.6.6. Sélection des hyper-paramètres d’un modèle SVM


Bien que l’entrainement des SVM soit automatique, l’intervention de l’utilisateur est encore
nécessaire pour l’adaptation des hyper-paramètres conditionnant le processus d’apprentissage.
Convenablement choisies, elles permettent d’éviter les situations de sur-apprentissage fréquentes
lorsque les données sont bruitées. Parmi les hyper-paramètres du SVM, on trouve les paramètres
de noyaux à ajuster que le classificateur en dépend fortement et le paramètre C à déterminer, qui
permet de contrôler le compromis entre nombre d’erreurs de classement, et la largeur de la
marge.

55
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Afin d’éviter le sur-apprentissage, le classificateur choisi est à son tour évalué sur un ensemble de
test indépendant. Cependant, en pratique, nous ne disposons pas toujours d’un nombre suffisant
de données étiquetées pour s’en réserver une partie pour la sélection de modèle. Dans ce cas, on
utilise ceux que l’on appelle la Validation Croisée (Cross Validation) k-fold qui consiste à
diviser l’ensemble de données en K partitions distinctes de taille approximativement égale pour
en utiliser k−1 partitions pour l’apprentissage et la dernière pour évaluer la performance du
classificateur. A chaque test de validation, les paramètres (σ, C) changent suivant une grille
prédéfinie des valeurs les plus probables Grid search method. La procédure se répète k fois. On
note que cette procédure est appelée Leave-one-out dans le cas ou k = n.

Ex : pour k=4 :

Figure II.10- Principe de la validation croisée (VC) avec k=4.

Dans la construction du SVM standard, le paramètre de régularisation joue un rôle indispensable.


Notre attention s’est focalisée alors sur les difficultés soulevées par le choix souvent empirique
de cet hyper-paramètre inhérent à cette méthode. Dans la section suivante, nous allons proposer
un nouveau critère automatique de sélection du paramètre de cout C qu’on va insérer dans le
problème d’optimisation de la méthode de classification appelée Méthodes à vecteurs de support
pondérée (Weighted SVM).

II.3.7. SVM pondérée (WSVM)


Dans le problème de classification des activités humaines, la base de données est souvent
déséquilibrée. Les différentes classes d’activités ne sont pas représentées de manière équitable
dans lʼensemble dʼapprentissage. Un déséquilibre trop important affecte négativement la
précision des algorithmes dʼapprentissage. Cette problématique sera détaillée dans le prochain

56
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

chapitre. Nous avons utilisé dans ce mémoire la méthode développée par [101] qui s’appelle
SVM pondéré pour résoudre le problème de déséquilibre des données au niveau algorithmique.
L’idée générale de la méthode SVM pondérée (WSVM) est de changer la fonction de coût SVM
pour entrainer le classificateur. Des poids sont affectés aux erreurs de chaque classe d’activité
humaine du au déséquilibre de données. Exemple : il est possible de réaliser un bon taux de
classification total en affectant simplement tous les échantillons à la classe majoritaire (des
observations positives). Ceci donne une classe minoritaire (des observations négatives) mal
classée (erreur de classification). Ce déséquilibre entres les différentes clases d’activités, tends
généralement à favoriser la classe dite majoritaire. L’ajustement des paramètres de régularisation
pour les différentes classes, aboutit à une amélioration de la précision de classification des classes
minoritaires, voir figure ci-dessous.
Cette méthode modifie la fonction d’optimisation primaire de SVM en assignant deux paramètres
de cout différents C- et C+, respectivement pour la classe minoritaire et majoritaire comme donné
dans l’équation suivante :
m m
min 1/ 2 K(w, w)  C   i  C   i
w,b,ξ di 1 di 1 (II.30)
Tel que : y (wT(x )  b)  1  ,   0, i  1,..., m
i i i i

Figure II.11- La classification binaire WSVM.

La formulation duale de WSVM donne le même Lagrangien comme dans SVM original en
(IІ.24), mais avec différentes contraintes sur αi comme suit:
1
max m   m m   y y K (x , x ) (II.31)
j 1 i j i j

i1 i i1 i j
i 2

57
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Sous contraintes 0   i  C ,si di  1, et


0  i  C, si di  1
m
 idi  0 , i  1,..., m
i1

Où les i et i sont les multiplicateurs de Lagrange pour les données positives et négatives
respectivement. Le problème d’optimisation dual WSVM peut être résolu de la même manière
que la résolution du problème d’optimisation dual SVM.
En utilisant NBSV+ et NBSV- pour indiquer le nombre des vecteurs de support limite qui
appartiennent à la classe respectivement positive et négative. On utilise aussi NSV+ et NSV- pour
indiquer le nombre des vecteurs de support qui appartiennent à la classe respectivement positive
et négative. Selon la contrainte dans l’équation (II.31), nous pouvons voir que :
m
  i d i     i    i  0 (II.32)
i1 di 1 di 1

En raison des vecteurs support qui se trouvent sur les frontières de discrimination WSVM, on
aura i  C , quand le nombre est NBSV+ et on aura NBSVC   i
di1
Cependant, parce que la valeur maximale des multiplicateurs de Lagrange i pour les vecteurs

supports qui se trouvent sur les frontières de discrimination est C, on aura NSVC   i
di 1

Selon cette condition et la formule (II.32), on aura,

NBSVC  i  NSV.C (II.33)


di 1
Similairement à l’équation précédente:
NBSVC  i  NSV.C (II.34)
di 1

Lorsque le paramètre de coût C est pondéré, Huang et al. [101] ont mis en avant un WSVM dont
les coefficients de coût sont tels que:

C  C w
(II.35)
C  C w- (II.36)

58
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

où w+ et w- sont les poids de pondération attribués aux classes positives et négatives,


respectivement. C est le paramètre commun de coût de WSVM pour les deux classes. La
recherche de la valeur optimale du paramètre C est déterminée en utilisant la méthode de
validation croisée [73]. On remplace C par C.w dans l'équation (II.33) et C.w dans l'équation
(II.34). Ensuite, on divise les équations (II.33) et (II.34) par C. m et C. m , respectivement, et on

prenant  i    i  A , nous pouvons obtenir


di1 di1

NBSV A N
  SV
m C.w.m m 
(II.37)
NBSV A N
  SV (II.38)
m C.w.m m 
Afin d'obtenir le même taux d'erreur pour les deux classes, nous considérons
A A
 . Nous pouvons obtenir la relation suivante
C.w  .m   C.w.m 
w w 

  (II.39)
m m 
Par l'introduction (II.35) et (II.36) dans l'équation (II.39), nous obtenons la solution suivante:

C m   (II.40)

C- m
Plusieurs auteurs [101], [102] ont proposé d’ajuster différents paramètres de coûts pour résoudre
le problème de déséquilibre de données et par conséquent diminuer la mauvaise classification des
données des classes minoritaires. Veropoulos et al. [102] ont proposé d'augmenter le coût associé
à la classe minoritaire (c'est-à-dire C  C ) pour obtenir une plus grande marge sur le côté de la
classe minoritaire. Cependant, ils ne suggèrent pas des lignes directrices pour choisir les valeurs
optimales des paramètres de cout. Dans [16], [17], nous avons implémenté un algorithme SVM
pondéré qui affecte à chaque classe d’activité un paramètre de cout Ci choisi sur la base de la
proportion des données des différentes classes. En prenant C- = Ci, m et mi sont respectivement
le nombre d’échantillons de la classe majoritaire et le nombre d’échantillons de la ith classe. Nous
obtenons la valeur du paramètre de cout Ci pour chaque activité par :

Ci  C m / mi  avec i  1,..., N (II.41)

[ ] est la fonction entière.

59
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Pour le problème d’entrainement à deux classes Ci et Cj, le problème principal d’optimisation de


WSVM peut être reconstruit via le critère de l’équation, on obtient :
 m  m   m  m-  )
min 1/ 2 K(w, w)  C( 
w,b,ξ
 m   i m   i
 i  i|d i 1  j i|di 1 (II.42)
Tel que : y i (wT(x i)  b)  1   i,  i  0, i  1,..., m

La formulation duale de WSVM donne le même Lagrangien comme dans la formulation du SVM

classique avec C  C[m / mi ] et C  C[m  / m j ] . Notons qu’on aura toujours Ci  C . Ce critère

respecte le fondement de Veropoulos c’est-à-dire que le compromis C- associé à la classe


minoritaire est grand afin d'améliorer la faible précision de classification causée par des
échantillons déséquilibrés. L’algorithme WSVM avec les classes minoritaires pondérées par de
grandes valeurs du paramètre de régularisation Ci ne va pas permettre à l’hyper-plan de
séparation de se décaler vers la classe minoritaire et par conséquent on aura une augmentation de
la précision de classification.

III.3.8. Classification SVM multi-classes

Dans le cas d’une classification SVM multi-classes, le principe consiste à décomposer le


problème de classification multi-classes en séries de classifications binaires : un-contre-tous ou
un-contre-un [73]. L’approche un-contre-tous consiste à entrainer N classificateurs SVM de sorte
que chaque SVM est séparé des autres (N-1) SVM. Contrairement à la première approche, la
méthode un-contre-un consiste à séparer entre deux classes à chaque fois ; ainsi N×(N-1)/2
classificateurs SVM donnent en sortie un « avis » sur l’appartenance ou non d’une donnée, soit x,
inconnue représentée en entrée lors de la phase de test. Par conséquent, le choix d’appartenance
de la classe correspondante à x est pris selon la règle du vote majoritaire [73].
Notre travail cible le deuxième type d’implémentation au fait que les deux types de classification
donnent presque les mêmes résultats ainsi que l’implémentation un-contre-un est plus robuste
dans le cas des données très déséquilibrées puisque les données d’une classe seront confrontées à
une autre classe et par conséquent le déséquilibre sera corrigé par rapport à la méthode de
classification un-contre-tous. Bien que la méthode un-contre-un utilise, pour l’entrainement, un
nombre plus important d’hyperplans que la méthode un-contre-tous, elle est souvent plus rapide.

60
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Cela est du, d’une part, au nombre limité de données utilisées pour entrainer chaque hyperplan, et
d’autre part, à la simplicité des problèmes à résoudre. En effet, chaque deux classes prises à part
sont moins chevauchées que toutes les classes. La structure de la méthode WSVM multi-classes
utilisant l’approche un-contre-un est visualisée dans la figure II.12.

II.3.9. Librairie SVM (LIBSVM)


LIBSVM [103] est une bibliothèque qui regroupe un ensemble d’algorithmes de fouille de
données (Classement, Régression…), toutes issues de l’approche par les méthodes à vecteurs de
support SVM. L’implémentation est particulièrement efficace, en ce qui concerne le temps de
traitement. Le point intéressant de LIBSVM est la cross-validation (module de cette
bibliothèque) pour tester les paramètres d’apprentissage et les améliorer en évitant le problème de
sur-apprentissage (overfitting). L’algorithme SMO (Sequential Minimal Optimization) [104] est
le plus utilisé pour appliquer les SVMs à des problèmes de grande taille. SMO est d’une part, un
algorithme simple et rapide. D’autre part, en plus de ses performances en termes de temps de
convergence, SMO n’exige pas un grand espace mémoire vu qu’il n’utilise pas des opérations sur
la totalité de la matrice de Gram.

61
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Figure II.12- Structure de la méthode WSVM multi-classes utilisant l’approche un-contre-un.

II.4. Simulations et Résultats


Dans cette partie, on évaluera différentes approches de classification à savoir LDA, k-NN, SVM,
et WSVM. Ensuite on discutera des résultats obtenus sur cinq bases de données réelles issues des
réseaux de capteurs dans des différentes maisons intelligentes [22, 23, 24].

II.4.1. Critères de performances


Nous évaluerons les performances des méthodes de classification selon plusieurs critères
d’évaluation à savoir la matrice de confusion et des mesures de performances qui en découle de
cette matrice à savoir le taux de classification correcte (TCC) qui est exprimé en pourcentage des
données correctement classifiées par le système et le F-mesure qui combine deux critères qui sont
la Précision et le Rappel.
La matrice de confusion est un outil servant à mesurer la qualité d’un système de classification.
C’est est un tableau à double entrée. Chaque colonne de la matrice représente le nombre
d’occurrences d’une classe estimée, tandis que chaque ligne représente le nombre d’occurrences

62
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

d’une classe réelle (ou de référence). Un des intérêts de la matrice de confusion est qu’elle
montre clairement si le système parvient à classifier correctement les données.
La matrice de confusion est un outil servant à mesurer la qualité d’un système de classification.
C’est est un tableau à double entrée. Chaque colonne de la matrice représente le nombre
d’occurrences d’une classe estimée, tandis que chaque ligne représente le nombre d’occurrences
d’une classe réelle (ou de référence). Un des intérêts de la matrice de confusion est qu’elle
montre clairement si le système parvient à classifier correctement les données.

Tableau II.3- Matrice de confusion dans le cas multi-classes.

Classes prédites
1 2 3
1 TP1 e12 e13 NG1
Classes
2 e21 TP2 e23 NG2
réelles
3 e31 e32 TP3 NG3
NI1 NI2 NI3 Total

La signification des éléments du tableau ІI.3 est donnée comme suit :


 TPi : représente le nombre d’échantillons classés correctement dans la classe i (on l’appelle
souvent vrais positifs).
 NGi : est le nombre réel d’échantillons dans la classe i.
 NIi : est le nombre d’échantillons estimés dans la classe i.
 eij : est le nombre d’échantillons de la classe i estimés dans la classe j.

Ces mesures sont définies comme suit :


N
1 TP
Precision
N
NI
i1
i
(II.43)
i

TPi
Rappel  1 N 100% (II.44)

N i 1 NG i

N TP
TCC  i1 i 100% (II.45)
Total
(12 ).Precision.Rappel
F  Mesure  100% (II.46)
2 * Precision Rappel

63
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Le paramètre permet de pondérer la précision ou le rappel. Il est généralement égal à 1, La


mesure devient alors:

2.Precision.Rappel
F  Mesure  100% (II.47)
Precision Rappel
avec N : est le nombre de classes et Total : est le nombre d’échantillons à classer tel que :
N

Total   NG
i 1
i
(II.48)

Le F-mesure sera notre premier critère d’évaluation car il met en évidence le problème des
données déséquilibrées contrairement au taux de classification correcte qui donne le taux global
de classification. Même si le taux de classification correcte est la manière typique pour évaluer
les performances d’un classificateur, il n’est pas toujours la meilleure mesure pour évaluer les
classificateurs des activités humaines parce que l’ensemble de données contiendra des classes
dominantes qui apparaissent plus fréquemment que d'autres. Par exemple, dans l'ensemble de
données et dans le cas binaire de deux classes Boire et Dormir, si le nombre d’échantillons total
de l’activité Boire est 59 et 11601 pour l’activité Dormir. Le classificateur SVM classe
parfaitement seulement la classe Dormir avec TCC=99.5% tandis que le Rappel, la Précision et
F-Mesure ne vont pas dépasser les 50%. Donc, s’il y a des classes d’activités majoritaires bien
classifiées, le TCC sera élevé même si les classes minoritaires ont été mal classifiées. D’où F-
mesure sera notre premier critère d’évaluation car il met en évidence le problème des données
déséquilibrées contrairement au taux de classification correcte qui donne le taux global de
classification sans tenir compte des activités minoritaires.
II.4.2. Résultats
- Sélection du modèle
Toutes les méthodes de classification ont été testées sous l’environnement MATLAB. La
méthode SVM est testée en utilisant la bibliothèque LIBSVM [103]. Dans nos expérimentations,
nous avons optimisé les hyper-paramètres SVM (σopt, Copt) respectivement dans les gammes [0.1
– 2.0] et [0.1 - 100] à l’aide de la méthode de validation croisée pour les bases de données
TK26M, TK28M, TK57M, TAP80F et OrdonezA. Nous avons obtenu (σopt, Copt)= (1.7, 1), (1.5,
1), (2.0, 1), (1.2, 1) et (1.3, 5) respectivement pour les bases de données TK26M, TK28M,
TK57M, TAP80F et OrdonezA. Pour la méthode de classification WSVM, nous utiliserons le

64
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

critère de l’équation (II.41) comme c’est mentionné dans les tableaux ci dessous. Ces valeurs sont
données pour la première itération de la méthode de validation croisée appelée Leave one day
out.

Tableau II.4- Poids wi de la marge pour la base de données TK26M.

Activités Autres- Sortir Aux Se Dormir Déjeuner Dîner Boire


activités Toilettes Doucher
wi 5 1 61 88 2 216 73 419

Tableau II.5- Poids wi de la marge pour la base de données TK28M.


Activités Autres- Sortir Aux Se Se Dormir S’habiller Prep.
activités Toilettes Doucher Brosser Déjeuner
les dents
wi 2 1 144 96 264 2 235 133
Prep. Boire Faire la Dîner Petit- Jouer au
Vaisselle déjeuner piano
Dîner
120 903 318 200 75 22

Tableau II.6- Poids wi de la marge pour la base de données TK57M.


Se
Autres- Aux Se Se
Activités Sortir Manger brosser Dormir
activités Toilettes Doucher Raser
les dents
wi 4 1 32 50 63 118 179 2
Prendre des
S’habille Petit- Déjeune Se
Médicamen Dîner Goûter Boire
r déjeuner r détendre
ts
107 749 164 193 41 500 375 5

Tableau II.7- Poids wi de la marge pour la base de données Tapia80F.


Prép.
Autres- Aux Prendre des Prép. Prép. Prép. le
Activités Petit
activités Toilettes médicaments Déjeuner Dîner Goûter
déjeuné
wi 1 30 92 38 21 36 72
Laver la Regarder Écouter de la
Vaisselle TV musique
53 32 17

Tableau II.8- Poids wi de la marge pour la base de données OrdonezA.


Autres- Aux Se Prép. Regarder
Activités Dormir S’habiller
activités toilettes Doucher Déjeuner TV
wi 6 1 49 71 66 53 1

65
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Petit-
Sortir Goûter
déjeuner
5 27 610

Nous résumons dans le tableau II.9 les performances de classifications en termes de TCC, rappel,
de précision, F-mesure obtenus avec les méthodes LDA, k-NN, SVM, et WSVM sur les cinq
bases de données réelles TK26M, TK28M, TK57M, TAP80F et OrdonezA. Nous remarquons
dans ce tableau en termes de F-mesure que la méthode de classification WSVM est supérieure
par rapport aux autres approches pour toutes les bases de données, à l’exception de la base
TK57M où WSVM est légèrement inferieur par rapport à LDA. Cette dernière méthode vient en
deuxième rang en termes de bonnes performances de classification et surpasse les autres
méthodes de classification à savoir k-NN et SVM pour la plupart des bases de données.
Nous reportons dans les figures II.13, II.14, II.15 le taux de classification de chaque activité en
utilisant les algorithmes LDA, k-NN, SVM et WSVM pour les bases de données TK26M,
TAP80F et OrdonezA. A première vue dans la figure II.13, on remarque que les meilleurs
résultats de classification sont obtenus avec les activités majoritaires Sortir et Dormir pour toute
les méthodes de classification. Nous pouvons tout de suite constater que les classes minoritaires
(Aux toilettes, Se doucher, et les activités de cuisine : Petit-déjeuner, Dîner et Boire) classifiées
avec WSVM ont été généralement bien reconnues comparativement aux autres méthodes de
classification. Cependant, l’activité Autres-activités a été bien reconnue avec la méthode SVM.
En outre, les activités de cuisine sont en général difficiles à reconnaitre par rapport aux autres
activités.

Tableau II.9- Les résultats de reconnaissance d’activités pour les méthodes de classification
LDA, k-NN, SVM et WSVM. Les valeurs en gras présentent les performances obtenues avec les
meilleurs classificateurs.

BD Modèle Prec. (%) Rappel (%) F-mesure (%) TCC (%)


TK26M LDA 74.3 72.4 73.3 93.5
k-NNk=9 75.8 67.8 71.6 94.4
SVM(1.7, 1) 73.7 61.8 67.0 95.5
WSVM 74.6 72.8 73.7 92.5
TK28M LDA 44.3 47.8 46.0 84.8
k-NNk=9 33.7 31.3 32.4 67.7
SVM(1.5, 1) 37.5 39.3 38.4 85.5
WSVM 51.7 46.4 48.9 62.7
TK57M LDA 39.8 40.7 40.2 79.1
k-NNk=1 39.6 35.7 37.5 78.4
SVM (2.0, 1) 34.9 35.6 35.2 80.8
WSVM 37.8 40.8 39.2 77.1

66
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

TAP80F LDA 32.4 18.8 23.8 66.7


k-NNk=1 25.3 22.2 23.7 44.8
SVM(1.2, 1) 30.0 15.2 20.1 75.6
WSVM 29.4 29.2 29.3 28.7
OrdonezA LDA 62.1 65.0 63.5 90.9
k-NNk=1 63.5 54.5 58.7 84.5
SVM(1.3, 5) 58.2 60.0 59.1 85.2
WSVM 64.2 63.7 63.9 84.4

Dans la figure II.14, on constate que les classes majoritaires (Autres activités et Ecoutez de la
musique) on été bien classifiées par rapport aux autres activités. Globalement, les activités
minoritaires (Aux toilettes, Prendre des médicaments, Laver la Vaisselle, Regarder TV et les
activités de cuisine (Prép. Petit déjeuner, Prép. Déjeuner, Prép. le Goûter) ont été bien classifiées
avec la méthode WSVM comparativement aux autres approches de classification. L’activité
Prendre des médicaments n’a pas pu être reconnu avec k-NN et SVM. Aussi, l’activité Prép. le
Goûter n’a pas été bien classifiée avec SVM. Ce dernier fournit un taux de classification
significatif pour la classe majoritaire Autres-activités. Les activités de cuisine Prép. Petit déjeuné,
Prép. Déjeuner, Prép. Dîner, Prép. le Goûter et Laver la Vaisselle restent mal classifiées et sont
difficiles à reconnaitre par les différents classificateurs étudiés dans ce mémoire.
On remarque dans la figure II.15 pour la base de données OrdonezA, que les classes majoritaires
Dormir, Loisirs et Sortir donnent les meilleures performances de reconnaissance d’activités pour
toutes les méthodes de classification. Particulièrement, WSVM fournit de bonnes performances
pour les activités minoritaires (Aux toilettes, Prép. Déjeuner, Faire sa toilette) mais ces dernières
restent inferieures à celles des activités majoritaires.

67
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Figure II.13- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données TK26M.

Figure II.14- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données TAP80F.
Le classificateur LDA donne aussi de bonnes performances pour les activités minoritaires (Se
doucher, Petit-déjeuner, Gouter). Les méthodes k-NN et SVM sont inferieures aux autres
méthodes de classification pour toutes les activités à l’exception de l’activité appelée Autres-
activités. L’activité Gouter a été très mal classifiée avec la méthode de classification k-NN.

68
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Figure II.15- Comparaison des taux de reconnaissance entre les différentes méthodes de
classification pour chaque activité avec la base de données OrdonezA.

Ensuite, nous avons visualisé les matrices de confusion de la méthode de classification WSVM
pour les bases de données TK26M, TAP80F et OrdonezA. Cette matrice montre l’efficacité de la
méthode de classification WSVM, où le taux de reconnaissance le plus élevé correspond toujours
à la bonne reconnaissance des activités humaines. La diagonale de cette matrice représente le
Taux de Classification Correcte (TCC) de chaque activité. Nous remarquons dans le tableau II.10
que les activités Sortir, Aux toilettes, Se doucher, Dormir donnent les meilleurs taux de
classification des activités humaines. On constate aussi que la plus grande confusion réside entre
les activités de cuisine (Petit-déjeuner, Dîner et Boire) et Autres-activités.
Nous remarquons dans le tableau II.11 pour la base de données TAP80F que toutes les activités
présentent des performances très basses par rapport aux autres bases de données. Les activités
Regarder TV et Ecouter de la musique sont mieux classifiées par rapport aux autres activités. On
constate que la plus grande confusion est entre l’activité Prendre des médicaments, les activités
de cuisine (Prép. Petit Déjeuner, Prép. Déjeuner, Prép. Dîner, Prép. le Goûter et Laver la
Vaisselle), et Autres activités. L’activité Prép. le Goûter a été mal classifiée et la plus grande
confusion est entre cette activité et Prendre des médicaments.

Tableau II.10- La matrice de confusion de WSVM pour la base de données TK26M.

69
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

activités

toilettes
Autres-

Sortir

doucher

Dormir

Dîner

Boire
Aux

Petit-
déjeuner
Se
Activités

Autres-activités 41.9 6.4 2.3 13.8 6.4 3.6 22.1 3.5

Sortir 0.7 98.3 0.2 0.4 0.0 0.2 0.2 0.0

Aux toilettes 11.0 2.9 80.3 2.9 1.6 1.0 0.0 0.3
Se doucher 7.2 0.0 3.3 89.1 0.0 0.4 0.0 0.0

Dormir 0.2 0.0 0.3 0.1 99.4 0.0 0.0 0.0


Petit-déjeuner 13.8 0.0 0.0 0.0 0.9 62.4 10.1 12.8

Dîner 19.9 4.3 7.0 0.0 0.0 15.8 42.4 10.6

Boire 11.0 1.7 3.4 0.0 0.0 13.6 1.7 68.6

Tableau II.11- La matrice de confusion de WSVM pour la base de données TAP80F.


médicaments

Goûter
Prendre

Prép. Petit
déjeuné

déjeuné

Laver la
Vaisselle

TV
des
activités

toilettes
Autres-

Dîner

Regarder
Prép.

Prép.

Prép. Le

Musique
Aux

Activités

Autres-
26.0 12.6 19.4 9.0 2.9 3.4 2.5 5.3 12.5 9.4
activités
Aux toilettes 8.9 36.8 17.1 10.9 4.6 4.1 5.0 7.0 4.4 1.2
Prendre des
15.7 10.8 34.0 9.7 0.5 15.7 6.0 1.1 3.2 3
médicaments
Prép. Petit
9.4 3.6 16.3 26.2 23.8 4.7 3.2 4.0 6.2 2.6
déjeuné
Prép.
6.3 3.1 8.8 26.0 17.4 11.3 2.0 11.1 7.0 7.0
déjeuné
Prép.
7.1 4.1 21.5 14.0 18.4 14.8 3.7 4.1 4.0 8.3
Dîner
Prép. le
13.0 7.1 17.0 14.6 7.4 13.4 11.0 4.3 3.1 9.1
Goûter
Laver la
3.3 4.6 4.6 9.4 13.1 8.0 10.1 32.9 6.7 7.3
Vaisselle
Regarder TV 17.0 11.8 1.5 2.1 5.8 1.4 1.4 13.0 42.7 3.3
Ecouter de la
8.1 5.4 5.2 5.2 5.8 6.5 4.3 7.0 2.6 49.9
musique
Dans le tableau II.12, les activités Dormir, se doucher, Prép. Déjeuné, Regarder TV, Sortir et
Petit-déjeuner ont des taux de classification correcte supérieurs aux autres activités. Nous
prenons l’activité Gouter qui a été mal classifiée. Elle a été confuse avec l’activité : Autres-
activités.

70
CHAPITRE II : METHODES DE CLASSIFICATION POUR LA RAH

Tableau II.12- La matrice de confusion de WSVM pour la base de données OrdonezA.

Dormir

Goûter
déjeuné

Loisirs
Autres-
activités

toilettes

Petit-
Sortir
doucher

déjeuner
Prép.
Aux

Faire sa
toilette
Activités

Autres-activités 8.2 11.8 5.3 8.8 2.9 3.9 40.9 5.7 12.5 0
Dormir 0 100 0 0 0 0 0 0 0 0

Aux toilettes 6.9 20.8 26.8 10.2 8.4 13.0 5.9 2.1 2.7 3.2

Se doucher 6.2 2.5 5.1 78.2 0 3.4 1.1 0 3.5 0


Prép. déjeuné 2.7 0,3 1.0 2.8 80.0 6.8 4.2 0.6 1.2 0.4

Faire sa toilette 5.1 0.7 1.9 0,8 8.8 69.2 7.4 4.5 0.9 0.7

Loisirs 6.1 0.9 0.9 2.4 3.5 4.0 81.4 0.8 0 0

Sortir 0 0 0 0 0 0 0 100 0 0

Petit-déjeuner 6.8 3.3 0 0 0.5 4.2 1.4 1.8 78.7 3.3

Goûter 23.7 5.2 6.2 15.0 18.1 7.2 0 5.3 4.1 15.2

II.5. Conclusion
Nous avons présenté dans ce chapitre, les détails de notre approche de reconnaissance des
activités humaines, appelée Méthodes à Vecteurs de Support pondérée (WSVM), ainsi que la
validation auprès de différentes données issues des habitats intelligents. Nous avons aussi
comparé notre approche avec d’autres méthodes de classification les plus connues dans la
littérature à savoir LDA, k-NN et SVM. Nous avons ainsi, expliqué l’aspect théorique de chaque
méthode et le paramétrage correspondant.
Ensuite nous avons présenté les détails concernant la phase de simulations. Nous avons effectué
plusieurs simulations pour répondre aux questions posées au départ. A la lumière de ces résultats,
nous avons pu mettre en évidence les points forts de notre modèle et montrer qu’il est supérieur
aux autres modèles de classification. Il a le pouvoir d’améliorer la reconnaissance d’activités
minoritaires comme les activités de cuisine. Ces dernières restent difficiles à reconnaitre et
présentent une grande confusion entre elles. L’évaluation de ces méthodes de classification en
termes de taux de classification correcte montre que WSVM donne les meilleurs résultats. Ceci
ce n’est vraiment pas important puisque F-mesure est notre premier critère d’évaluation, comme
il a été déjà mentionné dans ce chapitre.

71
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

CHAPITRE ІII : LES PROBLEMES DE


DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

III.1. Introduction
Tout ce qui a été exposé jusque là concerne la comparaison de différentes méthodes de
classification appliquées au domaine de la reconnaissance d’activités humaines. Dans ce
chapitre, deux problématiques dans le domaine de RAH ont été exposées à savoir le
déséquilibre des classes et la dimensionnalité des données issues des réseaux de capteurs. Par
conséquent, nous devons améliorer les algorithmes existants afin de traiter ces deux
problématiques et choisir la méthode la plus performante pour la reconnaissance d’activités
humaines.
La plupart des algorithmes de classification sont basés sur deux hypothèses :
(H1) le critère à minimiser est le nombre d’erreurs et (H2) le jeu de données d’apprentissage
est un échantillon représentatif de la population sur laquelle le modèle sera appliqué. Ce sont
ces deux hypothèses qui font que les modèles ne sont pas satisfaisants quand ils sont construits
à partir de données déséquilibrées.

Figure III.1- Représentation d’un jeu de données constitué de trois classes déséquilibrées

72
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

La section qui va suivre exposera en détails les difficultés rencontrées dans le cas de
déséquilibre entre deux classes ainsi que les stratégies mise en place pour y remédier. On peut
l’illustrer par un exemple simple : si 99 % des données appartiennent à une seule classe
(appelée classe majoritaire) et 1% des données restantes à la classe minoritaire, il sera difficile
de faire mieux que classer toutes ces données dans la classe majoritaire et obtenir 1% d’erreur
: selon les hypothèses (H1), (H2) que nous venons de citer précédemment c’est même la
meilleure procédure à faire. Weiss [105] propose de distinguer plus précisément les différents
problèmes des données déséquilibrées, et de l’apprentissage des classes rares. Nous allons les
citer dans la section suivante.

III.2. Le problème du déséquilibre de données


Nous donnons dans cette section un bref aperçu des différents problèmes des données
déséquilibrées :

- Métriques inappropriées:
Les mesures utilisées généralement au cours du processus d’apprentissage pour guider
l’apprentissage, ou pour en évaluer les résultats, ne sont pas adaptées aux classes
déséquilibrées. Si on remplace le critère à optimiser, par exemple le taux d’erreur de
classification, par un critère plus pertinent qui prend en compte le déséquilibre des classes, on
doit pouvoir adapter simplement les algorithmes. Le Rappel et la Précision sont par exemple
des critères plus adéquats à ce type de données [106].

- Manque de données:
Les données d’une classe ne sont pas rares au sens absolu, mais beaucoup moins représentées
que ceux des autres classes. Le problème est donc le ratio : (Nb données minoritaire : Nb
données majoritaire) plus que le nombre d’individus disponibles pour apprendre le concept de
la classe minoritaire : faire un apprentissage sur un jeu de données déséquilibrées où le ratio
est 5 : 100 (manque absolu) est un problème très différent d’une répartition avec le ratio est
500 : 10000 (manque relatif). Ce problème de déséquilibre a été illustré par Weiss [105]. De
nombreuses méthodes peuvent être utilisées pour gérer ce problème [10], [20], [107].

73
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

- Division des données:


Ce problème est lié aux méthodes de classification ayant le principe ‘diviser et conquérir’,
comme le classificateur Arbre de décision connu sous la nomination anglophone Decision tree
learning, qui partent de l’espace de tous les individus et le partitionnent d’une manière
récursive en sous-petit espaces (souvent binaire) qui deviennent de plus en plus pures en terme
de classes (estimé sur base d’un critère). Les données à classer sont à chercher dans de petites
partitions contenant de moins en moins de données. Si la division des données pose toujours
un problème en terme de complexité temporelle, elle l’est encore plus dans le cas de
l’apprentissage des classes de données déséquilibrées.

- Marge de classification inappropriée :


Il s’agit de la marge appliquée à la règle de classification apprise sur les données
d’apprentissage. De nombreux systèmes d’induction préfèrent la généralité à la spécialisation,
favorisant la classe la plus présente en cas d’incertitude. Cette question est un point
fondamental de l’apprentissage en situation d’asymétrie. Dans le cas des méthodes à vecteurs
de support (SVM), le problème de déséquilibre de données pose réellement problème au
niveau de la phase d’apprentissage et affecte la maximisation de la marge pour trouver
l’hyperplan de séparation optimal [12].

- Données bruitées:
Le bruit a plus d’effet sur les classes minoritaires que sur les classes majoritaires, ceci
s’explique par le fait que peu de données bruitées (mal étiquetées) suffisent pour affecter la
phase d’apprentissage [10]. Le modèle de classification obtenu lors de cette phase devient
incapable de discerner entre les données bruitées et les données minoritaires. Si le modèle était
plus adapté, il apprendra correctement ces données issues des classes minoritaires, mais
également ceux qui sont réellement du bruit. Généralement, les données minoritaires appelées
aussi les classes rares sont les classes d’intérêt et donc sont importantes à bien les classifier

74
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

III.3. Les enjeux du déséquilibre pour les SVMs.


Pour les jeux de données moyennement déséquilibrées de l’ordre de 20 :100, les résultats
empiriques montrent que, contrairement à d'autres techniques d'apprentissage, SVM peut
produire une bonne hypothèse, en termes de précision globale de classification, sans aucune
modification algorithmique. Néanmoins, les performances diminuent lorsque le déséquilibre
dans la distribution des données devient plus important de l’ordre de 1 :100. En termes de
SVM, plusieurs travaux ont été réalisés pour améliorer la précision de la prédiction des classes
[12, 102, 108]. Des travaux antérieurs [102], [108] montrent que SVM peut être en mesure de
résoudre le problème des données asymétriques sans introduire de bruit. Toutefois, les
modèles qui en résultent peuvent sur-adapter aux données. Pour traiter le problème de
déséquilibre de données, plusieurs approches ont été proposées pour ajuster la frontière
asymétrique. Nous en présentons quelques unes.

- Une modification adaptative de la fonction noyau : Cette approche basée sur la


distribution des données d’apprentissage est une méthode efficace pour améliorer la
classification SVM. Amari et Wu [109] proposent une méthode de modification d'une fonction
noyau pour améliorer la performance d’un classificateur SVM. Cette méthode est basée sur la
structure de la géométrie Riemannienne induite par la fonction du noyau. L'idée est
d'augmenter la séparabilité entre les classes en agrandissant la dimension de l'espace autour de
la surface de séparation.
Afin d’améliorer la méthode de Amari et Wu, Wu et Chang [110] proposent un algorithme
d’alignement de la frontière entre les classes, ce qui modifie également la matrice du noyau K
basé sur la distribution des données d'apprentissage. Au lieu d'utiliser un espace d'entrée, ils
procèdent à la transformation du noyau basé sur la distribution spatiale des vecteurs de support
dans l’espace des caractéristiques. Les justifications théoriques et études empiriques montrent
que la méthode de transformation du noyau est efficace pour la classification déséquilibrée,
mais cette technique n'est pas suffisamment simple à mettre en œuvre.

75
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

-Une modification au niveau algorithmique SVM : Shawe-Taylor et Cristianini [111]


montrent que la distance d'un point de test à la frontière est liée à la probabilité d'erreurs de
classification. La technique proposée est de fournir une pénalité plus sévère si une erreur est
commise sur un exemple négatif. En utilisant les facteurs de coûts et en ajustant le coût de
faux positifs et faux négatifs, ces sanctions peuvent être directement intégrées dans
l'algorithme d’apprentissage SVM. En augmentant la marge sur le côté de la classe
minoritaire, cette méthode fournit un moyen d’induire une frontière de décision qui est plus
adaptée au modèle de classification dans le cas des données déséquilibrées.

III.4. Les algorithmes de ré-équilibrage de données


Différents chercheurs se sont intéressés à des approches de classification supervisée basées sur
des règles pour le problème des classes disproportionnées. Les approches pour aborder le
problème de données d'entraînement déséquilibrées peuvent être classées dans deux catégories
principales :
- Au niveau des données : Les stratégies d’échantillonnage permettent de redresser les
jeux de données déséquilibrés, ou de constituer des échantillons de manière dirigée
pour encourager les algorithmes d’apprentissage à se diriger vers un type de modèle
spécifique. Les méthodes d’échantillonnage permettent essentiellement de traiter le
problème des jeux de données déséquilibrés.
- Au niveau algorithmique : on retrouve des méthodes qui tiennent intrinsèquement
compte de l’asymétrie via une matrice de coûts, une distribution de référence, ou des
objectifs spécifiques spécifiés par l’utilisateur. Ils existent des approches permettent de
rendre n’importe quel type d’algorithme sensible à l’asymétrie, notamment par des
méthodes de Boosting [112] ou du Bagging [113].

Une autre approche pour tenir compte de l’asymétrie est d’introduire un biais dans les
algorithmes d’apprentissage. Barandela et al. [114] proposent d’utiliser une mesure de
distance pondérée dans l’algorithme des k-plus proches voisins (k-NN). L’objectif de cette
distance est de compenser le déséquilibre du jeu de données sans altérer la distribution des

76
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

classes : des poids sont assignés non aux individus prototypes mais aux classes. Ainsi les
distances aux prototypes de la classe minoritaire deviennent plus faibles qu’à ceux de la classe
majoritaire.

a) Modification des seuils de décision:


Certains algorithmes fournissent une probabilité pour chaque individu d’appartenir à telle ou
telle classe. La décision est donc prise en fixant un seuil sur cette probabilité (généralement
50%). C’est le cas du naïf bayésien, ou de certains réseaux de neurones. Il est donc possible de
tenir compte du déséquilibre des données en diminuant ce seuil pour la classe minoritaire (et à
l’inverse d’augmenter ce seuil pour les individus de la classe majoritaire), ce qui améliorerait
la sensibilité du modèle à la classe minoritaire, le risque étant de dégrader la précision de
classification globale qui est dépendante essentiellement des classes dominantes.

b) Apprentissage d’une seule classe:


L’apprentissage centré d’une seule classe (appelé aussi : One class Learning) est une solution
intéressante et efficace, comparativement aux méthodes discriminantes comme les réseaux de
neurones ou les arbres de décision [115]. Les algorithmes de recherche supervisée de règles
d’association, comme Ripper [116] et CBA [117] appartiennent à cette catégorie. Par exemple
Ripper est un système d’induction qui construit des règles par itérations pour couvrir les
individus qui n’ont pas été couverts auparavant. Des règles sont générées de la manière
habituelle, mais de la classe minoritaire à la classe majoritaire.
De part son architecture il lui est ainsi simple d’apprendre des règles uniquement sur la règle
minoritaire. Raskutti et Kowalczyk [12] montrent que l’apprentissage centré sur une seule
classe est particulièrement adapté lorsque les données sont très déséquilibrées, et que l’espace
est de très grande dimension ou bruité.

III.5. Solution1 : Nouvelle approche de résolution du problème du


déséquilibre de données pour la RAH
Dans cette thèse, nous avons proposé une nouvelle approche pour la reconnaissance des
activités humaines qui combine les techniques de rééquilibrage de données (US ou OS ou

77
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

SMOTE) avec le classificateur du type Méthodes à Vecteurs de Support (SVM), comme nous
le montre la figure III.2. Dans la phase d’entrainement, nous avons besoin de corriger le
déséquilibre entre les classes d’activités représentées dans l’espace de caractéristiques en
utilisant l’une des méthodes de ré-échantillonnage de données qui seront chacune détaillée
dans la prochaine sous section. Ensuite, les données équilibrées seront utilisées pour
l’entrainement du classificateur SVM. Le modèle ainsi obtenu durant la phase d’entrainement
sera utilisé pour prédire les nouvelles observations issues des activités humaines durant la
phase de test.

Figure III.2- Nouvelle approche de résolution du problème du déséquilibre de données


pour la RAH.
Afin de réduire au maximum l’effet de déséquilibre au sein des données de classification, il est
recommandé de procéder à un rééquilibrage de la distribution des données avec les méthodes
de ré-échantillonnage pour éviter de biaiser le modèle vers la classe dominante. Les approches
les plus communes utilisent le principe d'échantillonnage aléatoire : soit l'on considère un
sous-échantillonnage des objets de la classe majoritaire, soit l'on considère un sur-
échantillonnage de la classe minoritaire. Les deux approches tentent de rééquilibrer la
distribution des classes en matière de données incluses dans l’apprentissage. Si le sous-
échantillonnage implique des pertes d'informations potentiellement importantes contenues
dans les objets, le sur-échantillonnage peut produire des effets de sur-apprentissage.

78
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

III.5.1. Sous-échantillonnage (Under Sampling)


La méthode la plus évidente et la plus simple consiste à supprimer aléatoirement des
échantillons appartenant à la classe majoritaire au hasard (Voir figure III.3), de manière à
rééquilibrer le jeu de données. Cette méthode permet d’équilibrer la distribution des classes en
sélectionnant et en supprimant les cas de la classe majoritaire
au hasard. Cette méthode a l’avantage d’être très simple à mettre en œuvre, mais elle risque de
supprimer des échantillons de la classe majoritaire qui sont importants pour la phase
d’apprentissage.

Figure III.3- Sous-échantillonnage des données. A gauche : Avant Sous-échantillonnage. A


droite : Après Sous-échantillonnage.

Pour ce faire, il nous faut comme entrée un ensemble d’apprentissage ainsi que les étiquettes
des classes « Label ». L’instruction Matlab {id=round(rand(1, ClassDmin)*(class(i)-1)+1)}
sera celle qui va permettre d’obtenir un vecteur d’indices dont chaque élément sera assimilé
aléatoirement aux lignes d’une même classe (grâce à la fonction « rand ») et cette instruction
sera réitérée pour toutes les classes hormis classe minoritaire. Les sorties représentent le
nouvel ensemble d’apprentissage sous-échantillonné « sample », ainsi que l’ensemble
d’étiquettes de classes aussi sous-échantillonné « sampleLabel ». Les algorithmes III.1, III.2
sont illustrés à la fin de la section III.5.2.

III.5.2. Sur-échantillonnage (Over Sampling)


Un moyen pour rééquilibrer les jeux de données est la duplication aléatoire du nombre
d’individus appartenant à la classe minoritaire. Son mécanisme est l'ajout d'un
ensemble des échantillons supplémentaires choisis au hasard à partir de la classe minoritaire

79
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

de l'ensemble d'origine. De cette manière, le nombre d'échantillons total de la classe


minoritaire augmente, par conséquent, la distribution de la classe est plus équilibrée. (Voir
figure III.4).
Pour ce faire, il nous faut comme entrée un ensemble d’apprentissage ainsi que les étiquettes
des classes « Label ». Ensuite on introduira l’instruction Matlab {diff=ClassDmaj(i)-Class(i)}
qui va nous permettre d’avoir la différence entre la classe majoritaire et les classes
minoritaires, ainsi nous aurons le nombre exact d’échantillons manquants pour atteindre celui
de la classe majoritaire.

Figure III.4- Sur-échantillonnage des données. A gauche : Avant Sur-échantillonnage. A


droite : Après Sur-échantillonnage.

L’instruction Matlab suivante {id=round(rand(1,diff)*(Class(i)-1)+1)} sera celle qui va


permettre d’obtenir un vecteur d’indices dont chaque élément sera assimilé aléatoirement aux
lignes d’une même classe (grâce à la fonction « rand ») et cette instruction sera réitérée pour
toutes les classe hormis classe majoritaire. Les sorties représentons le nouvel ensemble
d’apprentissage sur-échantillonnée « Sample », ainsi que l’ensemble d’étiquettes de classes
aussi sur-échantillonné « SampleLabel ». L’algorithme est illustré ci-dessous.

80
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Algorithme III.1- Algorithme de Sous-échantillonnage

Algorithme de Sous-échantillonnage
Entrée : - Ensemble d’apprentissage « Data »
- Etiquettes de classes « Label »
Sortie : - Ensemble d’apprentissage sous-échantillonné « sample »
- Nouvelles étiquettes « sample label »
Algorithme :
1 Si size(data)=size(label)
2 Pour i=1: NbClass
3 Trouver les ids (identifiants) de chacune des classes Class (i)
4 Regrouper les données de même classe dans ClassD{i}
5 Calculer le nombre d’indices de chaque classe : class(i)=length(id)
Fin
5 Trouver la classe minoritaire classmin
6 Initialisation :
sample= [ ] et samplelabel= [ ]
7 Tant que (i< =NbClass)
Si (lenght(classmin) < length(Class(i)))
8 Chercher les indices de la classe majoritaire i sélectionnés pour atteindre la classmin
avec : {id=round(rand(1,classmin)*(class(i)-1)+1)}
9 Ajouter les données et leurs étiquettes correspondantes avec les ids en
utilisant la concaténation : sample=[ClassD{i}( :,id)] ;
et samplelabel=[y(ClassD{i}( :,id))] ;
Avec y(ClassD{i}( :,id)) est le vecteur d’étiquettes de la classe ClassD{i}( :,id)
Fin
Fin

81
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Algorithme III.2- Algorithme de Sur-échantillonnage

Algorithme de Sur-échantillonnage

Entrée : - Ensemble d’apprentissage « Data »


- Etiquettes de classes « Label »
Sortie : - Ensemble d’apprentissage sur-échantillonné « sample »
- Nouvelles étiquettes « sample label »
Algorithme :
1 Si size(data)=size(label)
2 Pour i=1: NbClass
3 Trouver les ids (identifiants) de chacune des classes Class (i)
4 Regrouper les données de même classe dans classD{i}
5 Calculer le nombre d’indices de chaque classe : class(i)=length(id)
Fin
5 Trouver la classe majoritaire classmaj
6 Initialisation :
sample=data et samplelabel=Label
7 Tant que (i< NbClass | i== NbClass)
Si (length(classmaj) > length(Class(i)))
8 Faire la différence diff= length(classmaj) – length(classD)
9 Chercher les indices des classes minoritaires pour atteindre la class maj
avec : {id=round(rand(1,diff)*(class(i)-1)+1)}
10 Ajouter les données et leurs étiquettes correspondantes avec les ids en
utilisant la concaténation : Sample=[Sample ClassD{i}( :,id)] ;
et Samplelabel=[Samplelabel y(ClassD{i}( :,id))] ;
Avec y(ClassD{i}( :,id)) est le vecteur d’étiquettes de la classe ClassD{i}( :,id)
Fin
Fin

82
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Le sur-échantillonnage implique souvent des copies exactes des données existantes, ce qui
peut entrainer un sur-apprentissage du modèle. Pour surmonter ce problème de sur-
apprentissage et élargir la région de décision de données appartenant à une classe minoritaire,
il existe une autre technique permettant de produire des données synthétiques appelée SMOTE
(Synthetic Minority Oversampling TEchnique, décrite en détail dans [118]) qui utilise les k-
NN (k-plus proches voisins) pour créer de nouveaux exemples.

III.5.3. SMOTE (Synthetic Minority Oversampling TEchnique)


Dans cette méthode la classe minoritaire est sur-échantillonnée en créant des exemples
‘synthétiques’, plutôt qu’en augmentant le nombre de données avec duplication. En effet
l’algorithme SMOTE calcule une distance entre deux données minoritaires et crée des données
synthétiques le long de la ligne entre une donnée minoritaire et son voisin choisi le plus
proche. Le nombre de données de la classe minoritaire est ainsi augmenté, ce qui permet un
rééquilibrage entre les classes. SMOTE est basé sur l’hypothèse que les échantillons qui sont
près des échantillons minoritaires appartiennent aussi à la classe minoritaire.
Les différentes étapes de l’algorithme Smote pour créer de nouveaux échantillons minoritaires
synthétiques sont les suivantes :

 Choisir un échantillon x aléatoirement parmi les échantillons minoritaires.


 Sélectionner les k plus proches voisins de x.
 Sélectionner aléatoirement un voisin ~
x parmi les K.
 Produire l'échantillon synthétique xnouveau , nouvel échantillon en interpolant entre x Et
~
x Comme suit :
xnouveau  x  rand(0,1) * ( ~
x  x) (III.1)
Où le rand (0, 1) se réfère à un nombre aléatoire entre 0 et 1.

L’inconvénient de ces méthodes de ré-échantillonnage est qu’elles génèrent de nouvelles


données d’apprentissage et peut par conséquent, augmenter le temps nécessaire à la
construction d’un classificateur.

83
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.5- Schéma de fonctionnement de l’algorithme Smote.

Chacun de ces algorithmes US, OS et Smote présente des avantages et des limites qui pèsent
plus ou moins fort en fonction des caractéristiques de leurs algorithmes comme on peut le voir
dans le tableau suivant :

Tableau III.1-Les avantages et inconvénients des méthodes de ré-échantillonnage US, OS et


Smote
Méthode Avantages Inconvénients
Sous- - Peut être facilement implémenté -Peut supprimer des données
échantillonnage -Diminue le temps de calcul significatives et cause une perte
-Indépendant du classificateur sous-adjacent utile d’informations

Sur- - Peut être facilement implémenté - Augmente le temps de calcul


échantillonnage -Aucune perte de données -Peut entrainer un sur-apprentissage
-Indépendant du classificateur sous-adjacent
Smote -Robuste face au sur-apprentissage - Plus complexe à implémenter
-Robuste face au bruit - Couteux en temps de calcul
-Indépendant du classificateur sous-adjacent

84
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

III.6. La réduction de dimension


Lorsqu’on étudie simultanément un nombre important d’attributs (dans notre cas les valeurs
prises par les différents capteurs sans fil placés dans différents emplacements de la maison) il
devient difficile de faire une bonne discrimination entre les activités humaines. La difficulté
réside du fait que les données étudiées ne sont plus représentées dans un plan, espace de deux
dimensions, mais dans un espace de dimension plus important qui correspond au nombre de
capteurs. Chercher à réduire la dimensionnalité d’un ensemble de données devient de plus en
plus indispensable en raison de la multiplication des données. Le système de résolution d’un
problème est fondé sur un ensemble des variables (caractéristiques). L’augmentation du
nombre de caractéristiques (descripteurs) qui modélisent le problème introduit des difficultés
à plusieurs niveaux comme la complexité, le temps de calcul ainsi que la détérioration des
performances en présence de données non-pertinentes et redondantes.

En effet, les principaux objectifs de la réduction de dimension sont :

- Réduire l’espace de stockage nécessaire.


- Identifier les facteurs pertinents.
- Elle facilite la visualisation et rend l’ensemble des données plus représentatif du
problème.

- Lorsque le nombre de variables est trop grand (il peut aller jusqu’à plusieurs dizaines
de milliers dans certaines applications), l’algorithme d’apprentissage devient
intractable. La réduction de dimensionnalité diminue les charges de calcul dû à
l’apprentissage.

- Elle améliore la vitesse de la classification.


- Enfin, mais pas toujours, nous améliorons la qualité de la prédiction, le ratio nombre
d’observations / dimension de représentation étant plus favorable.
Voir aussi [119], pour les différents objectifs.

85
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Une méthode de réduction de la dimensionnalité consiste à trouver une représentation des


données initiales dans un espace plus réduit afin de simplifier le problème de classification, et
de compresser les données pour réduire l’espace de stockage. Les méthodes de réduction de la
dimensionnalité sont généralement classées en deux catégories :

- La sélection de variables : qui consiste à choisir des caractéristiques les plus


pertinentes dans l’espace d’entrée (dit : espace de mesure) selon un certain critère et
en suivant une certaine stratégie de sélection. Cette méthode n’impose pas d’effort
d’interprétation de nouvelles variables à l’utilisateur, (Figure III.6).

- Et l’extraction de caractéristiques : qui vise à sélectionner des caractéristiques dans


un espace transformé, soit dans un espace de projection en combinant les
caractéristiques initiales (figure III.7).

Figure III.6- Principe de la sélection de variables.

Figure III.7- Principe de l’extraction de caractéristiques.

86
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

III.7. Solution2 : Résolution du problème de la dimensionnalité


des données par les méthodes d’extraction de caractéristiques
Les méthodes issues de l’extraction de caractéristiques, sont généralement regroupées en deux
catégories : les méthodes linéaires et les méthodes non linéaires [120]. Des études ultérieures
[119], [120] ont en effet montré que les approches non linéaires surpassent les méthodes
linéaires sur des ensembles de données artificiels hautement non linéaires. Cependant, les
approches de réduction de dimension avec les méthodes non linéaires sur des ensembles de
données naturelles n’ont pas donné de bonnes performances.
Dans cette thèse, un nouveau schéma a été proposé pour la réduction de données issues de
RAH; la méthode de classification de type méthode à vecteurs de support pondérée (WSVM)
a été appliquée pour la classification supervisée multi-classes déséquilibrée en utilisant deux
méthodes linéaires d’extraction de caractéristiques à savoir l’Analyse en Composantes
Principales (PCA), et l’Analyse Discriminante Linéaire (LDA), (Voir Figure III.8).
Bien que théoriquement considéré comme insensible à la dimensionnalité du problème de
discrimination, il s’avère en pratique que les WSVM souffrent également de la redondance et
de la non-pertinence de certaines variables, d’où l’étage d’extraction de caractéristiques. La
méthode WSVM utilise une approche d’entrainement efficace afin d’améliorer leur capacité à
apprendre de large ensembles d’entrainement déséquilibrés. La sortie de WSVM sera utilisée
pour traiter les nouvelles observations durant la phase de test ou les classes d’activités
associées seront prédites.

87
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.8- Nouvelle approche de classification pour la RAH en utilisant PCA-WSVM et


LDA-WSVM.

Dans la suite, nous décrivons le principe de chacune des techniques d’extraction de


caractéristiques linéaires telles que PCA et LDA.
III.7.1. Analyse en Composantes Principales (PCA)
L'Analyse en Composantes principales (PCA) [121] fait partie du groupe des méthodes
descriptives multidimensionnelles appelées méthodes factorielles. Aussi connu sous le nom de
la transformée de Karhunen-Loeve. PCA est une technique qui permet de trouver des espaces
de dimensions plus petites dans lesquels il est possible d'observer au mieux les données. Son
principe général, consiste à transformer les variables d’entrée, plus ou moins corrélées entre
elles, en des variables sortie, non corrélées, et appelées composantes principales. Ces dernières
sont donc de nouvelles variables indépendantes, qui sont de simples combinaisons linéaires
des variables initiales, possédant une variance maximale.
Globalement PCA consiste à rechercher la direction suivant laquelle le nuage de points des
observations s'étire au maximum. A cette direction correspond la première composante
principale. La seconde composante principale est déterminée de telle sorte qu’elle soit la plus
indépendante possible de la première; elle est donc perpendiculaire à celle-ci. Ces deux
composantes forment le premier plan principal de PCA. Cette opération est répétée de manière

88
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

à trouver toutes les composantes principales expliquant le maximum de variance. La figure


III.9 montre à gauche, un exemple de données en 3D et à droite les deux premières
composantes principales obtenues avec ces données.

Figure III.9- PCA appliquée dans un espace à trois dimensions. (Nous cherchons un autre
espace de représentation pour lequel les projections des données des différentes classes sont
les mieux séparées, la figure de droite montre une grande séparation entre les différentes
classes).
Supposons que nous ayons un ensemble de données X   x1, x2 ,..., xm composé de m
observations où chaque observation xi  xi1, xi 2,..., xin est composée de n caractéristiques.
L’application de l’algorithme PCA pour la matrice X passe par différentes étapes ci-dessous
afin de trouver les composantes principales :

1. Calculer le vecteur   1 , 2 ,...,  n Tr qui représente le vecteur moyen où i est la
moyenne de la ième composante des données.

2. Calculer la matrice Y en soustrayant le vecteur moyen à toutes les colonnes de X, ce


qui produira un ensemble de données centrées, dont la moyenne est nulle.

3. Calculer la matrice S (de taille n× n) de covariance de Y avec ( S  Y Y Tr )


→ → m →
S  (x)   (x)   Tr , 1 x
l

  (III.2)
 j i j i i  j
j1 m j1

89
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

4. Calculer la matrice V (de taille n× n) qui est composée des coordonnées des vecteurs

propres v j de S triés par ordre décroissant des modules des valeurs propres  j (la

première colonne de V est le vecteur propre qui correspond à la plus grande valeur
propre). Les valeurs propres seront positives puisque la matrice de covariance est
symétrique et définie positive.
V  Eig(S)
(III.3)
~
5. Garder les p premières colonnes de V pour former la matrice U : n× p qui représente
les p premières composantes principales. Nous avons choisi le critère du pourcentage
d’inertie reproduite.

P
 λj
j 1
I k  n  Threshold  0.85 (III.4)
 λj
j 1

Ce pourcentage doit être supérieur ou égal à 85% pour sélectionner la valeur de p qui est la
nouvelle dimension de projection.
Généralement, une fois que les vecteurs propres de la matrice de covariance sont déterminés,
l’étape suivante va consister à les mettre en ordre décroissant suivant leurs valeurs propres.
Ceci nous donnera les composantes principales par ordre d’importance. On peut alors ignorer
les composantes les moins significatives considérées comme des composantes bruitées. On
perd ainsi des informations, mais si les valeurs propres sont petites, la perte sera minimale. Si
on omet quelques composantes, l’ensemble final de données aura moins de dimensions que
l’original. On passe ensuite à la formation de la matrice caractéristique. Cette dernière est
construite en sélectionnant les vecteurs propres qu’on veut garder et en formant une matrice
avec ces vecteurs propres (représentés en colonnes).

(YPCA )p1  (VTr) pn (X) n1 (III.5)

90
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Pour plus de détails, le lecteur pourra consulter (Jolliffe [121]). PCA étant une méthode de
réduction de dimension, il est important de savoir qu'elle ne peut pas retenir la totalité de
l'information contenue dans le nuage de points initial. Enfin, PCA prend uniquement en
compte les dépendances linéaires entre les variables et ne peut donc pas fournir une projection
pertinente pour une distribution non-linéaire de points. La figure III.10 montre à gauche, un
exemple de données non-linéaires (non reparties dans un plan) et à droite le résultat de leur
projection dans un plan généré par les deux premières composantes principales calculées sur
ces données.

Figure III.10- PCA sur des données non-linéaires.

III.7.2. Analyse Discriminante Linéaire (LDA)

L'analyse discriminante linéaire, appelée aussi analyse discriminante linéaire de Fisher, est une
méthode de réduction du nombre de dimensions proposée par Fisher en 1936 [122]). Cette
méthode s'applique lorsque les données d’apprentissage sont connues, ces informations peuvent
être utilisées pour l’apprentissage du sous–espace. L'idée de Fisher a été de créer une méthode
pour choisir entre les combinaisons linéaires des variables celles qui maximisent
l'homogénéité de chaque classe. En d'autres termes, cette méthode consiste à chercher un
espace vectoriel de faible dimension qui maximise la variance inter-classe.
La méthode LDA permet de trouver les directions “utiles à une bonne discrimination des
classes” (La première est le discriminant de Fisher généralisé) dans lesquelles les données
originales sont projetées dans l’espace transformé en maximisant le rapport :

91
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

| D Tr BD |
J (D)  arg max (III.6)
D | DTrW D |
1 N
Bp×p=  nk (mk  m)(mk  m) Tr (III.7)
n k1
avec (m k  m)(m k  m)Tr est une matrice C (k ) (p×p)

n S avec S  (X  m )(X  m )
Tr
et W =1  N (III.8)
p×p k k k k k k k
n k 1
Où m  (m , m ,..., m ,...m )Tr et m =moyenne de X j dans w avec: m   X
1 nk
k k1 k2 kj kp kj k kj kj
nk j
B et W sont les matrices respectives de dispersion inter-classe (entre les centres de gravité m1
et m2) et intra-classe (entre les points et le centre de gravité correspondant). Le nuage de
point de centre de gravité m est partagé en q (2 dans notre cas) sous-nuages par la variable
“classe”. Chaque sous-nuage (classe wk ) d’effectif nk est caractérisé par son centre de gravite
(ou centroide) mk et sa matrice de variance-covariance Sk . La figure III.11 montre la
disposition des classes dans un espace à deux variables. Soient deux classes C1 et C2 de
centres de gravité m1(X1, X2) et m2(X1, X2), les résultats de la transformation appliquée
correspondent à des nuages de points de chaque classe très regroupés et que les centres de
gravité des classes bien séparés.
Soit DTr la transformation linéaire permettant d’établir le nouvel espace de projection. Les
vecteurs lignes de la matrice DTr définissent les directions des axes de la nouvelle base. En
général, s’il y a N classes, nous allons chercher N-1 directions (vecteurs discriminants) qui
correspondent aux N-1 plus grandes valeurs propres.
La solution est obtenue en cherchant les racines du polynôme caractéristique et en résolvant
l’équation :

(B  iW )di  0 (III.9)

92
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.11- Analyse discriminante à une dimension (nous cherchons une droite pour
laquelle les projections des points des différentes classes sont les mieux séparées, la figure de
droite montre une grande séparation entre les deux classes).

Nous nous intéresserons à trouver la projection W dans le sous espace des caractéristiques tel
que :
yi  WTrx i (III.10)

yi est le vecteur de dimension réduite q × 1 (représenté par q caractéristiques). W est la


matrice de transformation n × q, and xi est le vecteur original des données n × 1 (représenté

par n caractéristiques).

III.8. Simulations et Résultats


En premier lieu, nous résumons dans le tableau ci-dessous les performances de classifications
en termes de Rappel, Précision, F-mesure et TCC obtenus avec les approches US-SVM, OS-
SVM et SMOTE-SVM sur les cinq bases de données réelles TK26M, TK28M, TK57M,
TAP80F et OrdonezA afin de traiter le problème du déséquilibre de données. Ensuite, nous
comparons les différentes approches avec la méthode de classification WSVM, puisque cette
dernière qui traite le déséquilibre au niveau algorithmique a donné les meilleurs résultats dans
le chapitre précédent. Nous remarquons dans le tableau ci-dessous en termes de F-mesure
que la méthode de classification WSVM réalise de meilleures performances par rapport aux

93
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

autres approches US-SVM, OS-SVM et SMOTE-SVM, mais de moins bonnes performances


par rapport à US-SVM dans les bases de données TK26M et TK28M.

Tableau III.2- Les résultats de reconnaissance d’activités pour les approches de classification
WSVM, US-SVM, OS-SVM et SMOTE-SVM. Les valeurs en gras présentent les meilleures
performances obtenues avec les différentes approches.

Bases de Approches Précision(%) Rappel (%) F-Mesure(%) TCC(%)


données
TK26M WSVM 74.6 72.8 73.7 92.5
US-SVM 77.2 74.4 75.8 91.0
OS-SVM 73.9 72.3 73.1 91.4
SMOTE-SVM 70.1 81.3 75.3 93.8
TK28M WSVM 51.7 46.4 48.9 62.7
US-SVM 50.3 48.5 49.4 59.1
OS-SVM 48.3 46.7 47.5 63.1
SMOTE-SVM 37.3 67.3 48.0 64.6
TK57M WSVM 37.8 40.8 39.2 77.1
US-SVM 33.8 40.8 37.0 76.3
OS-SVM 34.1 37.4 35.7 77.0
SMOTE-SVM 27.8 56.6 37.3 78.3
TAP80F WSVM 29.4 29.2 29.3 28.7
US-SVM 20.5 25.7 22.8 24.0
OS-SVM 27.2 27.6 27.4 27.5
SMOTE-SVM 28.2 28.8 28.5 28.7
OrdonezA WSVM 64.1 63.7 63.9 84.4
US-SVM 54.8 61.5 58.0 81.4
OS-SVM 61.4 58.1 59.7 83.9
SMOTE-SVM 58.3 62.0 60.1 83.7

Nous reportons dans les figures III.12, III.13, III.14, le taux de classification de chaque
activité en utilisant les approches WSVM, US-SVM, OS-SVM et SMOTE-SVM pour les
bases de données TK26M, TAP80F et OrdonezA. On remarque dans la figure III.12 que les
meilleurs résultats de classification sont obtenus avec les activités majoritaires ‘Sortir’ et
‘Dormir’ pour toutes les méthodes de classification. Nous pouvons aussi constater que les
classes (aux toilettes, Se doucher, Dîner et Boire) ont été bien classifiées avec la méthode
SMOTE-SVM. L’activité Petit-déjeuner est légèrement inférieure en termes de bonne
classification comparativement à la méthode WSVM. Cependant, les méthodes de

94
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

classification OS-SVM et SMOTE-SVM donnent les meilleurs résultats pour l’activité Autres-
activités. Cette dernière et les activités de cuisine Petit-déjeuner, Dîner et Boire ont été mal
classifiées par rapport aux autres activités.

Figure III.12- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de
données TK26M.

Dans la figure III.13, on constate que les classes (aux toilettes, Prendre des médicaments,
Prép. Dîner, Prép. le Gouter et Ecouter de la musique) on été bien classifiées avec la méthode
WSVM comparativement aux autres méthodes de classification. Cependant, l’activité
Regarder TV et les activités de cuisine (Prép. Déjeuner et Laver la Vaisselle) ont été bien
classifiées avec SMOTE-SVM comparativement aux autres approches de classification.
Particulièrement, les activités Prép. Dîner et Prép. le Gouter ont donné de mauvais résultats de
classification. Les activités de cuisine présentent les taux de classification les plus bas et
restent en général difficiles à reconnaitre par rapport aux autres activités. En outre, les
méthodes de classification OS-SVM et SMOTE-SVM donnent les meilleurs résultats pour
l’activité Autres-activités.
On remarque dans la figure III.14 que les classes majoritaires Dormir et Sortir donnent les
meilleures performances en termes de reconnaissance d’activités pour toutes les méthodes de

95
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

classification. On compare aussi les méthodes US-SVM, OS-SVM et SMOTE-SVM par


rapport au classificateur WSVM. On remarque que WSVM donne les meilleurs résultats de
reconnaissance pour toutes les activités, à l’exception des activités Autres-activités, Faire sa
toilette, Gouter. Ces dernières activités ont été par contre bien classifiées avec la méthode US-
SVM.

Figure III.13- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de
données TAP80F.

En deuxième lieu, nous nous sommes intéressés à la réduction de caractéristiques et plus


particulièrement à l’extraction de caractéristiques avec les méthodes analyse en composantes
principales (PCA) et l’analyse discriminante linéaire (LDA) [123] en utilisant notre stratégie
illustrée dans la figure III.8. Nous reportons dans les figures III.15 et III.16 les résultats de

96
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.14- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, US-WSVM, OS-SVM et SMOTE-WSVM pour chaque activité avec la base de
données OrdonezA.

l’étape d’extraction de caractéristiques en termes de PCs et LDs en utilisant les méthodes


linéaires PCA et LDA. Le nombre total de caractéristiques initial était 28, 44, 42, 140 et 24
respectivement pour les bases de données TK26M, TK28M, TK57M, TAP80F et
OrdonezA.
Ensuite, pour évaluer les performances de classification lors de la phase de test, nous avons
utilisé la méthode de validation croisée de type Leave One Day Out avec k-fold=28, 13, 18,
14, 14 (correspondant aux nombre de jours) respectivement pour toutes les bases de
données TK26M, TK28M, TK57M, TAP80F et OrdonezA.
Nous remarquons à partir des figures ci-dessous, une réduction significative du nombre de
caractéristiques par rapport au nombre initial d’attribut. Notre but était la réduction
d’attribut avec amélioration des performances de classification. Dans la section suivante,
nous évaluerons les résultats de classification sur les différentes bases de données.
Nous résumons dans le tableau ci-dessous les performances de classifications obtenues lors
de la phase de test en termes de Rappel, de Précision, F-mesure et TCC obtenus avec les
méthodes WSVM, et les modèles hybrides PCA-WSVM et LDA-WSVM sur les cinq bases
de données réelles TK26M, TK28M, TK57M, TAP80F et OrdonezA. Nous remarquons
dans ce tableau en termes de F-mesure que l’approche de classification LDA-WSVM est

97
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

supérieure par rapport aux autres approches pour toutes les méthodes de classification. Les
résultats montrent que les caractéristiques combinées LDs contribuent significativement à
améliorer les performances du classificateur WSVM.

98
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.15- L’extraction des caractéristiques par l’Analyse en Composantes Principales


(PCA).

99
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.16- L’extraction des caractéristiques par l’Analyse Discriminante Linéaire (LDA).

On a aussi montré que LDA est meilleure que PCA pour reconnaitre les activités humaines
avec le classificateur WSVM pour toutes les bases de données. PCA permet la réduction
significative du nombre d’attributs mais reste inférieure aux autres approches à l’exception des
bases de données TAP80F et OrdonezA, ou les performances de classification PCA-WSVM
surpassent de celles de WSVM.
Nous reportons dans les figures III.17 et III.18, le taux de classification de chaque activité en
utilisant les approches WSVM, PCA-WSVM et LDA-WSVM pour les bases de données
TK26M et TAP80F. A première vue dans la figure III.17, on remarque que les activités
minoritaires ‘aux toilettes’, ‘Se doucher’, et les activités de cuisine : (‘Petit-déjeuner’, ‘Boire’)

ont été mieux reconnues avec la méthode LDA-WSVM comparativement aux méthodes
WSVM et PCA-WSVM. LDA-WSVM est une méthode efficace pour reconnaitre les
différentes activités.

100
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Tableau III.3- Les résultats de classification d’activités avec les méthodes WSVM, PCA-
WSVM, et LDA-WSVM. Les valeurs en gras présentent les meilleures performances obtenues
avec le classificateur LDA-WSVM.

Bases de Approches Nb Rappel Précision F-Mesure TCC


données Att. (%) (%) (%) (%)
TK26M WSVM 28 72.8 74.6 73.7 92.5
PCA-WSVM 6 71.5 71.5 71.5 91.2
LDA-WSVM 7 77.0 78.4 77.7 93.5

TK28M WSVM 44 46.4 51.7 48.9 62.7


PCA-WSVM 10 44.8 48.7 46.6 60.1
LDA-WSVM 13 47.1 52.8 49.8 71.9

TK57M WSVM 42 40.8 37.8 39.2 77.1


PCA-WSVM 7 36.5 34.2 35.3 76.9
LDA-WSVM 15 42.3 39.8 41.0 77.2

WSVM 140 29.2 29.4 29.3 28.7


PCA-WSVM 31 29.6 29.4 29.5 22.4
Tap80F LDA-WSVM 9 38.7 45.7 41.9 28.7

OrdonezA WSVM 24 63.7 64.2 63.9 84.4


PCA-WSVM 4 64.0 64.4 64.2 84.5
LDA-WSVM 9 65.3 68.9 67.0 87.1

Les meilleurs résultats de classification sont obtenus avec les activités majoritaires ‘Sortir’ et
‘Dormir’ pour toutes les méthodes de classification. En outre, les activités de cuisine sont en
général difficiles à reconnaitre par rapport aux autres activités. L’activité ‘Autres activités’
était aussi mieux reconnue avec la méthode LDA-WSVM. Si on compare WSVM et PCA-
WSVM, on voit clairement que PCA n’a pas pu améliorer les résultats par rapport à WSVM,
sauf pour certaines activités comme ‘Dîner’ et ‘Boire’.
Dans la figure III.18, LDA-WSVM a permis l’amélioration significative des résultats de
classification pour la plupart des activités humaines, à l’exception des activités ‘Prendre des
médicaments’, ‘Prép. Petit Déjeuner’ et ‘Prép. Dîner’. Les activités de cuisine présentent les
taux de classification les plus bas et restent en général difficiles à reconnaitre par rapport aux

101
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

autres activités. Particulièrement, les activités ‘Prép. Dîner’ et ‘Prép. le Goûter’ ont donné de
mauvais résultats de classification. Les activités majoritaires ‘Autres activités’ et ‘Ecouter de
la musique’ ont été aussi mieux reconnues avec la méthode LDA-WSVM et présentent les
meilleurs taux de classification correcte.

Figure III.17- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, PCA-WSVM et LDA-WSVM pour chaque activité avec la base de données TK26M.

102
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

Figure III.18- Comparaison des taux de reconnaissance entre les méthodes de classification
WSVM, PCA-WSVM et LDA-WSVM pour chaque activité avec la base de données TAP80F.
III.9. Conclusion
Nous avons vu dans cette partie que les jeux de données déséquilibrées peuvent être traités à
deux niveaux : le traitement des données en phase de pré-apprentissage et le traitement au
niveau de l’algorithme d’apprentissage lui-même. Au niveau des données, les méthodes de ré-
échantillonnage, plus particulièrement le sur-échantillonnage et le sous-échantillonnage,
permettent de transformer un jeu de données pour éviter de biaiser le modèle vers la classe
majoritaire. Nous avons présenté dans ce chapitre trois algorithmes (US, OS et SMOTE) que
nous avons utilisés pour réduire le déséquilibre dans les bases de données et permettre un
apprentissage plus performant et plus fiable.
Enfin une première stratégie de classification a été adoptée qui consiste à faire une
combinaison de ces méthodes de ré-échantillonnage avec le classificateur SVM pour la
reconnaissance d’activités humaines dans le cas des données déséquilibrées. La méthode de
classification WSVM qui traite le problème du déséquilibre au niveau algorithmique et plus
particulièrement au niveau de l’optimisation d’apprentissage SVM, a été utilisée comme

103
CHAPITRE ІII : LES PROBLEMES DE DESEQUILIBRE ET DIMENSIONALITE DES
DONNEES : PROPOSITION DE SOLUTIONS

méthode de comparaison. Cette dernière est assez perspicace vis-à-vis les approches US-SVM,
OS-SVM et SMOTE-SVM.
Ensuite dans la deuxième partie de ce chapitre, nous avons employé les méthodes d’extraction
de caractéristiques PCA et LDA pour réduire l’espace d’attributs et améliorer les
performances de reconnaissance RAH pour le classificateur WSVM. Le maintien des
performances de classification sera aussi un atout puisque avec un nombre d’attributs plus
petit, on aura une complexité du classificateur SVM moindre. La deuxième stratégie adoptée
était la mise en œuvre de méthodes hybrides PCA-WSVM et LDA-WSVM. Nos résultats
obtenus sur les différentes bases de données montrent clairement que le classificateur LDA-
WSVM fournit globalement de meilleures performances pour toutes les activités humaines. Il
a permis d’améliorer significativement les performances de reconnaissances des activités
minoritaires (comme Se doucher, Petit-déjeuner, Dîner et Boire), même si ces dernières restent
inférieures à celles des activités majoritaires en termes de bonne classification.

104
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

CHAPITRE ІV : PROPOSITION D’UNE


APPROCHE INTEGREE POUR LA RAH

IV.1. Introduction
Cette méthode [22] repose sur la combinaison les méthodes Analyse en Composantes
Principales (PCA), l’Analyse Discriminante Linéaire (LDA) et Méthode à Vecteurs de
Support pondérée (WSVM) afin de pouvoir obtenir un système de reconnaissance d’activités
humaines robuste en termes de bonne performances de classification. L’idée de combiner les
caractéristiques de type composantes principales (PCs) et les caractéristiques discriminantes
linéaires (LDs) obtenues en sortie respectivement avec les méthodes linéaires de réduction de
dimension PCA et LDA afin d’obtenir un meilleur espace de caractéristiques et s'affranchir du
fléau de la dimension n’est pas totalement nouvelle et semble assez intuitive étant donné la
complémentarité inhérente des interprétations des principes des méthodes d’extraction de
caractéristiques PCA et LDA dans le sens où PCA effectue la réduction de dimensionnalité
tout en préservant la variance élevée dans l’espace de sortie, tandis que LDA effectue la
réduction de la dimensionnalité tout en préservant la discrimination entre les classes
d’activités humaines, voire la figure IV.1.

Figure IV.1- Classification de données en deux dimension avec le premier vecteur de base
LDA et le premier vecteur de base PCA. Approche de fusion de données avec PCA-LDA
pour la classification supervisée [124].

105
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Cependant, LDA bien qu’elle préserve la discrimination entre les classes d’activités humaines,
elle a un inconvénient du à sa nature paramétrique. A savoir que le nombre de composantes
extraites ne peut pas être dépasser le nombre de classes moins un [122]. Les méthodes PCA et
LDA ne sont pas corrélées car la LDA génère un espace propre significativement différent de
la PCA. Pechenizkiy [125] montre que la fusion de LDA avec PCA ont donné de bons
résultats. Notons que de précédentes études ont en effet montré que les approches non
linéaires surpassent les méthodes linéaires sur des jeux de données artificiels hautement non
linéaires. Cependant, les succès de réduction de dimension avec les méthodes non linéaires
sur des jeux de données naturelles sont plutôt rares.
Pechenizkiy [125] a appliqué les deux transformations PCA et LDA pour des tâches de
reconnaissance de formes en utilisant les méthodes de classification k-NN, C4.5 et le Naïve
bayésien sur différents ensembles de données issus de la base de données UCI [126], puis
l'espace des caractéristiques fusionné est obtenu par concaténation des caractéristiques PCs et
LDs. Notre nouvelle approche suit le même principe que [125], à la différence que nous avons
utilisé l’espace de caractéristiques construit à partir de PCA-LDA comme entrée à notre
classificateur appelé Méthode à Vecteurs de Support pondérée (WSVM) afin de prendre en
compte le déséquilibre entres les classes d’activités humaines. Notons que chaque donnée
(Entrainement-Test) est représentée dans l’espace de caractéristiques de dimension (p + q)
avec p et q sont respectivement les nouvelles dimensions obtenues avec les méthode de
réduction PCA et LDA.

IV.2. Principe
L’ensemble de données est divisé en deux partitions Apprentissage-Test selon la division de la
méthode de validation croisée Lave one day out. Ensuite la méthode Analyse en Composantes
Principales (PCA) et la méthode paramétrique Analyse Discriminante Linéaire (LDA) sont
appliquées indépendamment à l’ensemble d’entrainement, en produisant les nouvelles
matrices de données issues des modèles PCA et LDA. Les données originales de l'ensemble
d’entrainement sont projetées dans des sous espaces de dimension inferieure (également
indépendamment avec chaque approche). Ainsi les deux ensembles d'entraînement
transformés sont produits, dont l'un contient des composantes principales (PCs) au lieu des

106
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

caractéristiques originales et l’autre les caractéristiques discriminantes linéaires (LDs).


Ensuite, ces ensembles de données transformés (espaces de dimension inférieure) sont
fusionnés, tel que les ensembles d'entraînement résultants contiennent à la fois des LDs et des
PCs et l’attribut des étiquettes des classes de l'ensemble d'entraînement original. L'espace de
représentation construit (PCs-LDs) est utilisé pour l'apprentissage. Cette fusion de données
avec la combinaison PCA-LDA est bien caractérisée dans [125]. Nous reportons la figure
suivante pour illustrer le principe:

Figure IV.2- Approche de fusion de données avec PCA-LDA pour la classification supervisée
[125].

Pour être en mesure d'évaluer le classificateur, dans notre cas Méthode à Vecteurs de Support
pondérée (WSVM), sur l’ensemble test set, ce dernier devrait également être transformé dans
le même format. Cela se fait d’une manière similaire comme dans l’ensemble d’entrainement,
tel que l'ensemble de test est transformé de façon indépendante avec les méthodes PCA et
LDA, et des PCs et LDs sont construites et sont traduites par les transformations de matrices.

107
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Ensuite, les LDs sont fusionnées avec les PCs et l’attribut des étiquettes des classes de
l'ensemble test original. Le nouvel espace de représentation est utilisé pour tester notre
classificateur. Pour voir la structure de notre approche PCA-LDA-WSVM, la figure ci-dessous
illustre bien toute la procédure de classification pour l’obtention des classes d’activités
prédites.

Figure IV.3- La structure de notre approche PCA-LDA-WSVM appliquée à la RAH.

Le pseudo-code de la méthode de classification multi-classes un-contre-un proposée PCA-


LDA-WSVM appliquée à la reconnaissance des activités humaines, est résumé dans le tableau
IV.1, où di,j désigne la décision donnée, pour une nouvelle donnée de test, par entrainement de
la méthode de classification pondérée WSVM pour distinguer entre les classes i et j. Si di,j
=0.5, nous considérons le classificateur qui à la plus forte marge.

108
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Algorithme IV.1- Algorithme de la méthode proposée

Entrée Données d’entrainement X + Données de Test T


% Génération de l’espace de caractéristique combiné PCA-LDA
1 Utiliser (III.2-III.4) sur X pour déterminer la transformation PCA (1)
2 Utiliser (III.6-III.9) sur X pour déterminer la transformation LDA (2)
3 Utiliser Y1=1 X pour déterminer la matrice de projection PCA de X
4 Utiliser Y2=2 X pour déterminer la matrice de projection LDA de X
5 Utiliser T1=1 T pour déterminer la matrice de projection PCA de T
6 Utiliser T2=2 T pour déterminer la matrice de projection LDA de T
7 Concaténer Y = [Y1, Y2]
8 Concaténer T = [T1, T2]
Sortie1 (1, 2, Y, T)

% La classification Multi-classes WSVM Un-contre-Un


La phase d’entrainement: (avec N classes)
9 Résoudre N(N-1)/2 classificateurs binaires WSVM sur la matrice Y(p+q)xm en
utilisant le critère de l’équation (II.41) avec N est le nombre de classes
10 Différencier les classes Ci et Cj , 0  i  Net 0  j i
La phase de Test (Stratégie max wins) :
11 La classe pour la donnée de test T(p+q)x1 est donné par:
C  max
k 1...N
Card({di, j }{k})
Sortie2 Obtention des classes Ci , avec i=1…m

IV.3. Simulations et Résultats


Tout d’abord, nous combinons les méthodes PCA et LDA en concaténant les caractéristiques
obtenues PCs et LDs durant l’étape d’extraction de caractéristiques. Le nombre total de
caractéristiques obtenu avec PCA-LDA est 13, 23, 22, 40 et 13 respectivement pour les bases
de données TK26M, TK28M, TK57M, TAP80F et OrdonezA.
Nous résumons dans le tableau ci-dessous les performances de classification obtenues lors de
la phase de test en termes de Rappel, de Précision, F-mesure et TCC obtenus avec les
méthodes HMM, CRF, SVM, WSVM, et les modèles hybrides PCA-WSVM, LDA-WSVM,
PCA-LDA-HMM et notre méthode proposée PCA-LDA-WSVM sur les cinq bases de données

109
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

réelles TK26M, TK28M, TK57M, TAP80F et OrdonezA. Nous remarquons dans ce tableau
en termes de F-mesure que l’approche proposée de classification PCA-LDA-WSVM est
supérieure par rapport aux autres approches, mais elle est inferieure par rapport à PCA-LDA-
HMM dans la base de données TK26M avec le même nombre d’attributs.
Les résultats montrent que les caractéristiques combinées PCs-LDs contribuent
significativement à améliorer les performances des classificateurs HMM et WSVM. On a
aussi montré que LDA est meilleure que PCA pour reconnaitre les activités humaines avec le
classificateur WSVM pour toutes les bases de données. On remarque dans la base de données
TAP80F, que l’approche PCA-WSVM améliore les performances de classification des
activités humaines comparativement aux classificateurs CRF, SVM et WSVM avec un
nombre d’attribut significativement inférieur à celui de l’espace original des données.

Tableau IV.1-Evaluation des résultats de classification humaine pour toutes les approches. Nb
Feat. montre le nombre de caractéristiques PCs, LDs et la concaténation PCs-LDs. Les valeurs
en gras présentent les meilleures performances en termes de F-mesure obtenues avec les
différentes approches.

Bases de Approches Nb Rappel Precision F-Mesure TCC


données Fea (%) (%) (%) (%)
t.

TK26M HMM [68] 28 79.4 78.8 79.1 94.5


CRF [68] 28 70.8 74.4 72.5 95.6
Modèles SVM 28 61.8 73.3 67.0 95.5
WSVM 28 72.8 74.6 73.7 92.5

PCA-WSVM 6 71.5 71.5 71.5 91.2


Modèles LDA-WSVM 7 77.0 78.4 77.7 93.5
Hybrides PCA-LDA-HMM 13 81.2 83.1 82.1 94.3
PCA-LDA-WSVM 13 78.8 80.1 79.4 95.6
TK28M HMM [127] 44 55.0 42.0 48.0 80.0
Modèles CRF [127] 44 46.0 54.0 49.0 92.0
SVM 44 39.3 37.5 38.4 85.5
WSVM 44 46.4 51.7 48.9 62.7
PCA-WSVM 10 44.8 48.7 46.6 60.1
Modèles LDA-WSVM 13 47.1 52.8 49.8 71.9
Hybrides PCA-LDA-HMM 23 57.0 46.1 51.0 77.3
PCA-LDA-WSVM 23 58.8 46.1 51.7 78.5
TK57M HMM [127] 42 40.0 37.0 39.0 76.0
Modèles CRF [127] 42 30.0 36.0 33.0 78.0
SVM 42 35.6 34.9 35.2 80.8
WSVM 42 40.8 37.8 39.2 77.1

110
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

PCA-WSVM 7 36.5 34.2 35.3 76.9


Modèles LDA-WSVM 15 42.3 39.8 41.0 77.2
Hybrides PCA-LDA-HMM 22 40.9 44.8 42.8 73.6
PCA-LDA-WSVM 22 43.8 45.9 44.8 81.4
HMM [128] 140 33.9 40.4 36.8 40.2
Modèles CRF [128] 140 27.1 29.5 28.2 77.2
Tap80F SVM 140 15.2 30.0 20.1 75.6
WSVM 140 29.2 29.4 29.3 28.7
PCA-WSVM 31 29.6 29.4 29.5 22.4
Modèles LDA-WSVM 9 38.7 45.7 41.9 28.7
Hybrides PCA-LDA-HMM 40 23.6 40.8 29.9 28.0
PCA-LDA-WSVM 40 41.4 49.6 45.1 75.8
HMM 24 60.4 62.9 61.6 63.7
Ordonez Modèles SVM 24 60.0 58.2 59.1 85.2
A WSVM 24 63.7 64.2 63.9 84.4
Modèles PCA-WSVM 4 64.0 64.4 64.2 84.5
Hybrides LDA-WSVM 9 65.3 68.9 67.0 87.1
PCA-LDA-HMM 13 65.6 70.4 67.9 86.5
PCA-LDA-WSVM 13 65.0 71.7 68.2 88.4

Nous reportons dans les figures IV.4 et IV.5, le taux de classification pour chaque activité en
utilisant les algorithmes de reconnaissance HMM, WSVM, PCA-LDA-HMM et PCA-LDA-
WSVM pour les bases de données TK26M et TAP80F. A première vue dans la figure IV.4,
pour la base de données TK26M, on remarque que PCA-LDA-HMM et l’approche proposée
surpassent respectivement les classificateurs HMM et WSVM en termes de bonne
reconnaissance d’activités humaines. Néanmoins avec l'espace des caractéristiques augmenté
(PCs-LDs), il est facile de voir, par exemple, que HMM surpasse WSVM pour toutes les
activités.
Il est également remarqué, une clair supériorité pour la méthode PCA-LDA-HMM pour
reconnaitre l’activité ‘Autres-activités’ et les activités minoritaires Dîner et Boire) et des
résultats comparables avec notre approche de reconnaissance pour les activités restantes.
Les meilleurs résultats de classification sont obtenus avec les activités majoritaires ‘Sortir’ et
‘Dormir’ pour toutes les méthodes de classification. Nous pouvons tout de suite constater que
les classes (Aux toilettes et Se doucher) ont été bien classifiées avec la méthode HMM
comparativement aux autres méthodes de classification. En outre, les activités de cuisine sont
en général difficiles à reconnaitre par rapport aux autres activités.

111
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Dans la base de données TAP80F, la méthode proposée donne les meilleurs résultats de
classification pour les activités minoritaires ‘Autres-activités’, ‘Aux toilettes’, ‘Prendre des
médicaments’, ‘Prép. Déjeuner’, ‘Prép. le Goûter’, ‘Laver la Vaisselle’ et ‘Regarder TV’
comparativement aux autres méthodes, et des résultats relativement inferieurs par rapport à
l’approche PCA-LDA-HMM pour les activités ‘Prép. Petit déjeuner’ et ‘Ecouter de la
musique’. L’activité Goûter a été très mal classifiée avec la méthode de classification PCA-
LDA-HMM.
Cependant, nous constatons à partir des deux figures en dessous, que les activités de cuisine
présentent les taux de classification faibles et sont en général difficiles à reconnaitre par
rapport aux autres activités. Cette observation est toujours valable pour les autres activités
dans tous les ensembles de données utilisés.

Figure IV.4- Comparaison des taux de reconnaissance entre les méthodes de classification
HMM, WSVM, PCA-LDA-HMM et PCA-LDA-WSVM pour chaque activité avec la base de
données TK26M.

Ensuite, nous avons visualisé les matrices de confusion de PCA-LDA-HMM et la méthode


proposée PCA-LDA-WSVM pour les bases de données TK26M et TAP80F (voir les tableaux
IV.2, IV.3, IV.4, IV.5), qui montrent les résultats de bonne et mauvaise classification de

112
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

chaque activité. Toutes les valeurs obtenues dans les matrices de confusion sont en
pourcentage.
On note d’après les résultats obtenus pour la base de données TK26M dans les tableaux IV2 et
IV.4 que les activités ‘Sortir’, ‘Aux toilettes’, ‘Se doucher’, ‘Dormir’ et ‘Dîner’ sont mieux
reconnus relativement à l’activité ‘Autres activités’ et les deux activités de cuisine ‘Petit
déjeuner’ et ‘Boire’. L’activité ‘Diner’ semble moins reconnue avec PCA-LDA-WSVM par
rapport à la méthode PCA-LDA-HMM. On constate que la plus grande confusion est entre les
activités de cuisine (Petit-déjeuner, Dîner et Boire) et Autres activités.

Figure IV.5- Comparaison des taux de reconnaissance entre les méthodes de classification
HMM, WSVM, PCA-LDA-HMM et PCA-LDA-WSVM pour chaque activité avec la base de
données TAP80F.

Dans le tableau IV.4, 61% des échantillons de l’activité ‘Petit déjeuner’ sont correctement
reconnu, alors que 21% ont été classifies dans ‘Autres activités’ et 16% sont confondus avec
les activités préparation des repas. Les autres classes similaires telles que ‘Dîner’ et ‘Boire’
ont été aussi confondus et partage les erreurs entre elles. Notons que les activités ‘Petit
déjeuner’ et ‘Dîner’ partagent 10% de leurs échantillons entre elles en raison d'être réalisée au
même endroit dans l’habitat intelligent.

113
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Nous remarquons dans le tableau IV.3, pour la base de données TAP80F que toutes les
activités présentent des performances très basses par rapport aux autres bases de données.
L'activité ‘Ecouter de la musique’ a été reconnue avec succès (avec un taux de reconnaissance
de 95%) par rapport aux autres activités dans le tableau IV.3. Nous remarquons aussi que les
activités ‘Prép. Dîner’ et ‘Prép. le Goûter’ n’ont pas été reconnues. Dans le tableau IV.5, les
activités de cuisine: ‘Prep. Petit-déjeuner’, ‘Prep. le déjeuner’, ‘Prep.Dinner’ et ‘Prep. le
Goûter’, ne sont pas bien reconnues par rapport à d'autres activités et plus particulièrement, les
activités ‘Prep.dinner’ et ‘Prep. le Goûter’. Dans l’activité ‘Prendre des médicaments’, 46%
des échantillons sont affectés aux classes correspondantes, alors que 26% des cas ont été
confondues avec l’activité ‘Autres activités’ et 11% avec les activités de préparation des repas.
Intuitivement, cela peut être expliqué par le fait que l’activité ‘Prendre des médicaments’ est
réalisée au cours des activités de préparation des repas.
Si on compare les deux méthodes PCA-LDA-HMM et PCA-LDA-WSVM pour la base de
données TAP80F, on constate que les performances de notre méthode de classification
proposée surpassent celles de la méthode PCA-LDA-HMM pour toute les activités, à
l’exception de l’activité ‘Prep. Petit-déjeuner’. Plus particulièrement, on a obtenu une
amélioration significative pour les activités de cuisine avec PCA-LDA-WSVM et une
diminution pour l’activité ‘Ecouter de la musique’ comparativement à la méthode PCA-LDA-
HMM.

114
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Tableau IV.2- La matrice de confusion de PCA-LDA-HMM pour la base de données


TK26M.

déjeuner
activités

doucher
Autres-

Dormir
toilettes
Sortir

Dîner

Boire
Petit-
Aux

Se
Activités

66.3 7.0 1.1 9.0 4.6 0.5 10.9 0.6


Autres-activités
0.7 98.6 0.2 0.2 0.0 0.1 0.2 0.0
Sortir
9.2 3.2 80.5 1.6 5.0 0.0 0.0 0.5
Aux toilettes
7.5 0.0 5.3 87.2 0.0 0.0 0.0 0.0
Se doucher
0.1 0.0 0.2 0.1 98.6 0.0 0.0 1.0
Dormir
29.4 0.0 1.8 0.0 0.9 60.6 5.5 1.8
Petit-déjeuner
9.8 0.6 1.4 0.0 0.0 2.3 84.8 1.1
Dîner
11.8 1.7 1.7 0.0 0.0 5.1 6.8 72.9
Boire

115
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Tableau IV.3- La matrice de confusion de PCA-LDA-HMM pour la base de données


TAP80F.

musique
Regarde
activités

Laver la
Vaissell
toilettes
Prendre

déjeuné

déjeuné

Prép. le
Autres-

médica

Goûter
ments

Dîner
Prép.

Prép.

Prép.

r TV
Petit
Aux

des
Activités

e
Autres-activités 26.8 6.2 0.6 1.8 3.5 1.5 0.1 0.4 2.5 56.6

Aux toilettes 18.3 17.9 0.0 3.0 6.2 0.0 1.6 0.8 0.0 52.2

Prendre des 30.3 10.3 10.8 4.8 0.0 6.0 0.0 0.0 1.6 36.2
médicaments

Prép. Petit déjeuné 12.0 7.5 0.0 43.3 23.6 3.2 0.0 4.1 0.9 5.4

Prép. déjeuné 3.1 0.0 0.0 3.3 9.0 7.7 0.0 2.8 1.1 73.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100
Prép. Dîner
12.5 0.0 0.0 2.5 1.6 0.0 0.9 4.4 0.0 78.1
Prép. le Goûter
11.3 6.7 0.0 1.2 4.0 0.6 0.0 14.3 2.1 59.8
Laver la Vaisselle

Regarder TV 4.1 8.1 0.0 1.9 1.0 0.0 0.0 0.3 17.7 66.9

Ecouter de la 2.9 0.0 0.0 0.0 1.5 0.0 0.0 0.4 0.0 95.2
musique

Tableau IV.4- La matrice de confusion de PCA-LDA-WSVM pour la base de données


TK26M. déjeuner
activités

doucher
Autres-

Dormir
toilettes
Sortir

Dîner

Boire
Petit-
Aux

Se

Activités

Autres-activités 61.9 6.4 0.6 9.8 4.6 0.9 14.7 1.1

Sortir 0.8 98.4 0.2 0.3 0.0 0.1 0.1 0.0

Aux toilettes 10.0 2.9 82.2 2.1 2.1 0.5 0.2 0.0

Se doucher 7.1 0.0 4.5 87.5 0.0 0.1 0.5 0.3

Dormir 0.1 0.5 0.4 0.1 98.9 0.0 0.0 0.0

Petit-déjeuner 20.9 0.0 0.9 0.0 0.4 61.4 8.2 8.2

Dîner 23.4 0.8 0.3 0.0 0.3 3.1 72.5 4.6

Boire 18.7 1.7 0.0 0.0 0.0 8.4 3.4 67.8

116
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Tableau IV.5- La matrice de confusion de PCA-LDA-WSVM pour la base de données


TAP80F.

musique
Regarde
activités

Laver la
Vaissell
toilettes
Prendre

déjeuné

déjeuné

Ecouter
Prép. le
Autres-

médica

Goûter
ments

Dîner
Prép.

Prép.

Prép.

r TV
Petit
Aux

des
Activités

e
Autres-activités 60.4 6.4 9.6 4.3 5.2 1.1 2.5 1.5 5.3 3.7

Aux toilettes 14.7 48.9 7.5 3.3 8.7 1.1 5.1 5.8 3.5 1.4

Prendre des 26.5 10.3 45.9 5.9 0.0 2.6 3.1 4.1 1.6 0.0
médicaments

Prép. Petit déjeuné 13.4 3.8 11.2 33.6 24.8 3.2 1.9 4.7 3.2 0.2

Prép. déjeuné 14.1 2.8 13.7 13.9 30.3 5.9 3.2 7.8 3.4 4.9

Prép. Dîner 10.7 3.1 30.0 6.2 16.8 19.3 3.9 7.9 1.4 0.7

Prép. le Goûter 11.5 5.9 21.5 8.7 10.9 7.2 23.1 5.6 1.9 3.7

Laver la Vaisselle 14.0 3.9 7.3 3.9 9.8 3.3 2.4 47.2 2.7 5.5

Regarder TV 17.6 10.6 1.0 0.7 1.5 0.8 0.8 17.5 49.5 0.0

Ecouter de la 15.7 4.7 4.7 1.3 6.6 1.3 1.6 6.6 1.9 55.6
musique

IV.4. Conclusion
Dans ce chapitre, nous avons présenté le principe de la nouvelle méthode proposée PCA-
LDA-WSVM appliquée à la classification des activités humaine au sein d’une maison
intelligente. PCA vise à trouver les directions de l’espace dans lequel la variance des données
est plus grande. LDA repose sur la maximisation d’un critère appelé critère de Fisher qui est le
rapport entre la dispersion inter-classe et intra- classe. Le résultat de cette transformation est
une réduction de la représentation des dimensions, tout comme pour PCA, mais où les classes
devraient idéalement être séparables et plus compactes. Ensuite pour l’étage de classification
d’activités humaines, nous avons choisi le classificateur WSVM, de part sa capacité à bien
traiter le problème de déséquilibre de données entre les classes d’activités humaines.
Nous avons mené plusieurs expérimentations en utilisant différentes bases de données réelles
issues des réseaux de capteurs sans fil. A ce stade, nous avons utilisé plusieurs approches à
savoir HMM, CRF, SVM, WSVM, PCA-WSVM, LDA-WSVM et PCA-LDA-HMM pour
comparaison avec les résultats obtenus avec notre méthode.

117
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

Les résultats expérimentaux obtenus démontrent que les deux approches PCA-LDA-HMM et
PCA-LDA-WSVM était les plus performantes en termes de bonne classification des activités
humaines. Néanmoins, lors de la prise de la moyenne des résultats dans toutes les bases de
données, la supériorité de l'approche proposée ne peut être ignorée comme on peut le voir dans
le tableau IV.1 et particulièrement son pouvoir à améliorer les performances de
reconnaissance des classes d’activités humaines minoritaires.
Il a été aussi démontré qu’il est extrêmement important d’utiliser des informations sur les
étiquettes des classes dans l’étage d’extraction de caractéristiques pour l’apprentissage
supervisé. On constate que LDA-WSVM surpasse PCA-WSVM pour toutes les bases de
données. Bien que LDA soit une méthode d’extraction de caractéristiques efficace pour la
réduction de la dimensionnalité des données, elle reste insuffisante en raison de sa nature
paramétrique. Ceci explique le pouvoir discriminant de la méthode combinée utilisant les deux
types de caractéristiques PCs-LDs.
HMM était supérieure en termes de performance de reconnaissance comparativement à CRF,
SVM et WSVM pour les bases de données TK26M et TAP80F. HMM est entrainé en utilisant
un modèle distinct P(x | y) qui sera appris pour chaque classe d’activité, et les paramètres
sont appris pour chaque classe séparément. Par conséquent, les activités majoritaires
n’affectent pas la classification des activités minoritaires. Ce qui explique l’obtention de
bonnes performances pour les activités minoritaires.
La reconnaissance des trois activités de cuisine dans la base de données TK26M: Petit-
déjeuner, Dîner et boire est faible par rapport aux autres activités pour toutes les méthodes de
classification. Plus de confusion se produit entre ‘Autres activités’ et les activités de cuisine.
En particulier, ‘Autres activités’ est l'une des activités la plus fréquente dans les quatre
ensembles de données, mais n'est généralement pas une activité très importante à reconnaître.
Il pourrait donc être utile d’omettre cette activité. Les activités de cuisine sont des tâches liées
à l'alimentation, elles ont donné de mauvaises performances de classification pour toutes les
méthodes, car la plupart des instances de ces activités ont été réalisées au même endroit
(cuisine) en utilisant le même ensemble de capteurs. Par exemple, les activités ‘Aux toilettes’
et ‘Se doucher’ sont plus séparables parce qu'elles sont effectuées dans deux pièces
différentes, ce qui rend les informations provenant des capteurs suffisamment discriminantes

118
CHAPITRE ІV : PROPOSITION D’UNE APPROCHE INTEGREE POUR LA RAH

pour séparer les deux activités. Par conséquent, la localisation des capteurs est d'une grande
importance pour la performance du système de reconnaissance des activités humaines.
Une dernière remarque peut être énoncée en cette partie de conclusion; nos simulations
réalisées sur les différentes bases de données montrent que les performances de classification
obtenues avec la base de données TK26M sont supérieures par rapport à celles obtenues avec
les autres bases de données pour toutes les méthodes de classification parce que TK26M
contient moins de classes d’activités que les autres bases de données. Donc on constate que
l’augmentation du nombre de classes influence négativement sur les performances de
classification des activités humaines.
Néanmoins, on remarque qu’avec le même nombre de classes égal à 10 dans les bases de
données TAP80F et OrdonezA, les performances de classification étaient moindres pour la
base de données TAP80F. Nous pensons que l'utilisation d’une annotation des données avec
PDA est moins précise par rapport aux autres types d’annotations qui utilisent soit un rapport
d’activité écrit sur papier ou une oreillette Bluetooth combinée avec le logiciel de
reconnaissance automatique de la parole. Dans la base de données TAP80F, l’occupant peut
spécifier une activité dans PDA et exercer une autre activité. L'utilisateur peut également
sélectionner l'activité incorrecte dans la liste PDA par erreur.

119
CONCLUSION GENERALE ET PERSPECTIVES

CONCLUSION GENERALE ET PERSPECTIVES


Dans ce travail de thèse, nous nous sommes intéressés à la reconnaissance d’activités
humaines, à partir de données issues de réseaux de capteurs sans fil. Ces capteurs sont installés
dans des habitats classiques représentant des conditions de vie habituelle. Cette
reconnaissance s’effectue grâce à des règles de décisions mise en œuvre à partir des données
d’apprentissage. Ce qui permet ensuite de distinguer entre les différentes catégories d’activités
humaines dans la phase de classification. Nous avons utilisé le classificateur appelé Méthodes
à vecteurs de support (SVM) et des combinaisons de ce dernier avec d’autres méthodes issues
de l’intelligence artificielle pour améliorer les performances de classification et avoir un
système de reconnaissance plus robuste.
Nous avons en premier lieu, comparé différentes méthodes de classification à savoir les
Champs Aléatoires Conditionnels (CRF), L’Analyse Discriminante Linéaire (LDA), les k-Plus
Proches Voisins (k-NN), les Méthodes à Vecteurs de Support (SVM) et la Méthode à Vecteurs
de Support pondérée (WSVM). Dans cette dernière méthode, nous avons inséré un nouveau
critère de sélection automatique des paramètres de régularisation C+ et C- au niveau de
l’optimisation WSVM afin de traiter le problème du déséquilibre de données et d’éviter aussi
les charges de calculs importantes liés à la méthode de validation croisée. Les valeurs des
paramètres de compromis C+ et C- sont aussi des hyper-paramètres qui régissent la
performance de WSVM. Ces paramètres servent à fixer le compromis entre la minimisation de
l’erreur d’apprentissage et la maximisation de la marge pour chacune des classes. En pratique,
le comportement du WSVM est sensible à la valeur de C uniquement si les données
d’apprentissage ne sont pas séparables.
La comparaison entre les différentes méthodes de classification citées précédemment, nous a
montré clairement que le classificateur WSVM était supérieur aux autres méthodes avec des
performances de reconnaissance très satisfaisantes. La méthode WSVM agit directement sur
les classes en tolérant plus d’erreurs pour les classes minoritaires contrairement aux classes

120
CONCLUSION GENERALE ET PERSPECTIVES

majoritaires; ce qui entraine un équilibrage dans la recherche du meilleur hyperplan afin de ne


pas biaiser l’hyper-plan de séparation vers la classe minoritaire.
En deuxième lieu, nous nous sommes seulement consacré au traitement du problème de
déséquilibre de données qui est présent dans toutes les bases de données issues de RAH
puisque les activités humaines nécessitent des durées différentes selon le type d’activité
réalisée. Les performances des différents classificateurs se trouvent diminuées lorsque le
déséquilibre dans la distribution des données est important. Pour cela, nous avons comparé
trois nouvelles méthodes de classification à savoir (US-SVM, OS-SVM et SMOTE-SVM).
Les algorithmes US, OS et SMOTE traitent le problème du déséquilibre au niveau des
données selon qu’on a un sous-échantillonnage ou un sur-échantillonnage de données. SVM
utilise les sorties de ces algorithmes afin d’utiliser les données équilibrées et permettre la
classification des activités humaines. Pour les jeux de données équilibrés, le SVM peut
produire une bonne hypothèse, en termes de précision, sans aucune modification. On a aussi
utilisé la méthode WSVM qui traite ce déséquilibre au niveau algorithmique comme méthode
de comparaison. Les résultats étaient très acceptables avec les méthodes de ré-échantillonnage
plus particulièrement avec la méthode SMOTE qui a permis une grande amélioration des
performances de reconnaissance de certaines activités minoritaires comme les activités de
cuisine. Néanmoins ces méthodes restent inferieures comparativement au classificateur
WSVM en termes de F-mesure.
Ensuite, nous nous sommes intéressés à l’extraction des caractéristiques au lieu d’utiliser
directement les caractéristiques brutes comme entrées au classificateur. Nous avons comparé,
WSVM, PCA-WSVM et LDA-WSVM. Les résultats de classification obtenus ont montré
l’efficacité de LDA-WSVM comparativement aux autres méthodes. Il a été démontré dans nos
résultats que LDA-WSVM surpasse PCA-WSVM pour tous les ensembles de données.
Au final, nous avons proposé une dernière méthode de classification PCA-LDA-WSVM. Nous
l’avons confronté aux méthodes HMM, CRF, SVM, WSVM, et les modèles hybrides PCA-
WSVM, LDA-WSVM, PCA-LDA-HMM. Les résultats expérimentaux présentés démontrent
que cette méthode était novatrice en termes d’amélioration de résultats de classification des
activités humaines dans le cas d’un nombre restreint de données des classes minoritaires. Cette
méthode est efficace du fait d’utiliser une combinaison efficace pour l’extraction des

121
CONCLUSION GENERALE ET PERSPECTIVES

caractéristiques avec PCA-LDA et l’utilisation d’une méthode d’apprentissage supervisé


WSVM qui prend en compte le déséquilibre entre les différentes classes d’activités humaines.
Cependant, la méthode LDA, bien qu’elle prenne en compte l’information sur les classes de
données, elle souffre de performances réduites en raison de sa nature paramétrique. Ceci
explique le pouvoir discriminant de la méthode qui combine PCA-LDA.
Dans ce travail de thèse, nous avons apporté un certain nombre d’éléments de réponse
concernant certaines questions en vue d’une tache de classification des activités humaines.
L’une est liée à la sélection de modèle automatique des WSVM pour traiter le problème du
déséquilibre de données au sein de systèmes de reconnaissance des activités humaines et
l’autre à l’extraction des caractéristiques. Notons que nous parlons bien d’éléments de réponse
et non de réponses, car comme nous le rappellent [70] en s’appuyant sur le “No Free Lunch
Theorem”, si une approche est supérieure à une autre pour un problème de classification
donné, rien ne permet de prédire qu’elle le sera aussi pour un problème différent. Ainsi, le
choix de l’approche à utiliser dépendra du nombre de classes, du nombre de données
d’apprentissage, du type de distribution, mais aussi des contraintes liées à l’application visée,
d’où la difficulté de concevoir un classificateur universel qui surpasse les alternatives à
chaque classe.

Perspectives
Une étude approfondie des bases de données employées dans nos travaux montre un écart
important en termes des activités intégrées. Par exemple, TK57M contient presque la moitié
des classes d’activités contenue dans TK26M. En outre, seulement ‘Autres activités’, ‘Petit-
déjeuner’ et ‘Aller aux toilettes’ sont présents dans tous les ensembles de données, tandis que
d'autres activités ne se produisent que dans un seul jeu de données (par exemple, ‘Laver la
vaisselle’, ‘Écouter de la musique’). L’indépendance des tâches peut également être remise en
question. Par exemple, la tâche ‘manger’ est finalement liée à l’activité ‘Déjeuner’ et ‘Dîner’
se produisant dans la base de données TK57M. Par conséquent, la généralisation des résultats
d'un classificateur d’une base à l’autre doit être prise en compte. Cette notion est connue sous
le nom : Apprentissage par transfert de connaissances (Transfer learning en anglais) qui vise à
transférer des connaissances d'une ou plusieurs tâches source (s) vers une ou plusieurs cible

122
CONCLUSION GENERALE ET PERSPECTIVES

(s). Dans notre cas, ca sera le transfert de connaissances sur l’apprentissage des activités
humaines d’une maison à l’autre.
Dans ce travail, nous avons utilisé l'inférence hors ligne. Les activités ne pouvaient être
déduites avant qu'une journée complète soit écoulée. A l'avenir, il serait intéressant d’adopter
cette stratégie dans l'inférence en ligne [75] qui est nettement plus difficile, mais qui s’avère
nécessaire pour des applications spécifiques. Il serait aussi intéressant, d’intégrer des
connaissances à priori sur les activités humaines afin d’améliorer les performances de
classification. Par exemple, les connaissances temporelles et spatiales sur le déroulement des
activités seront de bons attributs pour discriminer entre les activités humaines. En effet, la
localisation (attribut spatial) va restreindre les activités possibles et l’heure de la journée
(attribut temporel) va nous donner une indication sur l’activité qui peut être réalisée.

123
REFERENCES

REFERENCES
[1] F. Fusier, V. Valentin, F. Brémond, M. Thonnat, M. Borg, D. Thirde, and J. Ferryman.
Video understanding for complex activity recognition. Machine Vision and Applications, 18(3-
4):167–188, 2007.
[2] L. Chen, J. Hoey, C. Nugent, D. Cook and Z. Yu. Sensor based activity recognition, IEEE
Transactions on Systems, Mans and Cybernetics, Part C, 42(6), p. 790-808, 2012.
[3] G. Singla, D.J. Cook, M. Schmitter-Edgecombe. Recognizing independent and joint
activities among multiple residents in smart environments. Journal of ambient intelligence and
humanized computing 1 (1):57-63, 2010.
[4] G. Singla, D.J. Cook, M. Schmitter-Edgecombe. Tracking activities in complex settings
using smart environment technologies. International journal of biosciences, psychiatry, and
technology (IJBSPT) 1 (1):25-35, 2009.
[5] E. Munguia Tapia. Activity recognition in the home setting using simple and ubiquitous
sensors. Doctoral dissertation, Massachusetts Institute of Technology, 2003.
[6] J. Dupâquier. Le vieillissement de la population dans le monde. Bulletin Rayonnement du
Centre National de la Recherche Scientifique (CNRS), (nº42), 2006.
[7] T. L. M. Kasteren. Activity recognition for health monitoring elderly using temporal
probabilistic models. Doctoral dissertation, Faculty of Science, University of Amsterdam,
2011.
[8] H. Cao, M. Nguyen, C.Phua, S. Krishnaswamy, and X. Li. An Integrated Framework for
Human Activity Classification. Proc. of UbiComp12, pp. 331-340, 2012.
[9] L.R.S. Torres, D.C. Ranasinghe, Q. Shi, et al. Learning from Imbalanced Multiclass
Sequential Data Streams Using Dynamically Weighted Conditional Random Fields. Available
online: http://xxx.lanl.gov/abs/arXiv:1603.03627 (accessed on 11 March 2016).
[10] N. V. Chawla. Data mining for imbalanced datasets: An overview. In Data Mining
and Knowledge Discovery Handbook, pp. 875-886. Springer, New York, US, 2010.
[11] I. Brown, & C. Mues. An experimental comparison of classification algorithms for
imbalanced credit scoring data sets. Expert Systems with Applications, 39(3), 3446-3453,
2012.

124
REFERENCES

[12] B. Raskutti and A. Kowalczyk. Extreme re-balancing for SVMs: a case study, SIGKDD
Explorations, vol. 6, no. 1, pp. 60–69, 2004.

[13] T. Plötz, N.Y. Hammerla, & P. Olivier. Feature learning for activity recognition in
ubiquitous computing. In IJCAI Proceedings-International Joint Conference on Artificial
Intelligence, vol. 22, No. 1, p. 1729-1734, 2011.

[14] Z. A. Khan, & W. Sohn. Feature extraction and dimensions reduction using R transform
and principal component analysis for abnormal human activity recognition. In : 6th
International Conference on Advanced Information Management and Service (IMS), pp. 253-
258, IEEE, 2010.

[15] M.B. Abidine, B. Fergani. Evaluating C-SVM, CRF and LDA Classification for Daily
Activity Recognition. The 3rd International Conference on Multimedia Computing and
Systems, ICMCS’12, IEEE, Morocco, pp. 272 – 277, 10 -12 May 2012.

[16] M.B. Abidine, B. Fergani, M. Oussalah , L. Fergani: A new classification strategy for
human activity recognition using cost sensitive support vector machines for imbalanced data.
Kybernetes Journal, vol. 43 Iss: 8, pp.1150-1164, 2014.

[17] M.B. Abidine, B. Fergani and L. Clavier. Importance-Weighted the Imbalanced data for
C-SVM Classifier to Human Activity Recognition. In 8th International Workshop on Systems,
Signal Processing and their Applications (WoSSPA), pp. 330-335, IEEE, Algiers, Algeria,
2013.

[18] A. Fleury, N. Noury, & M. Vacher. Application des SVM à la classification des Activités
de la Vie Quotidienne d'une personne à partir des capteurs d'un Habitat Intelligent pour la
Santé. In XVI èmes Rencontres de la Société Francophone de Classification (SFC), pp. 33-36,
Grenoble, France, 2009.

[19] M.B. Abidine, B. Fergani : A New Multi-Class WSVM Classification to


Imbalanced Human Activity Dataset. Journal of Computers (JCP) 9(7): 1560-1565, 2014.

[20] V. García, J.S. Sánchez, R.A. Mollineda, R. Alejo, J.M. Sotoca. The class imbalance
problem in pattern classification and learning, In II Congreso Espanol de Informatica, Pattern
Analysis and Learning Group, Universitat Jaume I, pp. 283-291, 2007.

125
REFERENCES

[21] M.B. Abidine, B. Fergani, and F. J. Ordonez. Effect Of Over-sampling Versus Under-
sampling For SVM And LDA Classifiers For Activity Recognition. International Journal of
Design & Nature and Ecodynamics, vol. 11, no 3, p. 306-316, 2016.

[22] M.B. Abidine, L. Fergani, B. Fergani, M. Oussalah. The joint use of sequence features
combination and modified weighted SVM for improving daily activity recognition. Pattern
Analysis and Applications (PAA), Springer-Verlag London, In Press, 16 August 2016.

[23] Datasets for Activity Recognition, http://sites.google.com/site/tim0306/ (accessed


February 09, 2012)

[24] http://courses.media.mit.edu/2004fall/mas622j/04.projects/home/ (accessed January,


2013)

[25] http://mlr.cs.umass.edu/ml/datasets/Activities+of+Daily+Living+%28ADLs%29+Recogni
tion+Using+Binary+Sensors (accessed April , 2015)

[26] A. Rammal. Modélisation multi-agent dans un processus de gestion multi acteur,


application au maintien à domicile. PhD thesis, Université Paul Sabatier-Toulouse III, 2010.

[27] L. Chen, J. Hoey, C. Nugent, D. Cook and Z. Yu. Sensor based activity recognition, IEEE
Transactions on Systems, Mans and Cybernetics, Part C, 42(6), p. 790-808, 2012.
[28] S. Helal, W. Mann, H. El-Zabadani, J. King, Y. Kaddoura, E. Jansen. The Gator Tech
Smart House: a programmable pervasive space, Computer 38(3), pp. 50-60, 2005.
[29] V. Joumier, R. Romdhane, F. Bremond, M. Thonnat, E. Mulin, P. H. Robert, A.
Derreumaux, J. Piano, , and J. Lee. Video Activity Recognition Framework for assessing
motor behavioural disorders in Alzheimer Disease Patients. In International Workshop on
Behaviour Analysis and Video Understanding (ICVS 2011), page 9, Sophia Antipolis, France,
2011.
[30] S. Bonhomme. Méthodologie et outils pour la conception d’un habitat intelligent
(Methodology and tools for the design of an intelligent home), Doctoral dissertation, Institut
National Polytechnique de Toulouse, 2008.

[31] Source: World Population Ageing. Department of Economic and Social Affairs
Population Division, United Nations Publications, New York, pages 35-36, 2002.

126
REFERENCES

[32] N. Noury, G. Virone, J. Ye, V. Rialle et J. Demongeot, Nouvelles directions en habitats


intelligents pour la santé, revue ITBM-RBM, vol. 24, pp. 122-135, 2003.

[33] P. Barralon, Classification et fusion de données actimétriques pour la télévigilance


médicale », Thèse de doctorat de l’Université Joseph Fourier - Grenoble1, France, 2005.
[34] N.Noury. AILISA: exprimental platforms to evaluate remote care and assistive
technologies in gerontology. In Proc. 7th Inter, Workshop on enterprise networking and
computing in Healthcare industry, Healthcom 2005, Busan-Korea, 24-25 Jun 2005, pp, 67-72,
2005.

[35] http://www.vigilio.fr/documentary-base-5-21.html
[36] M. Ogawa, et T. Togawa, The concept of the home health monitoring, In Proceedings of
the 5th International Workshop on Enterprise Networking and Computing in Healthcare
Industry, Healthcom 2003, June 6-7, pp. 71-73, 2003.
[37] D. H. Stefanov, Z. Bien, et W. C. Bang, The Smart House for Older Persons and Persons
With Physical Disabilities: Structure, Technology Arrangements, and Perspectives, IEEE
Transactions on Neural Systems and Rehabilitation Engineering, vol. 12, no. 2, 2004.

[38] M. Chan, D. Estève, C. Escriba, et E. Campo, A Review of Smart Homes- Present state
and future challenges, Computer Methods and Programs in Biomedicine, vol. 91, iss. 1, pp.
55-81, july 2008.
[39] C. D. Nugent, D. D. Finlay, P. Fiorini, Y. Tsumaki, et E. Prassler, Home Automation as a
Means of Independent Living, IEEE Transactions on Automation Science and Engineering,
vol. 5, no. 1, pp. 1-9, 2008.
[40] S. Katz, A. B. Ford, R. W. Moskowitz, B. A. Jackson, and M. W. Jaffe, Studies of illness
in the aged: The Index of ADL: A Standardized Measure of Biological and Psychosocial
Function, The Journal of the American Medical Association (JAMA), vol. 185, pp. 914-919,
1963.
[41] T. Giovannetti, D. J. Libon, L. J. Buxbaum, and M. F. Schwartz, Naturalistic action
impairments in dementia, Neuropsychologia, vol. 40, pp. 1220-1232, 2002.
[42] M. Powell Lawton, M.B. Elaine, Assessment of older people : self-maintaining and
instrumental activities of daily living, Gerontologist, vol. 9, no. 3, pp.179–186, 1969.

127
REFERENCES

[43] T. L. S. Giroux, A. Bouzouane, B. Bouchard, H. Pigot, J. Bauchet, The Praxis of


Cognitive Assistance in Smart Homes, in: B. Gottfried, H.K. Aghajan (Eds.) Behaviour
Monitoring and Interpretation, IOS Press, vol. BMI Book, pp. 183-211, 2009.

[44] A. Baba, S.Yoshizawa, M. Yamada, A. Lee, and K. Shikano. Acoustic models of the
elderly for large-vocabulary continuous speech recognition. Electronics and Communications
in Japan (Part II : Electronics), 87(7) :49–57, 2004.

[45] M. Fezari, and M. Bousbia-Salah. Speech and sensor in guiding an electric wheelchair.
Automatic Control and Computer Sciences, SpringerLink Publication, 41(1): 39-43, 2007.

[46] M. C. Mozer. The neural network house: an environment that’s adapts to its inhabitants »
– in Proc. of the AAAI Spring Symposium on Intelligent Environments, Technical Report SS-
98-02, AAAI Press, Menlo Park, CA, pp. 110-114, 1998.

[47] G. Williams, K. Doughty, D. A. Bradley, A systems approach to achieving CarerNet-An


integrated and intelligent telecare system – IEEE Transactions on Information Technology in
Biomedicine 2(1), pp. 1-9, 1998.

[48] N. M. Barnes, N. H. Edwards, D. A. D. Rose, P. Garner, Lifestyle monitoring technology


for supported independence – Computing and Control Engineering Journal 9(4), pp. 169-174,
1998.

[49] K. Matsuoka, Aware home understanding life activities – in Proc. Int. Conf.
ICOST’2004,Towards a Human-Friendly Assistive Environment, IOS Press, pp. 186-193,
2004.

[50] Y. Isoda, S. Kurakake, H. Nakano, Ubiquitous sensors based human behavior modeling
and recognition using a spatio-temporal representation of user states – in Proc. 18th
International Conference on Advanced Information Networking and Application (AINA’04),
p. 512, 2004.

[51] M.Vacher, J. Serignat, S. Chaillol, D. Istrate, and V. Popescu. Speech and sound use in a
remote monitoring system for health care, vol. Lecture Notes in Artificial Intelligence,
4188/2006, pp. 711–718. Springer Berlin/Heidelberg, 2006.

128
REFERENCES

[52] G. Virone, and D. Istrate. Integration of an environmental sound module to an existing in-
home activity simulator. Conf Proc IEEE Eng Med Biol Soc, 2007 :3810–3.

[53] O. KUMIKO, M. M. A. E. S. S. e. R. T. Input support for elderly people using speech


recognition. Technical report, Institute of Electronics, Information and Communication
Engineers, 2004.
[54] N. Zouba, B. Boulay, F. Brémond, and M. Thonnat. Monitoring Activities of Daily
Living (ADLs) of Elderly Based on 3D Key Human Postures. In Barbara Caputo, M. V.,
editor, International Cognitive Vision Workshop, volume 5329 of Lecture notes in computer
science, pages 37–50, Santorini, Grèce. Springer Berlin / Heidelberg, 2008.
[55] T. Lee, and A. Mihailidis. An intelligent emergency response system : preliminary
development and testing of automated fall detection. Journal of telemedicine and telecare,
11(4):194–198, 2005.
[56] N. Thome, S. Miguet, and sébastien Ambellouis. A Real-Time, Multi-View Fall
Detection System : a LHMM-Based Approach. IEEE Transactions on Circuits and Systems
for Video Technology, 18(11):1522–1532. Special Issue on Event Analysis in Videos, 2008.
[57] C. Rougier, J. Meunier, A. St-Arnaud, and J. Rousseau. Robust video surveillance for fall
detection based on human shape deformation. IEEE Trans. Circuits Syst. Video Techn., 21(5)
:611–622, 2011.
[58] J. Fogarty, C. Au, and S. E. Hudson. Sensing from the basement: A feasibility study of
unobtrusive and low-cost home activity recognition. In Proceedings of the 19th Annual ACM
Symposium on User Interface Software and Technology, UIST ’06, pages 91–100, New York,
NY, USA. ACM, 2006.
[59] Le, X. H. B. Reconnaissance des comportements d'une personne âgée vivant seule dans
un habitat intelligent pour la santé (Doctoral dissertation, Université Joseph-Fourier-Grenoble
I, France), 2008.
[60] L.D. Burgio, K. Scilley, J. M. Hardin, and C. Hsu. Temporal patterns of disruptive
vocalization in elderly nursing home residents. Int J Geriatr Psychiatry, 16(4) :378–86, 2001.
[61] D. J. Cook. Learning setting-generalized activity models for smart spaces. IEEE
Intelligent Systems, 27(1):32-38, 2012.

129
REFERENCES

[62] V. Jakkula and D. J. Cook, Mining Sensor Data in Smart Environment for Temporal
Activity Prediction, Poster session at the ACM SIGKDD, San Jose, CA, 2007.

[63] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques,
(The Morgan Kaufmann Series in Data Management Systems), Second Edition, 525 pages,
2005.
[64] B. Reisberg, S. Finkel, J. Overall, N. Schmidt-Gollas, S. Kanowski, H. Lehfeld, et al.,
The Alzheimer's disease activities of daily living international scale (ADL-IS), International
Psychogeriatrics, vol. 13, pp. 163-181, 2001.
[65] C. R. Wren et E. M. Tapia, Toward scalable activity recognition for sensor networks, In
Proceedings of the Second international conference on Location- and Context-Awareness,
série LoCA’06. Berlin, Heidelberg : Springer-Verlag, pp. 168–185, 2006.
[66] E. M. Tapia, S. S. Intille, & K. Larson. Activity recognition in the home using simple and
ubiquitous sensors, In Proceedings on the 2nd International Conference on Pervasive
Computing, vol. 3001, pp. 158–175, Vienna, 2004.
[67] F.J. Ordóñez, P. de Toledo, A. Sanchis. Activity Recognition Using Hybrid
Generative/Discriminative Models on Home Environments Using Binary Sensors. Sensors,
13, pp.5460-5477, 2013.

[68] T. Van Kasteren, A. Noulas, G. Englebienne, & B. Kröse. Accurate activity recognition
in a home setting, in Proceedings of UbiComp’08. New York, NY, USA: ACM, pp. 1-9, 2008.
[69] F.J. Ordóñez. Modelado Ubicuo del Comportamiento para la Asistencia de Personas
Mayores en el Hogar. TESIS DOCTORAL, Septiembre 2013.
[70] R. O. Duda, P. E. Hart, and D. G. Stork, Pattern classification. John Willy and Sons,
Inc., New York, 2nd edition, 2001.

[71] C. Bishop, Pattern Recognition and Machine Learning, Springer. New York, 2006.

[72] L.R. Rabiner. A tutorial on hidden markov models and selected applications in speech
recognition. In Proc IEEE 77(2):257–286, 1989.

[73] C. Cortes, V. Vapnik. Support vector networks. Machine Learning 20:1–25, 1995.

130
REFERENCES

[74] B. Chikhaoui. Une approche basée sur l'analyse des séquences pour la reconnaissance des
activités et comportements dans les environnements intelligents, Thèse de Doctorat,
Sherbrooke, Québec, Canada, 2013.

[75] L. Bao et S. S. Intille, Activity Recognition from User-Annotated Acceleration Data,


dans Proc. Pervasive 2004, pp. 3001: 1–17, Vienna, Austria, 2004.

[76] J. Y. Yang, J.S. Wang, Y.P. Chen. Using acceleration measurements for activity
recognition: An effective learning algorithm for constructing neural classifers. Pattern
Recognition Letters, 29(16):2213-2220, 2008.

[77] T. van Kasteren et B. Krose, Bayesian activity recognition in residence for elders, IET
Conference Publications, vol. 2007, no. CP531, pp. 209–212, 2007.

[78] P. Rashidi et D. J. Cook, Mining Sensor Streams for Discovering Human Activity
Patterns over Time, dans Proceedings of ICDM, pp. 431–440, 2010.
[79] J. Modayil, T. Bai, et H. Kautz, Improving the recognition of interleaved activities, dans
Proceedings of the 10th international conference on Ubiquitous computing, serie UbiComp
’08. New York, NY, USA : ACM, pp. 40–43, 2008.
[80] R. Helaoui, M. Niepert, et H. Stuckenschmidt, Recognizing Interleaved and Concurrent
Activities : A Statistical-Relational Approach, dans PerCom 2011, pp. 1–9, 2011.
[81] N. C. Augusto J., Designing Smart Homes: the role of artificial intelligence, State of the
Art Survey, Lecture Notes in Artificial Intelligence (LNAI 4008), Springer-Verlag, pp. 1-183,
2006.

[82] Y. Tang, S. Wang, Y. Chen, and Z. Chen. Ppcare: A personal and pervasive health care
system for the elderly. In Proc. of IEEE Int. Conf. on Ubiquitous Intelligence Computing on
Autonomic Trusted Computing, pages 935-939, Fukuoka, Japan, September 2012.

[83] M.T.Quazi N.K.Suryadevara and S.C.Mukhopadhyay. Intelligent sensing systems for


measuring wellness indices of the daily activities for the elderly. In Proc. of IEEE Int. Conf.
on Intelligent Environments, pages 347-350, Guanajuato, Mxico, June 2012.

131
REFERENCES

[84] H. S. Jae, L. Boreom, and S. P. Kwang. Detection of abnormal living patterns for elderly
living alone using support vector data description. IEEE Transactions on Information
Technology in Biomedicine, 15:438-448, 2011.

[85] H. Zheng, H.Wang, and N. Black. Human activity detection in smart home environment
with self-adaptive neural networks. In Proc. of IEEE Intl Conf. on Networking, Sensing and
Control, pages 1505-1510, Hainan, China, April 2008.

[86] S. Chatterjee Q. Xie and K. Dutta. A predictive modeling engine using neural networks:
Diabetes management from sensor and activity data. In Proc. of IEEE Int Conf. on e-Health
Networking, Applications and Services, pages 230-237, October 2012.
[87] A. S. Helal, J. King, R. Bose, E.-Z. Hicham, and Y. Kaddourah, Assistive environments
for successful aging, In Advanced Intelligent Environments, ed: Springer, pp. 1-26, 2009.
[88] P. Moradshahi, H. Chatrzarrin and R. Goubran. Improving the performance of cough
sound discriminator in reverberant environments using microphone array. In Proc. of IEEE
Int. Conf. on Instrumentation and Measurement Technology, pages 20-23, Graz, Austria, May
2012.

[89] A. Fleury, N. Noury, and M. Vacher. Introducing knowledge in the process of supervised
classification of activities of daily living in health smart homes. In Proc. of IEEE Int. Conf. on
e-Health Networking Applications and Services, pages 322-329, Lyon, France, July 2010.

[90] T. Duong, D. Phung, H. Bui, and S. Venkatesh. Efficient duration and hierarchical
modelingfor human activity recognition. Artificial Intelligence, 173(7-8) :830–856, May 2009.
[91] U. Naeem and J. Bigham. Activity recognition using hierarchical framework. In 2nd
Conference on Pervasive Computing Technologies for Healthcare, Ambient Technologies for
Diagnosing and Monitoring Chronic Patients Workshop, pages 24 – 27, 2008.
[92] S. D. Tran and L. S. Davis. Event modeling and recognition using markov logic
networks. In Proceedings of the 10th European Conference on Computer Vision : Part II,
pages 610–623, Marseille, France, 2008.

[93] M. T. Moutacalli, A. Bouzouane, and B. Bouchard, New frequent pattern mining


algorithm tested for activities models creation, In IEEE Symposium on Computational
Intelligence in Healthcare and e-health (CICARE), pp. 69-76, 2014.

132
REFERENCES

[94] Baum, L. E., T. Petrie, G. Soules et N. Weiss. A Maximization Technique Occurring in


the Statistical Analysis of Probabilistic Functions of Markov Chains, The Annals of
Mathematical Statistics, vol. 41, n°1, p.164-171, 1970.

[95] Welch, L. R. Hidden Markov Models and the Baum-Welch Algorithm, IEEE Information
Theory Society Newsletter, vol. 53, n°4, pp. 1-13, 2003.

[96] A. Viterbi. Error bounds for convolutional codes and asymptotically optimum decoding
algorithm, Information Theory, IEEE Transactions on, vol 13, n° 2, p.260-269, 1967.

[97] J. D. Lafferty, A. McCallum, and F. C. N. Pereira. Conditional random fields :


Probabilistic models for segmenting and labeling sequence data. In Proceedings of the
Eighteenth International Conference on Machine Learning, ICML ’01, pages 282–289, San
Francisco, CA, USA. Morgan Kaufmann Publishers Inc, 2001.

[98] J. M. Hammersley, and P. E. Clifford. Markov random fields on finite graphs and lattices.
Unpublished manuscript, 1971.

[99] A. Vinel. Champs Markoviens Conditionnels pour l’étiquetage de séquences . PhD thesis,
Université Pierre et Marie CURIE university, France, 2013.
[100] B. Schölkopf and A. Smola. Learning with Kernels. MIT Press, Massachusetts,
Cambridge, 2002.
[101] Y.M. Huang, & S.X. Du. Weighted support vector machine for classification with
uneven training class sizes, In: Proceedings of the IEEE International Conference on Machine
Learning and Cybernetics.Vol. 7, pp. 4365-4369, 2005.
[102] K. Veropoulos, C. Campbell and N. Cristianini, Controlling the sensitivity of support
vector machines, Proceedings of the International Joint Conference on AI, Sweden, Workshop
ML3, pp. 55 – 60, 1999.
[103] CW. Hsu CW, CC. Chang, CJ. Lin (2008). A practical guide to support vector
classification. http://www.csie.ntu.edu.tw/*cjlin/papers/ guide/guide.pdf
[104] C. Platt. Sequential minimal optimization: A fast algorithm for training support vector
machines. Technical Report MSR–TR–98–14, Microsoft Research, 1998. Available at
http://www.research.microsoft.com/˜ jplatt/smo.html

133
REFERENCES

[105] G. M. Weiss. Mining with rarity: a unifying framework. ACM SIGKDD Explorations
Newsletter, 6(1) :7–19, 2004.
[106] T.V. Kasteren T, H. Alemdar, C. Ersoy (2011) Effective performance metrics for
evaluating activity recognition methods. In: Proceedings of the ARCS 2011—24th
international conference on architecture of computing systems, Comot, Italy, p. 10, 24–25
Feb, 2011.
[107] F.Verhein, S.Chawla. Using Significant, Positively Associated and Relatively Class
Correlated Rules For Associative Classification of Imbalanced Datasets. The 2007 IEEE
International Conference on Data Mining (ICDM'07). Pages 28-31, Omaha NE, USA.
October 2007.
[108] R. Akbani, S. Kwek, and N. Japkowicz, Applying Support Vector Machines to
Imbalanced Datasets, in the Proceedings of the 2004 European Conference on Machine
Learning, ECML’2004, Springer Berlin Heidelberg, pp. 39-50, 2004.
[109] S. I. Amari and S. Wu, Improving support vector machine classifiers by modifying
kernel functions. Neural Networks, 12(6), 783-789. 1999.
[110] G. Wu, & E. Y. Chang. Adaptive feature-space conformal transformation for
imbalanced data learning. In Proceedings of the 20th International Conference on Machine
Learning ICML, pp. 816-823, 2003.
[111] J. Shawe-Taylor, and N. Cristianini. Further results on the margin distribution. In
Proceedings of the 12th Conference on Computational Learning Theory, pp. 278-285, ACM,
July 1999.
[112] Y. Freund, & R. E. Schapire. A desicion-theoretic generalization of on-line learning and
an application to boosting. In European conference on computational learning theory, pp. 23-
37, Springer Berlin Heidelberg, March 1995.
[113] L. Breiman. Bagging predictors. Machine Learning, 24(2) :123–140, 1996.
[114] R. Barandela, J. S. Sánchez, V. Garcıa, & E. Rangel. Strategies for learning in class
imbalance problems. Pattern Recognition, 36(3), 849-851, 2003.
[115] N. Japkowicz. Concept-learning in the presence of between-class and within-class
imbalances. In Conference of the Canadian Society for Computational Studies of Intelligence
(pp. 67-77), Springer Berlin Heidelberg, June 2001.

134
REFERENCES

[116] W. W. Cohen. Fast effective rule induction. In Proceedings of the twelfth international
conference on machine learning (pp. 115-123), July 1995.
[117] B. Liu, W. Hsu, and Y. Ma. Integrating classification and association rule mining. In
Proc. of ACM Conf. on Knowledge Discovery and Data Mining (KDD), pages 80–86, 1998.
[118] N. V. Chawla, K. W. Bowyer, L. O. Hall, & W. P. Kegelmeyer. SMOTE: synthetic
minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357,
2000.
[119] I. Guyon, A. Elisseeff. An Introduction to Variable and Feature Selection, Journal of
Machine Learning Research, Special Issue on Variable and Feature Selection, 3(Mar):1157-
1182, 2003.
[120] S. Guérif. Réduction de Dimension en Apprentissage Numérique Non Supervisé, Thèse
de doctorat, Université Paris 13, Villetaneuse, Décembre 2006.
[121] IT. Jolliffe. Principal component analysis, 2nd edn. Springer, NewYork, NY, 2002.
[122] R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, 7(2):179–188, 1936.
[123] M.B. Abidine, B. Fergani. News schemes for activity recognition systems using PCA–
WSVM, ICA–WSVM, and LDA–WSVM. Information journal 6(3):505–521, 2015
[124] S. A., Zahorian, & H. Hu. Nonlinear Dimensionality Reduction Methods for Use with
Automatic Speech Recognition (Vol. 6). Speech Technologies Source: INTECH Open Access
Publisher, 2011.
[125] M. Pechenizkiy, A. Tsymbal, S. Puuronen. On Combining Principal Components with
Parametric LDA-based Feature Extraction for Supervised Learning. In: T.Morzy et al. (Eds.),
Proc. of 1st Int. Workshop on Data Mining and Knowledge Discovery, ADMKD’05, Estonia,
pp. 47-56, 2005.
[126] A. Frank, A. Asuncion. UCI machine learning repository, 2010.
https://archive.ics.uci.edu/ml
[127] T.V. Kasteren T, H. Alemdar, C. Ersoy (2011) Effective performance metrics for
evaluating activity recognition methods. In: Proceedings of the ARCS 2011—24th
international conference on architecture of computing systems, Comot, Italy, p. 10, 24–25
Feb, 2011.

135
REFERENCES

[128] T.V. Kasteren, G. Englebienne, BJ. Krose. An activity monitoring system for elderly
care using generative and discriminative models. Personal and ubiquitous computing, vol. 14,
no. 6, pp. 489– 498, 2010.

CONTRIBUTIONS SCIENTIFIQUES

ARTICLES DANS DES REVUES INTERNATIONALES


- M.B. Abidine, L. Fergani, B. Fergani, M. Oussalah. The joint use of sequence features
combination and modified weighted SVM for improving daily activity recognition. Pattern
Analysis and Applications (PAA), Springer-Verlag London, In Press, 16 August 2016. DOI:
10.1007/s10044-016-0570-y
- M.B. Abidine, L. Fergani, B. Fergani, & A. Fleury. Improving Human Activity Recognition
in Smart Homes. International Journal of E-Health and Medical Communications (IJEHMC),
6(3), 19-37, 2015. DOI: 10.4018/IJEHMC.2015070102
- M.B. Abidine, B. Fergani. News schemes for activity recognition systems using PCA–
WSVM, ICA–WSVM, and LDA–WSVM. Information 6(3):505–521, 2015.
DOI:10.3390/info6030505
- M.B. Abidine, B. Fergani. A New Multi-Class WSVM Classification to Imbalanced Human
Activity Dataset. Journal of Computers (JCP) 9(7): 1560-1565, 2014. DOI:
10.4304/jcp.9.7.1560-1565
- M.B. Abidine, B. Fergani, M. Oussalah, L. Fergani. A new classification strategy for human
activity recognition using cost sensitive support vector machines for imbalanced data.
Kybernetes: The International Journal of Systems & Cybernetics, Vol. 43 no 8, pp.1150–1164,
2014. DOI: 10.1108/K-07-2014-0138

ARTICLE DANS UN CHAPITRE DE LIVRE


- M.B. Abidine and B. Fergani. Comparing HMM, LDA, SVM and Smote-SVM Algorithms
in Classifying Human Activities. In Proceedings of the Mediterranean Conference on
Information & Communication Technologies 2015 (pp. 639-644). Springer International
Publishing, 2016. DOI : 10.1007/978-3-319-30298-0_70

COMMUNICATIONS INTERNATIONALES

136
REFERENCES

- M.B. Abidine, B. Fergani and F. Javier. Ordonez. Effect of oversampling versus


undersampling for SVM and LDA classifiers for activity recognition. Biga Data'2016, May 3-
5, 2016, Alicante, Spain. Publié dans: International Journal of Design & Nature and
Ecodynamics, http://www.witpress.com/elibrary/dne-volumes/11/3/1202
- M.B. Abidine and B. Fergani. Comparing HMM, LDA, SVM and Smote-SVM Algorithms
in Classifying Human Activities. The Mediterranean Conference on Information &
Communication Technologies, Medict'2015, Saïdia, Morocco, May 7-9, 2015.
- M.B. Abidine and B. Fergani. New Schemes for Activity Recognition System using PCA-
WSVM and LDA-WSVM. The Mediterranean Conference on Information & Communication
Technologies, Medict'2015, Saïdia, Morocco, May 7-9, 2015.
- M.B. Abidine, B. Fergani. A New Multi-Class WSVM Classification to Imbalanced Human
Activity Dataset. 6th International Conference on Computer Science and Information
Technology, ICCSIT’2013. December, 2013, Paris, France.
- M.B. Abidine, B. Fergani and L. Clavier. Importance-Weighted the Imbalanced data for C-
SVM Classifier to Human Activity Recognition. In Systems, Signal Processing and their
Applications (WoSSPA), 8th International Workshop on (pp. 330-335). IEEE, Algiers,
Algeria, 2013.
- M.B. Abidine, B. Fergani. Evaluating a new classification method using PCA to human
activity recognition. International Conference on Computer Medical Applications,
ICCMA'13, IEEE, pp. 1-4. Sousse, Tunisia, January, 2013.
- M.B. Abidine, B. Fergani. Evaluating C-SVM, CRF and LDA Classification for Daily
Activity Recognition. The 3rd International Conference on Multimedia Computing and
Systems, ICMCS’12, IEEE, Tangier, Morocco, pp. 272 – 277, 10 -12, May 2012.
- M.B. Abidine, B. Fergani and L. Fergani. A Comparative study of C-SVM, CRF and k-NN
for Daily Activity Recognition. 14th ACM International Conference on Ubiquitous
Computing, UBICOMP’12, Pittsburgh, Pennsylvania, USA, September 5-8, 2012.
http://www.ubicomp.org/ubicomp2012/program-posters.html

COMMUNICATIONS NATIONALES
- M.B. Abidine, B. Fergani and L. Clavier. C-SVM versus CRF Classifier for Human Activity
Recognition. The First International Conference On Electrical Engineering and Control
Applications, Khenchela, Algeria, 20 -22, November 2012.
- M.B. Abidine et B. Fergani. A Comparative Study of Four Classifiers for Activity
Recognition in Smart Home. Première Conférence Nationale sur les Télécommunications,
CNT’2012, Guelma, Algeria, 11&12, November 2012.

137

Vous aimerez peut-être aussi