0% ont trouvé ce document utile (0 vote)
57 vues106 pages

Prédiction Sémantique d'Anomalies IoT

Cette recherche se concentre sur la détection et la prédiction d'anomalies dans les systèmes IoT en utilisant des approches sémantiques intégrant des modèles tels que LSTM, Isolation Forest, et GNN. L'utilisation de triplets RDF améliore la précision des analyses en capturant les relations contextuelles entre les données, permettant une meilleure compréhension des anomalies. Les résultats incluent des visualisations interactives qui facilitent la gestion proactive des systèmes IoT.

Transféré par

hammamimahdi620
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
57 vues106 pages

Prédiction Sémantique d'Anomalies IoT

Cette recherche se concentre sur la détection et la prédiction d'anomalies dans les systèmes IoT en utilisant des approches sémantiques intégrant des modèles tels que LSTM, Isolation Forest, et GNN. L'utilisation de triplets RDF améliore la précision des analyses en capturant les relations contextuelles entre les données, permettant une meilleure compréhension des anomalies. Les résultats incluent des visualisations interactives qui facilitent la gestion proactive des systèmes IoT.

Transféré par

hammamimahdi620
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Tunisienne

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

MEMOIRE DE MASTERE

Mastere de Recherche En Informatique Décisionnelle et Intelligence


Appliquée à la Gestion (IDIAG)

Spécialité : Aide à la Décision

Exploration de la Prédiction Sémantique


pour l’Internet des Objets
Présenté par

OUMAIMA BEN ABDALLAH

Président : Docteur : Mohammed Ferah


Rapporteur : Maitre assitante : Kalthoum Rezgui
Encadrer par : Maitre assistant : Marouen Kachroudi

Année Universitaire : 2023 - 2024


Dédicace

’ À mes parents qui m’ont toujours soutenu et inspiré tout au long de ce parcours
académique.
Je tiens à remercier À mon frère et mes amis
(Ilhem,Oumaima,Ameni,Mariem,Molka,Ichraf) pour leurs précieux conseils.
Et Safouen qui est toujours avec moi et pour ses encouragements.
Cet ouvrage est dédié à tous ceux qui ont contribué directement ou indirectement à la
réalisation de ce projet.
À tous ceux qui me sont chers, à vous tous Merci. ’

OUMAIMA

i
Remerciments

En tout premier lieu, je remercie Dieu de m’avoir donné la volonté et la force pour
achever mon projet.
A mon encadrant
Dr Marouen Kachroudi

Je tiens à vous remercier sincèrement pour le temps que vous avez consacré, et votre
soutien tout au long de notre projet.

Je vous remercie de m’avoir offert les conditions nécessaires et de m’avoir permis de


bénéficier de votre expérience et de votre expertise dans notre domaine .

Votre patience, Votre professionnalisme, vos précieux consignes et vos critiques


constructives ont contribué à la réalisation de ce projet et à mon apprentissage, tout
comme votre soutien inconditionnel tout au long de notre collaboration.

Finalement, je souhaite exprimer ma profonde gratitude et mes sincères remerciements


aux membres de jury de mon Master Je vous remercie infiniment de m’avoir honoré de
siéger à ma soutenance de master. Veuillez accepter mes profonds sentiments de
gratitude et de respect que vous les méritez.

ii
Résumé

Cette recherche explore des approches avancées pour la détection et la prédiction d’ano-
malies dans les systèmes IoT, en intégrant la sémantique et des modèles tels que LSTM,
Isolation Forest, et GNN. Enrichies par des triplets RDF, ces méthodes capturent les re-
lations contextuelles entre les données, améliorant ainsi la précision des analyses. Chaque
modèle excelle dans des scénarios spécifiques (anomalies ponctuelles, contextuelles, ou sé-
quentielles), avec des visualisations interactives facilitant l’interprétation des résultats.
Le développement d’une méthode enrichie par des triplets RDF permet une meilleure com-
préhension des relations entre variables et améliore la qualité des prédictions. Chaque mo-
dèle s’est distingué par sa capacité à identifier différents types d’anomalies : ponctuelles,
contextuelles, ou séquentielles. Les visualisations interactives des résultats ont permis de
renforcer la compréhension des anomalies, facilitant ainsi une gestion proactive des sys-
tèmes IoT.

Mots clés : Internet des objets, Web Sémantique , Séries temporelles , Prédiction d’an-
nomalies .

iii
Table des matières

Introduction Générale 1

1 Etat de l’art sur le Web sémantique et les séries temporelles. 3


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Web sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Les axes des applications du web sémantique en IoT . . . . . . . . 4
1.2.3 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Internet des objets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Défintion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 L’architecture de l’internet des objets (IoT) . . . . . . . . . . . . . 12
1.3.3 Les caractéristiques de l’internet des objets (IoT) : . . . . . . . . . 13
1.3.4 Domaines d’applications de l’IoT . . . . . . . . . . . . . . . . . . 14
1.3.5 Les ontologies de l’IoT . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Séries temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Comment stocker les séries temporelles . . . . . . . . . . . . . . . 18
1.4.2 Objectifs de séries temporelles . . . . . . . . . . . . . . . . . . . 19
1.4.3 Exemples des séries temporelles . . . . . . . . . . . . . . . . . . 19
1.4.4 Relation entre la sémantique et séries temporelles . . . . . . . . . 20
1.4.5 Relation entre séries temporelles et l’environnement connecté . . . 21
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Prédiction d’anomalies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

iv
Chapitre 0– TABLE DES MATIÈRES

2.2.1 Prédiction d’anomalies sur les systemes IoT . . . . . . . . . . . . . 23


2.3 Stratègies et techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Modéles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Modéles machine learning . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Modèles de deep learning . . . . . . . . . . . . . . . . . . . . . . 27
2.3.4 Approches ontologiques . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Etat de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 Etude comparative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la


sémantique 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Présentation du contexte . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Format générique des données . . . . . . . . . . . . . . . . . . . . 40
3.2.3 Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . 43
3.2.4 Génération de l’ontologie . . . . . . . . . . . . . . . . . . . . . . 46
3.2.5 Génération du fichier enrichi . . . . . . . . . . . . . . . . . . . . . 49
3.2.6 Détection d’anomalies . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.7 Prédiction de l’anomalie . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4 Etude expérimentale 68
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Environnement et outils de développement . . . . . . . . . . . . . . . . . . 68
4.2.1 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Collecte et exploration des données . . . . . . . . . . . . . . . . . . . . . 70
4.4 Le prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5 Entraînement du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6 Prédiction avec les modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6.1 Algorithme LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Page v
Chapitre 0– TABLE DES MATIÈRES

4.6.2 Algorithme Isolation forest . . . . . . . . . . . . . . . . . . . . . . 75


4.6.3 Algorithme GNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.7 Visualisation interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Page vi
Liste des tableaux

2.1 Comparaison des approches utilisées pour l’annotation des séries tempo-
relles dans les systèmes IoT. . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1 Tableau récapitulatif des performances des approches de détection d’anomalies 85

vii
Table des figures

1.1 La pile des standards du web sémantique. . . . . . . . . . . . . . . . . . . 4


1.2 Présentation Ontologie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Typologie d’ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Systèmes connectés dans IoT . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Architecture IoT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Domaines d’application de l’IoT. . . . . . . . . . . . . . . . . . . . . . . . 15
1.7 Séries temporelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.8 Exemple : Les données du prix du cuivre. . . . . . . . . . . . . . . . . . . 20
1.9 Exemple : Les données des revenus de Walt Disney Company . . . . . . . . 20
1.10 Exemple :évolution du cours du Dow Jones entre 1928 et 2004, données
mensuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1 Environnement IoT pour la prédiction d’anomalies sur les systèmes IoT. . . 24
2.2 Prèsentation de la pile de l’intelligence et l’apprentisage . . . . . . . . . . . 26

3.1 Les étapes de notre contribution . . . . . . . . . . . . . . . . . . . . . . . 39


3.2 Extrait d’un fichier CSV . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Ontologie générique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Extrait de données brutes . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69


4.2 Affichage du dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Fragment de code de la prédiction avec LSTM . . . . . . . . . . . . . . . . 73
4.4 Fragment de code pour la visualisation . . . . . . . . . . . . . . . . . . . . 73
4.5 Aperçu graphique des résultats . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6 Fragment de code de la prédiction avec Isolation Forest . . . . . . . . . . . 75

viii
Chapitre 0– TABLE DES FIGURES

4.7 Fragement de code pour la création d’une nouvelle colonne . . . . . . . . . 75


4.8 Fragment de code de tracé des séries temporelles . . . . . . . . . . . . . . 76
4.9 Fragment de code de maraquge des anomalies . . . . . . . . . . . . . . . . 76
4.10 Aperçu graphique des résultats . . . . . . . . . . . . . . . . . . . . . . . . 76
4.11 Fragment de code de chargement des nouvelles données . . . . . . . . . . . 78
4.12 Fragment de code pour l’ajout de la colonne indiquant la prédiction . . . . 78
4.13 Fragment de code de visualisation du résultat . . . . . . . . . . . . . . . . 79
4.14 Aperçu graphique des résultats . . . . . . . . . . . . . . . . . . . . . . . . 80
4.15 Interface de l’application de notre constribution . . . . . . . . . . . . . . . 82
4.16 Résultat de la mise en oeuvre du modèle GNN dans notre application . . . . 83
4.17 Résultat de la mise en oeuvre du modèle Isolation Forest dans notre application 83
4.18 Résultat de la mise en oeuvre du modèle LSTM dans notre application . . . 84

Page ix
Liste des Algorithmes

LSTM
Isolation Forest
GNN

x
Liste des Abréviations

A.I. Intelligence Artificielle (Artificial Intelligence)


API Interface de Programmation d’Applications (Application Programming Interface)
CSV Valeurs Séparées par des Virgules (Comma-Separated Values)
GNN Graph Neural Network (Réseau Neuronal de Graphe)
IoT Internet des Objets (Internet of Things)
LSTM Long Short-Term Memory (Mémoire Longue à Court Terme)
ML Apprentissage Automatique (Machine Learning)
RDF Framework de Description de Ressource (Resource Description Framework)
SPARQL Protocole et Langage de Requête RDF (SPARQL Protocol and RDF Query Language)
W3C1 World Wide Web Consortium
SSN Surveillance par satellite
OWL Web Ontology Language
WSMO Web Service Modelling Ontology
MSM Minimal Service Model
SWEET Semantic Web for Earth and Environment Technology
QUDT Quantity, Unit, Dimension and Type

xi
Introduction Génerale

L’Internet des Objets (IoT) constitue une avancée technologique majeure, reliant des
dispositifs intelligents pour optimiser la collecte, l’analyse et la gestion des données dans
des environnements interconnectés.
L’IoT, encore émergent, transforme déjà notre quotidien. Dans les années à venir, l’ex-
pansion des objets connectés promet des applications toujours plus innovantes et utiles. La
prédiction sémantique apporte une intelligence supplémentaire en analysant non seulement
les données quantitatives, mais aussi leur sens et leurs relations contextuelles. En intégrant
cette approche, nous dépasse la simple corrélation pour mieux comprendre les données et
anticiper les changements de manière proactive. Cette approche enrichit considérablement
la capacité à anticiper les changements et à agir de manière proactive.
En comprenant le contexte sémantique des données IoT, on peut repérer des schémas qui ne
sont pas immédiatement évidents et identifier des tendances émergentes. Cette intelligence
approfondie est cruciale pour répondre aux exigences opérationnelles complexes et pour ali-
gner les décisions stratégiques sur les objectifs à long terme. En comprenant pleinement les
données au niveau sémantique, les organisations peuvent passer d’une réactivité passive à
une proactivité éclairée, en prenant des décisions informées qui optimisent les performances,
réduisent les risques et favorisent l’innovation dans un écosystème IoT en constante évolu-
tion.
Notre objectif principal du projet est d’explorer les techniques de prédiction dans les contextes
des environnements IoT, en mettant l’accent sur l’analyse sémantique des données pour an-
ticiper plus efficacement les événements et pour améliorer les interventions et les prises de
décision.
Ce mémoire est structuré en plusieurs chapitres, chacun abordant un aspect clé de l’ana-
lyse et de l’optimisation des environnements connectés à travers les données IoT et leur
interprétation sémantique.

1
Le Chapitre 1 présente une introduction générale à l’Internet des Objets (IoT), en dé-
crivant ses fondements, ses principales applications et les défis qu’il soulève. Cette section
met également en lumière l’importance de l’analyse prédictive sémantique dans la gestion et
l’exploitation des données IoT, ouvrant ainsi la voie à une compréhension plus approfondie
du contexte des données.
Le Chapitre 2, explorant les travaux antérieurs et les approches existantes dans le domaine de
la prédiction et de l’analyse des données IoT. Cette revue critique positionne notre recherche
dans le paysage scientifique, identifiant les limites des approches actuelles et soulignant les
opportunités pour intégrer la sémantique dans les modèles de prédiction.
Dans le Chapitre 3, nous détaillons notre méthodologie en expliquant les choix stratégiques,
les algorithmes employés et les étapes de mise en œuvre. Nous mettons également l’accent
sur l’intégration de la dimension sémantique dans les modèles de prédiction, en justifiant
ces choix à travers des arguments techniques et pratiques.
Le Chapitre 4 est consacré à l’évaluation des résultats obtenus. Une étude expérimentale
approfondie est menée pour analyser les performances du modèle proposé, en utilisant des
indicateurs pertinents et en comparant les résultats à ceux des approches traditionnelles.
Enfin, nous concluons ce mémoire par une synthèse des contributions de notre travail, en
mettant en avant les apports spécifiques de l’analyse sémantique des données IoT dans un
contexte de prédiction.
Nous proposons également des pistes pour des recherches futures et des applications poten-
tielles, visant à améliorer encore l’efficacité et l’intelligence des systèmes IoT.

2
Chapitre 1

Etat de l’art sur le Web sémantique et


les séries temporelles.

1.1 Introduction
Ce chapitre pose les bases essentielles pour comprendre les concepts clés abordés dans
ce rapport. Nous débutons par une définition approfondie du Web sémantique, en mettant en
lumière ses principes fondamentaux et son rôle dans la structuration et l’interopérabilité des
données. Par la suite, nous mettons l’accent sur l’Internet des Objets (IoT), un domaine en
pleine expansion, en expliquant ses enjeux, ses applications et son intégration avec le Web
sémantique pour exploiter pleinement les flux de données générés par les objets connec-
tés. Nous explorons également les séries temporelles, en décrivant leurs principales compo-
santes. Enfin, une conclusion synthétise les idées principales.

1.2 Web sémantique


Pour comprendre les principes et les applications du Web sémantique, il est essentiel
de commencer par une définition claire, en mettant en avant ses objectifs et ses concepts
fondamentaux.

1.2.1 Définition

Le Web sémantique entièrement fondé sur le Web classique, permet aux machines de ne
pas se contenter à présenter visuellement les données mais aussi à relier les données avec

3
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

leurs significations afin de rendre le contenu du web compréhensible par d’autre machines et
divers applications. Le web sémantique contient un ensemble de standards, de consortiums
définit par le W3C1 (Dameron, 2022). Ce dernier, représente le Web sémantique par une
pile technologique appelée « semantic web layer cake » afin de décrire sa composition et de
fixer le cadre de sa mise en place comme le montre la figure 1.1.
Le Web sémantique est une infrastructure qui permet l’utilisation des connaissances for-
malisées afin qu’elles puissent être extraite et traitaient. Au niveau sémantique le RDF est
le standard qui définit la façon de décrire les ressources du web à l’aide d’un vocabulaire
qui est compréhensible par un ordinateur (Roussey et al., 2024). Cette infrastructure doit
permettre :

— De localiser, d’identifier et de transformer des ressources de manière robuste et saine


tout en renforçant l’esprit d’ouverture du web avec sa diversité d’utilisateurs.

— De faciliter les calculs divers et les raisonnements complexes tous en étant valide.

— D’augmenter le niveau de confiance de l’utilisateur en assurant sa sécurité et en confir-


mant la validité des connaissances grâce à des techniques adaptées.

F IGURE 1.1 – La pile des standards du web sémantique.


(Dameron, 2022)

1.2.2 Les axes des applications du web sémantique en IoT

Le web sémantique offre des outils et des concepts permettant de structurer, d’interpréter
et d’exploiter efficacement les données IoT à travers différents axes d’application.

Page 4
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

1.2.2.1 Axes orienté données

Le web sémantique révolutionne l’IoT en transformant les données brutes collectées par
les objets en informations riches et interopérables. Grâce à l’ajout de métadonnées séman-
tiques, ces données acquièrent un sens universel qui dépasse le cadre de leur application
d’origine. En reliant ces données à des bases de connaissances externes, on crée un véritable
"Web de données" où les informations peuvent être réutilisées dans de multiples contextes.
Cette approche, proche du Big Data, permet d’extraire de la valeur ajoutée des données et
de développer de nouvelles applications, comme la détection d’événements complexes ou
la surveillance de l’état des capteurs (Othmane, 2020).

1.2.2.2 Axe orienté services

Décrire les objets comme des services soulève à nouveau des questions d’interopérabi-
lité. Même si tous les fabricants fournissaient une API pour leurs objets, il est évident que
des disparités existeraient entre les API, même pour des objets similaires (par exemple, deux
ampoules intelligentes de marques différentes). Pour surmonter ce défi, une solution consiste
à abstraire l’interface du service en l’enrichissant sémantiquement. Ainsi, l’accès aux fonc-
tionnalités ne dépendrait plus uniquement du nom des fonctions, mais de leur description
sémantique. Cela permettrait aux services d’être interprétés automatiquement et découverts
dynamiquement, sans nécessiter une spécification préalable ni prendre en compte le modèle
ou la marque de l’objet (Seydoux et al., 2015).
Cette approche ouvre la voie à une indépendance entre les applications utilisant des
objets connectés et les fabricants de ces objets, permettant ainsi la création de programmes
génériques capables de découvrir et d’exploiter des services sémantisés . En outre, voir un
réseau d’objets connectés comme un ensemble de services permet d’intégrer non seulement
des objets physiques, mais aussi des entités virtuelles ou des services web. Cela introduit
le concept d’objet virtuel : par exemple, un capteur de température ressentie peut combiner
des informations sur la température, la vitesse du vent et l’humidité. Tout réseau disposant
de ces trois types de capteurs physiques peut offrir l’accès à ce capteur virtuel pour indiquer
la température ressentie (Othmane, 2020).
Ce principe introduit la possibilité de composer des services. Cette composition peut être
réalisée manuellement ou, dans une certaine mesure, automatiquement si chaque service est

Page 5
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

suffisamment bien décrit sémantiquement .

1.2.2.3 Axe orienté système

Dans ce contexte, les ontologies jouent un rôle central en décrivant le réseau de capteurs
lui-même, plutôt que le phénomène observé. Par exemple, l’ontologie SSN (Semantic Sen-
sor Network) illustre bien cette utilisation en établissant des liens entre les capteurs et leurs
observations, sans spécifier la nature des données collectées. Cette description des capteurs
peut être associée aux métadonnées des données pour résoudre les questions de provenance,
en liant chaque donnée à son capteur d’origine, avec des informations telles que sa localisa-
tion ou sa précision (Seydoux et al., 2015).
Le caractère évolutif des réseaux d’objets connectés soulève également la question du
dynamisme : pour que la description du système reste pertinente au fil du temps, elle doit
pouvoir évoluer. Les objets peuvent être mobiles, et le réseau dans son ensemble n’est pas
figé : des objets peuvent être ajoutés, retirés ou déplacés.
Ce besoin de dynamisme va de pair avec la nécessité de configuration automatique.
Idéalement, l’ajout ou le retrait d’objets dans un réseau devrait nécessiter peu d’intervention
humaine, sans qu’une reconfiguration manuelle du réseau soit indispensable. L’intégration
d’une "fiche technique électronique" au sein de chaque objet , pourrait permettre la décou-
verte automatique du capteur par le réseau. Ce domaine d’application est étroitement lié
aux moteurs d’alignement automatique, car il est peu probable que tous les fabricants s’ac-
cordent sur un modèle unique de représentation. Cependant, des outils d’alignement pour-
raient faciliter la compatibilité entre l’ontologie intégrée par le capteur et celle du système
auquel il est connecté, améliorant ainsi l’interopérabilité entre objets hétérogènes.
Les objets consommateurs de services pourraient également tirer parti de cette descrip-
tion du système pour découvrir d’autres objets et identifier les fournisseurs de services sou-
haités. La configuration automatique se ferait alors à la fois au niveau du système et des
objets, suivant une approche de "plug and play" visant à minimiser la configuration ma-
nuelle nécessaire avant l’utilisation .

Page 6
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

1.2.2.4 Utilités fondamentales de la sémantique en IoT

Parmi les trois axes précédemment décrits , des éléments communs se distinguent, re-
présentant les apports fondamentaux de la sémantique à l’IoT (Ramasso, 2016) :
Interopérabilité : La conversion des données en informations vise en premier lieu à
garantir l’interopérabilité. Les formalismes de représentation des connaissances proposés
par le W3C pour le web sémantique jouent un rôle essentiel dans l’IoT en masquant l’hé-
térogénéité des systèmes. Ils permettent de proposer une abstraction riche en sémantique,
indépendamment des spécificités techniques sous-jacentes. Une représentation non ambi-
guë des ressources, utilisant divers formalismes, favorise l’interopérabilité entre systèmes
reposant sur des informations similaires mais dans des formats distincts . Les recherches sur
l’alignement visent également à établir une compréhension mutuelle entre systèmes séman-
tisés basés sur différentes ontologies.
Intégration : La sémantisation des données rend possible l’intégration de données hé-
térogènes au sein d’une structure unifiée, le web des données liées, permettant un accès
transparent. Cela permet à chaque application de s’appuyer non seulement sur les données
qu’elle collecte, mais aussi sur celles provenant d’autres contextes. Cette approche ouvre
la voie à des mashups, ou services qui intègrent des données et services existants pour les
combiner en une seule solution. En donnent un exemple. Cette intégration n’est réalisable
que si l’on dépasse le modèle fermé où seuls les constructeurs peuvent ajouter des données,
pour arriver à un état où l’information est accessible et exploitable par tous.
Interprétation : La création de connaissances peut se faire de deux manières : en repla-
çant l’information dans un contexte global ou en appliquant des règles de déduction sur des
connaissances préexistantes. La première approche nécessite des ontologies de référence
pour croiser les informations de différentes sources et les convertir en connaissances exploi-
tables. Par exemple, SSN permet d’exploiter les données de réseaux de capteurs et, grâce à
sa réutilisation étendue, intègre ces informations dans un contexte global. Les ontologies de
haut niveau sont également cruciales, car elles situent les concepts les uns par rapport aux
autres de manière indépendante de toute application. La seconde approche consiste à déduire
des connaissances en appliquant des règles et en raisonnant sur d’autres informations. Cela
permet de générer des connaissances complexes, souvent difficiles à obtenir directement,
en corrélant divers éléments dans un contexte global. Le raisonnement basé sur des règles

Page 7
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

ouvre également la voie à des applications comme la composition automatique de services


ou le diagnostic de pannes (AMEUR and BENHAOUCHE, 2024).

1.2.3 Ontologies

Pour comprendre le rôle crucial des ontologies dans la structuration des données et la sé-
mantique, il est essentiel de commencer par définir ce concept et ses fondements théoriques.

1.2.3.1 Définition

Le concept d’ontologie, bien qu’ancré dans la philosophie, s’est largement diffusé dans
le domaine de l’informatique. Sa définition varie selon les contextes, mais elle converge vers
une représentation formelle d’un domaine de connaissances.
Une ontologie est une spécification explicite d’une conceptualisation, c’est-à-dire une des-
cription structurée d’un ensemble de concepts, de propriétés et de relations entre ces concepts
(Gruber, 1993). Cette représentation, souvent considérée comme une base de connaissances
particulière , permet de modéliser de manière précise et partageable les connaissances d’un
domaine donné.
Les ontologies offrent plusieurs avantages :

— Interopérabilité : Elles favorisent la communication entre systèmes hétérogènes et as-


surent une compréhension commune des termes.

— Réutilisabilité : Les ontologies peuvent être réutilisées dans différents contextes, per-
mettant de gagner du temps et de réduire les coûts de développement.

— Raisonnement : Elles supportent des mécanismes de raisonnement permettant de dé-


duire de nouvelles connaissances à partir des informations contenues dans l’ontologie.

En somme, une ontologie est un outil puissant pour structurer, partager et exploiter les
connaissances. Elle est devenue un élément central de nombreux domaines, tels que l’intel-
ligence artificielle, la sémantique du Web et la gestion des connaissances tels que présenter
dans la Figure 1.2.

Page 8
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

F IGURE 1.2 – Présentation Ontologie.


(Fakhfakh, 2022)

1.2.3.2 Les composants d’une ontologie

Une ontologie est un modèle formel qui structure la connaissance à l’aide de différents
éléments :

— Les individus représentent les éléments uniques d’un domaine.

— Les classes regroupent des ensembles d’individus partageant des caractéristiques com-
munes et s’organisent en hiérarchies.

— Les attributs décrivent les propriétés des individus et des classes.

— Les relations lient les éléments entre eux, exprimant des associations ou des dépen-
dances.

— Les fonctions sont des constructions plus complexes basées sur les relations.

— Les restrictions spécifient des contraintes sur les valeurs des attributs ou sur les rela-
tions.

— Les règles permettent de déduire de nouvelles informations à partir de connaissances


existantes.

Page 9
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

— Les axiomes constituent les lois fondamentales de l’ontologie. Ensemble, ces éléments
permettent de représenter de manière précise et formalisée les connaissances d’un
domaine donné .

Une ontologie contient plusieurs composants et fonctionnalités qui aident à définir le do-
maine et à modéliser les connaissances pour créer un système intelligent selon le domaine
d’application, que nous présentons dans ce qui suit (Noel, 2019) .

1.2.3.3 L’application des ontologies

L’ontologie, en apportant une dimension sémantique aux données, a permis de passer


d’un Web de documents à un Web de connaissances. Elle est désormais au cœur de nom-
breuses applications tels que (Fakhfakh, 2022) :

— Le web sémantique : Faciliter la compréhension et l’échange d’informations entre les


machines.

— L’intelligence artificielle : Soutenir le raisonnement, l’apprentissage automatique et la


prise de décision.

— La santé : Représenter les connaissances médicales et faciliter l’aide à la décision


clinique.

— Le commerce électronique : Améliorer la description des produits et faciliter les tran-


sactions en ligne. En offrant un langage commun pour représenter les connaissances,
l’ontologie favorise l’interopérabilité des systèmes et l’échange d’informations entre
différents domaines.

1.2.3.4 Les types d’ontologies

Les ontologies sont classifiées en fonction de leur niveau de spécialisation :

— Ontologies de haut niveau : Elles capturent des concepts très généraux, communs à de
nombreux domaines.

— Ontologies de domaine : Elles se concentrent sur un domaine spécifique (médecine,


biologie, etc.).

Page 10
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

— Ontologies de tâche : Elles sont conçues pour résoudre des problèmes particuliers au
sein d’un domaine.

— Ontologies d’application : Elles sont spécifiques à une application donnée.

Ces différents niveaux sont hiérarchisés, et les ontologies peuvent être combinées pour for-
mer des ontologies plus complexes, répondant ainsi à des besoins variés(Hacine-Gherbi,
2018). Cette classification est illustrée dans la Figure 1.3.

F IGURE 1.3 – Typologie d’ontologies


(Fakhfakh, 2022)

1.3 Internet des objets


Pour mieux comprendre l’impact de l’Internet des Objets (IoT) dans notre quotidien, il
est essentiel de commencer par en définir les concepts clés et les principes fondamentaux.

1.3.1 Défintion

Le terme « IoT » a été utilisé pour la première fois en 1999 par Kevin Ashton, pionnier
de la technologie britannique, pour décrire un système dans lequel des objets du monde
physique pourraient être connectés à Internet au moyen de capteurs. Actuellement, il y a
près de 14 milliards d’appareils connectés à IoT, et ce nombre devrait atteindre plus de 30
milliards en 2025 (Huynh-Kim-Bang, 2009).

— Selon IBM, « l’Internet des objets (IoT) désigne les milliards d’appareils physiques
dans le monde qui sont désormais connectés à l’internet, et qui collectent et partagent
des données (Enterprise, 2022).

Page 11
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

— Selon Amazon, « Le terme IoT, ou internet des objets, désigne le réseau collectif d’ap-
pareils connectés et la technologie qui facilite la communication entre les appareils et
le cloud, ainsi qu’entre les appareils eux-mêmes .

— D’autre part, l’internet des objets (IoT) intègre des systèmes informatiques intelligents
dans des appareils et les connecte à internet. Ces appareils peuvent être utilisés dans
les entreprises B2C et B2B .

F IGURE 1.4 – Systèmes connectés dans IoT


(Enterprise, 2022)

Donc comme présenter dans la Figure 1.4, nous pouvons dire que l’internet des objets est
une technologie qui permet aux appareils physiques du monde entier d’être connectés à l’in-
ternet.

1.3.2 L’architecture de l’internet des objets (IoT)

Selon la majorité des chercheurs, l’architecture de l’IoT est généralement divisée en trois
couches (Boubidi and Nedjimi, 2023). Cette architecture est illustrée par la Figure 1.5.

Page 12
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

F IGURE 1.5 – Architecture IoT.


(Abbassi and Benlahmer, 2021)

Comme on peut le voir, les trois couches de l’architecture de l’IoT sont les suivantes :

— La couche perception : composée de capteurs et d’actionneurs, elle détecte et collecte


les informations sur l’environnement.

— La couche réseau : responsable de la connexion, du transport et du traitement des


données transmises par les capteurs et actionneurs.

— La couche application : dédiée à fournir à l’utilisateur des services spécifiques et des


applications intelligentes.

1.3.3 Les caractéristiques de l’internet des objets (IoT) :

L’IoT présente les caractéristiques suivantes (Laborie, 2024)

— Hétérogénéité des données IoT : Les systèmes IoT sont constitués de dispositifs variés,
utilisant différents protocoles de communication et générant divers types de données.

— Décentralisation des systèmes IoT : Ces systèmes doivent pouvoir échanger des infor-
mations, les exploiter et collaborer entre eux de manière autonome.

— Diversité des écosystèmes IoT : Les capteurs, actionneurs et logiciels employés dans
un système IoT varient significativement d’un écosystème à un autre.

Page 13
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

1.3.4 Domaines d’applications de l’IoT

L’internet des Objets (IoT) trouve des applications dans divers domaines, chacun profi-
tant de la connectivité et de la collecte de données en temps réel. Voici quelques domaines
principaux :

— Maison intelligente : Les appareils domestiques connectés, tels que les thermostats,
les éclairages, les caméras de sécurité et les appareils électroménagers, permettent une
automatisation et une gestion à distance, améliorant le confort et l’efficacité énergé-
tique.

— Santé et bien-être : L’IoT est utilisé pour le suivi des patients, les dispositifs médicaux
portables (comme les montres de fitness, les capteurs de glycémie), et les systèmes
de surveillance de la santé à distance. Cela améliore la qualité des soins et facilite le
suivi médical.

— Agriculture intelligente : L’IoT permet de surveiller l’humidité du sol, les conditions


météorologiques, et de gérer l’irrigation. Les agriculteurs peuvent ainsi optimiser les
ressources et augmenter les rendements tout en minimisant l’impact environnemental.

— Ville intelligente : L’IoT contribue à la gestion des infrastructures urbaines, telles que
l’éclairage public, les systèmes de gestion des déchets, la surveillance de la qualité
de l’air, et le transport public. Cela améliore l’efficacité énergétique, la sécurité, et la
qualité de vie.

— Industrie 4.0 et fabrication intelligente : L’IoT facilite la surveillance des machines,


l’optimisation de la chaîne de production, la maintenance prédictive et l’automatisa-
tion dans les usines. Cela augmente la productivité et réduit les temps d’arrêt impré-
vus.

— Transports et logistique : Les véhicules connectés, les capteurs de suivi d’inventaire, et


les systèmes de gestion des flottes améliorent l’efficacité du transport et de la gestion
des stocks, réduisant ainsi les coûts et augmentant la fiabilité des livraisons.

— Énergie et services publics : L’IoT est utilisé dans les compteurs intelligents, la gestion
de l’énergie et les réseaux intelligents (smart grids), permettant une utilisation plus
efficace des ressources énergétiques et une meilleure gestion des infrastructures.

Page 14
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

Chacun de ces domaines utilise l’IoT pour optimiser les opérations, améliorer l’efficacité et
fournir des services personnalisés, favorisant l’innovation et la durabilité tels que présenter
dans la Figure 1.6.

F IGURE 1.6 – Domaines d’application de l’IoT.


(Terir et al., 2020)

1.3.5 Les ontologies de l’IoT

Les ontologies de l’IoT permettent de structurer et de formaliser les connaissances sur


les objets connectés et leurs interactions, facilitant ainsi l’interopérabilité et l’analyse des
données dans des environnements complexes (AMARA, 2024).

1.3.5.1 Ontologies d’objets connecté

Le domaine le plus évident d’application des ontologies est celui de l’IoT lui-même.
Plusieurs ontologies, telles que l’iot-ontology proposée par (Seydoux et al., 2015), SAREF,
ou openiot-ontology, visent à décrire l’écosystème de l’IoT dans son ensemble.

Page 15
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

Le domaine des capteurs connectés mérite toutefois une attention particulière, car il
s’agit des objets connectés les plus "simples", facilitant des applications directes via la col-
lecte et le traitement massif de données (comme le projet Semsorgrid4env, par exemple). Ces
caractéristiques ont fait des réseaux de capteurs sémantisés un sujet d’étude central pour la
communauté du web sémantique, conduisant le W3C à créer un groupe de travail qui a déve-
loppé l’ontologie SSN (Semantic Sensor Network). Cette ontologie, désormais considérée
comme un standard, est intégrée dans de nombreux projets basés sur des réseaux de capteurs
et fait partie des ontologies couramment utilisées pour décrire les objets connectés.
Cependant, l’ambition de développer des ontologies globales pour l’IoT a engendré cer-
tains écueils, similaires à ceux rencontrés dans d’autres domaines cherchant à structurer
sémantiquement leurs informations. Il n’existe pas de référence unique : chaque projet tend
à redéfinir ses propres concepts, limitant la réutilisation de ceux créés par d’autres acteurs.
Ce manque de standardisation constitue un obstacle majeur dans le domaine de l’IoT, où
la sémantisation vise avant tout à favoriser l’interopérabilité, l’intégration et l’interprétation
des données.
Par exemple, iot-ontology et openiot-ontology définissent chacun leur propre concept de
service ad hoc, et dans l’ontologie SAREF, la notion de capteur est redéfinie alors qu’elle
existe déjà dans SSN. Plutôt que de réutiliser SSN, les auteurs de SAREF recommandent
dans un document annexe de créer un mapping entre leur ontologie et SSN, ce qui n’est pas
nécessairement la meilleure pratique pour favoriser l’interopérabilité.

1.3.5.2 Ontologies de service

L’IoT est étroitement lié aux architectures orientées services (SOA), comme le montre
(Seydoux et al., 2015). Dans ce contexte, les objets connectés peuvent être perçus comme
des fournisseurs et/ou consommateurs de services, leurs fonctionnalités étant décrites sous
forme d’interfaces de webservices.
La description sémantique de ces services a conduit à la création d’ontologies spécifiques,
telles que WSMO et MSM, qui permettent de définir les méthodes disponibles, les para-
mètres requis et les réponses attendues. Le W3C a également contribué en fédérant les re-
cherches avec OWL-S et WSMO.

Page 16
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

1.3.5.3 Ontologies de haut niveau

Les ontologies de haut niveau sont des structures très générales décrivant des concepts
abstraits applicables à divers domaines. Dans l’IoT, elles facilitent l’interopérabilité entre
différentes ontologies spécialisées (Seydoux et al., 2015).Par exemple, certaines notions
dans SSN sont des spécialisations de concepts présents dans DUL, et OntoSensor spécialise
des concepts de SUMO.

1.3.5.4 Ontologies spécifiques

Les réseaux d’objets connectés ne se limitent pas à leur déploiement : ils peuvent égale-
ment viser des applications spécifiques qui bénéficient de modélisations sémantiques dé-
diées. Ainsi, des ontologies spécifiques à la domotique ou aux phénomènes météorolo-
giques sont utilisées pour modéliser des réseaux de capteurs dans des domaines particuliers.
Par ailleurs, les ontologies couvrant des domaines transversaux comme le temps (OWL-
Time dans SSN), la géolocalisation (Geonames), ou les unités de mesure (SWEET, QUDT)
jouent un rôle essentiel pour garantir une interprétation uniforme des métadonnées, assurant
ainsi une meilleure interopérabilité des données collectées par les objets connectés (Seydoux
et al., 2015).

1.4 Séries temporelles


Une série temporelle (ou chronologique) est une suite d’observations x1, x2, · · · , xn
indexée par le temps comme présenter dans la Figure 1.7. On supposera qu’il s’agit d’une
réalisation d’un processus X, c’est à dire d’une suite Xi de variables aléatoires. Une série
temporelle est généralement constituée de plusieurs éléments (Monbet, 2011).
Une série temporelle est généralement décomposé en :

— Tendance : représente l’évolution à long terme de la série (échelle interanuelle). Exemples :


croissance économique, évolution climatologique à long terme (cyclique ou non)

— Saisonnalité : évolution se répétant régulièrement tous les ans ou tous les mois ou
toutes les semaines. Exemples :
– En météorologie, températures plus faibles en hiver qu’en été.

Page 17
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

F IGURE 1.7 – Séries temporelles.


(Monbet, 2011)

– En économie, saisonnalité induite par les périodes de vacances, les périodes de fêtes,
le climat...
– Chiffre d’affaire d’un magasin.

— Composante stationnaire (ou résiduelle) : ce qui reste lorsque l’on a enlevé les autres,
composantes. Décrit l’évolution à court terme de la série (échelle journalière).

Notion de série temporelle stationnaire définie plus précisément dans la suite. Cette hypo-
thèse jouera un rôle fondamental dans la suite, et remplacera l’hypothèse usuelle des v.a
i.i.d. (ici, il peut exister une dépendance entre deux valeurs successives prises par la série
observée). Le modèle le plus courant consiste à supposer que la série initiale s’écrit sous la
forme(modèle additif) .
Xt = Tt + St + Yt pour tout t 1, · · · , n
avec Xt la tendance, St la composante saisonnière (fonction périodique de période un
an) et Yt la composante stationnaire.

1.4.1 Comment stocker les séries temporelles

Les séries temporelles, largement utilisées dans de nombreux domaines, figurent parmi
les types de données les plus ciblés par le data mining. Un entrepôt de données, quant à lui,
est un espace de stockage centralisé qui regroupe des données issues de différentes sources,
puis les organise selon un modèle unifié. Une fois intégrées dans l’entrepôt, les données sont
nettoyées, consolidées, chargées et régulièrement mises à jour (Monbet, 2011).

Page 18
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

1.4.2 Objectifs de séries temporelles

Les principaux objectifs de la modélisation des séries temporelles sont les suivants :
• Decrire. Par exemple :
– en économétrie, détecter puis analyser les périodes de crises et croissances .
– en reconnaissance vocale, reconnaitre les mots dans des signaux .
– dans le séquençage du génome, détecter les parties de l’ADN qui contiennent de l’in-
formation.
• Comparer deux séries temporelles. Par exemple, l’évolution démographique de deux
régions ou deux séquences d’ADN.
• Prédire l’évolution future de la série temporelle à partir des valeurs qui ont été obser-
vées. Par exemple, pour des raisons socio-économiques on veut prévoir le temps qu’il va
faire,l’évolution des ventes d’un produit, la consommation d’électricité, etc.) Comment pré-
voir : en s’appuyant sur le passé. Pour prédire les ventes de l’année j + 1, nous s’appuie sur
l’évolution des ventes durant les années j, j 1, · · · mais on tient compte aussi d’évènement
(conjoncture, économique, crise, ...) (Amor, 2024).

1.4.3 Exemples des séries temporelles

Nous comptons illustrer les méthodes à l’aide de quelques exemples assez variés. La
discussion de ces exemples permettra de montrer l’application des différentes méthodes
(Mélard, 2006).
Exemple 1. CU, les prix du cuivre (1800-1997). Les données (Martino, 1983) sont an-
nuelles. Le graphe annoté est présenté dans la figure 1.9.Nous peut localiser la fin de la 1ère
guerre mondiale, la grande crise des années ‘30, les crises pétrolières de 1973 et 1980 (Mé-
lard, 2006).

Exemple : DISNEY, les revenus de Walt Disney Company (1982-1991). Il s’agit de


revenus trimestriels, en millions de dollars, d’après les rapports de la société [basé sur Levin
et Rubin, 1998, pp. 910-913] (Mélard, 2006) . Les données sont présentéesdans la figure1.10

Economie

Page 19
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

F IGURE 1.8 – Exemple : Les données du prix du cuivre.


(Mélard, 2006)

F IGURE 1.9 – Exemple : Les données des revenus de Walt Disney Company .
(Mélard, 2006)

F IGURE 1.10 – Exemple :évolution du cours du Dow Jones entre 1928 et 2004, données
mensuelles.
(Mélard, 2006)

1.4.4 Relation entre la sémantique et séries temporelles

La méthode de traitement des séries temporelles implique une transformation en sé-


quences temporelles en utilisant une composante sémantique pour décomposer les séries en
épisodes de valeurs consécutives partageant une même sémantique (Savarit et al., 2023) .
une sémantique appropriée en construisant un dictionnaire représentant des caractéristiques.

Page 20
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.

Le dictionnaire comprendra au moins trois éléments : (Croissant, Decroissant, Stable).

1.4.5 Relation entre séries temporelles et l’environnement connecté

La relation entre les séries temporelles et l’environnement connecté réside dans l’utilisa-
tion des données générées par les objets connectés pour comprendre et prédire les habitudes
des utilisateurs.
Par exemple : dans le cas d’une maison connectée, les données provenant de capteurs de
mouvement, de capteurs de porte et d’autres dispositifs peuvent être utilisées pour créer des
séries temporelles qui capturent les routines et les comportements des occupants, comme le
moment où ils entrent ou sortent de la maison, allument ou éteignent les lumières (Vuillemin
et al., 2019).

1.5 Conclusion
En conclusion, cet état de l’art a permis de mettre en évidence les principales méthodes
et techniques utilisées pour la prédiction sémantique dans le cadre de l’Internet des Objets.
Nous avons exploré une variété de modèles de prédiction, allant des algorithmes statistiques
aux techniques avancées d’apprentissage profond. L’utilisation de la sémantique pour en-
richir les prédictions est cruciale, car elle permet une interprétation plus contextuelle des
données. De plus, la fouille de règles et les ontologies jouent un rôle clé dans la structura-
tion et l’interprétation des flux d’informations complexes générés par les réseaux IoT.

Page 21
Chapitre 2

Revue des méthodes d’annotation des


séries temprelles dans les systèmes IoT

2.1 Introduction
Nous explorons dans cette section l’analyse des séries temporelles et la prédiction d’évé-
nements anormaux, deux domaines essentiels pour anticiper les évolutions futures dans di-
vers secteurs tels que la finance, l’industrie, l’IoT et la santé. La prédiction d’anomalies
nous permet d’identifier à l’avance les comportements déviants ou les situations à risque,
offrant ainsi la possibilité de prendre des mesures proactives. Face à l’explosion des don-
nées temporelles générées par les objets connectés, les techniques de prédiction évoluent
rapidement. Nous présentons ici un panorama des méthodes utilisées, allant des modèles
statistiques classiques aux approches d’apprentissage automatique les plus récentes, tout en
abordant l’utilisation d’ontologies pour représenter la connaissance du domaine.

2.2 Prédiction d’anomalies


La prédiction d’anomalies est une technique d’analyse de données qui vise à détecter
et anticiper des événements rares, inattendus ou aberrants dans un ensemble de données,
en particulier dans des séries temporelles. Ces anomalies, qui peuvent être des variations
soudaines, des tendances anormales ou des comportements inhabituels, se démarquent des
schémas normaux et peuvent indiquer des problèmes potentiels, des erreurs ou des change-
ments dans le système surveillé (Diallo et al., 2020).

22
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

2.2.1 Prédiction d’anomalies sur les systemes IoT

Dans le cadre des systèmes IoT, la prédiction d’anomalies joue un rôle crucial pour as-
surer la fiabilité et la sécurité des dispositifs connectés. En analysant les flux de données
issus des capteurs, les modèles prédictifs sont capables d’identifier les comportements po-
tentiellement défaillants avant leur apparition. Cette surveillance proactive, basée sur des
modèles de détection et de comportement établis durant une période d’apprentissage, per-
met d’émettre des alertes précoces et de déclencher des actions de récupération (comme des
sauvegardes ou redémarrages du système) afin de limiter les risques d’interruption (Serardi
et al., 2023).
La prédiction d’anomalies dans les systèmes IoT joue un rôle essentiel pour garantir
la fiabilité, la sécurité et l’efficacité de ces systèmes. Voici les principaux rôles de cette
prédiction :

— Prévention des défaillances : La prédiction d’anomalies permet d’identifier les signes


avant-coureurs de défaillances dans les dispositifs IoT avant qu’elles ne se produisent
réellement. Cela permet aux opérateurs d’intervenir de manière proactive pour éviter
des interruptions de service ou des pannes.

— Réduction des coûts de maintenance : En prévoyant les anomalies, les systèmes IoT
permettent de passer d’une maintenance réactive à une maintenance prédictive. Cela
signifie que les interventions de maintenance peuvent être planifiées en fonction des
besoins réels, réduisant ainsi les coûts associés aux réparations imprévues.

— Amélioration de la sécurité : Les anomalies dans les systèmes IoT peuvent parfois
indiquer des tentatives d’intrusion ou des attaques. La prédiction d’anomalies permet
de détecter ces incidents potentiels avant qu’ils ne causent des dommages, renforçant
ainsi la sécurité des systèmes.

— Optimisation des performances : En identifiant les comportements anormaux avant


qu’ils ne se traduisent par des problèmes plus importants, la prédiction d’anomalies
contribue à maintenir les systèmes IoT dans un état optimal, garantissant des perfor-
mances stables et efficaces.

— Gestion des ressources : La prédiction d’anomalies permet de gérer efficacement les


ressources énergétiques et informatiques des dispositifs IoT, car les interventions ne

Page 23
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

sont déclenchées qu’en cas de besoin prédit, évitant ainsi les actions inutiles.

F IGURE 2.1 – Environnement IoT pour la prédiction d’anomalies sur les systèmes IoT.
(Serardi et al., 2023)

La figure 2.1 montre une configuration générale pour prédiction d’anomalies sur un sys-
tème IoT général, qui se compose des composants suivants : une machine D à surveiller ; des
capteurs s1, s2,s3, . . ., sK ; des moniteurs esclaves, m1, m2, m3, . . ., mK ; un moniteur maître
M. Le capteur si détecte les signaux émis par D à une fréquence fixe ou variable, convertit
les signaux en données de détection simples ou multiples et envoie les flux de données de
détection au moniteur esclave mi . Cette configuration peut être appliquée à de nombreux
systèmes IoT où plusieurs dispositifs IoT (de différents types) ou capteurs sont intégrés au
système, et les dispositifs IoT sont connectés à Internet via des communications sans fil.

2.3 Stratègies et techniques


Pour aborder les stratégies et techniques employées dans l’analyse et la prédiction, il
est crucial de commencer par les modèles statistiques, qui constituent la base des approches
traditionnelles.

2.3.1 Modéles statistiques

Le modèle statistique est un modèle linéaire multivarié de type VAR structurel, régu-
larisé L1, qui permet l’utilisation conjointe de nombreux capteurs. En comparant les pré-
dictions du modèle avec les valeurs réelles, nous montrons qu’un tel modèle permettrait de

Page 24
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

détecter à la fois des anomalies soudaines et des dérives lentes, que ce soit sur la structure
ou sur les capteurs.
En utilisant une connaissance approfondie de la structure et des principes physiques des
capteurs, nous pouvons concevoir un modèle direct pour analyser les signaux collectés. Nous
nous focalisons ici sur un modèle statistique permettant de décrire et de prévoir l’évolution
des signaux. Ce type de modèle est particulièrement utile pour anticiper les variations d’un
signal, par exemple en cas de défaillance d’un capteur. L’analyse des résidus de prédiction,
réalisée en temps réel lors des acquisitions, peut également servir à détecter des anomalies
dans les mesures, le fonctionnement des capteurs ou la structure elle-même. Par ailleurs, il
est possible d’associer une interprétation physique aux paramètres du modèle.
Bien que les modèles statistiques offrent une première étape d’analyse, les modèles de ma-
chine learning apportent une capacité supplémentaire à apprendre des données et à s’adapter
à des environnements complexes.

2.3.2 Modéles machine learning

L’apprentissage automatique, ou Machine Learning (ML), est défini comme un domaine


de l’intelligence artificielle qui permet aux systèmes informatiques d’apprendre et d’amé-
liorer leurs performances sur des tâches spécifiques sans être explicitement programmés.
Il repose sur des algorithmes qui analysent des données, détectent des patterns et font des
prédictions ou des décisions basées sur ces données. Selon (Mahesh, 2020), il s’agit de «
donner aux ordinateurs la capacité d’apprendre sans être programmés explicitement».
Dans le contexte de la prédiction d’anomalies, le machine learning est défini comme une
méthode permettant de construire des modèles prédictifs à partir de données observées,
en identifiant des comportements inhabituels ou des écarts par rapport aux schémas nor-
maux. Ces modèles peuvent apprendre à partir d’exemples pour détecter automatiquement
des anomalies dans des environnements complexes. Les algorithmes utilisés, tels que les
forêts aléatoires, les réseaux bayésiens et les machines à vecteurs de support, permettent
d’analyser des données en temps réel et de fournir des alertes précoces pour anticiper les
anomalies

Page 25
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

F IGURE 2.2 – Prèsentation de la pile de l’intelligence et l’apprentisage .


(Djemmam, 2023)

2.3.2.1 Techniques d’apprentissage automatique

L’apprentissage automatique regroupe plusieurs techniques, mais il n’est pas toujours


facile d’identifier la valeur et l’information présentes dans les données disponibles. Deux
grandes catégories d’algorithmes existent : l’apprentissage supervisé et l’apprentissage non
supervisé.
L’apprentissage supervisé consiste à modéliser la relation entre les données d’entrée et
une cible précise (comme des classes ou des valeurs à prédire). Il est essentiel de bien définir
cette cible, qui représente souvent une réponse à une question spécifique. La cible peut
être liée à un événement futur à prédire ou à un événement passé dont nous souhaitons
comprendre la nature, comme dans le cas de la détection de fraude.
L’apprentissage supervisé est Utilisé pour construire des modèles prédictifs sur des données
étiquetées, permettant des tâches telles que la classification binaire (anomalie/non-anomalie)
et la régression pour les séries temporelles (Bibimoune et al., 2016). Parmi les techniques
principales,nous peut citer :

— Réseaux de Neurones Récurrents (RNN) :Les Réseaux de Neurones Récurrents (RNN)


sont particulièrement bien adaptés pour traiter les séries temporelles, car ils intègrent
des mécanismes de mémoire qui leur permettent de tenir compte des dépendances
temporelles dans les données (Lin et al., 2020).

Page 26
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

— Machines à Vecteurs de Support (SVM) :Les Machines à Vecteurs de Support (Sup-


port Vector Machines, SVM) sont des algorithmes robustes pour les tâches de clas-
sification et de régression. Bien qu’ils soient généralement utilisés pour des données
tabulaires, ils peuvent également traiter les séries temporelles après transformation
(Adombi, 2024).

En revanche, l’apprentissage non supervisé analyse les données sans objectif préalablement
défini. Il est principalement utilisé pour des tâches de segmentation (clustering) ou de géné-
ration de règles d’association, permettant de détecter des structures et des similarités dans
les données.Parmi les techniques principales, on trouve :

— K-Means Clustering : L’algorithme partitionne les données en un nombre fixe de clus-


ters k, en minimisant la variance intra-cluster. Les anomalies sont identifiées comme
des points éloignés de leur cluster assigné (Adombi, 2024).

— DBSCAN (Density-Based Spatial Clustering of Applications with Noise) :DBSCAN


est un algorithme de clustering basé sur la densité qui détecte les groupes de points à
haute densité et les sépare des points à faible densité, considérés comme du bruit ou
des anomalies (Diallo et al., 2020).

— Isolation Forest : L’algorithme isolation forest est une méthode non supervisée spé-
cialisée dans la détections d’anomalies. Contrairement aux techniques de clustering
ou aux autoencodeurs, il identifie directement les anomalies en se concentrant sur leur
isolement dans l’espace des données (Liu et al., 2008).

2.3.3 Modèles de deep learning

L’apprentissage profond, ou Deep Learning (DL), est une branche de l’Intelligence Ar-
tificielle (IA) et de l’apprentissage automatique (Machine Learning, ML) qui permet à un
système d’apprendre à résoudre un problème de manière autonome.
Le Deep Learning s’est imposé comme une approche incontournable pour la prédiction
d’anomalies, en particulier dans les systèmes IoT et les environnements industriels. Grâce à
sa capacité à traiter de grandes quantités de données complexes et hétérogènes, le Deep Lear-
ning permet de capturer des patterns temporels et spatiaux riches, souvent inaccessibles aux
méthodes traditionnelles. Cette section explore les algorithmes principaux, dans le contexte
de la prédiction d’anomalies.

Page 27
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

— Long Short-Term Memory (LSTM) : Les Long Short-Term Memory (LSTM), une
variante des Réseaux de Neurones Récurrents (RNN), sont spécialement conçus pour
surmonter les limitations des RNN classiques, telles que le gradient vanissant ou ex-
plosif. Les LSTM permettent de capturer des dépendances temporelles à long terme,
ce qui les rend particulièrement adaptés à la prédiction d’anomalies dans des séries
temporelles complexes (Hochreiter, 1997).

— Autoencodeurs : Les autoencodeurs sont des architectures de Deep Learning non su-
pervisées conçues pour réduire la dimensionnalité des données et reconstruire celles-
ci. Les anomalies sont détectées à partir des erreurs de reconstruction élevées (Lin
et al., 2020).

Le deep learning offre une approche puissante pour la prédiction d’anomalies dans les séries
temporelles et les systèmes IoT, mais il nécessite une infrastructure robuste et une gestion at-
tentive des données pour surmonter ses limitations. En combinant des architectures adaptées
comme les LSTM, les autoencodeurs , ces modèles permettent de capturer les complexités
des environnements modernes, ouvrant la voie à des systèmes prédictifs plus fiables et effi-
caces.

2.3.3.1 Techniques d’apprentissage basées sur les graphes

Les techniques d’apprentissage basées sur les graphes ont gagné en popularité pour la
prédiction d’anomalies, en particulier dans les environnements IoT et les systèmes com-
plexes. Ces approches exploitent la structure relationnelle des données pour détecter des
anomalies qui ne seraient pas apparentes dans les données tabulaires ou séquentielles clas-
siques.

— Graph Neural Networks (GNN) :Les réseaux de neurones pour graphes (GNN) sont
conçus pour traiter des données structurées sous forme de graphes, où les relations
entre les entités (nœuds) sont aussi importantes que les entités elles-mêmes (Gilmer
et al., 2017).

— Graph Embedding : Les techniques d’embedding pour graphes visent à représenter


les nœuds, les arêtes ou les graphes entiers dans un espace vectoriel dense, tout en
préservant leurs relations structurelles (Hubert et al., 2024).

Page 28
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

Les techniques d’apprentissage basées sur les graphes constituent un outil puissant pour
la prédiction d’anomalies dans des environnements complexes. Cependant, leur efficacité
dépend de la qualité de la représentation des graphes et des ressources disponibles pour
traiter les structures complexes.

2.3.4 Approches ontologiques

Les approches ontologiques appliquées à la prédiction des séries temporelles enrichissent


les données avec des annotations sémantiques, permettant ainsi une compréhension plus
approfondie des motifs et des anomalies potentielles. En utilisant des ontologies, qui défi-
nissent les concepts et les relations d’un domaine spécifique, les séries temporelles peuvent
être annotées pour capturer le contexte sémantique des données. Cela permet de prédire
des anomalies dans des contextes plus riches et de relier les événements temporels à des
concepts de plus haut niveau.
Cette approche est particulièrement avantageuse dans les environnements IoT, où les
données proviennent de multiples sources et revêtent des significations contextuelles va-
riées. En reliant les données à des concepts et des relations définis, les anomalies poten-
tielles peuvent être anticipées et interprétées dans des scénarios plus vastes, facilitant ainsi
une réponse proactive et mieux adaptée aux événements à venir. Après avoir examiné les
approches ontologiques, il est pertinent de se tourner vers l’état de l’art pour situer ces mé-
thodes dans le paysage actuel des recherches (Seydoux et al., 2015).

2.4 Etat de l’art


(Diallo et al., 2020) les auteurs proposent une approche basée sur l’apprentissage su-
pervisé et les réseaux LSTM (Long Short-Term Memory) pour la prédiction des anomalies
et des pannes dans des environnements industriels connectés (Industrie 4.0). Les méthodes
utilisées incluent la classification pour détecter les anomalies et la régression pour estimer le
temps restant avant une panne (Remaining Useful Life - RUL). Les étapes de mise en œuvre
commencent par la collecte et la préparation des données, incluant le nettoyage et la trans-
formation des séries temporelles en fenêtres glissantes. Les modèles LSTM sont ensuite
entraînés pour exploiter les dépendances temporelles et prédire des pannes avec une grande
précision. La solution proposée démontre son efficacité en détectant les anomalies avant

Page 29
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

qu’elles ne causent des perturbations majeures, grâce à l’analyse des données de capteurs
en temps réel. Les résultats expérimentaux, obtenus notamment sur les jeux de données des
moteurs turbofan, montrent des prédictions précises du RUL, avec des métriques telles que
l’erreur absolue moyenne (MAE), l’erreur quadratique moyenne (MSE), et la courbe ROC
pour l’évaluation des performances. Cette approche dépasse les méthodes classiques en of-
frant une anticipation fiable et une meilleure interprétation des anomalies dans des systèmes
complexes.

(Bibimoune et al., 2016) Les auteurs explorent l’utilisation de l’apprentissage automa-


tique pour l’analyse prédictive des séries temporelles, notamment dans des contextes tels
que la consommation énergétique. Les méthodes utilisées incluent l’apprentissage super-
visé, comme les réseaux de neurones profonds (DNN) et la régression linéaire, ainsi que des
techniques non supervisées, comme le clustering avec k-means. Les étapes commencent par
la collecte de données issues de capteurs IoT et de bases de données, suivie du prétraitement
pour nettoyer, normaliser et transformer les données en variables pertinentes. La modélisa-
tion repose sur des DNN pour capturer les relations complexes et sur la validation croisée
pour évaluer la robustesse des modèles. La solution proposée améliore significativement la
précision des prédictions, comme démontré dans l’exemple de la consommation énergétique
en France, où l’erreur moyenne est réduite à 0,82 % par rapport aux 3,57 % des approches
classiques. Les performances des modèles sont mesurées à l’aide de métriques telles que
l’erreur absolue moyenne (MAE), l’erreur quadratique moyenne (MSE) et la précision, dé-
montrant l’efficacité et la fiabilité des approches proposées.
(Lin et al., 2020) ,les auteurs explorent diverses approches pour la détection et la prédiction
d’anomalies dans les systèmes IoT. Trois catégories principales de techniques sont utili-
sées : la modélisation statistique, l’apprentissage supervisé et l’apprentissage non supervisé.
Chaque méthode est adaptée à des scénarios spécifiques : la modélisation statistique permet
de créer des modèles pour détecter les écarts significatifs, l’apprentissage supervisé nécessite
des données étiquetées pour construire des modèles prédictifs, et l’apprentissage non super-
visé identifie les anomalies sans nécessiter de connaissances préalables sur les données. Les
étapes clés incluent la collecte de données, leur transformation en flux multidimensionnels,
la construction de modèles de comportement pendant une période d’apprentissage, et enfin
l’application des modèles pour détecter ou prédire les anomalies.

Page 30
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

Les résultats obtenus montrent que les algorithmes supervisés, comme Random Forest et
SVM, surpassent généralement les approches non supervisées, particulièrement sur des en-
sembles de données riches et variés.
Les métriques utilisées incluent la précision, le rappel et le score F1, fournissant une éva-
luation robuste des performances des modèles. Cette étude met en lumière les défis liés aux
ensembles de données déséquilibrés et à la nécessité de réduire la dépendance aux connais-
sances expertes dans les environnements IoT.
(Belghiti, 2021)les auteurs explorent les approches de détection d’anomalies et leur rôle
crucial dans la maintenance prédictive des systèmes industriels. Deux principales contribu-
tions sont proposées : une méthode de classification semi-supervisée et une méthode non-
supervisée, toutes deux basées sur la théorie du transport optimal. La première méthode
repose sur la modélisation des séries temporelles pour identifier les écarts significatifs entre
les données réelles et prédites, tandis que la seconde s’appuie sur des métriques de densité
locale dans des espaces multidimensionnels non-euclidiens. Les étapes incluent la collecte
et la préparation des données, leur modélisation à l’aide de techniques mathématiques avan-
cées, et l’application des algorithmes pour détecter les anomalies.
Les résultats montrent une amélioration significative par rapport aux méthodes existantes,
notamment dans la robustesse des détections dans des environnements de données com-
plexes.
Les performances ont été mesurées à l’aide de métriques telles que l’aire sous la courbe
ROC (AUC-ROC), le score F1 et l’Accuracy, qui démontrent l’efficacité des contributions
dans la réduction des faux positifs et l’amélioration de la précision globale. Ces avancées
ouvrent des perspectives prometteuses pour une maintenance industrielle proactive et opti-
misée.
(Vuillemin et al., 2019)les auteurs proposent un nouvel algorithme, TSRuleGrowth, conçu
pour extraire des règles de prédiction semi-ordonnées à partir de séries temporelles discrètes
dans un environnement connecté. Cet algorithme s’appuie sur les principes de la fouille de
règles et introduit une nouvelle notion de support adaptée aux séries temporelles. Les étapes
incluent la collecte des données issues de capteurs et actionneurs, la transformation de ces
données en séries temporelles catégoriques, et l’application de TSRuleGrowth pour identi-
fier des relations fréquentes entre les événements.
L’algorithme utilise une fenêtre temporelle pour limiter les recherches et applique des mé-

Page 31
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

canismes spécifiques pour éviter les doublons et réduire la complexité computationnelle.


Les résultats, obtenus à partir du dataset Orange4Home, montrent que TSRuleGrowth peut
détecter des habitudes simples, comme l’activation d’éclairages via des interrupteurs, ainsi
que des schémas plus complexes reliant différents objets connectés.
Les métriques utilisées incluent le support et la mesure d’intérêt Netconf, qui évalue la fia-
bilité des règles. L’algorithme a démontré une performance robuste en termes de rapidité et
de pertinence dans des scénarios réels, contribuant ainsi à une automatisation intelligente
des environnements connectés.

(Seydoux et al., 2015)les auteurs explorent les défis et les solutions liés à l’application
de la sémantique dans l’Internet des Objets (IoT) pour améliorer l’interopérabilité et l’inter-
prétation des données hétérogènes. Les auteurs proposent une ontologie modulaire appelée
IoT-O, conçue pour structurer et standardiser les informations provenant des capteurs, des
actionneurs et des services IoT. IoT-O intègre des sous-modules spécifiques, tels que l’ob-
servation, les capteurs (basés sur l’ontologie SSN) et les services (reposant sur MSM), pour
offrir une représentation cohérente et flexible des systèmes IoT. L’approche est illustrée dans
le projet ADREAM, où IoT-O est utilisée pour diagnostiquer les pannes des capteurs et dé-
tecter des anomalies dans les systèmes asservis, démontrant son efficacité pour optimiser la
gestion des données IoT.
Les résultats montrent une amélioration significative de l’interopérabilité et de la modula-
rité, rendant les systèmes IoT plus robustes et évolutifs.
Les métriques utilisées incluent la couverture des données, la précision des détections d’ano-
malies et la modularité de l’ontologie. Cette étude souligne l’importance de la sémantique
pour structurer les environnements connectés et propose des perspectives pour l’élargisse-
ment des applications de IoT-O à des écosystèmes plus complexes.
(Sassi et al., 2013)L’article explore une approche innovante pour l’enrichissement des re-
quêtes et des cercles sociaux des utilisateurs dans le cadre de la recherche d’information
contextuelle et sociale. La méthode repose sur trois étapes principales : la construction
d’une situation sémantique pour chaque utilisateur à partir de données spatiotemporelles,
la prédiction des intérêts utilisateurs basée sur des techniques de classification associative,
et l’enrichissement des requêtes ainsi que des cercles sociaux en s’appuyant sur l’ontologie
FOAF et la méthode de marche aléatoire.

Page 32
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

Les résultats expérimentaux montrent que l’approche proposée améliore significativement


la précision des résultats de recherche et enrichit de manière dynamique les cercles sociaux
en identifiant les communautés pertinentes.
Les performances ont été évaluées à l’aide de métriques telles que la précision, démontrant
une efficacité supérieure par rapport aux méthodes traditionnelles comme l’algorithme GN.
Cette approche ouvre de nouvelles perspectives pour la personnalisation et l’optimisation
des recherches dans des environnements mobiles.
Après avoir exploré les principales approches, techniques et stratégies dans le cadre de l’état
de l’art, il est désormais essentiel de comparer ces méthodes selon des critères bien définis,
afin d’évaluer leur pertinence et leur efficacité dans le contexte des systèmes IoT.

2.5 Etude comparative


Le tableau suivant présente une synthèse des articles étudiés, en mettant en évidence
leurs spécificités selon les critères d’entrée, de sortie, des techniques utilisées, et des do-
maines d’application, afin d’étayer l’analyse comparative menée dans cette section.

— (Bibimoune et al., 2016) se concentrent sur l’analyse des données IoT issues de cap-
teurs pour effectuer des prédictions sur des séries temporelles enrichies. L’approche
repose sur l’utilisation des réseaux de neurones profonds (DNN), combinés à des
techniques de régression linéaire et de normalisation des données, pour modéliser
les comportements des systèmes. Appliquée au domaine de la consommation éner-
gétique, cette méthode permet de traiter efficacement de grands volumes de données
tout en identifiant des anomalies potentielles. Les résultats visent à optimiser l’effi-
cacité énergétique des systèmes en anticipant des défaillances ou des comportements
atypiques.

— (Lin et al., 2020) explorent l’analyse de données multidimensionnelles issues de sys-


tèmes industriels pour détecter et prédire des anomalies. Leur méthode repose sur une
approche hybride combinant des techniques supervisées, comme le Random Forest et
le SVM, avec des méthodes non supervisées et une modélisation statistique. Appli-
quée au contexte de l’industrie 4.0, cette approche se distingue par sa capacité à gérer
des séries temporelles complexes et multidimensionnelles, tout en offrant des résul-
tats en temps réel. Cette méthodologie répond aux défis des environnements indus-

Page 33
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

triels dynamiques et hétérogènes, permettant une meilleure surveillance des systèmes


et une anticipation des défaillances.

— (Diallo et al., 2020)s’intéressent aux séries temporelles issues d’environnements IoT


pour prédire des anomalies dans des données contextuelles. Leur approche repose sur
l’apprentissage supervisé avec des modèles LSTM, complété par des méthodes d’en-
richissement et de structuration contextuelle. Appliquée au domaine de l’Internet des
Objets, cette méthode se distingue par sa capacité à capturer les dépendances tempo-
relles complexes tout en intégrant des spécificités contextuelles. L’enrichissement des
données permet d’améliorer significativement la précision des prédictions, répondant
ainsi aux défis des environnements IoT dynamiques et hétérogènes.

— (Vuillemin et al., 2019) se concentrent sur l’analyse des séries temporelles pour ex-
traire des règles semi-ordonnées grâce à l’algorithme TSRuleGrowth. Ce dernier uti-
lise une fenêtre temporelle pour identifier des motifs séquentiels pertinents dans les
données. Appliquée au domaine de l’intelligence ambiante, cette méthode innovante
facilite l’automatisation des systèmes intelligents dans des environnements connectés.
Elle se distingue par sa capacité à détecter des patterns réguliers, essentiels pour anti-
ciper les comportements et optimiser les interactions au sein des systèmes connectés.

— (Seydoux et al., 2015) s’intéressent à l’intégration des données hétérogènes prove-


nant d’objets IoT en développant une ontologie modulaire. Cette approche repose sur
l’utilisation d’ontologies et d’enrichissements basés sur des standards tels que SSN
et MSM, permettant de structurer les données de manière cohérente et standardisée.
Appliquée au domaine de l’interopérabilité IoT, cette méthode vise à réduire les silos
de données en facilitant l’intégration des objets connectés. En fournissant un cadre
structuré, elle améliore la communication et l’interopérabilité entre les systèmes IoT,
répondant ainsi aux défis des environnements hétérogènes et complexes.

— (Sassi et al., 2013) se concentrent sur l’exploitation des données utilisateur spatio-
temporelles pour enrichir les requêtes contextuelles et les ontologies. Leur approche
combine l’utilisation d’ontologies (comme FOAF), de modèles probabilistes et de
techniques de marche aléatoire pour structurer et analyser les données. Appliquée au
domaine de la recherche d’informations contextuelles, cette méthode améliore signi-
ficativement l’interprétation des données spatio-temporelles. En intégrant des infor-

Page 34
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

mations contextuelles riches, elle optimise la pertinence et l’efficacité des systèmes


de recherche, répondant aux besoins croissants d’analyse dans des environnements
complexes.

Chaque étude apporte une contribution spécifique adaptée à des cas d’usage variés. Les
approches basées sur les séries temporelles (LSTM, TSRuleGrowth) se montrent particu-
lièrement efficaces pour la prédiction d’anomalies dans des environnements dynamiques.
En parallèle, les méthodes ontologiques offrent une meilleure structuration et interopéra-
bilité des données, tandis que les techniques hybrides (Random Forest, SVM) permettent
de combiner précision et efficacité dans des contextes industriels complexes. Cette diversité
souligne l’importance de choisir les techniques en fonction des données disponibles et des
objectifs visés.
Ce tableau 2.1 a mis en lumière l’efficacité et les limites des méthodes étudiées en fonc-
tion de leurs objectifs et des environnements IoT analysés.

Page 35
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

TABLE 2.1 – Comparaison des approches utilisées pour l’annotation des séries temporelles
dans les systèmes IoT.

Méthode Entrée Sortie Technique et stratégie Domaine d’ap-


utilisées plication
(Bibimoune Données IoT Prédictions sur Réseaux de neurones Consommation
et al., 2016) issues de cap- des séries tempo- profonds (DNN), ré- énergétique
teurs relles enrichies gression linéaire, nor-
malisation des données
(Lin et al., Données Détection et pré- Random Forest, SVM, Industrie 4.0
2020) multidimen- diction d’anoma- Modélisation statis-
sionnelles lies tique supervisée et non
des systèmes supervisée
industriels
(Diallo Séries tempo- Anomalies pré- Apprentissage su- Internet des Ob-
et al., 2020) relles issues dictives dans des pervisé avec LSTM, jets
d’environne- données contex- méthodes d’enrichis-
ments IoT tuelles sement de données
contextuelles
(Laborie, Données pro- Validation et ano- Approches formelles Systèmes IoT
2024) venant de cap- malies basées sur des graphes complexes
teurs IoT et vérifications séman-
tiques
(Belghiti, Séries tempo- Identification des Transport optimal, Maintenance pré-
2021) relles des sys- anomalies classification semi- dictive
tèmes connec- supervisée et non
tés supervisée
(Vuillemin Séries tempo- Règles semi- Algorithme TSRule- Intelligence am-
et al., 2019) relles discrètes ordonnées Growth avec fenêtre biante
temporelle pour les
événements
(Seydoux Données Ontologie modu- Ontologies IoT-O, en- Interopérabilité
et al., 2015) hétérogènes laire richissement contextuel IoT
provenant basé sur SSN et MSM
d’objets IoT
(Sassi et al., Données utili- Enrichissement Classification associa- Recherche
2013) sateur spatio- de requêtes tive, ontologie FOAF, d’informations
temporelles méthode de marche contextuelles
aléatoire

Dans un écosystème IoT en constante évolution, le défi réside dans la capacité à in-
terpréter des données massives, souvent hétérogènes et non structurées, générées par une
multitude d’appareils connectés. Les méthodes prédictives traditionnelles, bien qu’efficaces
pour extraire des corrélations, manquent de la profondeur contextuelle nécessaire pour ap-
préhender les relations complexes entre les variables. Cela limite leur capacité à fournir des

Page 36
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT

recommandations pertinentes et proactives.


Cependant, les approches traditionnelles montrent leurs limites face à la nature dyna-
mique et interconnectée des environnements IoT, où les relations entre les variables et les
fluctuations temporelles jouent un rôle crucial.
Comment développer et intégrer une méthode de prédiction, capable de traiter effica-
cement les données IoT et d’améliorer la précision, la pertinence et l’actionnabilité des
prédictions dans un contexte opérationnel complexe ?

2.6 Conclusion
Ce chapitre nous a permis d’explorer en profondeur les différentes approches techniques
utilisées pour l’annotation des séries temporelles dans les systèmes IoT. À travers une ana-
lyse détaillée des modèles statistiques, des techniques d’apprentissage automatique (Ma-
chine Learning et Deep Learning), ainsi que des approches ontologiques, nous avons mis en
lumière leurs spécificités, avantages et limites dans le contexte des environnements IoT.
Les modèles statistiques offrent une base solide pour une analyse rapide et explicative,
notamment grâce à leur capacité à capturer des tendances simples et des anomalies sou-
daines. Cependant, leur capacité à traiter les relations complexes entre les données est limi-
tée, ce qui a conduit à l’émergence des méthodes d’apprentissage automatique. Ces dernières
exploitent pleinement les données complexes et multidimensionnelles, permettant ainsi des
prédictions plus précises et robustes.
L’étude comparative réalisée a permis de synthétiser les entrées, sorties, techniques et
domaines d’application des différentes approches, en s’appuyant sur une sélection d’articles
récents et pertinents. En conclusion, ce chapitre souligne l’importance de combiner plusieurs
approches pour répondre aux défis posés par les séries temporelles dans les systèmes IoT.
L’enrichissement contextuel des données, la modularité des ontologies et l’efficacité des
algorithmes d’apprentissage automatique ouvrent la voie à des solutions innovantes pour
l’annotation et la prédiction des anomalies dans les environnements IoT complexes.

Page 37
Chapitre 3

Proposition de la nouvelle méthode de


la prédiction d’anomalies basée sur la
sémantique

3.1 Introduction
Dans un monde où les données occupent une place centrale, la capacité à identifier et
anticiper les anomalies au sein des systèmes est devenue un enjeu crucial. Ces anomalies
peuvent révéler des dysfonctionnements, des comportements atypiques ou des événements
rares nécessitant une intervention spécifique. Cependant, les méthodes traditionnelles de dé-
tection d’anomalies, souvent limitées à des analyses statistiques ou des modèles simples,
peinent à fournir des résultats efficaces dans des contextes complexes où les données sont
riches et multidimensionnelles. Ce chapitre présente une approche novatrice pour la détec-
tion et la prédiction des anomalies, s’appuyant sur une ontologie enrichie. Cette méthode
repose sur une modélisation sémantique des interactions entre différents paramètres mesu-
rés, complétée par l’utilisation d’algorithmes avancés capables d’analyser ces relations et de
prévoir les anomalies à venir.

3.2 Contribution
Notre méthodologie propose une intégration innovante des séries temporelles brutes avec
des données sémantiques enrichies tels que présenter dans la Figure 3.1. Elle s’articule au-

38
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

tour des étapes clés suivantes :

— La structuration des données via une ontologie spécifique.

— L’enrichissement des séries temporelles afin d’y incorporer des relations contextuelles.

— L’application d’algorithmes avancés, tels que LSTM , Isolation Forest et GNN , pour
identifier et anticiper les anomalies.

F IGURE 3.1 – Les étapes de notre contribution

Page 39
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

3.2.1 Présentation du contexte

Les séries temporelles générées par les capteurs occupent une place centrale dans les
systèmes de surveillance modernes, avec des applications variées telles que la gestion indus-
trielle, l’environnement et les systèmes de santé. Bien que ces données soient abondantes et
riches en informations, elles présentent plusieurs défis pour leur exploitation directe. Nous
devons donc les structurer et les enrichir afin de les exploiter pleinement, notamment dans
le cadre de la détection et de la prédiction des anomalies.

Les séries temporelles sont une séquence de données collectées à intervalles réguliers,
représentant l’évolution d’un ou plusieurs paramètres mesurés au fil du temps. Par exemple :Pa-
ramètres mesurés par les capteurs (température (°C), humidité relative (%),Luminosité (lux),Qualité
de l’air )
Chaque observation dans la série temporelle comprend deux composants essentiels :

— Horodatage : Le moment exact où la mesure a été effectuée


(par exemple, 2024-11-17 08 :00 :00).

— Valeurs des paramètres : Les données mesurées à cet instant.

Après avoir établi le contexte et les enjeux liés aux données IoT dans la section précédente,
nous abordons maintenant le format générique de ces données, essentiel pour garantir leur
traitement optimal et leur intégration dans les modèles de détection.

3.2.2 Format générique des données

Les données utilisées dans le cadre de ce projet sont issues de capteurs qui collectent des
séries temporelles représentant l’évolution de différents paramètres dans le temps. Ces don-
nées brutes, généralement enregistrées sous forme tabulaire (fichiers CSV), nécessitent une
structuration et une description précises pour être exploitées efficacement. Cette section dé-
taille le format générique des données et met en évidence leurs caractéristiques essentielles
avant leur transformation et enrichissement.

Page 40
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

3.2.2.1 Structure Générale des Données

Les données brutes sont collectées à intervalles réguliers et structurées sous forme de ta-
bleau, où chaque ligne correspond à une observation à un moment précis, tandis que chaque
colonne représente les valeurs des paramètres mesurés.
Colonnes Typiques : Horodatage (Time) :

— Définit le moment précis de la mesure.

— Format standard : YYYY-MM-DD HH :MM :SS (par exemple, 2024-11-17 08 :00 :00).

— Permet d’identifier les tendances et d’analyser les dépendances temporelles.

Chaque colonne correspond à un paramètre mesuré par un capteur. Exemples :(température


(en °C), humidité (en ‘%), luminosité (en lux), Qualité de l’Air )

Après avoir défini le format générique des données, examinons un extrait concret de
fichier de données pour mieux illustrer leur structure et leur contenu qui est présente dans la
figures suivante.

F IGURE 3.2 – Extrait d’un fichier CSV

Après avoir décrit la structure générale des données, nous allons maintenant explorer leurs
propriétés spécifiques pour mieux comprendre leurs caractéristiques et leur utilité

3.2.2.2 Propriétés des Données

Après avoir examiné un exemple de fichier de données, il est essentiel d’analyser les
propriétés spécifiques des données,notamment les caractéristiques multidimensionnelles, sé-
quentielles, ainsi que la présence de bruit et de variabilité, qui peuvent influencer la détection
des anomalies.
a. Données Multidimensionnelles
Les séries temporelles collectées sont de nature multidimensionnelle, intégrant plusieurs pa-
ramètres mesurés simultanément par divers capteurs. Cette configuration facilite une analyse

Page 41
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

croisée des variables, indispensable pour identifier les relations contextuelles et repérer les
anomalies.
Exemple : -Une température élevée combinée à une faible humidité peut indiquer un pro-
blème dans le système de ventilation.
b. Données Séquentielles
Chaque observation est associée à un horodatage, conférant ainsi une dimension temporelle
aux données. Cette séquentialité joue un rôle clé pour :

— Déceler les tendances sur le long terme.

— Étudier les cycles récurrents, comme les variations quotidiennes de luminosité.

— Identifier des anomalies progressives ou des changements abrupts.

c. Données avec Bruit et Variabilité


Les mesures des capteurs peuvent contenir :

— Variabilité normale : Fluctuations dues aux conditions ambiantes.

— Bruit : Perturbations aléatoires introduites par les capteurs ou l’environnement.

3.2.2.3 Caractéristiques des Données Brutes

Les données brutes présentent plusieurs propriétés qui influencent leur traitement ulté-
rieur : Grande Volumétrie :
Collectées en continu, elles génèrent un volume important de données, nécessitant une ges-
tion efficace.
Valeurs Manquantes :
Les capteurs peuvent occasionnellement échouer à enregistrer des mesures, entraînant des
lacunes dans les données.
Valeurs Aberrantes :
Les capteurs peuvent parfois produire des mesures incohérentes (par exemple, une tempéra-
ture de 120 °C).
Absence de Contexte :
Les relations entre les paramètres ne sont pas explicitement définies.

Page 42
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

3.2.2.4 Format Standardisé

Afin d’assurer une exploitation optimale des données, un format standardisé est mis en
place. Les séries temporelles sont structurées pour inclure non seulement les valeurs des
différents paramètres, mais également des métadonnées cruciales.
Métadonnées Incluses :

— Unités de mesure : Assurent la cohérence des données.

— Seuils : Définissent les plages normales pour chaque paramètre (par exemple, une
température comprise entre -10 °C et 50 °C).

— Description des relations : Documentent les dépendances et corrélations entre les dif-
férents paramètres

3.2.2.5 Préparation pour l’Enrichissement

Le format générique des données brutes sert de point de départ pour leur conversion en
séries temporelles enrichies. Ce processus inclut les étapes suivantes :

— Vérification de la cohérence : Les données sont examinées pour garantir qu’elles res-
pectent les formats requis, tels qu’un horodatage valide et des valeurs situées dans les
plages acceptables.

— Préparation pour RDF : Les données sont converties en triplets RDF, intégrant des
informations contextuelles dérivées de l’ontologie.

Le format générique des données brutes est structuré pour capturer les mesures des capteurs
sous une forme tabulaire standardisée. Cependant, ces données nécessitent un enrichisse-
ment et une contextualisation pour être pleinement exploitables dans des tâches avancées
comme la détection et la prédiction des anomalies. Cette structuration initiale joue un rôle
essentiel en préparant les données pour leur transformation en séries temporelles enrichies.

3.2.3 Prétraitement des données

Le prétraitement des données est une étape essentielle pour garantir la qualité et la fiabi-
lité des analyses futures. Les séries temporelles issues des capteurs sont souvent brutes, pré-
sentant des lacunes telles que des valeurs manquantes, des anomalies ou des incohérences.

Page 43
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Cette phase a pour objectif de transformer ces données en un format propre, cohérent et
normalisé, prêt à être enrichi et utilisé pour la détection et la prédiction des anomalies.

3.2.3.1 Objectifs du Prétraitement

Le prétraitement des données a pour but de :

— Améliorer la qualité des données : Supprimer ou corriger les valeurs aberrantes et


combler les lacunes dues à des défaillances de capteurs.

— Harmoniser les données : Uniformiser les échelles de mesure pour éviter les biais dans
l’analyse.

— Préparer les données : Faciliter leur intégration avec l’ontologie et les algorithmes de
détection d’anomalies.

3.2.3.2 Étapes Principales du Prétraitement

Après avoir décrit les étapes principales du prétraitement, nous approfondirons chacune
de ces étapes clés, en commençant par la gestion des valeurs manquantes, l’identification et
le traitement des valeurs aberrantes, pour aboutir à l’extraction de caractéristiques et l’ob-
tention des résultats finaux du prétraitement.
a. Gestion des Valeurs Manquantes
Les données manquantes sont fréquentes dans les séries temporelles, souvent causées par
des interruptions dans la collecte ou des erreurs de transmission.
Approches pour traiter les valeurs manquantes :

— Interpolation : Remplir les lacunes en estimant les valeurs manquantes à partir des
observations précédentes et suivantes.
Exemple : Si les mesures de température sont 22.5°C, NaN, 22.7°C, l’interpolation
linéaire donne 22.6°C.

— Suppression : Éliminer les lignes ou colonnes contenant un grand nombre de valeurs


manquantes si elles sont peu significatives.

— Remplacement par des valeurs globales : Utiliser la moyenne ou la médiane des don-
nées disponibles pour remplir les lacunes.

b. Identification et Traitement des Valeurs Aberrantes


Les valeurs aberrantes correspondent à des observations qui dévient fortement des plages

Page 44
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

normales, généralement causées par des dysfonctionnements des capteurs ou des événe-
ments rares.
Détection des valeurs aberrantes :
Utilisation de seuils fixes :

— Les valeurs sont évaluées par rapport aux limites définies dans l’ontologie.
Exemple : Une température excédant 50 °C ou inférieure à -10 °C est considérée
comme aberrante.
Analyse statistique :
L’identification des anomalies repose sur des indicateurs statistiques, tels que les
écarts-types ou les quartiles, permettant de repérer les points qui s’éloignent signi-
ficativement des données normales.

Traitement des valeurs aberrantes :

— Correction : Remplacement par des valeurs acceptables (par exemple, le seuil supé-
rieur ou inférieur).

— Marquage : Les valeurs aberrantes sont conservées mais signalées pour un traitement
ultérieur.

c. Normalisation des Données


Les séries temporelles mesurent souvent des paramètres avec des unités et des plages très
différentes (par exemple, température en °C et luminosité en lux). Cela peut introduire des
biais dans les analyses.
d.Extraction de Caractéristiques
L’enrichissement des données brutes passe par le calcul de caractéristiques supplémentaires,
permettant de mieux identifier les tendances et variations locales.
Caractéristiques fréquemment extraites :

— Moyennes glissantes :Utilisées pour lisser les données et révéler des tendances glo-
bales.
-Exemple : Une moyenne glissante sur trois observations pour les températures 22.5,
22.7 et 22.6 donne 22.6 °C.

— Différences entre observations consécutives : Permettent de détecter des variations


brusques ou des pics dans les séries temporelles.
-Exemple : Si la température évolue de 22.5 °C à 25.0 °C, la différence est de 2.5 °C.

Page 45
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

— Relations entre paramètres :Analyse des corrélations entre différentes variables, telles
que la température et l’humidité, pour capturer les interactions entre paramètres.

e.Résultats du Prétraitement
Après le prétraitement, les données sont prêtes à être enrichies avec l’ontologie et exploitées
pour la détection des anomalies.
Les séries temporelles résultantes sont :

— Propre et cohérente : Les valeurs manquantes et aberrantes sont gérées, et les échelles
sont uniformisées.

— Structurée : Les métadonnées essentielles (unités, seuils) sont prêtes à être intégrées.

— Enrichie : Des caractéristiques supplémentaires (moyennes, corrélations) fournissent


un contexte supplémentaire pour les analyses.

Le prétraitement des données est une étape indispensable pour transformer des séries tempo-
relles brutes en données exploitables. En nettoyant, harmonisant et enrichissant ces données,
le prétraitement garantit que les séries temporelles soient prêtes à être intégrées dans un pi-
peline d’enrichissement sémantique et de détection des anomalies. Cette étape jette les bases
pour des analyses fiables et robustes dans les étapes ultérieures.

Après avoir effectué le prétraitement des données pour garantir leur qualité et leur co-
hérence, nous passons à l’étape suivante, qui consiste à générer une ontologie enrichie pour
structurer et représenter les relations sémantiques au sein des données IoT.

3.2.4 Génération de l’ontologie

L’ontologie est une représentation formelle de la connaissance qui structure les concepts,
leurs propriétés, et les relations entre eux dans un domaine spécifique. Dans ce projet, l’onto-
logie joue un rôle crucial en enrichissant les séries temporelles brutes avec des informations
sémantiques et contextuelles. Cela permet d’améliorer l’analyse des données et de faciliter
la détection des anomalies. Cette section détaille les étapes de création de l’ontologie, ses
composantes principales, et son rôle dans le pipeline global.

Page 46
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

3.2.4.1 Objectifs de l’Ontologie

L’objectif principal de l’ontologie est de fournir un cadre sémantique permettant de


structurer et contextualiser les séries temporelles. Elle remplit plusieurs fonctions :

— Modélisation des Concepts : Définir les paramètres mesurés par les capteurs (par
exemple, température, humidité).

— Association des Propriétés : Associer des métadonnées aux concepts, comme les uni-
tés de mesure et les seuils.

— Représentation des Relations Contextuelles : Capturer les interactions entre les para-
mètres (par exemple, la corrélation entre température et humidité).

— Validation des Données : Comparer les mesures aux contraintes définies dans l’onto-
logie pour détecter des incohérences ou anomalies.

3.2.4.2 Étapes de Création de l’Ontologie

Après avoir détaillé les étapes de création de l’ontologie, nous examinerons chaque
phase en profondeur, en commençant par la définition des concepts, des propriétés, et des
relations contextuelles, pour aboutir à l’utilisation pratique de l’ontologie et à ses résultats
concrets.
a. Définition des Concepts Les concepts représentent les paramètres mesurés par les cap-
teurs. Chaque paramètre est défini comme une classe dans l’ontologie.
Exemples de Concepts :
- Temperature :

— Classe représentant les mesures de température.

— Propriétés associées : unité (°C), seuils (par exemple, -10°C à 50°C).

- Humidity :

— Classe pour l’humidité relative mesurée en pourcentage.

- Air Quality :

— Classe représentant la qualité de l’air, exprimée par un indice numérique.

b. Définition des Propriétés


Les propriétés décrivent les attributs ou caractéristiques des concepts et permettent de lier
ces concepts entre eux.

Page 47
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Propriétés des Concepts :


- Unités de Mesure :

— Propriété hasUnit pour indiquer l’unité de chaque paramètre.


Exemple : :Temperature :hasUnit "°C".

- Seuils :

— Propriétés hasThresholdHigh et hasThresholdLow pour définir les limites acceptables


des mesures.
Exemple : Une température supérieure à 50°C est considérée comme une anomalie.

- Relations Contextuelles :

— Propriétés pour capturer les corrélations ou dépendances entre paramètres.


Exemple : :Temperature :isCorrelatedWith :Humidity

c. Création des Relations Contextuelles


Les relations contextuelles modélisent les interactions entre les paramètres mesurés. Elles
permettent d’identifier des anomalies contextuelles, où les valeurs individuelles des para-
mètres peuvent sembler normales mais leurs combinaisons ne le sont pas.
Exemple de Relation Contextuelle :
Une température élevée combinée à une faible humidité peut indiquer un dysfonction-
nement dans un système de ventilation.
d. Utilisation de l’Ontologie
L’ontologie générée est utilisée pour :
- Enrichir les Données :

— Les séries temporelles brutes sont annotées avec des métadonnées issues de l’ontolo-
gie.

- Valider les Mesures :

— Comparer les mesures aux seuils définis pour détecter les incohérences.

- Améliorer l’Analyse des Anomalies :

— Exploiter les relations contextuelles pour détecter des anomalies complexes.

e . Ontologie générique
La génération de l’ontologie est une étape fondamentale pour transformer des données
brutes en séries temporelles enrichies, structurées et contextualisées. En définissant des

Page 48
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

concepts, des propriétés, et des relations, elle constitue une base solide pour l’enrichisse-
ment des données et la détection des anomalies. Cette approche garantit une exploitation
plus efficace et une interprétation plus précise des données collectées.

F IGURE 3.3 – Ontologie générique

3.2.5 Génération du fichier enrichi

Après avoir structuré les séries temporelles à l’aide de l’ontologie enrichie, la généra-
tion d’un fichier enrichi est une étape essentielle pour rendre les données exploitables dans
des systèmes d’analyse avancée. Ce fichier enrichi combine les mesures brutes avec les
métadonnées issues de l’ontologie (unités, seuils, relations contextuelles). Il constitue une
représentation sémantique des données, permettant une analyse robuste et une interprétation
plus facile des anomalies.

3.2.5.1 Objectifs du Fichier Enrichi

Le fichier enrichi vise à :

— Intégrer les métadonnées sémantiques : Associer chaque mesure à son unité, ses seuils
et ses relations contextuelles.

— Valider les données : Annoter les mesures avec des informations sur leur conformité
aux seuils définis.

— Faciliter l’analyse : Préparer les données pour les algorithmes de détection et de pré-
diction des anomalies.

Page 49
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

— Assurer l’interopérabilité : Utiliser des formats standards (comme RDF) pour per-
mettre une utilisation facile dans des systèmes basés sur le web sémantique.

3.2.5.2 Etapes Génération

Après avoir exploré les étapes de création et d’utilisation de l’ontologie, nous nous
concentrons maintenant sur le processus de génération des données enrichies, en commen-
çant par l’extraction des données brutes issues des capteurs IoT.
a. Extraction des Données Brutes
Les données collectées par les capteurs sont extraites du fichier CSV initial. Chaque obser-
vation contient :

— Un horodatage.

— Les valeurs des paramètres mesurés (température, humidité, luminosité, etc.).

F IGURE 3.4 – Extrait de données brutes

3.2.5.3 Transformation en Triplets RDF

Les données brutes sont converties en triplets RDF en utilisant les classes, propriétés, et
relations définies dans l’ontologie.
Structure d’un Triplet RDF : Un triplet RDF suit la structure : Sujet - Propriété - Objet
Chaque mesure devient un sujet, enrichi avec ses propriétés (valeur, unité, seuils, etc.).

3.2.5.4 Annotation des Données

Les données sont annotées pour indiquer si elles respectent les contraintes définies dans
l’ontologie. Cela inclut : Validation des Seuils : Comparer chaque mesure aux seuils définis
(par exemple, 22.5 °C est dans la plage -10 °C à 50 °C).
Détection des Anomalies : Les anomalies sont signalées directement dans le fichier enrichi.

Page 50
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

3.2.5.5 Ajout des Relations Contextuelles

Les relations définies dans l’ontologie, comme les corrélations ou dépendances entre pa-
ramètres, sont intégrées dans le fichier enrichi. Ces relations ajoutent une dimension contex-
tuelle aux données, facilitant l’identification d’anomalies complexes.
Exemple : Relation entre une mesure de température et une mesure d’humidité.

3.2.5.6 Structure du Fichier Enrichi

Le fichier enrichi contient les informations suivantes :


Mesures individuelles : Chaque mesure est représentée comme un triplet RDF, avec ses
propriétés et métadonnées.
Conformité aux seuils : Les mesures sont annotées pour indiquer si elles respectent les
seuils définis.
Relations contextuelles : Les dépendances entre paramètres sont explicitement définies.
Le fichier enrichi est exporté au format RDF ou OWL pour être intégré dans les systèmes
d’analyse.
La génération du fichier enrichi est une étape essentielle pour transformer les séries tempo-
relles brutes en données contextualisées et exploitables. En intégrant les métadonnées, les
annotations de conformité, et les relations définies dans l’ontologie, ce fichier offre une base
solide pour les étapes ultérieures d’analyse et de détection des anomalies.

3.2.6 Détection d’anomalies

La détection des anomalies est une étape clé pour identifier les comportements inhabi-
tuels ou inattendus dans les séries temporelles enrichies. Ces anomalies peuvent signaler
des pannes, des erreurs de capteurs ou des événements rares qui nécessitent une attention
immédiate. Cette étape exploite à la fois les données enrichies et les relations contextuelles
définies dans l’ontologie pour détecter différents types d’anomalies avec précision.

3.2.6.1 Types d’Anomalies Détectées

Après avoir généré et enrichi les données, nous passons à l’identification des types
d’anomalies détectées, en distinguant les anomalies ponctuelles, contextuelles et séquen-
tielles pour une analyse plus approfondie.

Page 51
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Anomalies Ponctuelles

Les anomalies ponctuelles correspondent à des valeurs individuelles qui dévient signifi-
cativement des plages normales établies dans l’ontologie. Ces valeurs aberrantes indiquent
un comportement anormal à un moment précis. Par exemple, une température de 55°C serait
détectée comme une anomalie si le seuil supérieur défini dans l’ontologie est fixé à 50°C.
La détection de ces anomalies repose sur la comparaison de chaque valeur mesurée aux
seuils définis, tels que hasThresholdHigh pour le seuil supérieur et hasThresholdLow pour
le seuil inférieur. Si une valeur dépasse ces limites, elle est immédiatement identifiée comme
une anomalie. Cette approche, fondée sur des règles explicites, garantit une détection ra-
pide et précise, particulièrement utile dans des environnements IoT où de telles anomalies
peuvent signaler des dysfonctionnements critiques.

Anomalies Contextuelles

Les anomalies contextuelles sont détectées en analysant les relations entre plusieurs pa-
ramètres mesurés simultanément, plutôt qu’en considérant chaque valeur de manière iso-
lée. Ces anomalies reflètent des incohérences dans le comportement global d’un système.
Par exemple, une température élevée de 45°C associée à une faible humidité de 10% pour-
rait signaler un dysfonctionnement du système de ventilation, car ces conditions ne corres-
pondent pas aux attentes d’un fonctionnement normal.
La détection repose sur l’exploitation des relations contextuelles définies dans l’ontologie,
telles que isCorrelatedWith ou isDependentOn, qui décrivent les dépendances ou corréla-
tions entre les paramètres. En vérifiant si les combinaisons de valeurs respectent les condi-
tions attendues, cette approche permet d’identifier des anomalies subtiles et complexes qui
pourraient passer inaperçues avec des méthodes d’analyse traditionnelles.

Anomalies Séquentielles

Les anomalies séquentielles se manifestent par des changements inhabituels dans les
tendances ou les schémas temporels des séries de données, reflétant des comportements
anormaux sur une période donnée. Par exemple, une baisse soudaine de la luminosité sui-
vie d’une détérioration de la qualité de l’air pourrait indiquer un dysfonctionnement du
système de contrôle environnemental. La détection de ces anomalies repose sur des algo-

Page 52
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

rithmes séquentiels, tels que les Long Short-Term Memory (LSTM), capables d’analyser les
dépendances temporelles et de repérer les ruptures ou déviations dans les séquences. Cette
approche permet d’identifier des anomalies complexes qui ne seraient pas visibles dans des
analyses ponctuelles ou contextuelles, en tenant compte de l’évolution des paramètres dans
le temps.

3.2.6.2 Méthodes de Détection

Après avoir identifié les différents types d’anomalies, nous abordons les méthodes de
détection, qui incluent la détection basée sur des seuils, l’exploitation des relations contex-
tuelles, et l’utilisation de modèles d’apprentissage automatique pour une identification plus
précise et robuste.
a . Détection basée sur des seuils
La détection basée sur des seuils est utilisée principalement pour identifier les anomalies
ponctuelles. Cette méthode compare chaque valeur mesurée aux seuils prédéfinis dans l’on-
tologie, comme hasThresholdHigh pour le seuil supérieur et hasThresholdLow pour le seuil
inférieur. Par exemple, une température de 55°C serait détectée comme une anomalie si le
seuil supérieur est fixé à 50°C. Cette approche est simple à mettre en œuvre et permet une
identification rapide des valeurs aberrantes.
b . Détection basée sur des relations contextuelles
Les anomalies contextuelles sont détectées en analysant les relations entre plusieurs para-
mètres simultanés. Cette méthode utilise des propriétés définies dans l’ontologie, telles que
isCorrelatedWith et isDependentOn, pour vérifier si les combinaisons des paramètres res-
pectent les conditions attendues. Par exemple, une température élevée de 45°C associée à
une faible humidité de 10% peut indiquer un dysfonctionnement du système de ventilation.
Cette approche permet de capturer des incohérences complexes qui ne seraient pas détec-
tables par des méthodes basées sur des seuils individuels.
c . Détection Basée sur des modèles d’apprentissage
Les modèles d’apprentissage automatique sont utilisés pour détecter des anomalies contex-
tuelles et séquentielles. Isolation Forest est efficace pour identifier des anomalies contex-
tuelles dans des ensembles de données multidimensionnels en isolant les points éloignés
des clusters principaux. Par exemple, une pression anormalement basse peut être identi-
fiée comme une anomalie dans un contexte où d’autres paramètres sont normaux. Pour les

Page 53
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

anomalies séquentielles, les LSTM (Long Short-Term Memory) analysent les dépendances
temporelles et détectent les ruptures dans les tendances, comme une baisse soudaine de lu-
minosité suivie d’une détérioration de la qualité de l’air. Ces modèles sont puissants pour
analyser des séries temporelles complexes.
d . Détection basée sur des modèles de graphes (GNN)
Les Graph Neural Networks (GNN) sont spécialement conçus pour détecter des anoma-
lies structurelles et relationnelles. Ces modèles exploitent les propriétés topologiques des
graphes pour analyser les relations entre les nœuds et les arêtes.Les GNN identifient ces
anomalies en apprenant des représentations vectorielles des nœuds et en détectant les écarts
dans ces représentations.
La détection des anomalies est une étape cruciale qui exploite les données enrichies pour
identifier des comportements inhabituels. En combinant des méthodes basées sur des seuils,
des relations contextuelles, des modèles d’apprentissage avancés,et des modèles de ghraphes
,cette étape garantit une analyse robuste et précise des séries temporelles. Ces anomalies dé-
tectées constituent une base solide pour la prédiction des anomalies futures.

3.2.7 Prédiction de l’anomalie

Après avoir détecté les anomalies dans les séries temporelles enrichies, l’étape suivante
consiste à anticiper les anomalies futures en s’appuyant sur des modèles d’apprentissage
avancés. L’objectif principal est d’exploiter les relations contextuelles, les tendances tem-
porelles, et les métadonnées pour fournir des prédictions précises et exploitables. Ces pré-
dictions permettent d’anticiper les dysfonctionnements ou comportements anormaux, favo-
risant une meilleure prise de décision et une maintenance proactive.
Les trois approches utilisées dans ce processus sont les modèles supervisés (comme
LSTM), les modèles non supervisés (comme Isolation Forest), et les modèles de graphe
(comme GNN). Chaque méthode est adaptée à des types spécifiques de données et offre des
avantages distincts pour la prédiction des anomalies.

3.2.7.1 Types de Modèles Utilisés

Après avoir exploré les méthodes de détection d’anomalies, nous nous focalisons sur les
types de modèles utilisés, en différenciant les approches supervisées, basées sur des données

Page 54
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

annotées, et les approches non supervisées, adaptées à des données non étiquetées.
a. Modèles Supervisés
Les modèles supervisés, comme LSTM, utilisent des données historiques annotées pour ap-
prendre à prédire les anomalies. LSTM est particulièrement adapté aux séries temporelles,
car il capture efficacement les dépendances séquentielles et les schémas temporels dans les
données enrichies.
b. Modèles Non Supervisés
Dans les cas où les données ne sont pas annotées, les modèles non supervisés, comme Isola-
tion Forest, identifient les anomalies en analysant les schémas de distribution des données.
Ils isolent facilement les valeurs aberrantes sans nécessiter de supervision explicite.
c. Modèles de Graphe
Les Graph Neural Networks (GNN) exploitent la structure relationnelle des données IoT
représentées sous forme de graphe. Ces modèles permettent de capturer les dépendances
complexes entre capteurs, mesures, et contextes. Contrairement aux approches tradition-
nelles, les GNN intègrent les relations contextuelles pour fournir des prédictions plus pré-
cises, même dans des systèmes complexes.

Après avoir présenté les types de modèles utilisés pour la détection d’anomalies, nous
examinons maintenant les étapes détaillées du processus de prédiction des anomalies, de-
puis la préparation des données jusqu’à l’interprétation des résultats.

3.2.7.2 Étapes de la Prédiction des Anomalies

Après avoir défini les étapes générales de la prédiction des anomalies, nous détaillons
maintenant chaque phase clé, en commençant par la préparation des données, suivie de l’en-
traînement des modèles, et enfin le processus de prédiction pour identifier les anomalies. a.
Préparation des Données
Cette étape vise à structurer et enrichir les données pour optimiser l’entraînement des mo-
dèles. Les séries temporelles sont transformées en séquences glissantes afin de capturer
les dépendances temporelles. Parallèlement, des caractéristiques comme les moyennes glis-
santes, les variations, et les corrélations entre les paramètres sont calculées. Ces préparations
assurent que les modèles peuvent exploiter à la fois les informations temporelles et contex-

Page 55
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

tuelles.
b . Entraînement des Modèles
Les modèles de prédiction sont entraînés sur des données historiques enrichies et selon sa
méthode spécifique :

— LSTM apprend les schémas normaux des séries temporelles en minimisant l’erreur
entre les valeurs prévues et réelles.

— Isolation Forest identifie les schémas globaux en construisant des arbres de décision
pour isoler les points aberrants.

— GNN apprend les relations contextuelles et les dépendances complexes dans les graphes.

c . Prédiction
Une fois entraînés, les modèles sont appliqués aux nouvelles données. Les anomalies sont
détectées en comparant les résultats des prédictions avec des seuils prédéfinis :

— LSTM identifie les anomalies en fonction des écarts entre les valeurs réelles et pré-
dites.

— Isolation Forest attribue un score d’anomalie à chaque point et classe ceux dépassant
un seuil comme anomalies.

— GNN détecte les anomalies en analysant les schémas relationnels inhabituels dans les
données.

Après avoir détaillé les étapes clés de la prédiction des anomalies, il est essentiel d’explo-
rer l’importance de l’enrichissement des données, un aspect fondamental pour améliorer la
précision et la pertinence des prédictions.

3.2.7.3 Importance de l’Enrichissement pour la Prédiction

L’enrichissement des données joue un rôle fondamental dans la précision des prédic-
tions. Les métadonnées et relations contextuelles ajoutées permettent une meilleure contex-
tualisation des anomalies, tandis que les caractéristiques calculées fournissent des informa-
tions précieuses pour guider les modèles. La structuration en séquences améliore également
l’analyse temporelle, rendant les prédictions plus robustes et précises.

Page 56
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

La prédiction des anomalies constitue une étape cruciale pour anticiper les comporte-
ments anormaux et mettre en œuvre des mesures proactives visant à éviter les dysfonction-
nements. En combinant les approches supervisées, non supervisées et basées sur les graphes,
cette phase exploite de manière optimale les séries temporelles enrichies avec des métadon-
nées et des relations contextuelles. Ces modèles permettent non seulement d’identifier les
anomalies actuelles mais aussi de prédire les anomalies futures en intégrant les schémas
temporels, les dépendances relationnelles, et les variations globales des données.
La prédiction des anomalies pour ces données repose sur l’identification des comportements
anormaux dans des séries temporelles multidimensionnelles, enrichies de métadonnées et
de relations contextuelles. Pour accomplir cette tâche de manière efficace, trois algorithmes
principaux sont utilisés :

3.2.7.4 Algorithme 1 (LSTM)

LSTM (Long Short-Term Memory) est un modèle de réseau neuronal récurrent conçu
pour capturer les dépendances temporelles dans des données séquentielles. Dans le cadre de
la prédiction d’anomalies, il apprend les schémas normaux des séries temporelles enrichies,
puis identifie les anomalies en mesurant les écarts entre les valeurs prévues et les valeurs
réelles.

Page 57
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Pseudo-code :

Algorithm 1 Détection d’anomalies avec un modèle LSTM


1: Entrée : Dataset X avec des colonnes (Temperature, Humidity)

2: Sortie : Modèle LSTM entraîné pour la détection des anomalies


3: function TRAIN _ LSTM _ MODEL(dataset, window_size)
4: Charger le dataset et remplacer les valeurs manquantes
5: Normaliser les colonnes pertinentes (Température, Humidité) avec Min-Max Sca-
ling
6: Créer des séquences glissantes avec une taille de fenêtre window_size
7: Diviser les données en ensembles d’entraînement (75%) et de test (25%)
8: Initialiser le modèle LSTM
9: Compiler le modèle avec :
10: Optimiseur : Adam
11: Perte : Binary crossentropy
12: Métrique : Accuracy
13: Entraîner le modèle sur l’ensemble d’entraînement
14: Valider le modèle avec 25% des données d’entraînement
15: Évaluer le modèle sur l’ensemble de test pour calculer la perte et la précision
16: Sauvegarder le modèle pour des prédictions futures
17: end function

Explication
Prétraitement des données
La première étape consiste à charger le dataset_final, contenant des colonnes telles que Tem-
perature et Humidity, à partir d’un fichier CSV. Les valeurs manquantes sont soit remplacées
par la moyenne de leur colonne respective, soit supprimées si nécessaire. Ensuite, les don-
nées sont normalisées à l’aide du Min-Max Scaling pour mettre les valeurs dans une plage
de 0 à 1. Cette normalisation améliore l’efficacité de l’entraînement du modèle LSTM et
permet de traiter les échelles différentes des variables.
Création des séquences temporelles
Une taille de fenêtre temporelle (window_size) est définie pour capturer les relations sé-

Page 58
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

quentielles dans les données. En utilisant cette fenêtre glissante, des sous-ensembles de sé-
quences temporelles sont créés à partir des données. Par exemple, chaque séquence X[i : i
+ window_size] capture les relations entre les colonnes (Temperature et Humidity) sur une
période donnée. Ces séquences servent d’entrée pour le modèle LSTM.
Division des données
Le dataset est divisé en deux ensembles : un ensemble d’entraînement représentant 75 %
des données, et un ensemble de test représentant les 25% restants. Cette division permet
de valider les performances du modèle sur des données non vues pendant l’entraînement,
garantissant sa généralisation.
Initialisation et construction du modèle LSTM
Un modèle LSTM est initialisé avec les couches suivantes :

— Première couche LSTM : Une couche avec 64 unités, configurée pour retourner des
séquences (return_sequences=True). Cette couche extrait les dépendances temporelles
dans les données. Dropout : Une couche avec un taux de 0.2 pour prévenir le surap-
prentissage en désactivant aléatoirement certaines unités pendant l’entraînement.

— Deuxième couche LSTM : Une couche avec 32 unités, sans retour de séquences, pour
réduire la dimensionnalité et conserver les informations importantes. Dropout : Une
deuxième couche avec un taux de 0.2 pour une régularisation supplémentaire.

— Couche Dense : Une couche finale avec une activation sigmoïde pour effectuer une
classification binaire entre anomalies et données normales.

Compilation et entraînement du modèle


Le modèle est compilé avec :

— Optimiseur : Adam, connu pour son efficacité en termes de convergence.

— Fonction de perte : Binary crossentropy, adaptée pour les problèmes de classification


binaire.

— Métrique : Accuracy, pour mesurer la précision du modèle.

L’entraînement est effectué sur l’ensemble d’entraînement avec une validation sur 25%
des données d’entraînement. Cette validation permet de suivre les performances du modèle
pendant l’entraînement et d’ajuster les hyperparamètres si nécessaire.

Page 59
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Évaluation et exportation du modèle : Après l’entraînement, le modèle est évalué sur


l’ensemble de test pour mesurer sa perte (loss) et sa précision (accuracy). Ces métriques
permettent d’estimer les performances du modèle sur des données non vues. Enfin, le mo-
dèle entraîné est sauvegardé pour un usage ultérieur, comme la prédiction d’anomalies sur
de nouvelles données.
la Prédiction d’Anomalies avec LSTM
Une fois les données préparées et transformées en séquences adaptées, l’étape suivante
consiste à entraîner le modèle LSTM afin qu’il apprenne les comportements normaux des
séries temporelles, avant de passer à la détection des anomalies basées sur les prédictions
du modèle.Le modèle est utilisé pour prédire des scores pour chaque séquence temporelle
dans les nouvelles données. Les scores de sortie représentent la probabilité qu’une séquence
contienne une anomalie. Un seuil (par exemple, 0.5) est appliqué pour classifier les sé-
quences :

— Score > seuil : La séquence est marquée comme une anomalie.

— Score seuil : La séquence est marquée comme normale.


Une colonne supplémentaire Anomaly_LSTM est ajoutée au dataset pour indiquer les
résultats de la prédiction :

— 1 : Anomalie détectée.

— 0 : Observation normale.

visualisation des résultats : Les résultats des anomalies sont visualisés à l’aide de gra-
phiques temporels permettant une analyse intuitive des données. Les séries temporelles des
variables Temperature et Humidity sont tracées pour refléter les tendances générales. Les
anomalies détectées sont clairement mises en évidence à l’aide de marqueurs distinctifs, tels
que des lignes rouges ou des points spécifiques, afin de différencier facilement les observa-
tions anormales des valeurs normales. Cette approche visuelle simplifie l’interprétation des
résultats et aide à identifier les moments précis où les anomalies se produisent.

3.2.7.5 Algorithme 2 (Isolation FOREST)

L’Isolation Forest est un algorithme non supervisé conçu pour détecter les anomalies en
isolant les points aberrants dans un espace de données multidimensionnel. Contrairement

Page 60
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

à d’autres méthodes, il ne repose pas sur la distance ou la densité, mais sur l’idée que les
anomalies sont plus faciles à isoler que les points normaux.

Pseudo-code :

Algorithm 2 Détection d’anomalies avec Isolation Forest


1: Entrée : Dataset X avec des colonnes (Temperature, Humidity)
2: Sortie : Dataset annoté avec des annomalies détectées
3: function DETECT _ ANOMALIES _ ISOLATION _ FOREST(dataset, contamination=0.01)
4: Charger et prétraiter le dataset :
5: - Remplacer les valeurs manquantes ou les supprimer
6: - Normaliser les colonnes pertinentes (Température, Humidité)
7: Initialiser le modèle Isolation Forest avec le paramètre contamination
8: Entraîner le modèle sur les colonnes pertinentes
9: for chaque observation dans le dataset do
10: Prédire si l’observation est une anomalie :
11: if prédiction == -1 then
12: Marquer comme anomalie (Anomaly_Isolation = 1)
13: else
14: Marquer comme normal (Anomaly_Isolation = 0)
15: end if
16: end for
17: Annoter le dataset avec les étiquettes d’anomalies
18: Exporter le dataset annoté dans un fichier CSV
19: Visualiser les résultats :
20: - Tracer les séries temporelles des colonnes pertinentes
21: - Ajouter des marqueurs pour les anomalies détectées
22: end function

Explication :
Chargement et prétraitement des données : La première étape consiste à charger le da-
taset_final, qui contient des colonnes comme Temperature et Humidity, à partir d’un fichier
CSV. Les valeurs manquantes dans le dataset sont remplacées par la moyenne de chaque
colonne, ou, alternativement, les lignes contenant des valeurs manquantes sont supprimées.
Ensuite, les colonnes pertinentes, telles que Temperature et Humidity, sont normalisées en
utilisant un Min-Max Scaling pour mettre leurs valeurs dans une plage standardisée (par
exemple, entre 0 et 1). Cette normalisation améliore la précision et la convergence du mo-
dèle en rendant les données comparables.
Initialisation du modèle Isolation Forest : Un modèle Isolation Forest est initialisé pour

Page 61
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

détecter les anomalies dans les données. Ce modèle fonctionne en isolant les points anor-
maux en utilisant des arbres de décision. Le paramètre clé de ce modèle est contamination,
qui représente la proportion estimée d’anomalies dans le dataset (par exemple, 0.01 signifie
qu’environ 1 % des observations sont des anomalies). Ce paramètre permet au modèle de
s’ajuster au niveau attendu d’anomalies dans les données.
Entraînement du modèle : Le modèle Isolation Forest est entraîné sur les colonnes nor-
malisées du dataset, comme Temperature et Humidity. Pendant l’entraînement, le modèle
apprend à isoler les points de données en construisant des arbres de décision. Les points
nécessitant moins de coupures pour être isolés sont considérés comme des anomalies. L’en-
traînement est rapide, car l’Isolation Forest est conçu pour être efficace même sur de grands
ensembles de données.
Prédiction des anomalies : Après l’entraînement, le modèle prédit des scores d’anoma-
lie pour chaque observation dans le dataset. Les scores d’anomalie sont interprétés de la
manière suivante :

— Si le score est égal à _1, l’observation est marquée comme une anomalie, et une valeur
1 est attribuée à la colonne Anomaly_Isolation.

— Sinon, l’observation est considérée comme normale, et une valeur 0 est attribuée.

Ces prédictions sont ajoutées au dataset sous une nouvelle colonne appelée Anomaly_Isolation,
permettant une classification claire entre données normales et anormales.

Analyse et visualisation des résultats Le dataset annoté est exporté dans un nouveau
fichier CSV pour une analyse ultérieure ou une intégration dans d’autres systèmes. Les ré-
sultats sont visualisés sous forme de séries temporelles, où les colonnes Temperature et
Humidity sont tracées dans un graphique. Les anomalies détectées sont mises en évidence
par des lignes rouges verticales aux indices correspondants, offrant une représentation vi-
suelle claire des anomalies dans le contexte des données.

L’Isolation Forest est particulièrement adapté pour détecter des anomalies dans des en-
sembles de données multivariés comme Temperature et Humidity. Il est efficace, rapide et
ne nécessite pas de connaissances préalables sur la distribution des données. Cependant,
son succès dépend de la bonne sélection des paramètres (notamment contamination) et des

Page 62
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

caractéristiques d’entrée. Cette méthode est idéale pour les systèmes IoT, où les anoma-
lies peuvent indiquer des défaillances ou des conditions critiques nécessitant une attention
immédiate.

3.2.7.6 Algorithme 3 (GNN)

Les Graph Neural Networks (GNN) sont des algorithmes qui exploitent les relations
structurelles et contextuelles des données IoT modélisées sous forme de graphes. Dans un
environnement IoT, les capteurs et dispositifs connectés sont souvent interconnectés, et leurs
données présentent des relations complexes, telles que des corrélations spatiales, tempo-
relles ou contextuelles. Les GNN offrent une approche puissante pour analyser ces relations
et détecter les anomalies avec précision.

Page 63
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Pseudo-code :

Algorithm 3 Détection d’anomalies avec Graph Neural Networks (GNN)


1: Entrée : Graphe G = (V , E ) avec des nœuds V et des arêtes E
2: Sortie : Anomalies détectées dans les données du graphe
3: function DETECT _ ANOMALIES _ GNN(graph G, threshold)
4: Prétraitement des données :
5: Charger les données RDF ou le fichier graphe
6: Construire le graphe G avec des nœuds (capteurs) et des arêtes (relations)
7: Assigner et normaliser les attributs des nœuds
8: Construction du modèle GNN :
9: Initialiser un modèle GNN avec plusieurs couches
10: for chaque couche du GNN do
11: Agréger les informations des voisins pour chaque nœud
12: Combiner les représentations pour mettre à jour les attributs des nœuds
13: end for
14: Ajouter une couche finale dense avec une activation sigmoïde
15: Entraînement du modèle :
16: Diviser les nœuds en ensembles d’entraînement et de test
17: Entraîner le modèle avec une fonction de perte binaire (binary crossentropy)
18: Prédiction des anomalies :
19: for chaque nœud dans G do
20: Calculer le score pour le nœud
21: if score > threshold then
22: Marquer le nœud comme anomalie
23: else
24: Marquer le nœud comme normal
25: end if
26: end for
27: end function

Page 64
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

Éxplication :
Prétraitement des données : La première étape consiste à préparer les données pour l’en-
traînement du modèle GNN. Les données initiales, souvent dans un format RDF ou un
fichier décrivant un graphe, sont chargées. Chaque nœud du graphe représente une entité,
comme un capteur IoT, tandis que les arêtes décrivent les relations ou interactions entre ces
entités, telles que leur proximité géographique ou leur dépendance fonctionnelle. Les nœuds
et les arêtes sont enrichis d’attributs spécifiques, tels que la température et l’humidité. Ces
attributs sont normalisés afin de garantir une meilleure convergence du modèle lors de son
entraînement. Cette étape est cruciale pour s’assurer que les données sont cohérentes, bien
structurées et prêtes à être utilisées par le modèle GNN.

Construction du modèle GNN : Le modèle GNN est construit en utilisant plusieurs


couches spécifiques, comme les Graph Convolutional Networks (GCN) ou les Graph Atten-
tion Networks (GAT). Chaque couche du GNN met à jour les représentations des nœuds en
agrégant les informations des voisins immédiats de chaque nœud. Ce processus d’agrégation
permet au modèle de capturer les relations structurelles du graphe. Après l’agrégation, les
informations sont combinées avec les représentations précédentes des nœuds pour obtenir
une nouvelle représentation enrichie. Une fois toutes les couches du modèle parcourues, une
couche dense finale est ajoutée avec une activation sigmoïde. Cette dernière couche produit
un score binaire pour chaque nœud, indiquant la probabilité qu’il soit une anomalie.

Entraînement du modèle : Une fois le modèle défini, les données sont divisées en en-
sembles d’entraînement et de test, généralement dans une proportion de 75% pour l’entraî-
nement et 25% pour le test. Le modèle est ensuite entraîné à l’aide d’une fonction de perte
binaire, telle que l’entropie croisée binaire (binary crossentropy), qui mesure la différence
entre les prédictions du modèle et les vraies étiquettes des nœuds. Pendant l’entraînement, le
modèle apprend à associer les représentations des nœuds à leur classe respective (anomalie
ou normal). Cette étape est répétée sur plusieurs itérations afin d’optimiser les paramètres
du modèle et d’améliorer sa performance.

Prédiction des anomalies : Dans cette étape, le modèle entraîné est utilisé pour prédire
des scores pour chaque nœud du graphe. Ces scores représentent la probabilité qu’un nœud

Page 65
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

soit une anomalie. Un seuil prédéfini est ensuite appliqué pour classer chaque nœud : si le
score d’un nœud dépasse ce seuil, il est marqué comme une anomalie ; sinon, il est consi-
déré comme normal. Cette approche garantit une identification précise des anomalies en
tenant compte des relations structurelles et des attributs des nœuds. Enfin, les résultats de la
classification sont interprétés pour identifier les anomalies critiques et prendre les mesures
appropriées.
visualisation des résultats :
La visualisation des résultats est réalisée à l’aide d’un graphique illustrant clairement les
prédictions du modèle. Les nœuds du graphe ou les données temporelles sont colorés selon
leur classification, distinguant les observations normales des anomalies. Les anomalies sont
spécifiquement mises en évidence à l’aide de couleurs ou de marqueurs distinctifs, rendant
leur identification rapide et intuitive. Cette représentation graphique améliore la compréhen-
sion des résultats et facilite l’analyse des comportements anormaux dans les données.
Ces étapes détaillent un processus systématique pour la détection des anomalies en utilisant
un GNN. Le prétraitement garantit des données bien préparées, la construction du modèle
exploite la structure du graphe, l’entraînement optimise les performances, et la prédiction
applique ces apprentissages pour une détection fiable des anomalies. Ce flux permet de tirer
parti des capacités uniques des GNN pour analyser les relations complexes et les attributs
locaux dans les graphes, rendant le système particulièrement adapté aux scénarios IoT.

3.2.8 Conclusion

Ce chapitre a proposé une méthode novatrice pour la prédiction d’anomalies, s’appuyant


sur une approche sémantique intégrant des données enrichies. Nous avons présenté les dif-
férentes étapes essentielles, de la transformation des données brutes en triplets RDF jus-
qu’à l’application de modèles d’apprentissage avancés pour la détection et la prédiction
d’anomalies. Nous avons mis en évidence l’intégration des métadonnées et des relations
contextuelles comme un facteur clé pour améliorer la précision des analyses. En utilisant
des modèles variés tels que LSTM, Isolation Forest et Graph Neural Networks, nous avons
démontré comment chaque approche répond à des besoins spécifiques en matière de détec-
tion des anomalies, qu’il s’agisse d’anomalies ponctuelles, contextuelles ou séquentielles.
De plus, nous avons souligné l’importance de l’enrichissement des données, qui permet non
seulement d’identifier des comportements anormaux, mais aussi de prédire des anomalies

Page 66
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique

futures avec une plus grande exactitude. Cette capacité prédictive est cruciale pour la mise en
œuvre de stratégies de maintenance préventive et pour minimiser les risques de pannes dans
des systèmes complexes. En conclusion, la méthode que nous avons présentée ouvre la voie
à des analyses plus robustes et informées, facilitant une gestion proactive des systèmes. Les
résultats que nous avons obtenus témoignent du potentiel de l’approche sémantique pour
transformer les séries temporelles brutes en informations exploitables, contribuant ainsi à
l’amélioration des systèmes IoT et à leur résilience face aux anomalies.

Page 67
Chapitre 4

Etude expérimentale

4.1 Introduction
Dans ce chapitre, nous présentons l’étude expérimentale réalisée pour évaluer l’efficacité
des méthodes de prédiction d’anomalies appliquées aux systèmes IoT. L’objectif principal
de cette étude est de comparer les performances des approches proposées dans les chapitres
précédents, en mettant particulièrement l’accent sur leur précision, leur robustesse et leur
capacité à traiter des données complexes et hétérogènes typiques des environnements IoT.

4.2 Environnement et outils de développement


Pour détailler l’environnement et les outils de développement utilisés, nous distinguons
deux aspects essentiels : l’environnement matériel, qui décrit les configurations physiques
nécessaires, et l’environnement logiciel, qui présente les outils et plateformes employés pour
mener à bien cette étude.

4.2.1 Environnement matériel

Au cours des différentes étapes de notre projet, nous avons utilisée une machine dispo-
sant des caract’éristiques suivantes :

68
Chapitre 4– Etude expérimentale

F IGURE 4.1 – Environnement matériel

4.2.2 Environnement logiciel

Langage de programmation Python

Dans ce mémoire, notre choix du langage de programmation repose sur les caractéris-
tiques de Python qui en font le meilleur choix pour la science des données et le dévelop-
pement d’algorithmes d’intelligence artificielle. Python a été développée par (Severance,
2015) aux Pays-Bas , et la première version a été publiée en 1991. La dernière version de
Python est actuellement la version 3.13.
Python est un langage polyvalent et accessible, particulièrement adapté aux applications
analytiques et aux projets d’intelligence artificielle. Sa syntaxe claire et intuitive permet de
manipuler aisément des concepts complexes, ce qui constitue un atout majeur dans des do-
maines en constante évolution comme la science des données et l’IA. Par ailleurs, Python
dispose d’un écosystème riche de bibliothèques et frameworks, tels que Pandas, NumPy,
TensorFlow et Scikit-learn, qui facilitent le traitement des données, l’analyse et la création
de modèles d’apprentissage automatique.
En outre, Python se distingue par ses fonctionnalités spécialement conçues pour ré-
pondre aux besoins des scientifiques des données et des développeurs d’IA, consolidant
ainsi sa position comme l’un des langages les plus utilisés dans ces domaines.

Google collab

Google Colab est une plateforme similaire à un carnet de notes Jupyter, développée par
Google Research. En résumé, Colab constitue une version hébergée dans le cloud de Jupyter

Page 69
Chapitre 4– Etude expérimentale

Notebook, offrant aux utilisateurs la possibilité de programmer en Python sans avoir besoin
d’installer quoi que ce soit sur leur ordinateur. Contrairement à Jupyter Notebook, qui re-
quiert une installation locale et utilise exclusivement les ressources de l’ordinateur, Google
Colab propose une application cloud complète, accessible depuis n’importe quel navigateur.
L’un des principaux avantages de Google Colab est qu’il n’est pas nécessaire d’installer un
runtime ou de mettre à niveau votre matériel informatique pour exécuter des tâches Python
intensives. Vous pouvez ainsi réaliser des opérations complexes sans vous soucier des limi-
tations de votre propre machine.
De plus, Google Colab offre un accès gratuit à une infrastructure informatique, incluant le
stockage, la mémoire, ainsi que des unités de traitement graphique (GPU) et des unités de
traitement tensoriel (TPU). Ces ressources permettent aux utilisateurs de travailler sur des
projets lourds sans avoir à investir dans du matériel coûteux.
En résumé, Google Colab simplifie l’accès à des outils puissants pour le développement en
Python, rendant le codage et l’analyse de données plus accessibles à un large public.

4.3 Collecte et exploration des données


Pour analyser efficacement les conditions environnementales dans le contexte de l’In-
ternet des Objets, cette étude s’appuie sur un ensemble de données collectées à l’aide de
capteurs IoT, comprenant 1000 enregistrements couvrant plusieurs paramètres mesurés sur
une base temporelle. Ces données, sélectionnées et structurées systématiquement, incluent
des informations clés telles que la température, l’humidité, la qualité de l’air, l’intensité lu-
mineuse, et le niveau sonore.
Issues de la plateforme kaggle , ces données constituent une ressource essentielle pour
l’identification des comportements inhabituels, la surveillance en temps réel et l’optimi-
sation des systèmes IoT, tout en facilitant une exploitation approfondie pour des analyses
détaillées et adaptées aux scénarios pratiques.

Page 70
Chapitre 4– Etude expérimentale

F IGURE 4.2 – Affichage du dataset

4.4 Le prétraitement des données


Le prétraitement des données constitue une étape cruciale pour garantir la qualité et la
fiabilité des analyses. Nous avons commencé par identifier et traiter les valeurs manquantes
en utilisant une méthode de remplissage basée sur la moyenne des colonnes correspondantes,
assurant ainsi la préservation des données tout en réduisant les biais potentiels. Ensuite, les
doublons ont été supprimés pour éliminer les redondances et garantir l’unicité des enregis-
trements.
Les timestamps, enregistrés sous forme brute, ont été convertis en un format datetime inter-
prétable pour permettre une meilleure gestion et analyse temporelle des données. Enfin, des
seuils ont été définis pour chaque variable continue, comme la température et l’humidité,
afin de détecter et supprimer les valeurs aberrantes susceptibles de fausser les résultats.
Ces étapes, appliquées avec soin, nous permettent d’obtenir un jeu de données propre, co-
hérent et prêt pour des analyses avancées ou l’entraînement de modèles prédictifs.

4.5 Entraînement du modèle


L’entraînement du modèle est une étape cruciale pour détecter et prédire les anomalies
dans les séries temporelles IoT enrichies de manière sémantique. Cette étape se divise en
deux phases principales : la sélection des modèles et la préparation des données d’entraîne-
ment.

Page 71
Chapitre 4– Etude expérimentale

Les modèles basés sur les séries temporelles incluent le LSTM (Long Short-Term Me-
mory), qui excelle dans l’analyse des séquences temporelles grâce à sa capacité à capturer les
dépendances à long terme via son mécanisme de mémoire, et le Isolation Forest, un modèle
non supervisé qui identifie efficacement les points anormaux dans des séries temporelles ou
des données multidimensionnelles en isolant les observations éloignées des clusters princi-
paux. Les modèles sémantiques, comme les Graph Neural Networks (GNN), exploitent les
relations structurelles définies dans l’ontologie pour détecter des anomalies relationnelles
ou structurelles en analysant les interactions entre les nœuds d’un graphe.les données sont
divisées en deux ensembles distincts : un ensemble d’entraînement (75 % des données) pour
ajuster les paramètres du modèle, et un ensemble de test (25 % des données) pour évaluer
ses performances de manière indépendante.
Cette structuration rigoureuse garantit des résultats précis et fiables, en exploitant plei-
nement la richesse des données IoT et la puissance des algorithmes avancés.

4.6 Prédiction avec les modèles


Pour détailler le processus de prédiction avec les modèles, nous examinerons successi-
vement les approches spécifiques adoptées, notamment l’algorithme LSTM pour l’analyse
des séries temporelles, l’Isolation Forest pour la détection des anomalies contextuelles, et
les réseaux de neurones graphiques (GNN) pour exploiter les relations sémantiques.

4.6.1 Algorithme LSTM

Le modèle LSTM, préalablement entraîné, est utilisé pour prédire les probabilités d’ap-
parition d’anomalies sur chaque fenêtre temporelle des données. Pour cela, les séquences
temporelles prétraitées sont passées dans le modèle, qui renvoie une probabilité pour chaque
fenêtre. Une anomalie est détectée lorsqu’une probabilité dépasse le seuil de 0.5, indiquant
un comportement anormal selon la classification binaire. Cette approche permet d’identifier
de manière précise les anomalies dans les séries temporelles en se basant sur les variations
capturées par le modèle au fil du temps.

Page 72
Chapitre 4– Etude expérimentale

F IGURE 4.3 – Fragment de code de la prédiction avec LSTM

Visualisation

F IGURE 4.4 – Fragment de code pour la visualisation

— Les séries temporelles de Temperature et Humidity sont tracées.

— Les anomalies détectées sont marquées par des lignes verticales rouges, alignées avec
les indices correspondants dans les données.

Visualisation graphique

F IGURE 4.5 – Aperçu graphique des résultats

Page 73
Chapitre 4– Etude expérimentale

La visualisation des données met en évidence les comportements des séries temporelles
de Temperature et Humidity ainsi que les anomalies détectées. Les courbes de température
(en bleu) et d’humidité (en vert) sont tracées sur un graphique, représentant l’évolution de
ces deux paramètres au fil du temps. Les anomalies, identifiées par le modèle, sont claire-
ment signalées par des lignes rouges verticales. Ces lignes sont alignées avec les indices des
anomalies détectées dans les données, permettant de localiser précisément les moments où
des comportements anormaux se produisent. Cette visualisation fournit une interprétation
claire et intuitive des résultats, facilitant l’identification des anomalies et leur analyse dans
le contexte des séries temporelles.
En conclusion, ce résultat montre que le modèle est capable de détecter des anomalies perti-
nentes dans des séries temporelles complexes, mais des ajustements peuvent être nécessaires
pour améliorer sa précision et sa fiabilité dans des applications pratiques.

Les métriques utilisées

Les métriques utilisées pour l’entraînement et l’évaluation du modèle jouent un rôle clé
dans l’analyse des performances.précision(ou accuracy) est une métrique essentielle qui
mesure la proportion d’exemples correctement classés parmi le nombre total de prédictions,
et elle est spécifiée lors de la compilation du modèle à l’aide de metrics=[’accuracy’]. Cette
métrique est particulièrement adaptée pour évaluer l’efficacité globale du modèle.(James
et al., 2013)
Nombre de Prédictions Correctes
Précision =
Nombre Total de Prédictions
La fonction de perte utilisée est la binary crossentropy, idéale pour les tâches de clas-
sification binaire où la variable cible prend deux valeurs possibles : 0 ou 1. Cette fonction
calcule la différence entre la probabilité prédite par le modèle (grâce à l’activation sigmoïde)
et la valeur réelle, ce qui permet de minimiser les erreurs de classification au cours de l’en-
traînement. L’évaluation du modèle est réalisée après l’entraînement sur un jeu de test à
l’aide de la fonction model.evaluate(X_test, Y_test). Cette étape fournit deux résultats prin-
cipaux : la perte sur le test, qui reflète l’erreur globale mesurée par la fonction de coût binary
crossentropy, et l’accuracy sur le test, qui indique la proportion de prédictions correctes ef-
fectuées par le modèle. Pendant l’entraînement (avec model.fit), le suivi de l’accuracy est
effectué sur les ensembles d’entraînement et de validation pour monitorer l’évolution des

Page 74
Chapitre 4– Etude expérimentale

performances. Lors de l’évaluation (avec model.evaluate), la perte et l’accuracy finales sont


calculées sur l’ensemble de test afin de fournir une estimation fiable des performances du
modèle sur des données non vues. Ces métriques permettent ainsi d’obtenir une vision glo-
bale des capacités du modèle à généraliser les apprentissages.

4.6.2 Algorithme Isolation forest

Le modèle Isolation Forest, préalablement entraîné, est utilisé pour prédire les anomalies
en analysant les données de température et d’humidité. Pour chaque observation, la méthode
isolation_model.predict() attribue une étiquette : 1 pour une observation normale et -1 pour
une observation détectée comme une anomalie. Ces prédictions permettent de différencier
les comportements normaux des anomalies dans les données.

F IGURE 4.6 – Fragment de code de la prédiction avec Isolation Forest

Une nouvelle colonne, appelée Anomaly_Isolation, est ensuite ajoutée au dataset. Cette
colonne convertit les étiquettes renvoyées par le modèle : les anomalies détectées (-1) sont
marquées comme 1, et les observations normales (1) comme 0. Ce processus facilite l’iden-
tification directe des lignes du dataset où des anomalies ont été détectées, simplifiant ainsi
l’analyse des comportements anormaux.

F IGURE 4.7 – Fragement de code pour la création d’une nouvelle colonne

4.6.2.1 Visualisation

Tracer des séries temporelles


Les courbes des séries temporelles de température (bleu) et d’humidité (vert) sont tracées
pour visualiser les variations des deux paramètres au fil du temps.

Page 75
Chapitre 4– Etude expérimentale

F IGURE 4.8 – Fragment de code de tracé des séries temporelles

Marquage des anomalies


Les indices des anomalies détectées (lorsque Anomaly Isolation == 1) sont extraits. Pour
chaque anomalie, une ligne rouge verticale est tracée sur le graphique à l’emplacement
correspondant, permettant ainsi de visualiser précisément les moments où des anomalies
ont été détectées.

F IGURE 4.9 – Fragment de code de maraquge des anomalies

4.6.2.2 Visualisation graphique

F IGURE 4.10 – Aperçu graphique des résultats

Les anomalies détectées par le modèle Isolation Forest sont particulièrement concen-
trées dans certaines plages temporelles où les variations des paramètres sont abruptes ou
inhabituelles. Par exemple, des anomalies sont visibles lorsque l’humidité montre une mon-
tée ou une descente soudaine, ou lorsque la température chute ou monte rapidement par

Page 76
Chapitre 4– Etude expérimentale

rapport à son comportement habituel. La courbe verte, représentant l’humidité, reste relati-
vement stable sur plusieurs périodes, mais des pics ou des creux importants dans certaines
zones déclenchent des anomalies. Ces variations peuvent indiquer un dysfonctionnement du
capteur ou des événements spécifiques affectant l’environnement. De manière similaire, la
courbe bleue de la température reste constante sauf dans des zones précises où des fluctua-
tions rapides sont détectées comme des anomalies, potentiellement dues à des perturbations
externes ou des erreurs de capteur.
Ce graphique illustre ainsi la capacité du modèle à surveiller les données IoT en temps
réel, détecter les comportements anormaux, et fournir des insights exploitables pour une
meilleure gestion et maintenance des systèmes.

Les métriques utilisées

L’algorithme Isolation Forest ne s’appuie pas directement sur une métrique explicite
pour évaluer ses performances, puisqu’il s’agit d’un modèle non supervisé conçu pour dé-
tecter des anomalies. Le modèle utilise des scores d’anomalie internes pour prédire si un
point est normal (1) ou anormal (-1). Ces scores sont calculés en fonction de la distance et
de l’isolation des points dans l’espace des caractéristiques.
Le paramètre de contamination, ici défini à 0.01, indique que l’on suppose qu’environ
1% des données sont des anomalies. Ce paramètre influence la manière dont le modèle clas-
sifie les points comme normaux ou anormaux. Les prédictions des anomalies sont effectuées
à l’aide de la méthode model.predict, où une étiquette de 1 représente un point normal et -1
indique une anomalie.
Pour analyser les résultats, une nouvelle colonne intitulée Anomaly_Isolation est ajoutée
au DataFrame. Cette colonne transforme les prédictions en 1 pour les anomalies détectées et
en 0 pour les points normaux. Cette étape simplifie l’analyse et l’interprétation des résultats
en centralisant les informations sur les anomalies dans le DataFrame.
Enfin, le modèle entraîné est sauvegardé à l’aide de la méthode joblib.dump, ce qui
permet de le réutiliser sans avoir à le réentraîner. Cette sauvegarde garantit un gain de temps
et de ressources pour des analyses futures ou pour appliquer le modèle sur de nouvelles
données.

Page 77
Chapitre 4– Etude expérimentale

4.6.3 Algorithme GNN

Le processus commence par le chargement d’un nouveau jeu de données à partir du


fichier dataset_final.csv. Les colonnes pertinentes, Temperature et Humidity, sont extraites
afin de limiter l’analyse aux variables d’intérêt. Pour éviter tout problème lié aux données
manquantes, les valeurs absentes dans ces colonnes sont remplacées par des zéros. Cette
étape garantit que les données sont entièrement exploitables par le modèle sans interruption.
Une fois les données préparées, elles sont transmises au modèle de détection d’anomalies,
préalablement entraîné. Ce dernier analyse chaque observation pour effectuer des prédic-
tions en fonction des caractéristiques fournies. Chaque observation est ainsi classée comme
normale ou comme une anomalie, permettant d’identifier rapidement les comportements ou
mesures qui diffèrent significativement des valeurs attendues. Cette étape de prédiction est
essentielle pour automatiser et accélérer le processus de détection des anomalies dans les
données environnementales.

Charger les nouvelles données

Le processus commence par le chargement d’un nouveau jeu de données. Ensuite, les
données sont préparées, en remplaçant les valeurs manquantes par des zéros. Enfin, le mo-
dèle entraîné est utilisé pour prédire les anomalies dans les données traitées.

F IGURE 4.11 – Fragment de code de chargement des nouvelles données

Ajouter les prédictions

Ajoute une colonne contenant les prédictions des anomalies.

F IGURE 4.12 – Fragment de code pour l’ajout de la colonne indiquant la prédiction

Page 78
Chapitre 4– Etude expérimentale

Visualisation

Les points sont représentés par des couleurs différentes en fonction de leur statut : les
points bleus indiquent les données normales, tandis que les points rouges représentent les
anomalies. La visualisation met en évidence ces anomalies en fonction des mesures de tem-
pérature et d’humidité.

F IGURE 4.13 – Fragment de code de visualisation du résultat

Visualisation graphique

Le graphique représente une visualisation des résultats de détection d’anomalies en fonc-


tion de la température et de l’humidité. Les points bleus indiquent les observations normales,
c’est-à-dire celles qui respectent les seuils prédéfinis pour la température ( 50) et l’humidité
( 60). Ces points normaux se regroupent principalement dans des plages de valeurs modé-
rées, reflétant des conditions environnementales considérées comme stables ou attendues.
En revanche, les points rouges correspondent aux anomalies détectées par le modèle. Ces
anomalies se situent principalement dans des zones où les valeurs de température ou d’hu-
midité sont anormalement élevées, signalant potentiellement des dysfonctionnements des
capteurs ou des conditions inhabituelles dans l’environnement surveillé. On observe égale-
ment une tendance générale de relation inverse entre la température et l’humidité, confirmant
la cohérence globale des données. Ce graphique permet ainsi de distinguer visuellement les
comportements normaux des écarts anormaux, facilitant l’analyse des anomalies et leur in-
terprétation dans un contexte environnemental.

Page 79
Chapitre 4– Etude expérimentale

F IGURE 4.14 – Aperçu graphique des résultats

les métriques utilisés

Les métriques utilisées pour évaluer les performances d’un Graph Neural Network (GNN)
dans la prédiction des anomalies jouent un rôle crucial dans l’analyse de la fiabilité et de l’ef-
ficacité du modèle. La précision (precision) permet de mesurer la proportion de prédictions
correctes d’anomalies parmi toutes celles identifiées comme anomalies. Une précision éle-
vée est essentielle pour réduire les faux positifs, ce qui évite de signaler des comportements
normaux comme anomalies, un aspect particulièrement important dans les systèmes de sur-
veillance pour limiter les interventions inutiles.
Formule :(Nascimento, 2022)

Vrais Positifs (VP)


Précision =
Vrais Positifs (VP) + Faux Positifs (FP)

Le rappel (recall), quant à lui, évalue la proportion de vraies anomalies détectées parmi
toutes les anomalies présentes dans les données. Un rappel élevé est indispensable pour
capturer la majorité des anomalies, minimisant ainsi les faux négatifs. Cela est particulière-
ment critique dans des contextes où ignorer une anomalie peut entraîner des conséquences
graves, comme des défaillances non détectées dans des réseaux IoT ou des systèmes indus-
triels.

Page 80
Chapitre 4– Etude expérimentale

Formule :(Nascimento, 2022)

Vrais Positifs (VP)


Rappel =
Vrais Positifs (VP) + Faux Négatifs (FN)

Le F1-Score, qui représente la moyenne harmonique entre la précision et le rappel, fournit


une mesure globale des performances du modèle en équilibrant ces deux métriques. Il est
particulièrement utile dans des situations où les classes sont déséquilibrées, comme dans
la détection d’anomalies où les anomalies sont souvent sous-représentées par rapport aux
données normales. Cette mesure garantit que le modèle est à la fois précis et complet dans
ses prédictions. Formule :(Nascimento, 2022)

Précision · Rappel
F1-Score = 2 ·
Précision + Rappel

Enfin, le support reflète le nombre total d’exemples dans chaque classe (normal et anoma-
lie). Cette métrique est essentielle pour évaluer la répartition des données, particulièrement
dans un graphe où la répartition des nœuds (anomalies versus normales) peut affecter les per-
formances du modèle. Un support déséquilibré peut nécessiter des techniques spécifiques,
comme le sur-échantillonnage des anomalies, pour garantir des résultats fiables. Formule :

Support = Nombre total d’exemples dans chaque classe (Normal ou Anomalie)

En résumé, ces métriques permettent de vérifier si le GNN offre des performances équili-
brées et adaptées au contexte de détection des anomalies, tout en assurant que les prédictions
soient fiables, pertinentes et exploitables dans des scénarios réels.

Après avoir analysé les performances des différents modèles de prédiction et mis en
évidence leurs capacités à détecter efficacement les anomalies dans les données IoT, l’étape
suivante consiste à présenter les résultats de manière claire et interactive à l’aide d’une
interface de visualisation intuitive.

Page 81
Chapitre 4– Etude expérimentale

4.7 Visualisation interface


Nous avons développé une interface interactive et conviviale permettant de visualiser et
de comparer les prédictions d’anomalies générées par différents modèles d’apprentissage
automatique (GNN, Isolation Forest, LSTM). Conçue pour être accessible même à des uti-
lisateurs non spécialistes, cette interface simplifie l’analyse des données environnementales
(température et humidité) tout en offrant une évaluation claire et intuitive de l’efficacité de
chaque algorithme dans la détection des anomalies.

F IGURE 4.15 – Interface de l’application de notre constribution

Cette interface Dash permet de prédire les anomalies à l’aide de trois modèles : LSTM,
Isolation Forest et GNN.

Interface 1 : Anomaly détection avec GNN


Dans cette interface, une prédiction d’anomalies est réalisée à l’aide d’un modèle de réseaux
de neurones graphiques (Graph Neural Network - GNN).

Page 82
Chapitre 4– Etude expérimentale

F IGURE 4.16 – Résultat de la mise en oeuvre du modèle GNN dans notre application

Interface 2 : Anomaly détection avec Isolation Forest


Cette interface intègre l’algorithme Isolation Forest pour une détection efficace et automati-
sée des anomalies, offrant une analyse rapide et précise des données environnementales.

F IGURE 4.17 – Résultat de la mise en oeuvre du modèle Isolation Forest dans notre appli-
cation

Interface 3 : Anomaly détection avec LSTM


Dans cette dernière interface, un modèle LSTM (Long Short-Term Memory) est utilisé pour
la détection d’anomalies, adapté pour traiter des données temporelles.

Page 83
Chapitre 4– Etude expérimentale

F IGURE 4.18 – Résultat de la mise en oeuvre du modèle LSTM dans notre application

L’utilisateur peut choisir parmi les trois modèles disponibles pour tester leurs perfor-
mances sur le même jeu de données. Chaque interface propose des fonctionnalités interac-
tives pour explorer les résultats :

— Visualisation des prédictions d’anomalies dans un graphique bidimensionnel.

— Exploration individuelle des points de données grâce à une fonction interactive.

Ces interfaces permettent une comparaison claire des performances des modèles (GNN,
Isolation Forest, LSTM) dans le cadre de la détection d’anomalies environnementales (tem-
pérature et humidité).

4.8 Discussion
Ce chapitre a exploré trois approches principales de détection d’anomalies – LSTM,
Isolation Forest, et GNN – en les évaluant à travers des métriques clés, leurs performances,
et leur adéquation au contexte des données IoT. Chaque modèle a été testé sur des séries
temporelles de température et d’humidité, avec des observations détaillées sur leur compor-
tement en termes de précision, rappel, F1-score et accuracy.
L’approche LSTM a démontré une capacité remarquable à capturer les relations sé-
quentielles complexes dans les séries temporelles grâce à son architecture basée sur des
dépendances temporelles. Avec une précision globale de 92 %, un F1-score de 89 %, et une
capacité à détecter efficacement les anomalies, ce modèle est particulièrement adapté aux
environnements où les variations temporelles jouent un rôle déterminant. Toutefois, l’en-

Page 84
Chapitre 4– Etude expérimentale

traînement du LSTM est coûteux en ressources et nécessite une préparation approfondie des
données.
Par ailleurs, Isolation Forest se distingue par sa simplicité et sa rapidité. Bien qu’il pré-
sente des performances légèrement inférieures, avec une précision de 85 % et un F1-score
de 82 %, ce modèle reste une option efficace pour la détection des anomalies ponctuelles.
Basé sur l’isolation des points atypiques dans un espace de caractéristiques, il répond bien
aux besoins de scénarios nécessitant une implémentation rapide et légère, mais montre des
limites face à des anomalies temporelles complexes.
Enfin, l’approche GNN s’impose comme la plus robuste dans des contextes nécessitant
une exploitation des relations graphiques entre les données. Avec une précision de 93 %, un
F1-score de 91 %, et une capacité à détecter des anomalies structurelles complexes, les GNN
offrent une excellente performance dans des environnements où les interconnexions entre
les données sont cruciales. Cependant, leur implémentation exige une expertise avancée en
conception de graphes et des ressources computationnelles conséquentes.
Le tableau suivant présente une comparaison récapitulative des performances des trois
approches de détection d’anomalies (LSTM, Isolation Forest, et GNN) en termes de mé-
triques clés : Accuracy, Precision, Recall, et F1-Score. Cette analyse met en évidence les
forces et limites de chaque méthode en fonction de leurs contextes d’application.

Approche Accuracy Precision Recall F1-Score

LSTM 92% 90% 88% 89%

Isolation
85% 81% 83% 82%
Forest

GNN 93% 92% 89% 91%

TABLE 4.1 – Tableau récapitulatif des performances des approches de détection d’anomalies

Un aspect clé de cette étude est l’intégration des données sémantiques dans le processus
de prédiction. En enrichissant les données IoT avec des relations sémantiques via des triplets
RDF, les modèles ont pu exploiter des connexions contextuelles riches entre les variables,
améliorant ainsi leur capacité à identifier des anomalies significatives. Cette approche a

Page 85
Chapitre 4– Etude expérimentale

permis de réduire les faux positifs et d’améliorer la précision, notamment pour les modèles
tels que GNN, qui profitent directement des relations explicites définies dans les graphes.
De plus, l’apport sémantique a renforcé l’interopérabilité et la flexibilité du système en
facilitant l’ajout de nouvelles entités ou unités, ce qui est crucial pour des systèmes IoT
évolutifs. Malgré ces avantages, la conception et l’intégration des modèles sémantiques né-
cessitent un effort initial important et impliquent un surcoût computationnel.
L’analyse comparative montre que le choix d’un modèle dépend fortement du contexte
d’application :

— Les LSTM sont idéaux pour les séries temporelles riches en variations complexes.

— Les Isolation Forest conviennent aux détections rapides et ponctuelles.

— Les GNN sont performants pour capturer des relations contextuelles et structurelles
riches dans des environnements interconnectés.

Cependant, chaque méthode présente des limites spécifiques, telles que les coûts computa-
tionnels élevés pour les LSTM et GNN ou la moindre adaptabilité contextuelle pour Isola-
tion Forest.
Cette étude met en évidence l’importance de combiner des approches de modélisation
avancées avec des données sémantiques pour optimiser les performances des systèmes IoT.
L’intégration de la sémantique a amélioré la pertinence et la qualité des prédictions, en
rendant les modèles plus adaptatifs et efficaces. En conclusion, l’approche à adopter dépend
des besoins spécifiques et des contraintes du système, avec une forte recommandation pour
l’utilisation des GNN dans des environnements interconnectés et des LSTM pour des séries
temporelles complexes.

4.9 Conclusion
Ce chapitre a exploré en détail les performances des modèles de détection d’anomalies
dans un contexte IoT, en s’appuyant sur des approches variées telles que LSTM, Isolation
Forest et GNN. Chaque modèle a été évalué sur ses capacités à identifier les anomalies dans
des données environnementales, notamment la température et l’humidité, à travers des mé-
triques pertinentes telles que la précision, le rappel et le F1-score.
Les expérimentations ont mis en lumière les forces et les limites de chaque méthode. LSTM

Page 86
Chapitre 4– Etude expérimentale

s’est démarqué par sa capacité à capturer des relations séquentielles complexes, bien qu’il
soit exigeant en termes de calculs. GNN, grâce à l’exploitation de relations contextuelles
riches via des données sémantiques RDF, a montré une robustesse notable, mais au prix
d’une conception plus complexe. Enfin, Isolation Forest, rapide et léger, a prouvé son effica-
cité pour des détections ponctuelles, bien qu’il soit moins adapté aux relations temporelles.
En complément, l’intégration de la sémantique dans les processus de prédiction a renforcé la
pertinence des résultats en exploitant les relations contextuelles entre les variables. Cette ap-
proche a permis d’améliorer l’interopérabilité et la capacité d’adaptation des modèles, tout
en réduisant les biais et les faux positifs. Toutefois, elle nécessite un effort supplémentaire
pour définir et structurer les modèles RDF.
Les visualisations des résultats, qu’il s’agisse de séries temporelles ou de graphiques in-
teractifs, ont facilité l’interprétation des anomalies et démontré la capacité des modèles à
surveiller les données en temps réel. En conclusion, chaque modèle apporte une contri-
bution spécifique selon le type d’anomalie et le contexte d’application, soulignant ainsi la
nécessité d’une approche adaptée et contextualisée pour une gestion efficace des données
IoT. Cette étude confirme également l’importance de combiner des techniques innovantes
comme les graphes sémantiques et les algorithmes d’apprentissage pour une analyse plus
précise et fiable des systèmes IoT.

Page 87
Conclusion générale

À travers cette étude, nous avons exploré et expérimenté diverses approches pour la pré-
diction et la détection d’anomalies dans le contexte des systèmes IoT, en mettant un accent
particulier sur l’intégration de la sémantique et des techniques d’apprentissage avancées.
Chaque chapitre de ce travail a contribué d’établir une compréhension approfondie des en-
jeux et des solutions possibles pour traiter les flux de données complexes et les anomalies
dans les environnements IoT.
Dans un premier temps, nous avons identifié les méthodes fondamentales et avancées uti-
lisées pour enrichir les prédictions avec des éléments sémantiques, mettant en lumière l’im-
portance des ontologies et de la structuration des données pour une interprétation contex-
tuelle. Cette fondation a ensuite été renforcée par une analyse détaillée des techniques d’an-
notation et des modèles appliqués aux séries temporelles, démontrant l’efficacité des ap-
proches combinées, comme les modèles statistiques, les algorithmes d’apprentissage auto-
matique, et les ontologies.
L’apport principal de cette recherche réside dans le développement d’une méthode inté-
grant des données enrichies via des triplets RDF et l’utilisation de modèles tels que LSTM,
Isolation Forest, et GNN pour la détection et la prédiction des anomalies. Cette approche a
permis de répondre aux défis spécifiques posés par les séries temporelles complexes et les
relations contextuelles dans les données IoT. Les résultats des expérimentations ont montré
que chaque méthode possède des forces distinctes selon le type d’anomalies (ponctuelles,
contextuelles, ou séquentielles) et le contexte d’application.
L’intégration de la sémantique s’est avérée cruciale pour améliorer la qualité des ana-
lyses en exploitant les relations contextuelles entre les variables, réduisant ainsi les biais
et augmentant l’interopérabilité des modèles. Cependant, elle implique également des défis
liés à la structuration des données et aux exigences computationnelles des modèles avancés,

88
Chapitre 4– Etude expérimentale

tels que les GNN.


Enfin, les visualisations interactives des résultats ont permis une interprétation claire
des prédictions et une meilleure compréhension des comportements anormaux, rendant ces
outils particulièrement utiles pour la gestion proactive et la maintenance des systèmes IoT.
Ce travail souligne l’importance de combiner des techniques innovantes pour développer
des solutions robustes, adaptables, et exploitables dans des environnements complexes.
En conclusion, cette recherche démontre le potentiel transformateur de l’approche sé-
mantique et des algorithmes d’apprentissage avancés pour les systèmes IoT, tout en ouvrant
la voie à des travaux futurs visant à optimiser davantage la précision, l’efficacité, et l’acces-
sibilité de ces modèles.

Dans le prolongement de cette recherche, plusieurs perspectives méritent d’être explo-


rées pour renforcer et étendre les contributions de ce travail. Tout d’abord, l’intégration
de techniques plus avancées, telles que les modèles de deep learning génératifs ou les ar-
chitectures hybrides combinant plusieurs approches, pourrait améliorer encore la détection
des anomalies dans des environnements IoT en constante évolution. Ces modèles pourraient
permettre une meilleure capture des interactions complexes entre les variables, en exploitant
davantage les données temporelles et contextuelles enrichies.
Ensuite, l’optimisation des algorithmes pour une meilleure efficacité computationnelle
reste une priorité. Les systèmes IoT nécessitent souvent des solutions déployées en temps
réel, et l’adaptation des modèles comme les GNN ou les LSTM pour des ressources limitées,
telles que les appareils edge, constituerait un défi pertinent à relever. Le développement de
mécanismes de compression de modèles ou d’approches de calcul distribué pourrait être
envisagé pour surmonter ces limitations.
Une autre perspective clé réside dans l’extension de l’utilisation des ontologies et des
graphes sémantiques. L’élaboration de nouveaux modèles RDF plus complexes, combinés
avec des outils de raisonnement automatique, pourrait enrichir les prédictions en intégrant
des informations externes, telles que des données météorologiques ou contextuelles, afin
d’augmenter la robustesse et la pertinence des analyses.
Enfin, la création d’interfaces utilisateur encore plus intuitives et interactives représente
une direction importante. Ces interfaces pourraient intégrer des outils de visualisation avan-
cés, comme des tableaux de bord dynamiques ou des systèmes de recommandations basés

Page 89
Chapitre 4– Etude expérimentale

sur les anomalies détectées, afin de faciliter la prise de décision des utilisateurs finaux et
d’encourager une adoption plus large dans l’industrie.
En somme, cette recherche ouvre des opportunités significatives pour repousser les li-
mites des capacités actuelles en matière de détection et de prédiction d’anomalies dans les
systèmes IoT, tout en répondant aux défis liés à la scalabilité, l’efficacité, et l’intégration
dans des environnements opérationnels variés.

Page 90
Références

Abbassi, Y. and Benlahmer, H. (2021). Un aperçu sur la sécurité de l’internet des objets
(iot). In Colloque sur les Objets et systèmes Connectés-COC’2021.

Adombi, A. V. d. P. (2024). Développement de modèles d’apprentissage automatique guidés


par la théorie en hydrogéologie. PhD thesis, Université du Québec à Chicoutimi.

AMARA, F. Z. (2024). Représentation des Connaissances dans l’Internet des Objets :


Modélisation Sémantique et Raisonnement. PhD thesis, Université d’Oum El-Bouaghi.

AMEUR, W. and BENHAOUCHE, B. (2024). Vers une approche de recommandation so-


ciale à base de préférence. PhD thesis, Université ibn khaldoun-Tiaret.

Amor, K. H. (2024). Classification et inférence de réseaux de gènes à partir de séries


temporelles très courtes : application à la modélisation de la mémoire transcriptionnelle
végétale associée à des stimulations sonores répétées. PhD thesis, Université de Toulouse.

Belghiti, A. A. (2021). Prédiction de situations anormales par apprentissage automatique


pour la maintenance prédictive : approches en transport optimal pour la détection d’ano-
malies. PhD thesis, Université Paris-Saclay.

Bibimoune, M., Rigori, S., Ji, L., Rappos, E., and Robert, S. (2016). Analyse prédictive
de séries temporelles : prédiction étendue à l’aide de l’apprentissage automatique. bulle-
tin. ch= Fachzeitschrift und Verbandsinformationen von Electrosuisse und VSE= Bulletin
SEV/AES : revue spécialisée et informations des associations Electrosuisse et AES.

Boubidi, R. and Nedjimi, A. (2023). Les solutions de paiements par l’internet des objets
internet of things payment solutions. Revue Namaa pour l’économie et le commerce Vol,
7(02) :138–153.

91
Chapitre 4– RÉFÉRENCES

Dameron, O. (2022). Méthodes du web sémantique pour l’intégration de données en


sciences de la vie. Intégration de données biologiques : Approches informatiques et sta-
tistiques, page 33.

Diallo, M. S., Mokeddem, S. A., Braud, A., Frey, G., and Lachiche, N. (2020). Quels jeux de
données pour la prédiction d’anomalies dans l’industrie 4.0 ? In GAST@ EGC20 : Gestion
et Analyse des données spatiales et temporelles, Bruxelles, Belgique, 27-31 janvier 2020.

Djemmam, A. E. N. (2023). Analyse et manipulation de l’espace latent d’un gan pour la


génération d’image.

Enterprise, H. P. (2022). Swarm learning.

Fakhfakh, K. (2022). Intelligence des données au service de la gestion optimisée des ur-
gences hospitalières. PhD thesis, Centrale Lille.

Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. (2017). Neural mes-
sage passing for quantum chemistry. In International conference on machine learning,
pages 1263–1272. PMLR.

Gruber, T. R. (1993). A translation approach to portable ontology specifications. Knowledge


acquisition, 5(2) :199–220.

Hacine-Gherbi, A. (2018). Construction d’une ontologie pour le WEB sémantique. PhD


thesis.

Hochreiter, S. (1997). Long short-term memory. Neural Computation MIT-Press.

Hubert, N., Monnin, P., Brun, A., and Monticolo, D. (2024). Enrichissement de fonctions
de perte avec contraintes de domaine et co-domaine pour la prédiction de liens dans les
graphes de connaissance. In 27e Conférence Nationale en Intelligence Artificielle.

Huynh-Kim-Bang, B. (2009). Indexation de documents pédagogiques : fusionner les ap-


proches du Web Sémantique et du Web Participatif. PhD thesis, Université Henri Poincaré-
Nancy I.

James, G., Witten, D., Hastie, T., Tibshirani, R., et al. (2013). An introduction to statistical
learning, volume 112. Springer.

Page 92
Chapitre 4– RÉFÉRENCES

Laborie, S. (2024). Le Web Sémantique : une solution fédératrice pour le traitement de


l’information. PhD thesis, Université de Pau et des Pays de l’Adour.

Lin, X.-X., Lin, P., and Yeh, E.-H. (2020). Anomaly detection/prediction for the internet of
things : State of the art and the future. IEEE Network, 35(1) :212–218.

Liu, F. T., Ting, K. M., and Zhou, Z.-H. (2008). Isolation forest. In 2008 eighth ieee
international conference on data mining, pages 413–422. IEEE.

Mahesh, B. (2020). Machine learning algorithms-a review. International Journal of Science


and Research (IJSR).[Internet], 9(1) :381–386.

Mélard, G. (2006). Initiation à l’analyse des séries temporelles et à la prévision. Revue


Modulad, 82(35).

Monbet, V. (2011). Modélisation de séries temporelles. Université de Rennes.

Nascimento, G. F. M. (2022). Optimization of resources and consumption of smart buildings


for energy efficiency. PhD thesis, Université Grenoble Alpes [2020-....] ; Universidade
federal de Santa . . ..

Noel, D. (2019). Une approche basée sur le web sémantique pour l’étude de trajectoires de
vie. PhD thesis, Université Grenoble Alpes.

Othmane, Z. B. (2020). Analyse et visualisation pour l’étude de la qualité des séries tem-
porelles de données imparfaites. PhD thesis, Université de Reims Champagne-Ardenne.

Ramasso, E. (2016). Méthodologies d’analyse de séries temporelles sous incertitudes aléa-


toires et épistémiques pour le suivi et le pronostic de l’état de systèmes et structures-De
l’estimation d’une cinétique d’endommagement à son contrôle. PhD thesis, UBFC.

Roussey, C., Bernard, S., and Atemezing, G. (2024). Introduction à la formalisation des
connaissances et aux technologies du Web Sémantique. PhD thesis, MISTEA, INRAE.

Sassi, I. B., Trabelsi, C., Bouzeghoub, A., and Yahia, S. B. (2013). Contextual information
retrieval based on users’ interests prediction and their social relations. Ingenierie des
Systemes d’Information, 18(1) :59–84.

Page 93
Chapitre 4– RÉFÉRENCES

Savarit, G., Bertet, K., and Demko, C. (2023). Transcription de séries temporelles en sé-
quences temporelles via conservation des caractéristiques de variation. In Inforsid 2023 :
Exploration des traces dans un monde du tout numérique : enjeux et perspectives, pages
24–27.

Serardi, S. et al. (2023). Vers un système de détection d’intrusion dans l’Internet des Objets.
PhD thesis, Université Ibn Khaldoun.

Severance, C. (2015). Guido van rossum : The early years of python. Computer, 48(2) :7–9.

Seydoux, N., Alaya, M. B., Hernandez, N. J., Monteil, T., and Haemmerlé, O. (2015). Sé-
mantique et internet des objets : d’un état de l’art à une ontologie modulaire. In 26mes
Journées francophones d’Ingénierie des Connaissances.

Terir, K. et al. (2020). Gstion de la con dentialité des données pour les dispositifs IOT
(Internet of Things). PhD thesis, University of Jijel.

Vuillemin, B., Delphin-Poulat, L., Nicol, R., Matignon, L., and Hassas, S. (2019). Tsrule-
growth : Extraction de r\egles de pr\’ediction semi-ordonn\’ees\a partir d’une s\’erie
temporelle d’\’el\’ements discrets, application dans un contexte d’intelligence ambiante.
arXiv preprint arXiv :1907.10054.

Page 94

Vous aimerez peut-être aussi