Prédiction Sémantique d'Anomalies IoT
Prédiction Sémantique d'Anomalies IoT
MEMOIRE DE MASTERE
’ À mes parents qui m’ont toujours soutenu et inspiré tout au long de ce parcours
académique.
Je tiens à remercier À mon frère et mes amis
(Ilhem,Oumaima,Ameni,Mariem,Molka,Ichraf) pour leurs précieux conseils.
Et Safouen qui est toujours avec moi et pour ses encouragements.
Cet ouvrage est dédié à tous ceux qui ont contribué directement ou indirectement à la
réalisation de ce projet.
À tous ceux qui me sont chers, à vous tous Merci. ’
OUMAIMA
i
Remerciments
En tout premier lieu, je remercie Dieu de m’avoir donné la volonté et la force pour
achever mon projet.
A mon encadrant
Dr Marouen Kachroudi
Je tiens à vous remercier sincèrement pour le temps que vous avez consacré, et votre
soutien tout au long de notre projet.
ii
Résumé
Cette recherche explore des approches avancées pour la détection et la prédiction d’ano-
malies dans les systèmes IoT, en intégrant la sémantique et des modèles tels que LSTM,
Isolation Forest, et GNN. Enrichies par des triplets RDF, ces méthodes capturent les re-
lations contextuelles entre les données, améliorant ainsi la précision des analyses. Chaque
modèle excelle dans des scénarios spécifiques (anomalies ponctuelles, contextuelles, ou sé-
quentielles), avec des visualisations interactives facilitant l’interprétation des résultats.
Le développement d’une méthode enrichie par des triplets RDF permet une meilleure com-
préhension des relations entre variables et améliore la qualité des prédictions. Chaque mo-
dèle s’est distingué par sa capacité à identifier différents types d’anomalies : ponctuelles,
contextuelles, ou séquentielles. Les visualisations interactives des résultats ont permis de
renforcer la compréhension des anomalies, facilitant ainsi une gestion proactive des sys-
tèmes IoT.
Mots clés : Internet des objets, Web Sémantique , Séries temporelles , Prédiction d’an-
nomalies .
iii
Table des matières
Introduction Générale 1
2 Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Prédiction d’anomalies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
iv
Chapitre 0– TABLE DES MATIÈRES
4 Etude expérimentale 68
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Environnement et outils de développement . . . . . . . . . . . . . . . . . . 68
4.2.1 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Collecte et exploration des données . . . . . . . . . . . . . . . . . . . . . 70
4.4 Le prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5 Entraînement du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6 Prédiction avec les modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6.1 Algorithme LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Page v
Chapitre 0– TABLE DES MATIÈRES
Page vi
Liste des tableaux
2.1 Comparaison des approches utilisées pour l’annotation des séries tempo-
relles dans les systèmes IoT. . . . . . . . . . . . . . . . . . . . . . . . . . 36
vii
Table des figures
2.1 Environnement IoT pour la prédiction d’anomalies sur les systèmes IoT. . . 24
2.2 Prèsentation de la pile de l’intelligence et l’apprentisage . . . . . . . . . . . 26
viii
Chapitre 0– TABLE DES FIGURES
Page ix
Liste des Algorithmes
LSTM
Isolation Forest
GNN
x
Liste des Abréviations
xi
Introduction Génerale
L’Internet des Objets (IoT) constitue une avancée technologique majeure, reliant des
dispositifs intelligents pour optimiser la collecte, l’analyse et la gestion des données dans
des environnements interconnectés.
L’IoT, encore émergent, transforme déjà notre quotidien. Dans les années à venir, l’ex-
pansion des objets connectés promet des applications toujours plus innovantes et utiles. La
prédiction sémantique apporte une intelligence supplémentaire en analysant non seulement
les données quantitatives, mais aussi leur sens et leurs relations contextuelles. En intégrant
cette approche, nous dépasse la simple corrélation pour mieux comprendre les données et
anticiper les changements de manière proactive. Cette approche enrichit considérablement
la capacité à anticiper les changements et à agir de manière proactive.
En comprenant le contexte sémantique des données IoT, on peut repérer des schémas qui ne
sont pas immédiatement évidents et identifier des tendances émergentes. Cette intelligence
approfondie est cruciale pour répondre aux exigences opérationnelles complexes et pour ali-
gner les décisions stratégiques sur les objectifs à long terme. En comprenant pleinement les
données au niveau sémantique, les organisations peuvent passer d’une réactivité passive à
une proactivité éclairée, en prenant des décisions informées qui optimisent les performances,
réduisent les risques et favorisent l’innovation dans un écosystème IoT en constante évolu-
tion.
Notre objectif principal du projet est d’explorer les techniques de prédiction dans les contextes
des environnements IoT, en mettant l’accent sur l’analyse sémantique des données pour an-
ticiper plus efficacement les événements et pour améliorer les interventions et les prises de
décision.
Ce mémoire est structuré en plusieurs chapitres, chacun abordant un aspect clé de l’ana-
lyse et de l’optimisation des environnements connectés à travers les données IoT et leur
interprétation sémantique.
1
Le Chapitre 1 présente une introduction générale à l’Internet des Objets (IoT), en dé-
crivant ses fondements, ses principales applications et les défis qu’il soulève. Cette section
met également en lumière l’importance de l’analyse prédictive sémantique dans la gestion et
l’exploitation des données IoT, ouvrant ainsi la voie à une compréhension plus approfondie
du contexte des données.
Le Chapitre 2, explorant les travaux antérieurs et les approches existantes dans le domaine de
la prédiction et de l’analyse des données IoT. Cette revue critique positionne notre recherche
dans le paysage scientifique, identifiant les limites des approches actuelles et soulignant les
opportunités pour intégrer la sémantique dans les modèles de prédiction.
Dans le Chapitre 3, nous détaillons notre méthodologie en expliquant les choix stratégiques,
les algorithmes employés et les étapes de mise en œuvre. Nous mettons également l’accent
sur l’intégration de la dimension sémantique dans les modèles de prédiction, en justifiant
ces choix à travers des arguments techniques et pratiques.
Le Chapitre 4 est consacré à l’évaluation des résultats obtenus. Une étude expérimentale
approfondie est menée pour analyser les performances du modèle proposé, en utilisant des
indicateurs pertinents et en comparant les résultats à ceux des approches traditionnelles.
Enfin, nous concluons ce mémoire par une synthèse des contributions de notre travail, en
mettant en avant les apports spécifiques de l’analyse sémantique des données IoT dans un
contexte de prédiction.
Nous proposons également des pistes pour des recherches futures et des applications poten-
tielles, visant à améliorer encore l’efficacité et l’intelligence des systèmes IoT.
2
Chapitre 1
1.1 Introduction
Ce chapitre pose les bases essentielles pour comprendre les concepts clés abordés dans
ce rapport. Nous débutons par une définition approfondie du Web sémantique, en mettant en
lumière ses principes fondamentaux et son rôle dans la structuration et l’interopérabilité des
données. Par la suite, nous mettons l’accent sur l’Internet des Objets (IoT), un domaine en
pleine expansion, en expliquant ses enjeux, ses applications et son intégration avec le Web
sémantique pour exploiter pleinement les flux de données générés par les objets connec-
tés. Nous explorons également les séries temporelles, en décrivant leurs principales compo-
santes. Enfin, une conclusion synthétise les idées principales.
1.2.1 Définition
Le Web sémantique entièrement fondé sur le Web classique, permet aux machines de ne
pas se contenter à présenter visuellement les données mais aussi à relier les données avec
3
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
leurs significations afin de rendre le contenu du web compréhensible par d’autre machines et
divers applications. Le web sémantique contient un ensemble de standards, de consortiums
définit par le W3C1 (Dameron, 2022). Ce dernier, représente le Web sémantique par une
pile technologique appelée « semantic web layer cake » afin de décrire sa composition et de
fixer le cadre de sa mise en place comme le montre la figure 1.1.
Le Web sémantique est une infrastructure qui permet l’utilisation des connaissances for-
malisées afin qu’elles puissent être extraite et traitaient. Au niveau sémantique le RDF est
le standard qui définit la façon de décrire les ressources du web à l’aide d’un vocabulaire
qui est compréhensible par un ordinateur (Roussey et al., 2024). Cette infrastructure doit
permettre :
— De faciliter les calculs divers et les raisonnements complexes tous en étant valide.
Le web sémantique offre des outils et des concepts permettant de structurer, d’interpréter
et d’exploiter efficacement les données IoT à travers différents axes d’application.
Page 4
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Le web sémantique révolutionne l’IoT en transformant les données brutes collectées par
les objets en informations riches et interopérables. Grâce à l’ajout de métadonnées séman-
tiques, ces données acquièrent un sens universel qui dépasse le cadre de leur application
d’origine. En reliant ces données à des bases de connaissances externes, on crée un véritable
"Web de données" où les informations peuvent être réutilisées dans de multiples contextes.
Cette approche, proche du Big Data, permet d’extraire de la valeur ajoutée des données et
de développer de nouvelles applications, comme la détection d’événements complexes ou
la surveillance de l’état des capteurs (Othmane, 2020).
Décrire les objets comme des services soulève à nouveau des questions d’interopérabi-
lité. Même si tous les fabricants fournissaient une API pour leurs objets, il est évident que
des disparités existeraient entre les API, même pour des objets similaires (par exemple, deux
ampoules intelligentes de marques différentes). Pour surmonter ce défi, une solution consiste
à abstraire l’interface du service en l’enrichissant sémantiquement. Ainsi, l’accès aux fonc-
tionnalités ne dépendrait plus uniquement du nom des fonctions, mais de leur description
sémantique. Cela permettrait aux services d’être interprétés automatiquement et découverts
dynamiquement, sans nécessiter une spécification préalable ni prendre en compte le modèle
ou la marque de l’objet (Seydoux et al., 2015).
Cette approche ouvre la voie à une indépendance entre les applications utilisant des
objets connectés et les fabricants de ces objets, permettant ainsi la création de programmes
génériques capables de découvrir et d’exploiter des services sémantisés . En outre, voir un
réseau d’objets connectés comme un ensemble de services permet d’intégrer non seulement
des objets physiques, mais aussi des entités virtuelles ou des services web. Cela introduit
le concept d’objet virtuel : par exemple, un capteur de température ressentie peut combiner
des informations sur la température, la vitesse du vent et l’humidité. Tout réseau disposant
de ces trois types de capteurs physiques peut offrir l’accès à ce capteur virtuel pour indiquer
la température ressentie (Othmane, 2020).
Ce principe introduit la possibilité de composer des services. Cette composition peut être
réalisée manuellement ou, dans une certaine mesure, automatiquement si chaque service est
Page 5
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Dans ce contexte, les ontologies jouent un rôle central en décrivant le réseau de capteurs
lui-même, plutôt que le phénomène observé. Par exemple, l’ontologie SSN (Semantic Sen-
sor Network) illustre bien cette utilisation en établissant des liens entre les capteurs et leurs
observations, sans spécifier la nature des données collectées. Cette description des capteurs
peut être associée aux métadonnées des données pour résoudre les questions de provenance,
en liant chaque donnée à son capteur d’origine, avec des informations telles que sa localisa-
tion ou sa précision (Seydoux et al., 2015).
Le caractère évolutif des réseaux d’objets connectés soulève également la question du
dynamisme : pour que la description du système reste pertinente au fil du temps, elle doit
pouvoir évoluer. Les objets peuvent être mobiles, et le réseau dans son ensemble n’est pas
figé : des objets peuvent être ajoutés, retirés ou déplacés.
Ce besoin de dynamisme va de pair avec la nécessité de configuration automatique.
Idéalement, l’ajout ou le retrait d’objets dans un réseau devrait nécessiter peu d’intervention
humaine, sans qu’une reconfiguration manuelle du réseau soit indispensable. L’intégration
d’une "fiche technique électronique" au sein de chaque objet , pourrait permettre la décou-
verte automatique du capteur par le réseau. Ce domaine d’application est étroitement lié
aux moteurs d’alignement automatique, car il est peu probable que tous les fabricants s’ac-
cordent sur un modèle unique de représentation. Cependant, des outils d’alignement pour-
raient faciliter la compatibilité entre l’ontologie intégrée par le capteur et celle du système
auquel il est connecté, améliorant ainsi l’interopérabilité entre objets hétérogènes.
Les objets consommateurs de services pourraient également tirer parti de cette descrip-
tion du système pour découvrir d’autres objets et identifier les fournisseurs de services sou-
haités. La configuration automatique se ferait alors à la fois au niveau du système et des
objets, suivant une approche de "plug and play" visant à minimiser la configuration ma-
nuelle nécessaire avant l’utilisation .
Page 6
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Parmi les trois axes précédemment décrits , des éléments communs se distinguent, re-
présentant les apports fondamentaux de la sémantique à l’IoT (Ramasso, 2016) :
Interopérabilité : La conversion des données en informations vise en premier lieu à
garantir l’interopérabilité. Les formalismes de représentation des connaissances proposés
par le W3C pour le web sémantique jouent un rôle essentiel dans l’IoT en masquant l’hé-
térogénéité des systèmes. Ils permettent de proposer une abstraction riche en sémantique,
indépendamment des spécificités techniques sous-jacentes. Une représentation non ambi-
guë des ressources, utilisant divers formalismes, favorise l’interopérabilité entre systèmes
reposant sur des informations similaires mais dans des formats distincts . Les recherches sur
l’alignement visent également à établir une compréhension mutuelle entre systèmes séman-
tisés basés sur différentes ontologies.
Intégration : La sémantisation des données rend possible l’intégration de données hé-
térogènes au sein d’une structure unifiée, le web des données liées, permettant un accès
transparent. Cela permet à chaque application de s’appuyer non seulement sur les données
qu’elle collecte, mais aussi sur celles provenant d’autres contextes. Cette approche ouvre
la voie à des mashups, ou services qui intègrent des données et services existants pour les
combiner en une seule solution. En donnent un exemple. Cette intégration n’est réalisable
que si l’on dépasse le modèle fermé où seuls les constructeurs peuvent ajouter des données,
pour arriver à un état où l’information est accessible et exploitable par tous.
Interprétation : La création de connaissances peut se faire de deux manières : en repla-
çant l’information dans un contexte global ou en appliquant des règles de déduction sur des
connaissances préexistantes. La première approche nécessite des ontologies de référence
pour croiser les informations de différentes sources et les convertir en connaissances exploi-
tables. Par exemple, SSN permet d’exploiter les données de réseaux de capteurs et, grâce à
sa réutilisation étendue, intègre ces informations dans un contexte global. Les ontologies de
haut niveau sont également cruciales, car elles situent les concepts les uns par rapport aux
autres de manière indépendante de toute application. La seconde approche consiste à déduire
des connaissances en appliquant des règles et en raisonnant sur d’autres informations. Cela
permet de générer des connaissances complexes, souvent difficiles à obtenir directement,
en corrélant divers éléments dans un contexte global. Le raisonnement basé sur des règles
Page 7
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
1.2.3 Ontologies
Pour comprendre le rôle crucial des ontologies dans la structuration des données et la sé-
mantique, il est essentiel de commencer par définir ce concept et ses fondements théoriques.
1.2.3.1 Définition
Le concept d’ontologie, bien qu’ancré dans la philosophie, s’est largement diffusé dans
le domaine de l’informatique. Sa définition varie selon les contextes, mais elle converge vers
une représentation formelle d’un domaine de connaissances.
Une ontologie est une spécification explicite d’une conceptualisation, c’est-à-dire une des-
cription structurée d’un ensemble de concepts, de propriétés et de relations entre ces concepts
(Gruber, 1993). Cette représentation, souvent considérée comme une base de connaissances
particulière , permet de modéliser de manière précise et partageable les connaissances d’un
domaine donné.
Les ontologies offrent plusieurs avantages :
— Réutilisabilité : Les ontologies peuvent être réutilisées dans différents contextes, per-
mettant de gagner du temps et de réduire les coûts de développement.
En somme, une ontologie est un outil puissant pour structurer, partager et exploiter les
connaissances. Elle est devenue un élément central de nombreux domaines, tels que l’intel-
ligence artificielle, la sémantique du Web et la gestion des connaissances tels que présenter
dans la Figure 1.2.
Page 8
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Une ontologie est un modèle formel qui structure la connaissance à l’aide de différents
éléments :
— Les classes regroupent des ensembles d’individus partageant des caractéristiques com-
munes et s’organisent en hiérarchies.
— Les relations lient les éléments entre eux, exprimant des associations ou des dépen-
dances.
— Les fonctions sont des constructions plus complexes basées sur les relations.
— Les restrictions spécifient des contraintes sur les valeurs des attributs ou sur les rela-
tions.
Page 9
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
— Les axiomes constituent les lois fondamentales de l’ontologie. Ensemble, ces éléments
permettent de représenter de manière précise et formalisée les connaissances d’un
domaine donné .
Une ontologie contient plusieurs composants et fonctionnalités qui aident à définir le do-
maine et à modéliser les connaissances pour créer un système intelligent selon le domaine
d’application, que nous présentons dans ce qui suit (Noel, 2019) .
— Ontologies de haut niveau : Elles capturent des concepts très généraux, communs à de
nombreux domaines.
Page 10
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
— Ontologies de tâche : Elles sont conçues pour résoudre des problèmes particuliers au
sein d’un domaine.
Ces différents niveaux sont hiérarchisés, et les ontologies peuvent être combinées pour for-
mer des ontologies plus complexes, répondant ainsi à des besoins variés(Hacine-Gherbi,
2018). Cette classification est illustrée dans la Figure 1.3.
1.3.1 Défintion
Le terme « IoT » a été utilisé pour la première fois en 1999 par Kevin Ashton, pionnier
de la technologie britannique, pour décrire un système dans lequel des objets du monde
physique pourraient être connectés à Internet au moyen de capteurs. Actuellement, il y a
près de 14 milliards d’appareils connectés à IoT, et ce nombre devrait atteindre plus de 30
milliards en 2025 (Huynh-Kim-Bang, 2009).
— Selon IBM, « l’Internet des objets (IoT) désigne les milliards d’appareils physiques
dans le monde qui sont désormais connectés à l’internet, et qui collectent et partagent
des données (Enterprise, 2022).
Page 11
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
— Selon Amazon, « Le terme IoT, ou internet des objets, désigne le réseau collectif d’ap-
pareils connectés et la technologie qui facilite la communication entre les appareils et
le cloud, ainsi qu’entre les appareils eux-mêmes .
— D’autre part, l’internet des objets (IoT) intègre des systèmes informatiques intelligents
dans des appareils et les connecte à internet. Ces appareils peuvent être utilisés dans
les entreprises B2C et B2B .
Donc comme présenter dans la Figure 1.4, nous pouvons dire que l’internet des objets est
une technologie qui permet aux appareils physiques du monde entier d’être connectés à l’in-
ternet.
Selon la majorité des chercheurs, l’architecture de l’IoT est généralement divisée en trois
couches (Boubidi and Nedjimi, 2023). Cette architecture est illustrée par la Figure 1.5.
Page 12
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Comme on peut le voir, les trois couches de l’architecture de l’IoT sont les suivantes :
— Hétérogénéité des données IoT : Les systèmes IoT sont constitués de dispositifs variés,
utilisant différents protocoles de communication et générant divers types de données.
— Décentralisation des systèmes IoT : Ces systèmes doivent pouvoir échanger des infor-
mations, les exploiter et collaborer entre eux de manière autonome.
— Diversité des écosystèmes IoT : Les capteurs, actionneurs et logiciels employés dans
un système IoT varient significativement d’un écosystème à un autre.
Page 13
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
L’internet des Objets (IoT) trouve des applications dans divers domaines, chacun profi-
tant de la connectivité et de la collecte de données en temps réel. Voici quelques domaines
principaux :
— Maison intelligente : Les appareils domestiques connectés, tels que les thermostats,
les éclairages, les caméras de sécurité et les appareils électroménagers, permettent une
automatisation et une gestion à distance, améliorant le confort et l’efficacité énergé-
tique.
— Santé et bien-être : L’IoT est utilisé pour le suivi des patients, les dispositifs médicaux
portables (comme les montres de fitness, les capteurs de glycémie), et les systèmes
de surveillance de la santé à distance. Cela améliore la qualité des soins et facilite le
suivi médical.
— Ville intelligente : L’IoT contribue à la gestion des infrastructures urbaines, telles que
l’éclairage public, les systèmes de gestion des déchets, la surveillance de la qualité
de l’air, et le transport public. Cela améliore l’efficacité énergétique, la sécurité, et la
qualité de vie.
— Énergie et services publics : L’IoT est utilisé dans les compteurs intelligents, la gestion
de l’énergie et les réseaux intelligents (smart grids), permettant une utilisation plus
efficace des ressources énergétiques et une meilleure gestion des infrastructures.
Page 14
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Chacun de ces domaines utilise l’IoT pour optimiser les opérations, améliorer l’efficacité et
fournir des services personnalisés, favorisant l’innovation et la durabilité tels que présenter
dans la Figure 1.6.
Le domaine le plus évident d’application des ontologies est celui de l’IoT lui-même.
Plusieurs ontologies, telles que l’iot-ontology proposée par (Seydoux et al., 2015), SAREF,
ou openiot-ontology, visent à décrire l’écosystème de l’IoT dans son ensemble.
Page 15
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Le domaine des capteurs connectés mérite toutefois une attention particulière, car il
s’agit des objets connectés les plus "simples", facilitant des applications directes via la col-
lecte et le traitement massif de données (comme le projet Semsorgrid4env, par exemple). Ces
caractéristiques ont fait des réseaux de capteurs sémantisés un sujet d’étude central pour la
communauté du web sémantique, conduisant le W3C à créer un groupe de travail qui a déve-
loppé l’ontologie SSN (Semantic Sensor Network). Cette ontologie, désormais considérée
comme un standard, est intégrée dans de nombreux projets basés sur des réseaux de capteurs
et fait partie des ontologies couramment utilisées pour décrire les objets connectés.
Cependant, l’ambition de développer des ontologies globales pour l’IoT a engendré cer-
tains écueils, similaires à ceux rencontrés dans d’autres domaines cherchant à structurer
sémantiquement leurs informations. Il n’existe pas de référence unique : chaque projet tend
à redéfinir ses propres concepts, limitant la réutilisation de ceux créés par d’autres acteurs.
Ce manque de standardisation constitue un obstacle majeur dans le domaine de l’IoT, où
la sémantisation vise avant tout à favoriser l’interopérabilité, l’intégration et l’interprétation
des données.
Par exemple, iot-ontology et openiot-ontology définissent chacun leur propre concept de
service ad hoc, et dans l’ontologie SAREF, la notion de capteur est redéfinie alors qu’elle
existe déjà dans SSN. Plutôt que de réutiliser SSN, les auteurs de SAREF recommandent
dans un document annexe de créer un mapping entre leur ontologie et SSN, ce qui n’est pas
nécessairement la meilleure pratique pour favoriser l’interopérabilité.
L’IoT est étroitement lié aux architectures orientées services (SOA), comme le montre
(Seydoux et al., 2015). Dans ce contexte, les objets connectés peuvent être perçus comme
des fournisseurs et/ou consommateurs de services, leurs fonctionnalités étant décrites sous
forme d’interfaces de webservices.
La description sémantique de ces services a conduit à la création d’ontologies spécifiques,
telles que WSMO et MSM, qui permettent de définir les méthodes disponibles, les para-
mètres requis et les réponses attendues. Le W3C a également contribué en fédérant les re-
cherches avec OWL-S et WSMO.
Page 16
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Les ontologies de haut niveau sont des structures très générales décrivant des concepts
abstraits applicables à divers domaines. Dans l’IoT, elles facilitent l’interopérabilité entre
différentes ontologies spécialisées (Seydoux et al., 2015).Par exemple, certaines notions
dans SSN sont des spécialisations de concepts présents dans DUL, et OntoSensor spécialise
des concepts de SUMO.
Les réseaux d’objets connectés ne se limitent pas à leur déploiement : ils peuvent égale-
ment viser des applications spécifiques qui bénéficient de modélisations sémantiques dé-
diées. Ainsi, des ontologies spécifiques à la domotique ou aux phénomènes météorolo-
giques sont utilisées pour modéliser des réseaux de capteurs dans des domaines particuliers.
Par ailleurs, les ontologies couvrant des domaines transversaux comme le temps (OWL-
Time dans SSN), la géolocalisation (Geonames), ou les unités de mesure (SWEET, QUDT)
jouent un rôle essentiel pour garantir une interprétation uniforme des métadonnées, assurant
ainsi une meilleure interopérabilité des données collectées par les objets connectés (Seydoux
et al., 2015).
— Saisonnalité : évolution se répétant régulièrement tous les ans ou tous les mois ou
toutes les semaines. Exemples :
– En météorologie, températures plus faibles en hiver qu’en été.
Page 17
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
– En économie, saisonnalité induite par les périodes de vacances, les périodes de fêtes,
le climat...
– Chiffre d’affaire d’un magasin.
— Composante stationnaire (ou résiduelle) : ce qui reste lorsque l’on a enlevé les autres,
composantes. Décrit l’évolution à court terme de la série (échelle journalière).
Notion de série temporelle stationnaire définie plus précisément dans la suite. Cette hypo-
thèse jouera un rôle fondamental dans la suite, et remplacera l’hypothèse usuelle des v.a
i.i.d. (ici, il peut exister une dépendance entre deux valeurs successives prises par la série
observée). Le modèle le plus courant consiste à supposer que la série initiale s’écrit sous la
forme(modèle additif) .
Xt = Tt + St + Yt pour tout t 1, · · · , n
avec Xt la tendance, St la composante saisonnière (fonction périodique de période un
an) et Yt la composante stationnaire.
Les séries temporelles, largement utilisées dans de nombreux domaines, figurent parmi
les types de données les plus ciblés par le data mining. Un entrepôt de données, quant à lui,
est un espace de stockage centralisé qui regroupe des données issues de différentes sources,
puis les organise selon un modèle unifié. Une fois intégrées dans l’entrepôt, les données sont
nettoyées, consolidées, chargées et régulièrement mises à jour (Monbet, 2011).
Page 18
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
Les principaux objectifs de la modélisation des séries temporelles sont les suivants :
• Decrire. Par exemple :
– en économétrie, détecter puis analyser les périodes de crises et croissances .
– en reconnaissance vocale, reconnaitre les mots dans des signaux .
– dans le séquençage du génome, détecter les parties de l’ADN qui contiennent de l’in-
formation.
• Comparer deux séries temporelles. Par exemple, l’évolution démographique de deux
régions ou deux séquences d’ADN.
• Prédire l’évolution future de la série temporelle à partir des valeurs qui ont été obser-
vées. Par exemple, pour des raisons socio-économiques on veut prévoir le temps qu’il va
faire,l’évolution des ventes d’un produit, la consommation d’électricité, etc.) Comment pré-
voir : en s’appuyant sur le passé. Pour prédire les ventes de l’année j + 1, nous s’appuie sur
l’évolution des ventes durant les années j, j 1, · · · mais on tient compte aussi d’évènement
(conjoncture, économique, crise, ...) (Amor, 2024).
Nous comptons illustrer les méthodes à l’aide de quelques exemples assez variés. La
discussion de ces exemples permettra de montrer l’application des différentes méthodes
(Mélard, 2006).
Exemple 1. CU, les prix du cuivre (1800-1997). Les données (Martino, 1983) sont an-
nuelles. Le graphe annoté est présenté dans la figure 1.9.Nous peut localiser la fin de la 1ère
guerre mondiale, la grande crise des années ‘30, les crises pétrolières de 1973 et 1980 (Mé-
lard, 2006).
Economie
Page 19
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
F IGURE 1.9 – Exemple : Les données des revenus de Walt Disney Company .
(Mélard, 2006)
F IGURE 1.10 – Exemple :évolution du cours du Dow Jones entre 1928 et 2004, données
mensuelles.
(Mélard, 2006)
Page 20
Chapitre 1– Etat de l’art sur le Web sémantique et les séries temporelles.
La relation entre les séries temporelles et l’environnement connecté réside dans l’utilisa-
tion des données générées par les objets connectés pour comprendre et prédire les habitudes
des utilisateurs.
Par exemple : dans le cas d’une maison connectée, les données provenant de capteurs de
mouvement, de capteurs de porte et d’autres dispositifs peuvent être utilisées pour créer des
séries temporelles qui capturent les routines et les comportements des occupants, comme le
moment où ils entrent ou sortent de la maison, allument ou éteignent les lumières (Vuillemin
et al., 2019).
1.5 Conclusion
En conclusion, cet état de l’art a permis de mettre en évidence les principales méthodes
et techniques utilisées pour la prédiction sémantique dans le cadre de l’Internet des Objets.
Nous avons exploré une variété de modèles de prédiction, allant des algorithmes statistiques
aux techniques avancées d’apprentissage profond. L’utilisation de la sémantique pour en-
richir les prédictions est cruciale, car elle permet une interprétation plus contextuelle des
données. De plus, la fouille de règles et les ontologies jouent un rôle clé dans la structura-
tion et l’interprétation des flux d’informations complexes générés par les réseaux IoT.
Page 21
Chapitre 2
2.1 Introduction
Nous explorons dans cette section l’analyse des séries temporelles et la prédiction d’évé-
nements anormaux, deux domaines essentiels pour anticiper les évolutions futures dans di-
vers secteurs tels que la finance, l’industrie, l’IoT et la santé. La prédiction d’anomalies
nous permet d’identifier à l’avance les comportements déviants ou les situations à risque,
offrant ainsi la possibilité de prendre des mesures proactives. Face à l’explosion des don-
nées temporelles générées par les objets connectés, les techniques de prédiction évoluent
rapidement. Nous présentons ici un panorama des méthodes utilisées, allant des modèles
statistiques classiques aux approches d’apprentissage automatique les plus récentes, tout en
abordant l’utilisation d’ontologies pour représenter la connaissance du domaine.
22
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
Dans le cadre des systèmes IoT, la prédiction d’anomalies joue un rôle crucial pour as-
surer la fiabilité et la sécurité des dispositifs connectés. En analysant les flux de données
issus des capteurs, les modèles prédictifs sont capables d’identifier les comportements po-
tentiellement défaillants avant leur apparition. Cette surveillance proactive, basée sur des
modèles de détection et de comportement établis durant une période d’apprentissage, per-
met d’émettre des alertes précoces et de déclencher des actions de récupération (comme des
sauvegardes ou redémarrages du système) afin de limiter les risques d’interruption (Serardi
et al., 2023).
La prédiction d’anomalies dans les systèmes IoT joue un rôle essentiel pour garantir
la fiabilité, la sécurité et l’efficacité de ces systèmes. Voici les principaux rôles de cette
prédiction :
— Réduction des coûts de maintenance : En prévoyant les anomalies, les systèmes IoT
permettent de passer d’une maintenance réactive à une maintenance prédictive. Cela
signifie que les interventions de maintenance peuvent être planifiées en fonction des
besoins réels, réduisant ainsi les coûts associés aux réparations imprévues.
— Amélioration de la sécurité : Les anomalies dans les systèmes IoT peuvent parfois
indiquer des tentatives d’intrusion ou des attaques. La prédiction d’anomalies permet
de détecter ces incidents potentiels avant qu’ils ne causent des dommages, renforçant
ainsi la sécurité des systèmes.
Page 23
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
sont déclenchées qu’en cas de besoin prédit, évitant ainsi les actions inutiles.
F IGURE 2.1 – Environnement IoT pour la prédiction d’anomalies sur les systèmes IoT.
(Serardi et al., 2023)
La figure 2.1 montre une configuration générale pour prédiction d’anomalies sur un sys-
tème IoT général, qui se compose des composants suivants : une machine D à surveiller ; des
capteurs s1, s2,s3, . . ., sK ; des moniteurs esclaves, m1, m2, m3, . . ., mK ; un moniteur maître
M. Le capteur si détecte les signaux émis par D à une fréquence fixe ou variable, convertit
les signaux en données de détection simples ou multiples et envoie les flux de données de
détection au moniteur esclave mi . Cette configuration peut être appliquée à de nombreux
systèmes IoT où plusieurs dispositifs IoT (de différents types) ou capteurs sont intégrés au
système, et les dispositifs IoT sont connectés à Internet via des communications sans fil.
Le modèle statistique est un modèle linéaire multivarié de type VAR structurel, régu-
larisé L1, qui permet l’utilisation conjointe de nombreux capteurs. En comparant les pré-
dictions du modèle avec les valeurs réelles, nous montrons qu’un tel modèle permettrait de
Page 24
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
détecter à la fois des anomalies soudaines et des dérives lentes, que ce soit sur la structure
ou sur les capteurs.
En utilisant une connaissance approfondie de la structure et des principes physiques des
capteurs, nous pouvons concevoir un modèle direct pour analyser les signaux collectés. Nous
nous focalisons ici sur un modèle statistique permettant de décrire et de prévoir l’évolution
des signaux. Ce type de modèle est particulièrement utile pour anticiper les variations d’un
signal, par exemple en cas de défaillance d’un capteur. L’analyse des résidus de prédiction,
réalisée en temps réel lors des acquisitions, peut également servir à détecter des anomalies
dans les mesures, le fonctionnement des capteurs ou la structure elle-même. Par ailleurs, il
est possible d’associer une interprétation physique aux paramètres du modèle.
Bien que les modèles statistiques offrent une première étape d’analyse, les modèles de ma-
chine learning apportent une capacité supplémentaire à apprendre des données et à s’adapter
à des environnements complexes.
Page 25
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
Page 26
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
En revanche, l’apprentissage non supervisé analyse les données sans objectif préalablement
défini. Il est principalement utilisé pour des tâches de segmentation (clustering) ou de géné-
ration de règles d’association, permettant de détecter des structures et des similarités dans
les données.Parmi les techniques principales, on trouve :
— Isolation Forest : L’algorithme isolation forest est une méthode non supervisée spé-
cialisée dans la détections d’anomalies. Contrairement aux techniques de clustering
ou aux autoencodeurs, il identifie directement les anomalies en se concentrant sur leur
isolement dans l’espace des données (Liu et al., 2008).
L’apprentissage profond, ou Deep Learning (DL), est une branche de l’Intelligence Ar-
tificielle (IA) et de l’apprentissage automatique (Machine Learning, ML) qui permet à un
système d’apprendre à résoudre un problème de manière autonome.
Le Deep Learning s’est imposé comme une approche incontournable pour la prédiction
d’anomalies, en particulier dans les systèmes IoT et les environnements industriels. Grâce à
sa capacité à traiter de grandes quantités de données complexes et hétérogènes, le Deep Lear-
ning permet de capturer des patterns temporels et spatiaux riches, souvent inaccessibles aux
méthodes traditionnelles. Cette section explore les algorithmes principaux, dans le contexte
de la prédiction d’anomalies.
Page 27
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
— Long Short-Term Memory (LSTM) : Les Long Short-Term Memory (LSTM), une
variante des Réseaux de Neurones Récurrents (RNN), sont spécialement conçus pour
surmonter les limitations des RNN classiques, telles que le gradient vanissant ou ex-
plosif. Les LSTM permettent de capturer des dépendances temporelles à long terme,
ce qui les rend particulièrement adaptés à la prédiction d’anomalies dans des séries
temporelles complexes (Hochreiter, 1997).
— Autoencodeurs : Les autoencodeurs sont des architectures de Deep Learning non su-
pervisées conçues pour réduire la dimensionnalité des données et reconstruire celles-
ci. Les anomalies sont détectées à partir des erreurs de reconstruction élevées (Lin
et al., 2020).
Le deep learning offre une approche puissante pour la prédiction d’anomalies dans les séries
temporelles et les systèmes IoT, mais il nécessite une infrastructure robuste et une gestion at-
tentive des données pour surmonter ses limitations. En combinant des architectures adaptées
comme les LSTM, les autoencodeurs , ces modèles permettent de capturer les complexités
des environnements modernes, ouvrant la voie à des systèmes prédictifs plus fiables et effi-
caces.
Les techniques d’apprentissage basées sur les graphes ont gagné en popularité pour la
prédiction d’anomalies, en particulier dans les environnements IoT et les systèmes com-
plexes. Ces approches exploitent la structure relationnelle des données pour détecter des
anomalies qui ne seraient pas apparentes dans les données tabulaires ou séquentielles clas-
siques.
— Graph Neural Networks (GNN) :Les réseaux de neurones pour graphes (GNN) sont
conçus pour traiter des données structurées sous forme de graphes, où les relations
entre les entités (nœuds) sont aussi importantes que les entités elles-mêmes (Gilmer
et al., 2017).
Page 28
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
Les techniques d’apprentissage basées sur les graphes constituent un outil puissant pour
la prédiction d’anomalies dans des environnements complexes. Cependant, leur efficacité
dépend de la qualité de la représentation des graphes et des ressources disponibles pour
traiter les structures complexes.
Page 29
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
qu’elles ne causent des perturbations majeures, grâce à l’analyse des données de capteurs
en temps réel. Les résultats expérimentaux, obtenus notamment sur les jeux de données des
moteurs turbofan, montrent des prédictions précises du RUL, avec des métriques telles que
l’erreur absolue moyenne (MAE), l’erreur quadratique moyenne (MSE), et la courbe ROC
pour l’évaluation des performances. Cette approche dépasse les méthodes classiques en of-
frant une anticipation fiable et une meilleure interprétation des anomalies dans des systèmes
complexes.
Page 30
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
Les résultats obtenus montrent que les algorithmes supervisés, comme Random Forest et
SVM, surpassent généralement les approches non supervisées, particulièrement sur des en-
sembles de données riches et variés.
Les métriques utilisées incluent la précision, le rappel et le score F1, fournissant une éva-
luation robuste des performances des modèles. Cette étude met en lumière les défis liés aux
ensembles de données déséquilibrés et à la nécessité de réduire la dépendance aux connais-
sances expertes dans les environnements IoT.
(Belghiti, 2021)les auteurs explorent les approches de détection d’anomalies et leur rôle
crucial dans la maintenance prédictive des systèmes industriels. Deux principales contribu-
tions sont proposées : une méthode de classification semi-supervisée et une méthode non-
supervisée, toutes deux basées sur la théorie du transport optimal. La première méthode
repose sur la modélisation des séries temporelles pour identifier les écarts significatifs entre
les données réelles et prédites, tandis que la seconde s’appuie sur des métriques de densité
locale dans des espaces multidimensionnels non-euclidiens. Les étapes incluent la collecte
et la préparation des données, leur modélisation à l’aide de techniques mathématiques avan-
cées, et l’application des algorithmes pour détecter les anomalies.
Les résultats montrent une amélioration significative par rapport aux méthodes existantes,
notamment dans la robustesse des détections dans des environnements de données com-
plexes.
Les performances ont été mesurées à l’aide de métriques telles que l’aire sous la courbe
ROC (AUC-ROC), le score F1 et l’Accuracy, qui démontrent l’efficacité des contributions
dans la réduction des faux positifs et l’amélioration de la précision globale. Ces avancées
ouvrent des perspectives prometteuses pour une maintenance industrielle proactive et opti-
misée.
(Vuillemin et al., 2019)les auteurs proposent un nouvel algorithme, TSRuleGrowth, conçu
pour extraire des règles de prédiction semi-ordonnées à partir de séries temporelles discrètes
dans un environnement connecté. Cet algorithme s’appuie sur les principes de la fouille de
règles et introduit une nouvelle notion de support adaptée aux séries temporelles. Les étapes
incluent la collecte des données issues de capteurs et actionneurs, la transformation de ces
données en séries temporelles catégoriques, et l’application de TSRuleGrowth pour identi-
fier des relations fréquentes entre les événements.
L’algorithme utilise une fenêtre temporelle pour limiter les recherches et applique des mé-
Page 31
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
(Seydoux et al., 2015)les auteurs explorent les défis et les solutions liés à l’application
de la sémantique dans l’Internet des Objets (IoT) pour améliorer l’interopérabilité et l’inter-
prétation des données hétérogènes. Les auteurs proposent une ontologie modulaire appelée
IoT-O, conçue pour structurer et standardiser les informations provenant des capteurs, des
actionneurs et des services IoT. IoT-O intègre des sous-modules spécifiques, tels que l’ob-
servation, les capteurs (basés sur l’ontologie SSN) et les services (reposant sur MSM), pour
offrir une représentation cohérente et flexible des systèmes IoT. L’approche est illustrée dans
le projet ADREAM, où IoT-O est utilisée pour diagnostiquer les pannes des capteurs et dé-
tecter des anomalies dans les systèmes asservis, démontrant son efficacité pour optimiser la
gestion des données IoT.
Les résultats montrent une amélioration significative de l’interopérabilité et de la modula-
rité, rendant les systèmes IoT plus robustes et évolutifs.
Les métriques utilisées incluent la couverture des données, la précision des détections d’ano-
malies et la modularité de l’ontologie. Cette étude souligne l’importance de la sémantique
pour structurer les environnements connectés et propose des perspectives pour l’élargisse-
ment des applications de IoT-O à des écosystèmes plus complexes.
(Sassi et al., 2013)L’article explore une approche innovante pour l’enrichissement des re-
quêtes et des cercles sociaux des utilisateurs dans le cadre de la recherche d’information
contextuelle et sociale. La méthode repose sur trois étapes principales : la construction
d’une situation sémantique pour chaque utilisateur à partir de données spatiotemporelles,
la prédiction des intérêts utilisateurs basée sur des techniques de classification associative,
et l’enrichissement des requêtes ainsi que des cercles sociaux en s’appuyant sur l’ontologie
FOAF et la méthode de marche aléatoire.
Page 32
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
— (Bibimoune et al., 2016) se concentrent sur l’analyse des données IoT issues de cap-
teurs pour effectuer des prédictions sur des séries temporelles enrichies. L’approche
repose sur l’utilisation des réseaux de neurones profonds (DNN), combinés à des
techniques de régression linéaire et de normalisation des données, pour modéliser
les comportements des systèmes. Appliquée au domaine de la consommation éner-
gétique, cette méthode permet de traiter efficacement de grands volumes de données
tout en identifiant des anomalies potentielles. Les résultats visent à optimiser l’effi-
cacité énergétique des systèmes en anticipant des défaillances ou des comportements
atypiques.
Page 33
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
— (Vuillemin et al., 2019) se concentrent sur l’analyse des séries temporelles pour ex-
traire des règles semi-ordonnées grâce à l’algorithme TSRuleGrowth. Ce dernier uti-
lise une fenêtre temporelle pour identifier des motifs séquentiels pertinents dans les
données. Appliquée au domaine de l’intelligence ambiante, cette méthode innovante
facilite l’automatisation des systèmes intelligents dans des environnements connectés.
Elle se distingue par sa capacité à détecter des patterns réguliers, essentiels pour anti-
ciper les comportements et optimiser les interactions au sein des systèmes connectés.
— (Sassi et al., 2013) se concentrent sur l’exploitation des données utilisateur spatio-
temporelles pour enrichir les requêtes contextuelles et les ontologies. Leur approche
combine l’utilisation d’ontologies (comme FOAF), de modèles probabilistes et de
techniques de marche aléatoire pour structurer et analyser les données. Appliquée au
domaine de la recherche d’informations contextuelles, cette méthode améliore signi-
ficativement l’interprétation des données spatio-temporelles. En intégrant des infor-
Page 34
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
Chaque étude apporte une contribution spécifique adaptée à des cas d’usage variés. Les
approches basées sur les séries temporelles (LSTM, TSRuleGrowth) se montrent particu-
lièrement efficaces pour la prédiction d’anomalies dans des environnements dynamiques.
En parallèle, les méthodes ontologiques offrent une meilleure structuration et interopéra-
bilité des données, tandis que les techniques hybrides (Random Forest, SVM) permettent
de combiner précision et efficacité dans des contextes industriels complexes. Cette diversité
souligne l’importance de choisir les techniques en fonction des données disponibles et des
objectifs visés.
Ce tableau 2.1 a mis en lumière l’efficacité et les limites des méthodes étudiées en fonc-
tion de leurs objectifs et des environnements IoT analysés.
Page 35
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
TABLE 2.1 – Comparaison des approches utilisées pour l’annotation des séries temporelles
dans les systèmes IoT.
Dans un écosystème IoT en constante évolution, le défi réside dans la capacité à in-
terpréter des données massives, souvent hétérogènes et non structurées, générées par une
multitude d’appareils connectés. Les méthodes prédictives traditionnelles, bien qu’efficaces
pour extraire des corrélations, manquent de la profondeur contextuelle nécessaire pour ap-
préhender les relations complexes entre les variables. Cela limite leur capacité à fournir des
Page 36
Chapitre 2– Revue des méthodes d’annotation des séries temprelles dans les systèmes IoT
2.6 Conclusion
Ce chapitre nous a permis d’explorer en profondeur les différentes approches techniques
utilisées pour l’annotation des séries temporelles dans les systèmes IoT. À travers une ana-
lyse détaillée des modèles statistiques, des techniques d’apprentissage automatique (Ma-
chine Learning et Deep Learning), ainsi que des approches ontologiques, nous avons mis en
lumière leurs spécificités, avantages et limites dans le contexte des environnements IoT.
Les modèles statistiques offrent une base solide pour une analyse rapide et explicative,
notamment grâce à leur capacité à capturer des tendances simples et des anomalies sou-
daines. Cependant, leur capacité à traiter les relations complexes entre les données est limi-
tée, ce qui a conduit à l’émergence des méthodes d’apprentissage automatique. Ces dernières
exploitent pleinement les données complexes et multidimensionnelles, permettant ainsi des
prédictions plus précises et robustes.
L’étude comparative réalisée a permis de synthétiser les entrées, sorties, techniques et
domaines d’application des différentes approches, en s’appuyant sur une sélection d’articles
récents et pertinents. En conclusion, ce chapitre souligne l’importance de combiner plusieurs
approches pour répondre aux défis posés par les séries temporelles dans les systèmes IoT.
L’enrichissement contextuel des données, la modularité des ontologies et l’efficacité des
algorithmes d’apprentissage automatique ouvrent la voie à des solutions innovantes pour
l’annotation et la prédiction des anomalies dans les environnements IoT complexes.
Page 37
Chapitre 3
3.1 Introduction
Dans un monde où les données occupent une place centrale, la capacité à identifier et
anticiper les anomalies au sein des systèmes est devenue un enjeu crucial. Ces anomalies
peuvent révéler des dysfonctionnements, des comportements atypiques ou des événements
rares nécessitant une intervention spécifique. Cependant, les méthodes traditionnelles de dé-
tection d’anomalies, souvent limitées à des analyses statistiques ou des modèles simples,
peinent à fournir des résultats efficaces dans des contextes complexes où les données sont
riches et multidimensionnelles. Ce chapitre présente une approche novatrice pour la détec-
tion et la prédiction des anomalies, s’appuyant sur une ontologie enrichie. Cette méthode
repose sur une modélisation sémantique des interactions entre différents paramètres mesu-
rés, complétée par l’utilisation d’algorithmes avancés capables d’analyser ces relations et de
prévoir les anomalies à venir.
3.2 Contribution
Notre méthodologie propose une intégration innovante des séries temporelles brutes avec
des données sémantiques enrichies tels que présenter dans la Figure 3.1. Elle s’articule au-
38
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
— L’enrichissement des séries temporelles afin d’y incorporer des relations contextuelles.
— L’application d’algorithmes avancés, tels que LSTM , Isolation Forest et GNN , pour
identifier et anticiper les anomalies.
Page 39
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Les séries temporelles générées par les capteurs occupent une place centrale dans les
systèmes de surveillance modernes, avec des applications variées telles que la gestion indus-
trielle, l’environnement et les systèmes de santé. Bien que ces données soient abondantes et
riches en informations, elles présentent plusieurs défis pour leur exploitation directe. Nous
devons donc les structurer et les enrichir afin de les exploiter pleinement, notamment dans
le cadre de la détection et de la prédiction des anomalies.
Les séries temporelles sont une séquence de données collectées à intervalles réguliers,
représentant l’évolution d’un ou plusieurs paramètres mesurés au fil du temps. Par exemple :Pa-
ramètres mesurés par les capteurs (température (°C), humidité relative (%),Luminosité (lux),Qualité
de l’air )
Chaque observation dans la série temporelle comprend deux composants essentiels :
Après avoir établi le contexte et les enjeux liés aux données IoT dans la section précédente,
nous abordons maintenant le format générique de ces données, essentiel pour garantir leur
traitement optimal et leur intégration dans les modèles de détection.
Les données utilisées dans le cadre de ce projet sont issues de capteurs qui collectent des
séries temporelles représentant l’évolution de différents paramètres dans le temps. Ces don-
nées brutes, généralement enregistrées sous forme tabulaire (fichiers CSV), nécessitent une
structuration et une description précises pour être exploitées efficacement. Cette section dé-
taille le format générique des données et met en évidence leurs caractéristiques essentielles
avant leur transformation et enrichissement.
Page 40
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Les données brutes sont collectées à intervalles réguliers et structurées sous forme de ta-
bleau, où chaque ligne correspond à une observation à un moment précis, tandis que chaque
colonne représente les valeurs des paramètres mesurés.
Colonnes Typiques : Horodatage (Time) :
— Format standard : YYYY-MM-DD HH :MM :SS (par exemple, 2024-11-17 08 :00 :00).
Après avoir défini le format générique des données, examinons un extrait concret de
fichier de données pour mieux illustrer leur structure et leur contenu qui est présente dans la
figures suivante.
Après avoir décrit la structure générale des données, nous allons maintenant explorer leurs
propriétés spécifiques pour mieux comprendre leurs caractéristiques et leur utilité
Après avoir examiné un exemple de fichier de données, il est essentiel d’analyser les
propriétés spécifiques des données,notamment les caractéristiques multidimensionnelles, sé-
quentielles, ainsi que la présence de bruit et de variabilité, qui peuvent influencer la détection
des anomalies.
a. Données Multidimensionnelles
Les séries temporelles collectées sont de nature multidimensionnelle, intégrant plusieurs pa-
ramètres mesurés simultanément par divers capteurs. Cette configuration facilite une analyse
Page 41
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
croisée des variables, indispensable pour identifier les relations contextuelles et repérer les
anomalies.
Exemple : -Une température élevée combinée à une faible humidité peut indiquer un pro-
blème dans le système de ventilation.
b. Données Séquentielles
Chaque observation est associée à un horodatage, conférant ainsi une dimension temporelle
aux données. Cette séquentialité joue un rôle clé pour :
Les données brutes présentent plusieurs propriétés qui influencent leur traitement ulté-
rieur : Grande Volumétrie :
Collectées en continu, elles génèrent un volume important de données, nécessitant une ges-
tion efficace.
Valeurs Manquantes :
Les capteurs peuvent occasionnellement échouer à enregistrer des mesures, entraînant des
lacunes dans les données.
Valeurs Aberrantes :
Les capteurs peuvent parfois produire des mesures incohérentes (par exemple, une tempéra-
ture de 120 °C).
Absence de Contexte :
Les relations entre les paramètres ne sont pas explicitement définies.
Page 42
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Afin d’assurer une exploitation optimale des données, un format standardisé est mis en
place. Les séries temporelles sont structurées pour inclure non seulement les valeurs des
différents paramètres, mais également des métadonnées cruciales.
Métadonnées Incluses :
— Seuils : Définissent les plages normales pour chaque paramètre (par exemple, une
température comprise entre -10 °C et 50 °C).
— Description des relations : Documentent les dépendances et corrélations entre les dif-
férents paramètres
Le format générique des données brutes sert de point de départ pour leur conversion en
séries temporelles enrichies. Ce processus inclut les étapes suivantes :
— Vérification de la cohérence : Les données sont examinées pour garantir qu’elles res-
pectent les formats requis, tels qu’un horodatage valide et des valeurs situées dans les
plages acceptables.
— Préparation pour RDF : Les données sont converties en triplets RDF, intégrant des
informations contextuelles dérivées de l’ontologie.
Le format générique des données brutes est structuré pour capturer les mesures des capteurs
sous une forme tabulaire standardisée. Cependant, ces données nécessitent un enrichisse-
ment et une contextualisation pour être pleinement exploitables dans des tâches avancées
comme la détection et la prédiction des anomalies. Cette structuration initiale joue un rôle
essentiel en préparant les données pour leur transformation en séries temporelles enrichies.
Le prétraitement des données est une étape essentielle pour garantir la qualité et la fiabi-
lité des analyses futures. Les séries temporelles issues des capteurs sont souvent brutes, pré-
sentant des lacunes telles que des valeurs manquantes, des anomalies ou des incohérences.
Page 43
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Cette phase a pour objectif de transformer ces données en un format propre, cohérent et
normalisé, prêt à être enrichi et utilisé pour la détection et la prédiction des anomalies.
— Harmoniser les données : Uniformiser les échelles de mesure pour éviter les biais dans
l’analyse.
— Préparer les données : Faciliter leur intégration avec l’ontologie et les algorithmes de
détection d’anomalies.
Après avoir décrit les étapes principales du prétraitement, nous approfondirons chacune
de ces étapes clés, en commençant par la gestion des valeurs manquantes, l’identification et
le traitement des valeurs aberrantes, pour aboutir à l’extraction de caractéristiques et l’ob-
tention des résultats finaux du prétraitement.
a. Gestion des Valeurs Manquantes
Les données manquantes sont fréquentes dans les séries temporelles, souvent causées par
des interruptions dans la collecte ou des erreurs de transmission.
Approches pour traiter les valeurs manquantes :
— Interpolation : Remplir les lacunes en estimant les valeurs manquantes à partir des
observations précédentes et suivantes.
Exemple : Si les mesures de température sont 22.5°C, NaN, 22.7°C, l’interpolation
linéaire donne 22.6°C.
— Remplacement par des valeurs globales : Utiliser la moyenne ou la médiane des don-
nées disponibles pour remplir les lacunes.
Page 44
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
normales, généralement causées par des dysfonctionnements des capteurs ou des événe-
ments rares.
Détection des valeurs aberrantes :
Utilisation de seuils fixes :
— Les valeurs sont évaluées par rapport aux limites définies dans l’ontologie.
Exemple : Une température excédant 50 °C ou inférieure à -10 °C est considérée
comme aberrante.
Analyse statistique :
L’identification des anomalies repose sur des indicateurs statistiques, tels que les
écarts-types ou les quartiles, permettant de repérer les points qui s’éloignent signi-
ficativement des données normales.
— Correction : Remplacement par des valeurs acceptables (par exemple, le seuil supé-
rieur ou inférieur).
— Marquage : Les valeurs aberrantes sont conservées mais signalées pour un traitement
ultérieur.
— Moyennes glissantes :Utilisées pour lisser les données et révéler des tendances glo-
bales.
-Exemple : Une moyenne glissante sur trois observations pour les températures 22.5,
22.7 et 22.6 donne 22.6 °C.
Page 45
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
— Relations entre paramètres :Analyse des corrélations entre différentes variables, telles
que la température et l’humidité, pour capturer les interactions entre paramètres.
e.Résultats du Prétraitement
Après le prétraitement, les données sont prêtes à être enrichies avec l’ontologie et exploitées
pour la détection des anomalies.
Les séries temporelles résultantes sont :
— Propre et cohérente : Les valeurs manquantes et aberrantes sont gérées, et les échelles
sont uniformisées.
— Structurée : Les métadonnées essentielles (unités, seuils) sont prêtes à être intégrées.
Le prétraitement des données est une étape indispensable pour transformer des séries tempo-
relles brutes en données exploitables. En nettoyant, harmonisant et enrichissant ces données,
le prétraitement garantit que les séries temporelles soient prêtes à être intégrées dans un pi-
peline d’enrichissement sémantique et de détection des anomalies. Cette étape jette les bases
pour des analyses fiables et robustes dans les étapes ultérieures.
Après avoir effectué le prétraitement des données pour garantir leur qualité et leur co-
hérence, nous passons à l’étape suivante, qui consiste à générer une ontologie enrichie pour
structurer et représenter les relations sémantiques au sein des données IoT.
L’ontologie est une représentation formelle de la connaissance qui structure les concepts,
leurs propriétés, et les relations entre eux dans un domaine spécifique. Dans ce projet, l’onto-
logie joue un rôle crucial en enrichissant les séries temporelles brutes avec des informations
sémantiques et contextuelles. Cela permet d’améliorer l’analyse des données et de faciliter
la détection des anomalies. Cette section détaille les étapes de création de l’ontologie, ses
composantes principales, et son rôle dans le pipeline global.
Page 46
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
— Modélisation des Concepts : Définir les paramètres mesurés par les capteurs (par
exemple, température, humidité).
— Association des Propriétés : Associer des métadonnées aux concepts, comme les uni-
tés de mesure et les seuils.
— Représentation des Relations Contextuelles : Capturer les interactions entre les para-
mètres (par exemple, la corrélation entre température et humidité).
— Validation des Données : Comparer les mesures aux contraintes définies dans l’onto-
logie pour détecter des incohérences ou anomalies.
Après avoir détaillé les étapes de création de l’ontologie, nous examinerons chaque
phase en profondeur, en commençant par la définition des concepts, des propriétés, et des
relations contextuelles, pour aboutir à l’utilisation pratique de l’ontologie et à ses résultats
concrets.
a. Définition des Concepts Les concepts représentent les paramètres mesurés par les cap-
teurs. Chaque paramètre est défini comme une classe dans l’ontologie.
Exemples de Concepts :
- Temperature :
- Humidity :
- Air Quality :
Page 47
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
- Seuils :
- Relations Contextuelles :
— Les séries temporelles brutes sont annotées avec des métadonnées issues de l’ontolo-
gie.
— Comparer les mesures aux seuils définis pour détecter les incohérences.
e . Ontologie générique
La génération de l’ontologie est une étape fondamentale pour transformer des données
brutes en séries temporelles enrichies, structurées et contextualisées. En définissant des
Page 48
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
concepts, des propriétés, et des relations, elle constitue une base solide pour l’enrichisse-
ment des données et la détection des anomalies. Cette approche garantit une exploitation
plus efficace et une interprétation plus précise des données collectées.
Après avoir structuré les séries temporelles à l’aide de l’ontologie enrichie, la généra-
tion d’un fichier enrichi est une étape essentielle pour rendre les données exploitables dans
des systèmes d’analyse avancée. Ce fichier enrichi combine les mesures brutes avec les
métadonnées issues de l’ontologie (unités, seuils, relations contextuelles). Il constitue une
représentation sémantique des données, permettant une analyse robuste et une interprétation
plus facile des anomalies.
— Intégrer les métadonnées sémantiques : Associer chaque mesure à son unité, ses seuils
et ses relations contextuelles.
— Valider les données : Annoter les mesures avec des informations sur leur conformité
aux seuils définis.
— Faciliter l’analyse : Préparer les données pour les algorithmes de détection et de pré-
diction des anomalies.
Page 49
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
— Assurer l’interopérabilité : Utiliser des formats standards (comme RDF) pour per-
mettre une utilisation facile dans des systèmes basés sur le web sémantique.
Après avoir exploré les étapes de création et d’utilisation de l’ontologie, nous nous
concentrons maintenant sur le processus de génération des données enrichies, en commen-
çant par l’extraction des données brutes issues des capteurs IoT.
a. Extraction des Données Brutes
Les données collectées par les capteurs sont extraites du fichier CSV initial. Chaque obser-
vation contient :
— Un horodatage.
Les données brutes sont converties en triplets RDF en utilisant les classes, propriétés, et
relations définies dans l’ontologie.
Structure d’un Triplet RDF : Un triplet RDF suit la structure : Sujet - Propriété - Objet
Chaque mesure devient un sujet, enrichi avec ses propriétés (valeur, unité, seuils, etc.).
Les données sont annotées pour indiquer si elles respectent les contraintes définies dans
l’ontologie. Cela inclut : Validation des Seuils : Comparer chaque mesure aux seuils définis
(par exemple, 22.5 °C est dans la plage -10 °C à 50 °C).
Détection des Anomalies : Les anomalies sont signalées directement dans le fichier enrichi.
Page 50
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Les relations définies dans l’ontologie, comme les corrélations ou dépendances entre pa-
ramètres, sont intégrées dans le fichier enrichi. Ces relations ajoutent une dimension contex-
tuelle aux données, facilitant l’identification d’anomalies complexes.
Exemple : Relation entre une mesure de température et une mesure d’humidité.
La détection des anomalies est une étape clé pour identifier les comportements inhabi-
tuels ou inattendus dans les séries temporelles enrichies. Ces anomalies peuvent signaler
des pannes, des erreurs de capteurs ou des événements rares qui nécessitent une attention
immédiate. Cette étape exploite à la fois les données enrichies et les relations contextuelles
définies dans l’ontologie pour détecter différents types d’anomalies avec précision.
Après avoir généré et enrichi les données, nous passons à l’identification des types
d’anomalies détectées, en distinguant les anomalies ponctuelles, contextuelles et séquen-
tielles pour une analyse plus approfondie.
Page 51
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Anomalies Ponctuelles
Les anomalies ponctuelles correspondent à des valeurs individuelles qui dévient signifi-
cativement des plages normales établies dans l’ontologie. Ces valeurs aberrantes indiquent
un comportement anormal à un moment précis. Par exemple, une température de 55°C serait
détectée comme une anomalie si le seuil supérieur défini dans l’ontologie est fixé à 50°C.
La détection de ces anomalies repose sur la comparaison de chaque valeur mesurée aux
seuils définis, tels que hasThresholdHigh pour le seuil supérieur et hasThresholdLow pour
le seuil inférieur. Si une valeur dépasse ces limites, elle est immédiatement identifiée comme
une anomalie. Cette approche, fondée sur des règles explicites, garantit une détection ra-
pide et précise, particulièrement utile dans des environnements IoT où de telles anomalies
peuvent signaler des dysfonctionnements critiques.
Anomalies Contextuelles
Les anomalies contextuelles sont détectées en analysant les relations entre plusieurs pa-
ramètres mesurés simultanément, plutôt qu’en considérant chaque valeur de manière iso-
lée. Ces anomalies reflètent des incohérences dans le comportement global d’un système.
Par exemple, une température élevée de 45°C associée à une faible humidité de 10% pour-
rait signaler un dysfonctionnement du système de ventilation, car ces conditions ne corres-
pondent pas aux attentes d’un fonctionnement normal.
La détection repose sur l’exploitation des relations contextuelles définies dans l’ontologie,
telles que isCorrelatedWith ou isDependentOn, qui décrivent les dépendances ou corréla-
tions entre les paramètres. En vérifiant si les combinaisons de valeurs respectent les condi-
tions attendues, cette approche permet d’identifier des anomalies subtiles et complexes qui
pourraient passer inaperçues avec des méthodes d’analyse traditionnelles.
Anomalies Séquentielles
Les anomalies séquentielles se manifestent par des changements inhabituels dans les
tendances ou les schémas temporels des séries de données, reflétant des comportements
anormaux sur une période donnée. Par exemple, une baisse soudaine de la luminosité sui-
vie d’une détérioration de la qualité de l’air pourrait indiquer un dysfonctionnement du
système de contrôle environnemental. La détection de ces anomalies repose sur des algo-
Page 52
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
rithmes séquentiels, tels que les Long Short-Term Memory (LSTM), capables d’analyser les
dépendances temporelles et de repérer les ruptures ou déviations dans les séquences. Cette
approche permet d’identifier des anomalies complexes qui ne seraient pas visibles dans des
analyses ponctuelles ou contextuelles, en tenant compte de l’évolution des paramètres dans
le temps.
Après avoir identifié les différents types d’anomalies, nous abordons les méthodes de
détection, qui incluent la détection basée sur des seuils, l’exploitation des relations contex-
tuelles, et l’utilisation de modèles d’apprentissage automatique pour une identification plus
précise et robuste.
a . Détection basée sur des seuils
La détection basée sur des seuils est utilisée principalement pour identifier les anomalies
ponctuelles. Cette méthode compare chaque valeur mesurée aux seuils prédéfinis dans l’on-
tologie, comme hasThresholdHigh pour le seuil supérieur et hasThresholdLow pour le seuil
inférieur. Par exemple, une température de 55°C serait détectée comme une anomalie si le
seuil supérieur est fixé à 50°C. Cette approche est simple à mettre en œuvre et permet une
identification rapide des valeurs aberrantes.
b . Détection basée sur des relations contextuelles
Les anomalies contextuelles sont détectées en analysant les relations entre plusieurs para-
mètres simultanés. Cette méthode utilise des propriétés définies dans l’ontologie, telles que
isCorrelatedWith et isDependentOn, pour vérifier si les combinaisons des paramètres res-
pectent les conditions attendues. Par exemple, une température élevée de 45°C associée à
une faible humidité de 10% peut indiquer un dysfonctionnement du système de ventilation.
Cette approche permet de capturer des incohérences complexes qui ne seraient pas détec-
tables par des méthodes basées sur des seuils individuels.
c . Détection Basée sur des modèles d’apprentissage
Les modèles d’apprentissage automatique sont utilisés pour détecter des anomalies contex-
tuelles et séquentielles. Isolation Forest est efficace pour identifier des anomalies contex-
tuelles dans des ensembles de données multidimensionnels en isolant les points éloignés
des clusters principaux. Par exemple, une pression anormalement basse peut être identi-
fiée comme une anomalie dans un contexte où d’autres paramètres sont normaux. Pour les
Page 53
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
anomalies séquentielles, les LSTM (Long Short-Term Memory) analysent les dépendances
temporelles et détectent les ruptures dans les tendances, comme une baisse soudaine de lu-
minosité suivie d’une détérioration de la qualité de l’air. Ces modèles sont puissants pour
analyser des séries temporelles complexes.
d . Détection basée sur des modèles de graphes (GNN)
Les Graph Neural Networks (GNN) sont spécialement conçus pour détecter des anoma-
lies structurelles et relationnelles. Ces modèles exploitent les propriétés topologiques des
graphes pour analyser les relations entre les nœuds et les arêtes.Les GNN identifient ces
anomalies en apprenant des représentations vectorielles des nœuds et en détectant les écarts
dans ces représentations.
La détection des anomalies est une étape cruciale qui exploite les données enrichies pour
identifier des comportements inhabituels. En combinant des méthodes basées sur des seuils,
des relations contextuelles, des modèles d’apprentissage avancés,et des modèles de ghraphes
,cette étape garantit une analyse robuste et précise des séries temporelles. Ces anomalies dé-
tectées constituent une base solide pour la prédiction des anomalies futures.
Après avoir détecté les anomalies dans les séries temporelles enrichies, l’étape suivante
consiste à anticiper les anomalies futures en s’appuyant sur des modèles d’apprentissage
avancés. L’objectif principal est d’exploiter les relations contextuelles, les tendances tem-
porelles, et les métadonnées pour fournir des prédictions précises et exploitables. Ces pré-
dictions permettent d’anticiper les dysfonctionnements ou comportements anormaux, favo-
risant une meilleure prise de décision et une maintenance proactive.
Les trois approches utilisées dans ce processus sont les modèles supervisés (comme
LSTM), les modèles non supervisés (comme Isolation Forest), et les modèles de graphe
(comme GNN). Chaque méthode est adaptée à des types spécifiques de données et offre des
avantages distincts pour la prédiction des anomalies.
Après avoir exploré les méthodes de détection d’anomalies, nous nous focalisons sur les
types de modèles utilisés, en différenciant les approches supervisées, basées sur des données
Page 54
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
annotées, et les approches non supervisées, adaptées à des données non étiquetées.
a. Modèles Supervisés
Les modèles supervisés, comme LSTM, utilisent des données historiques annotées pour ap-
prendre à prédire les anomalies. LSTM est particulièrement adapté aux séries temporelles,
car il capture efficacement les dépendances séquentielles et les schémas temporels dans les
données enrichies.
b. Modèles Non Supervisés
Dans les cas où les données ne sont pas annotées, les modèles non supervisés, comme Isola-
tion Forest, identifient les anomalies en analysant les schémas de distribution des données.
Ils isolent facilement les valeurs aberrantes sans nécessiter de supervision explicite.
c. Modèles de Graphe
Les Graph Neural Networks (GNN) exploitent la structure relationnelle des données IoT
représentées sous forme de graphe. Ces modèles permettent de capturer les dépendances
complexes entre capteurs, mesures, et contextes. Contrairement aux approches tradition-
nelles, les GNN intègrent les relations contextuelles pour fournir des prédictions plus pré-
cises, même dans des systèmes complexes.
Après avoir présenté les types de modèles utilisés pour la détection d’anomalies, nous
examinons maintenant les étapes détaillées du processus de prédiction des anomalies, de-
puis la préparation des données jusqu’à l’interprétation des résultats.
Après avoir défini les étapes générales de la prédiction des anomalies, nous détaillons
maintenant chaque phase clé, en commençant par la préparation des données, suivie de l’en-
traînement des modèles, et enfin le processus de prédiction pour identifier les anomalies. a.
Préparation des Données
Cette étape vise à structurer et enrichir les données pour optimiser l’entraînement des mo-
dèles. Les séries temporelles sont transformées en séquences glissantes afin de capturer
les dépendances temporelles. Parallèlement, des caractéristiques comme les moyennes glis-
santes, les variations, et les corrélations entre les paramètres sont calculées. Ces préparations
assurent que les modèles peuvent exploiter à la fois les informations temporelles et contex-
Page 55
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
tuelles.
b . Entraînement des Modèles
Les modèles de prédiction sont entraînés sur des données historiques enrichies et selon sa
méthode spécifique :
— LSTM apprend les schémas normaux des séries temporelles en minimisant l’erreur
entre les valeurs prévues et réelles.
— Isolation Forest identifie les schémas globaux en construisant des arbres de décision
pour isoler les points aberrants.
— GNN apprend les relations contextuelles et les dépendances complexes dans les graphes.
c . Prédiction
Une fois entraînés, les modèles sont appliqués aux nouvelles données. Les anomalies sont
détectées en comparant les résultats des prédictions avec des seuils prédéfinis :
— LSTM identifie les anomalies en fonction des écarts entre les valeurs réelles et pré-
dites.
— Isolation Forest attribue un score d’anomalie à chaque point et classe ceux dépassant
un seuil comme anomalies.
— GNN détecte les anomalies en analysant les schémas relationnels inhabituels dans les
données.
Après avoir détaillé les étapes clés de la prédiction des anomalies, il est essentiel d’explo-
rer l’importance de l’enrichissement des données, un aspect fondamental pour améliorer la
précision et la pertinence des prédictions.
L’enrichissement des données joue un rôle fondamental dans la précision des prédic-
tions. Les métadonnées et relations contextuelles ajoutées permettent une meilleure contex-
tualisation des anomalies, tandis que les caractéristiques calculées fournissent des informa-
tions précieuses pour guider les modèles. La structuration en séquences améliore également
l’analyse temporelle, rendant les prédictions plus robustes et précises.
Page 56
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
La prédiction des anomalies constitue une étape cruciale pour anticiper les comporte-
ments anormaux et mettre en œuvre des mesures proactives visant à éviter les dysfonction-
nements. En combinant les approches supervisées, non supervisées et basées sur les graphes,
cette phase exploite de manière optimale les séries temporelles enrichies avec des métadon-
nées et des relations contextuelles. Ces modèles permettent non seulement d’identifier les
anomalies actuelles mais aussi de prédire les anomalies futures en intégrant les schémas
temporels, les dépendances relationnelles, et les variations globales des données.
La prédiction des anomalies pour ces données repose sur l’identification des comportements
anormaux dans des séries temporelles multidimensionnelles, enrichies de métadonnées et
de relations contextuelles. Pour accomplir cette tâche de manière efficace, trois algorithmes
principaux sont utilisés :
LSTM (Long Short-Term Memory) est un modèle de réseau neuronal récurrent conçu
pour capturer les dépendances temporelles dans des données séquentielles. Dans le cadre de
la prédiction d’anomalies, il apprend les schémas normaux des séries temporelles enrichies,
puis identifie les anomalies en mesurant les écarts entre les valeurs prévues et les valeurs
réelles.
Page 57
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Pseudo-code :
Explication
Prétraitement des données
La première étape consiste à charger le dataset_final, contenant des colonnes telles que Tem-
perature et Humidity, à partir d’un fichier CSV. Les valeurs manquantes sont soit remplacées
par la moyenne de leur colonne respective, soit supprimées si nécessaire. Ensuite, les don-
nées sont normalisées à l’aide du Min-Max Scaling pour mettre les valeurs dans une plage
de 0 à 1. Cette normalisation améliore l’efficacité de l’entraînement du modèle LSTM et
permet de traiter les échelles différentes des variables.
Création des séquences temporelles
Une taille de fenêtre temporelle (window_size) est définie pour capturer les relations sé-
Page 58
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
quentielles dans les données. En utilisant cette fenêtre glissante, des sous-ensembles de sé-
quences temporelles sont créés à partir des données. Par exemple, chaque séquence X[i : i
+ window_size] capture les relations entre les colonnes (Temperature et Humidity) sur une
période donnée. Ces séquences servent d’entrée pour le modèle LSTM.
Division des données
Le dataset est divisé en deux ensembles : un ensemble d’entraînement représentant 75 %
des données, et un ensemble de test représentant les 25% restants. Cette division permet
de valider les performances du modèle sur des données non vues pendant l’entraînement,
garantissant sa généralisation.
Initialisation et construction du modèle LSTM
Un modèle LSTM est initialisé avec les couches suivantes :
— Première couche LSTM : Une couche avec 64 unités, configurée pour retourner des
séquences (return_sequences=True). Cette couche extrait les dépendances temporelles
dans les données. Dropout : Une couche avec un taux de 0.2 pour prévenir le surap-
prentissage en désactivant aléatoirement certaines unités pendant l’entraînement.
— Deuxième couche LSTM : Une couche avec 32 unités, sans retour de séquences, pour
réduire la dimensionnalité et conserver les informations importantes. Dropout : Une
deuxième couche avec un taux de 0.2 pour une régularisation supplémentaire.
— Couche Dense : Une couche finale avec une activation sigmoïde pour effectuer une
classification binaire entre anomalies et données normales.
L’entraînement est effectué sur l’ensemble d’entraînement avec une validation sur 25%
des données d’entraînement. Cette validation permet de suivre les performances du modèle
pendant l’entraînement et d’ajuster les hyperparamètres si nécessaire.
Page 59
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
— 1 : Anomalie détectée.
— 0 : Observation normale.
visualisation des résultats : Les résultats des anomalies sont visualisés à l’aide de gra-
phiques temporels permettant une analyse intuitive des données. Les séries temporelles des
variables Temperature et Humidity sont tracées pour refléter les tendances générales. Les
anomalies détectées sont clairement mises en évidence à l’aide de marqueurs distinctifs, tels
que des lignes rouges ou des points spécifiques, afin de différencier facilement les observa-
tions anormales des valeurs normales. Cette approche visuelle simplifie l’interprétation des
résultats et aide à identifier les moments précis où les anomalies se produisent.
L’Isolation Forest est un algorithme non supervisé conçu pour détecter les anomalies en
isolant les points aberrants dans un espace de données multidimensionnel. Contrairement
Page 60
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
à d’autres méthodes, il ne repose pas sur la distance ou la densité, mais sur l’idée que les
anomalies sont plus faciles à isoler que les points normaux.
Pseudo-code :
Explication :
Chargement et prétraitement des données : La première étape consiste à charger le da-
taset_final, qui contient des colonnes comme Temperature et Humidity, à partir d’un fichier
CSV. Les valeurs manquantes dans le dataset sont remplacées par la moyenne de chaque
colonne, ou, alternativement, les lignes contenant des valeurs manquantes sont supprimées.
Ensuite, les colonnes pertinentes, telles que Temperature et Humidity, sont normalisées en
utilisant un Min-Max Scaling pour mettre leurs valeurs dans une plage standardisée (par
exemple, entre 0 et 1). Cette normalisation améliore la précision et la convergence du mo-
dèle en rendant les données comparables.
Initialisation du modèle Isolation Forest : Un modèle Isolation Forest est initialisé pour
Page 61
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
détecter les anomalies dans les données. Ce modèle fonctionne en isolant les points anor-
maux en utilisant des arbres de décision. Le paramètre clé de ce modèle est contamination,
qui représente la proportion estimée d’anomalies dans le dataset (par exemple, 0.01 signifie
qu’environ 1 % des observations sont des anomalies). Ce paramètre permet au modèle de
s’ajuster au niveau attendu d’anomalies dans les données.
Entraînement du modèle : Le modèle Isolation Forest est entraîné sur les colonnes nor-
malisées du dataset, comme Temperature et Humidity. Pendant l’entraînement, le modèle
apprend à isoler les points de données en construisant des arbres de décision. Les points
nécessitant moins de coupures pour être isolés sont considérés comme des anomalies. L’en-
traînement est rapide, car l’Isolation Forest est conçu pour être efficace même sur de grands
ensembles de données.
Prédiction des anomalies : Après l’entraînement, le modèle prédit des scores d’anoma-
lie pour chaque observation dans le dataset. Les scores d’anomalie sont interprétés de la
manière suivante :
— Si le score est égal à _1, l’observation est marquée comme une anomalie, et une valeur
1 est attribuée à la colonne Anomaly_Isolation.
— Sinon, l’observation est considérée comme normale, et une valeur 0 est attribuée.
Ces prédictions sont ajoutées au dataset sous une nouvelle colonne appelée Anomaly_Isolation,
permettant une classification claire entre données normales et anormales.
Analyse et visualisation des résultats Le dataset annoté est exporté dans un nouveau
fichier CSV pour une analyse ultérieure ou une intégration dans d’autres systèmes. Les ré-
sultats sont visualisés sous forme de séries temporelles, où les colonnes Temperature et
Humidity sont tracées dans un graphique. Les anomalies détectées sont mises en évidence
par des lignes rouges verticales aux indices correspondants, offrant une représentation vi-
suelle claire des anomalies dans le contexte des données.
L’Isolation Forest est particulièrement adapté pour détecter des anomalies dans des en-
sembles de données multivariés comme Temperature et Humidity. Il est efficace, rapide et
ne nécessite pas de connaissances préalables sur la distribution des données. Cependant,
son succès dépend de la bonne sélection des paramètres (notamment contamination) et des
Page 62
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
caractéristiques d’entrée. Cette méthode est idéale pour les systèmes IoT, où les anoma-
lies peuvent indiquer des défaillances ou des conditions critiques nécessitant une attention
immédiate.
Les Graph Neural Networks (GNN) sont des algorithmes qui exploitent les relations
structurelles et contextuelles des données IoT modélisées sous forme de graphes. Dans un
environnement IoT, les capteurs et dispositifs connectés sont souvent interconnectés, et leurs
données présentent des relations complexes, telles que des corrélations spatiales, tempo-
relles ou contextuelles. Les GNN offrent une approche puissante pour analyser ces relations
et détecter les anomalies avec précision.
Page 63
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Pseudo-code :
Page 64
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
Éxplication :
Prétraitement des données : La première étape consiste à préparer les données pour l’en-
traînement du modèle GNN. Les données initiales, souvent dans un format RDF ou un
fichier décrivant un graphe, sont chargées. Chaque nœud du graphe représente une entité,
comme un capteur IoT, tandis que les arêtes décrivent les relations ou interactions entre ces
entités, telles que leur proximité géographique ou leur dépendance fonctionnelle. Les nœuds
et les arêtes sont enrichis d’attributs spécifiques, tels que la température et l’humidité. Ces
attributs sont normalisés afin de garantir une meilleure convergence du modèle lors de son
entraînement. Cette étape est cruciale pour s’assurer que les données sont cohérentes, bien
structurées et prêtes à être utilisées par le modèle GNN.
Entraînement du modèle : Une fois le modèle défini, les données sont divisées en en-
sembles d’entraînement et de test, généralement dans une proportion de 75% pour l’entraî-
nement et 25% pour le test. Le modèle est ensuite entraîné à l’aide d’une fonction de perte
binaire, telle que l’entropie croisée binaire (binary crossentropy), qui mesure la différence
entre les prédictions du modèle et les vraies étiquettes des nœuds. Pendant l’entraînement, le
modèle apprend à associer les représentations des nœuds à leur classe respective (anomalie
ou normal). Cette étape est répétée sur plusieurs itérations afin d’optimiser les paramètres
du modèle et d’améliorer sa performance.
Prédiction des anomalies : Dans cette étape, le modèle entraîné est utilisé pour prédire
des scores pour chaque nœud du graphe. Ces scores représentent la probabilité qu’un nœud
Page 65
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
soit une anomalie. Un seuil prédéfini est ensuite appliqué pour classer chaque nœud : si le
score d’un nœud dépasse ce seuil, il est marqué comme une anomalie ; sinon, il est consi-
déré comme normal. Cette approche garantit une identification précise des anomalies en
tenant compte des relations structurelles et des attributs des nœuds. Enfin, les résultats de la
classification sont interprétés pour identifier les anomalies critiques et prendre les mesures
appropriées.
visualisation des résultats :
La visualisation des résultats est réalisée à l’aide d’un graphique illustrant clairement les
prédictions du modèle. Les nœuds du graphe ou les données temporelles sont colorés selon
leur classification, distinguant les observations normales des anomalies. Les anomalies sont
spécifiquement mises en évidence à l’aide de couleurs ou de marqueurs distinctifs, rendant
leur identification rapide et intuitive. Cette représentation graphique améliore la compréhen-
sion des résultats et facilite l’analyse des comportements anormaux dans les données.
Ces étapes détaillent un processus systématique pour la détection des anomalies en utilisant
un GNN. Le prétraitement garantit des données bien préparées, la construction du modèle
exploite la structure du graphe, l’entraînement optimise les performances, et la prédiction
applique ces apprentissages pour une détection fiable des anomalies. Ce flux permet de tirer
parti des capacités uniques des GNN pour analyser les relations complexes et les attributs
locaux dans les graphes, rendant le système particulièrement adapté aux scénarios IoT.
3.2.8 Conclusion
Page 66
Chapitre 3– Proposition de la nouvelle méthode de la prédiction d’anomalies basée sur la sémantique
futures avec une plus grande exactitude. Cette capacité prédictive est cruciale pour la mise en
œuvre de stratégies de maintenance préventive et pour minimiser les risques de pannes dans
des systèmes complexes. En conclusion, la méthode que nous avons présentée ouvre la voie
à des analyses plus robustes et informées, facilitant une gestion proactive des systèmes. Les
résultats que nous avons obtenus témoignent du potentiel de l’approche sémantique pour
transformer les séries temporelles brutes en informations exploitables, contribuant ainsi à
l’amélioration des systèmes IoT et à leur résilience face aux anomalies.
Page 67
Chapitre 4
Etude expérimentale
4.1 Introduction
Dans ce chapitre, nous présentons l’étude expérimentale réalisée pour évaluer l’efficacité
des méthodes de prédiction d’anomalies appliquées aux systèmes IoT. L’objectif principal
de cette étude est de comparer les performances des approches proposées dans les chapitres
précédents, en mettant particulièrement l’accent sur leur précision, leur robustesse et leur
capacité à traiter des données complexes et hétérogènes typiques des environnements IoT.
Au cours des différentes étapes de notre projet, nous avons utilisée une machine dispo-
sant des caract’éristiques suivantes :
68
Chapitre 4– Etude expérimentale
Dans ce mémoire, notre choix du langage de programmation repose sur les caractéris-
tiques de Python qui en font le meilleur choix pour la science des données et le dévelop-
pement d’algorithmes d’intelligence artificielle. Python a été développée par (Severance,
2015) aux Pays-Bas , et la première version a été publiée en 1991. La dernière version de
Python est actuellement la version 3.13.
Python est un langage polyvalent et accessible, particulièrement adapté aux applications
analytiques et aux projets d’intelligence artificielle. Sa syntaxe claire et intuitive permet de
manipuler aisément des concepts complexes, ce qui constitue un atout majeur dans des do-
maines en constante évolution comme la science des données et l’IA. Par ailleurs, Python
dispose d’un écosystème riche de bibliothèques et frameworks, tels que Pandas, NumPy,
TensorFlow et Scikit-learn, qui facilitent le traitement des données, l’analyse et la création
de modèles d’apprentissage automatique.
En outre, Python se distingue par ses fonctionnalités spécialement conçues pour ré-
pondre aux besoins des scientifiques des données et des développeurs d’IA, consolidant
ainsi sa position comme l’un des langages les plus utilisés dans ces domaines.
Google collab
Google Colab est une plateforme similaire à un carnet de notes Jupyter, développée par
Google Research. En résumé, Colab constitue une version hébergée dans le cloud de Jupyter
Page 69
Chapitre 4– Etude expérimentale
Notebook, offrant aux utilisateurs la possibilité de programmer en Python sans avoir besoin
d’installer quoi que ce soit sur leur ordinateur. Contrairement à Jupyter Notebook, qui re-
quiert une installation locale et utilise exclusivement les ressources de l’ordinateur, Google
Colab propose une application cloud complète, accessible depuis n’importe quel navigateur.
L’un des principaux avantages de Google Colab est qu’il n’est pas nécessaire d’installer un
runtime ou de mettre à niveau votre matériel informatique pour exécuter des tâches Python
intensives. Vous pouvez ainsi réaliser des opérations complexes sans vous soucier des limi-
tations de votre propre machine.
De plus, Google Colab offre un accès gratuit à une infrastructure informatique, incluant le
stockage, la mémoire, ainsi que des unités de traitement graphique (GPU) et des unités de
traitement tensoriel (TPU). Ces ressources permettent aux utilisateurs de travailler sur des
projets lourds sans avoir à investir dans du matériel coûteux.
En résumé, Google Colab simplifie l’accès à des outils puissants pour le développement en
Python, rendant le codage et l’analyse de données plus accessibles à un large public.
Page 70
Chapitre 4– Etude expérimentale
Page 71
Chapitre 4– Etude expérimentale
Les modèles basés sur les séries temporelles incluent le LSTM (Long Short-Term Me-
mory), qui excelle dans l’analyse des séquences temporelles grâce à sa capacité à capturer les
dépendances à long terme via son mécanisme de mémoire, et le Isolation Forest, un modèle
non supervisé qui identifie efficacement les points anormaux dans des séries temporelles ou
des données multidimensionnelles en isolant les observations éloignées des clusters princi-
paux. Les modèles sémantiques, comme les Graph Neural Networks (GNN), exploitent les
relations structurelles définies dans l’ontologie pour détecter des anomalies relationnelles
ou structurelles en analysant les interactions entre les nœuds d’un graphe.les données sont
divisées en deux ensembles distincts : un ensemble d’entraînement (75 % des données) pour
ajuster les paramètres du modèle, et un ensemble de test (25 % des données) pour évaluer
ses performances de manière indépendante.
Cette structuration rigoureuse garantit des résultats précis et fiables, en exploitant plei-
nement la richesse des données IoT et la puissance des algorithmes avancés.
Le modèle LSTM, préalablement entraîné, est utilisé pour prédire les probabilités d’ap-
parition d’anomalies sur chaque fenêtre temporelle des données. Pour cela, les séquences
temporelles prétraitées sont passées dans le modèle, qui renvoie une probabilité pour chaque
fenêtre. Une anomalie est détectée lorsqu’une probabilité dépasse le seuil de 0.5, indiquant
un comportement anormal selon la classification binaire. Cette approche permet d’identifier
de manière précise les anomalies dans les séries temporelles en se basant sur les variations
capturées par le modèle au fil du temps.
Page 72
Chapitre 4– Etude expérimentale
Visualisation
— Les anomalies détectées sont marquées par des lignes verticales rouges, alignées avec
les indices correspondants dans les données.
Visualisation graphique
Page 73
Chapitre 4– Etude expérimentale
La visualisation des données met en évidence les comportements des séries temporelles
de Temperature et Humidity ainsi que les anomalies détectées. Les courbes de température
(en bleu) et d’humidité (en vert) sont tracées sur un graphique, représentant l’évolution de
ces deux paramètres au fil du temps. Les anomalies, identifiées par le modèle, sont claire-
ment signalées par des lignes rouges verticales. Ces lignes sont alignées avec les indices des
anomalies détectées dans les données, permettant de localiser précisément les moments où
des comportements anormaux se produisent. Cette visualisation fournit une interprétation
claire et intuitive des résultats, facilitant l’identification des anomalies et leur analyse dans
le contexte des séries temporelles.
En conclusion, ce résultat montre que le modèle est capable de détecter des anomalies perti-
nentes dans des séries temporelles complexes, mais des ajustements peuvent être nécessaires
pour améliorer sa précision et sa fiabilité dans des applications pratiques.
Les métriques utilisées pour l’entraînement et l’évaluation du modèle jouent un rôle clé
dans l’analyse des performances.précision(ou accuracy) est une métrique essentielle qui
mesure la proportion d’exemples correctement classés parmi le nombre total de prédictions,
et elle est spécifiée lors de la compilation du modèle à l’aide de metrics=[’accuracy’]. Cette
métrique est particulièrement adaptée pour évaluer l’efficacité globale du modèle.(James
et al., 2013)
Nombre de Prédictions Correctes
Précision =
Nombre Total de Prédictions
La fonction de perte utilisée est la binary crossentropy, idéale pour les tâches de clas-
sification binaire où la variable cible prend deux valeurs possibles : 0 ou 1. Cette fonction
calcule la différence entre la probabilité prédite par le modèle (grâce à l’activation sigmoïde)
et la valeur réelle, ce qui permet de minimiser les erreurs de classification au cours de l’en-
traînement. L’évaluation du modèle est réalisée après l’entraînement sur un jeu de test à
l’aide de la fonction model.evaluate(X_test, Y_test). Cette étape fournit deux résultats prin-
cipaux : la perte sur le test, qui reflète l’erreur globale mesurée par la fonction de coût binary
crossentropy, et l’accuracy sur le test, qui indique la proportion de prédictions correctes ef-
fectuées par le modèle. Pendant l’entraînement (avec model.fit), le suivi de l’accuracy est
effectué sur les ensembles d’entraînement et de validation pour monitorer l’évolution des
Page 74
Chapitre 4– Etude expérimentale
Le modèle Isolation Forest, préalablement entraîné, est utilisé pour prédire les anomalies
en analysant les données de température et d’humidité. Pour chaque observation, la méthode
isolation_model.predict() attribue une étiquette : 1 pour une observation normale et -1 pour
une observation détectée comme une anomalie. Ces prédictions permettent de différencier
les comportements normaux des anomalies dans les données.
Une nouvelle colonne, appelée Anomaly_Isolation, est ensuite ajoutée au dataset. Cette
colonne convertit les étiquettes renvoyées par le modèle : les anomalies détectées (-1) sont
marquées comme 1, et les observations normales (1) comme 0. Ce processus facilite l’iden-
tification directe des lignes du dataset où des anomalies ont été détectées, simplifiant ainsi
l’analyse des comportements anormaux.
4.6.2.1 Visualisation
Page 75
Chapitre 4– Etude expérimentale
Les anomalies détectées par le modèle Isolation Forest sont particulièrement concen-
trées dans certaines plages temporelles où les variations des paramètres sont abruptes ou
inhabituelles. Par exemple, des anomalies sont visibles lorsque l’humidité montre une mon-
tée ou une descente soudaine, ou lorsque la température chute ou monte rapidement par
Page 76
Chapitre 4– Etude expérimentale
rapport à son comportement habituel. La courbe verte, représentant l’humidité, reste relati-
vement stable sur plusieurs périodes, mais des pics ou des creux importants dans certaines
zones déclenchent des anomalies. Ces variations peuvent indiquer un dysfonctionnement du
capteur ou des événements spécifiques affectant l’environnement. De manière similaire, la
courbe bleue de la température reste constante sauf dans des zones précises où des fluctua-
tions rapides sont détectées comme des anomalies, potentiellement dues à des perturbations
externes ou des erreurs de capteur.
Ce graphique illustre ainsi la capacité du modèle à surveiller les données IoT en temps
réel, détecter les comportements anormaux, et fournir des insights exploitables pour une
meilleure gestion et maintenance des systèmes.
L’algorithme Isolation Forest ne s’appuie pas directement sur une métrique explicite
pour évaluer ses performances, puisqu’il s’agit d’un modèle non supervisé conçu pour dé-
tecter des anomalies. Le modèle utilise des scores d’anomalie internes pour prédire si un
point est normal (1) ou anormal (-1). Ces scores sont calculés en fonction de la distance et
de l’isolation des points dans l’espace des caractéristiques.
Le paramètre de contamination, ici défini à 0.01, indique que l’on suppose qu’environ
1% des données sont des anomalies. Ce paramètre influence la manière dont le modèle clas-
sifie les points comme normaux ou anormaux. Les prédictions des anomalies sont effectuées
à l’aide de la méthode model.predict, où une étiquette de 1 représente un point normal et -1
indique une anomalie.
Pour analyser les résultats, une nouvelle colonne intitulée Anomaly_Isolation est ajoutée
au DataFrame. Cette colonne transforme les prédictions en 1 pour les anomalies détectées et
en 0 pour les points normaux. Cette étape simplifie l’analyse et l’interprétation des résultats
en centralisant les informations sur les anomalies dans le DataFrame.
Enfin, le modèle entraîné est sauvegardé à l’aide de la méthode joblib.dump, ce qui
permet de le réutiliser sans avoir à le réentraîner. Cette sauvegarde garantit un gain de temps
et de ressources pour des analyses futures ou pour appliquer le modèle sur de nouvelles
données.
Page 77
Chapitre 4– Etude expérimentale
Le processus commence par le chargement d’un nouveau jeu de données. Ensuite, les
données sont préparées, en remplaçant les valeurs manquantes par des zéros. Enfin, le mo-
dèle entraîné est utilisé pour prédire les anomalies dans les données traitées.
Page 78
Chapitre 4– Etude expérimentale
Visualisation
Les points sont représentés par des couleurs différentes en fonction de leur statut : les
points bleus indiquent les données normales, tandis que les points rouges représentent les
anomalies. La visualisation met en évidence ces anomalies en fonction des mesures de tem-
pérature et d’humidité.
Visualisation graphique
Page 79
Chapitre 4– Etude expérimentale
Les métriques utilisées pour évaluer les performances d’un Graph Neural Network (GNN)
dans la prédiction des anomalies jouent un rôle crucial dans l’analyse de la fiabilité et de l’ef-
ficacité du modèle. La précision (precision) permet de mesurer la proportion de prédictions
correctes d’anomalies parmi toutes celles identifiées comme anomalies. Une précision éle-
vée est essentielle pour réduire les faux positifs, ce qui évite de signaler des comportements
normaux comme anomalies, un aspect particulièrement important dans les systèmes de sur-
veillance pour limiter les interventions inutiles.
Formule :(Nascimento, 2022)
Le rappel (recall), quant à lui, évalue la proportion de vraies anomalies détectées parmi
toutes les anomalies présentes dans les données. Un rappel élevé est indispensable pour
capturer la majorité des anomalies, minimisant ainsi les faux négatifs. Cela est particulière-
ment critique dans des contextes où ignorer une anomalie peut entraîner des conséquences
graves, comme des défaillances non détectées dans des réseaux IoT ou des systèmes indus-
triels.
Page 80
Chapitre 4– Etude expérimentale
Précision · Rappel
F1-Score = 2 ·
Précision + Rappel
Enfin, le support reflète le nombre total d’exemples dans chaque classe (normal et anoma-
lie). Cette métrique est essentielle pour évaluer la répartition des données, particulièrement
dans un graphe où la répartition des nœuds (anomalies versus normales) peut affecter les per-
formances du modèle. Un support déséquilibré peut nécessiter des techniques spécifiques,
comme le sur-échantillonnage des anomalies, pour garantir des résultats fiables. Formule :
En résumé, ces métriques permettent de vérifier si le GNN offre des performances équili-
brées et adaptées au contexte de détection des anomalies, tout en assurant que les prédictions
soient fiables, pertinentes et exploitables dans des scénarios réels.
Après avoir analysé les performances des différents modèles de prédiction et mis en
évidence leurs capacités à détecter efficacement les anomalies dans les données IoT, l’étape
suivante consiste à présenter les résultats de manière claire et interactive à l’aide d’une
interface de visualisation intuitive.
Page 81
Chapitre 4– Etude expérimentale
Cette interface Dash permet de prédire les anomalies à l’aide de trois modèles : LSTM,
Isolation Forest et GNN.
Page 82
Chapitre 4– Etude expérimentale
F IGURE 4.16 – Résultat de la mise en oeuvre du modèle GNN dans notre application
F IGURE 4.17 – Résultat de la mise en oeuvre du modèle Isolation Forest dans notre appli-
cation
Page 83
Chapitre 4– Etude expérimentale
F IGURE 4.18 – Résultat de la mise en oeuvre du modèle LSTM dans notre application
L’utilisateur peut choisir parmi les trois modèles disponibles pour tester leurs perfor-
mances sur le même jeu de données. Chaque interface propose des fonctionnalités interac-
tives pour explorer les résultats :
Ces interfaces permettent une comparaison claire des performances des modèles (GNN,
Isolation Forest, LSTM) dans le cadre de la détection d’anomalies environnementales (tem-
pérature et humidité).
4.8 Discussion
Ce chapitre a exploré trois approches principales de détection d’anomalies – LSTM,
Isolation Forest, et GNN – en les évaluant à travers des métriques clés, leurs performances,
et leur adéquation au contexte des données IoT. Chaque modèle a été testé sur des séries
temporelles de température et d’humidité, avec des observations détaillées sur leur compor-
tement en termes de précision, rappel, F1-score et accuracy.
L’approche LSTM a démontré une capacité remarquable à capturer les relations sé-
quentielles complexes dans les séries temporelles grâce à son architecture basée sur des
dépendances temporelles. Avec une précision globale de 92 %, un F1-score de 89 %, et une
capacité à détecter efficacement les anomalies, ce modèle est particulièrement adapté aux
environnements où les variations temporelles jouent un rôle déterminant. Toutefois, l’en-
Page 84
Chapitre 4– Etude expérimentale
traînement du LSTM est coûteux en ressources et nécessite une préparation approfondie des
données.
Par ailleurs, Isolation Forest se distingue par sa simplicité et sa rapidité. Bien qu’il pré-
sente des performances légèrement inférieures, avec une précision de 85 % et un F1-score
de 82 %, ce modèle reste une option efficace pour la détection des anomalies ponctuelles.
Basé sur l’isolation des points atypiques dans un espace de caractéristiques, il répond bien
aux besoins de scénarios nécessitant une implémentation rapide et légère, mais montre des
limites face à des anomalies temporelles complexes.
Enfin, l’approche GNN s’impose comme la plus robuste dans des contextes nécessitant
une exploitation des relations graphiques entre les données. Avec une précision de 93 %, un
F1-score de 91 %, et une capacité à détecter des anomalies structurelles complexes, les GNN
offrent une excellente performance dans des environnements où les interconnexions entre
les données sont cruciales. Cependant, leur implémentation exige une expertise avancée en
conception de graphes et des ressources computationnelles conséquentes.
Le tableau suivant présente une comparaison récapitulative des performances des trois
approches de détection d’anomalies (LSTM, Isolation Forest, et GNN) en termes de mé-
triques clés : Accuracy, Precision, Recall, et F1-Score. Cette analyse met en évidence les
forces et limites de chaque méthode en fonction de leurs contextes d’application.
Isolation
85% 81% 83% 82%
Forest
TABLE 4.1 – Tableau récapitulatif des performances des approches de détection d’anomalies
Un aspect clé de cette étude est l’intégration des données sémantiques dans le processus
de prédiction. En enrichissant les données IoT avec des relations sémantiques via des triplets
RDF, les modèles ont pu exploiter des connexions contextuelles riches entre les variables,
améliorant ainsi leur capacité à identifier des anomalies significatives. Cette approche a
Page 85
Chapitre 4– Etude expérimentale
permis de réduire les faux positifs et d’améliorer la précision, notamment pour les modèles
tels que GNN, qui profitent directement des relations explicites définies dans les graphes.
De plus, l’apport sémantique a renforcé l’interopérabilité et la flexibilité du système en
facilitant l’ajout de nouvelles entités ou unités, ce qui est crucial pour des systèmes IoT
évolutifs. Malgré ces avantages, la conception et l’intégration des modèles sémantiques né-
cessitent un effort initial important et impliquent un surcoût computationnel.
L’analyse comparative montre que le choix d’un modèle dépend fortement du contexte
d’application :
— Les LSTM sont idéaux pour les séries temporelles riches en variations complexes.
— Les GNN sont performants pour capturer des relations contextuelles et structurelles
riches dans des environnements interconnectés.
Cependant, chaque méthode présente des limites spécifiques, telles que les coûts computa-
tionnels élevés pour les LSTM et GNN ou la moindre adaptabilité contextuelle pour Isola-
tion Forest.
Cette étude met en évidence l’importance de combiner des approches de modélisation
avancées avec des données sémantiques pour optimiser les performances des systèmes IoT.
L’intégration de la sémantique a amélioré la pertinence et la qualité des prédictions, en
rendant les modèles plus adaptatifs et efficaces. En conclusion, l’approche à adopter dépend
des besoins spécifiques et des contraintes du système, avec une forte recommandation pour
l’utilisation des GNN dans des environnements interconnectés et des LSTM pour des séries
temporelles complexes.
4.9 Conclusion
Ce chapitre a exploré en détail les performances des modèles de détection d’anomalies
dans un contexte IoT, en s’appuyant sur des approches variées telles que LSTM, Isolation
Forest et GNN. Chaque modèle a été évalué sur ses capacités à identifier les anomalies dans
des données environnementales, notamment la température et l’humidité, à travers des mé-
triques pertinentes telles que la précision, le rappel et le F1-score.
Les expérimentations ont mis en lumière les forces et les limites de chaque méthode. LSTM
Page 86
Chapitre 4– Etude expérimentale
s’est démarqué par sa capacité à capturer des relations séquentielles complexes, bien qu’il
soit exigeant en termes de calculs. GNN, grâce à l’exploitation de relations contextuelles
riches via des données sémantiques RDF, a montré une robustesse notable, mais au prix
d’une conception plus complexe. Enfin, Isolation Forest, rapide et léger, a prouvé son effica-
cité pour des détections ponctuelles, bien qu’il soit moins adapté aux relations temporelles.
En complément, l’intégration de la sémantique dans les processus de prédiction a renforcé la
pertinence des résultats en exploitant les relations contextuelles entre les variables. Cette ap-
proche a permis d’améliorer l’interopérabilité et la capacité d’adaptation des modèles, tout
en réduisant les biais et les faux positifs. Toutefois, elle nécessite un effort supplémentaire
pour définir et structurer les modèles RDF.
Les visualisations des résultats, qu’il s’agisse de séries temporelles ou de graphiques in-
teractifs, ont facilité l’interprétation des anomalies et démontré la capacité des modèles à
surveiller les données en temps réel. En conclusion, chaque modèle apporte une contri-
bution spécifique selon le type d’anomalie et le contexte d’application, soulignant ainsi la
nécessité d’une approche adaptée et contextualisée pour une gestion efficace des données
IoT. Cette étude confirme également l’importance de combiner des techniques innovantes
comme les graphes sémantiques et les algorithmes d’apprentissage pour une analyse plus
précise et fiable des systèmes IoT.
Page 87
Conclusion générale
À travers cette étude, nous avons exploré et expérimenté diverses approches pour la pré-
diction et la détection d’anomalies dans le contexte des systèmes IoT, en mettant un accent
particulier sur l’intégration de la sémantique et des techniques d’apprentissage avancées.
Chaque chapitre de ce travail a contribué d’établir une compréhension approfondie des en-
jeux et des solutions possibles pour traiter les flux de données complexes et les anomalies
dans les environnements IoT.
Dans un premier temps, nous avons identifié les méthodes fondamentales et avancées uti-
lisées pour enrichir les prédictions avec des éléments sémantiques, mettant en lumière l’im-
portance des ontologies et de la structuration des données pour une interprétation contex-
tuelle. Cette fondation a ensuite été renforcée par une analyse détaillée des techniques d’an-
notation et des modèles appliqués aux séries temporelles, démontrant l’efficacité des ap-
proches combinées, comme les modèles statistiques, les algorithmes d’apprentissage auto-
matique, et les ontologies.
L’apport principal de cette recherche réside dans le développement d’une méthode inté-
grant des données enrichies via des triplets RDF et l’utilisation de modèles tels que LSTM,
Isolation Forest, et GNN pour la détection et la prédiction des anomalies. Cette approche a
permis de répondre aux défis spécifiques posés par les séries temporelles complexes et les
relations contextuelles dans les données IoT. Les résultats des expérimentations ont montré
que chaque méthode possède des forces distinctes selon le type d’anomalies (ponctuelles,
contextuelles, ou séquentielles) et le contexte d’application.
L’intégration de la sémantique s’est avérée cruciale pour améliorer la qualité des ana-
lyses en exploitant les relations contextuelles entre les variables, réduisant ainsi les biais
et augmentant l’interopérabilité des modèles. Cependant, elle implique également des défis
liés à la structuration des données et aux exigences computationnelles des modèles avancés,
88
Chapitre 4– Etude expérimentale
Page 89
Chapitre 4– Etude expérimentale
sur les anomalies détectées, afin de faciliter la prise de décision des utilisateurs finaux et
d’encourager une adoption plus large dans l’industrie.
En somme, cette recherche ouvre des opportunités significatives pour repousser les li-
mites des capacités actuelles en matière de détection et de prédiction d’anomalies dans les
systèmes IoT, tout en répondant aux défis liés à la scalabilité, l’efficacité, et l’intégration
dans des environnements opérationnels variés.
Page 90
Références
Abbassi, Y. and Benlahmer, H. (2021). Un aperçu sur la sécurité de l’internet des objets
(iot). In Colloque sur les Objets et systèmes Connectés-COC’2021.
Bibimoune, M., Rigori, S., Ji, L., Rappos, E., and Robert, S. (2016). Analyse prédictive
de séries temporelles : prédiction étendue à l’aide de l’apprentissage automatique. bulle-
tin. ch= Fachzeitschrift und Verbandsinformationen von Electrosuisse und VSE= Bulletin
SEV/AES : revue spécialisée et informations des associations Electrosuisse et AES.
Boubidi, R. and Nedjimi, A. (2023). Les solutions de paiements par l’internet des objets
internet of things payment solutions. Revue Namaa pour l’économie et le commerce Vol,
7(02) :138–153.
91
Chapitre 4– RÉFÉRENCES
Diallo, M. S., Mokeddem, S. A., Braud, A., Frey, G., and Lachiche, N. (2020). Quels jeux de
données pour la prédiction d’anomalies dans l’industrie 4.0 ? In GAST@ EGC20 : Gestion
et Analyse des données spatiales et temporelles, Bruxelles, Belgique, 27-31 janvier 2020.
Fakhfakh, K. (2022). Intelligence des données au service de la gestion optimisée des ur-
gences hospitalières. PhD thesis, Centrale Lille.
Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. (2017). Neural mes-
sage passing for quantum chemistry. In International conference on machine learning,
pages 1263–1272. PMLR.
Hubert, N., Monnin, P., Brun, A., and Monticolo, D. (2024). Enrichissement de fonctions
de perte avec contraintes de domaine et co-domaine pour la prédiction de liens dans les
graphes de connaissance. In 27e Conférence Nationale en Intelligence Artificielle.
James, G., Witten, D., Hastie, T., Tibshirani, R., et al. (2013). An introduction to statistical
learning, volume 112. Springer.
Page 92
Chapitre 4– RÉFÉRENCES
Lin, X.-X., Lin, P., and Yeh, E.-H. (2020). Anomaly detection/prediction for the internet of
things : State of the art and the future. IEEE Network, 35(1) :212–218.
Liu, F. T., Ting, K. M., and Zhou, Z.-H. (2008). Isolation forest. In 2008 eighth ieee
international conference on data mining, pages 413–422. IEEE.
Noel, D. (2019). Une approche basée sur le web sémantique pour l’étude de trajectoires de
vie. PhD thesis, Université Grenoble Alpes.
Othmane, Z. B. (2020). Analyse et visualisation pour l’étude de la qualité des séries tem-
porelles de données imparfaites. PhD thesis, Université de Reims Champagne-Ardenne.
Roussey, C., Bernard, S., and Atemezing, G. (2024). Introduction à la formalisation des
connaissances et aux technologies du Web Sémantique. PhD thesis, MISTEA, INRAE.
Sassi, I. B., Trabelsi, C., Bouzeghoub, A., and Yahia, S. B. (2013). Contextual information
retrieval based on users’ interests prediction and their social relations. Ingenierie des
Systemes d’Information, 18(1) :59–84.
Page 93
Chapitre 4– RÉFÉRENCES
Savarit, G., Bertet, K., and Demko, C. (2023). Transcription de séries temporelles en sé-
quences temporelles via conservation des caractéristiques de variation. In Inforsid 2023 :
Exploration des traces dans un monde du tout numérique : enjeux et perspectives, pages
24–27.
Serardi, S. et al. (2023). Vers un système de détection d’intrusion dans l’Internet des Objets.
PhD thesis, Université Ibn Khaldoun.
Severance, C. (2015). Guido van rossum : The early years of python. Computer, 48(2) :7–9.
Seydoux, N., Alaya, M. B., Hernandez, N. J., Monteil, T., and Haemmerlé, O. (2015). Sé-
mantique et internet des objets : d’un état de l’art à une ontologie modulaire. In 26mes
Journées francophones d’Ingénierie des Connaissances.
Terir, K. et al. (2020). Gstion de la con dentialité des données pour les dispositifs IOT
(Internet of Things). PhD thesis, University of Jijel.
Vuillemin, B., Delphin-Poulat, L., Nicol, R., Matignon, L., and Hassas, S. (2019). Tsrule-
growth : Extraction de r\egles de pr\’ediction semi-ordonn\’ees\a partir d’une s\’erie
temporelle d’\’el\’ements discrets, application dans un contexte d’intelligence ambiante.
arXiv preprint arXiv :1907.10054.
Page 94