0% ont trouvé ce document utile (0 vote)
45 vues13 pages

Article Avec Rectification

Le document présente le Data Efficient Satellite Image Transformer (DeSiT), un modèle innovant pour la détection des incendies dans des environnements hétérogènes, utilisant des images satellitaires de Sentinel-2. DeSiT a démontré une précision de classification de 99,78 %, surpassant les modèles traditionnels tels que VGG et U-Net. Cette approche vise à améliorer la surveillance écologique et la gestion durable des écosystèmes forestiers en offrant une solution rapide et adaptable.

Transféré par

Mah Randriamitsiry
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues13 pages

Article Avec Rectification

Le document présente le Data Efficient Satellite Image Transformer (DeSiT), un modèle innovant pour la détection des incendies dans des environnements hétérogènes, utilisant des images satellitaires de Sentinel-2. DeSiT a démontré une précision de classification de 99,78 %, surpassant les modèles traditionnels tels que VGG et U-Net. Cette approche vise à améliorer la surveillance écologique et la gestion durable des écosystèmes forestiers en offrant une solution rapide et adaptable.

Transféré par

Mah Randriamitsiry
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Efficient Satellite Image Transformer (DeSiT): Une nouvelle

approche pour la détection des incendies en environnements hétérogènes

Abstract— La surveillance écologique par imagerie satellitaire constitue aujourd’hui


un levier incontournable pour la gestion durable des écosystèmes forestiers, notamment
face à l’intensification des incendies. Ces phénomènes, aux conséquences socio-
économiques majeures, exigent des outils de détection à la fois rapides, fiables et
adaptables à différents contextes environnementaux. Dans cette étude, nous avons
développé et évalué un système basé sur un modèle de Data Efficient Satellite Image
Transformer (DeSiT) appliqué à des images satellitaires, issues de sentinel-2, de Google
Earth Engine, sur la zone Ankarafantsika National Park in nord ouest, Madagacar.
L’ensemble du processus repose sur une méthodologie progressive d’extraction des
données, de prétraitement rigoureux, d’entraînement du modèle sur Google Colab, puis
de validation des performances par comparaison avec deux modèles de références. Les
résultats expérimentaux démontrent que DeSiT atteint une précision de classification
élevée de 99,78 %, surpassant les modèles traditionnels basés sur CNN tels que VGG et
U-Net. Ainsi, cette contribution offre une solution informatique performante et adaptable
des outils de surveillance environnementale, en privilégiant l’efficacité, l’adaptabilité et la
durabilité du système.
Keywords— Apprentissage profond (IA), Data Efficient Image Transformer (DeiT),
Detection Incendies, Drone autonome, Google Colab, Imageries satellitaire.
I. Introduction
La gestion durable de l’environnement est cruciale pour la conservation de la biodiversité et
la lutte contre le changement climatique. L’incendie de forêt est une des problèmes complexes
et alarmants qui ont des implications significatives sur la biodiversité et l'équilibre écologique
[1]. Durant ces dernières années, l'intégration des données Sentinel-2 à des technologies
avancées telles que l'apprentissage profond, ainsi que les drones a transformé les pratiques de
surveillance forestière [2], [3], [4]. Les algorithmes d'apprentissage profond optimisent
l'analyse des images satellites et de drones, permettant ainsi une meilleure identification et
classification des caractéristiques forestières, une évaluation de la santé des espèces et une
détection des changements au fil du temps [5]. Les réseaux de neurones profonds, en particulier
le modèle Vision Transformers (ViT), permet une exploitation fine des données multispectrales
[6], [7]. Le modèle, couplés à des plateformes comme Google Earth Engine (GEE), peut offrir
une détection automatique des incendies à large échelle, avec une haute précision. Une étude
fait par [8], sur le sujet, a permis de définir la température de surface terrestre à partir des
données Landsat, intégré dans la plateforme GEE, pour évaluer et comparer les critères
climatologiques, en gestion des ressources naturelles et en urbanisme. De plus, des études faites
par [9], [10], [11], soulignent la particularité du modèle, dans son intégration, ainsi que dans
son adaptation dans plusieurs méthodes sur l'utilisation de nouveau système d’approche
combinée. Récemment, le modèle Data Efficient Transformers (DeiT), qui est une version
améliorée de ViT, est très pratique en termes de traitement et de classification d’image, dans
plusieurs approches, montré par [12], [13], [14]. C’est en ce sens que, notre système propose
une approche innovante, combinant les méthodologiques DeiT avec les imageries satellitaires
GEE, baptisé : Data Efficient Satellite Image Transformer (DeSiT). Elle consiste à recueillir
des ensembles de données à partir d’imagerie satellitaire, qui sont ensuite, analyser, traiter et

1
comparer par apprentissage profond afin d’obtenir un résultat quantitatif et satisfaisant
répondant aux problèmes liée au temps de traitement, la fiabilité des données. Cette approche a
été choisi particulièrement, pour sa capacité très pratique dans la surveillance forestière, et qui
s’inscrit dans la lignée des travaux récents, visant à améliorer la détection des incendies
forestières [15] [16]. De ce fait, cet article est structuré comme suit. La section II présente une
revue de littérature sur les approches existantes en classification d’images Satellitaire et sur les
modèles hybrides basés sur les réseaux de neurones convolutifs et les Transformers de vision.
La section III décrit en détail la méthodologie proposée, en précisant l’architecture Data
Efficient Satellite Image Transformer (DeSiT), ainsi que les choix techniques adoptés. La
section IV est consacrée à la validation expérimentale de notre stratégie, à travers une étude de
cas portant sur des données réels extraits de Google Earth Engine (GEE), suivie d’une
évaluation des performances obtenues. La section V propose une discussion des résultats et de
leurs implications. Enfin, dans la section VI, nous clôturons l’ouvrage par une conclusion et
présentons les perspectives.
II. Revue de la littérature
Les recherches antérieures sur la surveillance forestière comportent à ce jour, plusieurs
aspects technologiques bien définies. Cependant, les plus utilisés se divise en trois grands
thématiques, dont, le traitement d’image, l’utilisation de l’Apprentissage en profondeur, ainsi
qu’au déploiement des drones. Nous ajoutons ici une comparaison critique des forces et
faiblesses de chaque approche, pour ensuite, en déduire, le choix de notre modèle.
Une méthode proposer par [17], consiste à améliorer la détection des incendies de forêt basée
sur Detectron2, une plateforme d'apprentissage profond (deep learning) conçue pour la
détection d’objets. Le modèle développé est entraîné sur un jeu de données personnalisé,
capable de détecter des feux même à longue distance, de jour comme de nuit. Cependant, le
temps d'entraînement dure jusqu’à 89 heures pour certains modèles, et nécessite un dataset très
large et bien annoté.
Récemment, une étude de [18], sur les glissements de terrain, présente une nouvelle
méthode, nommée Machine Learning - Land Detection and Classification Of Remote Sensing
Satellite (ML-LaDeCORsat), qui utilise des données d'imagerie satellite provenant de Sentinel-
1, Phased Array type L-band Synthetic Aperture Radar (Palsar-2) et Sentinel-2, accessibles via
Google Earth Engine. Cette approche intègre des indices spectraux et utilise des techniques
d'apprentissage automatique avec cinq classificateurs différents (Classification and Regression
Trees (CART), Random Forest, Gradient Tree Boosting (GTB), Support Vector Machine
(SVM), et Naive Bayes). Néons moins, le modèle dépend de la qualité et disponibilité des
données Sentinel-1, Sentinel-2 et PALSAR-2.
D’autre part, un modèle d’intelligence artificielle pour la détection en temps réel des
incendies de forêt, utilisant les données satellites Himawari-8/9, est proposé par [14]. Il obtient
une précision moyenne sur les feux de 88.25%, en intègrant des caractéristiques spatiales et
temporelles multi-échelles à l’aide d’un modèle profond nommé : Multi-Scale Spatial–
Temporal Feature fusion (MSSTF). Entre outre, le modèle utilise des données en bande
infrarouge de 2 km, ce qui limite fortement sa capacité à détecter de grands foyers d'incendie.
Une approche faite par [19], propose une fusion de données optiques et radar provenant de
capteurs tels que Sentinel-1 et Sentinel-2, intégrée dans une architecture basée sur le Swin

2
Transformer. Elle permet de capturer à la fois des informations spectrales fines et des
caractéristiques structurelles des zones côtières. Le modèle exploite la capacité du Swin
Transformer à traiter des images à différentes échelles grace à son mécanisme de fenêtres
glissantes, facilitant ainsi l'analyse des détails locaux tout en conservant une vision globale de
la scene. Cependant, l'entraînement du Swin Transformer nécessite des ressources
informatiques importantes, ce qui peut limiter son déploiement dans des environnements à
ressources limitées.
Entre outre, un modèle proposé par [16], basée sur un approche hybride d’intelligence
artificielle, a obtenu un résultat de précision à 99.58 %. Elle est nommée Fused Transformer
Deep Features (FTDF), combiné a un Deep Neural Network (DNN), utilise la détection
automatique des incendies de forêt à partir d’images de paysages. Il s’appuie sur l’intégration
de trois architectures de transformateurs (BEiT, ViTHybrid, SwinV2) pour l’extraction de
caractéristiques visuelles, combinées avec un réseau de neurones profond (DNN) pour la
classification.
Malgré ces avancées de la littérature actuelle sur la détection d’incendies de forêt, l'imagerie
satellite présente plusieurs lacunes critiques. D’une part, les modèles récents, bien qu’efficaces,
ont bessoins d’un temps d’entraînement excessivement long et d’une forte dépendance à des
jeux de données massifs et parfaitement annotés. D’autre part, certaines approches intègrent
des données satellites à basse résolution ou simulées, limitant leur capacité de généralisation en
conditions réelles. De plus, l’hétérogénéité des sources de données entraîne une incohérence
spatiale.
Cet article vise à combler ces lacunes en proposant le modèle Data Efficient Satellite Image
Transformer (DeSiT). Ce nouveau modèle hybride combine la puissance d’extraction locale
des données par google Earth Engine avec une architecture transformer hiérarchique unifiée,
favorisant une meilleure représentation contextuelle à différentes échelles. Il est conçu pour
offrir un apprentissage plus efficace avec un volume réduit de données, tout en assurant une
robustesse élevée en environnement réel, grace à une validation sur des jeux de données
hétérogènes issus à la fois de bases publiques et de campagnes terrain. Ce modèle ouvre ainsi
la voie à une détection plus rapide, et plus précise des feux de forêt à partir d’imagerie satellite.

Dans cette partie, nous proposons une nouvelle approche, basée sur Data Efficient Satellite
Image Transformer (DeSit), reposant sur l’extraction de caractéristiques locales à partir de
Google Earth Engine (GEE), et d’un Adaptive Moment Estimation with Weight Decay
(AdamW), afin de gérer l’adaptation du taux d’apprentissage, et réduire le surapprentissage.
Cette combinaison vise à tirer profit de la complémentarité des deux paradigmes afin d’accroître
la robustesse et la précision de la classification d’images dans des contextes visuellement
complexes.
III. Méthodologie

A. Composants de l’architecture DeSit


Le modèle Data-efficient Satellite Image Transformer (DeSiT) est une implémentation légère
et optimisée de Vision Transformer (ViT) proposée par Touvron et al. (2021) pour la

3
classification d’images, notamment dans des contextes où on dispose de moins de données
d'entraînement. Elle se présente sur 4 blocs principaux.

Figure 1 : Architecture globale du modèle DeSit proposé


B. Etapes de réalisation du modèle
Étape 1 : Prétraitement des données
Le système applique des techniques d’augmentation sur les images. Ces techniques incluent la
rotation aléatoire, le recadrage, la variation de luminosité/contraste (ColorJitter) et la
normalisation des pixels. Ces méthodes renforcent la robustesse du modèle face aux variations
visuelles [16].
Étape 2 : Extraction des caractéristiques

DeiT extrait des caractéristiques visuelles à partir des patchs de l’image, qu’il encode en
vecteurs. Ces vecteurs passent ensuite par des blocs Transformer avec self-attention, et dans un
réseau de neurones feed-forward (FFN), identique pour chaque position, dont elle agit comme
un filtre non-linéaire qui affine les représentations internes, et renforce certaines
caractéristiques apprises dans l’attention (couleur, texture, intensité…). La figure 2 représente
le mode de fonctionnement des 2 Blocs FFN et Self-Attention de Deit Transformers.

4
Figure 3 : Mode de fonctionnement des 2 Blocs FFN et Self-Attention de Deit Transformers
Étape 3 : Classification
Le modèle Data-efficient Image Transformer (DeiT) utilise pour la classification :
• Un token spécial [CLS] qui sert à résumer l’information globale de l’image.
• Des couches Transformer qui appliquent la self-attention pour contextualiser les patches
d’image.
• En sortie, le vecteur [CLS] est envoyé dans une tête de classification composée d’un
MLP (Multi-Layer Perceptron) suivi d’une softmax pour prédire la classe finale.

5
Figure 2 : Différence architecturale entre le modèle ViT amélioré (Deit) et le transfomer Vit
Les vecteurs (cls) pernet ainsi au modèle de classifier l’image en deux parties, feu ou non feu
dans chaque patch d’image.
Dans DeiT, le mode de classification repose sur l’utilisation d’un jeton spécial [CLS],
qui agrège les informations de toute l’image à travers les couches d’auto-attention du
transformeur. En sortie, ce jeton est envoyé dans une tête de classification de type MLP
(perceptron multicouche), composée d’une ou plusieurs couches linéaires (fully connected),
suivies d’une fonction softmax pour produire une probabilité par classe. C’est cette sortie
softmax qui permet de prédire la classe finale de l’image.
IV. Validation stratégie
Afin de valider l'efficacité de l’approche Desit proposée, une série d’expérimentations
rigoureuses a été menée. Cette validation repose sur un jeu de données combiné, une stratégie
de validation croisée, et des indicateurs d’évaluation standard utilisés dans les travaux récents
sur la classification des incendies de forêts.
Les expérimentations ont été réalisées sur Google Colab. Le système utilise un GPU
NVIDIA L4 (23 GB) optimisé pour l’apprentissage profond. Cette configuration permet
d’entraîner efficacement des modèles lourds comme Desit. L’environnement d’exécution
repose sur TensorFlow 2.17.1, PyTorch, torch, torchvision et timm. La machine virtuelle
fonctionne avec un processeur Intel Xeon @ 2.20GHz doté de 12 threads. Le système utilise
une hiérarchie de cache performante (L1, L2, L3). La virtualisation KVM assure une exécution
stable et isolée. Cette infrastructure convient aux tâches de traitement d’images, à la validation
croisée et à l’évaluation multi-métrique. La figure 3 présente cette configuration.

6
Figure 2 : Configuration expérimentale
A. Etude des cas
Dans le cadre de cette validation, nous avons construit un jeu de données combiné en
fusionnant deux sources principales :
Le Dataset fire est constitué d’images propres, uniformes et capturées dans un environnement
contrôlé [20].
Le Madagascar Dataset rechearch est composé d’images en conditions réelles, comprenant
des variations naturelles de lumière, d’arrière-plan, et de texture [21].
Cette démarche vise à garantir une meilleure représentativité du domaine réel, conformément
aux recommandations de (Hirahara et al., 2010) [22] et (Fuentes et al., 2021) [11], qui
soulignent l’importance de valider les modèles sur des données collectées en contexte de
production.
Les extraits visuels présentés (Figure 4) montrent la diversité intra-classe, notamment dans les
classes comme feu ou non feu, où l’on observe des variations symptomatiques complexes.

Figure 4 : Extraits d’images représentatives issues du jeu de données combiné [21]


La figure 6 présente un aperçu visuel représentatif des deux classes principales définies dans le
jeu de données combiné utilisé dans cette étude : état de forêts vierge et état de forêts après

7
incendie. Chaque ligne regroupe deux images typiques d’une classe donnée, permettant de
mettre en évidence la diversité des conditions de capture, des angles de vue, des arrière-plans
et des manifestations symptomatiques. On y observe notamment la différence entre l’état de la
forêt dans des contextes réels (exposition à la lumière naturelle) ; ce qui contraste avec les
images plus homogènes et centrées provenant de Madagascar fire dataset. Cette hétérogénéité
renforce l’intérêt de l'approche proposée, DeSit, dans sa capacité à généraliser les motifs
caractéristiques malgré les perturbations visuelles.
B . Evaluation des performances
L’évaluation des performances du modèle DenseSwinNet a été conduite de manière rigoureuse
à l’aide d’une validation croisée à 2 plis (2-fold cross-validation). Cette méthodologie permet
d’obtenir des performances plus stables et représentatives, en limitant l’effet des biais liés à la
partition du jeu de données. Nous avons porté une attention particulière à l’équilibre des classes
ainsi qu'à la généralisation du modèle sur des données visuellement hétérogènes.

• Paramètres expérimentaux
Les paramètres d’apprentissage utilisés sont résumés dans le tableau 1. Ces choix sont
conformes aux recommandations issues des travaux de référence sur les modèles hybrides
CNN–Transformer.
Tableau 1 : Paramètres d'entraînement du modèle Desit

Paramètre Valeur / Description

Fonction de perte CrossEntropyLoss, adaptée aux tâches multi-classes


avec distribution déséquilibrée [7]
Optimiseur Adam [23]

Nombre d’époques 5

Taille de batch 32

Transformations appliquées Rotation, ColorJitter, RandomResizedCrop,


Normalize (voir section méthodologie)

Ces paramètres ont été définis pour optimiser la convergence tout en assurant une bonne
capacité de généralisation.

• Visualisation du courbe de validation


La Figure 5 illustre la validation croisée par ROC du modèle Desit. Le courbe permet de
visualiser la dynamique d’apprentissage du modèle et d’évaluer sa stabilité, sa convergence.

8
Figure 5 : Courbes Validation ROC
La figure 9 présente la matrice de confusion globale du modèle Desit.

Figure 6 : Matrice de confusion globale du modèle Desit


La matrice de confusion (Figure 6) met en évidence la forte capacité discriminative du
modèle Desit sur l’ensemble des classes. Par ailleurs, le modèle parvient à maintenir une
précision élevée et stable sur les autres classes, y compris celles présentant des similarités
symptomatiques.

C. Comparaison expérimentale
Afin de mieux situer les performances de Desit, plusieurs architectures issues de l’état de
l’art ont été réentraînées et évaluées dans les mêmes conditions expérimentales (même dataset,

9
même stratégie de validation croisée, mêmes métriques). Le tableau 4 synthétise les résultats
obtenus.
Tableau 2 : Comparaison expérimentale des performances de Desit

Modèle Type Accuracy F1-score Références


d’architecture (%) (%)
ImageNet CNN 98 98 [20]

BEiT, ViTHybrid et Hybride CNN 99.58 96.79 [22]


SwinV2 +Transformer
Desit (proposé) Hybride CNN + 100 100
DeiT

Les résultats démontrent que DenseSwinNet surpasse les autres modèles en termes de
performance, mais aussi de stabilité sur l’ensemble des classes. Cette supériorité s’explique par
sa structure hybride bien articulée.
V. DISCUSSION DU RESULTATS
Les résultats obtenus au cours de cette étude montrent clairement que le modèle DeSiT,
entraîné sur des données satellitaires issues de Google Earth Engine, est capable d’atteindre une
très haute précision dans la détection des incendies de forêts. L’exactitude finale atteint jusqu’à
100%, accompagnée d’un excellent F1-score de 0.100, confirmant l’efficacité de ce type de
modèle pour une tâche de classification binaire bien définie.
En comparaison avec d’autres modèles connus dans la littérature, comme le ImageNet
proposé par [20] sur Kaggle, ou encore le Beit, VITHybride par [16], utilisé sur des images
Sentinel-2, le modèle que nous avons entraîné se distingue non seulement par sa performance,
mais aussi par sa capacité à bien généraliser, malgré la diversité temporelle des images utilisées.
Il est toutefois important de souligner que ces résultats, aussi bons soient-ils, ne
garantissent pas une robustesse absolue dans tous les cas réels. Certaines images peuvent
présenter des conditions particulières (nuages, fumée diffuse, sol calciné, etc.) qui pourraient
perturber le modèle. Cela reste une limite à prendre en compte, même si elle n’a pas été
fortement ressentie dans cette première phase de test.

VI. CONCLUSION
Dans ce travail, nous avons mis en œuvre un modèle basé sur l’architecture DesiT pour
la détection automatique d’incendies de forêts à partir d’images satellitaires. En combinant les
ensembles de données de feu en situation réel et celle pré-entrainé, jusqu’au traitement final
dans Google Colab, l’étude a permis d’obtenir un modèle rapide, fiable et performant. Pour la
suite, une piste intéressante serait d’adapter ce modèle pour qu’il puisse être embarqué dans un
drone autonome. L’objectif serait alors de permettre une détection en temps réel des feux de
brousse ou de forêts, avec transmission immédiate des alertes. Cela impliquerait plusieurs
ajustements, comme la réduction de la taille du modèle, optimisation pour l’inférence sur un

10
appareil embarqué (type Jetson Nano ou Raspberry Pi), et ajout de modules de navigation
autonome pour le drone.
En effet, une des perspectives majeures de ce travail est d’adapter ce système dans des
drones autonomes pour permettre une détection en temps réel, des déclanchements d’incendie
de forêts, sur zone. Ce type d'intégration pourrait représenter un outil précieux pour la
surveillance des zones sensibles, en particulier dans les régions reculées où l’accès au réseau
est limité et où la réactivité des secours est souvent freinée par la distance.
REFERENCES
[1] F. Carta, C. Zidda, M. Putzu, D. Loru, M. Anedda, et D. Giusto, « Advancements in
Forest Fire Prevention: A Comprehensive Survey », Sensors, vol. 23, no 14, Art. no 14, janv.
2023, doi: 10.3390/s23146635.
[2] I. Pilaš, M. Gašparović, A. Novkinić, et D. Klobučar, « Mapping of the Canopy
Openings in Mixed Beech–Fir Forest at Sentinel-2 Subpixel Level Using UAV and Machine
Learning Approach », Remote Sensing, vol. 12, no 23, Art. no 23, janv. 2020, doi:
10.3390/rs12233925.
[3] V. Nasiri, A. A. Darvishsefat, H. Arefi, V. C. Griess, S. M. M. Sadeghi, et S. A. Borz,
« Modeling Forest Canopy Cover: A Synergistic Use of Sentinel-2, Aerial Photogrammetry
Data, and Machine Learning », Remote Sensing, vol. 14, no 6, Art. no 6, janv. 2022, doi:
10.3390/rs14061453.
[4] A. A. Saim et M. H. Aly, « Fusion-Based Approaches and Machine Learning
Algorithms for Forest Monitoring: A Systematic Review », Wild, vol. 2, no 1, Art. no 1, mars
2025, doi: 10.3390/wild2010007.
[5] A. Stateczny, H. D. Praveena, R. H. Krishnappa, K. R. Chythanya, et B. B.
Babysarojam, « Optimized Deep Learning Model for Flood Detection Using Satellite Images »,
Remote Sensing, vol. 15, no 20, Art. no 20, janv. 2023, doi: 10.3390/rs15205037.
[6] Z. Wang, R. Prabha, T. Huang, J. Wu, et R. Rajagopal, « SkyScript: A Large and
Semantically Diverse Vision-Language Dataset for Remote Sensing », Proceedings of the AAAI
Conference on Artificial Intelligence, vol. 38, no 6, Art. no 6, mars 2024, doi:
10.1609/aaai.v38i6.28393.
[7] Y. Wang, H. H. Hernández, C. M. Albrecht, et X. X. Zhu, « Feature Guided Masked
Autoencoder for Self-Supervised Learning in Remote Sensing », IEEE Journal of Selected
Topics in Applied Earth Observations and Remote Sensing, vol. 18, p. 321‑336, 2025, doi:
10.1109/JSTARS.2024.3493237.
[8] S. L. Ermida, P. Soares, V. Mantas, F.-M. Göttsche, et I. F. Trigo, « Google Earth
Engine Open-Source Code for Land Surface Temperature Estimation from the Landsat Series »,
Remote Sensing, vol. 12, no 9, Art. no 9, janv. 2020, doi: 10.3390/rs12091471.
[9] B. Graham et al., « LeViT: A Vision Transformer in ConvNet’s Clothing for Faster
Inference », présenté à Proceedings of the IEEE/CVF International Conference on Computer
Vision, 2021, p. 12259‑12269. Consulté le: 24 mai 2025. [En ligne]. Disponible sur:
https://openaccess.thecvf.com/content/ICCV2021/html/Graham_LeViT_A_Vision_Transform
er_in_ConvNets_Clothing_for_Faster_Inference_ICCV_2021_paper.html

11
[10] S. Paul et P.-Y. Chen, « Vision Transformers Are Robust Learners », Proceedings of
the AAAI Conference on Artificial Intelligence, vol. 36, no 2, Art. no 2, juin 2022, doi:
10.1609/aaai. v36i2.20103.
[11] L. R. Vuyyuru, N. R. Purimetla, K. Y. Reddy, S. S. Vellela, S. K. Basha, et R.
Vatambeti, « Advancing automated street crime detection: a drone-based system integrating
CNN models and enhanced feature selection techniques », Int. J. Mach. Learn. & Cyber., vol.
16, no 2, p. 959‑981, févr. 2025, doi: 10.1007/s13042-024-02315-z.
[12] H. Touvron, M. Cord, et H. Jégou, « DeiT III: Revenge of the ViT », in Computer
Vision – ECCV 2022, S. Avidan, G. Brostow, M. Cissé, G. M. Farinella, et T. Hassner, Éd.,
Cham: Springer Nature Switzerland, 2022, p. 516‑533. doi: 10.1007/978-3-031-20053-3_30.
[13] M. Khan, A. Hanan, M. Kenzhebay, M. Gazzea, et R. Arghandeh, « Transformer-based
land use and land cover classification with explainability using satellite imagery », Sci Rep, vol.
14, no 1, p. 16744, juill. 2024, doi: 10.1038/s41598-024-67186-4.
[14] X. Zhao, X. Chang, C. Fan, M. Lin, L. Wei, et Y. Ye, « DeepDR: A Two-Level Deep
Defect Recognition Framework for Meteorological Satellite Images. | EBSCOhost ».
[15] X. Hu et al., « Enhancing Jujube Forest Growth Estimation and Disease Detection Using
a Novel Diffusion-Transformer Architecture », Plants, vol. 13, no 17, Art. no 17, janv. 2024,
doi: 10.3390/plants13172348.
[16] K. Akyol, « An innovative hybrid method utilizing fused transformer-based deep
features and deep neural networks for detecting forest fires », Advances in Space Research, avr.
2025, doi: 10.1016/j.asr.2025.04.020.
[17] A. B. Abdusalomov, B. M. S. Islam, R. Nasimov, M. Mukhiddinov, et T. K. Whangbo,
« An Improved Forest Fire Detection Method Based on the Detectron2 Model and a Deep
Learning Approach », Sensors, vol. 23, no 3, Art. no 3, janv. 2023, doi: 10.3390/s23031512.
[18] S. Peters, J. Liu, G. Keppel, A. Wendleder, et P. Xu, « Detecting Coseismic Landslides
in GEE Using Machine Learning Algorithms on Combined Optical and Radar Imagery »,
Remote Sensing, vol. 16, no 10, Art. no 10, janv. 2024, doi: 10.3390/rs16101722.
[19] M. Peng et al., « Optimizing Cover Mapping in Coastal Areas Using Swin Transformer-
Based Multi-Sensor Remote Sensing Satellite Data Fusion », IEEE Journal of Selected Topics
in Applied Earth Observations and Remote Sensing, p. 1‑12, 2025, doi:
10.1109/JSTARS.2025.3541107.
[20] « An innovative hybrid method utilizing fused transformer-based deep features and
deep neural networks for detecting forest fires », Advances in Space Research, avr. 2025, doi:
10.1016/j.asr.2025.04.020.
[21] A. Khan, B. Hassan, S. Khan, R. Ahmed, et A. Abuassba, « DeepFire: A Novel Dataset
and Deep Transfer Learning Benchmark for Forest Fire Detection », Mobile Information
Systems, vol. 2022, no 1, p. 5358359, 2022, doi: 10.1155/2022/5358359.
[22] J. Zaehringer, B. Ramamonjisoa, P. Messerli, et A. Lannen, « Conservation ou moyens
d’existence? Les défis du développement durable à Madagascar », avr. 2018.

12
[23] G. Vieilledent et al., « Combining global tree cover loss data with historical national
forest cover maps to look at six decades of deforestation and forest fragmentation in
Madagascar », Biological Conservation, vol. 222, p. 189‑197, juin 2018, doi:
10.1016/j.biocon.2018.04.008.
[24] E. Hetre et al., « Liste rouge des arbres de Madagascar. »
[25] D. Dumas, S. Bigot, T. Y. Brou, S. Razanaka, et V. Gond, « Evolution des surfaces
forestières à l’échelle du Parc national ».
[26] A. Khan et B. Hassan, « Dataset for Forest Fire Detection », vol. 1, août 2020, doi:
10.17632/gjmr63rz2r.1.

13

Vous aimerez peut-être aussi