Machine Learning
« Machine Learning »
Préparé par :
Med Taoufik Houria
Yassine Ouali
MED TAOUFIK HOURIA / YASSINE OUALI 1
Machine Learning
Table de matière :
I. introduction 4
II. Les types :
1. L’apprentissage non supervisé. 7
2. L’apprentissage supervisé. 9
3. L'apprentissage par renforcement. 11
III. Les applications :
1. Cyber security. 13
2. Chat Bot. 14
3. Conduite autonome. 16
IV. Conclusion 22
MED TAOUFIK HOURIA / YASSINE OUALI 2
Machine Learning
Sources :
[Link]
[Link]
[Link]
[Link]
[Link]
I. introduction :
MED TAOUFIK HOURIA / YASSINE OUALI 3
Machine Learning
Le Machine Learning ou apprentissage automatique est un domaine
scientifique, et plus particulièrement une sous-catégorie de l’intelligence
artificielle. Elle consiste à laisser des algorithmes découvrir des « patterns », à
savoir des motifs récurrents, dans les ensembles de données. Ces données
peuvent être des chiffres, des mots, des images, des statistiques… Tout ce qui
peut être stocké numériquement peut servir de données pour le Machine
Learning. En décelant les patterns dans ces données, les algorithmes
apprennent et améliorent leurs performances dans l’exécution d’une tâche
spécifique. Pour résumer, les algorithmes de Machine Learning apprennent de
manière autonome à effectuer une tâche ou à réaliser des prédictions à partir
de données et améliorent leurs performances au fil du temps. Une fois
entraîné, l’algorithme pourra retrouver les patterns dans de nouvelles
données.
● Comment fonctionne le Machine Learning ?
Le développement d’un modèle de Machine Learning repose sur quatre
étapes principales. En règle générale, c’est un Data Scientist qui gère et
supervise ce procédé.
La première étape consiste à sélectionner et à préparer un ensemble de
données d’entraînement. Ces données seront utilisées pour nourrir le modèle
de Machine Learning pour apprendre à résoudre le problème pour lequel il est
conçu.
Les données peuvent être étiquetées, afin d’indiquer au modèle les
caractéristiques qu’il devra identifier. Elles peuvent aussi être non étiquetées,
et le modèle devra repérer et extraire les caractéristiques récurrentes de lui-
même.
Dans les deux cas, les données doivent être soigneusement préparées,
organisées et nettoyées. Dans le cas contraire, l’entraînement du modèle de
Machine Learning risque d’être biaisé. Les résultats de ses futures prédictions
seront directement impactés.
MED TAOUFIK HOURIA / YASSINE OUALI 4
Machine Learning
La deuxième étape consiste à sélectionner un algorithme à exécuter sur
l’ensemble de données d’entraînement. Le type d’algorithme à utiliser dépend
du type et du volume de données d’entraînement et du type de problème à
résoudre.
La troisième étape est l’entraînement de l’algorithme. Il s’agit d’un
processus itératif. Des variables sont exécutées à travers l’algorithme, et les
résultats sont comparés avec ceux qu’il aurait du produire. Les » poids » et le
biais peuvent ensuite être ajustés pour accroître la précision du résultat.
On exécute ensuite de nouveau les variables jusqu’à ce que l’algorithme
produise le résultat correct la plupart du temps. L’algorithme, ainsi entraîné,
est le modèle de Machine Learning.
La quatrième et dernière étape est l’utilisation et l’amélioration du
modèle. On utilise le modèle sur de nouvelles données, dont la provenance
dépend du problème à ré[Link] exemple, un modèle de Machine Learning
conçu pour détecter les spams sera utilisé sur des emails.
De son côté, le modèle de Machine Learning d’un aspirateur robot ingère
des données résultant de l’interaction avec le monde réel comme le
déplacement de meubles ou l’ajout de nouveaux objets dans la pièce.
L’efficacité et la précision peuvent également s’accroître au fil du temps.
● Quels sont les principaux algorithmes de Machine Learning ?
Il existe une large variété d’algorithmes de Machine Learning. Certains
sont toutefois plus couramment utilisés que d’autres. Tout d’abord, différents
algorithmes sont utilisés pour les données étiquetées.
Les algorithmes de régression, linéaire ou logistique, permettent de
comprendre les relations entre les données. La régression linéaire est utilisée
pour prédire la valeur d’une variable dépendante base sur la valeur d’une
variable indépendante. Il s’agirait par exemple de prédire les ventes annuelles
d’un commercial en fonction de son niveau d’études ou de son expérience.
MED TAOUFIK HOURIA / YASSINE OUALI 5
Machine Learning
La régression logistique est quant à elle utilisée quand les variables
dépendantes sont binaires. Un autre type d’algorithme de régression appelé
machine à vecteur de support est pertinent quand les variables dépendantes
sont plus difficiles à classifier.
Un autre algorithme ML populaire est l’arbre de décision. Cet algorithme
permet d’établir des recommandations basées sur un ensemble de règles de
décisions en se basant sur des données classifiées. Par exemple, il est possible
de recommander sur quelle équipe de football parier en se basant sur des
données telles que l’âge des joueurs ou le pourcentage de victoire de l’équipe.
Pour les données non étiquetées, on utilise souvent les algorithmes de «
clustering ». Cette méthode consiste à identifier les groupes présentant des
enregistrements similaires et à étiqueter ces enregistrements en fonction du
groupe auquel ils appartiennent.
Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi
les algorithmes de clustering, on compte les K-moyennes, le TwoStep ou encore
le Kohonen.
Les algorithmes d’association permettent quant à eux de découvrir des
patterns et des relations dans les données, et à identifier les relations » si /
alors » appelées » règles d’association « . Ces règles sont similaires à celles
utilisées dans le domaine du Data Mining ou forage de données.
Enfin, les réseaux de neurones sont des algorithmes se présentant sous
la forme d’un réseau à plusieurs couches. La première couche permet
l’ingestion des données, une ou plusieurs couches cachées tirent des
conclusions à partir des données ingérées, et la dernière couche assigne une
probabilité à chaque conclusion.
Un réseau de neurones « profond » est composé de multiples couches
cachées permettant chacune de raffiner les résultats de la précédente. On
l’utilise dans le domaine du Deep Learning.
MED TAOUFIK HOURIA / YASSINE OUALI 6
Machine Learning
II. Les types :
● L’apprentissage non supervisé :
L’apprentissage non supervisé est une branche du machine
learning, caractérisée par l’analyse et le regroupement de données
non-étiquetées. Pour cela, ces
algorithmes apprennent à
trouver des schémas ou des
groupes dans les données, avec
très peu d’intervention humaine.
En termes mathématiques,
l’apprentissage non supervisé
implique l’observation de
plusieures occurrences d’un
vecteur X et l’apprentissage de la probabilité de distribution p(X) pour
ces occurrences.
Cette méthode est en contraste avec l’apprentissage supervisé, dans
lequel le modèle reçoit des données d'entraînement étiquetées, à partir
desquelles il doit apprendre. Ainsi, les modèles d’apprentissage
supervisé et non supervisé diffèrent sur la base de leurs données
d’entrée. En effet, un modèle d’apprentissage supervisé utilise des
données d’entrée et de sortie étiquetées, alors qu’un modèle
d’apprentissage non supervisé apprend à partir de données
d'entraînement non-étiquetées, afin de faire des prédictions sur la
classification des points. Par conséquent, avec un modèle
d’apprentissage non supervisé, le but est d’obtenir un aperçu à partir
d’une grande quantité de données, contrairement à un modèle
d’apprentissage supervisé, pour lequel le but est de prédire la valeur
de sortie pour de nouvelles données.
MED TAOUFIK HOURIA / YASSINE OUALI 7
Machine Learning
Si vous souhaitez en savoir plus sur l’apprentissage supervisé et ses
différentes méthodes, veuillez consulter les articles précédents dédiés
à ce sujet.
Deux types de problèmes d’apprentissage non supervisé:
On peut considérer l’apprentissage non supervisé comme étant séparé
en deux catégories :
● le clustering et l’association.
Le clustering est une technique d’apprentissage non supervisé, qui
regroupe des données non-étiquetées en fonction de leurs similarités
et de leurs différences. Ainsi, les points sont rassemblés dans des
groupes (ou des clusters) de telle manière à ce que les points au sein
d’un même groupe soient le plus similaire possible, pendant que les
points dans des groupes différents soient les plus différents possible.
MED TAOUFIK HOURIA / YASSINE OUALI 8
Machine Learning
Pour cela, une analyse de cluster identifie les caractéristiques, au
sein des données, et groupe les points en fonction de la présence ou de
l’absence de ces caractéristiques. Parmi les méthodes de clustering, on
trouve la méthode des k-moyennes (ou k-means), la classification
hiérarchique (ou hierarchical clustering) ou encore la classification
probabilistique (ou probabilistic clustering).
D’un autre côté, les règles d’association sont une autre forme
d’apprentissage non supervisé, qui identifie une relation entre les
points de données. En d’autres termes, ces algorithmes trouvent les
points qui apparaissent ensemble dans les données. Ces méthodes
sont souvent utilisées pour l’analyse du panier de consommation, qui
permet aux compagnies de comprendre la relation entre l’achat de
différents produits. En effet, cela permet d’établir une relation de la
forme suivante : « Les individus qui achètent le produit X ont également
tendance à acheter le produit Y ». Parmi les algorithmes d’association,
on trouve l’algorithme Apriori, l’algorithme Eclat et l’algorithme FP-
growth.
Il existe divers algorithmes d’apprentissage non supervisé que nous
allons explorer dans le prochain article.
● L’apprentissage supervisé :
L'apprentissage supervisé, également appelé apprentissage
automatique supervisé, est une sous-catégorie de l'apprentissage
automatique et de l'intelligence artificielle. Il se caractérise par
l'utilisation de jeux de données étiquetés qui entraînent des algorithmes
permettant de classer des données ou de prédire des résultats avec
précision. Au fur et à mesure que les données en entrée sont introduites
dans le modèle, celui-ci ajuste ses pondérations jusqu'à ce que le modèle
soit correctement ajusté. C'est le processus de validation croisée. Avec
l'apprentissage supervisé, les organisations peuvent résoudre divers
MED TAOUFIK HOURIA / YASSINE OUALI 9
Machine Learning
problèmes du monde réel à grande échelle, comme la classification des
courriers indésirables dans un dossier distinct de votre boîte de
réception.
Fonctionnement de l'apprentissage supervisé:
L'apprentissage supervisé utilise un jeu d'entraînement pour
apprendre aux modèles à produire les résultats souhaités. Ce jeu de
données d'apprentissage comprend des entrées et des sorties correctes,
qui permettent au modèle d'apprendre au fil du temps. L'algorithme
mesure sa précision par le biais de la fonction de perte, et s'ajuste
jusqu'à ce que l'erreur soit suffisamment minimisée.
L'apprentissage supervisé peut être divisé en deux types de problèmes
lors de l'extraction de données, à savoir la classification et la régression :
La classification utilise un algorithme pour classer avec précision les
données de test dans des catégories spécifiques. Elle reconnaît des
entités spécifiques dans l'ensemble de données et tente de tirer des
MED TAOUFIK HOURIA / YASSINE OUALI 10
Machine Learning
conclusions sur la façon dont ces entités doivent être étiquetées ou
définies. Les algorithmes de classification courants sont les
classificateurs linéaires, les machines à vecteurs de support (SVM), les
arbres de décision, les k plus proches voisins (k-NN) et les forêts
aléatoires, qui sont décrits plus en détail ci-dessous.
La régression est utilisée pour comprendre la relation entre les
variables dépendantes et indépendantes. Elle est couramment utilisée
pour faire des projections, par exemple, sur le chiffre d'affaires d'une
entreprise. La régression linéaire, la régression logistique et la régression
polynomiale sont des algorithmes de régression couramment utilisés.
● L'apprentissage par renforcement :
L'apprentissage par renforcement (RL) est une technique de
machine learning (ML) qui entraîne les logiciels à prendre des décisions
en vue d'obtenir les meilleurs résultats. Elle imite le processus
d'apprentissage par tâtonnements employé par les êtres humains pour
atteindre leurs objectifs. Les actions logicielles qui contribuent à la
réalisation de votre objectif sont renforcées, tandis que les actions qui
nuisent à celle-ci sont ignorées.
Les algorithmes de RL utilisent un paradigme de récompense et de
punition lorsqu'ils traitent les données. Ils apprennent du retour
d'information de chaque action et découvrent par eux-mêmes les
chemins de traitement optimaux pour atteindre les résultats finaux. Les
algorithmes sont également capables de différer la gratification. La
meilleure stratégie globale peut exiger des sacrifices à court terme ; ainsi,
l'approche la plus efficace qu'ils découvrent peut inclure des punitions ou
des retours en arrière. Le RL est une méthode puissante qui aide les
systèmes d'intelligence artificielle (IA) à obtenir des résultats optimaux
dans des environnements invisibles.
MED TAOUFIK HOURIA / YASSINE OUALI 11
Machine Learning
○ Les avantages :
★ Excelle dans les environnements complexes.
★ Les algorithmes de RL peuvent être utilisés dans des
environnements complexes comportant de nombreuses règles et
dépendances. Dans un même environnement, un être humain n'est
pas toujours capable de déterminer le meilleur chemin à suivre,
même s'il possède une connaissance supérieure de cet
environnement. En revanche, les algorithmes de RL sans modèle
s'adaptent rapidement aux environnements en constante évolution
et trouvent de nouvelles stratégies pour optimiser les résultats.
★ Nécessite moins d'interactions humaines.
Dans les algorithmes de ML classiques, un être humain doit
étiqueter les paires de données pour guider l'algorithme ; ce processus
n'est pas nécessaire avec un algorithme de RL, car il apprend seul. Dans le
même temps, il propose des mécanismes permettant d'intégrer des
commentaires humains qui aident à créer des systèmes s'adaptant aux
préférences, à l'expertise et aux corrections humaines.
Optimiser les actions pour atteindre des objectifs à long terme
Le RL se concentre intrinsèquement sur la maximisation des récompenses
à long terme, ce qui le rend idéal dans les scénarios où les actions ont
des conséquences prolongées. Il est adapté aux situations réelles où
chaque étape n'est pas immédiatement commentée, car l'algorithme peut
apprendre des récompenses différées.
Par exemple, les décisions relatives à la consommation ou au stockage
d'énergie peuvent avoir des conséquences à long terme : il est possible
d'utiliser le RL pour optimiser l'efficacité énergétique et les coûts à long
terme. Avec des architectures adéquates, les agents de RL peuvent aussi
généraliser leurs stratégies apprises sur des tâches similaires mais non
identiques.
MED TAOUFIK HOURIA / YASSINE OUALI 12
Machine Learning
III. Les applications :
● La cybersécurité :
Le big data est devenu une manne attisant toutes les convoitises,
surtout celles des hackers. Les cyberattaques se multiplient et se
complexifient, à tel point que l’analyse des données massives dans des
temps très courts par des personnes est devenu impossible. Cela
réclamerait un trop lourd investissement financier et humain. En
revanche, l’IA et le machine learning ont cette capacité à analyser des
masses de données, en temps réel, sans souffrir de la faiblesse des
erreurs humaines. Ces dernières se résument le plus souvent à des erreurs
de jugement principalement dues à la fatigue et à la baisse de la
concentration.
Pour faire court, utiliser le machine learning dans la cybersécurité
permet de :
★ réduire l’erreur humaine ;
★ soulager les équipes de sécurité ;
★ proposer des conseils opportuns sur les derniers problèmes
détectés ;
★ automatiser des tâches répétitives ;
★ d’éviter la fatigue décisionnelle de l’humain due à un flux
élevé d’alertes ;
réduire le temps de réponse en cas de menace grâce à sa
surveillance continue et en temps réel ;
identifier et anticiper les nouvelles menaces (analyse prédictive).
● Comment le machine learning s’intègre-t-il dans la cybersécurité ?
« Le machine learning excelle dans les tâches pénibles telles que
l’identification et l’adaptation des schémas de données » (Kaspersky) et il
s’intègre dans la cybersécurité à différents niveaux :
MED TAOUFIK HOURIA / YASSINE OUALI 13
Machine Learning
★ identification et classification des logiciels malveillants par
analyse statique et dynamique ;
★ apprentissage automatique contradictoire pour contrer les
cyberattaques conçues pour tromper le modèle ;
★ analyse du trafic réseau et détection d’une anomalie en temps réel ;
★ tests d’intrusion réseau et gestion des vulnérabilités ;
analyse et prédiction du comportement des utilisateurs et des entités :
★ détection précoce des tentatives de phishing.
Également, comme le soulignent G. Apruzzes et al. (2023) dans leur article,
le machine learning peut remplir quatre autres tâches importantes : la
gestion des alertes, l’analyse des données brutes, l’évaluation de
l’exposition au risque et le renseignement sur les cybermenaces.
● Chat Bot :
L'apprentissage automatique est une méthode d'analyse de
données qui automatise la création de modèles analytiques. Il s'agit
d'une branche de l’intelligence artificielle basée sur l’idée que les
systèmes peuvent apprendre de données, identifier des modèles et
prendre des décisions avec une intervention humaine [Link] que
la notion d'apprentissage automatique englobe une vaste gamme
d'approches et de techniques différentes, la plupart d'entre elles sont
sous-jacentes aux statistiques. Cela permet aux algorithmes de faire des
prédictions basées sur l'extraction de modèles à partir de données
d'entrée incomplètes et souvent bruité[Link] sein de l’apprentissage
automatique, les réseaux de neurones artificiels ont acquis une position
dominante et ont été inspirés au départ par les réseaux de neurones
connectés trouvés dans le cerveau humain et animal. Ces réseaux de
neurones permettent l'entrainement d'un chatbot de manière
automatique en le nourrissant de donné[Link] effet, pour former un réseau
de neurones artificiels, la meilleure façon de faire est de laisser le
MED TAOUFIK HOURIA / YASSINE OUALI 14
Machine Learning
système deviner, de recevoir un retour d'informations et de deviner, en
changeant continuellement les probabilités, quelle
approche permet d'obtenir la bonne ré[Link] tant
que systèmes inspirés du cerveau et conçus pour
reproduire la façon dont les humains apprennent, les
réseaux de neurones modifient leur code pour trouver le
lien entre input et output dans des situations où cette
relation est complexe ou peu claire. Ils sont très utiles pour
l'apprentissage automatique de votre chatbot
Le deep learning : L'entrainement d'un chatbot nouvelle génération
Au cours de cette décennie, les réseaux de neurones artificiels ont tiré
parti de l’apprentissage en profondeur (deep learning), qui augmente la
«profondeur» des différentes couches du réseau afin d’en extraire
différentes caractéristiques jusqu’à ce que le réseau puisse reconnaître
ce qu’il [Link] que les progrès de l’apprentissage automatique
aient fait appel à de nombreuses mathématiques complexes et à de
nouveaux algorithmes, ils nécessitent souvent d’énormes quantités de
données d’entrée et, partant, d’énormes quantités de puissance de calcul.
Vous l'aurez compris, plus vous aurez de données, meilleur sera
l'entrainement de votre [Link] processeurs et des GPUs plus rapides
sont venus à la rescousse. L’une des principales raisons pour lesquelles
l’intelligence artificielle est si importante tient au fait que c’est seulement
au cours des dernières années que le coût du traitement d’une quantité
aussi importante de données est devenu [Link] n'est que vers la fin
des années 2000 que les chercheurs ont compris que les unités de
traitement graphique (GPU), développées pour les graphismes et les jeux
3D, étaient 20 à 50 fois plus performantes pour traiter des tâches
d'intelligence artificielle que les processeurs [Link] une fois que
les gens l'ont compris, la quantité de puissance de calcul disponible a
considérablement augmenté, permettant ainsi aux plates-formes d'IA
MED TAOUFIK HOURIA / YASSINE OUALI 15
Machine Learning
dans le cloud d'alimenter de nombreux services innovants tels que les
[Link] que vous en savez plus sur les technologies
complexes à l'œuvre, vous pouvez en apprendre plus sur combien coûte
un chatbot en lisant cet article. N'oubliez pas qu'il est crucial de bien
tester son chatbot pour que l'entrainement de celui-ci soit optimal !Pour
plus d'informations sur comment entrainer son chatbot
● Conduite autonome :
Au cœur de la voiture autonome, on trouve les mêmes algorithmes
d’apprentissage automatique que
ceux utilisés pour la classification
des images ou la reconnaissance
de la parole. Mais avant de
pouvoir embarquer dans le
véhicule, ces algos font l’objet de
tests stricts. Sécurité oblige.
Certes, la voiture totalement autonome n’existe pas encore. Mais les
véhicules n’ont cessé de gagner en
autonomie ces dernières années.
La raison principale ? Les progrès fulgurants accomplis en matière
d’intelligence artificielle, en particulier par certains algorithmes, dits de
machine learning. Ces méthodes d’apprentissage automatique, basées
sur l’exemple, sont notamment utilisées pour la reconnaissance des
visages sur les photos. Désormais, elles se retrouvent au cœur du
fonctionnement des voitures sans pilote.
★ Détecter, identifier, classer…
« Ces algos permettent de donner un sens aux données issues de capteurs
en fournissant une représentation détaillée de l’environnement autour de
la voiture », explique Fabien Moutarde, du centre de robotique de MINES
ParisTech. À partir des images des caméras, ils sont chargés de détecter
MED TAOUFIK HOURIA / YASSINE OUALI 16
Machine Learning
tous les obstacles et de les classer par catégories (piétons, vélos, motos,
bus, camions…) ; d’identifier les panneaux de signalisation et de lire leur
contenu ; de savoir quand un feu passe au vert ou au rouge ; de faire la
distinction entre la route et le bas-côté ; de repérer les différentes
configurations de la route (intersections, ronds-points…) ou encore les
différents types de marquages au sol. Idem pour les données des radars
et des lidars, elles aussi interprétées par du machine learning.
Cette connaissance de l’environnement vient ensuite alimenter d’autres
algorithmes déterministes cette fois, basés sur des règles. Sachant où se
trouvent les obstacles et leur type, et prédisant leur positions futures, ces
algos de planification décident de la manœuvre la plus sûre à exécuter, et
cela dans le respect du Code de la route.
Mais avant de pouvoir monter à bord d’une voiture, les algos
d’apprentissage doivent d’abord faire la preuve de leur efficacité en
laboratoire. Dans un premier temps, on les entraîne sur un vaste jeu de
données collectées par les capteurs dans de multiples conditions de
circulation : sur autoroute, nationale, route rurale, périphérique, en ville,
sous différentes conditions météo ou avec plus ou moins de trafic, etc.
Sur des millions d’images réunissant plusieurs milliers de catégories
d’objets, les algos apprennent ainsi à les détecter et à les classifier. Cet
apprentissage se fait de façon supervisée : sur chaque image, on a
indiqué au préalable où se trouve chaque objet et de quel type il s’agit –
ce qu’on appelle la labellisation.
★ Être entrainés pour apprendre
Dans cet exercice d’entraînement des algos, la diversité des données est
la clé. « La base de données doit être la plus représentative de tous les
cas de figure possibles, sans quoi on passera forcément à côté d’une
détection une fois la voiture sur la route. Par exemple, pour les piétons, il
est important d’avoir une large palette de couleurs de vêtements, de
MED TAOUFIK HOURIA / YASSINE OUALI 17
Machine Learning
corpulence ou encore d’orientation (face, profil, etc.). Il faut donc garantir
cette diversité au moment de constituer sa base de données », précise
Fabien Moutarde.
Une précaution d’autant plus importante que d’un pays à un autre, la
voiture devra faire face à des situations nouvelles, comme des panneaux
de signalisation complètement différents. Les algorithmes doivent donc
être adaptés à un pays donné ou à une géographie donnée.
Une fois l’entraînement terminé et les algorithmes jugés suffisamment
performants dans leurs détections – on vise un taux de réussite supérieur
à 90 % -, il n’est toujours pas question de les embarquer dans la voiture.
Ils doivent d’abord passer l’étape de la validation. Cette fois, les algos
sont testés sur des données plus nombreuses encore et différentes de
celles sur lesquelles ils ont été entraînés. Il s’agit ainsi de vérifier leur
capacité à extrapoler dans des situations nouvelles et à pointer du doigt
des cas dans lesquels ils peuvent mis en difficulté.
★ Rejouer la scène encore et encore
Le nombre de scénarios à valider est colossal : les spécialistes estiment
qu’à terme les tests devront porter sur l’équivalent de 10 milliards de
kilomètres parcourus ! Autant de données qu’il faudra non seulement
collecter mais aussi labelliser. Devant l’ampleur de la tâche, certains
privilégient une autre approche : la simulation. « L’avantage de la
simulation est qu’il est possible de reproduire dans un environnement
contrôlé toutes les situations dangereuses et critiques, même celles qui
sont rares dans la réalité, comme un enfant qui traverse la route au
dernier moment. De plus, la simulation permet la répétabilité des
scénarios. On peut ainsi rejouer autant de fois qu’on veut une scène
routière en modifiant les paramètres à chaque fois : les conditions
climatiques, l’état des capteurs, etc. », note Dominique Gruyer, de
MED TAOUFIK HOURIA / YASSINE OUALI 18
Machine Learning
l’Institut français des sciences et technologies des transports, de
l’aménagement et des réseaux (Ifsttar).
Reste que les simulateurs ne peuvent pas tout faire. Et même leurs
partisans estiment qu’on n’échappera pas de toute façon à une
validation finale des algorithmes, certes sur beaucoup moins de
kilomètres, mais en conditions réelles. « Difficile de battre la réalité pour
savoir si l’analyse des algos est juste. Des détails aussi fins que l’ombre
projetée d’un objet sur le sol ou le reflet d’un objet par un autre, très
difficiles à simuler, peuvent parfois réussir à tromper la machine »,
estime Fabien Moutarde. Pour le chercheur, la collecte massive de
données sera primordiale pour tester et améliorer en permanence les
algos et sur ce point, les millions de kilomètres déjà enregistrés par les
voitures de Google et de Tesla leur donnent aujourd’hui un avantage
décisif.
★ Valider les algos
Que ce soit sur simulateur, en conditions réelles ou les deux à la fois,
une chose est sûre : la validation des algorithmes devra être bien mieux
encadrée qu’elle ne l’est aujourd’hui. Actuellement en effet, il n’y a pas de
système d’évaluation standard, les constructeurs définissant leurs
propres critères. À l’avenir, tout comme il existe des normes de pollution
pour les véhicules, il faudra pouvoir comparer de manière quantifiée la
qualité des algos des différents constructeurs grâce à des jeux de
données standardisés.
Là en tout cas où tout le monde se rejoint, c’est sur l’objectif à atteindre :
faire baisser drastiquement la mortalité sur les routes. Aujourd’hui, en
France par exemple, une dizaine de personnes trouvent la mort pour
chaque milliard de kilomètres parcourus, du fait d’une erreur humaine
dans la très grande majorité des cas. Une fois les voitures sans
MED TAOUFIK HOURIA / YASSINE OUALI 19
Machine Learning
conducteur mises en circulation, on pense pouvoir diviser ce chiffre au
moins par dix.
Mais comment arriver à cet objectif (un mort pour un milliard de km
soit une probabilité de 10-9) sachant que même les meilleures méthodes
de machine learning, les algorithmes d’apprentissage profond (deep
learning) et leur fameux réseaux de neurones – les plus utilisés
aujourd’hui dans la voiture autonome –, se trompent dans leur
interprétation dans 1 % des cas (donc une erreur de 10-2) ?
Fusionner les algos et les données
La solution viendra de l’utilisation combinée d’algos qui fonctionneront
simultanément dans la voiture. De la même façon que les capteurs
embarqués, de nature différente, donneront des informations
complémentaires ou redondantes (lire article 1: « Voiture autonome : un
déluge de données à interpréter »), les algos aussi devront présenter une
certaine diversité pour augmenter la fiabilité. « L’idée est d’utiliser en
parallèle une approche deep learning, et une ou plusieurs autres
méthodes de machine learning, pour que chacune donne son
interprétation de l’environnement. De cette façon, les éventuelles erreurs
des divers algos ne concerneront pas les mêmes parties de la scène »,
note Fabien Moutarde. On peut par exemple utiliser une première
méthode pour détecter les obstacles et une seconde pour détecter
l’espace libre de navigation autour de la voiture : à elles deux, elles
fourniront une information plus robuste sur la trajectoire à prendre.
Mais cela ne sera pas suffisant : pour faire diminuer plus encore le taux
d’erreur des algorithmes d’apprentissage, il faudra fusionner les données
fournies par les différents capteurs.« La fusion consiste à mettre en
commun et à recouper les informations provenant de ces différentes
sources pour enrichir la représentation de l’environnement et améliorer
la fiabilité des données. Cela permet notamment d’augmenter la certitude
MED TAOUFIK HOURIA / YASSINE OUALI 20
Machine Learning
sur la présence ou non d’un obstacle et d’être plus précis sur sa position,
sa vitesse, son cap…», explique Dominique Gruyer.
Aujourd’hui, deux stratégies sont envisagées pour fusionner les
données. Une première consiste à combiner tardivement toutes les pistes
de détection des différents capteurs pour évaluer lesquelles sont les plus
plausibles. Une seconde vise à recouper les informations plus en amont.
Par exemple, si le lidar identifie un obstacle à un certain endroit, on
regarde plus finement à cet endroit l’image fournie par les caméras pour
confirmer ou non cet objet. Ou inversement. Cette dernière approche,
encore à l’état de recherche, semble plus faire l’unanimité car elle offre
davantage de flexibilité sur la manière de détecter les objets.
★ Gérer l’imprévisible
Mais à supposer qu’après toutes ces étapes, on arrive à créer une
voiture autonome suffisamment sûre, il resterait certaines situations
auxquelles elle ne pourrait pas faire face. Prenez par exemple la place de
l’Etoile à Paris aux heures de pointe. Quand bien même une voiture sans
pilote parviendrait parfaitement à décrypter le mouvement des autres
voitures conduites par des humains, il y a fort à parier qu’à un moment
donné elle n’arriverait plus du tout à avancer, les algorithmes de
planification lui imposant des marges de sécurité trop grandes pour se
frayer un chemin dans tout ce trafic.
C’est pour éviter ce genre de scénario que les chercheurs tentent
actuellement de développer d’autres algorithmes d’apprentissage, dits
par renforcement, auxquels on apprend non pas à reconnaître des objets
mais à faire le bon choix en fonction de ce qui passe autour de la voiture.
L’apprentissage se déroule là dans un simulateur : en multipliant les
situations de conduite et en répétant une même situation un très grand
nombre de fois, l’algo parvient à trouver la meilleure façon de se
comporter dans tel scénario. Une fois sur la route, la voiture déduira ainsi
MED TAOUFIK HOURIA / YASSINE OUALI 21
Machine Learning
directement des données envoyées par ses capteurs quel angle au volant
et quel freinage ou accélération il lui faudra appliquer. La méthode n’en
est encore qu’à ses balbutiements mais elle promet de rendre les voitures
intelligentes totalement autonomes. Patience !
IV. Conclusion :
L’apprentissage automatique offre des opportunités sans précédent
aux entreprises pour résoudre des problèmes complexes, améliorer
l’efficacité opérationnelle et innover dans leurs activités. En comprenant
les principes de base de l’apprentissage automatique et en considérant
les applications concrètes dans le monde réel, les entreprises peuvent
exploiter pleinement le potentiel de cette technologie transformative.
Cependant, il est essentiel de faire preuve de prudence et de considérer
les implications éthiques tout au long du processus d’adoption de
l’apprentissage automatique. En fin de compte, en intégrant
l’apprentissage automatique de manière réfléchie, les entreprises
peuvent obtenir un avantage concurrentiel significatif dans l’économie
numérique en évolution rapide.
MED TAOUFIK HOURIA / YASSINE OUALI 22