0% ont trouvé ce document utile (0 vote)
117 vues22 pages

Introduction au Machine Learning

Transféré par

yassine.ouali
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
117 vues22 pages

Introduction au Machine Learning

Transféré par

yassine.ouali
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Machine Learning

« Machine Learning »

Préparé par :
Med Taoufik Houria
Yassine Ouali

MED TAOUFIK HOURIA / YASSINE OUALI 1


Machine Learning

Table de matière :

I. introduction 4

II. Les types :

1. L’apprentissage non supervisé. 7

2. L’apprentissage supervisé. 9

3. L'apprentissage par renforcement. 11

III. Les applications :

1. Cyber security. 13

2. Chat Bot. 14

3. Conduite autonome. 16

IV. Conclusion 22

MED TAOUFIK HOURIA / YASSINE OUALI 2


Machine Learning

Sources :

[Link]

[Link]

[Link]

[Link]

[Link]

I. introduction :

MED TAOUFIK HOURIA / YASSINE OUALI 3


Machine Learning

Le Machine Learning ou apprentissage automatique est un domaine

scientifique, et plus particulièrement une sous-catégorie de l’intelligence

artificielle. Elle consiste à laisser des algorithmes découvrir des « patterns », à

savoir des motifs récurrents, dans les ensembles de données. Ces données

peuvent être des chiffres, des mots, des images, des statistiques… Tout ce qui

peut être stocké numériquement peut servir de données pour le Machine

Learning. En décelant les patterns dans ces données, les algorithmes

apprennent et améliorent leurs performances dans l’exécution d’une tâche

spécifique. Pour résumer, les algorithmes de Machine Learning apprennent de

manière autonome à effectuer une tâche ou à réaliser des prédictions à partir

de données et améliorent leurs performances au fil du temps. Une fois

entraîné, l’algorithme pourra retrouver les patterns dans de nouvelles

données.

● Comment fonctionne le Machine Learning ?

Le développement d’un modèle de Machine Learning repose sur quatre

étapes principales. En règle générale, c’est un Data Scientist qui gère et

supervise ce procédé.

La première étape consiste à sélectionner et à préparer un ensemble de

données d’entraînement. Ces données seront utilisées pour nourrir le modèle

de Machine Learning pour apprendre à résoudre le problème pour lequel il est

conçu.

Les données peuvent être étiquetées, afin d’indiquer au modèle les

caractéristiques qu’il devra identifier. Elles peuvent aussi être non étiquetées,

et le modèle devra repérer et extraire les caractéristiques récurrentes de lui-

même.

Dans les deux cas, les données doivent être soigneusement préparées,

organisées et nettoyées. Dans le cas contraire, l’entraînement du modèle de

Machine Learning risque d’être biaisé. Les résultats de ses futures prédictions

seront directement impactés.

MED TAOUFIK HOURIA / YASSINE OUALI 4


Machine Learning

La deuxième étape consiste à sélectionner un algorithme à exécuter sur

l’ensemble de données d’entraînement. Le type d’algorithme à utiliser dépend

du type et du volume de données d’entraînement et du type de problème à

résoudre.

La troisième étape est l’entraînement de l’algorithme. Il s’agit d’un

processus itératif. Des variables sont exécutées à travers l’algorithme, et les

résultats sont comparés avec ceux qu’il aurait du produire. Les » poids » et le

biais peuvent ensuite être ajustés pour accroître la précision du résultat.

On exécute ensuite de nouveau les variables jusqu’à ce que l’algorithme

produise le résultat correct la plupart du temps. L’algorithme, ainsi entraîné,

est le modèle de Machine Learning.

La quatrième et dernière étape est l’utilisation et l’amélioration du

modèle. On utilise le modèle sur de nouvelles données, dont la provenance

dépend du problème à ré[Link] exemple, un modèle de Machine Learning

conçu pour détecter les spams sera utilisé sur des emails.

De son côté, le modèle de Machine Learning d’un aspirateur robot ingère

des données résultant de l’interaction avec le monde réel comme le

déplacement de meubles ou l’ajout de nouveaux objets dans la pièce.

L’efficacité et la précision peuvent également s’accroître au fil du temps.

● Quels sont les principaux algorithmes de Machine Learning ?

Il existe une large variété d’algorithmes de Machine Learning. Certains

sont toutefois plus couramment utilisés que d’autres. Tout d’abord, différents

algorithmes sont utilisés pour les données étiquetées.

Les algorithmes de régression, linéaire ou logistique, permettent de

comprendre les relations entre les données. La régression linéaire est utilisée

pour prédire la valeur d’une variable dépendante base sur la valeur d’une

variable indépendante. Il s’agirait par exemple de prédire les ventes annuelles

d’un commercial en fonction de son niveau d’études ou de son expérience.

MED TAOUFIK HOURIA / YASSINE OUALI 5


Machine Learning

La régression logistique est quant à elle utilisée quand les variables

dépendantes sont binaires. Un autre type d’algorithme de régression appelé

machine à vecteur de support est pertinent quand les variables dépendantes

sont plus difficiles à classifier.

Un autre algorithme ML populaire est l’arbre de décision. Cet algorithme

permet d’établir des recommandations basées sur un ensemble de règles de

décisions en se basant sur des données classifiées. Par exemple, il est possible

de recommander sur quelle équipe de football parier en se basant sur des

données telles que l’âge des joueurs ou le pourcentage de victoire de l’équipe.

Pour les données non étiquetées, on utilise souvent les algorithmes de «

clustering ». Cette méthode consiste à identifier les groupes présentant des

enregistrements similaires et à étiqueter ces enregistrements en fonction du

groupe auquel ils appartiennent.

Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi

les algorithmes de clustering, on compte les K-moyennes, le TwoStep ou encore

le Kohonen.

Les algorithmes d’association permettent quant à eux de découvrir des

patterns et des relations dans les données, et à identifier les relations » si /

alors » appelées » règles d’association « . Ces règles sont similaires à celles

utilisées dans le domaine du Data Mining ou forage de données.

Enfin, les réseaux de neurones sont des algorithmes se présentant sous

la forme d’un réseau à plusieurs couches. La première couche permet

l’ingestion des données, une ou plusieurs couches cachées tirent des

conclusions à partir des données ingérées, et la dernière couche assigne une

probabilité à chaque conclusion.

Un réseau de neurones « profond » est composé de multiples couches

cachées permettant chacune de raffiner les résultats de la précédente. On

l’utilise dans le domaine du Deep Learning.

MED TAOUFIK HOURIA / YASSINE OUALI 6


Machine Learning

II. Les types :


● L’apprentissage non supervisé :

L’apprentissage non supervisé est une branche du machine

learning, caractérisée par l’analyse et le regroupement de données

non-étiquetées. Pour cela, ces

algorithmes apprennent à

trouver des schémas ou des

groupes dans les données, avec

très peu d’intervention humaine.

En termes mathématiques,

l’apprentissage non supervisé

implique l’observation de

plusieures occurrences d’un

vecteur X et l’apprentissage de la probabilité de distribution p(X) pour

ces occurrences.

Cette méthode est en contraste avec l’apprentissage supervisé, dans

lequel le modèle reçoit des données d'entraînement étiquetées, à partir

desquelles il doit apprendre. Ainsi, les modèles d’apprentissage

supervisé et non supervisé diffèrent sur la base de leurs données

d’entrée. En effet, un modèle d’apprentissage supervisé utilise des

données d’entrée et de sortie étiquetées, alors qu’un modèle

d’apprentissage non supervisé apprend à partir de données

d'entraînement non-étiquetées, afin de faire des prédictions sur la

classification des points. Par conséquent, avec un modèle

d’apprentissage non supervisé, le but est d’obtenir un aperçu à partir

d’une grande quantité de données, contrairement à un modèle

d’apprentissage supervisé, pour lequel le but est de prédire la valeur

de sortie pour de nouvelles données.

MED TAOUFIK HOURIA / YASSINE OUALI 7


Machine Learning

Si vous souhaitez en savoir plus sur l’apprentissage supervisé et ses

différentes méthodes, veuillez consulter les articles précédents dédiés

à ce sujet.

Deux types de problèmes d’apprentissage non supervisé:

On peut considérer l’apprentissage non supervisé comme étant séparé

en deux catégories :

● le clustering et l’association.

Le clustering est une technique d’apprentissage non supervisé, qui

regroupe des données non-étiquetées en fonction de leurs similarités

et de leurs différences. Ainsi, les points sont rassemblés dans des

groupes (ou des clusters) de telle manière à ce que les points au sein

d’un même groupe soient le plus similaire possible, pendant que les

points dans des groupes différents soient les plus différents possible.

MED TAOUFIK HOURIA / YASSINE OUALI 8


Machine Learning

Pour cela, une analyse de cluster identifie les caractéristiques, au

sein des données, et groupe les points en fonction de la présence ou de

l’absence de ces caractéristiques. Parmi les méthodes de clustering, on

trouve la méthode des k-moyennes (ou k-means), la classification

hiérarchique (ou hierarchical clustering) ou encore la classification

probabilistique (ou probabilistic clustering).

D’un autre côté, les règles d’association sont une autre forme

d’apprentissage non supervisé, qui identifie une relation entre les

points de données. En d’autres termes, ces algorithmes trouvent les

points qui apparaissent ensemble dans les données. Ces méthodes

sont souvent utilisées pour l’analyse du panier de consommation, qui

permet aux compagnies de comprendre la relation entre l’achat de

différents produits. En effet, cela permet d’établir une relation de la

forme suivante : « Les individus qui achètent le produit X ont également

tendance à acheter le produit Y ». Parmi les algorithmes d’association,

on trouve l’algorithme Apriori, l’algorithme Eclat et l’algorithme FP-

growth.

Il existe divers algorithmes d’apprentissage non supervisé que nous

allons explorer dans le prochain article.

● L’apprentissage supervisé :

L'apprentissage supervisé, également appelé apprentissage

automatique supervisé, est une sous-catégorie de l'apprentissage

automatique et de l'intelligence artificielle. Il se caractérise par

l'utilisation de jeux de données étiquetés qui entraînent des algorithmes

permettant de classer des données ou de prédire des résultats avec

précision. Au fur et à mesure que les données en entrée sont introduites

dans le modèle, celui-ci ajuste ses pondérations jusqu'à ce que le modèle

soit correctement ajusté. C'est le processus de validation croisée. Avec

l'apprentissage supervisé, les organisations peuvent résoudre divers

MED TAOUFIK HOURIA / YASSINE OUALI 9


Machine Learning

problèmes du monde réel à grande échelle, comme la classification des

courriers indésirables dans un dossier distinct de votre boîte de

réception.

Fonctionnement de l'apprentissage supervisé:

L'apprentissage supervisé utilise un jeu d'entraînement pour

apprendre aux modèles à produire les résultats souhaités. Ce jeu de

données d'apprentissage comprend des entrées et des sorties correctes,

qui permettent au modèle d'apprendre au fil du temps. L'algorithme

mesure sa précision par le biais de la fonction de perte, et s'ajuste

jusqu'à ce que l'erreur soit suffisamment minimisée.

L'apprentissage supervisé peut être divisé en deux types de problèmes

lors de l'extraction de données, à savoir la classification et la régression :

La classification utilise un algorithme pour classer avec précision les

données de test dans des catégories spécifiques. Elle reconnaît des

entités spécifiques dans l'ensemble de données et tente de tirer des

MED TAOUFIK HOURIA / YASSINE OUALI 10


Machine Learning

conclusions sur la façon dont ces entités doivent être étiquetées ou

définies. Les algorithmes de classification courants sont les

classificateurs linéaires, les machines à vecteurs de support (SVM), les

arbres de décision, les k plus proches voisins (k-NN) et les forêts

aléatoires, qui sont décrits plus en détail ci-dessous.

La régression est utilisée pour comprendre la relation entre les

variables dépendantes et indépendantes. Elle est couramment utilisée

pour faire des projections, par exemple, sur le chiffre d'affaires d'une

entreprise. La régression linéaire, la régression logistique et la régression

polynomiale sont des algorithmes de régression couramment utilisés.

● L'apprentissage par renforcement :

L'apprentissage par renforcement (RL) est une technique de

machine learning (ML) qui entraîne les logiciels à prendre des décisions

en vue d'obtenir les meilleurs résultats. Elle imite le processus

d'apprentissage par tâtonnements employé par les êtres humains pour

atteindre leurs objectifs. Les actions logicielles qui contribuent à la

réalisation de votre objectif sont renforcées, tandis que les actions qui

nuisent à celle-ci sont ignorées.

Les algorithmes de RL utilisent un paradigme de récompense et de

punition lorsqu'ils traitent les données. Ils apprennent du retour

d'information de chaque action et découvrent par eux-mêmes les

chemins de traitement optimaux pour atteindre les résultats finaux. Les

algorithmes sont également capables de différer la gratification. La

meilleure stratégie globale peut exiger des sacrifices à court terme ; ainsi,

l'approche la plus efficace qu'ils découvrent peut inclure des punitions ou

des retours en arrière. Le RL est une méthode puissante qui aide les

systèmes d'intelligence artificielle (IA) à obtenir des résultats optimaux

dans des environnements invisibles.

MED TAOUFIK HOURIA / YASSINE OUALI 11


Machine Learning

○ Les avantages :

★ Excelle dans les environnements complexes.

★ Les algorithmes de RL peuvent être utilisés dans des

environnements complexes comportant de nombreuses règles et

dépendances. Dans un même environnement, un être humain n'est

pas toujours capable de déterminer le meilleur chemin à suivre,

même s'il possède une connaissance supérieure de cet

environnement. En revanche, les algorithmes de RL sans modèle

s'adaptent rapidement aux environnements en constante évolution

et trouvent de nouvelles stratégies pour optimiser les résultats.

★ Nécessite moins d'interactions humaines.

Dans les algorithmes de ML classiques, un être humain doit

étiqueter les paires de données pour guider l'algorithme ; ce processus

n'est pas nécessaire avec un algorithme de RL, car il apprend seul. Dans le

même temps, il propose des mécanismes permettant d'intégrer des

commentaires humains qui aident à créer des systèmes s'adaptant aux

préférences, à l'expertise et aux corrections humaines.

Optimiser les actions pour atteindre des objectifs à long terme

Le RL se concentre intrinsèquement sur la maximisation des récompenses


à long terme, ce qui le rend idéal dans les scénarios où les actions ont

des conséquences prolongées. Il est adapté aux situations réelles où

chaque étape n'est pas immédiatement commentée, car l'algorithme peut

apprendre des récompenses différées.

Par exemple, les décisions relatives à la consommation ou au stockage

d'énergie peuvent avoir des conséquences à long terme : il est possible

d'utiliser le RL pour optimiser l'efficacité énergétique et les coûts à long

terme. Avec des architectures adéquates, les agents de RL peuvent aussi

généraliser leurs stratégies apprises sur des tâches similaires mais non

identiques.

MED TAOUFIK HOURIA / YASSINE OUALI 12


Machine Learning

III. Les applications :


● La cybersécurité :

Le big data est devenu une manne attisant toutes les convoitises,

surtout celles des hackers. Les cyberattaques se multiplient et se

complexifient, à tel point que l’analyse des données massives dans des

temps très courts par des personnes est devenu impossible. Cela

réclamerait un trop lourd investissement financier et humain. En

revanche, l’IA et le machine learning ont cette capacité à analyser des

masses de données, en temps réel, sans souffrir de la faiblesse des

erreurs humaines. Ces dernières se résument le plus souvent à des erreurs

de jugement principalement dues à la fatigue et à la baisse de la

concentration.

Pour faire court, utiliser le machine learning dans la cybersécurité

permet de :

★ réduire l’erreur humaine ;

★ soulager les équipes de sécurité ;

★ proposer des conseils opportuns sur les derniers problèmes

détectés ;

★ automatiser des tâches répétitives ;

★ d’éviter la fatigue décisionnelle de l’humain due à un flux

élevé d’alertes ;

réduire le temps de réponse en cas de menace grâce à sa

surveillance continue et en temps réel ;

identifier et anticiper les nouvelles menaces (analyse prédictive).

● Comment le machine learning s’intègre-t-il dans la cybersécurité ?

« Le machine learning excelle dans les tâches pénibles telles que

l’identification et l’adaptation des schémas de données » (Kaspersky) et il

s’intègre dans la cybersécurité à différents niveaux :

MED TAOUFIK HOURIA / YASSINE OUALI 13


Machine Learning

★ identification et classification des logiciels malveillants par

analyse statique et dynamique ;

★ apprentissage automatique contradictoire pour contrer les

cyberattaques conçues pour tromper le modèle ;

★ analyse du trafic réseau et détection d’une anomalie en temps réel ;

★ tests d’intrusion réseau et gestion des vulnérabilités ;

analyse et prédiction du comportement des utilisateurs et des entités :

★ détection précoce des tentatives de phishing.

Également, comme le soulignent G. Apruzzes et al. (2023) dans leur article,

le machine learning peut remplir quatre autres tâches importantes : la

gestion des alertes, l’analyse des données brutes, l’évaluation de

l’exposition au risque et le renseignement sur les cybermenaces.

● Chat Bot :

L'apprentissage automatique est une méthode d'analyse de

données qui automatise la création de modèles analytiques. Il s'agit

d'une branche de l’intelligence artificielle basée sur l’idée que les

systèmes peuvent apprendre de données, identifier des modèles et

prendre des décisions avec une intervention humaine [Link] que


la notion d'apprentissage automatique englobe une vaste gamme

d'approches et de techniques différentes, la plupart d'entre elles sont

sous-jacentes aux statistiques. Cela permet aux algorithmes de faire des

prédictions basées sur l'extraction de modèles à partir de données

d'entrée incomplètes et souvent bruité[Link] sein de l’apprentissage

automatique, les réseaux de neurones artificiels ont acquis une position

dominante et ont été inspirés au départ par les réseaux de neurones

connectés trouvés dans le cerveau humain et animal. Ces réseaux de

neurones permettent l'entrainement d'un chatbot de manière

automatique en le nourrissant de donné[Link] effet, pour former un réseau

de neurones artificiels, la meilleure façon de faire est de laisser le

MED TAOUFIK HOURIA / YASSINE OUALI 14


Machine Learning

système deviner, de recevoir un retour d'informations et de deviner, en

changeant continuellement les probabilités, quelle

approche permet d'obtenir la bonne ré[Link] tant

que systèmes inspirés du cerveau et conçus pour

reproduire la façon dont les humains apprennent, les

réseaux de neurones modifient leur code pour trouver le

lien entre input et output dans des situations où cette

relation est complexe ou peu claire. Ils sont très utiles pour

l'apprentissage automatique de votre chatbot

Le deep learning : L'entrainement d'un chatbot nouvelle génération

Au cours de cette décennie, les réseaux de neurones artificiels ont tiré

parti de l’apprentissage en profondeur (deep learning), qui augmente la

«profondeur» des différentes couches du réseau afin d’en extraire

différentes caractéristiques jusqu’à ce que le réseau puisse reconnaître

ce qu’il [Link] que les progrès de l’apprentissage automatique

aient fait appel à de nombreuses mathématiques complexes et à de

nouveaux algorithmes, ils nécessitent souvent d’énormes quantités de

données d’entrée et, partant, d’énormes quantités de puissance de calcul.

Vous l'aurez compris, plus vous aurez de données, meilleur sera


l'entrainement de votre [Link] processeurs et des GPUs plus rapides

sont venus à la rescousse. L’une des principales raisons pour lesquelles

l’intelligence artificielle est si importante tient au fait que c’est seulement

au cours des dernières années que le coût du traitement d’une quantité

aussi importante de données est devenu [Link] n'est que vers la fin

des années 2000 que les chercheurs ont compris que les unités de

traitement graphique (GPU), développées pour les graphismes et les jeux

3D, étaient 20 à 50 fois plus performantes pour traiter des tâches

d'intelligence artificielle que les processeurs [Link] une fois que

les gens l'ont compris, la quantité de puissance de calcul disponible a

considérablement augmenté, permettant ainsi aux plates-formes d'IA

MED TAOUFIK HOURIA / YASSINE OUALI 15


Machine Learning

dans le cloud d'alimenter de nombreux services innovants tels que les

[Link] que vous en savez plus sur les technologies

complexes à l'œuvre, vous pouvez en apprendre plus sur combien coûte

un chatbot en lisant cet article. N'oubliez pas qu'il est crucial de bien

tester son chatbot pour que l'entrainement de celui-ci soit optimal !Pour

plus d'informations sur comment entrainer son chatbot

● Conduite autonome :

Au cœur de la voiture autonome, on trouve les mêmes algorithmes

d’apprentissage automatique que

ceux utilisés pour la classification

des images ou la reconnaissance

de la parole. Mais avant de

pouvoir embarquer dans le

véhicule, ces algos font l’objet de

tests stricts. Sécurité oblige.

Certes, la voiture totalement autonome n’existe pas encore. Mais les

véhicules n’ont cessé de gagner en

autonomie ces dernières années.

La raison principale ? Les progrès fulgurants accomplis en matière


d’intelligence artificielle, en particulier par certains algorithmes, dits de

machine learning. Ces méthodes d’apprentissage automatique, basées

sur l’exemple, sont notamment utilisées pour la reconnaissance des

visages sur les photos. Désormais, elles se retrouvent au cœur du

fonctionnement des voitures sans pilote.

★ Détecter, identifier, classer…

« Ces algos permettent de donner un sens aux données issues de capteurs

en fournissant une représentation détaillée de l’environnement autour de

la voiture », explique Fabien Moutarde, du centre de robotique de MINES

ParisTech. À partir des images des caméras, ils sont chargés de détecter

MED TAOUFIK HOURIA / YASSINE OUALI 16


Machine Learning

tous les obstacles et de les classer par catégories (piétons, vélos, motos,

bus, camions…) ; d’identifier les panneaux de signalisation et de lire leur

contenu ; de savoir quand un feu passe au vert ou au rouge ; de faire la

distinction entre la route et le bas-côté ; de repérer les différentes

configurations de la route (intersections, ronds-points…) ou encore les

différents types de marquages au sol. Idem pour les données des radars

et des lidars, elles aussi interprétées par du machine learning.

Cette connaissance de l’environnement vient ensuite alimenter d’autres

algorithmes déterministes cette fois, basés sur des règles. Sachant où se

trouvent les obstacles et leur type, et prédisant leur positions futures, ces

algos de planification décident de la manœuvre la plus sûre à exécuter, et

cela dans le respect du Code de la route.

Mais avant de pouvoir monter à bord d’une voiture, les algos

d’apprentissage doivent d’abord faire la preuve de leur efficacité en

laboratoire. Dans un premier temps, on les entraîne sur un vaste jeu de

données collectées par les capteurs dans de multiples conditions de

circulation : sur autoroute, nationale, route rurale, périphérique, en ville,

sous différentes conditions météo ou avec plus ou moins de trafic, etc.

Sur des millions d’images réunissant plusieurs milliers de catégories


d’objets, les algos apprennent ainsi à les détecter et à les classifier. Cet

apprentissage se fait de façon supervisée : sur chaque image, on a

indiqué au préalable où se trouve chaque objet et de quel type il s’agit –

ce qu’on appelle la labellisation.

★ Être entrainés pour apprendre

Dans cet exercice d’entraînement des algos, la diversité des données est

la clé. « La base de données doit être la plus représentative de tous les

cas de figure possibles, sans quoi on passera forcément à côté d’une

détection une fois la voiture sur la route. Par exemple, pour les piétons, il

est important d’avoir une large palette de couleurs de vêtements, de

MED TAOUFIK HOURIA / YASSINE OUALI 17


Machine Learning

corpulence ou encore d’orientation (face, profil, etc.). Il faut donc garantir

cette diversité au moment de constituer sa base de données », précise

Fabien Moutarde.

Une précaution d’autant plus importante que d’un pays à un autre, la

voiture devra faire face à des situations nouvelles, comme des panneaux

de signalisation complètement différents. Les algorithmes doivent donc

être adaptés à un pays donné ou à une géographie donnée.

Une fois l’entraînement terminé et les algorithmes jugés suffisamment

performants dans leurs détections – on vise un taux de réussite supérieur

à 90 % -, il n’est toujours pas question de les embarquer dans la voiture.

Ils doivent d’abord passer l’étape de la validation. Cette fois, les algos

sont testés sur des données plus nombreuses encore et différentes de

celles sur lesquelles ils ont été entraînés. Il s’agit ainsi de vérifier leur

capacité à extrapoler dans des situations nouvelles et à pointer du doigt

des cas dans lesquels ils peuvent mis en difficulté.

★ Rejouer la scène encore et encore

Le nombre de scénarios à valider est colossal : les spécialistes estiment

qu’à terme les tests devront porter sur l’équivalent de 10 milliards de


kilomètres parcourus ! Autant de données qu’il faudra non seulement

collecter mais aussi labelliser. Devant l’ampleur de la tâche, certains

privilégient une autre approche : la simulation. « L’avantage de la

simulation est qu’il est possible de reproduire dans un environnement

contrôlé toutes les situations dangereuses et critiques, même celles qui

sont rares dans la réalité, comme un enfant qui traverse la route au

dernier moment. De plus, la simulation permet la répétabilité des

scénarios. On peut ainsi rejouer autant de fois qu’on veut une scène

routière en modifiant les paramètres à chaque fois : les conditions

climatiques, l’état des capteurs, etc. », note Dominique Gruyer, de

MED TAOUFIK HOURIA / YASSINE OUALI 18


Machine Learning

l’Institut français des sciences et technologies des transports, de

l’aménagement et des réseaux (Ifsttar).

Reste que les simulateurs ne peuvent pas tout faire. Et même leurs

partisans estiment qu’on n’échappera pas de toute façon à une

validation finale des algorithmes, certes sur beaucoup moins de

kilomètres, mais en conditions réelles. « Difficile de battre la réalité pour

savoir si l’analyse des algos est juste. Des détails aussi fins que l’ombre

projetée d’un objet sur le sol ou le reflet d’un objet par un autre, très

difficiles à simuler, peuvent parfois réussir à tromper la machine »,

estime Fabien Moutarde. Pour le chercheur, la collecte massive de

données sera primordiale pour tester et améliorer en permanence les

algos et sur ce point, les millions de kilomètres déjà enregistrés par les

voitures de Google et de Tesla leur donnent aujourd’hui un avantage

décisif.

★ Valider les algos

Que ce soit sur simulateur, en conditions réelles ou les deux à la fois,

une chose est sûre : la validation des algorithmes devra être bien mieux

encadrée qu’elle ne l’est aujourd’hui. Actuellement en effet, il n’y a pas de

système d’évaluation standard, les constructeurs définissant leurs


propres critères. À l’avenir, tout comme il existe des normes de pollution

pour les véhicules, il faudra pouvoir comparer de manière quantifiée la

qualité des algos des différents constructeurs grâce à des jeux de

données standardisés.

Là en tout cas où tout le monde se rejoint, c’est sur l’objectif à atteindre :

faire baisser drastiquement la mortalité sur les routes. Aujourd’hui, en

France par exemple, une dizaine de personnes trouvent la mort pour

chaque milliard de kilomètres parcourus, du fait d’une erreur humaine

dans la très grande majorité des cas. Une fois les voitures sans

MED TAOUFIK HOURIA / YASSINE OUALI 19


Machine Learning

conducteur mises en circulation, on pense pouvoir diviser ce chiffre au

moins par dix.

Mais comment arriver à cet objectif (un mort pour un milliard de km

soit une probabilité de 10-9) sachant que même les meilleures méthodes

de machine learning, les algorithmes d’apprentissage profond (deep

learning) et leur fameux réseaux de neurones – les plus utilisés

aujourd’hui dans la voiture autonome –, se trompent dans leur

interprétation dans 1 % des cas (donc une erreur de 10-2) ?

Fusionner les algos et les données

La solution viendra de l’utilisation combinée d’algos qui fonctionneront

simultanément dans la voiture. De la même façon que les capteurs

embarqués, de nature différente, donneront des informations

complémentaires ou redondantes (lire article 1: « Voiture autonome : un

déluge de données à interpréter »), les algos aussi devront présenter une

certaine diversité pour augmenter la fiabilité. « L’idée est d’utiliser en

parallèle une approche deep learning, et une ou plusieurs autres

méthodes de machine learning, pour que chacune donne son

interprétation de l’environnement. De cette façon, les éventuelles erreurs

des divers algos ne concerneront pas les mêmes parties de la scène »,


note Fabien Moutarde. On peut par exemple utiliser une première

méthode pour détecter les obstacles et une seconde pour détecter

l’espace libre de navigation autour de la voiture : à elles deux, elles

fourniront une information plus robuste sur la trajectoire à prendre.

Mais cela ne sera pas suffisant : pour faire diminuer plus encore le taux

d’erreur des algorithmes d’apprentissage, il faudra fusionner les données

fournies par les différents capteurs.« La fusion consiste à mettre en

commun et à recouper les informations provenant de ces différentes

sources pour enrichir la représentation de l’environnement et améliorer

la fiabilité des données. Cela permet notamment d’augmenter la certitude

MED TAOUFIK HOURIA / YASSINE OUALI 20


Machine Learning

sur la présence ou non d’un obstacle et d’être plus précis sur sa position,

sa vitesse, son cap…», explique Dominique Gruyer.

Aujourd’hui, deux stratégies sont envisagées pour fusionner les

données. Une première consiste à combiner tardivement toutes les pistes

de détection des différents capteurs pour évaluer lesquelles sont les plus

plausibles. Une seconde vise à recouper les informations plus en amont.

Par exemple, si le lidar identifie un obstacle à un certain endroit, on

regarde plus finement à cet endroit l’image fournie par les caméras pour

confirmer ou non cet objet. Ou inversement. Cette dernière approche,

encore à l’état de recherche, semble plus faire l’unanimité car elle offre

davantage de flexibilité sur la manière de détecter les objets.

★ Gérer l’imprévisible

Mais à supposer qu’après toutes ces étapes, on arrive à créer une

voiture autonome suffisamment sûre, il resterait certaines situations

auxquelles elle ne pourrait pas faire face. Prenez par exemple la place de

l’Etoile à Paris aux heures de pointe. Quand bien même une voiture sans

pilote parviendrait parfaitement à décrypter le mouvement des autres

voitures conduites par des humains, il y a fort à parier qu’à un moment

donné elle n’arriverait plus du tout à avancer, les algorithmes de


planification lui imposant des marges de sécurité trop grandes pour se

frayer un chemin dans tout ce trafic.

C’est pour éviter ce genre de scénario que les chercheurs tentent

actuellement de développer d’autres algorithmes d’apprentissage, dits

par renforcement, auxquels on apprend non pas à reconnaître des objets

mais à faire le bon choix en fonction de ce qui passe autour de la voiture.

L’apprentissage se déroule là dans un simulateur : en multipliant les

situations de conduite et en répétant une même situation un très grand

nombre de fois, l’algo parvient à trouver la meilleure façon de se

comporter dans tel scénario. Une fois sur la route, la voiture déduira ainsi

MED TAOUFIK HOURIA / YASSINE OUALI 21


Machine Learning

directement des données envoyées par ses capteurs quel angle au volant

et quel freinage ou accélération il lui faudra appliquer. La méthode n’en

est encore qu’à ses balbutiements mais elle promet de rendre les voitures

intelligentes totalement autonomes. Patience !

IV. Conclusion :

L’apprentissage automatique offre des opportunités sans précédent

aux entreprises pour résoudre des problèmes complexes, améliorer

l’efficacité opérationnelle et innover dans leurs activités. En comprenant

les principes de base de l’apprentissage automatique et en considérant

les applications concrètes dans le monde réel, les entreprises peuvent

exploiter pleinement le potentiel de cette technologie transformative.

Cependant, il est essentiel de faire preuve de prudence et de considérer

les implications éthiques tout au long du processus d’adoption de

l’apprentissage automatique. En fin de compte, en intégrant

l’apprentissage automatique de manière réfléchie, les entreprises

peuvent obtenir un avantage concurrentiel significatif dans l’économie

numérique en évolution rapide.

MED TAOUFIK HOURIA / YASSINE OUALI 22

Vous aimerez peut-être aussi