L'apprentissage automatique (machine learning en anglais) est un champ d'étude de l'intelligence
artificielle qui vise à donner aux machines la capacité d'« apprendre » à partir de données, via des
modèles mathématiques.
L’apprentissage supervisé est une sous-catégorie de l’apprentissage automatique et de l’intelligence
artificielle. Il est défini par son utilisation d’ensembles de données étiquetés pour former des
algorithmes qui permettent de classer les données ou de prédire les résultats avec précision.
L'objectif est de donner un sens aux données dans le contexte d’une question spécifique.
L’apprentissage supervisé est utilisé pour des problèmes de classification et de régression.
L'apprentissage supervisé
L’apprentissage supervisé est fait en utilisant une vérité, c’est-à-dire qu'on a une connaissance
préalable de ce que les valeurs de sortie pour nos échantillons devraient être. Par conséquent, le but
de ce type d'apprentissage est d’apprendre une fonction qui, compte tenu d’un échantillon de
données et de résultats souhaités, se rapproche le mieux de la relation entre les entrées et les sorties
observables dans les données.
Pour maîtriser l’apprentissage supervisé, il faut absolument comprendre et connaitre les 4 notions
suivantes :
• Le Dataset
• Le Modèle et ses paramètres
• La Fonction Coût
• L’Algorithme d’apprentissage
Notion 1 : Apprendre à partir d’exemples (Dataset)
Comme pour apprendre la langue chinoise, on parle d’apprentissage supervisé lorsque l’on fournit à
une machine beaucoup d’exemples (𝒙, 𝒚) dans le but de lui faire apprendre la relation qui relie 𝒙 à 𝒚.
En Machine Learning, on compile ces exemples (𝒙,𝒚) dans un tableau que l’on appelle Dataset :
• La variable 𝒚 porte le nom de target (la cible). C’est la valeur que l’on cherche à prédire.
• La variable 𝒙 porte le nom de feature (facteur). Un facteur influence la valeur de 𝒚, et on a en
général beaucoup de features (𝒙𝟏,𝒙𝟐,…) dans notre Dataset que l’on regroupe dans une matrice 𝑿.
Ci-dessous, un Dataset qui regroupe des exemples d’appartements avec leur prix 𝒚 ainsi que certaines
de leurs caractéristiques (features).
Ce Dataset, 99.9% des gens se contentent de l’analyser dans Excel. La bonne nouvelle, c’est que vous
ferez bientôt partie des 0.1% de gens qui peuvent faire du Machine Learning avec ça !
Notion 2 : Développer un modèle à partir du Dataset En Machine Learning
on développe un modèle à partir de ce Dataset. Il peut s’agir d’un modèle linéaire comme vous
pouvez le voir à gauche, ou bien un modèle non-linéaire comme vous pouvez le voir à droite. Nous
verrons dans ce livre comment choisir un modèle plutôt qu’un autre.
Notion 3 : Les erreurs de notre modèle - la Fonction Coût
Autre chose à noter est qu’un modèle nous retourne des erreurs par rapport à notre Dataset. On
appelle Fonction Coût l’ensemble de ces erreurs (le plus souvent on prend la moyenne quadratique
des erreurs comme dans le chapitre 2).
Allons droit au but : Avoir un bon modèle, c’est avoir un modèle qui nous donne de petites erreurs,
donc une petite Fonction Coût.
Notion 4 : Apprendre, c’est minimiser la Fonction Coût Ainsi l’objectif central en Supervised Learning,
c’est de trouver les paramètres du modèle qui minimisent la Fonction Coût. Pour cela, on utilise un
algorithme d’apprentissage, l’exemple le plus courant étant l’algorithme de Gradient Descent, que
vous apprendrez dans le chapitre 2.
Les applications du Supervised Learning Avec le Supervised Learning on peut développer des modèles
pour résoudre 2 types de problèmes :
• Les problèmes de Régression
• Les problèmes de Classification
Dans les problèmes de régression, on cherche à prédire la valeur d’une variable continue, c’est-à-dire
une variable qui peut prendre une infinité de valeurs. Par exemple :
• Prédire le prix d’un appartement (𝑦) selon sa surface habitable (𝑥)
• Prédire la quantité d’essence consommée (𝑦) selon la distance parcourue (𝑥)
Dans un problème de classification, on cherche à classer un objet dans différentes classes, c’est-à-dire
que l’on cherche à prédire la valeur d’une variable discrète (qui ne prend qu’un nombre fini de
valeurs). Par exemple :
• Prédire si un email est un spam (𝑐𝑙𝑎𝑠𝑠𝑒 𝑦 = 1) ou non (𝑐𝑙𝑎𝑠𝑠𝑒 𝑦 = 0) selon le nombre de liens
présent dans l’email (𝑥)
• Prédire si une tumeur est maligne (𝑦 = 1) ou bénigne (𝑦 = 0) selon la taille de la tumeur (𝒙𝟏) et l’âge
du patient (𝒙𝟐)
Dans le cas d’un problème de classification, on représente souvent les classes par des symboles,
plutôt que par leur valeur numérique (0, 1, …)
Mais tout ça, on peut le faire dans Excel ?
A ce stade, vous pourriez penser que calculer le prix d’un appartement selon sa surface habitable,
tout le monde peut le faire dans Excel (Il existe même la fonction Régression dans Excel). La force du
Machine Learning, c’est qu’il est très facile de développer des modèles très complexes qui peuvent
analyser des milliers de features (𝑥) qu’un être humain ne serait pas capable de prendre en compte
pour faire son calcul (et Excel non plus).
Par exemple, pour prédire le prix d’un appartement (𝑦), un modèle de Machine Learning peut
prendre en compte :
• sa surface (𝒙𝟏)
• sa localisation (𝒙𝟐)
• sa qualité (𝒙𝟑)
• sa proximité avec un parc (𝒙𝟒)
• etc
De même, pour prédire si un email est un spam (𝑦), le Machine Learning peut analyser :
• le nombre de liens (𝒙𝟏)
• le nombre de fautes d’orthographe (𝒙𝟐)
• etc.
Plus il y a de features disponibles, plus il existe d’informations pour que le modèle prenne des
décisions ‘intelligentes’, c’est l’intelligence artificielle.
Autres méthodes d’apprentissage Vous connaissez désormais l’apprentissage supervisé, qui s’inspire
de la façon dont nous, les êtres humains, pourrions apprendre une langue comme le chinois en
étudiant à l’aide d’un bouquin les associations français → chinois (𝑥→𝑦).
Pourtant, si vous vous perdez, seul, en Chine, sans bouquin, sans traducteur, il existe tout de même
une méthode pour apprendre le chinois. C’est l’apprentissage non-supervisé, et je vous dévoilerai
comment réussir cet exploit dans le chapitre 6.
Finalement, une 3ième méthode d’apprentissage assez populaire en robotique est l’apprentissage par
renforcement
Cette dernière méthode s’inspire de la façon dont nous éduquons nos animaux de compagnie, en leur
offrant une friandise quand ils font une bonne action. Cette méthode étant mathématiquement plus
avancée que les deux premières, je n’en parlerai pas dans ce livre, mais je vous invite à lire mon site si
vous souhaitez en savoir plus !
Les 4 notions clefs du Machine Learning que vous devez absolument retenir Le Machine Learning est
un domaine vaste et complexe, et de mon expérience les gens perdent parfois de vue l’essentiel,
même en suivant des formations payantes. Pour sortir du lot, il faut avoir les idées claires sur les
bases du Machine Learning. Vous devez ainsi retenir 4 notions essentielles, et vous verrez qu’elles
vous suivront dans tous vos projets de Machine Learning.
1. Le Dataset En Machine Learning, tout démarre d’un Dataset qui contient nos données. Dans
l’apprentissage supervisé, le Dataset contient les questions (𝑥) et les réponses (𝑦) au problème que la
machine doit résoudre.
2. Le modèle et ses paramètres A partir de ce Dataset, on crée un modèle, qui n’est autre qu’une
fonction mathématique. Les coefficients de cette fonction sont les paramètres du modèle.
3. La Fonction Coût Lorsqu’on teste notre modèle sur le Dataset, celui-ci nous donne des erreurs.
L’ensemble de ces erreurs, c’est ce qu’on appelle la Fonction Coût.
4. L’Algorithme d’apprentissage L’idée centrale du Machine Learning, c’est de laisser la machine
trouver quels sont les paramètres de notre modèle qui minimisent la Fonction Coût.