e
3é
3é
3e édition
Apprentissage
dit
dit
ion
ion
artificiel Antoine Cornuéjols
Laurent Miclet - Vincent Barra
Apprentissage artificiel
Apprentissage
Antoine Cornuéjols Les programmes d’intelligence artificielle sont aujourd’hui
est professeur à capables de reconnaître des commandes vocales, d’analyser
AgroParisTech. automatiquement des photos satellites, d’assister des experts
Il enseigne pour prendre des décisions dans des environnements complexes et
l’apprentissage évolutifs (analyse de marchés financiers, diagnostics médicaux...),
artificiel dans plusieurs de fouiller d’immenses bases de données hétérogènes, telles les
grandes écoles et en innombrables pages du Web...
Master. Ses recherches
artificiel
portent notamment sur Pour réaliser ces tâches, ils sont dotés de modules d’apprentissage
l’apprentissage en ligne, leur permettant d’adapter leur comportement à des situations
l’apprentissage à partir jamais rencontrées, ou d’extraire des lois à partir de bases
de flux de données ainsi de données d’exemples. Ce livre présente les concepts qui
que sur des applications sous-tendent l’apprentissage artificiel, les algorithmes qui en
en bio-informatique et découlent et certaines de leurs applications. Son objectif est de
sciences du vivant. décrire un ensemble d’algorithmes utiles en tentant d’établir un
cadre théorique pour l’ensemble des techniques regroupées sous
Laurent Miclet est ce terme « d’apprentissage artificiel ».
professeur émérite
d’informatique à l’Enssat, La troisième édition de ce livre a été complètement réorganisée
où il a en particulier
enseigné l’algorithmique.
Son domaine de
pour s’adapter aux évolutions très significatives de l’apprentissage
artificiel ces dernières années. Une large place y est accordée
aux techniques d’apprentissage profond et à de nouvelles
Deep learning, concepts
et algorithmes
recherche est applications, incluant le traitement de flux de données.
l’intelligence artificielle
et l’apprentissage À qui s’adresse ce livre ?
automatique.
Ce livre s’adresse tant aux décideurs et aux
Vincent Barra est ingénieurs qui souhaitent mettre au point des
professeur d’informatique applications qu’aux étudiants de niveau Master 1 et 2
à l’université Clermont et en école d’ingénieurs, qui souhaitent un ouvrage
Auvergne, où il enseigne de référence sur ce domaine clé de l’intelligence
: 978-2-212-67522-1
artificielle.
ISBN : 978-2-212-67522-1
l’apprentissage artificiel
Code éditeur : G67522
éditeur : G67522
et le traitement d’images
Sommaire
56 €
en école d’ingénieurs et
en Master. Ses activités Des machines apprenantes ! • L’induction exploitant la structure
A. Cornuéjols
de recherche portent de l’espace des hypothèses • L’induction par optimisation
sur l’analyse de données d’un système inductif • L’induction par comparaison à des
n-dimensionnelles,
Code
L. Miclet
V. Barra
avec des volets
ISBN
e
3é
3é
3e édition
Apprentissage
dit
dit
ion
ion
artificiel Antoine Cornuéjols
Laurent Miclet - Vincent Barra
Apprentissage artificiel
Apprentissage
Antoine Cornuéjols Les programmes d’intelligence artificielle sont aujourd’hui
est professeur à capables de reconnaître des commandes vocales, d’analyser
AgroParisTech. automatiquement des photos satellites, d’assister des experts
Il enseigne pour prendre des décisions dans des environnements complexes et
l’apprentissage évolutifs (analyse de marchés financiers, diagnostics médicaux...),
artificiel dans plusieurs de fouiller d’immenses bases de données hétérogènes, telles les
grandes écoles et en innombrables pages du Web...
Master. Ses recherches
artificiel
portent notamment sur Pour réaliser ces tâches, ils sont dotés de modules d’apprentissage
l’apprentissage en ligne, leur permettant d’adapter leur comportement à des situations
l’apprentissage à partir jamais rencontrées, ou d’extraire des lois à partir de bases
de flux de données ainsi de données d’exemples. Ce livre présente les concepts qui
que sur des applications sous-tendent l’apprentissage artificiel, les algorithmes qui en
en bio-informatique et découlent et certaines de leurs applications. Son objectif est de
sciences du vivant. décrire un ensemble d’algorithmes utiles en tentant d’établir un
cadre théorique pour l’ensemble des techniques regroupées sous
Laurent Miclet est ce terme « d’apprentissage artificiel ».
professeur émérite
d’informatique à l’Enssat, La troisième édition de ce livre a été complètement réorganisée
où il a en particulier
enseigné l’algorithmique.
Son domaine de
pour s’adapter aux évolutions très significatives de l’apprentissage
artificiel ces dernières années. Une large place y est accordée
aux techniques d’apprentissage profond et à de nouvelles
Deep learning, concepts
et algorithmes
recherche est applications, incluant le traitement de flux de données.
l’intelligence artificielle
et l’apprentissage À qui s’adresse ce livre ?
automatique.
Ce livre s’adresse tant aux décideurs et aux
Vincent Barra est ingénieurs qui souhaitent mettre au point des
professeur d’informatique applications qu’aux étudiants de niveau Master 1 et 2
à l’université Clermont et en école d’ingénieurs, qui souhaitent un ouvrage
Auvergne, où il enseigne de référence sur ce domaine clé de l’intelligence
artificielle.
ISBN : 978-2-212-67522-1
l’apprentissage artificiel
Code éditeur : G67522
et le traitement d’images
Sommaire
56 €
en école d’ingénieurs et
en Master. Ses activités Des machines apprenantes ! • L’induction exploitant la structure
A. Cornuéjols
de recherche portent de l’espace des hypothèses • L’induction par optimisation
sur l’analyse de données d’un système inductif • L’induction par comparaison à des
n-dimensionnelles, exemples (et par collaboration) • L’apprentissage descriptif •
L. Miclet
V. Barra
avec des volets Apprentissage en environnement et non stationnaire • Aspects
méthodologiques et pratiques et suppléments • Annexes et bibliographie
applicatifs dans divers
domaines.
Antoine Cornuéjols
Laurent Miclet - Vincent Barra
Apprentissage
artificiel
Deep learning, concepts
et algorithmes
3e édition
Éditions Eyrolles
61, bd Saint-Germain
75240 Paris Cedex 05
[Link]
2010, il fut immédiatement évident qu’une profonde réorganisation de l’ouvrage avec l’ajout de
thèmes récents était souhaitable sinon nécessaire.
La nouvelle édition que vous avez entre les mains fait donc naturellement une large place aux
réseaux de neurones profonds, alors que ceux-ci étaient traités en quelques pages dans l’édition
précédente. L’apprentissage par renforcement, à la base des succès de AlphaGo, fait l’objet d’un
chapitre largement étendu. Le traitement du signal et des images a connu des évolutions rapides
ces dernières années avec l’acquisition comprimée (compressed sensing) et l’apprentissage de
dictionnaires par exemple. Nous avons donc introduit ces concepts et méthodes dans l’ouvrage.
Il en est de même pour les méthodes d’espaces latents et d’espaces sémantiques qui sont em-
ployées dans les applications de compréhension et de traitement de la langue naturelle. Étant
donné l’énorme développement des applications et du « big data », nous avons consacrés des
chapitres inédits aux aspects pratiques de développement de projets. Globalement, l’émergence
de nouveaux champs d’application de l’apprentissage artificiel incluant le traitement de flux de
données, le fonctionnement dans des environnements changeants et non plus stationnaires, l’ap-
prentissage de causalités, nous ont conduit à repenser l’organisation de l’ouvrage, qui est donc
novatrice par rapport aux deux précédentes éditions.
Nous espérons qu’avec cette nouvelle édition, qui reflète les évolutions de l’apprentissage ar-
tificiel, nous fournissons aux lecteurs le moyen de mieux comprendre les fondements de cette
science et des technologies qui en découlent, mais aussi les outils conceptuels et méthodologiques
pour aborder avec confiance le développement de projets dans ce domaine, si ouvert et si riche
de potentialités.
Un grand merci à Irène Demongeot, Germain Forestier et Colin de la Higuera qui ont contribué
respectivement aux chapitres « Apprentissage et théorie du domaine », « Apprentissage par
similarité » et « L’inférence grammaticale » de cette nouvelle édition.
Nous tenons aussi à remercier vivement l’accompagnement des Éditions Eyrolles depuis des
années, et le travail considérable des correcteurs pour traquer les imperfections à tous les niveaux
du manuscrit. Les erreurs et coquilles restantes sont de notre responsabilité, même si nous les
déplorons à l’avance et seront heureux de les corriger si elles nous sont signalées.
Notations ix
Bibliographie 851
Index 891
#... Nombre de . . .
P Une probabilité
p Une densité de probabilités
E[x] L’espérance de la variable x
xd
A Un algorithme d’apprentissage
La logique
Où l’on se demandera si des machines peuvent apprendre. Où l’on verra que l’in-
duction est au cœur de l’apprentissage et qu’elle n’est pas facile à dompter. Il faudra
alors parler d’hypothèses et même d’espaces d’hypothèses que la machine explore
lorsqu’elle apprend. Il faudra donc se demander comment elle peut évaluer les hypo-
thèses, comment elle peut sélectionner les hypothèses qu’elle souhaite retenir, et si
l’on peut avoir la moindre garantie sur la qualité de ces hypothèses sélectionnées.
Les approches et les méthodes d’apprentissage sont en grande partie déterminées
par la nature des hypothèses considérées. Ce chapitre examinera donc les grandes
familles d’hypothèses et d’espaces d’hypothèses. Mais l’apprentissage est un processus
dynamique qui se déroule selon un scénario réglant les échanges entre l’apprenant et
son environnement. Les grands scénarios étudiés actuellement seront donc présentés.
Revenant à la question du début : les machines peuvent-elles apprendre ? Il sera
temps de brosser un bref historique de la discipline de l’apprentissage artificiel et de
voir comment la question a évolué et comment on y a répondu depuis plus d’un demi-
siècle. Nous terminerons en examinant quelques questions souvent posées lorsque l’on
parle de machines apprenantes.
Sommaire
1 La révolution numérique en cours et le « big data » . . . . . . . . . 5
1.1 Le « big data » . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Une nouvelle ère scientifique s’ouvre . . . . . . . . . . . . . . . . . . 8
1.3 Une matière première et de nouvelles opportunités . . . . . . . . . . 8
1.4 Les risques et les défis . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Apprentissage et induction . . . . . . . . . . . . . . . . . . . . . . . 10
3 Des apprentissages différents . . . . . . . . . . . . . . . . . . . . . . 13
4 Les notions d’espace d’hypothèses et de critère inductif . . . . . . . 15
4.1 L’induction : un jeu entre un espace d’exemples et un espace d’hypothèses 16
4.1.1 L’apprentissage est impossible. . . . . . . . . . . . . . . . . 17
4.1.2 . . . sans limiter l’espace des hypothèses . . . . . . . . . . . 18
4.2 L’exploration de l’espace des hypothèses . . . . . . . . . . . . . . . . 21
5 Les ingrédients de l’apprentissage . . . . . . . . . . . . . . . . . . . 23
6 Les méthodes paramétriques et non paramétriques, et les autres . 24
7 L’espace des hypothèses d’apprentissage . . . . . . . . . . . . . . . . 25
7.1 Le problème général de la représentation des connaissances . . . . . . 25
7.2 La classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
7.2.1 Classe, concept . . . . . . . . . . . . . . . . . . . . . . . . 27
7.2.2 Les fonctions séparatrices entre classes . . . . . . . . . . . . 27
7.3 La régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.4 Les distributions de probabilités . . . . . . . . . . . . . . . . . . . . 29
7.5 Les arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . 29
7.6 Les hiérarchies de concepts . . . . . . . . . . . . . . . . . . . . . . 30
7.7 Les réseaux bayésiens et les modèles graphiques . . . . . . . . . . . . 30
7.8 Les chaînes de Markov et les modèles de Markov cachés . . . . . . . 31
7.9 Les grammaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
7.10 Les formalismes logiques . . . . . . . . . . . . . . . . . . . . . . . . 33
7.11 Les règles d’association . . . . . . . . . . . . . . . . . . . . . . . . 34
8 Les protocoles d’apprentissage . . . . . . . . . . . . . . . . . . . . . 35
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.2 Batch vs. en ligne . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.3 Passif vs. actif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
9 Une brève mise en perspective historique . . . . . . . . . . . . . . . 36
10 Des questions que tout le monde se pose . . . . . . . . . . . . . . . 39
D
es algorithmes qui apprennent ! ? Cette idée si révolutionnaire, si provocante
tellement la notion de machine est associée à celle de fonctionnement laborieux, ré-
pétitif et ne pouvant échapper à une procédure soigneusement prédéfinie, est pour-
tant devenue complètement familière et banale. Est-elle pour autant comprise ? Les
médias nous parlent pratiquement tous les jours de « big data », d’« apprentissage profond », de
Une révolution est en cours2 . Elle présente trois aspects concomitants : (i) une production
de données en croissance exponentielle, certains la qualifiant d’avalanche de données pour la
qualifier, (ii) la disponibilité partout et tout le temps de ressources de calcul, depuis les objets
connectés et smartphones jusqu’aux gros clusters de calcul et au « cloud computing », et (iii) la
mise au point et la diffusion de nouveaux algorithmes de science des données, de simulation, de
modélisation, de raisonnement automatique et d’aide à la décision.
Il n’est pas de semaine sans qu’une innovation liée à ces nouvelles données, aux nouveaux
moyens de calcul disponibles et nouveaux algorithmes, ne soit annoncée haut et fort dans la
presse. C’est ainsi que la revue Science, en août 2016, rapporte que l’on peut désormais détec-
1
Selon un étude récente de la firme de consultance PwC.
2
Cette section est en partie tirée de [Cor15a].
ter les zones de pauvreté en Afrique, mieux et beaucoup moins cher qu’avec des experts sur le
terrain, grâce aux données satellitaires et à des algorithmes d’apprentissage automatique. La
Harvard Business Review de août-septembre 2016 décrit une nouvelle application qui permet de
détecter les restaurants à haut risque d’intoxication alimentaire par l’examen automatique des
avis des consommateurs, avec un très faible taux d’erreur, et ceci donc beaucoup plus rapide-
ment et beaucoup moins cher qu’en employant des inspecteurs. L’université de Harvard faisait
l’été 2016 la promotion des données ouvertes récoltées dans sa forêt, d’une superficie de 1600 ha.
L’Université souhaitait stimuler ainsi les recherches écologiques (millions de mesures en accès
libre) [Le Monde, 24/08/2016]. La génomique et les sciences en « omique » n’existeraient pas
sans la possibilité d’analyser de manière automatique les données produites en grande quantité
dans les laboratoires. La sociologie devient une science expérimentale à grande échelle grâce à
l’analyse désormais possible des réseaux sociaux. La climatologie et les sciences de l’environ-
nement reposent sur la récolte de données à grande échelle et leur traitement par des moyens
puissants de simulation et de modélisation. La médecine va demain connaître une révolution
avec l’arrivée massive d’objets connectés et la mise au point de systèmes experts. L’agriculture
aussi devient connectée et va faire un appel croissant aux technologies et méthodes du numérique
pour à la fois être capable de nourrir bientôt 9 milliards d’êtres humains, respecter et favoriser
la biodiversité et s’adapter au changement climatique. De plus, la confiance des citoyens de-
vrait s’améliorer grâce à la traçabilité accrue, plus transparente et quasiment en temps réel des
productions et des chaînes logistiques d’approvisionnement et de distribution.
Incroyablement, alors que la production de données est devenue phénoménale et qu’elle se
fait bien souvent en réaction de plus en plus rapide à d’autres données, une grande partie de
cette « écume numérique du monde » est stockée, ce qui ouvre des possibilités complètement
nouvelles d’analyse et provoque un débat entre droit à l’oubli et droit à l’histoire.
chaque zone géographique au lieu d’une fois tous les 2 mois (cf. la mise en place du réseau
de satellites Sentinelles par l’Europe, sans compter les micro-satellites que des start-up
américaines envoient désormais par dizaines dans l’espace). Il faut donc être capable de
traiter une grande partie de ces données « à la volée ». De plus la « fraîcheur » des données
devient un critère qu’il devient important de prendre en compte.
3. La variété. Les données ne sont plus issues de processus bien définis de recueil dans un
format établi, mais elles sont désormais stockées au mieux dans des entrepôts de données,
au pire dans des fichiers d’origines diverses, avec des formats variés, impliquant possible-
ment des données multimédias audio et vidéo, du texte brut ou dans des formats plus ou
moins propriétaires, des transactions financières, des méta-données, etc. La question de la
mise en relation de tous ces types de données très hétérogènes devient ainsi cruciale.
4. La véracité. Les données étant issues de capteurs ou de sources humaines très diverses,
leur degré de précision et surtout de fidélité ainsi que le niveau de confiance qu’on peut leur
accorder sont très variés. Il faut donc savoir combiner les sources et raisonner en tenant
compte de ces indices de précision, des biais éventuellement connus ou identifiés et du
niveau de confiance.
Cette disponibilité quasi infinie de données et les nouvelles possibilités de traitements massifs
désormais accessibles à bas prix, grâce en particulier au « cloud computing », bouleversent
l’approche scientifique du monde.
Avant, la démarche était de réfléchir à une question, par exemple l’existence ou non d’une
corrélation entre deux variables (voire entre quelques variables peu nombreuses), d’établir avec
soin un « plan d’expériences », de récolter l’échantillon de données aussi limité et aussi propre que
possible pour satisfaire les contraintes de significativité statistique, et de mesurer la corrélation
faisant l’objet de notre attention, avant de conclure à son existence ou pas, par exemple en
comparant à une p-value.
Désormais, la démarche est de demander aux machines de découvrir toutes les corrélations
multi-variables existantes dans un énorme volume de données souvent bruitées et, seulement
ensuite, d’examiner ce qui peut présenter un intérêt dans cette masse de liens potentiels. De
manière alternative, on peut demander aux machines de détecter ce qui émerge comme étant la
norme et, à partir de là, d’identifier des « signaux faibles », c’est-à-dire des phénomènes étranges,
hors norme, qu’il peut être intéressant d’examiner.
De même, avant, on était centré sur l’ajustement des modèles statistiques aux données (pré-
dire le passé), on cherche maintenant des capacités prédictives par la généralisation et l’extra-
polation des régularités découvertes.
De plus, les corrélations ainsi découvertes peuvent à leur tour servir d’entrées pour d’autres
mécanismes de « data mining », participant ainsi à un processus d’enrichissement (ou de pollu-
tion) cumulatif et potentiellement exponentiel.
Il est en tous les cas essentiel de bien réaliser que d’un questionnement orienté et raisonné, on
passe avec le « Big data » à une exploration tous azimuts de corrélations ou de signaux faibles ou
de tendances, pour ensuite les filtrer, les recouper et alimenter l’univers numérique. Il n’y a plus
en pratique de question de taille d’échantillon et, de plus, les données ne servent plus seulement
à répondre à une question pour laquelle elles ont été récoltées, mais elles sont ré-utilisables à
l’infini en fonction de nouveaux traitements que n’importe quel « data scientist » qui en dispose
peut imaginer.
très variées via l’analyse des données rendues publiques ou de ses propres données ouvre
la perspective de découvertes et de services inattendus.
2. De nouvelles possibilités d’optimiser le fonctionnement de la société. On parle ainsi
de « villes intelligentes ». Les réseaux de transport pourront être reconfigurés en temps
réel pour répondre aux mesures sur les flux de personnes, la distribution de l’énergie et
les heures de consommation seront optimisées grâce aux compteurs « Linky » intelligents
et à des mesures en temps réel de la météo. La sécurité des lieux publics et privés sera de
même révolutionnée par la disponibilité de données multi-sources : caméras de surveillance,
objets connectés portés par les individus, traces d’ADN que l’on peut désormais détecter
dans l’atmosphère d’une pièce plusieurs jours après le départ de ses occupants.
3. Le développement de panoplies de services très ciblés, individualisés, par exemple
pour une médecine personnalisée, des conseils de consommation (livres, films...) et la vie en
général (ex. comment optimiser son sommeil en fonction des évènements de la journée et de
l’agenda du lendemain). Ces mêmes technologies permettent aussi la mise aux enchères en
quelques micro-secondes d’espaces publicitaires à introduire dans les pages qui s’affichent
durant les recherches internet d’un utilisateur. Généralement, le marketing va devenir une
science avec en particulier une mesure de l’impact en temps réel des messages, et un suivi
très fin des comportements, dans les magasins ou sur les sites marchands.
4. L’open data, c’est-à-dire l’accès libre et gratuit aux données, en particulier gouvernemen-
tales et des collectivités locales, avec l’espoir d’une démocratie participative et directe.
Pour prendre l’exemple des sciences du vivant et de l’environnement, on peut attendre des
impacts importants sur plusieurs secteurs. Ainsi :
• Les sciences de l’environnement vont bénéficier de la possibilité d’intégrer et de combiner des
données de capteurs très variés, très multi-échelles (des satellites aux drones et aux capteurs
dans les tracteurs et dans les champs) et avec suivi des évolutions. De fait, le changement
climatique ne serait peut-être pas encore perçu, et en tous les cas ne serait pas apprécié
pleinement, sans une capacité d’analyse multi-source et à grande échelle de données.
• La logistique et les chaînes de distribution, en particulier les chaînes d’approvisionnement en
produits frais, vont voir leur fonctionnement très optimisé, avec à la clé beaucoup moins de
déchets et des dates de péremption beaucoup plus précises attachées à chaque produit par
l’analyse de son « histoire » grâce à l’arrivée des multi-capteurs sur les produits eux-mêmes.
• L’agriculture se prépare également à une révolution. Pour donner un exemple, John Deere et
AGCO ont ainsi entrepris de relier les machines agricoles entre elles, mais aussi les systèmes
d’irrigation, des mesures sur les sols et sur les intrants, via éventuellement des drones,
tout cela en plus d’informations relatives à la météo locale à court et moyen terme et de
données sur les cours de bourse des produits récoltés et des matières premières, le tout afin
d’optimiser les performances d’une exploitation agricole dans son ensemble.
machines, leurs comportements, et peuvent ainsi devenir les vrais donneurs d’ordre reléguant les
autres entreprises à de la sous-traitance.
Bien sûr, ce nouvel Eldorado annoncé s’accompagne de risques.
2. Apprentissage et induction
L’apprentissage s’appuie sur des observations ou sur des expériences pour produire des pré-
dictions, des règles de décision, des modèles du monde et pour améliorer les performances du
système au cours du temps. L’apprentissage est fondamentalement lié à l’induction, c’est-à-dire
au passage de l’observation de cas particuliers à des lois générales.
L’induction est partout présente dans nos processus cognitifs, simplement parce que nous
n’avons presque jamais toute l’information nécessaire pour prendre des décisions certaines. Il
nous faut pourtant agir, souvent rapidement, nous construire des images mentales du monde,
et même pouvoir communiquer en utilisant ces images avec d’autres agents, d’autres humains,
dont les sources d’information et les capacités cognitives sont tout aussi faillibles que les nôtres.
L’induction, ce chateau de cartes fragile qui ne peut pas, selon David Hume en 1737, avoir de
bases solides, est mis en jeu à toutes les échelles de la cognition et, au bout du compte, cela ne
se passe pas si mal pour tous les êtres cognitifs. Il y a là un mystère.
Fig. 1.1 : Exemples de perceptions avec complétion de forme par induction. En (a), on ne
peut s’empêcher de voir un carré au milieu de l’ensemble de points. En (b), on perçoit
immédiatement une sphère, alors que de fait, nous sommes en présence d’une figure plane.
En (c), nous « voyons » un triangle blanc superposé à un triangle dessiné, lui-même
incomplet.
Reprenons. Dès nos perceptions, nous réalisons de l’induction de manière massive. Les figures
1.1 et 1.2 font prendre conscience de ce que notre système perceptif prête ou ajoute à ce qui est
donné pour former une interprétation du monde.
Fig. 1.2 : Exemples de perceptions avec interprétation par induction. Ici, deux perceptions sont
à peu près également possibles pour chacune des figures (visage de jeune femme ou trom-
pettiste, à gauche, visage de jeune femme de trois quart arrière ou visage de vieille femme
de profil à droite).
Les inductions sont faillibles et nos perceptions, basées sur des inductions, le sont également.
Il n’y a pas de miracle. La figure 1.3 révèle ce que l’on appelle des illusions d’optique, qui ne
sont autres que le résultat de ce qu’ajoute notre système visuel aux percepts pour interpréter le
monde. Ce qui est remarquable, c’est que ce « biais » est commun à tous les êtres humains, ou
au moins à tous ceux qui sont familiers des milieux à formes géométriques. Sans biais, nous ne
serions pas victimes de ces illusions d’optique, mais nous serions aussi incapables de percevoir
tout court, c’est-à-dire de compléter les données sensorielles.
(a) (b)
Fig. 1.3 : Illusions d’optique. En (a), malgré les apparences, les trois silhouettes ont la même
taille. En (b), les lignes sont parallèles.
Fig. 1.4 : Tâche de clustering. On demande à la machine d’identifier des nuages de points
distincts dans l’ensemble des points de la figure de gauche. Pourquoi le clustering réalisé à
droite, avec trois nuages, bleu, rouge et vert, serait-il le bon ?
Ce que nous faisons sans en avoir trop conscience, qui marche souvent bien mais qui est
faillible, c’est ce que nous allons demander à la machine. À elle aussi vont être présentées des
« entrées » incomplètes, particulières, et il va falloir qu’elle en tire des interprétations, des
modèles du monde, des règles de décision. Par exemple, dans la tâche dite de clustering, on
demande à la machine d’identifier des sous-populations à l’intérieur d’un ensemble d’exemples.
La figure 1.4 en fournit une illustration simple. Ici, des points sont décrits dans un espace à
deux dimensions x1 et x2 , et l’on demande à la machine d’identifier des sous-ensembles, prenant
la forme de « nuages » de points. Ici, la machine a identifié trois sous-populations, mais elle
aurait pu en identifier deux ou quatre. Quelle est la meilleure réponse ? Et pourquoi ? Y a-t-il
une réponse à ces deux questions ? C’est ce que nous allons explorer dans cet ouvrage.
Considérons un dernier exemple illustré par la figure 1.5 (à gauche). Prenons à nouveau des
formes décrites par deux attributs, x1 et x2 , mais auxquelles on a également associé une étiquette,
ici des × ou des •. Une nouvelle forme arrive, d’étiquette inconnue (sur la figure 1.5, le carré
associé à un point d’interrogation). Il faut décider quelle étiquette lui attribuer. Comment faire ?
Des biais différents conduisent à des réponses différentes. Trois des quatre plus proches voisins
sont d’étiquette •, qu’il faudrait donc choisir, mais si on dessine un rectangle (noté h pour
« hypothèse ») englobant tous les points × et excluant tous les points − (voir figure 1.5 à
droite), celui-ci englobe le point d’étiquette inconnue et il faudrait donc décider +. Sur quelle
base décider ? Quel est le bon biais ? À nouveau, peut-on répondre à cette question ?
x2 x2
⇥ ⇥ ? ⇥ ⇥ ?
⇥ ⇥
⇥ ⇥
⇥ ⇥⇥ ⇥⇥⇥ ⇥ ⇥⇥ ⇥⇥⇥
⇥ ⇥ h⇥ ⇥ ⇥
⇥
x1 x1
Fig. 1.5 : Tâche de prédiction. (À gauche) On observe des exemples décrits par les attributs x1
et x2 . Ils sont associés à l’étiquette × ou à l’étiquette •. Quelle étiquette associer au carré
accompagné d’un point d’interrogation ? (À droite) Si l’on choisit l’hypothèse correspondant
au rectangle, tous les points intérieurs sont alors étiquetés × et le point d’étiquette inconnue
doit aussi l’être.
Dans son ouvrage Probably Approximately Correct. Nature’s algorithms for learning and pros-
pering in a complex world (2013), Leslie Valiant, pionnier d’une théorie de l’apprentissage, écrit :
« From this, we have to conclude that generalization or induction is a pervasive
phenomenon (. . . ). It is as routine and reproducible a phenomenon as objects falling
under gravity. It is reasonable to expect a quantitative scientific explanation of this
highly reproducible phenomenon . »
Peut-on dire que nous disposons finalement d’une telle théorie de l’induction et de la compré-
hension que nous souhaitons aller avec ? Et donc d’une théorie de l’apprentissage ?
Non. Il reste à faire pour les jeunes scientifiques, mais nous avons progressé.
Disons d’emblée que nous ne disposons pas à l’heure actuelle de machines capables de réaliser
tout le spectre des apprentissages dont nous, humains, sommes capables. Apprentissages que
nous intégrons les uns aux autres, qui nous permettent de comparer un coup appris au tennis
avec une réponse à une situation politique et qui prennent place tout au long de la vie. Nos
machines sont encore spécialisées et il est utile de distinguer plusieurs types d’apprentissages.
Nous commençons ici par trois grandes catégories, mais nous en verrons bien d’autres dans la
suite de l’ouvrage.
L’apprentissage descriptif
L’un des grands buts de l’apprentissage est de « comprendre les données ». Cela signifie
identifier des régularités qui permettent d’un certain côté de comprimer l’information pré-
sente dans les données et de les décrire de manière synthétique. Un système pourrait ainsi
distinguer plusieurs catégories de consommateurs dans une base de données rassemblant
des informations sur les clients d’une entreprise, catégories qu’un expert pourrait interpré-
ter comme les clients de tel groupe socio-professionnel, ou les clients « early adopters »,
catégories qui pourront ensuite être ciblées par des campagnes de marketing différentes.
Dans l’apprentissage descriptif pur, le but n’est pas d’extrapoler à des données futures
possibles (ex. à des clients potentiels), mais bien de décrire les données disponibles, si
possible en y découvrant des structures inattendues et intéressantes.
Comme nous l’avons esquissé plus haut, des biais différents peuvent conduire un système à
mettre en évidence des régularités différentes et l’un des gros problèmes de l’apprentissage
descriptif est de savoir comment évaluer le résultat de l’apprentissage et comment guider
le choix d’un bon biais.
L’apprentissage descriptif est souvent aussi décrit comme apprentissage non supervisé (Un-
supervised learning) car il n’y a pas de professeur qui aide le système à savoir quoi trouver.
Cela contraste avec l’apprentissage prédictif.
L’apprentissage prédictif
L’apprentissage prédictif pourrait aussi être appelé apprentissage amplificatif. Le but cette
fois-ci est d’utiliser les données disponibles pour identifier des règles de décision permettant
de prédire quelque chose à propos de données futures, encore inconnues au moment de
l’apprentissage. Ce « quelque chose » peut prendre des formes variées. Dans le cas le
plus simple, il s’agit d’une variable, que l’on appelle souvent étiquette associée à l’entrée,
c’est-à-dire à la description de la donnée.
Par exemple, un système de diagnostic médical peut apprendre à reconnaître la maladie
d’un nouveau patient, à partir d’une base de données décrivant des malades pour lesquels
un diagnostic a été fait. Ce système va ainsi devoir apprendre un moyen d’associer à une
description (ici de chaque patient) que nous noterons x une prédiction (ici une pathologie)
que nous noterons y.
Il est plus simple d’évaluer la qualité de l’apprentissage réalisé dans les systèmes de pré-
diction. Il suffit de garder par devers soi un ensemble de données pour lesquelles l’étiquette
est connue et de mesurer à quel point la règle de décision apprise permet de bien prédire
ces étiquettes quand l’entrée x est fournie. Bien sûr, il faut prendre un certain nombre de
précautions et connaître les techniques d’évaluation de performance appropriées à chaque
situation spécifique. Elles seront décrites au moment opportun dans l’ouvrage, mais spé-
cialement dans le chapitre 23.
On parle souvent d’apprentissage supervisé (supervised learning) pour dénoter l’apprentis-
sage prédictif. En effet, on suppose qu’un professeur (un superviseur) a associé à chaque
exemple xi une étiquette yi dans la base de données servant à l’apprentissage.
L’apprentissage prescriptif
Le plus souvent, l’objectif ultime de l’apprentissage n’est pas seulement de savoir mieux dé-
crire les données, ou d’avoir identifié des règles de prédiction, mais de savoir que faire pour
changer le monde. Or il ne suffit pas pour cela de connaître des corrélations prédictives.
Par exemple, supposons que je sois un fabricant de glaces et que je veuille augmenter mes
ventes. L’apprentissage prédictif peut m’avoir fourni une règle du type « si une personne
est en maillot de bain, alors il est probable qu’elle mange une glace ». Suffit-il alors de
demander aux gens de se mettre en maillot de bain pour qu’ils se mettent à consommer
des glaces ? Il est clair que cette règle prédictive n’est pas adéquate pour savoir quelle
action mettre en œuvre. Fondamentalement, corrélation n’égale pas causalité. Les gens ne
mangent pas des glaces parce qu’ils sont en maillot de bain, mais parce qu’un troisième
facteur, la chaleur, et la proximité de la mer ou d’une piscine, cause à la fois le fait de se
mettre en maillot de bain et de consommer des glaces. C’est seulement en découvrant cette
relation de causalité qu’une action efficace peut être déclenchée, par exemple installer un
magasin dans les régions chaudes.
L’apprentissage prescriptif demande donc que d’autres types de relations soient découverts
dans le monde et notamment des relations de causalité.
Que ce soit pour identifier des régularités dans les données (apprentissage descriptif) ou pour
découvrir des règles de décision (apprentissage prédictif), il est utile de disposer d’un langage
permettant de décrire ou de désigner ces régularités ou ces règles de décision. En apprentissage
artificiel, on parle d’hypothèses et on parle d’espace d’hypothèses pour désigner l’ensemble des
hypothèses qui peuvent être considérées dans un problème d’apprentissage.
Chaque hypothèse peut être décrite en utilisant un langage, par exemple la logique du 1er ordre
(ex. ∀x, si possède(x, 4 pattes) et aboie(x) alors x est un chien), ou bien par un algorithme qui
retourne une valeur.
Dans ce cadre, l’apprentissage peut être vu comme la recherche d’une hypothèse permettant
de bien décrire les données, ou de bien prédire les étiquettes associées aux exemples. Il faut donc
savoir associer à chaque hypothèse une mesure d’adéquation aux données et de pertinence. C’est
ce que le critère inductif est chargé de faire.
Le critère inductif est une fonction qui associe à chaque couple (hypothèse, données d’ap-
prentissage) une valeur réelle évaluant la qualité de l’hypothèse h par rapport aux données
d’apprentissage que nous noterons Sm (S pour « sample », échantillon, de taille m). Nous note-
rons cette fonction Rreg (pour des raisons que nous verrons plus loin).
Rreg (h, Sm ) 7→ IR
Une fois fournis le critère inductif Rreg , un espace d’hypothèses H et un échantillon d’ap-
prentissage Sm , l’apprentissage peut être considéré comme un problème d’optimisation visant à
trouver une fonction h∗S ∈ H qui optimise Rreg (h, Sm ) (souvent on cherche à réduire un écart
entre h et Sm , d’où un problème de minimisation) :
Selon la structure dont on pourra/saura doter l’espace des hypothèses H, on pourra inventer
des algorithmes d’apprentissage, donc d’exploration de H, plus ou moins efficaces.
- -
- -
+
-
- - + + -
+ + +
+
+ -
+ +
- - -
- -
- X
Fig. 1.6 : À partir d’un échantillon de points étiquetés, ici figurés par des ‘+’ et des ‘−’, l’ap-
prenant cherche une partition de X permettant de discriminer les formes x appartenant
au concept de celles ne lui appartenant pas.
3
Ces deux classes sont aussi notées {+, −}.
4
Il arrivera également que nous notions S = {(x1 , y1 ), (x2 , y2 ), ..., (xm , ym )} l’échantillon d’apprentissage
quand la répétition des exemples n’est pas prise en compte par l’algorithme (ce qui est le cas par exemple de
l’algorithme de l’espace des versions – chapitre 3. Nous verrons également des cas dans lesquels les exemples sont
associés à un poids non entier (cas du boosting par exemple, au chapitre 13).
Nous supposons maintenant, d’une part que l’échantillon d’apprentissage n’est pas bruité,
c’est-à-dire que les exemples sont correctement décrits et étiquetés, d’autre part que la même
forme n’est pas à la fois exemple et contre-exemple, plus généralement qu’elle n’est pas associée
à deux étiquettes différentes incompatibles.
Dans ce cadre, l’échantillon d’apprentissage S = h(x1 , y1 ), (x2 , y2 ), ..., (xm , ym )i fournit une
information cohérente à l’apprenant dans la mesure où la partie de X qu’il cherche doit couvrir
tous les exemples positifs de l’échantillon (ce que l’on appelle la propriété de complétude) et ne
couvrir aucun des exemples négatifs (ce que l’on appelle la propriété de correction).
Dans ce cadre restreint, on peut maintenant poser deux questions :
• Quelle est l’information fournie par chaque exemple ?
• Comment, sur la base de l’échantillon d’apprentissage, choisir une hypothèse c’est-à-dire,
dans le cas de l’estimation d’une fonction indicatrice, une partition de X ?
Dans le cadre de l’induction de concept, donc d’une fonction indicatrice définie sur X , l’espace
des entrées, l’apprentissage revient à chercher une partition de l’espace X . En effet, il s’agit
d’identifier les régions de X , donc les formes x, correspondant au concept visé (voir figure 1.6).
Que peut nous apprendre un échantillon d’exemples S sur cette partition ?
Supposons que l’apprenant soit prêt à considérer toutes les partitions possibles de X , donc
que n’importe quel étiquetage des formes x ∈ X soit possible a priori. Cela signifie que si le
cardinal de X , noté |X |, est fini, il existe 2|X | partitions possibles de X .
Supposons alors que nous cherchions à déterminer la classe d’un point x ∈ X inconnu connais-
sant la classe de tous les points d’apprentissage xi ∈ X . Comment procéder ?
Puisque nous manipulons des partitions de X , nous pourrions considérer toutes les partitions
cohérentes avec l’échantillon d’apprentissage, puis décider alors de la classe de x en fonction de
ces dernières. Si toutes les partitions cohérentes avec l’échantillon S prescrivent que x appartient
au concept, ou au contraire n’y appartient pas, cela déterminera notre décision pour la classe
de x. Supposons même que toutes ces partitions ne soient pas d’accord sur la classe de x, nous
pourrions encore décider que celle-ci est la classe majoritairement attribuée.
Malheureusement, aucun de ces deux cas de figure ne se présente. Il se trouve que si l’on prend
toutes les partitions cohérentes avec n’importe quel ensemble de points d’apprentissage S (c’est-
à-dire prédisant correctement l’étiquette de chacun de ces points), et si l’on prend n’importe quel
point x 6∈ S, alors il existe autant de partitions prédisant l’étiquette 1 pour x que de partitions
prédisant l’étiquette 0. L’échantillon d’apprentissage à lui tout seul ne fournit donc pas une base
suffisante pour décider de la classe d’un point nouveau. L’induction, c’est-à-dire l’extrapolation
du connu à l’inconnu est impossible. Seul un apprentissage par cœur est réalisable.
Les deux questions soulignées dans la section précédente ont donc reçu une réponse qui jette
pour le moins une ombre sur la possibilité de l’induction. Aucun exemple d’apprentissage ne
fournit d’information au-delà de cet exemple lui-même. Toutes les partitions de l’espace X
cohérentes avec l’échantillon sont également probables et leurs prédictions s’annulent en chaque
point inconnu. L’aventure de l’apprentissage artificiel tournerait-elle court ?
sont fixés.
Prenons le cas de n = 10 attributs binaires et de m = 512 exemples d’apprentissage. Le
cardinal de X est |X | = 210 , soit 1024 points différents, ce qui n’est pas un espace très
grand. Il existe 21024 manières différentes de les étiqueter par 1 ou 0. Après l’observation de
la moitié de ces 1024 points, il reste 21024−512 partitions possibles, soit 2512 . On voit que ces
512 exemples laissent un ensemble considérable de partitions possibles.
x1 x2 x3 f (x)
0 0 0 +
0 0 1 −
0 1 0 +
0 1 1 ?
1 0 0 +
1 0 1 ?
1 1 0 ?
1 1 1 −
Fig. 1.7 : Soit f une fonction binaire définie sur un espace d’entrée à trois attributs. La table
fournit un échantillon de 5 exemples de cette fonction.
Étudions un problème plus simple dans lequel les exemples sont décrits par trois attributs
binaires. Cela fait 23 = 8 formes possibles. Supposons que cinq exemples parmi ces huit
aient été étiquetés par l’oracle, comme le montre la figure 1.7. Pour fixer complètement une
fonction, il faut déterminer la valeur des trois dernières formes. Il faut donc faire un choix
entre 23 = 8 fonctions. Supposons que nous voulions déterminer la valeur associée à l’entrée
(0 1 1). Il y a quatre fonctions parmi les huit qui sont associées à la sortie + et quatre
associées à la sortie -. Il est donc impossible d’avoir même seulement une préférence pour
une prédiction plutôt qu’une autre concernant l’étiquette de ce point.
Nous nous sommes placés dans le cas où l’apprenant cherche directement une partition de
l’espace d’entrée X , c’est-à-dire qu’il cherche à déterminer l’étiquette de chaque forme x ∈ X .
C’est évidemment impossible, sauf dans le cas d’espaces X très restreints pour lesquels un
apprentissage par cœur est envisageable. En d’autres termes, il est généralement impossible
d’apprendre une partition de X en extension, c’est-à-dire en énumérant toutes les formes et leur
étiquette associée.
C’est pourquoi on utilise généralement pour décrire des partitions de X un langage de des-
cription des hypothèses, que nous noterons LH . Il permet de définir un espace d’expressions ou
d’hypothèses H, par exemple l’espace des hypothèses décrites par une conjonction de conditions
sur les descripteurs5 .
Ainsi, dans l’exemple décrit précédement, on pourrait décrire des fonctions binaires du type
(x1 = 0) ∧ (x2 = 1) ∧ (x3 = 1). En revanche, ce langage interdit de considérer une fonction telle
que (x1 = 0 ∧ x2 = 1 ∧ x3 = 1) ∨ (x1 = 0 ∨ x2 = 0 ∧ x3 = 0).
5
Il s’agit du langage CNF (Conjunctive Normal Form), dans lequel les hypothèses prennent la forme de
conjonctions de disjonctions, par exemple : (x1 = 0 ∨ x7 = 1) ∧ (x3 = 1 ∨ x5 = 1 ∨ x8 = 0) ∧ x4 = 1.
?
- -
+ - -
- xh
- - + + -
+ +
+ +
+
+ - +
- - -
- -
- X H
Fig. 1.8 : Rôle d’un espace d’hypothèses H dans le cas de l’apprentissage de concept. Chaque
point de H, ou encore hypothèse, correspond à une partition de l’espace des entrées X .