0% ont trouvé ce document utile (0 vote)
47 vues6 pages

Interprétabilité en Machine Learning, Revue de Littérature Et Perspectives

Ce document présente une revue de littérature sur les méthodes d'interprétabilité en apprentissage automatique. Il décrit plusieurs dualismes permettant de classifier ces méthodes et cartographie les principales approches développées, notamment les modèles intrinsèquement interprétables, les approximateurs globaux et locaux, ainsi que l'interprétation par l'exemple.

Transféré par

lutuyaelysee
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues6 pages

Interprétabilité en Machine Learning, Revue de Littérature Et Perspectives

Ce document présente une revue de littérature sur les méthodes d'interprétabilité en apprentissage automatique. Il décrit plusieurs dualismes permettant de classifier ces méthodes et cartographie les principales approches développées, notamment les modèles intrinsèquement interprétables, les approximateurs globaux et locaux, ainsi que l'interprétation par l'exemple.

Transféré par

lutuyaelysee
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Interprétabilité en Machine Learning, revue de

littérature et perspectives
Jean-Marie John-Mathews

To cite this version:


Jean-Marie John-Mathews. Interprétabilité en Machine Learning, revue de littérature et perspectives.
Séminaire Good In Tech. ”Développement de technologies responsables”, Apr 2019, Paris, France.
�hal-02540761�

HAL Id: hal-02540761


https://hal.science/hal-02540761
Submitted on 11 Apr 2020

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
Interprétabilité en Machine Learning, revue de littérature et
perspectives
Jean-Marie John-Mathews, LITEM, Université Paris-Saclay

Les algorithmes d’apprentissage automatique, et particulièrement les réseaux de neurones


profonds, connaissent ces dernières années de fortes performances prédictives dans de
nombreux domaines tels que la reconnaissance d’images, l’analyse textuelle ou vocale.
Néanmoins, ces bons résultats prédictifs s’accompagnent généralement d’une difficulté à
interpréter d’une part le processus de génération du modèle et d’autre part le résultat appris. Cet
effet « boîte noire » des réseaux de neurones posent pourtant des contraintes dans leur
utilisation pour les raisons suivantes :

- Prise en main par un opérateur humain


Les algorithmes d’apprentissage utilisés comme outil d’aide à la décision peuvent nécessiter
l’adhésion de l’opérateur humain, en particulier lorsque les domaines d’application sont
critiques. La compréhension de l’algorithme automatique peut jouer un rôle fondamental
dans la prise en main et la mise en place d’une collaboration homme – machine et limiter
la résistance au changement numérique.
- Exigence de certification des modèles
La preuve de la consistance d’un modèle par rapport à un cahier de charge, c’est-à-dire la
validation, est un enjeu important pour le développement de systèmes avec apprentissage
en termes d’ingénierie mais aussi en termes juridiques étant donné le nouveau cadre légal
de la Commission Européenne qui introduit un droit d’explication des algorithmes.
- L’émergence de nouveaux critères de validation des modèles
La seule mesure de performance prédictive n’est, dans certains cas, plus un critère suffisant
dans l’apprentissage d’un modèle. D’autres contraintes d’ordre éthique, juridique ou
opérationnel peuvent jouer un rôle dans la validation finale du modèle. Il peut par exemple
être important de vérifier l’absence de « biais encapsulé » au sein de l’algorithme
d’apprentissage afin d’assurer l’équité des algorithmes.
- L’explication comme aide au diagnostic
L’interprétation des modèles peut générer un nouveau point de vue ou une analyse à forte
valeur ajoutée pour le décisionnaire. Ainsi, une explication intelligible du mécanisme et du
résultat du réseau de neurone peut être un outil de diagnostic et d’analyse pour l’opérateur
en charge de la décision.

Une littérature récente, très fructueuse ces dernières années, en Machine Learning tente de
proposer des outils et méthodes afin de rendre les algorithmes interprétables. Dans cet exposé,
nous proposons une typologie générale de ces outils à partir de quelques dualismes permettant
de dessiner le paysage caractéristique de ces méthodes.

I) Plusieurs dualismes pour une classification


Une typologie des différentes méthodes d’interprétation des algorithmes de Machine Learning
peut s’obtenir en partant des dualismes suivants :
Méthodes intrinsèques vs méthodes post-hoc : les méthodes intrinsèques pour l’interprétabilité
produisent un modèle interprétable (ou classifieur) alors que les méthodes post-hoc ne
produisent pas nécessairement des classifieurs interprétables, l’interprétabilité étant obtenue par
l’application d’une seconde méthode a posteriori en partant du premier classifieur. Ainsi,
l’interprétabilité intrinsèque se réfère à des modèles de Machine Learning dont la structure
relativement simple permet l’interprétation. Quant aux méthodes post-hoc, elles peuvent être
multiples et variée : procédure d’apprentissage, méthodes de permutation des importances,
estimation de paramètres ou encore programmes d’optimisation pour générer des prototypes
(Olah, Feature Visualization 2017).

Méthodes locales vs globales : Lorsque la méthode d’interprétation explique une prédiction /


un résultat selon un input donné, on dira que la méthode est locale. A contrario, lorsque la
méthode d’interprétation concerne le fonctionnement global de l’algorithme tous inputs
confondus, on dira que la méthode est globale.

Méthode de visualisation d’une partie de l’algorithme vs d’une partie de l’input (carte de


saillance) : Dans la littérature proposant l’interprétation des réseaux de neurones profonds, les
méthodes de visualisation d’éléments du réseau permettent d’interpréter le fonctionnement d’un
ou plusieurs neurones dans la prise de décision par la sélection ou génération d’exemples
d’inputs représentatifs de la décision. Les méthodes de visualisation d’une partie de l’input
quant à elles, permettent d’expliquer comment les parties d’un input donné modifient le
comportement du réseau de neurones. Dans le cas de l’imagerie, cela permet de visualiser les
parties de l’image influençant le plus la décision de l’algorithme (carte de saillance). Coupler
ce dualisme semble être une méthode intéressante pour proposer une grammaire d’explication
des réseaux de neurones (Olah, The Building Blocks of Interpretability 2018).

Modèles d’interprétation agnostique vs spécifique : les modèles d’interprétation agnostique


sont des modèles pouvant être utilisés pour n’importe quelles classes de méthodes
d’apprentissage. Par opposition, les modèles spécifiques ne peuvent être utilisés que pour
interpréter une famille spécifique d’algorithmes, tels que les réseaux convolutionnels par
exemple.

II) Un paysage des outils d’interprétation en Machine Learning

Bien qu’étant corrélés, ces différents dualismes permettent de cartographier les principales
méthodes d’interprétation développées dans la discipline de l’apprentissage automatique.

1) Les modèles « white box » : intrinsèque, global ou local

Les « petits » modèles de régression linéaire, d’arbre de décision ou de réseaux bayésiens sont
considérés comme interprétables étant donné la complexité faible, la théorie mathématique
disponible et la manipulabilité possible de leurs structures et résultats.

2) Interprétation par approximateurs globaux : Méthodes post hoc, globales et agnostiques

Un approximateur global est un modèle interprétable entraîné afin d’interpréter les résultats de
classification du premier modèle. A l’instar des maquettes ou des simulations utilisées en
ingénierie, les approximateurs globaux permettent de tirer des conclusions sur le
fonctionnement d’un mécanisme coûteux à explorer en utilisant une version approchée.
Généralement, les modèles de régression linéaire sparse ou encore les arbres de décisions (et
donc des règles de décision) sont utilisés comme approximateurs. On suppose alors que les
indicateurs utilisés pour interpréter les approximateurs sont représentatifs des mécanismes
supposés complexes du premier modèle. Il existe des approximateurs par arbre de décision de
réseaux de neurones (Craven et Shavlik 1996), ou encore des extracteurs de règles à partir de
réseaux de neurones (Johansson, Konig et Niklasson 2003) ou bien à partir de SVM (Nunez,
Angulo et Catala 2002).

3) Interprétation par approximateurs locaux : Méthodes post-hoc, locale, agnostique ou


non

L’algorithme LIME (local interpretable model-agnostic explanations) (Ribeiro, Singh et


Guestrin 2016) crée un modèle autour d’une prédiction donnée afin de l’approximer localement.
Plus précisément, LIME génère de nouvelles données, à savoir des données proches de la
prédiction à expliquer, puis les apprend à l’aide d’un modèle interprétable (régression linéaire
ou arbre) et de la classification faite par un modèle black-box quelconque (méthode
agnostique). L’inconvénient de la méthode LIME est que celle-ci ne fournit pas une théorie
permettant de généraliser l’interprétabilité issue du modèle local à un niveau plus global.

D’autres techniques, telles que la méthode Shapley (Shapley 1953), permettent d’expliquer une
décision locale tout en proposant, contrairement à LIME, une théorie axiomatique pour fonder
l’interprétabilité. La méthode Shapley propose un classement des contributions des features en
entrée selon des principes issus de la théorie des jeux. La méthode étant très coûteuse en calcul,
une variante SHAP (Lundberg et Kononenko 2016) a été proposée sur les mêmes bases.

Les cartes de saillance sont des méthodes spécifiques à l’imagerie ou l’analyse de textes
permettant de visuellement mettre en valeur (masque de surlignage) les parties d’images ou du
texte ayant significativement participé à la décision de l’algorithme black-box (souvent un
réseau de neurones profonds). Le calcul de la carte de saillance étant basé sur l’algorithme
d’apprentissage (représentation des gradients), la méthode n’est pas agnostique aux familles
d’algorithmes black-box.

4) L’interprétation par l’exemple : méthodes locales, post-hoc, agnostique ou non

Lors de l’interprétation par l’exemple, le résultat d’un algorithme, suite à un input donné, est
interprété en générant ou sélectionnant dans la base d’apprentissage un second input. L’idée
principale de l’interprétation par l’exemple est l’explication par raisonnement analogique où
l’on propose un input généré ou issu de la base d’apprentissage en tant qu’explication par
analogie avec l’input de base ayant entraîné la décision. Plusieurs types d’interprétation de
l’exemple sont possibles.

L’explication par l’exemple contrefactuel permet de générer un input contrefactuel, c’est-à-dire


un input pour lequel le résultat de l’algorithme aurait été différent (Wachter, Mittelstadt et
Russell 2017). En produisant l’input contrefactuel le plus proche de l’input original, on fournit
alors une explication de la décision de l’algorithme.

L’interprétation par le prototypage consiste à fournir, en tant, que tel un exemple d’input
représentatif de l’output retourné par l’algorithme. Cet input peut être issu de la base
d’apprentissage mais peut être également entièrement simulé par un programme d’optimisation.
De même dans le cas des réseaux de neurones profonds, le prototype d’explication peut ne pas
concerner le neurone représentant l’output final mais plutôt un ou plusieurs neurones
intermédiaires des couches cachée (Olah, Feature Visualization 2017). Dans ce cas,
l’algorithme fournit une explication de l’activation des neurones des couches cachées.

Enfin, l’interprétation par l’exemple influant (inflential instances) est l’explication par
l’identification des exemples au sein de la base d’apprentissage qui ont été les plus influents
dans le résultat d’un algorithme. Il s’agit alors de remonter à la phase d’apprentissage pour
identifier les exemples qui sont responsables d’un comportement particulier d’un algorithme
(R.Dennis 1977). Ces méthodes sont pratiques dans le cadre de l’interprétation en phase de
conception et correction (debugging) de l’algorithme.

5) Calcul d’indicateurs pour l’interprétabilité : méthodes intrinsèques globales ou locales

Au lieu de calculer de manière post-hoc des approximateurs locaux ou globaux, une autre
méthode consiste à calculer un certain nombre d’indicateurs afin d’interpréter un modèle black-
box. En ce sens, plusieurs indicateurs sont disponibles.

On peut tout d’abord donner une liste associant à chaque feature son importance dans le modèle.
Cela consiste en une manière très simple d’interpréter le modèle de manière globale ou locale.
Cependant lorsque certains features interagissent avec d’autres cette visualisation très linéaire
devient rapidement limitée et d’autres méthodes doivent être envisagées.

Les analyses de sensibilité permettent de visualiser l’incertitude de l’output en fonction des


incertitudes de l’input. On interprète donc le modèle black-box en visualisant les variations de
l’output suites à des petites variations de l’input. Ces méthodes d’interprétation « par test »
peuvent être locales ou globales.

Les PPD (partial-dependence plot) est une méthode d’interprétation globale permettant de
représenter graphiquement le changement de réponse moyen d’un modèle de Machine Learning
suite à une petite variation d’une ou deux feature, il s’agit donc d’une représentation de l’effet
marginal (Friedman 2001). Si la variation concerne seulement un feature, on représente la
dérivée partielle du classifieur en fonction du feature en entrée. Si la variation concerne deux
features, une visualisation par heat-map peut être envisagée pour visualiser l’impact de
l’interaction entre les deux features sur la variable en output (dérivée partielle croisée). Les
PPD sont également utiles pour montrer le comportement non linéaire ou non monotone de
l’output.

Les méthodes ICE (individual conditional expectation) sont l’équivalent des PPD en méthode
locale, c’est-à-dire une méthode d’interprétation du résultat d’un input donné. On représente
donc visuellement l’effet marginal de l’output en fonction d’un ou deux features, sans
moyenner sur l’ensemble des données (PPD) mais simplement en fixant l’input considérer
(Goldstein 2015).

III) Conclusion

Il existe de nombreux outils pour interpréter le Machine Learning allant de méthodes locales,
globales, intrinsèques, post-hoc, agnostiques, spécifiques ou des méthodes de visualisation
d’une partie d’input à des parties de l’algorithme. La littérature actuelle semble manifester une
volonté de mixer les différente méthodes, l’interactivité entre ces méthodes devenant la clé de
l’interprétation (Olah 2018). De la même manière où il existe une multiplicité de définitions de
l’interprétabilité selon le contexte d’utilisation (Doshi-Velez et Kim 2017), il existe également
une multiplicité de méthodes et outils pour interpréter les algorithmes dit « boîte noire ».
L’utilisation successive de ces méthodes se fera à travers le développement d’interface homme-
algorithme ergonomique permettant d’utiliser des méthodes mixtes, de visualisation,
exploration et calcul en fonction du contexte d’interprétation.

Bibliographie
Craven, et Shavlik. 1996. «Extracting tree-structured representations oftrained networks.»
Advances in neural information processing systems 24-30.
Craven, et Shavlik. 1994. «Using sampling and queries to extract rules fromtrained neural
networks.» ICML 37–45.
Doshi-Velez, et Kim. 2017. «Towards a rigorous science of interpretable machine learning.»
Friedman. 2001. «Greedy function approximation: A gradient boosting machine.” Annals of
statistics.» 1189-1232.
Goldstein. 2015. «Peeking inside the black box: Visualizing statistical learning with plots of
individual conditional expectation.» Journal of Computational and Graphical
Statistics 44-65.
Johansson, Konig, et Niklasson. 2003. «Rule extraction from trained neural networks using
genetic programming.» 13th International Conference onArtificial Neural Networks
13-16.
Lundberg, et Kononenko. 2016. «An unexpected unity among methods for interpreting model
predictions.» arXiv preprint arXiv:1611.07478.
Nunez, Angulo, et Catala. 2002. «Rule extraction from support vector machines.» Esann 107-
112.
Olah. 2017. «Feature Visualization.» Distill.
Olah. 2018. «The Building Blocks of Interpretability.» Distill.
Olah. 2018. «The Building Blocks of Interpretability.» Distill.
R.Dennis. 1977. «Detection of influential observation in linear regression.» Technometrics
15-18.
Ribeiro, Singh, et Guestrin. 2016. «Nothing else matters: Model-agnostic explanations by
identifying prediction invariance.» arXiv preprintarXiv:1611.05817.
Shapley. 1953. «A value for n-person games.» Contributions to the Theory of Games 307-
317.
Wachter, Mittelstadt, et Russell. 2017. «Counterfactual explanations without opening the
black box: Automated decisions and the GDPR.»

Vous aimerez peut-être aussi