0% ont trouvé ce document utile (0 vote)
258 vues41 pages

Chap1-Introduction Au ML

Transféré par

kaoulatouati
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
258 vues41 pages

Chap1-Introduction Au ML

Transféré par

kaoulatouati
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Tunis Elmanar

Institut Supérieur d’Informatique

Cours : Apprentissage
Artificiel

Chapitre 1: Introduction à
l’apprentissage Artificiel
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Plan

1) Introduction : motivations,

2
1. Introduction

3
Apprentissage artificiel (Machine
Learning)

4
Apprentissage artificiel (Machine
Learning)

5
Apprentissage artificiel
INTELLIGENCE
ARTIFICIELLE
STATISTIQUES, OPTIMISATION
analyse et
fouille de
données
Apprentissage
Artificiel
AUTOMATIQUE,
commande, VISION
robotique
6
Apprentissage artificiel (Machine
Learning) : définition
Le Machine Learning est une technologie d’intelligence artificielle
permettant aux ordinateurs d’apprendre notre environnement et de réagir en
conséquence comme les humains. Pour apprendre et se développer, les
ordinateurs ont toutefois besoin de données à analyser et sur lesquelles
s’entraîner. Capacité d’un système à améliorer ses performances via des
interactions avec son environnement. Plus les données d’apprentissage sont
de grande taille plus le système est performant et reconnait mieux son
environnement.
Il existe deux champs industriels de l’apprentissage artificiel :
 symbolique utilise des données non structurées à l’état brut (image,
vidéo, son, ..etc). Exple : reconnaissance de formes, robotique, iot, ..etc.
numérique : Travaille avec des données structurées dans des tables.
issue des statistiques (fouille de données). Exple : profiling, estimations
statistiques, prédictions de variables ..etc

7
Grande quantité de données

8
Grande quantité de données

9
Grande quantité de données

10
Malédiction de la dimension
Trouver, à l’aide de l’index, les images les plus proches de l’image requête en
utilisant une distance de mesure de similarité. Afficher les images de manière
ordonnées (des plus similaires au moins similaires)

Ces techniques ne sont pas efficaces lorsque la base de données estd e grande
taille: malédiction de la dimension
11
Apprentissage artificiel symbolique
La reconnaissance de
formes (ou reconnaissance de motifs)
est un ensemble de techniques et
méthodes visant à identifier
des motifs informatiques à partir
de données brutes afin de prendre une
décision dépendant de la catégorie
attribuée à ce motif.
Exemple : Reconnaissance faciale,
reconnaissance d’empreintes digitales,
recherche par le contenu …etc.
On parle aussi d’apprendre à jouer (jeux
d’échec, robotique)

12
Apprentissage artificiel numérique
Fouille de données : Prend en charge le
processus complet d’extraction de
connaissances à partir d’un ensemble de
données. Cela comprend la sélection des
données à étudier, nettoyage si
nécessaire puis utilisation des algorithmes
d’apprentissages afin de proposer à
l’utilisateur un modèle d’estimation et enfin
sa validation.

13
Quelques applications du ML
 Reconnaissance automatique de la parole : chatbots
Diagnostiquer automatiquement les images radio et IRM d’un
patient
 Reconnaissance de visages et suivi des individus dans une vidéo
 Reconnaissance automatique d’objets via des images ou des
vidéos
 Recherche sur le web et adaptation aux besoins du client
 Un programme de jeu d’échec
 Guidage des robots (train sans chauffeur)
 Assistance virtuelle (chatbot)
Estimation des résultats des élections
Enquête de satisfaction sur des produits commerciaux
Profiling et publicité ciblée

14
BioMind bat des radiologues
lors d’une compétition de diagnostics en juillet 2018
225 cas
• 15 médecins radiologues • Une intelligence
experts
artificielle

Entrainée sur les archives de


l’hôpital de Beijing Tiantan

87% de diagnostics corrects


66% de diagn²ostics corrects
Prédiction correcte de complication :
Prédiction correcte de complication : 63% 83%
15
Systèmes de recommandation
• Amazon augmente son CA grâce à la
recommandation : Emails
personnalisés et recommandations sur
site:
– Contenu “tendance”
– Articles achetés ensemble
– Recommandations grâce à l’historique
d’achat
– Recommandations grâce à l’historique des
produits vus
– Nouvelles versions d’un produit déjà
possédé 60% de conversion*, 35% du chiffre
d’affaire* * Taux de conversion des emails personnalisés tel que
communiqué aux actionnaires Estimation McKinsey en 2013
**
16
Predpol lutte contre la criminalité

Prédit le lieu, l’heure et la nature du


crime à partir de données historiques.

Utilisée par de nombreuses villes


d'Amérique du Nord (Atlanta, Los
Angeles …)

17
Restrictions
Ces systèmes rudimentaires présentent des
lourdes limitations :
• Ils n’exploitent que les grandeurs
numériques ou catégorielles du dossier
patient
• Les dossiers patients doivent avoir
exactement la même structure:
– Pas de données manquantes
– Les grandeurs doivent être converties
18
Apprentissage Artificiel
• Agent « prédicateur »

historique

Moteur de prédiction
prédiction
données
externes

• Performance visée : minimiser erreur de prédiction


• Moyen mis en œuvre :
utiliser des données expérimentales pour trouver un
modèle prédiction=f(historique, données externes) le
plus correct possible

19
Apprentissage
Nous voulons estimer une variable T en fonction d’un certain
nombre de variable connues x (historique) et une erreur w
Y = f(x,w)
Si T est continue c’est une regression
Si T est discret c’est une classification Classification
(yi = « étiquettes »)
Régression entrée =
(yi = « réelle ») position point
sortie désirée =
classe (yi=-1,
=+1)

Fonction
étiquette=f(x)
(et frontière de
séparation)

20
types d’apprentissage
Apprentissage supervisé partir d’un ensemble d’apprentissage où les classes sont
prédéfinis et les exemples connus. le système apprend à classer un nouvel élément
selon un modèle de classification ou de régression. Le processus se passe en deux
phases.
Phase d’apprentissage : Lors de la première phase (hors ligne, dite
d'apprentissage), il s'agit de déterminer un modèle à partir des données
étiquetées.
Phase de prédiction : La seconde phase (en ligne, dite de test) consiste à
prédire l'étiquette d'une nouvelle donnée, connaissant le modèle préalablement
appris.

Apprentissage non supervisé Quand le système ne dispose que d'exemples et que


le nombre de classes et leur nature n'ont pas été prédéfinis, on parle
de clustering en anglais.

21
Apprentissage supervisé
Classification :
Données d’apprentissage : données non structurées annotées réparties en
classe
Variable à prédire: la classe d’une donnée non annotée

Regression :
Données d’apprentissage : données structurées décrites par un ensemble de
variables xi et dont la variable y est connue
Variable à prédire: la variable ^y d’une donnée dont les xi sont connus

22
Types de données
Données non structurées Données structurées

Success Wages Job Refunding


Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow

23
Apprentissage supervisé
Base de données
1. diviser la base de données entre :

Base de test

Base d’apprentissage

Base d’apprentissage :Fournir un grand nombre de photos qui sont étiquetés


qui serviront pour la recherche.
Base de test : une collection d'images sans étiquette ,qu’on veut classer (de
petite taille)
Données d’apprentissage
le jeu de données d'apprentissage consiste souvent en des
paires d'un vecteur d’entrée (x,w) et du vecteur de sortie
correspondant (T), ce qui est communément désigné comme variable
cible (scalaire ou étiquette ).
• Le modèle actuel est exécuté avec le jeu de données d'apprentissage et
produit un résultat, qui est ensuite comparé à la cible , pour chaque
vecteur d'entrée du jeu de données d'apprentissage. En fonction du
résultat de la comparaison et de l'algorithme d'apprentissage
spécifique utilisé, les paramètres du modèle sont ajustés.
• L'ajustement du modèle peut inclure une sélection de variables et une
estimation de paramètres.

26
Données d’apprentissage
Récupérer des données d’apprentissage dites annotées pour entraîner le
modèle, c'est-à-dire qui ont déjà associé un label ou une classe cible et
vous voulez que l'algorithme devienne capable, une fois entraîné, de
prédire une cible sur de nouvelles données non annotées.

27
base de test
 L' ensemble de données de test est un ensemble de données utilisé pour
fournir une évaluation non biaisée d'un ajustement final du modèle sur
l'ensemble de données d'apprentissage.

 Ce qu’on attend d’une bonne méthode d’apprentissage est sa capacité à


produire les résultats corrects sur des données de test càd non
observées : c’est le principe de généralisation.

28
Apprentissage supervisé
?
Construction
du modéle
d’apprentissag ? ?
Phase d’apprentissage : off line
e
Dossiers
d’apprentissage Modéle
d’apprentissage

? ?
Phase de prédiction: on line
Donnée de test
non étiquettée Modéle Classe
d’apprentissage ou ^y

29
Apprentissage non supervisé
En apprentissage non supervisé, les données d'entrées ne sont pas annotées.
Comment cela peut-il fonctionner ? Eh bien, l'algorithme d’apprentissage
s’applique à trouver seul les similarités et distinctions au sein de ces données, et à
regrouper ensemble celles qui partagent des caractéristiques communes

Apprentissage non
supervisé

30
Apprentissage par renforcement
l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.),
à apprendre les actions à prendre, à partir d'expériences,

•L'idée étant de faire prendre des décisions à un système pour obtenir un résultat
qui soit le meilleur possible.
L’agent intelligent (robot):
– Observe les effets de ses actions
– Déduit de ses observations la qualité de ses actions
– Améliore ses actions future

31
reinforcement learning

qui se base sur un cycle d'expérience / récompense et


améliore les performances à chaque itération. Une
analogie souvent citée est celle du cycle de dopamine :
une "bonne" expérience augmente la dopamine et donc
augmente la probabilité que l'agent répète l'expérience.

32
Facteurs de pertinence pour
l’apprentissage
La qualité de l’apprentissage dépendra de facteurs contraignants, liées à la base
de données :
1) Nombre d'exemples (moins il y en a, plus l'analyse est difficile, mais plus il y en
a, plus le besoin de mémoire informatique est élevé et plus longue est l'analyse) ;
2) Nombre et qualité des attributs décrivant ces exemples. La distance entre
deux « exemples » numériques (prix, taille, poids, intensité lumineuse, intensité de
bruit, etc) est facile à établir, celle entre deux attributs catégoriels (couleur, beauté,
utilité…) est plus délicate ;
3) Pourcentage de données renseignées et manquantes ;
4) « Bruit » : le nombre et la « localisation » des valeurs douteuses (erreurs
potentielles, valeurs aberrantes…) ou naturellement non-conformes au pattern de
distribution générale des « exemples » sur leur espace de distribution impacteront
sur la qualité de l'analyse.

33
Précision Vs Généralisation
La précision est définie par l’écart entre la valeur
mesurée (réelle) et la valeur prédite (issue du modèle
d’apprentissage)
Apprendre avec trop de précision conduit à un sur-
apprentissage. Même les détails non importants (bruits)
sont appris
 Apprendre avec trop peu de précision conduit à une
sur-généralisation. Le modèle s’applique même quand
l’utilisateur ne le souhaite pas.
C’est à l’utilisateur de définir le seuil de généralisation
qu’il juge nécessaire

34
Etapes d’un projet d’apprentissage
automatique
L'acquisition de données : l'algorithme a besoin des données en entrée. Il
en va de la réussite du projet, de récolter des données pertinentes et en
quantité suffisante.
La préparation et le nettoyage de données : En effet, certains attributs
sont inutiles, d’autre doivent être modifiés afin d’être compris par
l’algorithme, et certains éléments sont inutilisables car leurs données sont
incomplètes. Plusieurs techniques telles que la visualisation de données,
la transformation de données (en) ou encore la normalisation sont alors
employées.
La création du modèle (algorithme d’apprentissage)
L'évaluation : une fois l'algorithme entraîné sur un premier jeu de donnée,
on l'évalue sur un deuxième ensemble de données pour vérifier que le
modèle ne fasse pas de surapprentissage.
Le déploiement : le modèle est déployé pour faire des prédictions, et
potentiellement utiliser les nouvelles données en entrée pour se ré-entraîner
et être amélioré.
35
Schéma d’apprentissage

36
Méthodes d'apprentissage supervisé

 Boosting
 Machine à vecteurs de support
 Réseau de neurones artificiels
 Méthode des k plus proches voisins
 Arbre de décision
 Classification naïve bayésienne

37
Supervisé ou non supervisé
• Eh bien, dans le cas où vous avez un problème où vous
pouvez annoter précisément pour chaque observation la
cible que vous voulez en sortie, vous pouvez utiliser
l'apprentissage supervisé.
• Dans le cas où vous essayez de mieux comprendre votre
dataset ou d'identifier des comportements intéressants, vous
pouvez utiliser l'apprentissage non supervisé.

38
Algorithmes d’apprentissage

39
Algorithmes d’apprentissage

40
Algorithmes d’apprentissage

41

Vous aimerez peut-être aussi