1
0. INTRODUCTION
La classification est depuis longtemps une problématique importante
issue surtout de l’étude des phénomènes naturels. La classification automatique
regroupe l’ensemble des méthodes statistiques visant à détecter des groupes,
généralement appelés classes, dans un échantillon d’objets. L’essence de cette
classification est que contrairement à l’analyse discriminante (classification
supervisée), il n’est pas nécessaire de connaître à priori la structure d’un groupe.
Le but de la classification automatique est de regrouper les
observations similaires et à séparer celles qui sont dissimilaires, comme le montre
la figure ci – dessous, puisque les mesure ou les notions de similarité peuvent être
explicitées de multiples façons, alors de nombreuses méthodes de classification
automatique ont été proposées depuis les années 1930.
Classification automatique
En général, on peut parler de classification automatique si aucune
information n’est disponible concernant l’appartenance de certaines données
certaines classes connues. Par ailleurs, le nombre de groupes recherchés peut être
connu a priori ou non. On peut résumer la classification automatique par les
étapes suivantes :
1. Calcul des dissimilarités entre les individus.
2. Choix d’un algorithme de classification et exécution.
3. Interprétation des résultats : évaluation de la qualité de la classification et
description des classes obtenues.
Dans ce travail, nous allons essayer de parler de la classification
automatique puis parler de l’algorithme de K-Means et enfin de la logique floue.
2
I. CLASSIFICATION AUTOMATIQUE
Définition.
La classification automatique, nous pouvons définir que le clustering
consiste à partitionner une population hétérogène en de sous-groupe homogènes
de manière à minimiser l’inertie intra-classe et maximiser l’inertie inter-classe.
La métrique utiliser est la distance euclidienne.
Partitionner X en K classes homogènes
𝑗 𝑛
Inertie Intra-classe = ∑𝑘𝑗=1 ∑𝑖=1 𝑃𝑗 𝑑 2 (𝑥𝑖 , 𝑔𝑖 )
Avec nj =Nombre des individus dans la classe j
n= nombre total des individus de toutes les classes.
k= Classe
Pj = Poids de la classe
𝑛𝑗
𝑛𝑗 ∑𝑖=1 𝑥𝑖𝑗
P j= 𝑔𝑖 =
𝑛 𝑛𝑗
Inertie Inter-classe = ∑𝑘𝑗=1 𝑃𝑗 𝑑 2 (𝑔𝑗 , 𝑔̌)
Le théorème de Huygiens est donné par :
It = 𝑰𝒏𝒕𝒓𝒂𝒄𝒍𝒂𝒔𝒔𝒆 + 𝑰𝒏𝒕𝒆𝒓𝒄𝒍𝒂𝒔𝒔𝒆
Autres définitions :
Définition 1
La classification automatique (clustering), est la tâche qui segmente
une population hétérogène en un certain nombre de groupes, plus homogènes,
appelés clusters.
Définition 2
La classification désigne l’ensemble des processus aptes à être exécutés
par l’ordinateur pour constituer les hiérarchies des classes ou de simples
partitions établies à partir d’un tableau. La classification consiste à créer une
typologie de classe à partir d’un ensemble d’objet.
Dans la classification, nous avons un ensemble de données X,
contenant une population hétérogène avec des connaissances des variables
caractérisant X :
3
Hypothèse X xi IR n : 1 i p
Avec X comme population hétérogène. Ce dernier permettra d’arriver
à trouver notre y qui sera la target.
Yn : X Oh
x i y h xi
Avec Oh soit déterministe ou non déterministe.
Dans le cas de déterministe, le Oh est inclus dans R pour le variable
quantitative continue et inclus dans N pour les variables quantitative
discrète.
Dans le cas non déterministe, nous avons la Probabilité et le flou que nous
allons exploiter dans ce chapitre.
La segmentation se fait grâce aux algorithmes et d’une manière générale,
ces algorithmes cherchent à maximiser d’une part l’homogénéité des données
au sein des groupes de données et d’autre part à former des groupes aussi
distincts que possible : selon le contexte, on choisit d’utiliser tel ou tel
algorithme pour la classification de données par exemple selon leur densité ou
leur gradient de densité.
L’apprentissage non-supervisé correspond donc au cas où aucune cible
n’est pas prédéterminée ; L’apprentissage non-supervisé est basé sur une analyse
descriptive comme dit ci haut. Sur ce, il y a manque d’informations sur les
données ou bien les données sont non étiquetées.
Le système ne dispose que d'exemples, mais pas d'étiquettes, alors le
nombre de classes et leur nature ne sont pas prédéfinis. Dans ce cas l'algorithme
d'apprentissage cherche à trouver des régularités dans une collection d'exemples,
puisqu’il ne connaît pas la classe à laquelle les exemples d'apprentissage
appartiennent.
Une technique employée consiste à implémenter des algorithmes pour
rapprocher les données les plus similaires et éloigner ceux qui ont le moins de
caractéristiques communes. Ces groupes d'exemples similaires sont parfois
appelés des prototypes. La classification automatique ou segmentation c’est le
fait de construire une collection d’objets Similaires au sein d’un même groupe et
dissimilaires quand ils appartiennent à des groupes différents. Les algorithmes
4
de classification non supervisées sont souvent utilisés pour étudier des données
pour lesquelles peu d’informations sont disponibles.
Il existe une très large famille de méthodes dédiées à la classification
non supervisée. Tel que l’algorithme de K-means, Nuées dynamiques (qui
généralise le K-means. Ici il est question des noyaux, on agrège les noyaux tout
autour du centre de gravité), mélange de Gaussien et autres.
5
II. ALGORITHME K-MEANS
L’algorithme k-means mis au point par McQueen en 1967, est un des
plus simples algorithmes d’apprentissage non supervisé. Il attribue chaque point
dans un cluster dont le centre (centroïde) est le plus proche. Le centre est la
moyenne de tous les points dans le cluster. Ses coordonnées sont la moyenne
arithmétique pour chaque dimension séparément de tous les points dans le
cluster c’est-à-dire chaque cluster est représenté par son centre de gravité. Le K-
means (k moyennes) est l’un des algorithmes de machine Learning non
supervisés les plus facile à comprendre et à utiliser. Aujourd’hui cet algorithme
est l’un des plus répandus.
Par définition, l’algorithme K-means est un algorithme non supervisé
de clustering non hiérarchique. Il permet de regrouper en clusters distincts les
observations du data set.
Ainsi les données similaires se retrouveront dans un même cluster. Par
ailleurs, une observation ne peut se retrouver que dans un cluster à la fois
(exclusivité d’appartenance). Une même observation, ne pourra donc, appartenir
à deux clusters différents.
Pour pouvoir regrouper un jeu de données en cluster distincts,
l’algorithme K-Means a besoin d’un moyen de comparer le degré de
similarité entre les différentes observations. Ainsi, deux données qui se
ressemblent, auront une distance de dissimilarité réduite, alors que deux objets
différents auront une distance de séparation plus grande.
L'algorithme k-means est une méthode populaire de clustering non
supervisée utilisée pour partitionner un ensemble de données en k clusters.
Chaque cluster est caractérisé par son centroïde, qui est la moyenne des points
appartenant à ce cluster. Voici une explication détaillée de l'algorithme k-means
:
Étapes de l'Algorithme k-means
0. Initialisation
o Choisir le nombre de clusters k : Cela peut être basé sur une
connaissance préalable des données ou en utilisant des méthodes pour
estimer le meilleur nombre de clusters.
o Initialiser les centroïdes : Les centroïdes peuvent être choisis de
manière aléatoire parmi les points de données ou en utilisant des
méthodes avancées comme k-means++ pour améliorer la qualité des
clusters initiaux.
6
1. Attribution des Points aux Clusters
o Pour chaque point de données, calculer la distance entre ce point et
chacun des centroïdes.
o Assigner chaque point de données au cluster dont le centroïde est le plus
proche.
2. Mise à Jour des Centroïdes
o Pour chaque cluster, recalculer le centroïde comme étant la moyenne des
points de données assignés à ce cluster.
3. Répéter les Étapes 2 et 3
o Répéter les étapes d'attribution des points et de mise à jour des centroïdes
jusqu'à ce que les centroïdes ne changent plus de manière significative ou
jusqu'à ce qu'un nombre maximum d'itérations soit atteint.
4. Convergence
o L'algorithme converge lorsque les centroïdes n'évoluent plus ou lorsque
les points ne changent plus de cluster d'une itération à l'autre.
Algorithme k-means
Entrée : ensemble de données X, nombre de clusters k
Sortie : centres des clusters, attribution des points aux clusters
1. Initialiser les k centroïdes aléatoirement parmi les points de données
2. Répéter jusqu'à convergence :
a. Pour chaque point de données :
i. Calculer la distance entre le point et chaque centroïde
ii. Assigner le point au cluster avec le centroïde le plus proche
b. Pour chaque cluster :
i. Mettre à jour le centroïde en calculant la moyenne des points du cluster
3. Retourner les centroïdes et les attributions de clusters
La distance la plus couramment utilisée est la distance euclidienne, mais d'autres
mesures de distance peuvent être utilisées en fonction des données et des objectifs du clustering.
Exemple : Supposons un ensemble de données en deux dimensions avec les
points suivants : (1, 2), (1, 4), (1, 0), (10, 2), (10, 4), (10, 0) Et nous voulons les
partitionner en k = 2 clusters.
Étape 1 : Initialisation
Choisissons aléatoirement deux centroïdes initiaux, par exemple C1 = (1, 2)
et C2 = (10, 2).
Étape 2 : Attribution des Points aux Clusters
Calculons la distance de chaque point à chaque centroïde et attribuons les
points aux clusters les plus proches.
7
Point Distance à C1 Distance à C2 Cluster Assigné
(1,2) 0 9 1
(1,4) 2 9.22 1
(1,0) 2 10 1
(10,2) 9 0 2
(10,4) 9.22 2 2
(10,0) 10 2 2
Étape 3 : Mise à Jour des Centroïdes
Calculons les nouveaux centroïdes en prenant la moyenne des points de chaque cluster.
o Nouveau C1 : Moyenne de (1, 2), (1, 4), (1, 0) = (1, 2)
o Nouveau C2 : Moyenne de (10, 2), (10, 4), (10, 0) = (10, 2)
Répéter jusqu'à Convergence
Les centroïdes n'ont pas changé, donc l'algorithme converge. Les clusters
finaux sont :
o Cluster 1 : (1, 2), (1, 4), (1, 0)
o Cluster 2 : (10, 2), (10, 4), (10, 0)
Note : La convergence de l’algorithme K-Means peut être l’une des conditions
suivantes :
Un nombre d’itérations fixé à l’avance, dans ce cas, K-means effectuera les
itérations et s’arrêtera peu importe la forme de clusters composés.
Stabilisation des centres de clusters (les centroides ne bougent plus lors des
itérations).
L’affectation d’un point à un cluster se fait en fonction de la distance de ce
point par rapport aux différents centroides. Par ailleurs, ce point se fera affecté à un
cluster s’il est plus proche de son centroïde (distance minimale). Finalement, la
distance entre deux points dans le cas de K-Means se calcule par les méthodes évoquées
dans le paragraphe “notion de similarité”.
Avantages et Inconvénients
Avantages
o Simplicité : Facile à comprendre et à implémenter.
o Efficacité : Rapide pour des petits à moyens ensembles de données.
Inconvénients
o Choix de k : Le nombre de clusters k doit être spécifié à l'avance.
8
o Sensibilité aux points initiaux : Les résultats peuvent varier en
fonction des centroïdes initiaux.
o Clusters sphériques : Fonctionne bien lorsque les clusters sont convexes
et de forme sphérique.
o Sensible aux Outliers : Les points aberrants peuvent influencer de
manière significative les centroïdes.
En résumé :
L'algorithme du k-means est un algorithme très utilisé en clustering.
Il fonctionne généralement bien, il est rapide et relativement simple à
comprendre.
Il est non déterministe, c'est-à-dire que les clusters obtenus peuvent
changer légèrement si on relance l'algorithme plusieurs fois.
Il a toutefois besoin qu'on lui spécifie le nombre de clusters à produire.
Pour choisir le nombre de clusters, on applique la méthode du "coude", et
on cherche une "cassure" dans la courbe liant la variance intraclasse au
nombre de clusters
9
III. LA LOGIQUE FLOUE
La logique floue (ou logique floue) est une extension de la logique classique
qui permet de manipuler des concepts vagues ou imprécis. Elle a été introduite par
Lotfi Zadeh en 1965 et est largement utilisée dans les systèmes de prise de décision, le
contrôle industriel, l'intelligence artificielle et de nombreux autres domaines.
La logique floue est un type de modélisation qui s’intéresse à la prédiction
d’une variable catégorielle 𝑌 « subjective » au sens où elle n’est pas objectivable : elle
dépend de l’observateur (l’individu est « grand », « moyen » ou « petit »). Ce cadre
sort de la statistique classique dans lequel la valeur de la variable 𝑌 est objectivable («
l’individu mesure 176 cm »). L’application de la logique floue revient à tenter
d’appliquer un raisonnement proche de la pensée humaine :
Les variables prédictives (comme la variable à prédire) sont catégorielles
avec des modalités subjectives (« grand », « petit ») et non pas de
données objectivables (176 cm). Ces variables catégorielles sont appelées
« variables linguistiques ». Dans le cadre statistique usuel, la variable
continue initiale (ici la taille en cm) peut être discrétisée pour donner des
intervalles distincts, par exemple : « petit < 170cm < moyen < 180cm
<grand ». La logique floue vise à prendre en compte les incertitudes qui
existent au voisinage des seuils (due en partie à des principes de
subjectivité).
Une donnée peut appartenir à plusieurs modalités d’une même variable
(un individu de 165 cm peut être considéré comme petit mais aussi
comme moyen). Les classes définies ne partitionnent donc pas l’ensemble
des possibles car elles peuvent se recouper.
La logique floue intègre un ensemble de règles permettant d’attribuer
(d’une manière logique) une sortie à une entrée.
La logique floue permet donc d’intégrer des systèmes experts dans des
processus automatisés. Ce point constitue à la fois une force et une faiblesse de la
logique floue. Le graphique de véracité suivant montre qu’un individu de 162 cm peut
être considéré en logique floue comme étant petit à 60% et moyen à 40%
10
Au-delà de cette différence de principe, elle intègre également une prise en
compte des interactions différentes de celle du monde probabiliste en redéfinissant les
opérateurs logiques.
Opérateurs flous Opérateurs
de Zadeh probabilistes
A ET B 𝑀𝑖𝑛(𝜇𝐴, 𝜇𝐵) 𝜇𝐴 × 𝜇𝐵
A OU B 𝑀𝑎𝑥(𝜇𝐴, 𝜇𝐵) 𝜇𝐴 + 𝜇𝐵 − 𝜇𝐴 × 𝜇𝐵
NON A 1 − 𝜇𝐴 1 − 𝜇𝐴
Tableau 1 : traduction mathématique sous la logique Floue
Dans le Tableau 1 : traduction mathématique sous la logique Floue, 𝜇
désigne la fonction de véracité pour les opérateurs flous qui est l’analogue de la mesure
de probabilité en théorie des probabilités classiques.
On remarque que :
(𝐴 𝐸𝑇 𝐵)𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑠𝑡𝑒 ≤ (𝐴 𝐸𝑇 𝐵)𝑓𝑙𝑜𝑢 ≤ (𝐴 𝑂𝑈 𝐵)𝑓𝑙𝑜𝑢 ≤ (𝐴 𝑂𝑈 𝐵)𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑠𝑡𝑒.
Développée à partir de 1965 par le professeur Lofti Zadeh de l’université de
Berkeley dans un article fondateur qui en définit les principes (ZADEH, 1965) , elle
constitue une généralisation des ensembles classiques. Elle commence à être utilisée
dans l’industrie, la médecine, la mise en place de système experts dans le milieu des
années 70 puis verra son utilisation généralisée dans les années 90 (autofocus,
autocuiseurs, systèmes autonomes mobiles, systèmes de décision, de diagnostic, de
reconnaissance).
Son fonctionnement peut se résumer en trois grandes étapes :
11
Fuzzification Inférence floue Défuzzification
Base de connaissances floues
La fuzzification : transformation des variables en variables floues (aussi
appelées variables linguistiques) en leur associant des lois de véracité (la
variable taille est divisée en modalités « un individu de taille 162 cm est
« petit » à 60%, « moyen » à 40% et « grand » à 0% »). Ce procédé
s’apparente à la définition de lois a priori en statistiques bayésiennes,
avec dans cette exemple une loi a priori (0,6 ; 0,4 ; 0). La différence dans
ce cadre est que la somme des véracités n’est pas tenue de valoir 1.
L’inférence floue : construction de règles (et de résultats) basées sur les
variables linguistiques, attribution d’une véracité à chaque règle, puis
agrégation des règles pour obtenir un résultat (linguistique) unique
La defuzzification : passage d’un résultat linguistique à un résultat
chiffré.
1. La fuzzification
Cette première étape consiste à transformer les variables (d’entrée et de
sortie) en variables linguistiques :
Pour chaque variable, on définit dans un premier temps l’univers du discours
(i.e. la plage de valeurs que peut prendre la variable).
La variable est ensuite découpée en catégories appelées variables linguistiques ;
Une fonction (allant de 0% à 100%) permettant de définir pour chaque variable
son pourcentage de véracité à l’affirmation : « l’observation est dans telle
catégorie » est affectée à chaque catégorie
Cette étape est principalement réalisée sur la base d’observations
statistiques (ou par apprentissage, supervisé ou non, pour regrouper les valeurs d’une
variable en catégories homogènes) ou à dire d’expert. Les graphiques ci-après sont
tracés en prenant l’exemple de la taille.
12
Variable linguistiques
Véracité, Sortie 1,20
Appartient à catégorie 1
1,00
0,80
0,60
0,40
0,20
0,00
156 161 166 171 176 181 186 191
Taille en cm
Sortie - Cat1 ("est petit") Sortie - Cat2 ("est moyen")
Univers du discours
Figure 1 : Fonction de véracité
Ainsi, dire que la sortie est dans la catégorie 1 si la variable en sortie vaut 75% à une
véracité de 70% et une véracité de 30% pour la catégorie 2.
Univers du discours : taille en cm comprise entre 156cm et 194cm
Variable linguistique : nom de la variable de sortie (par exemple la taille)
Valeurs linguistiques : « Cat1 » (petit), « Cat2 » (moyen).
2. L’inférence floue
a. Construction d’un ensemble de règle
Sur la base des catégories précédemment réalisées, un ensemble de règles
sont construites. Par exemple : « Variable 1 Catégorie 1 et Variable 2 Catégorie 1 ».
Une véracité pour chacune des règles est alors calculée. La construction de
ces règles, principalement basée sur des « ET », des « OU » et des « SANS », se traduit
mathématiquement de la sorte.
b. Matrice de décision
Chaque règle se voit attribuer une réponse au travers d’une matrice de
décision.
Sortie Var 2 Cat 1 Var 2 Cat 2
Var 1 Cat1 Cat1 Cat 2
Var 1 Cat2 Cat 2 Cat 1
Tableau 2 : matrice de décision
Ceci pouvant se réécrire :
13
Règle Descriptif Règle de sortie
(𝒊) (𝑹𝒊) (𝑪𝒐𝒏𝒄𝒍𝒖𝒔𝒊𝒐𝒏𝑹𝒊 )
1 Var 1 Cat 1 et Var 2 Cat 1 Sortie Cat1
2 Var 1 Cat 1 et Var 2 Cat 2 Sortie Cat2
3 Var 1 Cat 2 et Var 2 Cat 1 Sortie Cat2
4 Var 1 Cat 2 et Var 2 Cat 2 Sortie Cat1
Tableau 3 : matrice de décision, vue éclatée
A cette étape, une observation suit donc le parcours suivant :
Fuzzification Inférence floue
Variable 1 Fonction Veracité
Cat 1 fonc(Var1,Cat1) obs Cat 1
Cat 2 fonc(Var1,Cat2) obs Cat 2
Règle Réponse Veracité réponse
Regle 1 Sortie Regle 1 Véracité 1
Observation
Regle 2 Sortie Regle 1 Véracité 2
Regle 3 Sortie Regle 2 Véracité 3
Variable 2 Fonction Veracité Regle 4 Sortie Regle 4 Véracité 4
Cat 1 fonc(Var2,Cat1) obs Cat 1
Cat 2 fonc(Var2,Cat2) obs Cat 2
𝜇𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛(𝑆𝑜𝑟𝑡𝑖 𝜇𝑅𝑒𝑔𝑙𝑒(𝑂𝑏𝑠)
c. Implication : calcul de la règle d’activation
Il reste à définir une règle d’activation afin d’obtenir une réponse unique.
Cette étape s’appelle l’implication. Elle peut être effectuée au travers de deux règles :
Notons 𝑥0 = (𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒1, 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒2) les caractéristiques de l’individu.
Larsen : 𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛R’ 𝑖 : 𝑦 ↦ 𝜇𝑅𝑖(𝑥0) × 𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛𝑅𝑖 (𝑦)
Mamdani : 𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛𝑅′ 𝑖𝑦 ↦ 𝑀𝐼𝑁𝑦 (𝜇𝑅𝑖(𝑥0), 𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛𝑅𝑖(𝑦))
Avec :
𝜇𝑅𝑖(𝑥0) le degré d’activation de la règle ;
𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛𝑅𝑖(𝑦) la fonction d’appartenance de l’ensemble flou de sortie en
fonction de la règle de décision. Il conviendra de garder en mémoire que
𝜇𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛𝑅𝑖 est une fonction.
Aussi, calculer la règle d’activation revient à croiser la probabilité de la
règle et la probabilité de la sortie associée à la règle. Il est possible de poursuivre
l’analogie avec les méthodes bayésiennes du cadre probabiliste classique : la probabilité
14
de la règle peut s’apparenter à une probabilité a priori, et la probabilité de la sortie à
une probabilité a posteriori.
Fuzzification Inférence floue
Sortie Fonction
Cat 1 fonc(Sortie,Cat1)
Cat 2 fonc(Sortie,Cat2)
Réponse Veracité réponse Véracité sortie Implication
Sortie Regle 1 Mu(R1) Mu(Conclusion R1) Croisement
Observation Partie variable Sortie Regle 2 Mu(R2) Mu(Conclusion R2) véracité
Sortie Regle 3 Mu(R3) Mu(Conclusion R3) réponse et
Sortie Regle 4 Mu(R4) Mu(Conclusion R4) sortie
En prenant la règle de Larsen et en reprenant le graphique associé à la règle de sortie et en
supposant :
Veracité réponse Valeur de véracité
Véracité 1 70%
Véracité 2 0%
Véracité 3 40%
Véracité 4 0%
On obtient :
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
156 161 166 171 176 181 186 191
Taille en cm
Activation règle 1 Activation règle 2
Figure 2 : activation
Remarque : L’implication donne naissance à une courbe dans le sens où :
La variable d’entrée donne naissance à des véracités (en traversant les
différentes règles)
La variable de sortie (associée à chaque règle) est également une fonction
de véracité pour chaque modalité.
d. L’agrégation
Cette quatrième étape de l’inférence consiste à regrouper toutes les règles.
Ce regroupement est donc effectué à base de « Ou » logiques, ce qui se traduit (cf.
Tableau 1) par des « Max ». En reprenant le graphique
15
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
156 161 166 171 176 181 186 191
Taille en cm
Activation finale
Figure 3 : activation finale
3. La défuzzification
Dernière étape de la logique floue, elle a pour objectif de transformer la
courbe d’activation finale obtenue lors de l’étape d’agrégation en une valeur réelle.
Deux méthodes sont alors applicables pour obtenir la valeur retenue de la
variable à prédire :
La méthode de la moyenne des maxima : correspond à la moyenne des valeurs
de sortie les plus vraisemblables.
La méthode des centres de gravité : abscisse du centre de gravité de la surface
de la courbe de résultats.
Méthode de la moyenne des maxima
16
0 ,80
S
0 ,70
0 ,60
0 ,50
0 ,40
0 ,30
0 ,20
0 ,10
0 ,00
U
156 161 166 171 176 181 186 191
Taille en cm
Activation finale
Figure 4 : application méthode des maximas
Cette méthode présente l’inconvénient de fournir des résultats très volatiles
(une modification de l’input peut conduire à changer la zone de maxima et entrainer
une modification brutale de la variable de sortie). Elle est principalement utilisée pour
de la reconnaissance de forme.
Méthode des centres de gravité
Cette méthode semble préférable (et plus cohérente avec les principes de la
logique floue) dans le sens où elle intègre le fait qu’un individu peut appartenir à deux
catégorie en même temps. On notera l’analogie avec un calcul d’espérance probabiliste
(le dénominateur est un facteur de normalisation permettant de prendre en compte le
fait que la véracité est supérieure à 100%).
In fine, la logique floue peut se comparer à la statistique classique faisant
intervenir des mélanges de lois. 𝑌 suit une loi dont la densité dépend de la valeur prise
par une variable 𝑋 de Bernouilli.
17
Figure 5 : Exemple de mélanges de loi
La logique floue peut s’appliquer dès lors qu’une problématique se base sur
une modélisation comportementale ou intègre un raisonnement subjectif (comme par
exemple un niveau de satisfaction ou un a-priori). Elle ouvre donc la possibilité à de
nombreuses applications actuarielles, notamment :
La modélisation de comportements associés à un sentiment de satisfaction :
rachat conjoncturel, arbitrage Euro/UC.
La modélisation de décisions liées, en partie, à une intuition : analyse d’un
dossier pour sentiment de fraude.
18
IV.CONCLUSION
Nous voici arrivé au terme de ce travail pratique du séminaire de data
mining et classification automatique où le professeur nous a demander de faire un
résumé de ce qu’on a eu durant les différentes séances du séminaire.
Sur ceux, on a parlé de la classification automatique qui regroupe
l’ensemble des méthodes statistiques visant à détecter des groupes,
généralement appelés classes, dans un échantillon d’objets ; l’algorithme K–
means qui est un algorithme d’apprentissage non supervisé et enfin, la logique
floue qui est une extension de la logique classique qui permet de manipuler des
concepts vagues ou imprécis.
19
TABLE DES MATIERES
0. INTRODUCTION............................................................................................................ 1
I. CLASSIFICATION AUTOMATIQUE .......................................................................... 2
II. ALGORITHME K-MEANS ......................................................................................... 5
III. LA LOGIQUE FLOUE................................................................................................. 9
1. La fuzzification .............................................................................................................. 11
2. L’inférence floue ............................................................................................................ 12
a. Construction d’un ensemble de règle ............................................................................... 12
b. Matrice de décision .......................................................................................................... 12
c. Implication : calcul de la règle d’activation ...................................................................... 13
d. L’agrégation ..................................................................................................................... 14
3. La défuzzification .......................................................................................................... 15
Méthode de la moyenne des maxima .................................................................... 15
IV. CONCLUSION ............................................................................................................ 18