INTELLIGENCE ARTIFICIELLE
APPROFONDIE
ANALYSE DE DONNÉES
2022-2023
OBJECTIFS
Installer et exploiter les logiciels d’explorations de données
(Logiciels libres ou propriétaires);
Discerner la nature de données (qualitatives ou quantitatives) et
d’arriver à appliquer la (les ) méthode(s) d’analyse de données
appropriées à l’exploration de données;
22/02/2023 MUSAS A MUSAS André 2
Plan du TP
[Link] théoriques
Quelque rappel sur :
Analyse de données;
Méthodes d’analyse de données.
22/02/2023 MUSAS A MUSAS André 3
Plan du TP
B. Bases pratiques
Application des logiciels:
Tanagra, Sipina et logiciel R;
Quelques exemples de Dataset:
22/02/2023 MUSAS A MUSAS André 4
Quelque rappel
Analyse de données;
Méthodes d’analyse de données.
22/02/2023 MUSAS A MUSAS André 5
Quelque rappel
ANALYSE DE DONNES
22/02/2023 MUSAS A MUSAS André 6
Quelque rappel
Quel type de données à explorer ?
Le composant de base dans le processus d’exploration de données est
l’ensemble d’échantillons représentants les données à explorer.
Chaque échantillon est présenté sous forme de ligne caractérisée par
un ensemble d’attributs. Dans le cas des bases de données, un
échantillon est un enregistrement composé d’un ensemble de champs.
Généralement, il convient de représenter les enregistrements sous
forme de points dans un espace de m dimensions où m est le nombre
d’attributs.
22/02/2023 MUSAS A MUSAS André 7
Quelque rappel
Un enregistrement ou données au sens des bases de données, en
statistique est appelé "individu", en conception orienté objet il appelé «
instance »et finalement en base de données relationnelles il est
nommé « tuple ». Une donnée est caractérisée par un ensemble de
"champs", de "caractères", ou encore d’attributs (en suivant les 3
terminologies précédemment évoquées : bases de données, statistiques
et conception orientée objet).
22/02/2023 MUSAS A MUSAS André 8
Quelque rappel
Table1
Attribut1 …... ……... ……... ……. Attribut N
valeur1 ……….
valeur2 ……….
Echantillons
(Enregistrement) ……... ……...
……... ……….
………. ……….
……... ……….
Valeur d’un attribut pour un
22/02/2023 enregistrement donnée
MUSAS A MUSAS André 9
Quelque rappel
Types de données
Il est clair que dans le cas des attributs numériques nous
pouvons calculer dans un ensemble d’enregistrements, un
max, un min, une moyenne, une distance etc. Alors que
dans le cas d’attributs catégoriels ou qualitatifs ça sera
impossible.
22/02/2023 MUSAS A MUSAS André 10
Quelque rappel
Types de données
Les attributs ou les champs sont de deux types : quantitatifs
(Numériques) où qualitatifs (Catégoriels). Autrement dit variable
quantitative et variable qualitative. Les attributs quantitatifs ou
numériques comportent les variables réelles ou entières alors que les
attributs catégoriels ou qualitatifs (appelées aussi symboliques)
possèdent des noms comme par exemple la couleur, l’adresse etc.
22/02/2023 MUSAS A MUSAS André 11
Quelque rappel
METHODES D’ANALYSE DE DONNEES
22/02/2023 MUSAS A MUSAS André 12
Quelque rappel
Description
Visualisation
Processus systémique d’exploration de données
3
1 2
Collecte de Exploration de données 4 Interprétation
données Base de
données
3
5
Prédiction
Décision
Construction du modèle
22/02/2023 MUSAS A MUSAS André 13
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Les logiciels d’exploration de données sont des programmes
spécialisés dans l'analyse et l'extraction des connaissances à
partir des données informatisées. Ce sont des logiciels qui
aident l'analyste en exploration de données à trouver des
motifs remarquables et intéressants. Il peut s'agir de
logiciels commerciaux ou de logiciels libres
22/02/2023 MUSAS A MUSAS André 14
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Logiciels libres
Knime, logiciel R, Orange, RapidMiner, Weka, Sipina et
Tanagra.
Logiciels commerciaux
KXEN Analytic Framework, SAS Enterprise Miner, SPSS,
Statistica Data Miner, Braincube, GPC system et CORICO
22/02/2023 MUSAS A MUSAS André 15
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Tanagra
Tanagra est un logiciel gratuit d’exploration de données
destiné à l’enseignement et à la recherche. C’est une macro
complémentaire d’Excel qui implémente une série de
méthodes d’exploration de données issues du domaine de la
statistique exploratoire, de l’apprentissage automatique et
des bases de données.
22/02/2023 MUSAS A MUSAS André 16
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Sipina
Sipina est un autre logiciel libre utiliser pour l’exploration de données
spécialisé pour l’enseignement et la recherche. Il est aussi une macro
complémentaire d’Excel offrant plusieurs fonctionnalités
d’explorations de données à l’aide des arbres de décisions. Son
exécution demeure la même que celle réalisée précédemment avec
Tanagra.
22/02/2023 MUSAS A MUSAS André 17
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Quelques exemples de Dataset
22/02/2023 MUSAS A MUSAS André 18
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
activite hôtel Locat Propri parent amis tente villag divers
Agriculteur 160 28 0 321 36 141 45 65
Salariés 35 34 1 178 8 0 4 0
Patrons 700 354 229 959 185 292 119 140
Cadre sup 961 471 633 1580 305 360 162 148
Cadre moy 572 537 279 1689 206 748 155 112
Employés 441 404 166 1079 178 434 178 92
Ouvriers 783 1114 387 4052 497 1464 525 387
Personnels 65 43 21 294 79 57 18 6
Autres actif 77 60 189 839 53 124 28 53
Non actifs 741 332 327 1789 311 236 102 102
22/02/2023 MUSAS A MUSAS André 19
APPLICATION DES LOGICIELS D’EXPLORATION
DE DONNEES
Maladie Poids Taille Marié [Link]
Présent 45 Trapu Non Oui
Présent 57 Elancé Non Oui
Absent 59 Elancé Non Non
Absent 61 Trapu Oui Oui
Présent 65 Elancé Non Oui
Absent 68 Elancé Non Non
Absent 70 Trapu Oui Non
Présent 72 Trapu Non Oui
Absent 78 Trapu Oui Non
Présent 80 Elancé Oui Non
22/02/2023 MUSAS A MUSAS André 20
MERCI POUR VOTRE ATTENTION
22/02/2023 MUSAS A MUSAS André 21