Prsentation de Weka (1)
I Weka (Waikato Environment for Knowledge Analysis)
Environnement Waikato pour lanalyse de connaissances
I Suite de logiciels dapprentissage automatique et dexploration de
donnes crite en Java
I Dveloppe luniversit de Waikato en Nouvelle-Zlande
I Historique
I 1993, Dveloppement de la version originale en C
I 1997, Re-dveloppement partir de zro en Java
I 2005, Weka reoit le SIG KDD award
I 2006, Pentaho Corporation acquiert une licence exclusive
Prsentation de Weka (2)
I 2 848 660 downloads sur Sourceforge (2011)
I Disponible pour toutes les plateformes
I Windows x86, Windows x64, Mac OS X, Linux etc.
I Documentation riche et communaut large
I Le livre Data Mining : Practical Machine Learning Tools and
Techniques (troisime dition)
I API http://weka.sourceforge.net/doc.stable/
I Wiki http://weka.wikispaces.com/
I FAQ http://weka.wikispaces.com/FAQ
I Tutoriels, mailing list, etc.
Que contient le toolkit Weka ?
I Outils de pr-traitement des donnes (filtering)
I Slection, transformation, combinaison dattributs, normalisation,
re-chantillonnage, etc.
I Algorithmes pour lexploration de donnes
I Clustering, classification, rgression, etc.
I Analyse de rsultats
I valuation de performances, comparaison dalgorithmes, etc.
I Plusieurs interfaces
I Graphiques (Explorer, Experimenter et Knowledge Flow )
I En ligne de commande (CLI)
Aperu de linterface de Weka
04 jan 2012 / Rv. 1 - page 10 sur 53
Format dentre (1)
I Le format dentre par dfaut de Weka est le ARFF (Attribute
Relation File Format)
I Dautres formats peuvent tre imports
I CSV, binaire, BDD SQL (avec JDBC), partir dune URL, etc.
I Caractristiques du format de fichier ARFF :
1. Les commentaires sont prcds de %
% Ceci est un commentaire dans un ensemble
% de donnees.
2. Dfinition du nom de lensemble de donnes avec @relation
I Le nom doit tre aussi comprhensible que possible
@relation temperatureMaison_14jours
Format dentre (2)
3. Dfinition des features avec @attribute
I Attributs nominaux suivis des valeurs entre accolades
@attribute outlook {sunny, overcast, rainy}
I Attributs numriques avec real
@attribute temperature real
I Attributs chaines avec string, les valeurs doivent tre entre doubles
guillemets "blah blih bloh"
@attribute unTexte string
I Attributs dates avec date (yyyy-MM-dd-THH :mm :ss)
@attribute uneDate date
4. @data signale le dbut des instances
Exemple de fichier ARFF
% Ensemble de donnees sur la meteo
@relation weather
% Definition des features
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
% Debut des instances
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
...
Format dentre (3)
I Par dfaut, le dernier attribut est considr comme la variable de
classe / prdire
I En CLI, la commande -c permet de choisir la variable prdire,
e.g. -c 1 spcifie le premier attribut
I Dans le cas de donnes parses, il est possible de compresser les
donnes en ne reprsentant pas explicitement les valeurs 0
I Le format est <index><espace><valeur>
% Instances contenant beaucoup de 0
0, 6, 0, 0, 0, 0, 3, 0, 0, 0, "class A"
0, 0, 0, 4, 0, 0, 0, 0, 0, 0, "class B"
% Instances compressees avec des accolades
{1 6,6 3 , 10 "class A"}
{3 4, 10 "class B"}