0% ont trouvé ce document utile (0 vote)
142 vues8 pages

Weka

Présentation de Weka, une suite d'outils d'apprentissage automatique et d'exploration de données écrits en Java. Weka contient des algorithmes de clustering, classification et régression, ainsi que des outils de prétraitement et d'évaluation des résultats. Il accepte différents formats de données dont le format ARFF par défaut.

Transféré par

chinar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
142 vues8 pages

Weka

Présentation de Weka, une suite d'outils d'apprentissage automatique et d'exploration de données écrits en Java. Weka contient des algorithmes de clustering, classification et régression, ainsi que des outils de prétraitement et d'évaluation des résultats. Il accepte différents formats de données dont le format ARFF par défaut.

Transféré par

chinar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Prsentation de Weka (1)

I Weka (Waikato Environment for Knowledge Analysis)


Environnement Waikato pour lanalyse de connaissances

I Suite de logiciels dapprentissage automatique et dexploration de


donnes crite en Java

I Dveloppe luniversit de Waikato en Nouvelle-Zlande


I Historique
I 1993, Dveloppement de la version originale en C
I 1997, Re-dveloppement partir de zro en Java
I 2005, Weka reoit le SIG KDD award
I 2006, Pentaho Corporation acquiert une licence exclusive
Prsentation de Weka (2)

I 2 848 660 downloads sur Sourceforge (2011)


I Disponible pour toutes les plateformes
I Windows x86, Windows x64, Mac OS X, Linux etc.

I Documentation riche et communaut large


I Le livre Data Mining : Practical Machine Learning Tools and
Techniques (troisime dition)
I API http://weka.sourceforge.net/doc.stable/
I Wiki http://weka.wikispaces.com/
I FAQ http://weka.wikispaces.com/FAQ
I Tutoriels, mailing list, etc.
Que contient le toolkit Weka ?

I Outils de pr-traitement des donnes (filtering)


I Slection, transformation, combinaison dattributs, normalisation,
re-chantillonnage, etc.

I Algorithmes pour lexploration de donnes


I Clustering, classification, rgression, etc.

I Analyse de rsultats
I valuation de performances, comparaison dalgorithmes, etc.

I Plusieurs interfaces
I Graphiques (Explorer, Experimenter et Knowledge Flow )
I En ligne de commande (CLI)
Aperu de linterface de Weka

04 jan 2012 / Rv. 1 - page 10 sur 53


Format dentre (1)
I Le format dentre par dfaut de Weka est le ARFF (Attribute
Relation File Format)
I Dautres formats peuvent tre imports
I CSV, binaire, BDD SQL (avec JDBC), partir dune URL, etc.

I Caractristiques du format de fichier ARFF :

1. Les commentaires sont prcds de %


% Ceci est un commentaire dans un ensemble
% de donnees.
2. Dfinition du nom de lensemble de donnes avec @relation
I Le nom doit tre aussi comprhensible que possible

@relation temperatureMaison_14jours
Format dentre (2)

3. Dfinition des features avec @attribute


I Attributs nominaux suivis des valeurs entre accolades
@attribute outlook {sunny, overcast, rainy}
I Attributs numriques avec real
@attribute temperature real
I Attributs chaines avec string, les valeurs doivent tre entre doubles
guillemets "blah blih bloh"
@attribute unTexte string
I Attributs dates avec date (yyyy-MM-dd-THH :mm :ss)
@attribute uneDate date

4. @data signale le dbut des instances


Exemple de fichier ARFF
% Ensemble de donnees sur la meteo
@relation weather

% Definition des features


@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

% Debut des instances


@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
...
Format dentre (3)
I Par dfaut, le dernier attribut est considr comme la variable de
classe / prdire
I En CLI, la commande -c permet de choisir la variable prdire,
e.g. -c 1 spcifie le premier attribut

I Dans le cas de donnes parses, il est possible de compresser les


donnes en ne reprsentant pas explicitement les valeurs 0
I Le format est <index><espace><valeur>

% Instances contenant beaucoup de 0


0, 6, 0, 0, 0, 0, 3, 0, 0, 0, "class A"
0, 0, 0, 4, 0, 0, 0, 0, 0, 0, "class B"

% Instances compressees avec des accolades


{1 6,6 3 , 10 "class A"}
{3 4, 10 "class B"}

Vous aimerez peut-être aussi