0% ont trouvé ce document utile (0 vote)
42 vues2 pages

Logiciel R

FUIFU

Transféré par

oumalkheir12
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
42 vues2 pages

Logiciel R

FUIFU

Transféré par

oumalkheir12
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

valeur proche de zéro impliquerait un Ex : A. VI.

Transformation des
Chapitre 1 Prétraitement avec éloignement à l’unicité des données. données
Entrée : Un ensemble de donnée + deux
caret valeurs seuils (ratio de fréquence vs
pourcentage de valeurs uniques). Réduction de dimension :
Sortie : Variables identifiées comme
I. Génération de variables muettes moins informatives Analyse en composantes principales (PCA):
Génération de variables muettes via la Ex : Transformation des variables originelles en un
IV. Normalisation des données
fonction « dummyVars » : nombre de variables synthétiques restreintes
Utilisation de la fonction « preProcess » pour non corrélées entre elles via l’analyse en
Entrée : une formule + un ensemble de composantes principales (ACP).
l’estimation des paramètres à partir des
données Entrée : ensemble de données + méthode
données d’entraînement puis la fonction
Sortie : Un objet facilitant la création de “pca”
« predic.preProcess » pour l’application de
variables muette à partir de la fonction III. Prévention de la multi colinéarité Sortie : un objet contenant les estimations
l’opération de prétraitement sur les données.
« predict » requises pour la mise en œuvre de l’ACP
Entrée : un ensemble de données + options
● Identification des prédicteurs avec de la méthode ( vecteur de caractères obtenues à partir des données
Ex : d’entraînement.
une corrélation presque parfaite à contenant ‘center’ et ‘scale’ pour le centrage
partir de la fonction et la réduction des données).
« findCorrelation ». Sortie : un objet avec les estimations des
Entrée : ensemble de données + valeur seuil moyennes et les écart-types obtenues à partir Analyse en composantes indépendante (ICA) :
II. Détermination des variables non pour l’intensité de la corrélation. des données d’apprentissage. Résumé les données originelles à partir d’un
informatrices Sortie : ensemble de données contenant les ensemble de variables composites
Il s’agit repérer les variables avec une variables avec une corrélation presque Ex : mutuellement indépendantes (IPCA).
variabilité nulle ou très proche de zéro. Cela parfaite. Entrée : ensemble des données + méthode
se fait à travers la fonction « nearZeroVar ». Ex : “ipc”
Sortie : ensemble contenant de données
Usage de 2 métriques : scores des variables composites
(1) Ratio de fréquence : 1ière valeur plus ● Détection de dépendances linéaires à V. Traitement des valeurs manquantes
fréquente divisée par 2ième valeur plus partir de la fonction Transformation du signe spatial(Spatial Sign) :
fréquente ; Une valeur de ce ratio « findLinearCombos » Vous pouvez aussi utiliser la fonction Projection des données des prédicteurs dans
plus élevée indiquerait un Entrée : Matrice de données « preProcess » pour imputer les données un cercle unitaire en p-dimensions. Utilisation
déséquilibre au niveau des données. Sorties : Liste des dépendances linéaires + manquantes à partir des données del a fonction « spatialSign »
(2) Pourcentage de valeurs uniques : vecteur contenant les indices des colonnes à d’entraiment. Entrée: ensemble de données d’entraînement
(Nombre de valeurs uniques / éliminer. Ex : méthode des k-nn ; méthode basée sur Sorte : ensemble de données transformées
une combinaison d’arbre de décision (bagged Ex :
trees).
Nombre total de valeur) ×100 ; Une
Transformation Box-Cox (Normalité) : IV. Partitionnement basé sur les données d’entraînement(initialWindow) , le
Transformation des prédicteurs pour prédicteurs nombre de valeurs consécutives dans
rapprocher leur distribution à celle d’une loi l’ensemble de données test ( horizon) et une
normale. L’approche de dissimilarité maximum est valeur logique (fixedWindow) Si FALSE,
Ex : utilisée pour construire le sous-ensemble le l’ensemble de données d’entraînement
plus diversifié possible à partir de deux commence toujours au premier point.
ensemble de données A plus restreint et B Sortie : série temporelle partitionnée.
plus large. Cela est rendue possible grâce à la
fonction «maxDissim ». Ex :
Entrée : Un petit ensemble de données, Un
grand ensemble de données( réf) + n.
II. Chapitre 2 : Sortie: Ensemble de données diversifié
Partitionnement des construction à en ajoutant itérativement le
données point-ligne le plus dissimilaire du grand
ensemble de données avec tous les points-
ligne du petit ensemble de données dans le
III. Partitionnement simple basé sur le petit ensemble de données.
résultat
La fonction « createDataPartition» permet de
scinder l’ensemble de données en deux sous-
ensembles de données (entraînement vs test)
tout en conservant la distribution de la
variable à prédire.
Ex :

N.B : V. Partitionnement de séries


Les fonctions « ccreateResample» et
temporelles
« createFolds» peuvent être utilisées pour
partionner l’ensemble des données à partir de
Usage de la fonction « createTimeSlices» pour
l’approche bootstrap ou la validation croisée
fractionner la série temporelle en ensemble
équilibrée.
de de données d'entraînement et ensemble
de données test.
Entrée : Série temporelle, nombre initial de
valeur consécutive dans l’ensemble de

Vous aimerez peut-être aussi