valeur proche de zéro impliquerait un Ex : A. VI.
Transformation des
Chapitre 1 Prétraitement avec éloignement à l’unicité des données. données
Entrée : Un ensemble de donnée + deux
caret valeurs seuils (ratio de fréquence vs
pourcentage de valeurs uniques). Réduction de dimension :
Sortie : Variables identifiées comme
I. Génération de variables muettes moins informatives Analyse en composantes principales (PCA):
Génération de variables muettes via la Ex : Transformation des variables originelles en un
IV. Normalisation des données
fonction « dummyVars » : nombre de variables synthétiques restreintes
Utilisation de la fonction « preProcess » pour non corrélées entre elles via l’analyse en
Entrée : une formule + un ensemble de composantes principales (ACP).
l’estimation des paramètres à partir des
données Entrée : ensemble de données + méthode
données d’entraînement puis la fonction
Sortie : Un objet facilitant la création de “pca”
« predic.preProcess » pour l’application de
variables muette à partir de la fonction III. Prévention de la multi colinéarité Sortie : un objet contenant les estimations
l’opération de prétraitement sur les données.
« predict » requises pour la mise en œuvre de l’ACP
Entrée : un ensemble de données + options
● Identification des prédicteurs avec de la méthode ( vecteur de caractères obtenues à partir des données
Ex : d’entraînement.
une corrélation presque parfaite à contenant ‘center’ et ‘scale’ pour le centrage
partir de la fonction et la réduction des données).
« findCorrelation ». Sortie : un objet avec les estimations des
Entrée : ensemble de données + valeur seuil moyennes et les écart-types obtenues à partir Analyse en composantes indépendante (ICA) :
II. Détermination des variables non pour l’intensité de la corrélation. des données d’apprentissage. Résumé les données originelles à partir d’un
informatrices Sortie : ensemble de données contenant les ensemble de variables composites
Il s’agit repérer les variables avec une variables avec une corrélation presque Ex : mutuellement indépendantes (IPCA).
variabilité nulle ou très proche de zéro. Cela parfaite. Entrée : ensemble des données + méthode
se fait à travers la fonction « nearZeroVar ». Ex : “ipc”
Sortie : ensemble contenant de données
Usage de 2 métriques : scores des variables composites
(1) Ratio de fréquence : 1ière valeur plus ● Détection de dépendances linéaires à V. Traitement des valeurs manquantes
fréquente divisée par 2ième valeur plus partir de la fonction Transformation du signe spatial(Spatial Sign) :
fréquente ; Une valeur de ce ratio « findLinearCombos » Vous pouvez aussi utiliser la fonction Projection des données des prédicteurs dans
plus élevée indiquerait un Entrée : Matrice de données « preProcess » pour imputer les données un cercle unitaire en p-dimensions. Utilisation
déséquilibre au niveau des données. Sorties : Liste des dépendances linéaires + manquantes à partir des données del a fonction « spatialSign »
(2) Pourcentage de valeurs uniques : vecteur contenant les indices des colonnes à d’entraiment. Entrée: ensemble de données d’entraînement
(Nombre de valeurs uniques / éliminer. Ex : méthode des k-nn ; méthode basée sur Sorte : ensemble de données transformées
une combinaison d’arbre de décision (bagged Ex :
trees).
Nombre total de valeur) ×100 ; Une
Transformation Box-Cox (Normalité) : IV. Partitionnement basé sur les données d’entraînement(initialWindow) , le
Transformation des prédicteurs pour prédicteurs nombre de valeurs consécutives dans
rapprocher leur distribution à celle d’une loi l’ensemble de données test ( horizon) et une
normale. L’approche de dissimilarité maximum est valeur logique (fixedWindow) Si FALSE,
Ex : utilisée pour construire le sous-ensemble le l’ensemble de données d’entraînement
plus diversifié possible à partir de deux commence toujours au premier point.
ensemble de données A plus restreint et B Sortie : série temporelle partitionnée.
plus large. Cela est rendue possible grâce à la
fonction «maxDissim ». Ex :
Entrée : Un petit ensemble de données, Un
grand ensemble de données( réf) + n.
II. Chapitre 2 : Sortie: Ensemble de données diversifié
Partitionnement des construction à en ajoutant itérativement le
données point-ligne le plus dissimilaire du grand
ensemble de données avec tous les points-
ligne du petit ensemble de données dans le
III. Partitionnement simple basé sur le petit ensemble de données.
résultat
La fonction « createDataPartition» permet de
scinder l’ensemble de données en deux sous-
ensembles de données (entraînement vs test)
tout en conservant la distribution de la
variable à prédire.
Ex :
N.B : V. Partitionnement de séries
Les fonctions « ccreateResample» et
temporelles
« createFolds» peuvent être utilisées pour
partionner l’ensemble des données à partir de
Usage de la fonction « createTimeSlices» pour
l’approche bootstrap ou la validation croisée
fractionner la série temporelle en ensemble
équilibrée.
de de données d'entraînement et ensemble
de données test.
Entrée : Série temporelle, nombre initial de
valeur consécutive dans l’ensemble de