0% ont trouvé ce document utile (0 vote)
30 vues7 pages

Prédiction de l'engagement des articles en ligne

DES PROJETS Génie méca

Transféré par

bouhlalanizar8
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues7 pages

Prédiction de l'engagement des articles en ligne

DES PROJETS Génie méca

Transféré par

bouhlalanizar8
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

I.

INTRODUCTION :

Dans le paysage numérique actuel, les articles de presse en ligne jouent un rôle crucial dans la
diffusion de l'information et l'engagement des lecteurs. Pour les éditeurs et les analystes de médias, il
est essentiel de comprendre et de prédire les métriques d'engagement des articles, telles que les vues,
les partages et les likes, afin d'optimiser le contenu et maximiser l'interaction des lecteurs. Cependant,
cette tâche est complexe en raison de la diversité et du volume des données textuelles disponibles.

La problématique centrale de ce projet est donc : **Comment prédire les métriques d'engagement des
articles de presse en ligne à partir de leur contenu textuel ? **

Pour aborder cette problématique, nous avons suivi plusieurs étapes méthodologiques. Nous avons
d'abord collecté un ensemble d'articles de presse en ligne à l'aide de l'API NewsAPI, ciblant des sujets
spécifiques comme la technologie. Cette méthode a permis de récupérer efficacement les données
textuelles nécessaires sans recourir au web scraping.

Ensuite, nous avons effectué un prétraitement des textes pour les rendre utilisables par des modèles de
machine learning. Ce prétraitement incluait la conversion en minuscules, la suppression de la
ponctuation et la lemmatisation des mots. La vectorisation des textes a été réalisée à l'aide de la
méthode TF-IDF (Term Frequency-Inverse Document Frequency), qui a permis de transformer les
articles en vecteurs numériques représentant l'importance relative des mots.

Pour simuler les métriques d'engagement, nous avons généré des données fictives telles que le nombre
de likes, de partages et de vues. Ces données ont été utilisées comme variables cibles pour
l'entraînement du modèle de prédiction.

Nous avons ensuite développé un modèle de RandomForestRegressor pour prédire les métriques
d'engagement des articles. Le modèle a été entraîné et évalué à l'aide de la Mean Squared Error (MSE)
et de la validation croisée pour garantir sa robustesse et sa capacité de généralisation.

Les résultats obtenus montrent que les caractéristiques textuelles extraites peuvent être efficacement
utilisées pour prédire les métriques d'engagement, fournissant ainsi une base solide pour des travaux
futurs visant à améliorer la précision des prédictions et à développer des outils d'analyse de contenu
plus sophistiqués pour les articles de presse en ligne.

Cette introduction présente le contexte et la problématique de notre projet, ainsi que les principales
étapes suivies pour atteindre nos objectifs.

1
II. Méthodologie :

Importation des bibliothèques et téléchargement des ressources :


Cette étape consiste à importer les bibliothèques nécessaires pour le projet, y compris les
outils de traitement du langage naturel, de vectorisation de texte, de modélisation et
d'évaluation. De plus, les ressources nécessaires de NLTK sont téléchargées.

Résultats :

Les bibliothèques sont importées avec succès et les ressources NLTK sont disponibles.

Fonction de prétraitement du texte


Cette fonction nettoie et prétraite le texte des articles en le normalisant, lemmatisant les mots
et supprimant les caractères non alphabétiques.

Résultats :
Une fonction robuste de nettoyage et de lemmatisation des textes est définie.

2
Récupération des articles avec News API
Cette fonction utilise l'API NewsAPI pour récupérer des articles en fonction d'un mot-clé spécifié.

Résultats :
100 articles sont extraits de NewsAPI pour le mot-clé 'technology'.

Prétraitement des articles


Chaque article est prétraité en utilisant la fonction de nettoyage pour normaliser le texte.

Résultats :
Les textes des articles sont nettoyés et lemmatisés.

Extraction des caractéristiques et génération de données fictives


Les textes sont vectorisés en utilisant TF-IDF et des données fictives pour les métriques d'engagement
sont générées.

3
Résultats :
Les caractéristiques des textes sont extraites avec une dimensionnalité de (100, 984). Les métriques
d'engagement fictives sont générées.

Division des données en ensembles d'entraînement et de test


Les données sont divisées en ensembles d'entraînement et de test pour l'entraînement et l'évaluation du
modèle.

Résultats :
Les données sont divisées avec 80% pour l'entraînement et 20% pour le test.

Pipeline pour prétraitement et modélisation


Un pipeline est défini pour standardiser les caractéristiques et entraîner un modèle de
régression de forêt aléatoire.

Résultats :

Un pipeline est créé pour standardiser les données et utiliser un modèle de régression de forêt
aléatoire.

Hyperparameter tuning
La recherche en grille est utilisée pour trouver les meilleurs hyperparamètres du modèle.

4
Résultats :
Les meilleurs hyperparamètres trouvés sont {'regressor__max_depth': 10,
'regressor__min_samples_split': 2, 'regressor__n_estimators': 200}

Évaluation du modèle
Le modèle est évalué en utilisant l'erreur quadratique moyenne (MSE) et la validation croisée.

Résultats :
L'erreur quadratique moyenne est de 1257.9344475650328 sur l'ensemble de
test et de 854.9391328296351 en validation croisée.

Prétraitement du texte
Cette étape consiste à définir une fonction de prétraitement du texte qui nettoie et normalise les articles
en les convertissant en minuscules, en supprimant les caractères non alphabétiques, et en lemmatisant
les mots. Cela est essentiel pour transformer les articles en un format approprié pour l'analyse de texte.

Résultats :

5
La fonction de prétraitement est définie avec succès, et les ressources nécessaires pour la
lemmatisation sont téléchargées.

Collecte des données


Cette étape consiste à définir une fonction pour récupérer des articles en utilisant l'API de
NewsAPI. La fonction fetch_articles envoie une requête à l'API avec un mot-clé de recherche,
extrait les titres et les descriptions des articles, et les renvoie sous forme de liste de
dictionnaires.

Résultats :
La fonction fetch_articles est définie avec succès et prête à être utilisée pour récupérer des articles
depuis NewsAPI.

Récupération des articles


Dans cette étape, nous utilisons la fonction fetch_articles définie précédemment pour récupérer les
articles en fournissant une clé API et un mot-clé de recherche (ici "technology"). Le nombre d'articles
extraits est affiché pour vérifier le succès de la récupération.

6
Résultats :
Le nombre d'articles extraits est affiché. Par exemple, si 100 articles sont extraits, le message "Articles
extraits : 100" sera affiché. Cela confirme que la récupération des articles a été effectuée avec succès.

III. Conclusion :

En conclusion, l'utilisation du modèle SARIMA s'est avérée bénéfique pour capturer les tendances
saisonnières présentes dans les données de Tesla. Ce projet met en évidence l'importance de considérer
la saisonnalité dans les modèles de prévision financière pour obtenir des estimations plus précises.
Pour des améliorations futures, il est recommandé de collecter des données sur une période plus
longue et d'explorer des modèles plus avancés, tels que les réseaux de neurones récurrents (RNN) et
les techniques d'apprentissage automatique, pour accroître la précision des prévisions.

Vous aimerez peut-être aussi