0% ont trouvé ce document utile (0 vote)

30 vues7 pages

Prédiction de l'engagement des articles en ligne

DES PROJETS Génie méca

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

30 vues7 pages

Prédiction de l'engagement des articles en ligne

DES PROJETS Génie méca

Transféré par

bouhlalanizar8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

I.

INTRODUCTION :

Dans le paysage numérique actuel, les articles de presse en ligne jouent un rôle crucial dans la
diffusion de l'information et l'engagement des lecteurs. Pour les éditeurs et les analystes de médias, il
est essentiel de comprendre et de prédire les métriques d'engagement des articles, telles que les vues,
les partages et les likes, afin d'optimiser le contenu et maximiser l'interaction des lecteurs. Cependant,
cette tâche est complexe en raison de la diversité et du volume des données textuelles disponibles.

La problématique centrale de ce projet est donc : **Comment prédire les métriques d'engagement des
articles de presse en ligne à partir de leur contenu textuel ? **

Pour aborder cette problématique, nous avons suivi plusieurs étapes méthodologiques. Nous avons
d'abord collecté un ensemble d'articles de presse en ligne à l'aide de l'API NewsAPI, ciblant des sujets
spécifiques comme la technologie. Cette méthode a permis de récupérer efficacement les données
textuelles nécessaires sans recourir au web scraping.

Ensuite, nous avons effectué un prétraitement des textes pour les rendre utilisables par des modèles de
machine learning. Ce prétraitement incluait la conversion en minuscules, la suppression de la
ponctuation et la lemmatisation des mots. La vectorisation des textes a été réalisée à l'aide de la
méthode TF-IDF (Term Frequency-Inverse Document Frequency), qui a permis de transformer les
articles en vecteurs numériques représentant l'importance relative des mots.

Pour simuler les métriques d'engagement, nous avons généré des données fictives telles que le nombre
de likes, de partages et de vues. Ces données ont été utilisées comme variables cibles pour
l'entraînement du modèle de prédiction.

Nous avons ensuite développé un modèle de RandomForestRegressor pour prédire les métriques
d'engagement des articles. Le modèle a été entraîné et évalué à l'aide de la Mean Squared Error (MSE)
et de la validation croisée pour garantir sa robustesse et sa capacité de généralisation.

Les résultats obtenus montrent que les caractéristiques textuelles extraites peuvent être efficacement
utilisées pour prédire les métriques d'engagement, fournissant ainsi une base solide pour des travaux
futurs visant à améliorer la précision des prédictions et à développer des outils d'analyse de contenu
plus sophistiqués pour les articles de presse en ligne.

Cette introduction présente le contexte et la problématique de notre projet, ainsi que les principales
étapes suivies pour atteindre nos objectifs.

1
II. Méthodologie :

Importation des bibliothèques et téléchargement des ressources :

Cette étape consiste à importer les bibliothèques nécessaires pour le projet, y compris les
outils de traitement du langage naturel, de vectorisation de texte, de modélisation et
d'évaluation. De plus, les ressources nécessaires de NLTK sont téléchargées.

Résultats :

Les bibliothèques sont importées avec succès et les ressources NLTK sont disponibles.

Fonction de prétraitement du texte

Cette fonction nettoie et prétraite le texte des articles en le normalisant, lemmatisant les mots
et supprimant les caractères non alphabétiques.

Résultats :
Une fonction robuste de nettoyage et de lemmatisation des textes est définie.

2
Récupération des articles avec News API
Cette fonction utilise l'API NewsAPI pour récupérer des articles en fonction d'un mot-clé spécifié.

Résultats :
100 articles sont extraits de NewsAPI pour le mot-clé 'technology'.

Prétraitement des articles

Chaque article est prétraité en utilisant la fonction de nettoyage pour normaliser le texte.

Résultats :
Les textes des articles sont nettoyés et lemmatisés.

Extraction des caractéristiques et génération de données fictives

Les textes sont vectorisés en utilisant TF-IDF et des données fictives pour les métriques d'engagement
sont générées.

3
Résultats :
Les caractéristiques des textes sont extraites avec une dimensionnalité de (100, 984). Les métriques
d'engagement fictives sont générées.

Division des données en ensembles d'entraînement et de test

Les données sont divisées en ensembles d'entraînement et de test pour l'entraînement et l'évaluation du
modèle.

Résultats :
Les données sont divisées avec 80% pour l'entraînement et 20% pour le test.

Pipeline pour prétraitement et modélisation

Un pipeline est défini pour standardiser les caractéristiques et entraîner un modèle de
régression de forêt aléatoire.

Résultats :

Un pipeline est créé pour standardiser les données et utiliser un modèle de régression de forêt
aléatoire.

Hyperparameter tuning
La recherche en grille est utilisée pour trouver les meilleurs hyperparamètres du modèle.

4
Résultats :
Les meilleurs hyperparamètres trouvés sont {'regressor__max_depth': 10,
'regressor__min_samples_split': 2, 'regressor__n_estimators': 200}

Évaluation du modèle
Le modèle est évalué en utilisant l'erreur quadratique moyenne (MSE) et la validation croisée.

Résultats :
L'erreur quadratique moyenne est de 1257.9344475650328 sur l'ensemble de
test et de 854.9391328296351 en validation croisée.

Prétraitement du texte
Cette étape consiste à définir une fonction de prétraitement du texte qui nettoie et normalise les articles
en les convertissant en minuscules, en supprimant les caractères non alphabétiques, et en lemmatisant
les mots. Cela est essentiel pour transformer les articles en un format approprié pour l'analyse de texte.

Résultats :

5
La fonction de prétraitement est définie avec succès, et les ressources nécessaires pour la
lemmatisation sont téléchargées.

Collecte des données

Cette étape consiste à définir une fonction pour récupérer des articles en utilisant l'API de
NewsAPI. La fonction fetch_articles envoie une requête à l'API avec un mot-clé de recherche,
extrait les titres et les descriptions des articles, et les renvoie sous forme de liste de
dictionnaires.

Résultats :
La fonction fetch_articles est définie avec succès et prête à être utilisée pour récupérer des articles
depuis NewsAPI.

Récupération des articles

Dans cette étape, nous utilisons la fonction fetch_articles définie précédemment pour récupérer les
articles en fournissant une clé API et un mot-clé de recherche (ici "technology"). Le nombre d'articles
extraits est affiché pour vérifier le succès de la récupération.

6
Résultats :
Le nombre d'articles extraits est affiché. Par exemple, si 100 articles sont extraits, le message "Articles
extraits : 100" sera affiché. Cela confirme que la récupération des articles a été effectuée avec succès.

III. Conclusion :

En conclusion, l'utilisation du modèle SARIMA s'est avérée bénéfique pour capturer les tendances
saisonnières présentes dans les données de Tesla. Ce projet met en évidence l'importance de considérer
la saisonnalité dans les modèles de prévision financière pour obtenir des estimations plus précises.
Pour des améliorations futures, il est recommandé de collecter des données sur une période plus
longue et d'explorer des modèles plus avancés, tels que les réseaux de neurones récurrents (RNN) et
les techniques d'apprentissage automatique, pour accroître la précision des prévisions.

Vous aimerez peut-être aussi

TP Ia
Pas encore d'évaluation
TP Ia
5 pages
Voicipdf Votre Plan Chapitre Dernier
Pas encore d'évaluation
Voicipdf Votre Plan Chapitre Dernier
4 pages
Détection de Spams par Machine Learning
Pas encore d'évaluation
Détection de Spams par Machine Learning
28 pages
Travaux Pratiques en ML et Deep Learning
Pas encore d'évaluation
Travaux Pratiques en ML et Deep Learning
3 pages
Analyse des Sentiments sur Twitter avec HMM
Pas encore d'évaluation
Analyse des Sentiments sur Twitter avec HMM
36 pages
AndreettaFontana Uqac 0862N 10926
Pas encore d'évaluation
AndreettaFontana Uqac 0862N 10926
75 pages
IAOnduleurs
Pas encore d'évaluation
IAOnduleurs
59 pages
Prédiction des performances académiques
Pas encore d'évaluation
Prédiction des performances académiques
55 pages
TP NLP GenAI PDF
Pas encore d'évaluation
TP NLP GenAI PDF
6 pages
Fiche de Synthèse Du Projet de Stage.
Pas encore d'évaluation
Fiche de Synthèse Du Projet de Stage.
5 pages
IA et Changement Climatique : Rapport d'Intégration
Pas encore d'évaluation
IA et Changement Climatique : Rapport d'Intégration
4 pages
Analyse des sentiments avec Transformers
Pas encore d'évaluation
Analyse des sentiments avec Transformers
5 pages
Classification Tweets Catastrophes
Pas encore d'évaluation
Classification Tweets Catastrophes
14 pages
P7 - Spark Mllib
Pas encore d'évaluation
P7 - Spark Mllib
1 page
Classification Automatique E-commerce
Pas encore d'évaluation
Classification Automatique E-commerce
32 pages
Prédiction Sémantique d'Anomalies IoT
Pas encore d'évaluation
Prédiction Sémantique d'Anomalies IoT
106 pages
Projets d'Intelligence Artificielle en ML
Pas encore d'évaluation
Projets d'Intelligence Artificielle en ML
8 pages
Introduction aux bibliothèques IA en TP1
Pas encore d'évaluation
Introduction aux bibliothèques IA en TP1
5 pages
Détection de fraude par Deep Learning et Scraping LinkedIn
Pas encore d'évaluation
Détection de fraude par Deep Learning et Scraping LinkedIn
4 pages
TP Machine Learning : KNN et Naïve Bayes
Pas encore d'évaluation
TP Machine Learning : KNN et Naïve Bayes
12 pages
Prediction de La Demande Energetique
Pas encore d'évaluation
Prediction de La Demande Energetique
7 pages
Dédicaces et remerciements du projet
Pas encore d'évaluation
Dédicaces et remerciements du projet
52 pages
Fake News Detection Using Machine Learning
Pas encore d'évaluation
Fake News Detection Using Machine Learning
70 pages
Siafa Aya f512112
Pas encore d'évaluation
Siafa Aya f512112
49 pages
Travail Pratique D Intelligence Artificielle
Pas encore d'évaluation
Travail Pratique D Intelligence Artificielle
7 pages
TP 1 Spark
Pas encore d'évaluation
TP 1 Spark
3 pages
Thématiques
Pas encore d'évaluation
Thématiques
16 pages
Analyse
Pas encore d'évaluation
Analyse
4 pages
Presentation Ai
Pas encore d'évaluation
Presentation Ai
10 pages
Pfa2 20
Pas encore d'évaluation
Pfa2 20
61 pages
Application de Recherche et Classification de Documents
Pas encore d'évaluation
Application de Recherche et Classification de Documents
64 pages
Projet IML 7 - Rapport
Pas encore d'évaluation
Projet IML 7 - Rapport
15 pages
Math Iman
Pas encore d'évaluation
Math Iman
3 pages
Rapport Final Maach Nouoiar
Pas encore d'évaluation
Rapport Final Maach Nouoiar
16 pages
Mémoire de Fin D'étude: École Supérieure en Informatique - 08 Mai 1945-Sidi Bel Abbès
Pas encore d'évaluation
Mémoire de Fin D'étude: École Supérieure en Informatique - 08 Mai 1945-Sidi Bel Abbès
121 pages
Samy V2
Pas encore d'évaluation
Samy V2
65 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
CPS MLOps Pour La Classification de Texte
Pas encore d'évaluation
CPS MLOps Pour La Classification de Texte
3 pages
Luận Văn Algorithme Parallele Dedescente de Gradient Stochastique Multi Classes Pour La Classi Cation d'Images
Pas encore d'évaluation
Luận Văn Algorithme Parallele Dedescente de Gradient Stochastique Multi Classes Pour La Classi Cation d'Images
16 pages
Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Détection Pneumonie par IA
Pas encore d'évaluation
Détection Pneumonie par IA
10 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
88 pages
Document Sans Titre
Pas encore d'évaluation
Document Sans Titre
29 pages
PYTHON Intélligence Artif
Pas encore d'évaluation
PYTHON Intélligence Artif
9 pages
Cours IA ML Modeles
Pas encore d'évaluation
Cours IA ML Modeles
5 pages
Classification des données ouvertes Yelp
Pas encore d'évaluation
Classification des données ouvertes Yelp
57 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
90 pages
Classification automatique de produits
Pas encore d'évaluation
Classification automatique de produits
21 pages
HDR Torres
Pas encore d'évaluation
HDR Torres
165 pages
Rapport Pos
Pas encore d'évaluation
Rapport Pos
31 pages
QIU 2023 Archivage Final
Pas encore d'évaluation
QIU 2023 Archivage Final
153 pages
ML Project
Pas encore d'évaluation
ML Project
5 pages
B08KRRPG1Q
Pas encore d'évaluation
B08KRRPG1Q
216 pages
Entretiens
Pas encore d'évaluation
Entretiens
1 page
Rapport PFE Chamsi Salimi Nmili
Pas encore d'évaluation
Rapport PFE Chamsi Salimi Nmili
67 pages
Chapitre Machine Learning1
Pas encore d'évaluation
Chapitre Machine Learning1
72 pages
Conception D'un Système Multi-Agent Haute Performance Pour La Recherche Approfondie Avec n8n
Pas encore d'évaluation
Conception D'un Système Multi-Agent Haute Performance Pour La Recherche Approfondie Avec n8n
7 pages
Projets de vision par ordinateur à Polytech
Pas encore d'évaluation
Projets de vision par ordinateur à Polytech
4 pages
2 Critique de La Raison Pratique Texte
Pas encore d'évaluation
2 Critique de La Raison Pratique Texte
1 page
La Liaison
Pas encore d'évaluation
La Liaison
3 pages
Instruments de mesure du temps
Pas encore d'évaluation
Instruments de mesure du temps
3 pages
Procedure de Maintenance Corrective Des Equipements Biomedicaux de - Equi - PT - 003 - C - 2 Version 2 Page - 1 - 7
100% (3)
Procedure de Maintenance Corrective Des Equipements Biomedicaux de - Equi - PT - 003 - C - 2 Version 2 Page - 1 - 7
7 pages
Reconnaissance Vocale
Pas encore d'évaluation
Reconnaissance Vocale
19 pages
Clonage Réseau avec Symantec Ghost
100% (1)
Clonage Réseau avec Symantec Ghost
22 pages
"Jean-Baptiste Say: Loi des Débouchés"
Pas encore d'évaluation
"Jean-Baptiste Say: Loi des Débouchés"
1 page
Injection System FR
Pas encore d'évaluation
Injection System FR
4 pages
La Mèthode QQOQCP
Pas encore d'évaluation
La Mèthode QQOQCP
1 page
Exercices Bash pour Débutants
Pas encore d'évaluation
Exercices Bash pour Débutants
9 pages
Plan de Gestion Environnementale Sénégal
Pas encore d'évaluation
Plan de Gestion Environnementale Sénégal
186 pages
Introduction à la sociologie politique
Pas encore d'évaluation
Introduction à la sociologie politique
6 pages
Master Professionnel Méthodes Informatiques Appliquées À La Gestion Des Entreprises (MIAGE)
0% (1)
Master Professionnel Méthodes Informatiques Appliquées À La Gestion Des Entreprises (MIAGE)
2 pages
INDH : Développement Humain Innovant
Pas encore d'évaluation
INDH : Développement Humain Innovant
21 pages
Sakou Samoth - Geographie Du Cambodge (Francais)
Pas encore d'évaluation
Sakou Samoth - Geographie Du Cambodge (Francais)
80 pages
QCM FORM Grpe 9 SC Edu Psycho Dev 1
Pas encore d'évaluation
QCM FORM Grpe 9 SC Edu Psycho Dev 1
60 pages
Droit Concurrence Uemoa Premiere Partie
Pas encore d'évaluation
Droit Concurrence Uemoa Premiere Partie
10 pages
8cf280 PDF
100% (7)
8cf280 PDF
55 pages
QCM - Le Questionnaire (Lecture Et Traitement de L'information) - AKCHA Mohammed
Pas encore d'évaluation
QCM - Le Questionnaire (Lecture Et Traitement de L'information) - AKCHA Mohammed
4 pages
ALI : Amplificateurs et Rétroaction
Pas encore d'évaluation
ALI : Amplificateurs et Rétroaction
12 pages
Les Politiques D'education - Agnes Van Zanten
100% (5)
Les Politiques D'education - Agnes Van Zanten
172 pages
Appel à projet street art à Mantes
Pas encore d'évaluation
Appel à projet street art à Mantes
5 pages
Programme d'examen clarinette 2e cycle
Pas encore d'évaluation
Programme d'examen clarinette 2e cycle
8 pages
Guide Lean pour Équipes Agiles
100% (1)
Guide Lean pour Équipes Agiles
82 pages
Fuite des cerveaux : une opportunité pour la recherche
Pas encore d'évaluation
Fuite des cerveaux : une opportunité pour la recherche
6 pages
La Phrase Simples
Pas encore d'évaluation
La Phrase Simples
21 pages
Creer Des Images Avec LIA Un Guide Illustre Pour Debutants
Pas encore d'évaluation
Creer Des Images Avec LIA Un Guide Illustre Pour Debutants
10 pages
Thermochimie : Calorimétrie et Entropie
100% (1)
Thermochimie : Calorimétrie et Entropie
4 pages
Corrigé Rattrapage - PHY322 - Methodes Numériques - Normale Juillet - 2024
Pas encore d'évaluation
Corrigé Rattrapage - PHY322 - Methodes Numériques - Normale Juillet - 2024
7 pages
9782402533294
100% (2)
9782402533294
43 pages