0% ont trouvé ce document utile (0 vote)
42 vues11 pages

Qu

Yes

Transféré par

ms9gwx56gb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
42 vues11 pages

Qu

Yes

Transféré par

ms9gwx56gb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Qu’est-ce que le machine learning ?

Le machine learning est une technique qui permet aux systèmes automatiques de
s’améliorer grâce aux données. Littéralement on parle d’apprentissage
automatique.
Comment fonctionne le machine learning ?
Le système s’inspire d’exemples déjà existants, regroupés dans des bases de
données, pour comprendre la tâche qui lui est demandée.
Quel est le lien entre machine learning, deep learning et intelligence artificielle ?

Quelles sont les applications du machine learning ?


Le machine learning s’est imposé dans un très grand nombre de domaines. Il n’y a
pas réellement de limites à ce que les modèles de machine learning peuvent
réaliser. Dès qu’il y a des données on peut faire du machine learning.
Ex : finance, domaine de la santé surtout imagerie médicale.
Quelles sont les étapes d’un projet en data science ?
Collecte et stockage des données
Preprocessing (nettoyage des données et études préalables)
Construction des modèles
Etudes de performances et choix du meilleur modèle
Déploiement du modèle

Comment se déroule le nettoyage des données (preprocessing) ?

Les techniques de preprocessing dépendent du projet et du types de données que


l’on étudie. Bien souvent on suit les étapes suivantes :
Traitement des valeurs manquantes : remplacer toutes les valeurs manquantes
d'une variable par une valeur fixe
Calcul de corrélations ou de variances
Réduction de la dimension
Découpage des données en train/test

Comment évaluer un modèle ?

D’abord, avant d’entraîner un modèle on s’assure de séparer les données


disponibles en 2. Données d’entraînements et données de tests. On parle de cross
validation.

Cela permet de tester le modèle une fois entraîné, cette étape est primordiale.
Elle permet de s’assurer de la fiabilité du modèle mais aussi de comparer plusieurs
approches pour pouvoir déterminer la quelle est la plus intéressante.

Que signifie le terme cross-validation?


Cross-validation est une technique de validation pour évaluer la manière avec
laquelle les résultats de l’analyse statistique se généralisent pour un ensemble de
données indépendant.
Le but principal de la méthode cross-validation est de définir un ensemble de
données pour “tester” le modèle dans la phase de formation.
Comment éviter l’overfitting ?
Il survient lorsque le modèle essaye de trop coller aux données. On un training
accuracy élevé mais du test est chute.
Plusieurs méthodes existent pour éviter l’overfitting :
Cross validation
Ajouter plus de données pour l’entraînement
Early stopping (arrêter l’entrainement avant qu’ils ne se terminent)
Régularisation (par exemple le dropout pour les réseaux de neurones)
Quelles sont les principales méthodes utilisées ?

Les modèles de machine learning sont nombreux. Ceux qui ont la côte aujourd’hui
sont les algorithmes de deep learning, ils sont fiables faciles à entraîner et
donnent d’assez bons résultats la plupart du temps.

Il y a un grand nombre de méthodes en fonction de ce que l’on veut faire.

Pour le clustering :
k-nn
k-means
DBScan
Régression logistique
SVM

Réseaux de neurones :
LSTM
CNN
GAN
Auto Encoder
Perceptron
Arbres de décisions :

Random Forest
XGBoost
AdaBoost
LightGBM
CatBoost

Comment choisir l’algorithme à utiliser ?

Plusieurs critères sont à prendre en compte pour choisir un modèle :

Quelle tâche souhaitez vous effectuer ? Prédiction ? Régression ? Clustering ?


Les données sont elles labellisées ?
De quel types sont les données ? Images ? Textes ? Audio ?
Quelle est la taille de votre dataset ?

Quelles sont les limites du machine learning ?


L’intelligence artificielle est souvent vu comme une baguette magique capable de
tout. En réalité ce n’est pas si simple. Les modèles ont souvent besoin
d’énormément de données pour pouvoir donner de bons résultats.

Quelles compétences doit avoir un data scientist ?


Les data scientist sont aujourd’hui très recherchés. Un ingénieur en machine
learning doit avoir des compétences aussi bien théoriques que pratiques. Il doit
être un très bon statisticien, c’est indispensable pour comprendre correctement
les différents algorithmes et leurs subtilités. D’un point de vu plus pratique, il doit
être à l’aise avec les outils de programmation comme Python.

Expliquez le filtrage coopératif ou Collaborative filtering


Le filtrage coopératif est utilisé pour rechercher le meilleur modèle en
collaboration avec des points de vue, de multiples sources de données et
différents agents.

Que signifie un biais?

Le biais est une erreur introduite dans votre modèle à cause de la simplification
excessive d’un algorithme de Machine Learning.

Quelle est la différence entre la Data Science(Science de données) et la Data


analytics(Analyse des données)?
Les Data Scientists doivent découper les données pour extraire des informations
utiles qu’un Data Analyst peut appliquer à des scénarios réels. La différence entre
les deux est que les data Scientist ont plus de connaissances techniques que les
Data Analyst.

Nommez les differents Frameworks de Deep Learning


Pytorch
Microsoft Cognitive Toolkit
TensorFlow
Caffe
Chainer
Keras

Nommez 4 algorithmes utilisés dans Data Science


les 4 algorithmes les plus utilisés par les Data Scientists sont :

Linear regression : régression Linéaire


Logistic regression: Régression logistique
Random Forest: Forêt ou arborescence aléatoire
KNN
14. Que signifie KNN ?
KNN ou K nearest neighbors(voisins les plus proches) est un algorithme supervisé
qui est utilisé pour la classification. Dans KNN, un échantillon d’essai est donné
comme classe de la majorité de ses voisins les plus proches.

15. Que signifie la précision?


La précision est la metrique d’erreur la plus utilisée dans les mécanismes de
classification. sa valeur est entre 0 et 1.

16. Que signifie l’analyse univariante?


une analyse qui est appliquée à aucun attribut est appelée analyse univariée.

Quels sont les compétences techniques du Data Scientist?


Mathématiques: algorithmique, Algèbre lineaire,…
Statistiques : types de données, Correlation, Regression, Theoreme de la limite
centrale, T-test, ANOVA
Programation : Les outils ETL comme Informatica, SQL, Analyse de données R &
Python
19. Quelle librairie Python est utilisé pour la visualisation des données?
Plot Ly ou Plot.ly est la librairie Python utilisée pour la visualisation des données.Il
s’agit d’un outil collaboratif de visualisation en ligne qui est utilisé pour l’analyse
des données, les graphiques scientifiques et d’autres types de visualisation.

20. Listez les différents types de données disponibles dans les entreprises
données structurées
données non structurées
Big Data prevenante de différentes sources: réseaux sociaux, questionnaires,…
Données générées par la machine à partir d’instruments
Flux de données en temps réel

Q1. What are the different types of Machine Learning?

Reinforcement Learning:

Reinforcement learning involves an agent that interacts with its environment by


producing actions & discovers errors or rewards.
It is like being stuck in an isolated island, where you must explore the environment
and learn how to live and adapt to the living conditions on your own.
Model learns through the hit and trial method
It learns on the basis of reward or penalty given for every action it performs
Explain false negative, false positive, true negative and true positive with a
simple example.
Let’s consider a scenario of a fire emergency:

True Positive: If the alarm goes on in case of a fire.


Fire is positive and prediction made by the system is true.
False Positive: If the alarm goes on, and there is no fire.
System predicted fire to be positive which is a wrong prediction, hence the
prediction is false.
False Negative: If the alarm does not ring but there was a fire.
System predicted fire to be negative which was false since there was fire.
True Negative: If the alarm does not ring and there was no fire.
The fire is negative and this prediction was true.

How is KNN different from K-means clustering?

Which library would you prefer for plotting in Python language: Seaborn or
Matplotlib or Bokeh?

It depends on the visualization you’re trying to achieve. Each of these libraries is


used for a specific purpose:

Matplotlib: Used for basic plotting like bars, pies, lines, scatter plots, etc
Seaborn: Is built on top of Matplotlib and Pandas to ease data plotting. It is used
for statistical visualizations like creating heatmaps or showing the distribution of
your data
Bokeh: Used for interactive visualization. In case your data is too complex and you
haven’t found any “message” in the data, then use Bokeh to create interactive
visualizations that will allow your viewers to explore the data themselves

Traitement d’images en Python

Examinons quelques-unes des bibliothèques Python les plus


couramment utilisées pour les tâches de manipulation d’images.

Scikit Image

Le paquet est importé en tant que skimage et la plupart des fonctions


se trouvent dans les sous-modules.

Quelques exemples de skimage:

Filtre d’image : edges = filters.sobel(image)

Numpy

utiliser Numpy pour créer un masque sur une image. Ex : mask = image
< 87

image[mask]=255

Scipy

Utilisation de SciPy pour le flou à l’aide d’un filtre gaussien:

PIL/Pillow : PIL (Python Imaging Library) est une bibliothèque open-


source Python, qui prend en charge l’ouverture, la manipulation et
l’enregistrement de nombreux formats de fichiers d’image différents

Amélioration d’une image dans Pillow à l’aide d’ImageFilter:

SimpleCV

La méthode threshold définit chaque pixel d’une image en noir ou blanc


en fonction de sa luminosité.

Cette méthode définit les pixels de contour de l’image en blanc.


Stage

Le traitement des questions visuelles est une branche innovante et évolutive


du domaine de traitement d’images dont le principal but est de permettre à
une machine d’analyser et d’interpréter une image afin de répondre préci-
sément à une question visuelle liée. Pour ce faire, il faut détecter et classer
les objets dans l’image et comprendre les liens entre eux afin de pouvoir
identifier l’objet qui répondrait au mieux à la question posée. Cependant,
les dernières recherches ont prouvé que les modèles actuels n’ont pas en-
core atteint une précision satisfaisante [1,2]. Cette limitation revient à plu-
sieurs facteurs dont la simplicité de la structure des modèles proposés, la
divergence entre le mécanisme d’attention humain et le mécanisme d’atten-
tion du modèle, et le manque de capacités du raisonnement logique pour la
compréhension de l’image.
Notre objectif consiste alors à proposer un modèle pour la détection des
objets ainsi que les relations visuelles entre eux en s’appuyant sur les mo-
dèles existants afin d’optimiser leur précision.
--Tâches à réaliser

Ce stage s’inscrit dans le cadre d’un projet proposé par Audensiel Occitanie
qui vise le développement d’un chatbot visuel ayant les capacités d’analyser
et d’interpréter des images et des vidéos afin de répondre efficacement et
immédiatement aux besoins des internautes. En effet, les chatbots actuels
se limitent à la compréhension des messages textuels alors que dans plu-
sieurs domaines, tels que le domaine médical, la communication des images
est primordiale pour une meilleure compréhension mutuelle entre le chat-
bot et l’internaute. Dans ce contexte, il n’est plus donc suffisant de détecter
les objets sur les images mais il est plus important de détecter et d’interpré-
ter les relations entre eux. Une telle interprétation pourrait aider à filtrer les
informations pertinentes sur l’image et gérer les priorités entre elles afin
d’éviter d’avoir des données manquantes ou un bruit impactant dans tous
les cas la précision des réponses. Dans notre cas, les objets à détecter pour-
raient également être un texte permettant --seul ou avec son objet associé-
- de répondre à la question visuelle en traitement.
Basées sur une étude bibliographique concise sur les travaux connexes, les
tâches principales à réaliser durant ce projet sont :
 Développement d’un algorithme de détection et de classification des
objets et des textes dans une image
 Développement d’un algorithme pour l’identification des relations
entre les objets (textes et images) détectés
 Développement d’un algorithme de gestion des priorités entre les dif-
férents objets en fonction d’une question visuelle
 Test et validation du modèle
-- Compétences et pré-requis

 Compétences solides en machine learning (apprentissage profond et


techniques de classification), traitement d’images, vision par ordina-
teur
 Expérience en programmation : langage python
 Des compétences en mathématiques seraient un plus
-- Mots clé
Classification d’objets, détection des relations inter-objets, question visuelle,
chatbot
-- Références
[1] Xi, Y., Zhang, Y., Ding, S., & Wan, S. (2020). Visual question answering
model based on visual relationship detection. Signal Processing: Image
Communication, 80, 115648
[2] Cadene, R., Ben-Younes, H., Cord, M., & Thome, N. (2019). Murel: Multi-
modal relational reasoning for visual question answering. In Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition (pp.
1989-1998).
Durée du contrat : 6 mois
Date de début prévue : 01/03/2021
Type d'emploi : Temps plein, Stage
Salaire : 550,00€ à 650,00€ par mois
Avantages :
 Participation au Transport
 Titre-restaurant
Horaires :
 Du Lundi au Vendredi
 Travail en journée

Expérience:
 stage - ingénieur en traitement d'images h/f ou similaire: 1 an (Sou-
haité)
Télétravail:
 Oui, parfois

Vous aimerez peut-être aussi