La recherche
d’informatio
n
Le Web
• Web
• World Wide Web (www)
• 1990
• Pages HTML (textes, images, liens…) avec une URL et
accessibles avec le protocole HTTP
• Web 1.0
• Web 2.0
Le Web
Les termes "web visible" et
"web invisible" font
référence aux différentes
parties du World Wide Web
auxquelles les moteurs de
recherche peuvent ou non
accéder et qu'ils ne peuvent
pas indexer.
• Web visible
• Web Invisible
Le Web
• Web visible :
Le web visible, également appelé web de surface, est la partie du web
librement accessible et indexable par les moteurs de recherche. Il
comprend les sites web et les pages web qui peuvent être trouvés à
l'aide de moteurs de recherche généraux comme Google et Bing. Ces
pages sont généralement reliées entre elles par des hyperliens et
peuvent être facilement découvertes et consultées par les utilisateurs.
Le Web
Les principales caractéristiques du web visible ou web de surface sont
les suivantes :
• Librement accessible au grand public
• indexé par les moteurs de recherche
• Relié par des hyperliens
• Accessible via des moteurs de recherche généraux
Le Web
Web invisible :
Le web invisible, également connu sous le nom de
web profond , désigne la partie du web qui n'est pas
facilement accessible ou indexable par les moteurs de
recherche standard. Il s'agit notamment du contenu
qui n'est pas lié par des hyperliens ou stocké dans des
bases de données qui ne sont pas codées en HTML.
Par conséquent, ce contenu ne peut pas être trouvé
par des recherches traditionnelles sur le web.
Le Web
Les principales caractéristiques du web invisible ou web profond sont
les suivantes :
• Les moteurs de recherche standard ne peuvent pas l'atteindre.
• Contenu non relié par des hyperliens
• Stocké dans des bases de données non codées en HTML
• Requiert des moteurs de recherche ou des technologies spécifiques
pour y accéder
Par exemple : les bases de données universitaires nécessitant une
inscription ou de réseaux dont l'accès est limité.
Comment faire une recherche ?
1° définir le sujet (contexte de la recherche et mots-clés)
• Prendre du temps au départ pour en gagner par la suite...
• Ne pas se lancer tout de suite dans la requête. Se poser des questions :
• Qu’est-ce que je cherche exactement ? Le web est-il le moyen le plus rapide ?
• Qui (profil du demandeur) ?
• Quoi (nature de l’information) ?
• Où (limites géographiques, lieux ressources, producteur de l’information) ?
• Quand ?
• Pourquoi (objectifs) ?
• Comment (outils, méthodologie, stratégie) ?
Comment faire une recherche ?
Outils de clustering
• Carrot : http://search.carrotsearch.com [et http://search.carrot2.org]
• métamoteur (Google, Wikipédia, BASE)
• peu de résultats, mais affichage des résultats par groupes (clusters)
• ! les deux URL ne proposent pas les mêmes résultats
Outils de clustering
Comment faire une recherche ?
2° connaître les outils et la construction d’équations de
recherche
• Différents outils : Moteurs, métamoteurs et annuaires
• Utilisation réfléchie : Outils adaptés, mots clés
• Syntaxe de recherche : rechercher est un art
Comment faire une recherche ?
Opérateur ET (AND) Opérateur OU (OR) NOT SAUF
= réunion = union = exclusion
le document doit comprendre le document peut comprendre le document ne doit pas
tous les termes tous les termes comprendre certains
Informatique et communication ou seulement certains d’entre eux termes
Informatique ou communication Informatique NOT communication
(chat OR chien) ET animal ??
Comment faire une recherche ?
3° analyser les résultats
•URL significative
•Esprit critique
•Evaluation :
• fiabilité
• intérêt
Comment faire une recherche ?
page de résultats présence des mots recherchés URL de la page
qualité de la rédaction qualité des liens
site proposés présence de publicité actualisation
et mises à jour
auteur du site ou du authentification et formulaire de contact
document compétences
légitimité
contenu du document public destinataire sources
buts
crédibilité, qualité, pertinence et
fiabilité
Comment faire une recherche ?
Si vous ne trouvez pas ce que vous cherchez dans les 20 à 50 premiers
sites, modifiez votre recherche ou utilisez un autre moteur de
recherche. N'allez pas plus loin.
La recherche d’information
• Recherche par mots-clés (texte intégral, titre, URL…)
• Généralement web visible
• Moteurs généralistes et spécialisés
• Indexation et présentation des résultats automatiques
• Classement par « pertinence »
• Outils :
– moteurs de recherche généralistes
– métamoteurs
– moteurs de recherche spécialisés
ou « verticaux » (thématiques)
Comment fonctionne un moteur de
R
Principe d’un moteur de recherche :
• Exploration (Crawl) : « Robots », « spiders » ou « crawlers »
• Indexation
Requête de l’utilisateur par mots-clés
• Traitement de la requête
• Classement des résultats
• Affichage des résultats
Comment fonctionne un moteur de
R
• ET (AND) : permet de combiner des mots-clés. Par exemple, "chat ET chien"
trouvera des pages contenant les deux mots.
• OU (OR) : trouve des pages contenant l'un ou l'autre des mots-clés (ou les deux).
Par exemple, "chat OU chien".
• SAUF (MINUS) : exclut des pages contenant certains mots. Par exemple, "chat SAUF
tigre" exclura les pages avec "tigre".
• "" : recherche une expression exacte entre guillemets.
• * : correspond à un ou plusieurs mots manquants. Par exemple, "apprendre *
français" trouvera "apprendre le français", "apprendre une langue française", etc.
Comment fonctionne un moteur de
R
• Site : limité la recherche à un site web spécifique. Par exemple :
site : outilstice.com, site:.ma rechercher dans des sites marocains
• Related : pages similaires à une page web. Par exemple, related:
https://outilstice.com/
• Intitle : pages avec les mots dans le titre.
• Inurl : pages avec les mots dans l'URL.
• Filetype: : type de fichier : ex. [filetype:ppt]
Métamoteurs de recherche
• outils interrogeant simultanément plusieurs outils de recherche
• retraitent les résultats de façon structurée
• disposent de fonctionnalités propres
• permettent d’élargir la recherche
• recherche sur des critères a minima communs aux outils interrogés :
peu d’opérateurs booléens, de filtres, d’équations complexes
• ne disposent pas de leur propre index
Moteurs de recherche scientifiques
• spécialisés dans la littérature scientifique et académique
• privilégient les sources d’information des chercheurs
(articles, congrès, brevets…)
• destinés à la communauté universitaire et scientifique
• gratuits
• parmi leurs fonctionnalités, peuvent proposer l’exportation
de références
• bibliographiques, des analyses bibliométriques, des
visualisations
Moteurs de recherche scientifiques
• https://scholar.google.fr
• https://academic.microsoft.com/
• https://www.semanticscholar.org/
Annuaire de recherche
Un annuaire de recherche est un outil en ligne qui
répertorie et classe les sites web selon des catégories et des
sous-catégories spécifiques. Contrairement aux moteurs de
recherche qui analysent et indexent automatiquement les
pages web, les annuaires de recherche sont généralement
alimentés manuellement par des webmasters ou des éditeurs
qui soumettent leurs sites pour y être répertoriés.