Leçon 01
Recherche d’information sur Internet
1
Notions de base
• Internet
un réseau international d’ordinateurs communiquant entre eux grâce à des
protocoles d’échanges de données standard.
2
Notions de base
Adresse IP
Toutes les machines connectées à Internet ont une adresse composée de
quatre nombres séparés par un point.
Ex. 192. 168. 10. 12
3
Notions de base
4
Notions de base
Serveur
Ordinateur connecté au réseau et qui met à disposition de ses utilisateurs un ensemble
de fichiers et d’applications
DNS (Domain Name Server)
établit la correspondance entre IP et URL. Obligatoire pour accéder à
un serveur et naviguer sur le réseau.
41. 201. 164. 34 => [Link]
5
Notions de base
• URL
Chaîne de caractères normalisés servant à identifier et à localiser des
ressources consultables sur Internet et à y accéder à l’aide d’un navigateur.
6
Notions de base
Navigateur
logiciel permettant à l’utilisateur de « naviguer »/ « surfer » sur le Web.
Les plus connus sont:
Safari
Internet Explorer Chrome (Apple )
(Google )
(Microsoft)
FireFox Opera
(Mozilla ) (Opera Software )
7
Notions de base
• HTTP (Hypertext Transfer Protocol): le plus fréquent. Il est
utilisé pour l’échanger d’information entre le navigateur et le
serveur.
[Link]
• FTP (File Transfert Protocol). Il permet à un usager d’accéder
aux disques durs montés sur un serveur:
[Link]
8
Notions de base
Site Web se présentant comme un inventaire, spécialisé dans un domaine
ou non, dans lequel les sites référencés sont classés par catégorie et
accessibles au moyen de liens hypertexte.
9
Notions de base
Hyper document
document électronique contenant
des images,
du son, du texte, parfois des petits morceaux de programme, et
des liens vers d'autres hyper documents (des liens hypertextes.)
Écrit en langage HTML
10
Notions de base
Liens hypertextes
élément dans une ressource associée à une URL.
apparaissent dans un style qui les distinguent
une simple action de la souris sur un lien suffit à ouvrir le
document lié.
Les documents peuvent se trouver sur n'importe quelle machine
(serveur) de l'Internet à des endroits parfois très éloignés et
donnant l'impression à l'utilisateur de naviguer sur le réseau.
11
Moteurs de recherche
• Outil permettant de rechercher les pages comportant une expression
donnée.
+ Exhaustif, options de recherche utiles, indexation de chaque mot.
– Nombre de réponses souvent élevé, une certaine expérience
d’utilisation est requise.
Méta-moteurs
« Super-moteurs » permettant d’effectuer simultanément une
recherche sur plusieurs moteurs et affichent à l'internaute une
synthèse pertinente..
+ Puissance cumulée de plusieurs outils, efficacité croissante.
– Longueur de la recherche, fantaisie de certains résultats, efficacité
moindre par rapport aux moteurs spécialisés.
Portails
• Site offrant un ensemble de ressources et
de services (généraux ou propres à un
domaine) à un ensemble d'utilisateurs
défini (grand public, membre d'une
profession, d'une branche d'activité...).
• Ex: Cuisinons, Visioweb.
++ Navigation et recherche d'information
facilitées, services à valeur ajoutée.
-- Sites cloisonnant…
Fonctionnement général
Vue d’ensemble
• Le « spider » récupère et analyse le maximum d’informations
provenant des pages qu’il visite.
• Le système d’indexation s’occupe de stocker, et classer ces
informations dans une base de données.
• Le « searcher » est chargé de retrouver dans cette base, les
documents qui correspondent le mieux à la requête émise.
Le robot – explorateur (« spider »)
• C’est un robot logiciel qui explore de façon autonome le « Web ».
• Son efficacité est capitale pour le moteur.
• Identifie les liens des pages, puis les visite à son tour, parcourant
ainsi rapidement la totalité du site, puis ceux qui lui sont rattachés.
• Examine périodiquement des millions de pages et constitue de cette
façon une base de données de celles déjà visités.
Le système d’indexation
• Analyse les informations collectées, construit un index des mots
rencontrés (et des pages correspondantes), puis stocke l’ensemble
dans une base de données.
• Convertit certains fichiers ne pouvant pas être indexés à cause de
leur format.
• Utilise des outils d’extraction pour ne récupérer que « l’essence »
des documents.
Le système d’indexation (suite)
Les techniques d’indexation :
• Au début, seulement les titres des documents,
• Puis, tous les mots du premier paragraphe,
• Aujourd’hui : les méta-données (ou metatags), ex: balise HTML
<META>.
Module de recherche (« searcher »)
• Le searcher est le frontal de l'utilisateur.
• Grâce à son interface graphique, on peut poser une question,
sélectionner les options disponibles, et lancer une recherche.
• Un script faisant alors appel au système d'indexation pour qu’il
exécute la requête sur la base de données.
• Les résultats affichés sous forme de page Web intégrant
généralement les réponses sous forme de liste.
Module de recherche – modes d’interro.
• Booléen : utilisation des opérateurs logiques (AND, OR, NOT,
NEAR, etc.),
• Liste de mots : requête retranscrite en une expression booléenne,
• En langage naturel (expérimental).
Module de recherche - techniques