0% ont trouvé ce document utile (0 vote)
129 vues25 pages

Leçon 01 Recherche D'information Sur Internet

Le document présente les notions de base de la recherche d'information sur Internet, y compris des concepts tels que l'adresse IP, les serveurs, les navigateurs et les protocoles comme HTTP et FTP. Il aborde également le fonctionnement des moteurs de recherche, des méta-moteurs et des portails, ainsi que le rôle des spiders et des systèmes d'indexation dans la collecte et la recherche d'informations. Enfin, il décrit les différentes techniques d'interrogation et de recherche utilisées pour accéder aux données en ligne.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
129 vues25 pages

Leçon 01 Recherche D'information Sur Internet

Le document présente les notions de base de la recherche d'information sur Internet, y compris des concepts tels que l'adresse IP, les serveurs, les navigateurs et les protocoles comme HTTP et FTP. Il aborde également le fonctionnement des moteurs de recherche, des méta-moteurs et des portails, ainsi que le rôle des spiders et des systèmes d'indexation dans la collecte et la recherche d'informations. Enfin, il décrit les différentes techniques d'interrogation et de recherche utilisées pour accéder aux données en ligne.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Leçon 01

Recherche d’information sur Internet

1
Notions de base

• Internet
un réseau international d’ordinateurs communiquant entre eux grâce à des
protocoles d’échanges de données standard.

2
Notions de base

Adresse IP

Toutes les machines connectées à Internet ont une adresse composée de


quatre nombres séparés par un point.

Ex. 192. 168. 10. 12

3
Notions de base

4
Notions de base

Serveur
Ordinateur connecté au réseau et qui met à disposition de ses utilisateurs un ensemble
de fichiers et d’applications

DNS (Domain Name Server)


établit la correspondance entre IP et URL. Obligatoire pour accéder à
un serveur et naviguer sur le réseau.

41. 201. 164. 34 => [Link]

5
Notions de base

• URL

Chaîne de caractères normalisés servant à identifier et à localiser des


ressources consultables sur Internet et à y accéder à l’aide d’un navigateur.

6
Notions de base

Navigateur
logiciel permettant à l’utilisateur de « naviguer »/ « surfer » sur le Web.
Les plus connus sont:

Safari
Internet Explorer Chrome (Apple )
(Google )
(Microsoft)
FireFox Opera
(Mozilla ) (Opera Software )

7
Notions de base

• HTTP (Hypertext Transfer Protocol): le plus fréquent. Il est


utilisé pour l’échanger d’information entre le navigateur et le
serveur.

[Link]

• FTP (File Transfert Protocol). Il permet à un usager d’accéder


aux disques durs montés sur un serveur:

[Link]

8
Notions de base

Site Web se présentant comme un inventaire, spécialisé dans un domaine


ou non, dans lequel les sites référencés sont classés par catégorie et
accessibles au moyen de liens hypertexte.

9
Notions de base

Hyper document

document électronique contenant

 des images,

 du son, du texte, parfois des petits morceaux de programme, et


des liens vers d'autres hyper documents (des liens hypertextes.)

 Écrit en langage HTML

10
Notions de base

Liens hypertextes

élément dans une ressource associée à une URL.

 apparaissent dans un style qui les distinguent

 une simple action de la souris sur un lien suffit à ouvrir le


document lié.

 Les documents peuvent se trouver sur n'importe quelle machine


(serveur) de l'Internet à des endroits parfois très éloignés et
donnant l'impression à l'utilisateur de naviguer sur le réseau.

11
Moteurs de recherche

• Outil permettant de rechercher les pages comportant une expression


donnée.

+ Exhaustif, options de recherche utiles, indexation de chaque mot.

– Nombre de réponses souvent élevé, une certaine expérience


d’utilisation est requise.
Méta-moteurs

« Super-moteurs » permettant d’effectuer simultanément une


recherche sur plusieurs moteurs et affichent à l'internaute une
synthèse pertinente..

+ Puissance cumulée de plusieurs outils, efficacité croissante.

– Longueur de la recherche, fantaisie de certains résultats, efficacité


moindre par rapport aux moteurs spécialisés.
Portails

• Site offrant un ensemble de ressources et


de services (généraux ou propres à un
domaine) à un ensemble d'utilisateurs
défini (grand public, membre d'une
profession, d'une branche d'activité...).

• Ex: Cuisinons, Visioweb.

++ Navigation et recherche d'information


facilitées, services à valeur ajoutée.

-- Sites cloisonnant…
Fonctionnement général
Vue d’ensemble

• Le « spider » récupère et analyse le maximum d’informations


provenant des pages qu’il visite.

• Le système d’indexation s’occupe de stocker, et classer ces


informations dans une base de données.

• Le « searcher » est chargé de retrouver dans cette base, les


documents qui correspondent le mieux à la requête émise.
Le robot – explorateur (« spider »)

• C’est un robot logiciel qui explore de façon autonome le « Web ».

• Son efficacité est capitale pour le moteur.

• Identifie les liens des pages, puis les visite à son tour, parcourant
ainsi rapidement la totalité du site, puis ceux qui lui sont rattachés.

• Examine périodiquement des millions de pages et constitue de cette


façon une base de données de celles déjà visités.
Le système d’indexation

• Analyse les informations collectées, construit un index des mots


rencontrés (et des pages correspondantes), puis stocke l’ensemble
dans une base de données.

• Convertit certains fichiers ne pouvant pas être indexés à cause de


leur format.

• Utilise des outils d’extraction pour ne récupérer que « l’essence »


des documents.
Le système d’indexation (suite)

Les techniques d’indexation :

• Au début, seulement les titres des documents,

• Puis, tous les mots du premier paragraphe,

• Aujourd’hui : les méta-données (ou metatags), ex: balise HTML


<META>.
Module de recherche (« searcher »)

• Le searcher est le frontal de l'utilisateur.

• Grâce à son interface graphique, on peut poser une question,


sélectionner les options disponibles, et lancer une recherche.

• Un script faisant alors appel au système d'indexation pour qu’il


exécute la requête sur la base de données.

• Les résultats affichés sous forme de page Web intégrant


généralement les réponses sous forme de liste.
Module de recherche – modes d’interro.

• Booléen : utilisation des opérateurs logiques (AND, OR, NOT,


NEAR, etc.),

• Liste de mots : requête retranscrite en une expression booléenne,

• En langage naturel (expérimental).


Module de recherche - techniques

Vous aimerez peut-être aussi