Introduction au Web Sémantique
Introduction au Web Sémantique
Mohammed Reda CHBIHI Internet est un réseau mondial d’ordinateurs permettant aux utilisateurs de communiquer
(courrier électronique), de publier des informations (Web), de transférer des données (FTP),
de travailler à distance (telnet & ssh). . .
[email protected]
1 2
Année universitaire 2024/2025
12 Mars 1989
Web / WWW / World Wide Web / W3 / La toile
Tim Bernes-Lee imagine une réorganisation des bases de données du prestigieux centre
de recherche nucléaire (CERN). Il propose un système d’information distribué et d’utiliser
des technologies de consultation non linéaires, notamment l’hypertexte, pour lier
Système hypertexte public fonctionnant sur Internet : système contenant les innombrables documents scientifiques du réseau du CERN entre eux.
des documents liés entre eux par des hyperliens permettant de passer
automatiquement d’un document à l’autre.
3 4
20 décembre 1990
6 Aout 1991
Le tout premier site et le tout premier serveur Web voient le jour. Le site, qui n’est consultable Le Web s’ouvre à tous
que sur le réseau interne du CERN, est affiché sur un outil baptisé « navigateur » que TBL nomme
WorldWideWeb. Son adresse : info.cern.ch. Tim Berners-Lee, qui travaille désormais avec le belge Tim Bernes-Lee publie un lien pour télécharger un navigateur
Robert Caillau, a durant l’année défini les bases du Web : ses deux protocoles de base, le HTTP avec un lien pointant vers un site de test
(pour localiser et lier les documents) et le HTML (pour créer les pages).
23 Janvier 1993
5 6
Octobre 1994
30 avril 1993
• Tim Bernes-Lee quitte le CERN et crée le W3C (World Wide Web Consortium);
Le CERN fait passer son projet dans le domaine public et publie son code
• C’est un organisme de normalisation à but non lucratif, chargé de promouvoir
source. Désormais accessible à tous et gratuit, le Web voit très vite son usage
la compatibilité des technologies du World Wide Web telles que HTML,
exploser sur Internet. En un an seulement, on passe de quelques 500 serveurs
XHTML, XML, RDF, SPARQL, CSS, XSL, PNG, SVG et SOAP;
Web à 10 000 à la fin 1994 !
• Fonctionnant comme un consortium international, il regroupe au 18 Décembre
2023, 387 organismes partenaires;
www.w3.org
7 8
EVOLUTION DU WEB EVOLUTION DU WEB
11 12
EVOLUTION DU WEB EVOLUTION DU WEB
• La recherche d’une information précise sur le Web est devenue une tache très rude à cause
de l'encombrement des moteurs de recherche;
C/C
• Les pages web contenant les informations les plus pertinentes ne sont pas nécessairement
les plus visible;
Pour gérer et traiter cette gigantesque masse de données, celle-ci devra être
compréhensible par les machines …
C/C C/C
13 14
Au cœur du Web sémantique, on retrouve plusieurs • Il existe plusieurs points de vues futuriste par rapport à ce que serait le Web 4.0
• La plupart des définitions existantes vont dans le sens où le Web deviendra intelligent. Mais
technologies qui permettront sa réalisation.
il pose par la même occasion de nombreuses questions quant à la protection de la vie
privée, au contrôle des données, etc.
• C’est un terrain d’expérimentation où tous ne sont pas (encore) prêts à s’aventurer!
17 18
Les ontologies
19 20
HYPERTEXT MARKUP LANGUAGE HYPERTEXT MARKUP LANGUAGE
Structurer sémantiquement le contenu Le HTML 5 propose un ensemble de nouvelles balises permettant de définir différentes
d’une page sur le Web parties d’une page Web
21 22
Balise Description
<main> Contenu principal d'une page Web Éléments sémantiques
<article> Contenu indépendant du reste de la page
<section> Section d'une page Web
<header> Entête pour un document ou une section La recommandation du HTML 5 a donné une dimension sémantique pour les éléments existants
<footer> Pied de page pour un document ou une section
<nav> Regroupe un ensemble de liens de navigation
<aside> Information supplémentaire pour un article ou un document
<figure> Contenu spécifique : illustrations, diagrammes, photos, code source, etc. Il ne faut absolument pas utiliser des balises HTML
<figcaption> Titre d'une figure pour formater le texte d’une page Web
<details> Contenu supplémentaire qu’un utilisateur peut choisir d’afficher ou de cacher
<summary> Titre pour la partie <detail>
<time> Contenu temporel
<abbr> Signification d'un acronyme ou abréviation
24
23
HYPERTEXT MARKUP LANGUAGE
Éléments supprimés
Solution Solution
Balise Balise
alternative alternative
<acronym> <abbr> <font> CSS
<applet> <object> <frame> ---
<basefont> CSS <frameset> ---
<big> CSS <noframes> ---
<center> CSS <strike> <del> ou <s>
<dir> @dir <tt> CSS 25
26
Introduit par google pour classer les pages et les sites, c'est un poids
donné à une page donnée, en fonction des liens reçus d'autres pages 27
et la qualité du contenu alors … 28
Une équipe de recherche de Google travaillerait à modifier l'algorithme du Page
Rank en mesurant la crédibilité d'une page, plutôt que sa réputation sur le Web Google exploite pour cela une grosse base de connaissance nommée Knowledge Vault
(coffre-fort de la connaissance) capable de s'alimenter de façon automatique
et autonome, sans intervention humaine
E-E-A-T E-E-A-T
Concept de Google lié au référencement naturel
Experience (expérience)
Il s’agit des quatre éléments sur lesquels les Quality Raters de Google Expérience du créateur de contenu
doivent se baser pour évaluer la pertinence des différents résultats
de recherche de l’algorithme du moteur sur une requête en particulier Google demande à ses Quality Raters d’estimer si l’auteur de la page, le site
la publiant, et/ou l’entreprise qui en est à l’origine a déjà une expérience
Des personnes, pouvant être situées dans le monde entier, qui sont chargées
du sujet traité, et si celle-ci est plus ou moins riche.
de donner une note aux résultats de recherche de l’algorithme Google
en se basant sur les guidelines de la firme qui leur sont dédiées 35 36
E-E-A-T E-E-A-T
Expertise
C’est le fait de posséder des connaissances très poussées sur un sujet Authoritativeness (Autorité)
la notoriété que peut avoir le créateur de contenu sur un sujet
Les évaluateurs humains de Google doivent juger le degré d’expertise d’une page par
rapport au thème traité
Le niveau d’autorité d’un rédacteur, d’un site ou d’une entreprise peut être
évalué en fonction de la reconnaissance que lui porte Google, le Web et
Une nouvelle fois, l’expertise du rédacteur de la page, du site web auquel
plus généralement le monde entier
elle appartient, ou encore de l’entreprise/groupe derrière le site peuvent toutes entrer
en jeu dans l’évaluation.
37 38
E-E-A-T N- E-E-A-T-T
Il y a deux autres aspects cachés qui sont traités par les Quality Raters
de Google
Trustworthiness (Fiabilité)
De manière générale, les gens prennent en compte la célébrité (notoriété) lorsqu'ils
Critère d’évaluation sur la fiabilité interagissent avec des fournisseurs de solutions (personnes et entreprises).
Ils considèrent également la transparence (ou l'absence de transparence).
Les Quality Raters évaluent si la page, le site dans son ensemble, la personne
ou l’entreprise derrière le site est bien digne de confiance
Ce sont deux aspects extrêmement importants de la crédibilité que Google
ne mentionne pas explicitement, mais qu'il utilise assurément
39 40
N- E-E-A-T-T N- E-E-A-T-T
Transparency (Transparence)
Notability (Notoriété) La transparence dans N-E-E-A-T-T est non négociable.
la notoriété n’est synonyme de la célébrité que partiellement Être transparent est un aspect fondamental de la crédibilité et absolument
nécessaire pour la confiance. Cela signifie être ouvert, clair et honnête sur qui
Cela indique également que l'entité a suffisamment d'impact dans un domaine vous êtes en tant que créateur de contenu ou propriétaire de site web.
particulier pour un public spécifique afin de justifier une reconnaissance
La transparence améliore grandement l'efficacité avec laquelle votre message
L'approche de Google concernant la notoriété repose sur une évaluation très est communiqué et fait confiance, à la fois par les humains et par les algorithmes
détaillée, en fonction du sujet, de la localisation géographique et du type de Google. Sans transparence sur qui vous êtes, les autres éléments
d'entité concernée de N-E-E-A-T-T perdent une grande partie de leur signification.
41 42
Les travaux de Google concernant le EEAT se font dans le cadre Les travaux de Google concernant le EEAT se font dans le cadre
du SEO (Search Engine Optimization) du SEO (Search Engine Optimization)
Leur principale objectif est de vérifier le créateur du contenu Aussi, toutes les entités détectées (principalement des personnes)
avant le contenu lui même sont injectées dans le Knowledge Vault
43 44
Plusieurs objectifs sont mis en avant par Google pour justifier les mises
à jour (Killer Whale)
45 46
47 48
Le Web sémantique est une infrastructure pour permettre l’utilisation de connaissances
Définition du WS formalisées en plus du contenu informel actuel du Web
Un web de données qui peuvent être traitées directement et indirectement
par des machines pour aider leurs utilisateurs à créer de nouvelles
connaissances
49 50
L’infrastructure du WS doit permettre d’abord de localiser, d’identifier et de transformer Un des enjeux du WS est de fournir les moyens pour classifier et indexer les ressources
des ressources de manière robuste et saine tout en renforçant l’esprit d’ouverture du Web sur le Web pour qu’elles soient facilement accessibles et que l’on puisse produire
avec sa diversité d’utilisateurs de la sémantique et ceci tout en essayant de garantir la fiabilité de l’information
Ressource 1 Ressource 2
Ressource 3
51
52
Attribution de métadonnées pour une image
pour la décrire Knowledge Graph
53 54
Personnes
Lieux
Organisations
55 56
Knowledge Graph
animal
D’autres technologies sont utilisées par Google pour rendre leur moteur
de recherche le plus « sémantique » possible
NLP (Natural Language Processing) pour améliorer l’interprétation sémantique des requêtes
utilisateur en transformant le langage naturel non structuré en des données structurées
et facilement interprétables par les machines
LLM (Large Language models) pour améliorer l’interaction avec les utilisateurs, ainsi,
59 les résultats des recherches pourront être affinés 60
Facebook produit un immense contenu sémantique
grâce à plusieurs mécanismes mis en place
61 62
FOAF
Social Graph Friend-Of-A-Friend
Un modèle de données représentant Ontologie RDF permettant de décrire des personnes
les connexions entre ses millions et les relations qu’elles entretiennent entre elles
d'utilisateurs
63 64
Open Graph
Un moyen de récupérer toutes sortes d'informations sur les utilisateurs
de Facebook qui sont générées par des services tiers et de les alimenter
dans la machine Facebook
65 66
ARCHITECTURE ARCHITECTURE
Plus connu sous le terme "URI". Il fournit les moyens permettant d'identifier précisément
chaque ressource du Web sémantique. Ce dernier utilise cette identification afin de faciliter
la communication avec les couches supérieures.
67 68
ARCHITECTURE ARCHITECTURE
Le Web sémantique devrait aussi permettre de relier différents documents Aussi, le XML constitue la base de plusieurs standards qui sont
entre eux malgré la différence de langages humains utilisés utilisés dans le WS comme XML Schema, RDF, OWL et bien d’autres
69 70
ARCHITECTURE ARCHITECTURE
Il possède plusieurs syntaxes, mais la plus utilisée sur le Web Il utilise une syntaxe basée sur le langage <? XML ?>
est celle basée sur XML
71 72
ARCHITECTURE ARCHITECTURE
73 74
ARCHITECTURE ARCHITECTURE
Le WS utilise aussi des langages de règles créés afin d'étendre le nombre de conditions
informatiques possibles lors de l'échange des données La Cryptographie est utilisée afin de s'assurer de la véracité et de la fiabilité de sources
fournissant des données dans le cadre du Web sémantique, ce qui peut entre autres
être mis en place par la création d'une signature numérique
L’imprécision
L’immensité
Les systèmes de raisonnement automatisé devront
Les systèmes de raisonnement automatisé être en mesure de comprendre les requêtes émises
devront gérer une quantité de paramètres par les utilisateurs
vraiment énormes
79 80
Les Défis Les Défis
L’incohérence
L’incertitude
Des contradictions logiques surgiront inévitablement au cours du développement
Des concepts précis avec des valeurs des grandes ontologies, et quand des ontologies à partir de sources distinctes
incertaines seront combinées
81 82
Les Défis
La tromperie
Cela arrive quand le producteur d'une information désire
volontairement tromper le consommateur de ce type
d'information.
83