0% ont trouvé ce document utile (0 vote)
51 vues21 pages

Introduction au Web Sémantique

Dghjjj gigs fi yiiohg giigyi

Transféré par

abderrahmane.kheir-etu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues21 pages

Introduction au Web Sémantique

Dghjjj gigs fi yiiohg giigyi

Transféré par

abderrahmane.kheir-etu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au Web Sémantique

Mohammed Reda CHBIHI Internet est un réseau mondial d’ordinateurs permettant aux utilisateurs de communiquer
(courrier électronique), de publier des informations (Web), de transférer des données (FTP),
de travailler à distance (telnet & ssh). . .
[email protected]
1 2
Année universitaire 2024/2025

12 Mars 1989
Web / WWW / World Wide Web / W3 / La toile
Tim Bernes-Lee imagine une réorganisation des bases de données du prestigieux centre
de recherche nucléaire (CERN). Il propose un système d’information distribué et d’utiliser
des technologies de consultation non linéaires, notamment l’hypertexte, pour lier
Système hypertexte public fonctionnant sur Internet : système contenant les innombrables documents scientifiques du réseau du CERN entre eux.
des documents liés entre eux par des hyperliens permettant de passer
automatiquement d’un document à l’autre.

3 4
20 décembre 1990
6 Aout 1991
Le tout premier site et le tout premier serveur Web voient le jour. Le site, qui n’est consultable Le Web s’ouvre à tous
que sur le réseau interne du CERN, est affiché sur un outil baptisé « navigateur » que TBL nomme
WorldWideWeb. Son adresse : info.cern.ch. Tim Berners-Lee, qui travaille désormais avec le belge Tim Bernes-Lee publie un lien pour télécharger un navigateur
Robert Caillau, a durant l’année défini les bases du Web : ses deux protocoles de base, le HTTP avec un lien pointant vers un site de test
(pour localiser et lier les documents) et le HTML (pour créer les pages).

23 Janvier 1993

Apparition de la première version du navigateur Mosaic.


Il a été développé par le centre de recherches américain NCSA

5 6

Octobre 1994
30 avril 1993
• Tim Bernes-Lee quitte le CERN et crée le W3C (World Wide Web Consortium);
Le CERN fait passer son projet dans le domaine public et publie son code
• C’est un organisme de normalisation à but non lucratif, chargé de promouvoir
source. Désormais accessible à tous et gratuit, le Web voit très vite son usage
la compatibilité des technologies du World Wide Web telles que HTML,
exploser sur Internet. En un an seulement, on passe de quelques 500 serveurs
XHTML, XML, RDF, SPARQL, CSS, XSL, PNG, SVG et SOAP;
Web à 10 000 à la fin 1994 !
• Fonctionnant comme un consortium international, il regroupe au 18 Décembre
2023, 387 organismes partenaires;

www.w3.org

7 8
EVOLUTION DU WEB EVOLUTION DU WEB

Web 2.0 ou "The Read-Write Web"


Web 1.0 ou "The Read-Only Web"

Le rôle des utilisateurs d'internet se limitait à lire les informations présentées


sur les sites web. C/C

Créateur de contenu Consommateurs


C/C C/C
9 10
C/C = Créateur / Consommateur

EVOLUTION DU WEB EVOLUTION DU WEB

Web 2.0 ou "The Read-Write Web"


La recherche de contenu
Appelé aussi Web Collaboratif ou Social
pertinent devient de plus en
• L’objectif est de donner aux utilisateurs la possibilité d'interagir et de contribuer avec plus difficile !!
d'autres personnes à travers les pages web,
• Apparition au début du 3ème millénaire des blogs et des sites de discussions
instantanées, et de nos jours on utilise d’autres outils de collaboration comme les wikis,
les forums ou les réseaux sociaux

 Changement du paysage du Web et création de milliards de Pétaoctets de données,

11 12
EVOLUTION DU WEB EVOLUTION DU WEB

Web 3.0 ou "The Semantic Web"


La fin du Web 2.0 … ?

• La recherche d’une information précise sur le Web est devenue une tache très rude à cause
de l'encombrement des moteurs de recherche;
C/C
• Les pages web contenant les informations les plus pertinentes ne sont pas nécessairement
les plus visible;

 Pour gérer et traiter cette gigantesque masse de données, celle-ci devra être
compréhensible par les machines …

C/C C/C
13 14

EVOLUTION DU WEB EVOLUTION DU WEB

Web 3.0 ou "The Semantic Web"


La réalisation du Web sémantique passe par l’inclusion de
sémantique au sein des documents et pages sur le web

Il propose un ensemble de technologies qui permettent de donner un sens aux informations


sur internet
L’objectif est de rendre l’information sur le
 Il tend à faire une corrélation entre les mots en analysant le contexte et le contenu Web compréhensible par les machines
environnant, ainsi que les interactions entre les utilisateurs et leur comportement sur un site
web donné.

Malheureusement, la plupart des sites et


applications web existantes créent et gèrent
15 16
des données sans exprimer de la sémantique
EVOLUTION DU WEB EVOLUTION DU WEB

Web 4.0 ou "Open, Linked and Intelligent Web"

Au cœur du Web sémantique, on retrouve plusieurs • Il existe plusieurs points de vues futuriste par rapport à ce que serait le Web 4.0
• La plupart des définitions existantes vont dans le sens où le Web deviendra intelligent. Mais
technologies qui permettront sa réalisation.
il pose par la même occasion de nombreuses questions quant à la protection de la vie
privée, au contrôle des données, etc.
• C’est un terrain d’expérimentation où tous ne sont pas (encore) prêts à s’aventurer!

La principale technologie utilisée


ontologies

17 18

Début du Web Sémantique

Les ontologies

19 20
HYPERTEXT MARKUP LANGUAGE HYPERTEXT MARKUP LANGUAGE

Semantic HTML Éléments sémantiques

Structurer sémantiquement le contenu Le HTML 5 propose un ensemble de nouvelles balises permettant de définir différentes
d’une page sur le Web parties d’une page Web

Les balises ajoutées possèdent une signification


Faciliter la compréhension et l'interprétation sémantique qui permet de définir de manière
par les machines claire leur contenu.

21 22

HYPERTEXT MARKUP LANGUAGE HYPERTEXT MARKUP LANGUAGE

Balise Description
<main> Contenu principal d'une page Web Éléments sémantiques
<article> Contenu indépendant du reste de la page
<section> Section d'une page Web
<header> Entête pour un document ou une section La recommandation du HTML 5 a donné une dimension sémantique pour les éléments existants
<footer> Pied de page pour un document ou une section
<nav> Regroupe un ensemble de liens de navigation
<aside> Information supplémentaire pour un article ou un document
<figure> Contenu spécifique : illustrations, diagrammes, photos, code source, etc. Il ne faut absolument pas utiliser des balises HTML
<figcaption> Titre d'une figure pour formater le texte d’une page Web
<details> Contenu supplémentaire qu’un utilisateur peut choisir d’afficher ou de cacher
<summary> Titre pour la partie <detail>
<time> Contenu temporel
<abbr> Signification d'un acronyme ou abréviation
24
23
HYPERTEXT MARKUP LANGUAGE

Éléments supprimés

Plusieurs balises ont disparues avec le HTML 5

Solution Solution
Balise Balise
alternative alternative
<acronym> <abbr> <font> CSS
<applet> <object> <frame> ---
<basefont> CSS <frameset> ---
<big> CSS <noframes> ---
<center> CSS <strike> <del> ou <s>
<dir> @dir <tt> CSS 25
26

Le Pagerank prends en compte ces liens internes et externes pour attribuer


un nombre de points à la page pour pouvoir ainsi dire que cette page répond
bien à cette requête et ce mieux qu'une autre ayant un Pagerank plus faible

Introduit par google pour classer les pages et les sites, c'est un poids
donné à une page donnée, en fonction des liens reçus d'autres pages 27
et la qualité du contenu alors … 28
Une équipe de recherche de Google travaillerait à modifier l'algorithme du Page
Rank en mesurant la crédibilité d'une page, plutôt que sa réputation sur le Web Google exploite pour cela une grosse base de connaissance nommée Knowledge Vault
(coffre-fort de la connaissance) capable de s'alimenter de façon automatique
et autonome, sans intervention humaine

Au lieu de dénombrer le nombre de liens entrants, le système compte le nombre de faits


incorrects au sein de la page

Actuellement, le Knowledge Vault contient plus de 1,6 Milliards


de faits collectés automatiquement depuis internet
Le score calculé pour chaque page est son score de crédibilité
basé sur le contenu (Knowledge-Based Trust score)
29 30

Knowledge Vault utilise une combinaison d’algorithmes et de connaissances principales


pour construire une base de connaissances
Statuer si un site donné peut être considéré
comme une source d’informations véridiques
ou pas
Extraction de données depuis du texte Ministère de la vérité
brut, de métadonnées sémantiques ainsi
qu’à partir de données structurées

Permettre aux utilisateurs de Google d’éviter les sites


Données qui seront validées par
contenant des fausses informations
rapport aux informations existantes 31 32
Données que nous traitons lorsque vous utilisez les services Google
L’objectif du Knowledge Vault est de pouvoir répondre • Lorsque par exemple vous cherchez un restaurant sur Google Maps ou visionnez une vidéo sur YouTube,
aux questions des internautes comme un oracle et non nous traitons les informations liées à cette activité, comme la vidéo que vous avez regardée, l'identifiant
pas comme un simple moteur de recherche de votre appareil, votre adresse IP, vos cookies ou votre position.
• Nous traitons également les types d'informations mentionnés précédemment lorsque vous utilisez des
applications ou que vous consultez des sites faisant appel à des services Google, comme les annonces,
Google Analytics ou le lecteur vidéo YouTube.
• Pourquoi traitons-nous ces données ?
• Nous traitons ces données pour les raisons décrites dans notre règlement, notamment aux fins suivantes :
o Permettre à nos services de proposer des contenus plus utiles et personnalisés, tels que des résultats
de recherche plus pertinents
o Améliorer la qualité de nos services et en développer de nouveaux
o Proposer des annonces correspondant à vos centres d'intérêt, y compris sur la base des recherches
que vous avez effectuées ou des vidéos que vous avez regardées sur YouTube
o Renforcer la sécurité en vous protégeant contre la fraude et les abus
o Effectuer des analyses et des mesures afin de comprendre comment nos services sont utilisés

33 Extrait des conditions d’utilisation des services Google 34

E-E-A-T E-E-A-T
Concept de Google lié au référencement naturel

Experience (expérience)
Il s’agit des quatre éléments sur lesquels les Quality Raters de Google Expérience du créateur de contenu
doivent se baser pour évaluer la pertinence des différents résultats
de recherche de l’algorithme du moteur sur une requête en particulier Google demande à ses Quality Raters d’estimer si l’auteur de la page, le site
la publiant, et/ou l’entreprise qui en est à l’origine a déjà une expérience
Des personnes, pouvant être situées dans le monde entier, qui sont chargées
du sujet traité, et si celle-ci est plus ou moins riche.
de donner une note aux résultats de recherche de l’algorithme Google
en se basant sur les guidelines de la firme qui leur sont dédiées 35 36
E-E-A-T E-E-A-T

Expertise
C’est le fait de posséder des connaissances très poussées sur un sujet Authoritativeness (Autorité)
la notoriété que peut avoir le créateur de contenu sur un sujet
Les évaluateurs humains de Google doivent juger le degré d’expertise d’une page par
rapport au thème traité
Le niveau d’autorité d’un rédacteur, d’un site ou d’une entreprise peut être
évalué en fonction de la reconnaissance que lui porte Google, le Web et
Une nouvelle fois, l’expertise du rédacteur de la page, du site web auquel
plus généralement le monde entier
elle appartient, ou encore de l’entreprise/groupe derrière le site peuvent toutes entrer
en jeu dans l’évaluation.
37 38

E-E-A-T N- E-E-A-T-T
Il y a deux autres aspects cachés qui sont traités par les Quality Raters
de Google
Trustworthiness (Fiabilité)
De manière générale, les gens prennent en compte la célébrité (notoriété) lorsqu'ils
Critère d’évaluation sur la fiabilité interagissent avec des fournisseurs de solutions (personnes et entreprises).
Ils considèrent également la transparence (ou l'absence de transparence).
Les Quality Raters évaluent si la page, le site dans son ensemble, la personne
ou l’entreprise derrière le site est bien digne de confiance
Ce sont deux aspects extrêmement importants de la crédibilité que Google
ne mentionne pas explicitement, mais qu'il utilise assurément
39 40
N- E-E-A-T-T N- E-E-A-T-T
Transparency (Transparence)
Notability (Notoriété) La transparence dans N-E-E-A-T-T est non négociable.
la notoriété n’est synonyme de la célébrité que partiellement Être transparent est un aspect fondamental de la crédibilité et absolument
nécessaire pour la confiance. Cela signifie être ouvert, clair et honnête sur qui
Cela indique également que l'entité a suffisamment d'impact dans un domaine vous êtes en tant que créateur de contenu ou propriétaire de site web.
particulier pour un public spécifique afin de justifier une reconnaissance
La transparence améliore grandement l'efficacité avec laquelle votre message
L'approche de Google concernant la notoriété repose sur une évaluation très est communiqué et fait confiance, à la fois par les humains et par les algorithmes
détaillée, en fonction du sujet, de la localisation géographique et du type de Google. Sans transparence sur qui vous êtes, les autres éléments
d'entité concernée de N-E-E-A-T-T perdent une grande partie de leur signification.
41 42

Les travaux de Google concernant le EEAT se font dans le cadre Les travaux de Google concernant le EEAT se font dans le cadre
du SEO (Search Engine Optimization) du SEO (Search Engine Optimization)

Leur principale objectif est de vérifier le créateur du contenu Aussi, toutes les entités détectées (principalement des personnes)
avant le contenu lui même sont injectées dans le Knowledge Vault

43 44
Plusieurs objectifs sont mis en avant par Google pour justifier les mises
à jour (Killer Whale)

• Accélérer la croissance du Knowledge Vault


• Restructurer le Knowledge Vault
• Abandonner progressivement la dépendance des autres sources
(comme Wikipédia)

45 46

Exemple d’un Knowledge Panel

Comme résultats des mises à jour :

• Augmentation du nombre de faits et d'entités dans le Knowledge


Vault à plus de 1 600 milliards de faits sur 54 milliards d'entités
• Le nombre d'entrées du Knowledge Vault pour les entités Personne
utilisant Wikipedia n'a pas augmenté
• Les Knowledge Panels pour les entités de type Personne
a augumenté de 2.55% et apparaissent directement sur les pages
de résultats de recherche

47 48
Le Web sémantique est une infrastructure pour permettre l’utilisation de connaissances
Définition du WS formalisées en plus du contenu informel actuel du Web
Un web de données qui peuvent être traitées directement et indirectement
par des machines pour aider leurs utilisateurs à créer de nouvelles
connaissances

Il permet de créer des relations logiques entre les données


plutôt que de faire une interprétation du sens

49 50

L’infrastructure du WS doit permettre d’abord de localiser, d’identifier et de transformer Un des enjeux du WS est de fournir les moyens pour classifier et indexer les ressources
des ressources de manière robuste et saine tout en renforçant l’esprit d’ouverture du Web sur le Web pour qu’elles soient facilement accessibles et que l’on puisse produire
avec sa diversité d’utilisateurs de la sémantique et ceci tout en essayant de garantir la fiabilité de l’information

Ressource 1 Ressource 2

Ressource 3
51
52
Attribution de métadonnées pour une image
pour la décrire Knowledge Graph

Un moyen permettant à Google de lier


une ressource avec d’autres ressources
sur le Web

53 54

Knowledge Graph Knowledge Graph

Les entités ne sont pas seulement de simples chaines


En Mai 2020 : Le Knowledge Graph gère 5 milliards
de caractères, mais des choses qui possèdent un sens
d’entités nommée avec 500 milliards de faits vérifiés
unique identifiable

Personnes

Lieux

Organisations
55 56
Knowledge Graph

Les entités ne sont pas seulement de simples chaines


de caractères, mais des choses qui possèdent un sens
unique identifiable

Le simple fait d’utiliser une chaine de caractères dans une requête


de recherche n’est pas suffisant pour comprendre le contexte

En combinant la chaine de caractères avec d’autres entités ou


attributs, le sens unique sera clairement identifié
57 58

animal
D’autres technologies sont utilisées par Google pour rendre leur moteur
de recherche le plus « sémantique » possible

Machine Learning pour l’interprétation des requêtes utilisateurs et de les placer


dans un contexte précis

NLP (Natural Language Processing) pour améliorer l’interprétation sémantique des requêtes
utilisateur en transformant le langage naturel non structuré en des données structurées
et facilement interprétables par les machines

LLM (Large Language models) pour améliorer l’interaction avec les utilisateurs, ainsi,
59 les résultats des recherches pourront être affinés 60
Facebook produit un immense contenu sémantique
grâce à plusieurs mécanismes mis en place

61 62

FOAF
Social Graph Friend-Of-A-Friend
Un modèle de données représentant Ontologie RDF permettant de décrire des personnes
les connexions entre ses millions et les relations qu’elles entretiennent entre elles
d'utilisateurs

63 64
Open Graph
Un moyen de récupérer toutes sortes d'informations sur les utilisateurs
de Facebook qui sont générées par des services tiers et de les alimenter
dans la machine Facebook

65 66

ARCHITECTURE ARCHITECTURE

Internationalized Resource Identifier (IRI)

Plus connu sous le terme "URI". Il fournit les moyens permettant d'identifier précisément
chaque ressource du Web sémantique. Ce dernier utilise cette identification afin de faciliter
la communication avec les couches supérieures.

67 68
ARCHITECTURE ARCHITECTURE

Langage de balisage qui permet la création de documents comportant des données


semi-structurées auxquelles le web sémantique donne un sens

Il sert à écrire et manipuler des textes dans différents langues

Le Web sémantique devrait aussi permettre de relier différents documents Aussi, le XML constitue la base de plusieurs standards qui sont
entre eux malgré la différence de langages humains utilisés utilisés dans le WS comme XML Schema, RDF, OWL et bien d’autres

69 70

ARCHITECTURE ARCHITECTURE

Modèle de graphe permettant de décrire les ressources utilisées


RDF Schema : qui est un langage qui permet d'hiérarchiser des classes et des propriétés
ainsi que leurs métadonnées
ou encore de définir des ontologies

Il possède plusieurs syntaxes, mais la plus utilisée sur le Web Il utilise une syntaxe basée sur le langage <? XML ?>
est celle basée sur XML
71 72
ARCHITECTURE ARCHITECTURE

Web Ontology Language est un langage de représentation des connaissances


Langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier
construit sur le modèle de données de RDF-S
ou de supprimer des données RDF disponibles à travers Internet
Il fournit les moyens pour définir des ontologies web structurées
SPARQL Protocol and RDF Query Language

73 74

ARCHITECTURE ARCHITECTURE

Le WS utilise aussi des langages de règles créés afin d'étendre le nombre de conditions
informatiques possibles lors de l'échange des données La Cryptographie est utilisée afin de s'assurer de la véracité et de la fiabilité de sources
fournissant des données dans le cadre du Web sémantique, ce qui peut entre autres
être mis en place par la création d'une signature numérique

RIF RuleML SWRL


75 76
ARCHITECTURE ARCHITECTURE

Les couches du niveau supérieur sont encore en cours de normalisation


L’interface utilisateur permet d’utiliser les applications
implémentant l’architecture du Web Sémantique
Logic Autorise l’écriture des règles

Proof Exécute les règles

Trust Prise de décision 77 78

Les Défis Les Défis

L’imprécision
L’immensité
Les systèmes de raisonnement automatisé devront
Les systèmes de raisonnement automatisé être en mesure de comprendre les requêtes émises
devront gérer une quantité de paramètres par les utilisateurs
vraiment énormes

79 80
Les Défis Les Défis
L’incohérence
L’incertitude
Des contradictions logiques surgiront inévitablement au cours du développement
Des concepts précis avec des valeurs des grandes ontologies, et quand des ontologies à partir de sources distinctes
incertaines seront combinées

81 82

Les Défis

La tromperie
Cela arrive quand le producteur d'une information désire
volontairement tromper le consommateur de ce type
d'information.

83

Vous aimerez peut-être aussi