Sci6005 A2020 c5 Notes Cours
Sci6005 A2020 c5 Notes Cours
3. Introduction ................................................................................................................................................................................. 4
Glossaire 21
Bibliographie 24
Webographie 26
Index 27
1. + Au programme aujourd'hui
2. + Alignement pédagogique
Objectif général : Comprendre la place des technologies et de l'information numérique en contexte documentaire
Expliquer les concepts Définir ce qu'est Internet, le Web 1.0, le Web Section Évolution d'Internet et du Web
fondamentaux des 2.0 et le Web 3.0
environnements en réseau
Donner des exemples de plateformes 2.0 Section Évolution d'Internet et du Web > Historique
du Web et d'Internet > Web > Web 2.0 : Le Web
participatif
Expliquer les enjeux liés à l'évolution du Web Section Évolution d'Internet et du Web > Culture
informationnelle et numérique sur le Web
Expliquer ce que sont les données ouvertes, Section Données sur le Web
les données liées et les données de TP Données
recherche
Objectif général : Comprendre la place des technologies et de l'information numérique en contexte documentaire
3. Introduction
Afin de bien vivre dans l'environnement réseauté omniprésent dans le quotidien des professionnelles et professionnels de
l'information, en sus des concepts de bases des environnements réseautés, il est important de comprendre un des
réseaux que l'on croise au quotidien, soit le Web. Les milieux documentaires ont intégré le Web comme plateforme pour
leurs ressources et leurs services avec les défis qui en découlent. Lankes et al. (2007)* soulignent en effet que ces
derniers sont multiples entre autres pour l'intégration du Web 2.0 au sein de leurs systèmes d'information, tant sur le plan
politique et éthique qu'opérationnel et technique. Une attention particulière doit être portée à chacune des composantes
de l' "organisation 2.0" (acteurs, infrastructures, etc.) et à son insertion dans son environnement informationnel (
Dufour & Cadieux, 2013*).
Après avoir précisé les bases de l'évolution du Web, nous nous intéresserons à la culture numérique qui en découle.
Nous enchaînerons par la suite sur les principaux types de données qu'on y retrouve ainsi que sur l'importance de la
normalisation dans ces environnements réseautés.
Dans sa conceptualisation, l'histoire de l'Internet et du Web remonte aux années 40 lorsque Vannevar Bush a rêvé d'un
univers de documents interconnectés en réaction à l'explosion documentaire qu'il observait. Bien qu'il n'ait pas lui-même
inventé le terme "hypertexte", c'est une des premières instances de ce concept. Dans sa concrétisation technique, c'est
dans les années 60 que le premier nœud de ce qui deviendra Internet a été mis en place par l'équipe de Tim Berners Lee.
On remarque que le délai entre les moments clés se raccourcit plus le temps avance. En fait, cette observation peut se
faire plus globalement lorsque l'on observe l'adoption des technologies. Ceci est évident si on compare le temps pris pour
atteindre 50 millions d'auditeurs pour certaines technologies marquantes dans notre histoire : la radio a pris 38 ans, la
télévision 13 ans, Internet 4 ans, le iPod 3 ans, et Facebook 2 ans (source : Did you know 3.0? 2012, http://www.youtube.
com/watch?v=YmwwrGV_aiE; il est à noter que d'autres sources donnent des chiffres un peu différents, par exemple
https://twitter.com/Guglielminetti/status/919245063967911937, mais une tendance similaire est observable).
Si le rythme est essoufflant pour l'utilisateur qui veut rester à jour, il l'est encore plus pour les organisations dont les
activités sont étroitement liées avec ces environnements numériques. Cela leur demande d'être de plus en plus agiles
dans leur intégration des technologies et de s'habituer aux changements perpétuels, ce qui n'est pas toujours facile d'un
point de vue humain et organisationnel.
L'histoire d'Internet et du Web est jalonnée de moments clés qui seront décrits dans les sections qui suivent.
4.1. Internet
D'entrée de jeu, il est important de bien comprendre que les termes Internet et Web ne sont pas synonymes! On retrouve
parfois une certaine confusion entre les deux termes. Plus précisément, on peut définir Internet ainsi :
A huge computer network available to everyone with a personal computer and a means to connect to it. It is the actual
physical network made up of wires, cables, and satellites as opposed to the web, which is the multimedia interface to
resources available on the Internet.
Le Web est ainsi une des sphères d'Internet, Internet étant un réseau plus large regroupant différentes sphères (Web,
courriel, FTP, etc.).
4.2. Web
Comme précisé dans la section précédente, le Web est une interface graphique à des contenus sur Internet :
Prior to the introduction of the web in 1992, the Internet was all text. The web made it possible to provide a multimedia
interface that includes graphics, animations, sound, and video.
Au cœur du Web se retrouve l'idée des documents interconnectés proposés en 1945 par Vannevar Bush. Dans son texte
"As We May Think",* il propose l'idée d'une machine, nommée MEMEX, pour résoudre les problèmes liés à l'explosion
documentaire. Cette dernière serait en effet en mesure de ranger et rendre accessible tous les documents en permettant :
• La visualisation des documents sur microfilm sur un écran, documents pouvant être complétés par des images;
• La localisation des documents;
• L'inclusion de pistes associatives entre les documents.
Le néologisme "hypertexte" a été proposé par le philosophe et sociologue américain Theodore Nelson en 1965. Il est à
l'origine du projet Xanadu dont l'objectif était de regrouper tous les documents de l'humanité. Ce système, accessible à
tous, permettrait l'ajout de documents et la définition de liens entre ces derniers. Au départ, il s'agissait uniquement d'une
conceptualisation sans implémentation. Depuis, des démonstrations ont vu le jour après bien des années, dont
OpenXanadu en 2014*.
Le premier logiciel hypertexte grand public, créé par Bill Atkinson, est HyperCard (Apple) en 1987, logiciel dont le
développement s'est terminé en 1998. Il permettait de présenter des contenus multimédias sur des fiches virtuelles
cartonnées, cartes qui pouvaient être liées entre elles par des boutons. Pour les curieux et les curieuses (ou les
nostalgiques!), Internet Archive a mis en ligne en 2017 pour fêter les 30 ans d'HyperCard une collection de projets
HyperCard.
Finalement l'application la plus connue du modèle hypertextuel, le Web, a été créée au CERN par l'équipe de Tim
Berners-Lee en 1989. Il s'agit d'une version "allégée" des visions initialement proposées pour l'hypertexte entre autres
par T. Nelson et V. Bush :
La "première version du Web", le Web 1.0 en quelque sorte que certains désignent comme un Web de documents,
correspond à un Web où un petit nombre d'internautes étaient des créateurs de contenus, cette création demandant en
effet des compétences informatiques plus avancées. La majorité des internautes était ainsi des observateurs pouvant
chercher parmi les informations existantes et les consulter. Maignien (2014) le compare à une bibliothèque distribuée
sans murs :
Le modèle documentaire est alors clairement celui d'une bibliothèque distribuée, sans murs, autrement appelée
bibliothèque virtuelle ou numérique, mais où l'information n'est pas classée de façon hiérarchisée, dans un arbre, mais
distribuée en graphe (il existe autant de relations non hiérarchisées que de liaisons possibles entre les documents ou des
parties de ces documents).
La génération suivante, le Web 2.0, est un phénomène à la fois technologique et social, ce que fait bien ressortir cette
définition :
Web doté d'outils et de contenus interactifs qui permettent aux internautes de participer à la création de contenus Web, de
partager de l'information en ligne et de communiquer entre eux.
Les mots-clés ici sont "participer", "création de contenus" et "partager". Certains services et certaines technologies
phares sont associés au Web 2.0.
Blogues "Site Web ou section de site Web généralement tenus par une seule Bibliomancienne
personne, consacrés à une chronique personnelle ou à une Archives 21
thématique particulière présentées sous forme de billets ou d'articles."
(OQLF, 2018, http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?
Id_Fiche=8370242)
Slideshare (présentations
powerpoint)
Fils de syndication "Fil d'information consistant en un fichier XML, généré Formats les plus connus : RSS et
automatiquement, dont le contenu formaté, exploitable ATOM
dynamiquement par d'autres sites Web, est récupérable par
l'entremise d'un agrégateur qui permet de lire le nouveau contenu de
ce fil répertorié, dès qu'il est disponible." (OQLF, 2006, http://gdt.oqlf.
gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8869144)
Folksonomies "Système de classification collaborative et spontanée de contenus Se retrouvent par exemple sur les
Internet, basé sur l'attribution de mots-clés librement choisis par des plateformes de partage de
utilisateurs non spécialistes, qui favorise le partage de ressources et ressources pour décrire les
permet d'améliorer la recherche d'information." (OQLF, 2006, ressources ou sur les blogues
http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8351986) pour décrire les billets
L'expression Web 2.0 a été utilisée pour la première fois en 2004 par l'équipe d'O'Reilly Media qui, reprenant la
métaphore des numéros de version pour les logiciels, voulait indiquer une version améliorée du Web. Certains lui
préfèrent maintenant l'expression Web social qui est en effet une de ses principales facettes. À ses débuts, certains
voyaient le Web 2.0 comme un effet de mode et, à l'autre extrême, d'autres le percevaient comme un changement de
paradigme. Les chiffres, qui croissent d'année en année, montrent sans l'ombre d'un doute qu'il ne s'agissait pas d'un
effet de mode.
Un milliard d'heures
regardées par jour
Si on peut hésiter à parler d'une révolution, il s'agit très clairement d'une évolution tant des technologies que de leur
utilisation. L'internaute qui le désire a maintenant à sa portée des technologies qui lui permettent de passer, s'il ou elle le
désire, d'un rôle uniquement d'observation à un rôle de création, que ce soit dans ses activités personnelles ou
professionnelles. Les internautes utilisent le Web 2.0 sur une base personnelle, mais aussi professionnelle, dans un
cadre public ou privé, que ce soit pour informer et s'informer (à la « Web 1.0 »), mais aussi pour collaborer, réseauter ou
échanger dans le cadre de leurs activités.
L'utilisation faite des technologies du Web 2.0 est aussi tributaire du contexte des internautes. Une fracture numérique
existe toujours pour certaines régions ou certains pays ayant un accès limité à ces plateformes pour des raisons
économiques ou sociales. Au Québec, la population est globalement branchée et active sur les réseaux sociaux comme
le montrent les résultats de l'enquête NETendances du Cefrio :
En 2018, la presque totalité des adultes québécois (95 %) détient au moins un des cinq appareils électroniques suivants :
ordinateur (portable ou de table), téléphone intelligent, tablette électronique, bracelet d'exercice connecté et montre
intelligente.
(Cefrio. 2018. NETendances 2018 : Portrait numérique des foyers québécois. Volume 9, no 4, p. 7. https://cefrio.qc.ca
/media/2015/netendances2018-portraitnumeriquefoyersquebecois.pdf)
En 2018, 83 % des adultes québécois utilisaient au moins un réseau social dans le cadre de leur utilisation personnelle
d'Internet, ce qui représente une hausse notable de 16 points de pourcentage par rapport à 2016.
(Cefrio. 2018. NETendances 2018 : Usage des médias sociaux au Québec. Volume 9, no 5, p. 6. https://cefrio.qc.ca
/media/2023/netendances-2018_medias-sociaux.pdf)
On retrouve plusieurs initiatives d'exploitation des plateformes 2.0 entre autres au sein des institutions culturelles
québécoises.
Initiatives But(s)
Projets Wiki de BAnQ « Ces projets visent à mettre en valeur les fonds et les collections de BAnQ, à
Projets Wiki de la Cinémathèque québécoise « La Cinémathèque québécoise s'investit dans la production et la diffusion de
https://fr.wikipedia.org/wiki/Wikipédia: connaissances libres sur le cinéma québécois. Depuis septembre 2017, nous
Cinémathèque_québécoise organisons notamment des activités citoyennes dans le but d'enrichir les projets
Wikimédia dans ce domaine. »
(Source d'inspiration : compte-rendu de la conférence-midi du 21 septembre 2017 sur la culture ouverte et le savoir libre
par @bibliomancienne (Marie D. Martel) https://bibliomancienne.com/2017/09/22/culture-ouverte-et-savoir-libre-a-lebsi-
sqil-copibecpasenmonnom/)
The Semantic Web provides a common framework that allows data to be shared and reused across application,
enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of
researchers and industrial partners.
L'idée centrale de ce qu'ils identifient comme un Web de données est celle d'un Web où les documents sont « enrichis »
de manière à les rendre compréhensibles non seulement aux humains, mais aussi aux machines pour en faciliter la
réutilisation. Cet enrichissement se fait à l'aide de métadonnées* permettant de décrire différents aspects des documents
(par exemple, l'auteur, la date de création).
En fait, les folksonomies du Web 2.0 représentent une certaine couche « sémantique » ajoutée aux ressources et illustre
le potentiel du « Web sémantique » en ce qu'elles permettent la création de nouvelles connaissances; « certaine » car
c'est souvent une sémantique plus personnelle que collective qu'on y retrouve comme les étiquettes que l'on met à des
photos sur Flickr par exemple. À un certain moment, parmi les étiquettes les plus populaires sur Flickr se retrouvait le mot
"me" comme plusieurs utilisateurs l'employaient pour les photos où ils se retrouvaient!
Les applications composites – ou les mashups – que l'on retrouve sur le Web 2.0 démontrent l'intérêt du croisement de
diverses données. Pensons par exemple à la possibilité d'explorer les photos déposées sur Flickr à l'aide d'une carte (
https://www.flickr.com/map). La carte créée est le résultat du croisement des étiquettes géographiques apposées par les
utilisateurs de Flickr à leurs photos avec une carte.
Cette idée d'ajouter aux documents du Web une couche sémantique pour en faciliter le partage et la réutilisation est
attribuée à Tim Berners-Lee. Une des premières mentions de cette idée lui est attribuée lors de l'International World
Wide Web Conference en 1994. Le Web sémantique est ainsi une extension du Web que l'on connaît par l'ajout de cette
couche sémantique et le développement de technologies permettant de l'exploiter. Différents standards y sont rattachés
que Bermès et coll.* (2013, p. 28) décrivent ainsi :
Ainsi, le Web sémantique a pour objet de fournir des standards qui vont rendre possible ce Web plus intelligent et plus
efficace. Ces standards incluent le modèle RDF (*), des outils comme RDFS (*) (RDF Schema) et OWL (*) (Web Ontology
Language) pour décrire la sémantique et la logique des données, et aussi des standards pour manipuler et traiter les
données, comme SPARQL (*), le langage et protocole de requête de RDF.
Un exemple du Web sémantique que l'on croise fréquemment dans nos recherches sur le Web est le Google Knowledge
Graph. En effet, on voit apparaître lors de certaines recherches dans le moteur de recherche Google un encart à la droite
de la liste des résultats retournés qui présente des informations souvent factuelles en lien avec la recherche. C'est le cas
par exemple si vous faites une recherche sur une personnalité connue ou un pays. Cet encart est produit par la mise en
relation de plusieurs jeux de données distincts en lien avec l'objet de votre recherche. C'est un exemple du potentiel du
Web sémantique qui permet, par la couche sémantique ajoutée à certaines données, de générer de nouvelles données
(les encarts de Google Knowledge Graph). Plus d'informations sur cette fonctionnalité sont disponibles sur le blogue de
Google à l'URL https://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html .
Le Web, par les plateformes et services qu'il propose, vient modifier la culture numérique* et informationnelle* des
internautes. Le Web 2.0, par exemple, en facilitant la création de contenu et la participation, amène les internautes qui y
contribuent à développer une culture informationnelle basée sur le partage de l'information. Certains disent que le Web
2.0 a ainsi démocratisé la création du contenu, une affirmation qu'il nous semble important de nuancer comme un
fossé numérique* existe encore pour certaines populations, auquel s'ajoute une certaine fracture sociale. En effet, même
en ayant accès au Web, ce ne sont pas tous les internautes qui sont prêts et sont en mesure de participer activement à la
création de contenu. Li & Bernoff (2011)* proposent une échelle décrivant sept niveaux d'interaction avec le Web,
l'échelon 1 étant celui avec le moins d'interaction et l'échelon 7, celui avec l'interaction la plus intense :
Social Technographics ladder (Li & Bernoff, 2011, p.43, notre traduction et représentation)
7 Créateur
• Publie un blogue
• Publie son propre site Web
• Télécharge des vidéos qu'il a créés
• Télécharge de la musique qu'il a créée
• Publie des articles qu'il a écrit
5 Critique
• Publie des évaluations/critiques de produits ou de services
• Commente sur le blogue d'une autre personne
• Contribue à des forums en ligne
• Contribue à des articles sur un wiki
4 Collectionneur
• Utilise les fils RSS
• "Vote" pour des sites Web
• Ajoute des étiquettes à des pages Web ou des photos
3 Social
• Possède un profil sur un réseau social
• Visite des réseaux sociaux
2 Spectateur
• Lit des blogues
• Écoute des baladodiffusions
• Regarde des vidéos d'autres utilisateurs
• Lit des forums en ligne
• Lit des évaluations/critiques de produits
• Lit des gazouillis
1 Inactif
• Aucun des éléments présentés ci-dessus
Plusieurs enjeux peuvent être soulevés en lien avec la culture informationnelle et numérique sur le Web dont les quatre
suivants :
On observe, par l'accessibilité de plus en plus grande des plateformes Web, l'apparition d'un « journalisme citoyen » où
l'individu impliqué dans certains événements se sert des plateformes sociales pour diffuser ses pensées sur l'actualité,
en parallèle des médias de masse traditionnels. Le message ainsi partagé contourne les filtres potentiels des médias de
masse. Ceci ne veut toutefois pas dire que l'information ainsi publiée est exempte de biais; cette forme d'auto-publication,
en l'absence de validation, transfère le rôle de validation au lecteur qui doit pouvoir distinguer les fausses nouvelles des
vraies.
La culture de partage de contenu s'accompagne de pratiques de « remixage » où les internautes utilisent et réutilisent les
contenus. Cette réutilisation ne se fait pas toujours dans le respect de la propriété intellectuelle et des droits des auteurs.
Pour certains, les lois sur les droits d'auteur sont trop restrictives et viennent en contradiction avec cet esprit de partage.
On a ainsi vu au fil des ans se développer des cadres moins restrictifs que les lois sur le droit d'auteur afin de faciliter ce
« remixage » et respecter ainsi l'esprit du Web 2.0. Mentionnons à cet égard le Copyleft (gauche d'auteur) et les
Un enjeu important réside dans les traces laissées par l'internaute sur le Web qui concurrent à lui construire une, voire
des identités numériques, ce qui n'est pas sans conséquence. Que ce soit volontairement ou non, tout internaute laisse
sur le Web des traces, en commentant des blogues, en mettant des photos sur le Web, en ayant un profil public sur
Facebook, traces qui pourront servir à la communauté pour se faire une opinion sur lui.
Cette réputation numérique peut parfois les desservir s'ils ne sont pas attentifs aux traces qu'ils laissent. De nombreuses
histoires existent d'Internautes n'ayant pas obtenu un emploi, ou ayant perdu leur emploi, pour des photos disgracieuses
sur le Web ou pour avoir émis une opinion négative sur son employeur sur la place publique. Le phénomène n'est pas
nouveau; le Web 2.0 vient simplement l'amplifier et le compliquer.
Les difficultés proviennent en partie de l'évolution de la notion de sphère publique et de sphère privée. Certains
internautes perçoivent comme privées certaines plateformes sans se rendre compte que, comme elles sont ouvertes,
l'information qui s'y trouve devient publique.
Ceci se complique du fait que l'information est facilement repérable et récupérable sur le Web et circule très rapidement.
Les traces sont presque permanentes. Le "droit à l'oubli" n'est pas un droit automatique dans le Web actuel et l'internaute
qui veut rétablir sa réputation numérique n'a pas la tâche facile; des compagnies offrent même maintenant des services
afin d'effacer les traces.
À l'opposé, la conscience des auditoires multiples qu'ont certains internautes peut les amener à développer des
« personnalités numériques » multiples modulant, selon les occasions, les traces laissées. Un adolescent ayant dans son
profil Facebook ses parents comme amis et en étant conscient – ce qui n'est pas toujours le cas – n'y interviendra pas de
la même manière qu'un autre inconscient de leur présence ou ne les ayant pas inclus dans son réseau social. Un même
individu pourrait ainsi avoir plusieurs « visages » 2.0 rendant difficile à l'observateur extérieur l'identification de sa vraie
personnalité.
Comme dernier enjeu, nous pouvons penser aux différences générationnelles qui existent dans l'utilisation des médias
sociaux. Force est de constater, comme le montrent certaines études sur l'utilisation des technologies de l'information,
que différentes générations utilisent le Web différemment. En fait, ce n'est pas uniquement le Web, mais les technologies
de l'information en général. Le regard que l'on porte sur ces dernières peut entre autres être influencé par notre
génération. Par exemple, les personnes nées avant l'apparition de la téléphonie mobile auront eu comme première
utilisation des téléphones un contexte très privé (à la maison), les téléphones étant fixes. Cette conception de l'usage d'un
téléphone pourrait se révéler très différente pour quelqu'un n'ayant connu que la téléphonie mobile. On retrouve aussi
cette potentielle différence de perspective du numérique entre les personnes natives numériques* (digital natives) et les
personnes dites immigrantes numériques* (digital immigrants).
Les professionnels de l'information, dans leur pratique aujourd'hui, doivent considérer non seulement les documents et
l'information, mais aussi différents types de données. Cela aura un impact également sur le développement de la discipline
des sciences de l'information, sur la recherche qui est menée et sur la formation offerte.
Comme le fait bien ressortir Da Sylva, il est important d'un point de vue de la gestion de l'information de s'intéresser à la
question des données sur le Web. On retrouve en effet différents types de données qui demandent aux professionnelles
et professionnels de l'information de développer des compétences variées entre autres (Da Sylva, 2017, p. 30) :
• Pour les données ouvertes, des compétences en description des données ainsi qu'en évaluation de l'information et
formation des usagers
• Pour les données liées, des compétences en description et recherche d'information
• Pour les données de recherche, des compétences principalement en organisation et en organisation, mais aussi en
archivistique pour la planification de la gestion des données.
Mais, avant toute chose, il faut s'assurer de bien comprendre ce que sont des données ouvertes, des données liées et
des données de recherche.
Remarque
La question des différents types de données sur le Web est vaste. L'objectif visé dans le cours est de vous introduire à
ces dernières. Ainsi, une brève description de ces trois types de données est présentée dans les sections qui suivent,
description qui sera complétée par une exploration concrète des trois types de données couverts dans le cadre du TP
Données. Si la gestion des données vous intéresse, le cours SCI6201 Introduction à la gestion des données est pour
vous!
Un premier type de données important à connaître comme professionnelle et professionnel de l'information sont les
données ouvertes. L'adjectif "ouvertes" rejoint une idée d'ouverture similaire à celle des logiciels ouverts, soit celle de leur
accessibilité publique que la définition ci-dessous fait bien ressortir :
Il s'agit ainsi de jeux de données produits par des particuliers, des organisations, des gouvernements par exemple et qui
sont mis à disposition des internautes publiquement sur le Web. Il est ainsi possible de les consulter, voire de les
réutiliser. Parmi les enjeux propres aux données ouvertes, nous retrouvons :
• Format de données : Le choix du format pour les données partagées est crucial dans une perspective de partage et de
réutilisation. Certains portails de données ouvertes comme Données Québec du Gouvernement du Québec (
https://www.donneesquebec.ca/fr/) vont prescrire certains formats pour les jeux de données, les principaux étant
CSV, XML, JSON et GeoJSON (https://www.donneesquebec.ca/fr/faq/#les-donnees-recherche-visualisation-
format-utilisation-et-licence).
• Qualité des données : Sur le portail Données Québec se trouvent précisés des critères pour évaluer la qualité des jeux
de données, en sus du format, tel que la licence utilisée pour leur partage (https://www.donneesquebec.ca/fr/faq
/#les-donnees-recherche-visualisation-format-utilisation-et-licence).
• Licence pour le partage : Afin de favoriser le partage des données ouvertes, il est important d'utiliser une licence qui le
permet. On utilise par exemple, sur le portail Données Ouvertes de la Ville de Montréal, la licence Creative
Commons CC-BY 4.0 afin de favoriser le partage et l'utilisation des données ouvertes (https://donnees.montreal.ca
/licence-d-utilisation).
Vous explorerez plus avant le portail de données ouvertes Données Québec dans le cadre du TP Données.
Abordées lorsque le Web sémantique a été présenté, les données liées sont aussi d'intérêt pour les professionnels et
professionnelles de l'information. Il s'agit de données auxquelles ont été associées des métadonnées* afin de rendre
possible leur manipulation et croisement :
Ensemble de données munies de leurs métadonnées qui, reliées les unes aux autres, constituent une base de données à
l'échelle du Web.
Comme le démontre la définition ci-dessous donnée par le Gouvernement du Québec, les données liées sont associées à
certains concepts clés :
Données structurées en RDF* et publiées par un éditeur sur le Web en recourant à leur URI* pour cibler un contenu donné.
Le principe sous-jacent est de nommer les objets que l'on juge intéressants et de les rendre accessibles en indiquant leur
URI sur le Web.
1. Les données sont disponibles sur le Web, peu importe leur format, à l'aide d'une licence ouverte ;
2. Les données sont disponibles dans un format de données structurées comme, par exemple Excel ;
3. Les données sont disponibles dans un format non-propriétaire comme, par exemple en format texte délimité par des
virgules ;
4. Les données sont identifiées à l'aide d'URI afin que d'autres puissent les pointer ;
5. Les données sont reliées à d'autres données pour fournir du contexte.
Des données qui répondent à ces cinq critères peuvent être considérées comme des données liées et ouvertes.
Plusieurs auteurs s'entendent quant à l'importance des données liées en contexte bibliothéconomique (voir, par exemple,
Bermès et al. 2013*, Da Sylva 2017* et St-Germain 2017*). St-Germain (2017, p. 37-38) souligne le gain de visibilité que
l'adoption de données ouvertes et liées peut apporter aux données des catalogues de bibliothèques ainsi que leur
enrichissement du fait de pouvoir les lier à d'autres ressources externes. Elle mentionne aussi l'augmentation de
l'interopérabilité des données par l'adoption d'un format universel qui facilitera le partage et la réutilisation. Plusieurs
bibliothèques nationales ont commencé à intégrer des données ouvertes et liées, dont la BnF que vous explorerez dans
le cadre du TP Données.
Selon St-Germain (2017, p. 40) "la place des professionnels de l'information au sein de l'équipe de développement [de
projet de données ouvertes et liées] est absolument nécessaire". Les compétences que les bibliothécaires et autres
professionnels de l'information doivent mobiliser dans un projet de données ouvertes et liées touchent trois aspects
(Zengenene, Casaros & Meghini, 2014, cités dans St-Germain, 2017, p. 40) :
1. Les systèmes d'information comme tels (téléchargement, installation, configuration) et les formats XML et RDF qui y
sont utilisés ;
2. Les métadonnées produites lors du catalogage
3. La modélisation afin d'être en mesure de comprendre la structure des données et de pouvoir convertir de manière
efficace les données vers RDF
Finalement, on ne peut passer sous silence les données de recherche qui sont entre autres le produit du mouvement de
la science ouverte. La gestion des données de recherche (GDR), de leur création jusqu'à leur partage et leur réutilisation
vise plusieurs objectifs (Réseau Portage, s.d.*, diapositive 6) :
De plus, certains organismes subventionnaires peuvent exiger des chercheurs et chercheuses qui obtiennent une
subvention de mettre en place un plan de gestion des données de recherche. C'est ainsi dans une idée de partager les
données issues de la recherche pour rendre la science plus accessible que le domaine de la GDR s'est développé. Les
bibliothèques universitaires ont entre autres un rôle de premier plan en matière de GDR en étant activement impliquées
avec la communauté de recherche universitaire pour les aider à développer des plans de gestion des données de
recherche et à gérer leurs données de recherche. On a ainsi vu apparaître des postes de "bibliothécaire à la gestion des
données de recherche" dans certaines universités. Au Canada, l'Association des bibliothèques de recherche du Canada
a lancé le réseau Portage en 2015 afin de coordonner les efforts en matière de GDR ( https://portagenetwork.ca/fr/).
[E]nregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche
scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats
de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet
faisant l'objet de la recherche.
On retrouve aussi pour les données de recherche les enjeux liés aux formats et aux licences pour le partage. Les enjeux
éthiques sont aussi bien présents par rapport aux données qui sont partagées.
Remarque
Les concepts de données ouvertes, données liées et données de recherche ne sont pas mutuellement exclusifs. Des
données liées peuvent être ouvertes ainsi que des données de recherche peuvent être ouvertes.
6. Importance de la normalisation
Remarque
Matériel adapté de Marcoux, Yves. 2007. Notes de cours du SCI6052 Information documentaire numérique. EBSI, FAS,
UdeM.
Les préoccupations liées au format présentées lors du deuxième cours sont aussi présentes dans le contexte du Web.
Dans ces espaces virtuels, des documents numériques naissent, circulent et s'échangent et on doit se préoccuper :
• De l'accessibilité des documents : un document sur le Web doit être dans un format qui est compris par une
communauté de lecteurs la plus grande possible ;
• De la pérennité des documents : le document doit demeurer accessible dans le futur ;
L'adoption de formats normalisés est un moyen de répondre à ces préoccupations. Pour la gestion de l'information, la
normalisation est particulièrement cruciale en raison de l'importance de l'accessibilité, la pérennité et la réutilisabilité des
documents. On y retrouve trois types de spécifications* pertinentes :
Ces documents normatifs (les « spécifications » elles-mêmes) sont destinés aux humains. Ils décrivent un format ou un
protocole normalisé et indiquent comment développer des produits ou systèmes qui respectent la norme, et sont donc
« interopérables ».
En gestion de l'information numérique, les deux premiers types (formats et protocoles) sont les plus déterminants sur
l'efficacité et l'efficience des systèmes automatisés. Si on vise la réutilisation de l'information et l' interopérabilité*, il
importe que les systèmes mis en place respectent des normes pour les formats et les protocoles.
Niveaux de normalisation
Il existe différents niveaux de normalisation. Une norme officielle (ou de jure) peut être définie sur le plan national ou sur
le plan international. Les normes nationales s'alignent aux normes internationales. Le tableau qui suit présente quelques
exemples d'instances de normalisation et de normes qu'elles prennent en charge.
Définition Normes définies et sanctionnées par une instance officielle Normes définies et sanctionnées par un
internationale de normalisation organisme de normalisation national
Exemples
• ISO (International Organization for Standardisation) • ANSI (American National Standard Institute)
d'instances
• W3C (World Wide Web Consortium) (États-Unis)
• Unicode Consortium • NISO (National Information Standards
• IEEE (Institute of Electrical and Electronics Engineers) Organization) (États-Unis)
• IEC (International Electrotechnical Commission) • CSA (Canadian Standards Association)
• ECMA International (European Computer Manufacturers • SCC (Standards Council of Canada)
Association)
• ITU ou UIT (Union internationale des
télécommunications)
Exemples de SGML, HTML, XHTML, XML (W3C) ASCII (ANSI), Z39.50 (NISO)
normes
Karl Dubost (cité dans Dumais, 2003*) amène des arguments très convaincants quant à l'importance des normes libres
et ouvertes et tout particulièrement à leur impact social :
L'impact social, à mon avis, est l'impact le plus important des normes libres. Ne pas être prisonnier d'une entité
commerciale décidant de l'avenir de votre information, de vos données. Avoir le choix en toutes circonstances, la
possibilité de changer, de faire autrement, voilà l'enjeu des normes libres.
L'importance des normes libres et ouvertes est aussi soulignée par l'OFE (2008)* :
In conclusion, choosing open standards is highly strategic. Their benefits and positive impact are debated and seen at the
highest decision making levels. Interoperability is a major requirement for the ICT sector as societies, governments and
industry increasingly move towards global collaboration and integration.
Matériel de cours
Lectures suggérées
• DA SYLVA, 2017*
• DUFOUR, 2013*
• DUMAIS, 2003*
"[U]n système de valeurs, d'attitudes et de comportements, de connaissances et d'aptitudes qui conduisent non
seulement à un usage intelligent et approprié de l'information externe, mais surtout à contribuer à la diffusion et à
la bonne utilisation de l'information tant externe qu'interne (ou produite/reconfigurée par soi-même). Donc une
culture de partage et d'enrichissement collectif. "
(Menou M. (2008). Culture de l'information. In Cacaly S., Le Coadic Y.-F., Pomart P.-D., Sutter E. (dir.),
Dictionnaire de l'information, 3e éd., Paris, Armand Colin, p. 65-67)
Culture numérique
Fossé numérique
"Écart existant entre les pays développés et les pays en voie de développement, en matière d'accès aux
technologies de l'information et de la communication.
Notes
Le fossé numérique peut exister non seulement entre les pays industrialisés et les pays en développement, mais
aussi à l'intérieur même de chaque pays. Plus ce fossé se creuse, plus il augmente l'écart entre les femmes et les
hommes, entre les riches et les pauvres, entre les jeunes et les vieux, entre les gens qui savent lire et écrire et les
analphabètes, et entre les populations urbaines et les populations rurales.
Le fossé numérique est associé notamment à l'aggravation des inégalités d'équipement en ordinateur personnel et
Internet, et aux disparités croissantes selon le niveau de revenu, la localisation géographique et l'appartenance
ethnique."
Identité numérique
"Ensemble des traces numériques laissées de manière active par une personne dans Internet et qui fournissent
des renseignements à son sujet. "
Interopérabilité
Métadonnées
"Une métadonnée est, à proprement parler, une donnée à propos de données (le préfixe grec meta indiquant
l'autoréférence). En documentation, une métadonnée est une donnée servant à définir ou décrire d'autres données
(par exemple un document). La valeur sémantique d'une métadonnée est généralement décrite et définie dans un
schéma de métadonnées. À titre d'exemple, une date associée à un document est une métadonnée servant à
déterminer la date de publication, de dépôt légal, de copyright, de création, de dernière modification, etc. Les
métadonnées peuvent être de nature descriptive, structurelle ou administrative." (Arsenault, Clément,
Terminologie en sciences de l'information - EBSI / Métadonnées (Metadata))
Natif numérique
"Personne née après 1974, qui a grandi dans un monde numérique, qui est familière avec les ordinateurs, les jeux
vidéo et Internet, et qui passe une grande partie de sa vie en ligne.
Note
On considère que les natifs numériques ont une connaissance de l'informatique et des nouvelles technologies (le
langage du numérique) comme si c'était leur langue maternelle (donc ils la parlent sans accent), alors que les
immigrants numériques ont une connaissance de celles-ci comme s'ils parlaient une langue seconde (tels des
immigrants parlant une autre langue que la leur, mais avec un accent). Chez ces derniers, qui ont un pied dans le
passé (celui d'avant l'informatique), cet accent, tel celui d'un immigrant, est maintenu à travers certains de leurs
comportements, par exemple, imprimer leurs courriels."
Natif numérique
Note
On considère que les natifs numériques ont une connaissance de l'informatique et des nouvelles technologies (le
langage du numérique) comme si c'était leur langue maternelle (donc ils la parlent sans accent), alors que les
immigrants numériques ont une connaissance de celles-ci comme s'ils parlaient une langue seconde (tels des
immigrants parlant une autre langue que la leur, mais avec un accent). Chez ces derniers, qui ont un pied dans le
passé (celui d'avant l'informatique), cet accent, tel celui d'un immigrant, est maintenu à travers certains de leurs
comportements, par exemple, imprimer leurs courriels."
"Resource Description Framework est un modèle de graphe destiné à décrire formellement les ressources Web et
leurs métadonnées, afin de permettre le traitement automatique de telles descriptions."
Réputation numérique
"Réputation basée sur la perception que des internautes ont du double numérique d'une personne."
Spécification
Une « spécification » est la description d'un ensemble de règles et/ou façons de faire conventionnelles.
"Chaîne de caractères à syntaxe normalisée qui sert à désigner de façon unique et permanente une ressource par
sa localisation ou par son nom."
BUSH, Vannevar. As We May Think. The Atlantic Monthly, 176(1), 112-114, 1945 https://www.theatlantic.com
/magazine/archive/1945/07/as-we-may-think/303881/
DA SYLVA, Lyne. Les données et leurs impacts théoriques et pratiques sur les professionnels de l'information .
Documentation et bibliothèques, 63(4), 5-34. 2017. https://www.erudit.org/fr/revues /documentation/2017-v63-n4-
documentation03290/1042308ar/
DUFOUR, Christine; CADIEUX, Stéphanie. Web 2.0 et milieux documentaires : qu'en retenir ?. Archives, 45(1),
27-46. 2013-2014. https://www.archivistes.qc.ca/revuearchives/vol45_1/45_1_dufour_cadieux.pdf
DUMAIS, Michel. Technologie : Les normes libres, l'enjeu du moment. Le Devoir, juillet 2003. http://www.ledevoir.
com/societe/science-et-technologie/32207/technologie-les-normes-libres-l-enjeu-du-moment
HERN, Alex. World's most delayed software released after 54 years of development. The Guardian, 6 juin 2014
https://www.theguardian.com/technology/2014/jun/06/vapourware-software-54-years-xanadu-ted-nelson-chapman
LANKES, R. David; Joanne SILVERSTEIN; NICHOLSON, Scott. Participatory Networks : The Library as
Conversation. Information Technology and Libraries, 26(4), 17-33. 2007. https://ejournals.bc.edu/index.php/ital
/article/view/3267
LI, Charlene; BERNOFF, Josh. Groundswell: Winning in a world transformed by social technologies. Boston :
Harvard Business Press, 2011.
MAIGNIEN, Yannick. Chapitre 5. Les enjeux du web sémantique. IN Pratiques de l'édition numérique [en ligne],
p. 77-93. Montréal : Presses de l'Université de Montréal, 2014 http://books.openedition.org/pum/320
O'LEARY, Timothy; O'LEARY, Linda I.; O'LEARY, Daniel A. Computing Essentials 2019. New-York : McGraw-Hill
Higher Education, 2019.
OPENFORUM EUROPE (OFE). The Importance of Open Standards in Interoperability. OFE Onepage Brief, (1),
2008-10-31. http://archive.openforumeurope.org/library/onepage-briefs/ofe-open-standards-onepage-2008.pdf
/at_download/file
LEINER, Barry M.; CERF, Vinton G.; CLARK, David D.; Kahn, Robert E.; KLEINROCK, Leonard; LYNCH, Daniel
C.; POSTEL, Jon; ROBERTS, Larry G.; WOLFF, Stephen. Brief History of the Internet. 1997. https://www.
internetsociety.org/internet/history-internet/brief-history-internet/
RÉSEAU PORTAGE. Gestion des données de recherche (GDR) 101 / Module 1 : Contexte et objectifs
d'apprentissage. s.d. https://portagenetwork.ca/fr/ressources-de-formation-par-portage/gestion-des-donnees-de-
recherche-gdr-101/
WORLD WIDE WEB CONSORTIUM (W3C). W3C Semantic Web activity homepage. 2013. https://www.w3.org
/2001/sw/
p. 4
http://creativecommons.org/licenses/publicdomain/4.0/fr/, maoriveros