Synthèse Informatique
Synthèse Informatique
Cette synthèse est proposée à titre de soutien à l’étude et ne remplace en aucun cas
le cours complet dispensé par le professeur. Elle constitue un complément
pédagogique visant à faciliter la compréhension des notions abordées en classe.
Le contenu original du cours, les diapos officielles, les lectures recommandées ainsi que
les explications du professeur lors des séances magistrales et des travaux pratiques
restent les sources principales d’apprentissage et de référence pour la préparation aux
évaluations.
DNS ............................................................................................................................................... 54
WEB ................................................................................................................................................ 55
CRYPTAGE ........................................................................................................................................ 57
BLOCKCHAIN ..................................................................................................................................... 59
CYBERSÉCURITÉ ................................................................................................................................. 60
CONCLUSIONS................................................................................................................................... 62
COURS 8 : LOGICIELS .................................................................................................................. 63
ALGORITHME ..................................................................................................................................... 63
PROGRAMMATION ............................................................................................................................... 64
PROCESS DE PRODUCTION .................................................................................................................... 65
OS .................................................................................................................................................. 67
CONCLUSIONS................................................................................................................................... 70
COURS 9 : LES SYSTÈMES D’INFORMATION .................................................................................. 71
FONCTIONS ....................................................................................................................................... 72
APPLICATIONS MONOLITHES .................................................................................................................. 76
ARCHITECTURE EN COUCHES ................................................................................................................. 78
EXTERNALISATION ............................................................................................................................... 81
CONCLUSION .................................................................................................................................... 82
COURS 10 : PROJETS D’ANALYSE DES DONNÉES .......................................................................... 83
PLANIFICATION................................................................................................................................... 84
PRÉTRAITEMENT.................................................................................................................................. 85
MODÉLISATION .................................................................................................................................. 87
ÉVALUATION ...................................................................................................................................... 88
DÉPLOIEMENT .................................................................................................................................... 90
CONCLUSIONS................................................................................................................................... 91
COURS 11 : INTELLIGENCE ARTIFICIELLE ...................................................................................... 92
APPLICATIONS.................................................................................................................................... 93
TECHNIQUE ....................................................................................................................................... 95
LIMITES ............................................................................................................................................ 97
ENJEUX ............................................................................................................................................ 99
CONCLUSIONS................................................................................................................................. 100
COURS 12 : ENJEUX I.................................................................................................................. 102
DYNAMIQUE ÉCONOMIQUE .................................................................................................................. 102
MARCHANDISES ............................................................................................................................... 103
CROISSANCE ................................................................................................................................... 105
EMPLOI .......................................................................................................................................... 106
MONDE RÉEL ET IMMATÉRIEL ................................................................................................................ 107
CULTURE ........................................................................................................................................ 108
DÉMOCRATIE EN LIGNE ....................................................................................................................... 109
SANTÉ ............................................................................................................................................ 111
CONCLUSIONS................................................................................................................................. 111
COURS 13 : ENJEUX II ................................................................................................................. 113
CADRE CONSTITUTIONNEL .................................................................................................................. 114
CADRE ÉCONOMIQUE ........................................................................................................................ 118
RÉGULATION ................................................................................................................................... 120
ÉDUCATION ..................................................................................................................................... 121
CONCLUSIONS................................................................................................................................. 122
Cours 1 : Introduction
Chronologie de la technologie
Voici les technologies qui ont permis de faire évoluer l’Internet jusqu’à ce qu’il soit aujourd’hui.
Je vais notamment parler d’ARPANET, d’Internet, d’Internet mobile et de l’Internet des objets.
Internet, c’est un grand réseau qui relie tous les ordinateurs dans le monde. Depuis 1983, ils utilisent
tous le même système pour communiquer (TCP/IP). C’est un réseau mondial où tous les ordinateurs
peuvent s’échanger des informations, qu’ils soient dans une université, une entreprise ou chez toi à la
maison.
Depuis 1996, on peut se connecter à Internet avec des appareils mobiles, sans être attaché à un bureau.
C’est le début de l’Internet dans la poche, avec les smartphones, les tablettes et les réseaux sans fil
comme le Wi-Fi ou la 4G.
Année académique 2024-2025
Depuis 1999, l’Internet ne relie plus seulement les humains, mais aussi des objets entre eux. Ces objets
collectent, envoient ou reçoivent des données automatiquement pour rendre des services plus
intelligents.
Par exemple, Thermostat intelligent qui régule la température d’une maison à distance, une montre
connectée qui compte nos pas, notre sommeil, notre fréquence cardiaque, etc.
Le principal problème de ces avancées technologiques, c’est que la mise en réseau de tous ces objets
entraîne une surinformation.
Par exemple, en 2022, le trafic Internet atteignait 150 700 Go par seconde. Pour faire face à ce volume
gigantesque de données, les entreprises technologiques sont obligées d’investir massivement dans des
centres de données (data centers).
Ce qui mène à une convergence des infrastructures (filaires et non filaires). La convergence des
infrastructures désigne le fait que différents types de réseaux de communication qu’ils soient filaire
(comme la fibre optique) ou sans fil (comme le Wi-Fi, la 4G, la 5G, ou même les satellites) travaillent
ensemble pour permettre la circulation fluide et continue des données sur Internet.
Standards de communication
Pour que les ordinateurs puissent communiquer sur Internet, ils doivent suivre des règles communes.
Ces règles s'appellent des standards.
Il existe trois grands types de standards :
- Échange de données : Grâce au protocole TCP/IP, les ordinateurs peuvent s’envoyer des infos.
Par exemple : Quand tu ouvres Google, ton ordi utilise TCP/IP pour contacter le serveur.
- DNS : signifie "système de noms de domaine". Les ordinateurs ne comprennent pas les
noms comme [Link]. Ils ont besoin d’une adresse IP pour trouver un site. Le DNS
sert donc à traduire le nom du site en adresse IP. Ton ordinateur envoie une demande au
DNS pour savoir où se trouve le site, et une fois qu’il a l’adresse, il peut se connecter au bon
serveur pour afficher le site.
- Présentation du contenu : Pour afficher des sites web dans ton navigateur. Par exemple : Le
langage HTML est utilisé pour créer les pages web que tu vois.
Nous avons besoin de « Langages de programmation portables » car cela permet d’écrire un seul
programme qui peut fonctionner sur plusieurs types d’ordinateurs ou de systèmes (Windows, Mac,
Linux…). Nous avons par exemple : Java, JavaScript, Python, C#, C++, C, Swift, etc.
Quand on pense à Internet, on imagine une seule grande toile. Mais en réalité, Internet est composé de
plusieurs réseaux différents : des réseaux techniques (comme les câbles et routeurs), des réseaux de
contenus (comme le Web), et des réseaux sociaux (comme Facebook ou X (ex-Twitter)).
Ces réseaux fonctionnent ensemble, de façon interdépendante, pour former ce qu’on appelle l’"objet
Internet". Il est composé de :
- Réseau internet (Technique) : C’est la base physique : les câbles, la fibre optique, les antennes
4G/5G, etc. Il transporte les données entre des nœuds (ce sont les appareils : routeurs, ordinateurs,
téléphones, etc.).
- Réseaux de ressources (Contenu) : Ce sont les réseaux qui connectent des fichiers, pages web,
vidéos, etc. Par exemple :
- Réseaux sociaux (Les personnes) : Ce sont les réseaux qui relient les gens ou les organisations.
Par exemple : Facebook, Twitter (X), Instagram, LinkedIn…
La loi de Moore prévoit que le nombre de transistors dans un microprocesseur double tous les 18 mois,
ce qui permet d’augmenter considérablement la puissance de calcul. Les processeurs multicœurs
permettent de dépasser certaines limites physiques en traitant plusieurs tâches en parallèle.
À plus long terme, les ordinateurs quantiques pourraient représenter une nouvelle révolution en matière
de puissance de traitement.
Le coût du stockage a fortement diminué. En 2015, stocker 1 téraoctet coûtait 37 euros, contre
seulement environ 0,005 euro par mois en 2024.
À l’avenir, on envisage des solutions innovantes comme le stockage biologique, par exemple dans l’ADN.
L’intégration des protocoles de communication est devenue plus simple, ce qui permet une meilleure
interconnexion des équipements via différents supports (fibre optique, 4G, Wi-Fi, Bluetooth, etc.).
La Miniaturisation
L’évolution technologique a permis de concevoir des composants électroniques de plus en plus petits,
capables de remplir des fonctions complexes.
Les composants électroniques deviennent extrêmement petits (parfois de quelques millimètres carrés),
ce qui permet de les intégrer dans des objets du quotidien comme les smartphones, montres
connectées, ou implants médicaux. (produit en grande majorité par TSMC)
Être déployées pour suivre des objets, des produits ou des personnes,
Stocker et transmettre de petites quantités de données, de manière rapide et sans contact (exemple :
badge d’accès, carte de transport, suivi de colis…).
- Développement des biomatériaux : Ce sont des matériaux compatibles avec le vivant, utilisés
notamment :
En recherche médicale (tests sur les animaux), Pour fabriquer des dispositifs médicaux comme les
pacemakers (stimulateurs cardiaques), qui peuvent être miniaturisés et connectés.
Les Algorithmes
Nous produisons chaque jour des quantités massives de données. Pour donner du sens à ces données,
on utilise des algorithmes, capables d’analyser, trier, et apprendre automatiquement.
Les algorithmes permettent d’extraire des informations utiles à partir de données brutes. Par exemple,
dans la reconnaissance faciale, un algorithme peut identifier une personne sur une photo.
D’autres peuvent détecter si une place de parking est occupée ou non, ou encore repérer des
comportements anormaux, comme une fraude par carte bancaire. Certains modèles sont capables de
faire des prédictions, comme anticiper une épidémie en analysant des données de recherche ou de
santé.
Les données viennent souvent de sources très variées (texte, son, vidéo, chiffres, capteurs…). Les
algorithmes permettent de croiser ces informations pour en tirer des conclusions personnalisées.
Par exemple, les moteurs de recherche adaptent leurs résultats en fonction de l’historique de navigation
de l’utilisateur, ou les plateformes de streaming recommandent des contenus en analysant nos
préférences.
On parle de "Big Data" lorsqu’on traite des volumes gigantesques de données, souvent en temps réel.
Les entreprises, les services publics ou les chercheurs utilisent ces données pour comprendre des
tendances, prendre des décisions ou automatiser certaines tâches.
Par exemple, les réseaux sociaux génèrent des millions de messages et d’images chaque minute, que les
algorithmes analysent pour détecter des sujets d’actualité ou surveiller des comportements.
Une forme avancée d’algorithme est l’IA générative, qui ne se contente pas d’analyser des données, mais
qui peut aussi en créer.
C’est le cas de certains outils qui rédigent des textes, génèrent des images, composent de la musique
ou même programment. ChatGPT/Deepseek/Perplexity sont des exemples d’IA générative spécialisée
dans le texte, tout comme DALL·E l’est pour l’image.
Contextes
Le cloud computing désigne l’utilisation de puissants serveurs distants pour exécuter des calculs et
stocker des données. Il permet le déploiement de millions de processeurs et le stockage d’exaoctets
(10¹⁸ octets) d’informations.
Ces infrastructures sont possédées par de grands groupes informatiques comme Google (GCP) ou
Amazon (AWS), mais aussi par des entités étatiques comme la NSA, ou des centres de recherche comme
le CERN. Par exemples : le stockage de fichiers (Google Drive, Dropbox) ou les services en ligne comme
Google Search, Facebook ou Twitch.
- Le Big Data
Le Big Data correspond à l’analyse de très grandes quantités de données, provenant de sources variées
(texte, images, capteurs…).
Le principe est de croiser ces données hétérogènes pour en extraire des connaissances utiles, souvent
en temps réel. Les sources peuvent être extrêmement diverses : réseaux sociaux, objets connectés,
recherches Internet, vidéos, etc.
- Le Deep Learning
Le deep learning est une forme avancée d’intelligence artificielle, inspirée du fonctionnement du
cerveau humain.
Il repose sur des réseaux de neurones capables d’apprendre à partir de données (apprentissage
automatique). Ces algorithmes fonctionnent parfois de façon peu transparente, comme une “boîte
noire”.
Deux événements ont marqué l’histoire du deep learning : En 2016, l’IA de DeepMind bat un champion
de Go. En 2022, ChatGPT démocratise les agents conversationnels intelligents.
Une méfiance envers la régulation : on pense que l’innovation est freinée par l’État. Une foi dans le
progrès technologique : on considère qu’il apporte toujours du positif à long terme.
La singularité est l’idée qu’à un certain moment, l’intelligence artificielle dépassera celle des humains,
entraînant une rupture dans l’évolution.
Cette vision est liée à la puissance croissante des géants du numérique, comme Google, qui investissent
dans ces domaines.
Internet permet une communication facilitée entre les internautes, via les e-mails, les chats ou les
messageries. Cette communication est médiatisée par écran, et donc différente du contact physique.
Les réseaux sociaux en ligne sont des ensembles d’individus ou d’organisations connectés entre eux
par des interactions numériques. Ils permettent de nouvelles formes de mobilisation, d’entraide, et
remettent en question des notions comme l’autorité.
Propagation rapide des fausses informations, disparition des intermédiaires “officiels” (journalistes,
experts…), ce qui rend plus difficile la vérification et ouvre la porte aux fake news.
Les Dangers
L’informatique a une double valeur : une valeur d’usage, qui permet de collaborer, partager et
s’informer, et une valeur d’échange, intégrée aux logiques économiques.
Depuis les années 1990, Internet s’est ouvert au commerce, faisant naître de grands acteurs. Les
entreprises se sont d’abord tournées vers le matériel (comme IBM ou Intel), puis vers les logiciels à
installer (Microsoft, Ubisoft), ensuite vers les services en ligne (Google, Amazon, Meta), et aujourd’hui
vers l’intelligence artificielle (OpenAI, Alibaba, etc.).
- Marchandisation
Le numérique est aujourd’hui largement marchandisé : seule une petite partie de l’infrastructure est
financée par les pouvoirs publics, tandis que la majorité repose sur des entreprises privées. Ces
entreprises proposent des contenus et services sous forme de marchandises synthétiques, en utilisant
des technologies propriétaires peu accessibles ou ouvertes. Le fonctionnement de ces services manque
souvent de transparence, que ce soit sur leur modèle économique ou sur l’usage des données
personnelles.
- Cybersurveillance
Ce manque de clarté alimente une logique de cybersurveillance : les plateformes collectent facilement
des données à travers nos recherches, nos relations et nos déplacements. Par exemple, Google
enregistre toutes les requêtes depuis 1998 et les croise avec ses autres services comme Gmail,
permettant de créer un profil détaillé de chaque individu. Cela permet de reconstituer un profil
extrêmement détaillé de chaque internaute, allant jusqu’à ses opinions, ses déplacements, ses photos
et ses préférences. Oublier est devenu une exception, tandis que se souvenir est devenu la règle.
Les Défis
- Politiques publiques
L’éducation est un levier essentiel, visant les jeunes à travers des cours d’éducation numérique, mais
aussi les professionnels comme les enseignants et journalistes, ainsi que certains publics spécifiques.
- Recherche
La recherche devrait être plus pluridisciplinaire et moins centrée uniquement sur la technologie.
Il est important de créer de meilleurs outils : ouverts, transparents, décentralisés, et protecteurs de
la vie privée (ex : PGP (Pretty Good Privacy), Tor). Les chercheurs doivent être conscients des dangers
des technologies qu’ils conçoivent. Enfin, l’informatique doit viser une meilleure sobriété énergétique.
- Régulation
Il est nécessaire de définir un cadre juridique clair, avec des accords internationaux et des lois
régionales (ex : directives européennes). Les pouvoirs publics doivent être plus volontaristes pour faire
respecter les règles, notamment vis-à-vis des grandes entreprises américaines. Il faut aussi leur donner
les moyens de contrôle, et former les décideurs sur les enjeux du numérique.
Conclusion
Les réseaux de communication, surtout Internet, placent l’informatique au cœur de nos vies
quotidiennes, privées comme professionnelles. Cette présence généralisée a des impacts dans de
nombreux domaines : économie, droit, politique, sociologie, culture...
Principe
À l’ère du numérique, toutes les informations (textes, images, vidéos, sons) sont codées sous forme
binaire, c’est-à-dire avec des suites de 0 et de 1, appelés bits. Un bit (Binary-digIT) peut représenter
deux états : par exemple vrai ou faux, oui ou non, ou encore 1 ou 0.
Les ordinateurs utilisent le système binaire (base 2), alors que les humains comptent généralement en
base 10 (système décimal). Ce système permet à la machine de traiter l’information à l’aide de circuits
électroniques simples (tension ou pas de tension).
Une suite de bits (par exemple 01000001) peut représenter n’importe quel type de donnée : des chiffres,
des lettres, des images ou encore du son.
Les données de base comme les nombres, les caractères et les booléens (qui prend que 2 valeurs : vrai
ou faux) sont directement codées en binaire, c’est-à-dire en suites de 0 et de 1 compréhensibles par la
machine. Les données plus complexes comme les textes, les images ou les vidéos sont en réalité des
combinations de ces données élémentaires.
Entiers naturels
Pour que l’ordinateur comprenne les nombres, il faut les traduire en une langue qu’il comprend : le
binaire. Voyons comment il encode les entiers naturels, c’est-à-dire les nombres positifs sans virgule.
Un entier est encodé sur un certain nombre de bits (souvent 8, 16, 32 ou 64). Chaque bit représente une
puissance de 2, allant de la plus forte (à gauche) à la plus faible (à droite). Si un bit vaut 1, cela signifie
que la puissance correspondante est présente dans le calcul du nombre. S’il vaut 0, elle est absente.
Sur 8 bits (1 octet), on peut coder des entiers de 0 à 255, car 2⁸ = 256, ce qui permet de représenter 256
valeurs
Sur 16 bits (2 octets), on peut coder de 0 à 65 535, soit 2¹⁶ valeurs différentes
Sur 32 bits (4 octets), on peut coder des valeurs allant de 0 à 4 294 967 295, ce qui correspond à 2³²
valeurs possibles
Sur 64 bits (8 octets), on atteint une capacité gigantesque, allant de 0 à 2⁶⁴ – 1, soit environ 18 milliards
de milliards de valeurs différentes
Entiers relatifs
Pour coder les entiers relatifs (nombres positifs et négatifs), on utilise une méthode appelée
complément à deux, cette méthode permet de représenter des nombres négatifs de manière simple et
efficace dans les circuits électroniques
Le premier bit, détermine si le nombre est positif ou négatif, s’il vaut 0 le nombre est positif, s’il vaut 1
le nombre est négatif. Pour les nombres positifs, le codage est identique à celui des entiers naturels,
on place simplement un 0 en premier bit et on code le reste du nombre normalement en binaire
Nombres réels
Pour représenter des nombres réels, c’est-à-dire ceux qui comportent une partie décimale, on utilise un
codage spécifique appelé nombre à virgule flottante. Ce format consiste à découper le nombre en trois
éléments distincts : le signe, l’exposant et la mantisse. Le signe indique si le nombre est positif ou
négatif, l’exposant permet de déplacer la virgule et la mantisse contient la partie significative du nombre.
Par exemple, le nombre 55 peut être codé comme (–1)^2 × 0,55 × 10², tandis que –253 se code (–1)^1
× 0,253 × 10³. Ce système permet de représenter une très large gamme de valeurs, y compris des
nombres très petits ou très grands.
Cependant, le codage des nombres réels n’est pas parfait. Il est impossible de représenter précisément
tous les nombres décimaux en binaire, ce qui peut entraîner des erreurs d’arrondi ou des
imprécisions dans les calculs. Par exemple, l’opération 2⁷² + 1 – 2⁷² peut donner 0 au lieu de 1,
simplement parce que la précision n’est pas suffisante pour conserver la petite différence.
Les opérations sur les nombres à virgule flottante suivent des standards internationaux définis
notamment par les organismes ANSI/IEEE. Ces normes permettent de garantir que les nombres réels
sont codés et manipulés de façon cohérente sur toutes les machines. Elles précisent non seulement
comment représenter les nombres à virgule flottante, mais aussi comment effectuer les opérations
arithmétiques associées, y compris les règles d’arrondi.
Elles couvrent un large éventail de calculs, comme ceux qui concernent l’exposant ou la mantisse, et
incluent des fonctions complexes comme les logarithmes, les fonctions trigonométriques (sinus,
cosinus, etc.), ou encore les puissances. Grâce à ces standards, tous les processeurs traitent les
nombres flottants de la même manière.
Documents
Un document est un ensemble de données stockées sous forme binaire. Il peut contenir tout type de
contenu médiatique : texte, image, son, vidéo, etc. Ces données sont enregistrées dans un fichier
informatique, qui correspond à une suite de bits organisée selon un format précis.
Le format d’un document définit comment les données sont structurées et interprétées. Il s’agit en
quelque sorte d’un mode d’emploi pour les logiciels afin de savoir comment lire et afficher le contenu.
Il existe deux grandes familles de formats :
- Les formats propriétaires, comme le PDF ou le Microsoft Word Binary File Format, qui sont fermés
et contrôlés par des entreprises
- Les formats ouverts et standardisés, comme HTML, XML ou OpenDocument, qui sont librement
utilisables et mieux adaptés à l’interopérabilité entre logiciels
Chaque document possède un certain niveau de structuration, qui influence sa lisibilité par un logiciel.
On distingue principalement deux catégories :
- Les documents structurés, dans lesquels les données sont organisées de manière précise et
clairement identifiée, comme dans le format JSON
- Les documents non structurés ou semi-structurés, où l’information est présente mais mal
organisée, difficilement repérable ou mélangée à d’autres éléments, comme dans un fichier HTML
ou PDF
Plus un document est structuré, plus il est facile pour un logiciel de l’analyser, de l’extraire ou de le
convertir automatiquement. À l’inverse, un document non structuré demande un traitement préalable
(appelé “pré-traitement”) pour isoler les données utiles, ce qui peut être complexe ou imprécis.
Métadonnées
Dans la pratique, la majorité des documents numériques disponibles sur internet sont peu ou pas
structurés. Cela s’explique par plusieurs raisons : certains documents contiennent des informations
non textuelles comme les fichiers MP3, d'autres sont produits dans des formats qui ne permettent pas
de structurer clairement l’information, comme HTML, ou encore utilisent des formats propriétaires
fermés comme Word.
Les métadonnées permettent de fournir une organisation supplémentaire aux données, facilitent la
recherche, le tri, l’indexation et améliorent globalement la gestion informatique de l’information.
Les métadonnées sont définies comme un ensemble d’attributs et d’éléments permettant de décrire
un document. On parle souvent de “données sur les données”. Il en existe deux grandes catégories :
- Les métadonnées descriptives, qui regroupent des informations générales comme le nom de
l’auteur, la date de création, ou encore des références vers des bases de données ou des ressources
externes
- Les métadonnées sémantiques, qui décrivent des éléments internes du document, comme par
exemple des mots-clés associés à une image, un paragraphe ou une vidéo
Une fois les documents produits et enrichis de métadonnées, leur mode de consultation peut varier
selon le type de contenu ou l’usage. Il existe deux grandes méthodes :
Documents textuels
Les documents textuels sont composés exclusivement de caractères, ce qui inclut aussi bien des lettres
que des chiffres, ces derniers étant codés comme du texte. Ces documents peuvent être créés et modifiés
avec un simple éditeur de texte.
En réalité, les séquences de caractères qu’ils contiennent peuvent remplir plusieurs fonctions différentes.
Elles peuvent constituer du contenu textuel pur, comme dans les fichiers .txt, mais aussi des éléments
de structuration des données, comme dans les fichiers JSON ou CSV, ou encore des éléments de mise
en forme, comme dans les documents HTML.
- HTML
Le HTML (HyperText Markup Language) est un langage de balisage textuel qui a été conçu à l’origine
pour publier des articles scientifiques sur le Web. Il permet de réaliser des pages web et repose sur le
principe de décrire comment un document doit être présenté à l’écran, indépendamment du système
ou du navigateur utilisé. HTML est dérivé d’un concept plus ancien appelé SGML (Standard Generalized
Markup Language).
L’un des objectifs clés du HTML est d’assurer une présentation uniforme du contenu, même lorsque
les utilisateurs consultent la page avec des ordinateurs, des systèmes d’exploitation ou des
navigateurs différents. Cela signifie que le même document doit apparaître de manière identique
quelle que soit la configuration du client. En pratique, il peut subsister de légères différences de rendu
visuel selon les navigateurs.
Cependant, les pages web contiennent souvent un mélange entre le contenu (le texte à afficher) et sa
présentation (couleur, taille, police, disposition), ce qui peut poser problème pour la structuration des
informations. C’est pourquoi on associe souvent les documents HTML à des feuilles de style appelées
CSS (Cascading Style Sheets). Les CSS sont des fichiers qui définissent comment chaque balise HTML
doit être affichée. Elles décrivent la mise en forme du contenu de façon centralisée, à la manière des
“modèles” ou “templates” qu’on trouve dans les logiciels de bureautique.
En résumé, HTML permet de décrire le contenu, tandis que CSS permet de décrire sa présentation.
Ensemble, ils permettent de créer des documents web lisibles, bien structurés, et compatibles avec une
large diversité de plateformes.
Le PDF (Portable Document Format) est un format de description de page développé par Adobe. Il a été
conçu pour préserver la mise en page d’un document quel que soit l’ordinateur ou le logiciel utilisé.
Le PDF permet d’afficher à l’écran un document exactement tel qu’il serait imprimé, ce qui en fait un
format très utilisé pour la diffusion de documents officiels, de rapports ou de formulaires.
- JSON
Il permet de représenter des objets complexes sous forme de texte, tout en gardant une structure claire
et hiérarchique, ce qui le rend très adapté à l’analyse automatique.
Documents multimédias
Les documents multimédias, comme les images, les sons ou les vidéos, sont eux aussi représentés sous
forme de séries de bits. Il s'agit simplement de traduire les informations de base (couleurs, sons, pixels,
etc.) en données binaires pour permettre leur stockage, leur transmission et leur traitement par des
machines. On utilise donc les mêmes principes que pour les données classiques, mais avec des
représentations adaptées à la nature spécifique des contenus.
- Image
Dans le cas des images, on stocke les informations de manière “structurée”, c’est-à-dire sous une forme
systématique, sans pour autant que cette structure ait une signification sémantique. Par exemple, une
image de tableau ne sera pas comprise comme un tableau contenant des chiffres, mais comme un
ensemble de couleurs placées à des emplacements précis.
Les images peuvent être compressées, c’est-à-dire réduites en taille pour occuper moins d’espace de
stockage. Il existe deux types de compression :
- Avec perte, où certaines informations sont supprimées de manière irréversible (ex. : JPEG)
- Sans perte, où toutes les informations originales sont conservées (ex. : PNG)
Une image est représentée comme une grille de pixels, chaque pixel contenant un code couleur. C’est
la méthode la plus courante, utilisée notamment par les formats JPEG, PNG, GIF, TIFF, etc. Elle permet
de bien représenter des photographies ou des images complexes, mais la qualité peut se dégrader si
on agrandit l’image, car on “voit” les pixels.
Ici, l’image est représentée par des formes géométriques (lignes, courbes, polygones), définies
mathématiquement. Ce type d’image ne perd pas de qualité lors d’un redimensionnement. Il est adapté
aux logos, schémas, dessins techniques, etc. Les formats courants sont SVG, SWF (Flash), PostScript,
etc. Les fichiers vectoriels sont souvent plus volumineux, car la description des formes est plus complexe
que celle de simples pixels.
- Son
Il s’agit d’une part de la fréquence d’échantillonnage qui correspond au nombre de prises de valeur
par seconde comme par exemple 44100 Hz pour un CD. Plus cette fréquence est élevée meilleure est
la qualité du son mais cela augmente aussi la taille du fichier sonore.
D’autre part la résolution définit le nombre de bits utilisés pour représenter chaque valeur
échantillonnée Une résolution plus élevée permet une meilleure qualité sonore mais entraîne également
une augmentation de la taille du document audio.
Comme le format WAV (utilisé par les CD) conservent toutes les données issues de la numérisation.
Comme le FLAC exploitent des mécanismes de répétition pour diminuer la taille du fichier sans altérer
la qualité du son.
Tels que le MP3 le Vorbis Ogg ou le AAC éliminent certaines données jugées inaudibles pour l’oreille
humaine. Des seuils sont alors définis pour exclure les sons trop faibles ou trop élevés. Ces seuils
influencent directement la qualité sonore ainsi que le niveau de compression
- Vidéo
Une vidéo est un document numérique qui permet de représenter un mouvement en affichant une
succession rapide d’images fixes appelées trames. L’œil humain ne perçoit pas ces images
individuellement lorsque leur fréquence est suffisamment élevée, ce qui crée l’illusion du mouvement.
En télévision, le nombre d’images par seconde varie selon les normes : environ 25 trames par seconde
pour les systèmes européens (PAL/SECAM) et 30 trames par seconde pour les systèmes américains
(NTSC).
- La fréquence d’échantillonnage,
Qui correspond au nombre de trames par seconde. Plus cette fréquence est élevée, plus la vidéo est
fluide, mais cela augmente aussi la taille du fichier.
- La résolution
La taille de chaque image (exprimée en pixels, comme 720p ou 1080p). Une résolution plus élevée donne
une meilleure qualité d’image, mais génère aussi des fichiers plus volumineux.
- La profondeur
qui représente le nombre de couleurs différentes pouvant être affichées dans chaque image. Là encore,
plus il y a de couleurs possibles, plus la qualité augmente, au prix d’un document plus lourd.
D’un point de vue théorique, une vidéo n’inclut pas le son. Celui-ci est stocké indépendamment et doit
être synchronisé avec les images à l’aide de mécanismes spécifiques.
Enfin, pour économiser de l’espace de stockage ou faciliter la diffusion, les vidéos sont souvent
compressées. Cette compression peut utiliser des techniques propres à l’image ou au son, en éliminant
les informations redondantes ou peu perceptibles pour l’œil humain. Il est également possible d’adapter
dynamiquement le débit binaire de la vidéo, en augmentant la qualité dans les scènes complexes et en
la réduisant dans les scènes statiques.
Parmi les formats de fichiers vidéo courants, on trouve AVI, MPEG, QuickTime, Ogg ou encore MP4.
Conclusion
En informatique, toutes les informations sont représentées sous forme binaire, c’est-à-dire à l’aide de
suites de 0 et de 1. Ce codage repose uniquement sur des conventions : ce sont des accords sur la façon
d’interpréter ces suites binaires. L’ordinateur, lui, ne « comprend » pas le sens de ces bits : il les traite
mécaniquement, sans se préoccuper de leur signification.
Les documents servent à structurer ces données. Ainsi, dans un document texte, les données codées
représentent des caractères (lettres, chiffres, symboles, etc.). En revanche, dans les documents
multimédias (comme les images, les sons ou les vidéos), les données sont le plus souvent des nombres.
Ces documents peuvent également contenir quelques caractères, notamment sous forme de
métadonnées (comme le titre ou l’auteur d’un fichier audio, par exemple).
Dans notre monde numérique, les organisations (qu’il s’agisse d’entreprises, de banques, d’universités
ou d’hôpitaux) doivent gérer d’énormes quantités d’informations. Cependant, pour que ces données
soient réellement utiles, elles doivent être organisées de manière structurée, sécurisée et facilement
accessible. C’est ici qu’interviennent les bases de données.
Une base de données n'est pas un simple "tas" d’informations : c’est une organisation méthodique des
données pour en permettre une utilisation efficace, fiable et rapide.
1. Enjeux
Elle doit gérer différents types d’informations (clients, comptes, transactions) de manière liée, permettre
l’accès simultané à plusieurs agences, et assurer la confidentialité totale des données sensibles.
Un ensemble de documents disparates (fichiers éparpillés) n'est donc pas une option viable pour
répondre à ces exigences.
2. Structuration
Pour que les logiciels puissent exploiter les données efficacement, il est nécessaire de les structurer.
3. Indexes
Modèle relationnel
1. Définition
Le modèle relationnel est une manière d'organiser l'information en représentant un monde réel à travers
des concepts abstraits, appelés concepts. C’est ce qu'on appelle un modèle conceptuel.
- Chaque modèle impose un certain niveau de granularité, c’est-à-dire le degré de détail des
informations stockées. Une granularité très fine donne beaucoup de précision mais peut
compliquer l’encodage et le stockage (plus lourd). À l'inverse, une granularité trop large rend
certains traitements difficiles, par exemple rechercher toutes les personnes ayant le même
prénom devient presque impossible si le prénom et le nom sont enregistrés ensemble.
Exemple : enregistrer "James Bond" comme un seul champ est moins pratique que de séparer "James"
en prénom et "Bond" en nom.
- Un modèle est toujours subjectif car il dépend d'une certaine vision du monde (appelée
Weltanschauung). Ce n'est jamais totalement neutre.
Exemple : dans les recensements américains, les catégories "race" et "ethnicité" illustrent cette
subjectivité. (Interdit en Europe mais autorisé aux Etats-Unis)
2. Entité-relation
Dans le modèle relationnel, les données sont structurées autour d'entités et de relations.
Une entité représente un objet concret du monde réel (comme une personne ou un bâtiment) et est
décrite par plusieurs attributs (par exemple, nom, fonction, nationalité).
Chaque entité est stockée dans une table, et chaque attribut correspond à une colonne de cette table.
Clés
Une clé est un identifiant (qui peut être un nombre ou une chaîne de caractères) associé à un ou
plusieurs enregistrements dans une table. Toute table relationnelle doit obligatoirement contenir une
clé primaire (PK, pour Primary Key). Une clé primaire est un attribut ou un ensemble d'attributs qui
permet de désigner de façon unique chaque enregistrement de la table.
Par exemple : dans la vie courante, le numéro de matricule national identifie de façon unique un citoyen
belge. De même, pour un bâtiment, un ensemble d’attributs comme le nom de la rue, le numéro et le
code postal permet d'identifier de manière unique son adresse.
La clé peut être une valeur naturelle (existe déjà, comme un matricule) ou une valeur artificielle créée
pour la base, comme un numéro entier auto-incrémenté attribué automatiquement à chaque nouvel
enregistrement.
Dans les bases de données, on retrouve ce principe appliqué dans les tables :
Relations
Dans une base de données relationnelle, les relations sont des correspondances établies entre les
champs de différentes tables. Elles permettent de relier les enregistrements entre eux, généralement en
utilisant des clés primaires et des clés étrangères.
Suivant si les champs reliés sont uniques ou non, il existe trois types principaux de relations :
- Relation 1-1 : un enregistrement dans une table est associé à un et un seul enregistrement
dans une autre table.
Par Exemple : un étudiant est associé à une seule vignette véhicule et inversement.
- Relation 1-N : un enregistrement dans une table est lié à plusieurs enregistrements dans une
autre table.
Par Exemple: plusieurs étudiants suivent plusieurs cours, et chaque cours est suivi par plusieurs
étudiants.
- Relation 1-1
- Relation 1-N
- Relation M-N
Chaque étudiant suit plusieurs cours, et chaque cours est suivi par
plusieurs étudiants. Pour éviter de dupliquer les données, on crée une
table intermédiaire appelée table de jointure.
Schéma de données
Un schéma d'une entité correspond à la description d’une table, en listant ses attributs avec leur nom
et leur type. Par exemple, pour une table "Etudiant", on indiquera les champs comme "Matricule" (type
entier), "Nom" (type texte), "Date de naissance" (type date), etc.
Le schéma de données désigne l’ensemble complet des tables d’une base de données ainsi que les
relations qui existent entre elles. C’est donc une vue globale de toute l’organisation de l'information.
- Utiliser des données atomiques, c'est-à-dire des données non décomposables. Par exemple, il
est préférable de séparer une adresse en plusieurs champs : rue, numéro, code postal.
- Stocker des données invariables. Plutôt que de stocker l’âge d’une personne (qui change
chaque année), il vaut mieux enregistrer sa date de naissance, qui reste fixe.
- Regrouper les informations fonctionnellement liées à une clé primaire dans une même table.
Par exemple, stocker le nom et prénom d’un étudiant dans la table qui contient son matricule.
Quand un schéma de données respecte ces bonnes pratiques, on parle de schéma de données
normalisé, car il répond à des critères de qualité, d'organisation et de cohérence.
Exemple d’examen
Chaque fournisseur est capable de proposer plusieurs offres et de proposer plusieurs produits
différents. De son côté, chaque produit peut être proposé par plusieurs fournisseurs.
Pour structurer cette information, une relation entre produits et fournisseurs sera donc nécessaire,
matérialisée par les offres qui décrivent le prix du moment.
Chaque catégorie regroupe plusieurs produits, ce qui permet d’organiser l’ensemble des produits selon
leur nature ou leur cycle de réapprovisionnement. Les commandes devront également être modélisées
pour suivre les achats réalisés sur base des offres sélectionnées.
Conclusion
Pour stocker et manipuler de grandes quantités d’informations, il est nécessaire d’utiliser des bases de
données. Cela implique de définir les données qui vont représenter les informations, appelées entités,
ainsi que les relations qui existent entre ces informations.
Les bases de données relationnelles sont aujourd'hui les plus populaires, notamment grâce à l’utilisation
du langage SQL. Un schéma de données est l’ensemble des entités et des relations nécessaires pour
modéliser un domaine donné. Cette étape de conception est essentielle car elle repose sur une
conceptualisation rigoureuse des informations à stocker et à traiter.
Cours 4 : Matériel I
L'ordinateur est une machine dont l’architecture repose sur trois éléments essentiels : un processeur qui
commande, des mémoires qui stockent les données, et des périphériques qui assurent les échanges avec
l’extérieur. Au cœur du système, c’est le processeur central, ou CPU, qui organise l’ensemble du
fonctionnement. Pour lui indiquer ce qu’il doit faire, on utilise la programmation, qui traduit nos
intentions en instructions précises.
La mémoire joue un rôle fondamental, car elle conserve aussi bien les programmes que les informations
nécessaires à leur exécution. Lorsqu’il n’est pas utilisé, l’ordinateur est capable de passer dans différents
modes pour économiser de l’énergie. Enfin, toute cette architecture est rendue possible grâce aux
avancées de l’électronique, qui permet de concevoir et fabriquer ces machines complexes.
Historique
L’histoire de l’informatique débute avec Charles Babbage, qui, au XIXᵉ siècle, imagine et construit la
machine à différences pour automatiser le calcul de tables mathématiques. Bien qu’il n’ait jamais pu
achever sa machine analytique, ses travaux jettent les bases des ordinateurs modernes. Quelques
décennies plus tard, Alan Turing conceptualise une machine théorique, capable d’effectuer n’importe
quel calcul à partir d’un dispositif simple, connue aujourd'hui sous le nom de machine de Turing.
Pendant la Seconde Guerre mondiale, il participe à la mise au point de méthodes pour décrypter la
machine Enigma, et propose ensuite le célèbre « test de Turing » pour évaluer l'intelligence des
ordinateurs.
En parallèle, John von Neumann contribue de manière décisive en décrivant l'architecture de l'EDVAC,
posant les fondations de l'ordinateur programmable moderne, tout en connaissant, mais sans être
directement influencé, par les travaux de Turing. Enfin, Claude Shannon établit les bases de la théorie
de l'information en montrant comment coder efficacement les messages pour leur transmission, même
s’il contestera plus tard l'usage de ses travaux dans les sciences humaines.
- Machine de Turing
La machine de Turing est un objet mathématique conçu pour représenter la notion fondamentale de
calcul (un genre de CPU). Elle est constituée d’un ruban, infini dans les deux directions, divisé en cases
consécutives. Chaque case peut contenir un symbole choisi parmi un ensemble fini, comme 0 ou 1. Une
tête de lecture-écriture (bus-mémoire) se déplace sur ce ruban (mémoire infinie), lisant ou écrivant un
symbole à chaque position, et pouvant se déplacer soit vers la gauche, soit vers la droite.
La machine possède aussi un registre qui mémorise son état courant, parmi un nombre limité d'états
possibles. Son comportement est entièrement déterminé par une table d’actions : pour chaque
combinaison d’état actuel et de symbole lu sur le ruban, elle indique quoi écrire, dans quelle direction
se déplacer, et quel sera le nouvel état.
Selon la thèse de Church, tout problème de calcul qui peut être décrit par une procédure algorithmique
peut être résolu par une machine de Turing. C’est une des bases théoriques de l’informatique moderne.
Architecture
- Bus
- Le bus d’adresses, qui identifie la destination des données (comme une mémoire ou
un périphérique) ;
- Le bus de contrôle, qui transporte des signaux de commande pour organiser les
opérations (comme le timing ou l’ordre de lecture et d’écriture).
À l’intérieur du processeur, les bus locaux assurent la communication entre les composants internes,
comme les registres ou l’unité de calcul. À l’extérieur, les bus externes relient le processeur aux autres
parties de l’ordinateur, notamment la mémoire principale et les périphériques I/O.
Pour être efficace, le processeur utilise en général plusieurs bus en parallèle afin d’échanger rapidement
des informations.
- Processeur
Le processeur, aussi appelé CPU, est l’élément central de l’ordinateur. Il assure la communication entre
la mémoire centrale, les périphériques d’entrée/sortie, et exécute les instructions en langage machine.
- Des registres, qui sont de petites mémoires internes servant à stocker temporairement
les données et l’état du programme en cours d’exécution, comme l’accumulateur qui
conserve le résultat d’un calcul intermédiaire.
Enfin, la capacité de traitement d’un processeur, souvent mesurée en FLOPS (opérations flottantes par
seconde), joue un rôle clé dans la puissance globale d’un ordinateur.
- Processeurs spécialisés
Aujourd'hui, les ordinateurs ne se contentent plus d'un seul processeur généraliste (le CPU). Ils
embarquent aussi des processeurs spécialisés capables d’accélérer certaines tâches précises.
Le plus connu est le GPU, utilisé à l’origine pour le rendu graphique, notamment dans les calculs
d’affichage 3D. Avec le temps, les GPU sont devenus tellement puissants qu'on les utilise aussi pour
d'autres domaines complexes, comme le traitement du signal vidéo, la décompression de videos la
cryptomonnaie ou l’intelligence artificielle.
En plus des GPU, d’autres puces très spécialisées ont vu le jour, comme les TPU chez Google, conçues
spécialement pour les calculs en intelligence artificielle, ou encore les Neural Engines d’Apple, optimisés
pour faire tourner rapidement des réseaux de neurones. Cette évolution montre que pour gagner en
performance, il ne suffit plus d’avoir un processeur rapide : il faut aussi choisir les bons outils pour les
bons types de calculs.
- Registres
Les registres sont de très petites mémoires directement intégrées dans le processeur. Ils servent à
stocker temporairement des données essentielles pendant l’exécution d’un programme, comme les
résultats de calculs ou les adresses en mémoire. Lorsqu’une instruction est exécutée, les registres
permettent de charger, additionner, déplacer ou manipuler très rapidement les informations sans avoir
à passer par la mémoire centrale, ce qui accélère énormément le traitement.
Le transfert des données entre registres est crucial, car il conditionne directement la vitesse du CPU.
Tous les processeurs possèdent des registres dits généraux, utilisés pour stocker des résultats
intermédiaires, et parfois aussi des registres spécifiques, réservés à certaines opérations complexes
comme le calcul sur des vecteurs (SIMD). (SIMD = faire plusieurs calculs en un seul coup, au lieu de
les faire un par un.)
D'autres registres, dits de statut, permettent aussi d’enregistrer des informations particulières sur le
déroulement des calculs (par exemple, savoir si le résultat d'une opération est nul ou s’il y a eu une
retenue). Et d’autres registres spécifiques pour stocker des nombres à virgule flottante voire des
vecteurs.
- Mémoires
La mémoire de l'ordinateur sert à stocker les programmes et les données dont il a besoin pour
fonctionner. On distingue principalement deux grands types de mémoire :
- La mémoire ROM, qui garde son contenu même quand l’ordinateur est éteint. Elle est
utilisée pour stocker des informations essentielles qui ne doivent pas changer.
- La mémoire RAM, en revanche, est effaçable : elle sert de mémoire temporaire pendant
que l’ordinateur est en marche, mais son contenu disparaît dès qu’on coupe
l’alimentation.
Il existe différentes mémoires qui varient selon leur taille et leur rapidité : plus une mémoire est rapide,
plus elle est souvent petite. La capacité et la vitesse de la mémoire ont un impact important sur la
performance globale de l’ordinateur.
La taille de mémoire qu’un processeur peut utiliser dépend de la taille de ses registres. Par exemple, un
processeur avec un registre de 24 bits peut adresser jusqu'à 2²⁴ positions mémoire.
- Mémoire linéaire : on considère toute la mémoire comme un seul grand bloc continu. Un
seul registre suffit pour donner une adresse, comme dans un système 32 bits qui peut gérer
jusqu’à 4 Go de mémoire. (utilisé actuellement !)
- Mémoire segmentée : la mémoire est coupée en plusieurs blocs appelés segments. Il faut
alors deux registres : un pour choisir le segment, et un autre pour l'adresse à l’intérieur de ce
segment. Cette méthode était utilisée, par exemple, dans les anciens processeurs Intel 8086.
La segmentation peut aussi être combinée avec des mécanismes de sécurité pour mieux protéger l’accès
à certaines parties de la mémoire.
- Périphériques I/O
À l’origine, les ordinateurs utilisaient des périphériques très simples : des cartes perforées pour entrer
les données, et des imprimantes pour les afficher en sortie. Aujourd'hui, les périphériques sont beaucoup
plus variés et sophistiqués.
On trouve des appareils uniquement destinés à l’entrée, comme le clavier ou la souris, d’autres
uniquement pour la sortie, comme l’écran ou l’imprimante, et beaucoup de périphériques qui
combinent les deux fonctions. Par exemple, un disque dur peut à la fois recevoir des informations et
en fournir, tout comme une carte réseau ou un écran tactile.
En réalité, presque tous les périphériques modernes peuvent échanger des informations dans les deux
sens, même si les vitesses d'entrée et de sortie ne sont pas toujours les mêmes.
La capacité et la rapidité des périphériques I/O jouent aussi un rôle important dans la performance
globale d’un ordinateur : par exemple, un disque dur rapide permet de charger les données beaucoup
plus vite, etc.
- Fréquence
Pour qu'un ordinateur fonctionne correctement, il faut que tous ses éléments soient bien synchronisés.
C'est pour cela qu’il utilise une horloge interne, une sorte d'oscillateur électronique, qui donne le
rythme aux opérations. Cette horloge bat à une certaine fréquence, mesurée en Hertz (Hz), ce qui
correspond au nombre de cycles effectués par seconde.
Chaque action de l’ordinateur, comme lire ou écrire une donnée, est alignée sur ces cycles d’horloge.
Certaines opérations simples peuvent se faire en un seul cycle, mais d'autres plus complexes demandent
plusieurs cycles.
La vitesse d’un processeur dépend donc directement de cette fréquence et elle correspond à la vitesse
de transfert entre registres. Plus elle est élevée, plus le processeur peut exécuter de tâches
fondamentales rapidement. Par exemple, une fréquence de 1 GHz signifie que le processeur peut
théoriquement faire un milliard de petites opérations (tâches atomiques) par seconde.
- Améliorations
Pour rendre les ordinateurs toujours plus rapides, plusieurs stratégies ont été développées. La première
a été d’augmenter la cadence du processeur, c’est-à-dire la vitesse de l'horloge interne. Pour cela, on
a compacté de plus en plus les transistors (selon la loi de Moore), on a accéléré l’accès à la mémoire et
aux périphériques, et on a élargi la taille des bus pour transférer plus de données en un seul coup (par
exemple, 64 bits aujourd’hui). On a aussi appris à exécuter plusieurs instructions en parallèle, grâce à
des techniques comme le pipeline ou les architectures superscalaires. Mais malgré tous ces efforts, il
existe des limites physiques qui empêchent d’augmenter la fréquence à l'infini.
Face à ces limites, une autre solution est apparue : augmenter le nombre de processeurs. Aujourd'hui,
on trouve plusieurs cœurs dans un même processeur, ou même plusieurs ordinateurs connectés
ensemble dans des réseaux ultrarapides.
Une autre avancée importante est le concept de System on a Chip (SoC), où tous les éléments
nécessaires à l’ordinateur (CPU, mémoire, GPU...) sont réunis sur une seule puce. Cela améliore les
performances, réduit la consommation d’énergie et permet de fabriquer des circuits plus compacts
« die ». Le principal inconvénient est que si un seul composant tombe en panne, toute la puce doit être
changée. Un exemple connu est la gamme Apple Silicon.
Processeur
Un ordinateur fonctionne en exécutant des programmes, qui sont en réalité des séquences
d'instructions.
Ces instructions peuvent être de deux types : soit des calculs (par exemple additionner deux nombres),
soit des instructions de branchement, qui permettent de faire des choix (comme dans une condition
"si... alors...") ou de répéter des actions dans des boucles.
- Cycle fondamental
Dans l’architecture de von Neumann, un programme est vu comme une suite d’instructions qui sont
chargées et stockées dans la mémoire. Le processeur, avec ses unités (l’unité de contrôle, l’ALU et les
registres), va lire ces instructions en mémoire pour les exécuter. Certaines de ces instructions demandent
simplement un calcul, tandis que d’autres nécessitent d’aller chercher ou d’enregistrer des données dans
la mémoire.
- Instructions
Il peut déplacer des données, par exemple en allant chercher une information de la mémoire pour la
mettre dans un registre (LOAD) ou en sauvegardant une donnée d'un registre vers la mémoire (STORE).
Il réalise aussi des opérations d'entrée/sortie, comme lire une information d'un périphérique (GET, par
exemple lire ce qui est tapé au clavier) ou écrire une information vers un périphérique (PUT, comme
afficher un texte à l'écran).
efficacement dans la mémoire. Cela signifie que, pour le processeur, chaque commande est simplement
représentée par un petit groupe de bits.
- Types
Les processeurs CISC (Complex Instruction Set Computer) disposent d’un ensemble d'instructions très
riche et varié (complet). Une seule instruction peut réaliser une tâche complexe (fondamentale), mais
cela peut nécessiter plusieurs cycles d'horloge (lent).
L’avantage est qu’une instruction peut accomplir beaucoup de travail d'un coup. Le principal
inconvénient est que plus il y a d'instructions différentes, plus il est difficile d’optimiser le
fonctionnement physique du processeur.
En face, les processeurs RISC (Reduced Instruction Set Computer) utilisent un nombre limité
d'instructions simples (fondamentales), conçues pour être exécutées en un seul cycle d’horloge (rapide).
Cela repose fortement sur l’utilisation de registres pour stocker et transférer les données. (utilisé
actuellement !)
L’avantage est que cela simplifie le processeur et permet de l’optimiser au maximum (utilisation de
plusieurs cœurs). L’inconvénient est que les compilateurs (programmes qui transforment du code
humain en code machine) doivent être plus complexes pour transformer des tâches compliquées en
enchaînements d'instructions très simples.
Historiquement, dans les années 1980, on utilisait principalement des processeurs CISC, comme la
fameuse famille des processeurs x86 d'Intel, très répandus sur les PC et Mac.
Dans les années 1990, les processeurs RISC ont gagné en popularité, notamment avec les architectures
SPARC de Sun Microsystems ou Power Architecture d'IBM, et aujourd'hui dans de nombreux appareils
comme les smartphones ou les cartes graphiques.
Un exemple intéressant est celui des processeurs Intel Core (i3, i5, i7) :
- Exécution
Ces deux étapes correspondent aux deux premiers cycles de base du traitement.
- Parallélisme
Toutefois, pour que cette organisation soit efficace, il faut que les instructions n'interfèrent pas entre
elles. Certaines instructions sont parallélisables (c=a+b et f=d+e) car elles ne dépendent pas l'une de
l'autre, tandis que d'autres (c=a+b et f=c+e) doivent attendre un résultat intermédiaire pour continuer.
Lorsqu’un conflit est détecté, le processeur peut créer volontairement un léger décalage, utiliser
plusieurs pipelines différents ou réorganiser les instructions pour éviter les blocages.
Les processeurs modernes intègrent aussi des mécanismes d’anticipation pour prédire quelles
instructions seront nécessaires ensuite. Par exemple, en présence d'une condition ("si... alors..."), le
processeur estime quel chemin est le plus probable et prépare les instructions correspondantes à
l'avance. Si cette prédiction est correcte, l'exécution est accélérée ; sinon, il faut annuler les opérations
erronées, ce qui ralentit l'ensemble. À cause de ces mécanismes d’anticipation, il devient difficile
d’estimer avec précision le temps d'exécution d'un programme.
Enfin, pour encore améliorer les performances, on utilise plusieurs processeurs en parallèle. Dans un
système multi-processeurs, plusieurs cœurs travaillent ensemble pour exécuter différentes parties d'un
programme. Les ordinateurs dits superscalaires sont capables d’exécuter plusieurs instructions en
parallèle sur un même processeur et utiliser un grand nombre de processeurs interconnectés avec des
connexions optiques. Enfin, l’informatique distribuée repose sur la coopération de plusieurs
ordinateurs éloignés, connectés par des réseaux rapides, pour traiter des tâches complexes de manière
simultanée.
Conclusions
L'architecture de base d'un ordinateur moderne repose sur trois grands éléments : le processeur qui
exécute les instructions, la mémoire qui stocke les programmes et les données, et les périphériques
d’entrée/sortie (I/O) qui permettent les échanges avec l’extérieur.
Avec le temps, pour suivre la loi de Moore (qui prévoit que les capacités des ordinateurs doublent
régulièrement), les ordinateurs sont devenus de plus en plus complexes. Ils intègrent aujourd'hui
plusieurs processeurs, appelés "cœurs", différents types de mémoires (comme la RAM et la mémoire
cache), et des périphériques d’I/O très rapides (réseaux, disques durs performants, etc.).
Cours 5 : Matériel II
Programmation
Un programme informatique est, étymologiquement, quelque chose de "d’écrit à l’avance" (du grec
programma). C’est un ensemble d’instructions destinées à être exécutées par une machine. Lorsqu’un
programme est empaqueté sous une forme utilisable par l’utilisateur (avec éventuellement une interface,
des paramètres, etc.), on parle alors de logiciel.
Les instructions fondamentales que comprend un processeur sont directement codées sous forme de
nombres binaires (par exemple : 01001010). Cet ensemble d'instructions forme ce qu'on appelle le
langage machine du processeur.
Comme il est difficile à manipuler directement, on utilise une version plus lisible, le langage assembleur,
où des mots-clés remplacent les codes binaires. Par exemple, pour additionner deux valeurs (c = a + b),
le processeur peut suivre trois instructions en assembleur : charger A (LOAD A), additionner B (ADD B)
et stocker le résultat dans C (STORE C).
- Environnements
Pour qu'un programme puisse être exécuté, il doit être traduit dans un langage machine spécifique au
processeur de la machine cible. Cette traduction se fait souvent par un langage intermédiaire,
l'assembleur, puis par un assemblage en code binaire.
- Selon le type de machine (ordinateur, smartphone, etc.), le langage machine peut varier, même
si les instructions de haut niveau semblent proches.
- Les systèmes d’exploitation (Windows, macOS, GNU/Linux…) influencent aussi l’exécution car
ils gèrent différemment les programmes.
Ainsi, un programme doit être adapté à la machine et à l’environnement où il sera utilisé. Par exemple,
un programme conçu pour Windows sur un processeur Intel ne fonctionnera pas directement sur un
Mac utilisant un autre type de processeur, ou sur un smartphone.
- Langages de programmation
Les principaux critères de différenciation entre langages sont la syntaxe et les conventions d’écriture, le
niveau d’abstraction (bas niveau comme C/C++ ou haut niveau comme Python), le paradigme de
programmation (procédural, orienté objet, fonctionnel, etc.), le mode de gestion des variables (typées
statiquement ou dynamiquement) ainsi que la prise en charge automatique de certaines opérations
comme la désallocation mémoire.
Enfin, les langages de programmation se divisent en deux grandes familles selon leur mode d'exécution.
Les langages compilés (comme C ou C++) transforment tout le code source en langage machine avant
- Abstraction fonctionnelle
En pratique, le développement se fait majoritairement en utilisant des langages dits de "haut niveau"
tels que Basic, C, C++, C#, Java, Python, Perl ou Fortran. Ces langages permettent d'écrire plus facilement
des programmes, comme l'illustre l’exemple classique en Basic d'un petit programme affichant en boucle
« Hello World ».
L'informatique moderne repose sur le principe d’abstraction fonctionnelle, souvent désigné aussi sous
le nom de principe en couches. Cette approche consiste à organiser le fonctionnement d'un système
informatique en plusieurs niveaux, chacun étant relativement indépendant des autres. Cela signifie que
l’on peut développer des programmes en se concentrant sur un niveau donné, sans avoir à comprendre
ou manipuler les détails du niveau inférieur. L'un des grands avantages de cette organisation est de
permettre aux développeurs d’écrire du code dans un langage de haut niveau, tel que Python, sans
devoir connaître en détail le fonctionnement du matériel sur lequel le programme sera exécuté.
Lorsqu’on observe l’exécution d’un programme, on peut identifier plusieurs niveaux d’abstraction. Au
sommet, se trouve le niveau symbolique, qui concerne les concepts et les algorithmes. Ensuite vient
l'implantation concrète dans des langages de haut niveau, à travers des programmes ou des
bibliothèques. Plus bas, le système d’exploitation fournit une première couche d’abstraction logicielle,
en gérant notamment l'accès aux périphériques et l'organisation des tâches. Juste en dessous, on
retrouve les instructions en langage machine, directement interprétées par le processeur. Enfin, au
niveau le plus bas, résident les circuits physiques comme le processeur ou la mémoire, qui assurent
l’exécution matérielle des instructions.
Mémoires
- Mémoires vive
La mémoire vive, souvent appelée RAM pour "Random Access Memory" ou "mémoire à accès direct",
est un type de mémoire où chaque octet peut être stocké à n'importe quel emplacement sans contrainte
particulière. Ce caractère "aléatoire" d'accès explique son nom. Un des grands avantages de la RAM est
que le temps d’accès aux données est constant, quel que soit l’emplacement sollicité.
Pour accéder à une donnée en RAM, le processus de décodage d’adresse suit généralement deux
étapes : d’abord, il s'agit de sélectionner le segment de mémoire concerné, puis de choisir l’adresse
précise (appelée offset) à l’intérieur de ce segment. La RAM est qualifiée de mémoire volatile, car les
informations qu’elle contient disparaissent dès que l'alimentation électrique est coupée.
Enfin, il est important de noter que la capacité des mémoires RAM a connu une progression spectaculaire
: alors qu’on parlait de 16 kilooctets en 1980, on atteint aujourd'hui des capacités de l’ordre de plusieurs
gigaoctets, voire davantage.
- Adressage
- Hiérarchie
Elle est plus lente que le processeur et sa capacité est limitée tout en étant volatile. Pour résoudre ces
limites, deux types de mémoires sont utilisés : la mémoire cache et la mémoire de masse.
La mémoire cache est une mémoire plus rapide que l’on intercale entre le processeur et la mémoire
principale pour accélérer les accès.
La mémoire de masse (comme les disques durs) fournit un stockage permanent destiné à conserver les
données même sans alimentation.
La mémoire cache fonctionne selon le principe de localité : les données ou instructions les plus utilisées
récemment sont stockées dans la cache pour accélérer les accès. Plusieurs niveaux de cache existent (L1,
L2, L3), chacun ayant une taille plus grande mais une vitesse décroissante. Le processeur utilise la
mémoire cache de manière automatique et transparente pour l'utilisateur.
Concernant le mémoire de masse, on distingue les mémoires secondaires (disques durs, clés USB) qui
permettent un accès direct et relativement rapide, et les mémoires d’archivage (bandes magnétiques,
CD/DVD) qui sont utilisées pour des sauvegardes longues durées et souvent avec un accès plus lent.
Fonctionnement
Lorsqu'un ordinateur démarre, il commence par exécuter le BIOS (Basic Input/Output System) à partir
d'une mémoire ROM. Ce BIOS va ensuite charger le système d’exploitation (OS) depuis un secteur
précis d'une mémoire de masse vers la RAM afin de permettre l'exécution. Lorsque l’utilisateur lance
un programme, l'OS le transfère également depuis la mémoire de masse dans la RAM avant de
l’exécuter. Tant que l'ordinateur reste allumé, la RAM est continuellement rafraîchie pour conserver les
données.
Lorsque l’ordinateur passe en veille (ou stand-by), l’alimentation des périphériques et de la mémoire
de masse est coupée, mais la RAM continue de recevoir un peu d’énergie pour maintenir son contenu.
Cela permet à l’utilisateur de retrouver son espace de travail exactement comme il l’avait laissé. À
l’inverse, lors d’une extinction complète (shutdown), toute l’alimentation est arrêtée : la mémoire vive
est effacée et toutes les informations non sauvegardées sont perdues. Un redémarrage correspond donc
à un démarrage complet, avec une session entièrement neuve.
- Hibernation
- Mémoire virtuelle
Enfin, la notion de mémoire virtuelle permet de donner à l’utilisateur l’illusion d'une mémoire plus
grande que la mémoire physique réellement disponible. L'OS gère dynamiquement le contenu de la
RAM : il charge progressivement uniquement les parties nécessaires des programmes (exemple : un
module spécifique d'un logiciel) et libère temporairement l’espace occupé par des parties non utilisées,
prêtes à être rechargées si besoin. Cela permet d’optimiser l’usage de la mémoire et d'exécuter de "gros"
programmes ou fichiers sans saturer la RAM.
Fabrication
- Portes logiques
- Interrupteur
En informatique, les notions de VRAI et FAUX sont représentées physiquement par la présence ou
l'absence d'un courant électrique. Cette correspondance permet de traiter l'information binaire grâce
à des interrupteurs capables de laisser passer ou bloquer ce courant.
Enfin, la vitesse du processeur (CPU) dépend directement de la rapidité avec laquelle ces interrupteurs
exécutent leurs opérations.
- Transistor
Concrètement, un transistor est un petit semi-conducteur de silicium, structuré pour disposer d’une
entrée (source) et d’une sortie (drain). À l’état naturel, sans stimulation électrique, il reste fermé.
Lorsqu’on applique une tension sur la grille, une passerelle s’ouvre : les électrons sont alors attirés d’un
côté à l’autre du composant. Ce fonctionnement extrêmement simple est au cœur des opérations
logiques et arithmétiques réalisées dans tout ordinateur.
Mieux encore, les transistors peuvent être assemblés pour construire des portes logiques. Par exemple :
Ainsi, grâce à des combinaisons savantes, il devient possible de concevoir des circuits capables de
calculer, prendre des décisions logiques, ou encore mémoriser des données. Chaque opération,
même la plus complexe, peut être décomposée en une succession d'états binaires, gérés par des réseaux
de transistors.
En résumé, derrière chaque processeur moderne, chaque smartphone, chaque serveur, on retrouve cette
même idée essentielle : contrôler le courant électrique pour manipuler l'information numérique. Tout
le reste (algorithmes, logiciels, intelligence artificielle) repose sur cette base ultra-simple mais
extraordinairement puissante.
- Intégration
Un processeur moderne est un ensemble intégré, une minuscule puce de quelques centimètres carrés
capable de contenir des centaines de millions de transistors. À l'origine, les composants électroniques
étaient fabriqués séparément avant d'être reliés sur des circuits imprimés. Aujourd'hui, l'approche a
changé : tous ces éléments sont directement gravés sur une seule galette de silicium appelée wafer,
donnant naissance à ce qu'on appelle un circuit intégré.
La fabrication d'un circuit intégré repose sur des procédés industriels d'une précision extrême. On parle
de gravures pouvant atteindre des échelles de quelques dizaines de nanomètres, ce qui est minuscule
(un nanomètre est un milliardième de mètre !). Pour obtenir un tel niveau de finesse, il faut non
seulement des machines extrêmement sophistiquées, mais aussi des conditions environnementales
ultra-pures, d'où l'usage de salles blanches.
- D'abord, on peut augmenter la capacité de traitement : plus on réduit la taille des transistors,
plus on peut en placer sur une même puce.
- Ensuite, réduire les distances entre les transistors accélère les échanges d'informations, ce qui
diminue les temps de transmission et améliore les performances globales du processeur.
Cependant, plus la gravure est fine, plus les défis techniques deviennent importants :
- Enfin, le dégagement de chaleur augmente, car des transistors plus nombreux et plus petits
travaillent intensément sur des surfaces réduites.
Aujourd'hui, repousser les limites de la miniaturisation reste un enjeu majeur de l'industrie, tout en
explorant aussi d'autres pistes comme de nouveaux matériaux, l'architecture des processeurs ou encore
la réorganisation des circuits pour continuer à améliorer les performances sans tomber dans les pièges
d'une miniaturisation extrême.
Conclusions
L’architecture de base d’un ordinateur moderne repose sur trois grandes catégories d’éléments : les
processeurs, qui réalisent les calculs ; les mémoires, qui stockent temporairement ou durablement les
données ; et les périphériques d'entrée/sortie (I/O), qui permettent la communication avec le monde
extérieur (claviers, écrans, disques durs, réseaux, etc.).
Avec le temps, pour continuer à suivre la célèbre loi de Moore (qui prédit un doublement du nombre
de transistors sur une puce tous les deux ans), les ordinateurs ont vu leur complexité croître. On utilise
aujourd’hui :
- À un niveau très bas, avec des instructions en langage machine, directement comprises par le
processeur.
- À un niveau plus haut, avec des langages de programmation utilisés par les développeurs, qui
simplifient l’écriture de logiciels complexes.
Enfin, il est essentiel de rappeler que toute cette évolution repose en dernière instance sur un élément
de base : le transistor. Ce minuscule composant est au cœur de l’électronique moderne et reste le pilier
de la loi de Moore et des progrès informatiques.
Cours 6 : Réseaux I
Le réseau Internet repose sur une infrastructure technologique complexe servant de médiateur aux
échanges économiques, sociaux ou d'informations en ligne. Ce fonctionnement repose d'abord sur la
couche physique, c’est-à-dire l'ensemble des infrastructures matérielles (câbles, fibres optiques,
antennes…) qui transportent les signaux numériques.
Ensuite, interviennent les protocoles de communication, des règles précises qui organisent l’échange
de données entre l’émetteur et le destinataire. Parmi eux, on distingue le routage, qui permet de
déterminer le meilleur chemin pour faire circuler l'information, et le transport, qui garantit la qualité de
l'échange (notamment en corrigeant les erreurs).
En fonction de leur portée, les réseaux sont classés en différentes catégories. Le PAN (Personal Area
Network) désigne un réseau domestique, comme celui reliant votre smartphone à votre ordinateur. Le
LAN (Local Area Network) couvre un espace plus large, comme celui d’une pièce ou d’une entreprise,
en utilisant généralement le protocole Ethernet.
À une échelle plus grande, les MAN (Metropolitan Area Network) s’étendent à l’échelle d’une ville, tandis
que les WAN (Wide Area Network) relient des réseaux à l’échelle mondiale, comme c'est le cas pour
Internet. Ces réseaux plus vastes reposent souvent sur le protocole TCP/IP.
Pour garantir un échange efficace entre tous ces réseaux et équipements, des normes précises sont
établies et respectées, rendant possible la communication fluide et transparente à travers le monde
entier.
Réseaux de communication
Shannon, en 1948, propose un modèle mathématique fondamental pour décrire l’échange de données
numériques, posant ainsi les bases de la théorie de l'information.
Couche physique
- Modes
L’échange d’informations dans un réseau peut se faire selon deux modes : analogique ou numérique.
Dans un échange analogique, la donnée à transporter est codée de manière continue et transmise sur
l’ensemble du spectre d’un signal continu. C’est par exemple le principe des transmissions audio
classiques.
À l'inverse, l’échange numérique repose sur un codage binaire : la donnée est représentée par des suites
discrètes de 0 et de 1, transmises sur un support physique continu. Ce mode est utilisé dans la plupart
des communications informatiques modernes, notamment pour la transmission de fichiers ou de
messages sur Internet.
La tendance actuelle est de favoriser de plus en plus le transport numérique direct. Cette approche
permet de transférer de plus grandes quantités de données avec une meilleure fiabilité et une plus
grande facilité de traitement. En effet, le numérique permet de réduire les erreurs de transmission, de
compresser efficacement les données et d’assurer leur sécurité par des techniques de chiffrement
modernes
- Direction et multiplexage
Dans un réseau de communication, plusieurs modes de transmission existent selon la direction dans
laquelle les données circulent.
Le mode simplex correspond à une communication unidirectionnelle : les données ne circulent que
dans un seul sens, comme dans le cas d'une transmission radio classique.
Le mode half-duplex, quant à lui, permet une communication bidirectionnelle mais non simultanée : les
deux parties peuvent envoyer des données, mais pas en même temps, comme pour les talkie-walkies.
Enfin, le mode full-duplex autorise une communication bidirectionnelle simultanée : les deux
interlocuteurs peuvent échanger des données en même temps, comme lors d'une conversation
téléphonique.
Pour optimiser l’utilisation des ressources, on peut aussi multiplexer la communication, c’est-à-dire
envoyer plusieurs flux de données sur un même support.
Le multiplexage temporel, quant à lui, attribue à chaque signal une part du temps disponible, sous
forme de créneaux successifs, ce qui permet à plusieurs signaux d’être transmis sur la même fréquence
en alternance rapide. De nos jours, certains supports combinent à la fois le multiplexage fréquentiel et
temporel pour maximiser le transport d’informations.
- Qualité
La qualité d’un canal de communication est déterminée par plusieurs caractéristiques essentielles : la
vitesse de transmission, la fiabilité, la bande passante, mais aussi des facteurs comme l’atténuation,
le prix, la simplicité ou encore la solidité du support utilisé. Lorsqu’un signal circule sur un support
physique, il peut être perturbé. Ces perturbations peuvent être dues au bruit provenant de sources
extérieures, ou à une atténuation naturelle du signal au fil du temps et de la distance.
Au-delà d'une certaine distance, dépendante à la fois du type de signal, du support utilisé et des
conditions environnementales, le signal peut être tellement dégradé qu'il devient illisible ou impossible
à décoder. Pour pallier ce problème, des répétiteurs sont installés à intervalles réguliers : ils
réceptionnent le signal affaibli, le reconstituent et le renvoient "propre" vers la suite du trajet, assurant
ainsi la continuité du transfert.
Enfin, pour garantir l'intégrité de la transmission, il est courant d'ajouter des informations
supplémentaires au signal, comme par exemple un bit de parité, permettant de vérifier que les
données reçues sont conformes aux données envoyées.
- Supports physiques
Les supports physiques varient selon le type de signal transporté. Les signaux électriques sont transmis
via des paires torsadées ou des câbles coaxiaux, ces derniers offrant davantage de fiabilité et de rapidité.
Quant aux signaux lumineux, ils utilisent des fibres optiques très fines, extrêmement résistantes au
bruit/interférence et capables de transporter de grandes quantités de données sur des milliers de
kilomètres, comme c’est le cas pour les câbles sous-marins.
Le spectre électromagnétique couvre une large gamme de longueurs d’onde, allant des ondes radio aux
rayons X. Chaque technologie (radio FM, TV, GPS, Wi-Fi, etc.) utilise une partie précise de ce spectre.
- Types
La couche physique des réseaux englobe divers types de technologies de transmission. Le réseau
téléphonique commuté est historiquement l’un des premiers moyens de communication à distance
par voie filaire, utilisant une infrastructure étendue. L’ADSL (Asymmetric Digital Subscriber Line) est venu
par la suite pour améliorer les débits en exploitant des hautes fréquences sur les lignes téléphoniques
classiques, permettant ainsi l’accès à Internet haut débit.
Dans les environnements d’entreprise, Ethernet est devenu la norme pour la création de réseaux locaux
(LAN), assurant des communications filaires rapides et fiables. Concernant la mobilité, la téléphonie
mobile a connu plusieurs générations, du GPRS (2G) à l’UMTS (3G) puis au LTE (4G), chacune
augmentant progressivement les capacités de débit et de services (voix, SMS, Internet mobile).
Les communications sans fil se sont également développées avec Bluetooth, une technologie adaptée
aux connexions de courte portée et à faible consommation d’énergie, notamment utilisée pour relier
des périphériques personnels. Enfin, le Wi-Fi s’est imposé comme la technologie dominante pour les
connexions sans fil dans les foyers, les entreprises et les espaces publics, en offrant un compromis
efficace entre portée, débit et facilité d’accès au réseau.
Routage
Le routage est le processus qui décide de l'affectation de ces ressources, en déterminant quel chemin
les données doivent suivre pour atteindre leur destination, même lorsqu'il y a plusieurs communications
simultanées sur le réseau.
Pour cela, différents types de commutations peuvent être employés, selon la nature du réseau ou de
l'application concernée : par exemple, une commutation par circuit est utilisée pour réserver un chemin
fixe pour toute la durée de la communication (comme dans la téléphonie traditionnelle), tandis qu'une
commutation par paquets permet de partager dynamiquement les ressources entre de nombreuses
communications.
Le terme circuit désigne ici l’ensemble des ressources momentanément mobilisées, c’est-à-dire un
ensemble de nœuds et de lignes qui assurent le transport des données d’un point à un autre.
- Commutation de circuit
Cette méthode garantit un flux continu et stable de données, ce qui est particulièrement adapté aux
besoins de la téléphonie classique où une communication vocale nécessite une transmission constante
sans coupure.
- Commutation de paquet
Avec la commutation de paquets, les données sont découpées en petits morceaux appelés paquets.
Chaque paquet est complété par des informations d'adressage (source, destination,..) et peut être
envoyé indépendamment des autres paquets, en
empruntant potentiellement des chemins
différents en fonction de l'état du réseau au
moment de son émission.
Modèle TCP/IP
- Architecture en couches
Les protocoles TCP/IP proposent une architecture dite "méta" pour permettre la communication entre
des réseaux hétérogènes, composés d'éléments très différents. L'objectif est de découpler les différents
problèmes complexes rencontrés lors de la transmission de données.
Pour cela, TCP/IP adopte une architecture en couches : chaque couche offre des services et des
protocoles à la couche située directement au-dessus d'elle. Lorsqu'une couche prépare des données à
envoyer, elle ajoute ses propres informations aux données, ce qui permet d'assurer ses services
spécifiques.
Un principe important de cette architecture est que les couches sont indépendantes. Cela signifie
qu'une couche sait uniquement comment communiquer avec les couches immédiatement voisines, sans
avoir besoin de connaître les détails du fonctionnement interne des autres couches.
Chaque couche sait ce qu’elle doit recevoir des couches inférieures et sait comment transmettre les
informations aux couches supérieures. Cette indépendance permet également aux couches d’être
interchangeables au même niveau : par exemple, il est possible de remplacer une liaison Ethernet filaire
par une connexion Wi-Fi sans modifier les couches supérieures du protocole.
- Commutation de paquet
Dans le modèle TCP/IP, les données sont divisées en petites parties appelées paquets. Chaque couche
du modèle agit comme si elle communiquait directement avec son équivalent sur le récepteur. Par
exemple, lorsque l’on utilise un navigateur web pour télécharger un document HTML, il semble que le
navigateur "parle" directement à son homologue du côté serveur.
En réalité, les données suivent un parcours différent. D’abord, elles "descendent" à travers toutes les
couches successives de l’émetteur, en passant de la couche applicative vers les couches inférieures.
Protocole IP
- Adresses IP
L'Internet Protocol (IP) est un protocole essentiel qui permet d’identifier chaque nœud connecté à un
réseau via un numéro unique appelé adresse IP.
- IPv4 utilise 4 groupes de 1 octet en notation décimale séparés par des points (par
exemple, [Link]).
- IPv6 introduit pour répondre au besoin croissant d'adresses, utilise 8 groupes de 2
octets en notation hexadécimale séparés par des doubles points (par exemple,
[Link]).
La gestion des adresses IP est centralisée pour éviter les conflits, et ces adresses sont payantes.
IPv6 est devenu indispensable pour l’essor de l'internet des objets. Cependant, la transition de IPv4
vers IPv6 est lente, car elle nécessite de remplacer de nombreux équipements existants. Pour pallier la
pénurie d’adresses IPv4, le mécanisme de traduction d’adresses réseau (Network Address Translation,
ou NAT) est utilisé.
Le NAT permet à plusieurs appareils d'un même réseau local de partager une même adresse IP publique
vis-à-vis d’internet. Un équipement intelligent assure alors que chaque paquet de données est
correctement acheminé vers le bon destinataire.
- Principe
Dans le protocole IP, les paquets sont envoyés dans le réseau accompagnés de l'adresse de destination.
Théoriquement, tous les nœuds connectés peuvent recevoir ces données, ce qui pose une question de
sécurité.
Le routage est basé sur la commutation de paquets, c'est-à-dire que chaque paquet est traité
indépendamment. Pour limiter la quantité de paquets transitant dans le réseau, celui-ci est organisé en
sous-réseaux interconnectés par des routeurs. Enfin, chaque paquet peut emprunter un chemin différent
pour atteindre sa destination, en fonction de l'état du réseau.
- Caractéristiques
Deuxièmement, il n’y a pas de poignée de main : l’expéditeur n’effectue pas de vérification préalable
pour savoir si le récepteur est prêt ou même existe (comme c’est visible par exemple avec la commande
"ping").
Enfin, IP est un protocole non connecté : il n’y a pas d’établissement d'une connexion exclusive entre
l’émetteur et le récepteur avant l’échange de données.
- Routage
Le routage consiste à trouver un chemin pour chaque paquet afin de l’acheminer de l’émetteur vers le
récepteur. Plusieurs possibilités existent pour déterminer ce chemin. La première option est de calculer
le routage optimal au moment où la connexion est établie, ce qui correspond au principe de la
commutation de circuit.
Protocole TCP
Le Transmission Control Protocol (TCP) est conçu pour utiliser le protocole IP en ajoutant l’envoi de
paquets supplémentaires afin de gérer les connexions. L'idée est de fournir une connexion fiable avec
des services orientés qualité : établir une poignée de main pour demander une connexion, gérer un
numéro de séquence pour chaque paquet, contrôler un flux continu de données, et gérer les
paquets perdus grâce à un système d’acquittement.
Cependant, cette gestion implique l’envoi de beaucoup de paquets redondants, ce qui devient coûteux
en transmission de gros volumes de données (par exemple, en 2021, Les Américains auraient perdu
l'équivalent de 3,4 milliards d'heures)
Il existe une multitude d’applications en ligne (comme le courriel ou le Web) qui utilisent le protocole
TCP. Toutes ces applications envoient et reçoivent des paquets en partageant le même ordinateur. Pour
identifier à quel service appartient chaque paquet, TCP associe à chaque paquet un numéro de port.
Il existe 65 535 numéros de ports disponibles, leur attribution étant fixée par convention.
Parmi les exemples classiques : le port 22 est utilisé pour SSH (connexion sécurisée en ligne de
commande), le port 80 pour HTTP (serveur Web), et le port 143 pour IMAP (réception de courriel).
Architecture client/serveur
L'architecture client/serveur repose sur le principe qu’un serveur propose des services à des clients.
Les services sont accessibles aux clients, qui peuvent utiliser les données stockées sur le serveur ou
exécuter des applications disponibles sur celui-ci. La communication entre serveurs et clients se fait
généralement à travers un réseau en utilisant les protocoles TCP/IP.
À l’origine, les terminaux clients étaient très simples : ils se limitaient à un écran et un clavier, sans
véritable capacité de traitement. Aujourd’hui, les clients et les serveurs partagent à la fois des données
et des applications. Parmi les évolutions notables, on distingue plusieurs types de serveurs :
- Les serveurs de données, qui gèrent des bases de données (par exemple Oracle, MySQL)
ou des documents comme sur le Web.
- Les serveurs d’applications, qui proposent des composants d’une application complète,
par exemple SAP ou Google Documents.
- L’informatique dans les nuages (cloud computing) s’est imposée : de grands serveurs
centralisés (par exemple ceux de Google ou Facebook) proposent des services à des
millions d’utilisateurs. Ces utilisateurs accèdent aux services via des appareils souvent
peu puissants, comme les smartphones.
- Évolutions
D’abord, il y a une accélération des supports de transmission et de leur bande passante avec
l’émergence de nouvelles technologies comme les fibres optiques, la 5G et la future 6G. Ensuite, il y a
une amélioration des protocoles de communication et du système d’adressage, notamment avec
l’adoption de l’IPv6 pour répondre à la pénurie d’adresses IPv4.
On observe aussi une convergence croissante des infrastructures : aujourd'hui, tous les types de
supports physiques et tous les types de nœuds (appareils de connexion) peuvent transporter le
protocole TCP/IP. Cela a permis des offres combinées comme le triple play, où téléphonie, télévision et
internet sont fournis via un seul abonnement.
Enfin, pour l'avenir, l'objectif est d'utiliser l'intelligence artificielle (IA) pour améliorer le routage dans
les réseaux, en le rendant plus intelligent et plus efficace.
Conclusions
Les protocoles sont des ensembles de règles qui permettent aux nœuds d’un réseau de communiquer
entre eux. Pour transmettre des données d’un point à un autre, il est indispensable de disposer d’une
couche physique, chargée d’acheminer correctement les informations entre deux nœuds finaux.
Cours 7 : Réseaux II
DNS
Sur internet, lorsqu'un utilisateur veut accéder à un service ou à un site, il doit en réalité établir une
connexion vers une machine précise, identifiée par son adresse IP. Le problème avec le protocole
TCP/IP est que les adresses IP sont difficiles à mémoriser pour les humains, et qu’elles peuvent changer
au fil du temps, par exemple lorsqu’un serveur est remplacé ou déplacé. Modifier une adresse IP
nécessite également d'informer l'ensemble du réseau, ce qui serait très complexe à gérer manuellement.
Pour résoudre ce problème, on utilise un système appelé DNS (Domain Name System). Le rôle du DNS
est d’associer des noms de domaine, faciles à retenir (comme [Link]), à leurs adresses IP
correspondantes (par exemple [Link]). Grâce à cette correspondance, l’utilisateur peut
simplement taper un nom de site dans son navigateur, et le système DNS se charge de retrouver
l’adresse IP exacte à contacter.
Le DNS repose sur des serveurs spécialisés, appelés serveurs DNS, qui maintiennent des tables de
correspondance entre les noms de domaine et les adresses IP. Ces serveurs collaborent entre eux en
synchronisant régulièrement leurs données pour rester à jour.
- Noms
Les noms de domaine sur Internet suivent une structure conventionnelle du type : pré[Link].
Chaque partie de ce nom a une fonction particulière. Le préfixe indique souvent le type de service offert
(comme « www » pour le web). Le nom correspond généralement à l’entité qui a enregistré le domaine
(comme une entreprise ou une personne).
Enfin, le suffixe représente le domaine de premier niveau (ou TLD pour « Top-Level Domain »), qui
peut être soit un code pays (ccTLD pour CountryCode) comme « .fr » ou « .be », soit un domaine
générique indiquant une catégorie (comme « .com » pour les sites commerciaux ou « .org » pour les
organisations).Il faut cependant garder en tête que cette convention n’est pas une règle absolue.
Par exemple, un site utilisant le domaine « .org » peut très bien être une entreprise à but lucratif. Les
noms de domaine ne sont donc pas des indicateurs fiables du statut exact d’un site. De plus, ces noms
sont payants : il faut les enregistrer auprès d’un organisme agréé, et cet enregistrement est souvent
renouvelable annuellement.
Prenons un exemple concret : le site [Link]. Ici, « www » désigne un service web, «
klaus-schulze » est le nom enregistré (ici, le nom d’un artiste), et « .com » indique qu’il s’agit a priori d’un
site à vocation commerciale. Ce nom de domaine est en réalité une façade : en coulisses, il correspond
à une adresse IP (par exemple : [Link]), ce qui permet aux machines de communiquer. Il peut
même être redirigé vers un autre nom plus technique utilisé par le serveur, comme
[Link].
Web
Le World Wide Web, que l’on appelle plus simplement le Web, a vu le jour à la fin des années 1980 grâce
à Tim Berners-Lee. Son objectif était de créer un outil permettant de consulter et de partager des
documents de manière simple au sein de la communauté scientifique. Il a pour cela mis en place un
système basé sur l’hypertexte, une technologie qui permet de relier différentes sections d’un même
document ou de différents documents entre eux, grâce à des liens cliquables.
Ce système repose sur plusieurs briques technologiques essentielles. D’abord, le HTML (HyperText
Markup Language), qui est un langage de balisage utilisé pour structurer et formater les contenus d’une
page web. Ensuite, le protocole HTTP (HyperText Transfer Protocol), qui permet l’échange de données
entre un client (comme un navigateur) et un serveur. Enfin, le système d’URI (Uniform Resource
Identifier), qui fournit une manière standardisée d’identifier une ressource sur le réseau (comme une
page web ou une image).
En 1993, un tournant majeur s’est produit lorsque Marc Andreessen a développé le premier navigateur
web avec interface graphique : Mosaic. Ce navigateur a facilité l’accès au Web pour un public plus large.
Mosaic donnera naissance à Netscape, un navigateur pionnier, puis indirectement à Firefox, encore
utilisé aujourd’hui.
- Protocole HTTP
Le fonctionnement du Web repose sur une architecture client/serveur. Les serveurs Web sont des
machines capables de répondre à des requêtes envoyées par des clients, en utilisant le protocole HTTP.
Lorsqu'un client (par exemple, un navigateur comme Firefox ou Internet Explorer) formule une demande,
le serveur Web répond en fournissant les documents ou ressources correspondants. Un exemple
classique de serveur Web est Apache, un logiciel libre très répandu.
Le protocole HTTP (HyperText Transfer Protocol) est le langage utilisé pour structurer ces échanges.
Lorsqu’une requête est envoyée, elle commence par une commande simple (comme GET) suivie de
paramètres éventuels sur les lignes suivantes. Par exemple, demander la page d’accueil de l'ULB via HTTP
correspond à une commande indiquant "GET /" adressée à l’hôte "[Link]".
Enfin, pour renforcer la sécurité des échanges, le protocole HTTPS a été introduit. HTTPS est une version
sécurisée de HTTP, basée sur l’utilisation de techniques de chiffrement SSL/TLS. Cela garantit que les
données échangées entre le client et le serveur sont protégées contre toute interception ou
modification.
- URI
Pour pouvoir accéder à une ressource précise sur Internet (comme une page Web, un fichier, une
image...), il faut être capable de l’identifier de manière unique. C’est exactement le rôle de l’URI, ou
Uniform Resource Identifier : c’est une sorte d’adresse normalisée qui permet de localiser une ressource
sur le réseau.
Un URI suit une structure générale composée de plusieurs parties. On retrouve d'abord le protocole
utilisé (comme http, https, ou ftp), suivi du nom du serveur (comme [Link]), puis éventuellement d’une
requête indiquant une ressource spécifique (comme un fichier ou une recherche). Par exemple, l’URI
[Link] correspond à une page HTML sur le site de l’ULB.
La première partie de l’URI, jusqu’au nom de domaine ([Link] est généralement traitée du côté
du client : c’est lui qui sait à quel serveur s’adresser. La seconde partie, après le nom de domaine, est
gérée par le serveur : c’est lui qui comprend comment interpréter le chemin (/linux/ubuntu) ou les
paramètres de requête (#q=ulb+solbosch).
Grâce aux URI, chaque ressource sur Internet peut être pointée avec précision, ce qui est fondamental
pour la navigation Web, les échanges de données, et le bon fonctionnement du réseau en général.
- Application Web
Au début des années 2000, une évolution importante du Web a été rendue possible grâce à l’apparition
de la technologie Ajax. Cette innovation, rapidement adoptée par les navigateurs modernes, permet
de mettre à jour seulement une portion d'une page Web, sans devoir recharger la totalité de celle-ci à
chaque interaction. Cette technique repose en général sur l'échange de documents au format JSON, qui
est léger et facilement manipulable par les programmes.
L'utilisation d'Ajax présente plusieurs avantages majeurs : elle améliore considérablement l'expérience
utilisateur en évitant les rechargements systématiques et rend les sites Web beaucoup plus interactifs.
Grâce à cela, il est devenu possible de créer de véritables applications Web, offrant des services
complexes directement en ligne. Un exemple marquant est Google Docs, qui permet à plusieurs
utilisateurs de modifier un même document simultanément, en temps réel, depuis leur navigateur.
Les systèmes de gestion de contenu, ou CMS (Content Management System), sont des outils permettant
d’organiser et de publier facilement des documents sur Internet. Ils offrent une structure de processus
pour gérer l'information et favorisent la collaboration entre plusieurs utilisateurs.
Avec un CMS, les utilisateurs interagissent à travers un simple navigateur web et bénéficient d'un
système de gestion des droits d'accès pour déterminer qui peut publier ou modifier du contenu. Chaque
utilisateur peut également disposer d'un espace privé. Des modules complémentaires permettent
d'ajouter des fonctionnalités supplémentaires comme des mécanismes de workflow ou des agendas.
Parmi les solutions les plus connues figurent Joomla! et WordPress.
Une utilisation particulière des CMS est le développement de wikis, véritables encyclopédies
collaboratives en ligne. Les wikis regroupent les informations sous forme de notices reliées entre elles
par des hyperliens. Dans cet environnement, n'importe qui peut généralement modifier ou ajouter du
contenu, et toutes les modifications sont historisées. Des discussions entre utilisateurs permettent
d'affiner la rédaction, tandis qu’une évaluation par les pairs contribue à maintenir la qualité. Les wikis
peuvent être publics ou réservés à des projets privés.
Enfin, une autre forme d’utilisation des CMS est le blog. Il s'agit d'un journal en ligne, souvent rédigé
par une ou quelques personnes, avec des mises à jour régulières. Les blogs offrent une grande liberté
de ton et de contenu, et permettent de tisser des liens avec d’autres sources d’information. Les entrées
d’un blog apparaissent en ordre anti-chronologique, c’est-à-dire que les plus récentes sont affichées
en premier. Certains blogs connaissent une audience massive, comme le Huffington Post. Plus
largement, les blogs sont parfois considérés comme un nouveau moyen d’expression pour les
"journalistes citoyens", offrant une voix alternative aux médias traditionnels.
Cryptage
Le cryptage est une technique visant à modifier un contenu numérique (c’est-à-dire une série de bits)
afin d’empêcher toute personne non autorisée d’y accéder. Ce procédé se déroule en deux grandes
étapes :
Pour effectuer ces transformations, on utilise des opérations plus ou moins complexes reposant sur des
clés (appelées aussi "keys", souvent abrégées par la lettre "K"). Ces clés jouent un rôle essentiel, car elles
conditionnent à la fois la sécurité et la robustesse du processus.
Le recours au cryptage devient indispensable dans toutes les situations où des données sensibles sont
échangées sur des réseaux partagés, comme lors d’achats en ligne, d'opérations bancaires sur Internet
ou de communications confidentielles.
- Symétrique
Dans le cryptage symétrique, une seule et même clé secrète, appelée SeK (pour Secret Key), sert aussi
bien à crypter qu'à décrypter les données. Par exemple, Bob chiffre un message avec la clé secrète avant
Cependant, cette méthode présente plusieurs faiblesses. Tout d'abord, chaque participant doit posséder
la clé secrète, ce qui impose de la transmettre initialement d'une manière qui n'est pas toujours sécurisée.
Ensuite, chaque type de communication nécessite une clé distincte, ce qui complexifie la gestion des
clés. Enfin, le cryptage symétrique n’offre aucune garantie formelle sur l'identité de l’expéditeur ou du
destinataire, ce qui peut entraîner des risques d’usurpation d'identité.
Le cryptage asymétrique repose sur l’utilisation de deux clés distinctes mais liées mathématiquement
: une clé publique et une clé privée.
Chaque utilisateur possède une paire de clés : la clé publique peut être partagée librement, tandis que
la clé privée reste secrète et connue uniquement par son propriétaire. Lorsqu’un message est crypté
avec la clé publique d’un destinataire, seul ce dernier peut le décrypter en utilisant sa clé privée.
Par exemple, si Bob souhaite transmettre un message confidentiel à Alice, il commence par récupérer la
clé publique d’Alice, chiffre son message avec cette clé, puis envoie le résultat à Alice. Celle-ci, en
possession de sa clé privée correspondante, peut alors décrypter le contenu et accéder au message
d’origine.
En complément, une étape supplémentaire peut être introduite pour renforcer la sécurité : les deux
parties peuvent établir une clé de session temporaire, utilisée ensuite pour un cryptage symétrique plus
rapide. Cette clé de session est elle-même transmise de manière sécurisée à l’aide des clés asymétriques.
- Signature électronique
Lorsqu'une personne, par exemple Bob, souhaite envoyer un contenu uniquement à Alice tout en
permettant à celle-ci de vérifier que c’est bien lui qui en est l’expéditeur, un mécanisme de signature
électronique est utilisé.
Toute personne possédant la clé publique de Bob pourra vérifier que le contenu a bien été envoyé par
lui, car seule sa clé privée pouvait générer ce cryptage particulier. Le message, constitué du contenu ainsi
doublement chiffré, est alors transmis à Alice via le réseau.
À réception, Alice utilise d'abord sa clé privée pour déchiffrer la partie du contenu chiffrée avec sa clé
publique, ce qui rend le message lisible. Ensuite, pour s’assurer de l’authenticité de l’expéditeur, elle
utilise la clé publique de Bob afin de déchiffrer la signature. Cela lui permet de confirmer que le message
a bien été envoyé par Bob, car seule la clé privée de Bob pouvait produire cette signature valide. Grâce
- Hybride
Le chiffrement asymétrique, bien qu’efficace pour garantir la sécurité, est relativement coûteux en termes
de ressources informatiques. Pour contourner ce problème, une solution courante consiste à utiliser une
approche hybride, comme c’est le cas avec le protocole HTTPS.
Dans cette approche, on commence par utiliser un chiffrement asymétrique pour établir un lien de
confiance entre les deux parties. Ce chiffrement permet de vérifier l’identité des interlocuteurs et de
transmettre une clé de session unique de manière sécurisée. Cette clé de session n’est valable que pour
la durée de la communication.
Ensuite, une fois la clé partagée, on utilise un chiffrement symétrique (plus rapide et moins coûteux)
avec cette clé pour sécuriser l’échange de toutes les données de la session. Cela combine donc la sécurité
du chiffrement asymétrique et l’efficacité du chiffrement symétrique.
- Certificats
Blockchain
La blockchain est une technologie visant à stocker les transactions de manière transparente et
sécurisée, tout en évitant de passer par un acteur central. Le principe repose sur la création d’un
"livre ouvert", visible par tous, qui recense l’ensemble des transactions effectuées. Ce livre est protégé
grâce à des techniques de cryptographie, assurant ainsi son intégrité.
Concrètement, ce livre est constitué d’une série de blocs de données. Chaque participant (appelé
nœud) du réseau blockchain détient une copie complète de ce livre. Certains de ces nœuds, appelés
mineurs, jouent un rôle particulier : ils vérifient la validité des transactions et s’assurent de l’exactitude
des informations avant d’ajouter un nouveau bloc.
- Blocs
- Consensus
Pour qu’un bloc soit ajouté à la chaîne, les mineurs doivent se mettre d’accord : c’est le mécanisme de
consensus. Ils rassemblent les transactions et proposent un nouveau bloc. Si la majorité l’approuve, il
est ajouté à la chaîne, et chaque participant en conserve une copie à jour.
Pour réduire cette consommation, une alternative appelée preuve d’enjeu (proof of stake) a été mise en
place sur certaines blockchains. Ici, ce ne sont plus des calculs complexes qui désignent le validateur,
mais la possession de jetons (token) : plus un utilisateur en possède, plus il a de chances d’être choisi
pour valider un bloc. Cela rend le système beaucoup moins énergivore. Par exemple, Ethereum, qui
consommait 78 TWh par an, a réduit sa consommation de 99 % en adoptant cette méthode.
Cybersécurité
Internet, en tant que réseau interconnectant un grand nombre d’ordinateurs, transporte de plus en plus
de données sensibles. Ces données sont stockées sur des machines et envoyées via Internet, ce qui rend
leur protection cruciale. La cybersécurité vise ainsi à sécuriser plusieurs aspects :
En parallèle, les logiciels deviennent toujours plus complexes, ce qui augmente la probabilité d’introduire
des failles de sécurité.
- Infrastructures
Certaines menaces concernent les infrastructures physiques du réseau. Par exemple, un accès direct aux
câbles ou aux équipements réseau peut compromettre la confidentialité des données qui y transitent.
De plus, certains protocoles comme le BGP (Border Gateway Protocol) présentent des vulnérabilités,
notamment lorsqu’ils sont utilisés pour connecter les réseaux des grands opérateurs. Le vol d’adresses
IP est une autre forme d’attaque. Par ailleurs, le DNS (système qui permet de retrouver un serveur à
partir d’un nom de domaine) n’offre pas toujours de garantie sur l’identité des serveurs, surtout en cas
de faille dans la chaîne de certification.
- Failles de sécurité
Les failles de sécurité peuvent être involontaires ou volontaires. Les premières proviennent d’erreurs
ou de problèmes de configuration dans les logiciels. Les secondes, quant à elles, sont intentionnellement
intégrées.
Par exemple, des portes dérobées (backdoors) qui permettent de contourner les dispositifs de sécurité,
ou encore des bombes logiques qui déclenchent un comportement malveillant à un moment précis. Une
faille dite “zero day” correspond à une vulnérabilité encore inconnue de l’éditeur du logiciel, exploitée
dans des marchés parallèles.
- Logiciels malveillants
- les virus, qui s’attachent à des programmes légitimes et se diffusent avec eux.
- Les vers informatiques, eux, se propagent seuls via le réseau.
- Les chevaux de Troie sont des logiciels qui paraissent normaux mais qui transforment un
ordinateur en “machine zombie”, utilisable à distance pour des actions illicites.
- Le logiciel espion, lui, observe l’utilisateur à son insu, par exemple en enregistrant les
frappes de clavier ou en accédant à la caméra.
Tous ces programmes malveillants peuvent exécuter des actions très nuisibles, comme le chiffrement ou
l’effacement de données.
Enfin, les données non désirées comme les pourriels (ou “spams”) sont des courriels non sollicités
souvent à but publicitaire ou frauduleux. Leur fonctionnement est semblable aux publicités dans les
boîtes aux lettres physiques. Ces pourriels visent souvent des listes de diffusion et présentent de
nombreux inconvénients : coût collectif, perte de temps, saturation des réseaux ou blocage des serveurs
de messagerie. On estime qu’ils représentent plus de 90 % des courriels envoyés dans le monde.
Les attaques par déni de service (ou “denial of service”) consistent à saturer un serveur avec un nombre
massif de requêtes, souvent issues d’un réseau de machines zombies. Cela empêche le serveur de
répondre, ce qui peut avoir de lourdes conséquences économiques. Il est très difficile de se protéger
contre ce type d’attaque. Récemment, des objets connectés comme des réfrigérateurs ou télévisions ont
été utilisés pour lancer ce genre d’attaques. Le problème est que n’importe qui peut se procurer des
outils pour infecter des millions de machines et les coordonner à distance.
- Filoutage
Enfin, le phishing ou filoutage est une technique de fraude qui vise à tromper un internaute en
l’envoyant vers un faux site ressemblant à un site légitime, dans le but de lui soutirer des informations
confidentielles, comme ses identifiants bancaires. Les méthodes utilisées incluent l’envoi de pourriels
frauduleux imitant des messages officiels (ex : “votre compte est bloqué, cliquez ici”), ou l’usage
d’adresses web ressemblant à celles de vrais sites (par exemple, "[Link]" au lieu de "[Link]").
Conclusions
Le modèle TCP/IP, qui structure le fonctionnement d’internet, repose sur une organisation en couches
et fait appel à une variété de protocoles. Parmi ces protocoles, certains sont essentiels pour les fonctions
de base du réseau, comme IP pour le routage local et TCP pour garantir la qualité et la fiabilité des
échanges de données. En complément, une multitude de protocoles applicatifs sont utilisés pour des
services plus complexes, tels que le DNS pour la résolution de noms de domaine, les services Web, la
blockchain, ou encore le courrier électronique.
Parmi ces protocoles applicatifs, le Web s’impose aujourd’hui comme le plus populaire. Il repose
principalement sur le protocole HTTP pour l’échange de documents, le langage HTML pour le
formatage des pages web, et les URI pour l’identification des ressources en ligne. Cette combinaison
permet aux utilisateurs d’accéder facilement à une vaste quantité d’informations.
Cours 8 : Logiciels
Lorsqu’un programme rencontre des erreurs lors de son exécution, on parle de bogue (ou bug). Ces
erreurs peuvent être dues, par exemple, à un accès à une zone mémoire inexistante, une division par
zéro, ou encore une boucle infinie. Pour corriger ces bogues ou ajouter de nouvelles fonctionnalités, on
applique ce qu’on appelle un patch : il s’agit d’un changement apporté au code source, qui peut
consister en un ajout, une suppression ou une modification de lignes de code. Les patches servent aussi
à faciliter le travail collaboratif en permettant à plusieurs développeurs de modifier le logiciel en
parallèle.
Enfin, on distingue plusieurs types d’acteurs dans le domaine de la sécurité informatique. Certains sont
des hackers, c’est-à-dire des personnes souvent très compétentes en développement, qui mettent en
lumière des failles de sécurité et proposent des solutions (comme le fait, par exemple, le Chaos Computer
Club). À ne pas confondre avec les pirates informatiques, qui utilisent des technologies pour nuire :
leur but peut être de voler des données (cybercriminalité), d’espionner ou de saboter (cyberguerre). Les
objectifs de ces pirates varient : ils peuvent chercher à obtenir des informations confidentielles, à détruire
des systèmes, à contourner les mécanismes de sécurité juste pour le défi, ou encore à manipuler les
comportements des utilisateurs en ligne.
Algorithme
- Spécifications
- Complexité
- Implantation
Une fois l’algorithme défini, il faut passer à son implantation, c’est-à-dire sa traduction dans un langage
de programmation pour qu’il soit exécutable par un ordinateur. Une bonne implantation est efficace
(rapide, économe en mémoire, etc.) et scalable (elle s’adapte à des volumes de données croissants).
Parfois, il faut simplifier l’algorithme théorique pour le rendre implémentable.
- Typologie
- Quelques problèmes
Programmation
- Logiciels
Un logiciel est un ensemble de données structurées d’une certaine manière, accompagné d’instructions
permettant de manipuler ces données. Ces instructions incluent par exemple des algorithmes et des
opérations d’entrée/sortie.
En pratique, un logiciel est presque toujours structuré en modules, c’est-à-dire en briques logiques. Ces
modules peuvent suivre une architecture en couches, où les modules de base sont utilisés par des
modules plus complexes.
Chaque module regroupe logiquement des fonctionnalités, comme des fonctions ou des objets, et est
conçu de manière à rester indépendant de l’implantation technique précise. Un module peut aussi être
partagé par plusieurs logiciels : on parle alors de librairie, comme par exemple dans Python avec la
commande « import ».
- Interfaces
Le logiciel interagit avec son environnement grâce à des interfaces. On distingue principalement deux
types d’interfaces. L’interface utilisateur (UI) regroupe les conventions relatives à l’interaction avec les
utilisateurs humains : affichage, saisie de données, messages…
Elle peut être très simple (par exemple, afficher quelques informations) ou plus interactive. En parallèle,
un logiciel peut aussi disposer d’une interface de programmation, ou API, qui permet à d’autres
logiciels d’interagir avec lui. L’API définit alors des règles pour le format des données, les droits d’accès,
etc.
Concernant les interfaces utilisateur, on en distingue deux grandes catégories. D’une part, les interfaces
en ligne de commande, appelées aussi CLI (Command Line Interface), reposent sur l’interaction via le
clavier, sans éléments graphiques. Elles sont légères et puissantes, mais demandent une certaine
expertise. D’autre part, les interfaces graphiques représentent les applications sous forme de fenêtres
interactives. Elles sont plus faciles, mais plus lourdes à exécuter.
- Architecture
L’architecture d’un logiciel regroupe toutes ses spécifications techniques : les fonctionnalités offertes,
l’organisation modulaire, les interfaces disponibles et les langages utilisés. C’est un aspect essentiel du
développement, qui doit impérativement être documenté.
Des conventions de documentation sont d’ailleurs associées à cette architecture. Une mauvaise
architecture peut entraîner de nombreux problèmes : multiplication des bogues, failles de sécurité, ou
même nécessité de réécrire tout ou partie du logiciel, ce qui est coûteux.
- Logiciels propriétaires
Le développement d’un logiciel peut suivre deux grands modèles. Le premier est le logiciel propriétaire.
Dans ce cas, une organisation développe le code source en interne, le compile, le teste, et distribue
seulement la version exécutable aux utilisateurs (souvent contre paiement). Ces derniers n’ont donc pas
accès au code source.
Le second modèle est celui des logiciels libres ou open source. Les utilisateurs et les développeurs
peuvent accéder au code source. Ce dernier est distribué sous une licence garantissant son accessibilité.
Cela permet par exemple de l’adapter à différents matériels, de corriger des erreurs, d’ajouter de
nouvelles fonctionnalités ou encore de vérifier son fonctionnement.
L’open source donne généralement des droits d’utilisation limités (par exemple à des fins
technologiques), tandis que les logiciels libres vont plus loin en offrant une liberté totale (modification,
redistribution, etc.), comme c’est le cas des licences GNU GPL ou GNU LGPL.
Process de production
Comme tout produit, un logiciel nécessite un processus de production structuré. Il existe plusieurs
modèles pour gérer ce processus, dont les deux principaux sont le modèle en cascade et le modèle
itératif. Quel que soit le modèle choisi, certaines étapes sont toujours présentes : identifier les besoins,
définir l’architecture, développer le logiciel, le tester (par les développeurs et les utilisateurs), puis le
distribuer.
- Modèle en cascade
Le modèle en cascade (ou "waterfall") est un modèle historique hérité des grands projets d’ingénierie
des années 1970. Il repose sur une organisation linéaire : les activités sont découpées en étapes
successives et dépendantes (exigences, analyse, conception, mise en œuvre, validation, mise en service).
- Modèle itératif
Un exemple connu de modèle itératif est l’eXtreme Programming (XP), une approche inspirée de la
culture hacker. Elle consiste à diviser le projet en modules indépendants, chacun avec un niveau de
priorité, à suivre des conventions de codage strictes, à ajouter de nouvelles fonctionnalités de manière
réfléchie, à planifier des tests continus et à effectuer des mises à jour fréquentes.
Le code source est continuellement réorganisé (refactoring) et optimisé. Les méthodes Agile, comme
Scrum, s’inspirent de cette approche tout en y ajoutant des cadres plus formels.
- Collaboration
Dans le contexte des logiciels libres et open source, la collaboration prend des formes spécifiques. Eric
Raymond a comparé deux modèles dans son texte célèbre The Cathedral and the Bazaar. Les logiciels
propriétaires sont conçus comme des cathédrales : développement planifié, réalisé par des employés
rémunérés.
En revanche, les logiciels libres ressemblent davantage à un bazar : les développeurs y participent
souvent bénévolement et choisissent les tâches selon leur intérêt. Malgré ce manque de hiérarchie
stricte, beaucoup de ces logiciels sont de meilleure qualité.
Cette efficacité s’explique par plusieurs avantages. Tout le monde peut examiner le code source,
proposer des améliorations, et corriger des erreurs. Les programmeurs sont motivés par la
reconnaissance de leurs pairs. De nombreux utilisateurs testent les logiciels en continu. Par exemple,
plus de 300 personnes contribuent au noyau Linux, qui contient environ 4,5 millions de lignes de code,
et le système GNU/Linux avec KDE est estimé à une valeur de 200 millions d’euros.
Enfin, plusieurs modèles de collaboration existent. Dans le modèle communautaire, des coordinateurs
assurent la gestion du projet, des développeurs principaux ("core developers") prennent en charge
l’essentiel du code, et les utilisateurs peuvent proposer des correctifs ou participer aux discussions. À
l’opposé, le modèle en cave implique un petit nombre de développeurs (souvent une seule personne)
travaillant de manière isolée. De nombreux petits logiciels libres suivent ce modèle.
OS
Un système d’exploitation (OS) est un logiciel essentiel qui remplit plusieurs fonctions fondamentales.
Il prend en charge la gestion d’un ordinateur, assure l’interface entre la machine et les applications, et
fournit une abstraction d’un ensemble de fonctions proposées par une classe d’ordinateurs.
- Rôle
Trois grandes fonctions caractérisent un OS. D’abord, il présente une interface unifiée pour les services
de base. Ensuite, il gère les ressources matérielles (processeur, RAM, périphériques), ce qui implique le
partage des ressources entre plusieurs applications et utilisateurs, l’organisation des tâches à exécuter,
ainsi que la gestion des fichiers.
Enfin, il propose une interface aux clients, qu’ils soient utilisateurs humains ou programmes, en
adaptant l’interface aux besoins spécifiques. Il agit alors comme une machine abstraite facilitant la
gestion et la communication.
L’OS assure également la transparence. Il propose des commandes pour gérer les fichiers (comme
copier, ouvrir, exécuter), interagir avec les périphériques (impression, enregistrement, clavier, modem,
internet), et permet l’exécution simultanée de plusieurs tâches.
Il gère les demandes des utilisateurs, propose des mécanismes de protection et de communication, et
fournit des informations utiles aux utilisateurs privilégiés pour optimiser le système.
En tant que “maître de l’ordinateur”, l’OS se charge en premier (via le BIOS), reste en arrière-plan et gère
de manière optimale les ressources en fonction du contexte (comme les systèmes multi-utilisateurs). Il
contrôle l’accès à des ressources rares (comme la mémoire ou la connexion réseau).
Il existe une diversité d’OS, avec de nombreuses familles comme UNIX (Linux, BSD, Android), Windows,
macOS ou iOS. Cette diversité mène à des batailles stratégiques (par exemple Windows vs Linux ou
Android vs iOS).
- Types
Historiquement, les OS sont classés selon quatre types : utilisateur unique et tâche unique (ex. MS-
DOS), utilisateur unique et tâches multiples (ex. iOS), utilisateurs multiples et tâches multiples (ex. Linux),
et systèmes distribués. Les OS fonctionnent en mode “event-driven” (réactifs à des interruptions), et
interviennent uniquement lorsqu’une action ou un événement l’exige (ex. touche clavier, lecture
terminée). L’OS contrôle souvent l’ordinateur pour simuler l’exécution parallèle de plusieurs
programmes.
Un même OS peut fonctionner sur différentes plates-formes informatiques. Pour cela, il utilise un
langage de haut niveau (souvent C ou C++) pour l’essentiel de son code, et délègue à des pilotes
(“drivers”) la communication avec les périphériques.
L’un des avantages est de pouvoir recompiler une application pour l’exécuter sur plusieurs systèmes.
Les OS les plus courants pour les “ordinateurs” sont Windows pour les PC, et Linux/UNIX pour les
serveurs ou appareils mobiles.
- Noyau
Enfin, un OS moderne fonctionne généralement en deux modes. Le mode noyau (“kernel”) centralise les
fonctions fondamentales, s’exécute en mémoire protégée avec une priorité élevée, et permet d’éviter
les blocages en cas de panne d’une application. Le mode utilisateur est destiné aux applications
classiques et aux pilotes, propose différents niveaux de priorité, et empêche les applications d’accéder
aux données critiques de l’OS.
- Processus
Un processus est un programme en cours d’exécution. Dans un système d’exploitation moderne, il est
nécessaire de gérer plusieurs processus en parallèle afin de mieux exploiter le processeur. En effet, un
programme qui attend une action de l’utilisateur (comme une saisie clavier ou un clic) ou d’un
périphérique (comme la fin d’une impression) ne fait rien pendant ce temps, ce qui gaspille les
ressources. Pour éviter cela, l’OS (Operating System) exécute plusieurs processus en mode multitâche,
c’est-à-dire qu’il alterne très rapidement entre eux, donnant l’illusion qu’ils s’exécutent tous en même
temps.
Pour chaque processus, l’OS maintient un bloc descripteur, une structure de données contenant toutes
les informations nécessaires à sa gestion : un identifiant unique, son état actuel (prêt, en cours
d’exécution, bloqué…), son contexte d’exécution (registres, adresses mémoire, fichiers ouverts, etc.), son
niveau de priorité, ses permissions, le propriétaire (généralement l’utilisateur qui l’a lancé), ainsi qu’une
éventuelle liste de processus enfants qu’il a créés (processus qu’il déclenche).
L’OS doit gérer la commutation entre processus. Cela consiste à interrompre le processus en cours, à
sauvegarder son contexte, à sélectionner un autre processus à exécuter à l’aide d’un algorithme (comme
« round robin »), puis à charger son contexte pour qu’il reprenne là où il s’était arrêté. Dans le cas du
multitâche préemptif, le système interrompt automatiquement les processus grâce à une horloge
(interruption périodique) pour reprendre le contrôle, par exemple lorsqu’un processus attend une
ressource.
Chaque processus reçoit un quantum de temps, généralement autour de 100 millisecondes, pour
s’exécuter avant que l’OS passe au suivant. La durée de ce quantum peut varier selon le contexte : un
processus prioritaire ou qui attend peu les périphériques peut recevoir plus de temps, tandis qu’un
processus très dépendant d’entrées/sorties peut en recevoir moins, car il libère souvent la main à l’OS.
Un processus passe par différents états au cours de son cycle de vie. Lorsqu’il est créé, il est « prêt ».
Lorsqu’il est sélectionné, il devient « en exécution ». S’il attend une ressource, il passe à l’état « bloqué
». Quand la ressource est disponible ou que son quantum de temps est terminé, il revient à l’état « prêt
».
Pour améliorer l’efficacité, on peut utiliser des threads, ou « mini-processus », qui partagent certaines
ressources (comme la mémoire) avec les autres threads du même processus, tout en ayant leur propre
contexte d’exécution. Le principal avantage des threads est la rapidité de leur commutation, ce qui les
rend très utiles dans les programmes réactifs (event-driven), où différents threads réagissent à différents
événements (clics, messages, etc.).
Enfin, un des problèmes classiques dans la gestion des processus est le problème d’interblocage
(deadlock). Cela se produit lorsqu’un processus P1 détient une ressource M1 et attend une ressource M2
détenue par un autre processus P2, qui lui-même attend M1. Aucun des deux ne peut continuer, car
chacun dépend de l’autre.
Plusieurs solutions existent : éviter l’interblocage grâce à une planification préalable, le prévenir par
des techniques de programmation, ou le corriger en forçant l’arrêt de l’un des processus concernés.
- Mémoire
- Pilotes et contrôleurs
Pour ce qui est des périphériques d’entrée/sortie (I/O), leur accès est géré par deux éléments : les
pilotes, qui sont des logiciels rattachés au noyau et chargés de transmettre les commandes, et les
contrôleurs, circuits électroniques qui assurent la gestion matérielle (ex. : une carte SCSI). Le dialogue
entre l’OS et les périphériques passe par un système d’interruptions.
Quand plusieurs demandes d’accès surviennent simultanément, l’OS doit décider à quel moment les
traiter, en s’appuyant sur des algorithmes prenant en compte l’ordre, la priorité ou d'autres critères.
- Fichiers
Concernant les fichiers, ceux-ci sont stockés sur des périphériques (comme disques ou clés USB) et
organisés en répertoires. Chaque fichier est accessible par son nom et son chemin. Le type du fichier est
souvent identifiable via une extension (comme .txt, .jpg), bien que ce ne soit pas une obligation.
L’OS joue plusieurs rôles dans la gestion des fichiers : il propose une convention de nommage, organise
logiquement et physiquement leur stockage, et permet des opérations comme lire, copier ou effacer.
Chaque système d’exploitation utilise un système de fichiers spécifique. Par exemple, Windows utilise
NTFS (pour les disques) et FAT32 (pour les supports amovibles).
macOS utilise HFS+ qui permet la recherche par métadonnées. Linux, quant à lui, propose la famille ext
(ext2, ext3, ext4), ainsi que d’autres systèmes comme XFS, JFS ou ReiserFS.
- Appareils mobiles
Enfin, les appareils mobiles comme les smartphones, tablettes ou objets connectés utilisent aussi un
système d’exploitation, bien que leurs capacités soient souvent plus limitées. Ces systèmes (comme
Android, iOS ou Windows Mobile (F)) sont adaptés aux besoins spécifiques de ces appareils, souvent
mono-utilisateur et parfois mono-tâche. Pour les objets connectés, on retrouve majoritairement des
systèmes basés sur Linux. Ces appareils s’insèrent dans un écosystème applicatif organisé via des
plateformes comme les “App Stores”.
Conclusions
Au cœur des logiciels se trouvent plusieurs éléments fondamentaux. D’abord, les algorithmes
permettent de traiter les données de manière logique et efficace. Ensuite, des interfaces assurent
l’échange de données entre différents composants ou utilisateurs. Les logiciels sont implantés à l’aide
d’un ou plusieurs langages de programmation. Leur production repose sur des modèles de
développement, parmi lesquels les modèles itératifs (comme l’eXtreme Programming ou Scrum) tendent
à devenir la norme, remplaçant les anciens modèles en cascade.
Le système d’exploitation (OS) joue un rôle central dans le fonctionnement de tout ordinateur. Il est
responsable de la gestion des ressources matérielles telles que le processeur, la mémoire, et les
périphériques. Il fournit une interface unifiée qui permet aux applications et aux utilisateurs d’interagir
avec la machine. L’OS prend en charge la gestion des processus et des threads, répartissant
équitablement le temps de calcul et la mémoire entre les différents programmes en cours d’exécution.
L’OS gère aussi les communications avec les périphériques d’entrée/sortie (I/O) via des pilotes et
contrôleurs. Il supervise l'accès aux fichiers stockés sur disque, en organisant ces derniers selon des
conventions (nom, chemin, extension) et des systèmes de fichiers spécifiques selon le type d’OS (NTFS,
ext4, etc.).
Enfin, l’OS réside dans une zone protégée de la mémoire appelée noyau. Ce noyau contrôle les
fonctions critiques en toute sécurité. C’est grâce à lui que le système peut garantir la stabilité et la
sécurité, même lorsqu’une application se bloque.
Plus concrètement, un SI permet de collecter, stocker, traiter et diffuser des données, dans le but de les
transformer en informations compréhensibles et exploitables, que ce soit par des humains ou par
d’autres systèmes logiciels.
- Le sous-système social regroupe toutes les fonctions que l’informatique remplit dans
l’organisation : bureautique, gestion des stocks, outils de communication, etc. Il concerne
directement les pratiques des utilisateurs.
- Le sous-système technique, quant à lui, concerne l’architecture technologique utilisée :
plateformes logicielles, structuration des données, choix d’outils, etc.
En théorie, la mise en place d’un système d'information devrait s’appuyer sur une démarche rationnelle:
l’organisation identifie ses besoins, formalise un cahier des charges, puis le département informatique
met en œuvre une solution adaptée, éventuellement avec l’aide de prestataires externes.
En réalité, ce processus est souvent biaisé. Le département informatique impose ses propres choix
technologiques, parfois pour des raisons de facilité ou d’opportunité commerciale. Il agit comme un
“état dans l’état”, sans réelle concertation avec les utilisateurs finaux. Ces derniers sont trop souvent
exclus du développement des outils qu’ils devront utiliser, ce qui engendre une résistance au
changement et compromet l’efficacité des solutions mises en place.
Au-delà de cette distinction, il existe différents niveaux d’intégration. Les applications monolithes
regroupent toutes les fonctions dans un seul bloc logiciel, mais sont rigides.
- Les architectures en couches, plus souples, séparent les fonctions : la base de données, la
logique métier et l’interface utilisateur sont isolées ;
- Les organisations peuvent également utiliser des systèmes intégrés orientés métiers (comme
les CRM ou ERP spécialisés) ;
- Des systèmes intégrés à l’échelle de l’entreprise, qui couvrent plusieurs fonctions en même
temps.
Ces logiciels peuvent être développés en interne, achetés à l’extérieur, ou être un mélange des deux.
Aujourd’hui, l’essentiel des interactions avec un SI passe par des interfaces web ou des applications
mobiles. Les modèles de données qui sous-tendent ces systèmes permettent de représenter
numériquement les activités, les ressources et les processus d’une organisation.
Cela montre que l’informatique est devenue un levier stratégique majeur, indispensable à la
performance et à la compétitivité des entreprises modernes.
Fonctions
Dans les organisations modernes, une attention croissante est portée au capital immatériel, c’est-à-
dire aux ressources non matérielles mais stratégiques comme la documentation, les compétences des
employés, les connaissances accumulées et partagées, ou encore les droits de propriété intellectuelle
comme les brevets.
Ce capital est essentiel car il soutient la performance collective, favorise l’innovation, et renforce
l’avantage concurrentiel. L’informatisation facilite sa valorisation en permettant son stockage, sa
diffusion, sa protection et son exploitation.
- Infrastructures informatiques
Le phénomène du BYOD (« Bring your own device »), où les employés utilisent leurs appareils personnels
pour le travail, soulève d’ailleurs de nouveaux défis en matière de sécurité et de gouvernance.
- Processus organisationnels
Ce changement contribue à faire émerger ce que l’on appelle une économie informationnelle : une
économie fondée sur les réseaux, dans laquelle la flexibilité des organisations dépend de leur capacité
à occuper des positions centrales et interconnectées (par exemple, une filiale située en périphérie
pourra plus facilement être fermée si elle est isolée).
La numérisation des processus passe par la standardisation des flux de travail, leur formalisation dans
des logiciels, et la centralisation des données qui permet de mesurer et de piloter les performances. Elle
s’accompagne de l’intégration d’objets intelligents (comme dans l’industrie 4.0) et de la mise en
réseau avec d’autres organisations pour automatiser les interactions (par exemple les commandes entre
entreprises).
Cette dynamique, que McAfee qualifie d’“informatique d’entreprise”, entraîne aussi une
bureaucratisation croissante dans les grandes structures, avec une multiplication des procédures et
des contrôles formels.
La gestion des connaissances est un enjeu central. Elle vise à structurer et numériser les savoirs pour
les rendre partageables et exploitables. Elle doit aussi encourager la créativité au sein de l’organisation,
tant que celle-ci reste alignée avec ses objectifs.
Enfin, elle cherche à favoriser la transversalité, c’est-à-dire les collaborations entre services, même si
les jeux de pouvoir peuvent parfois freiner cette dynamique.
Les logiciels jouent un rôle fondamental dans la gestion de ces processus. Les bases de données
centralisent et structurent l’information, les outils de gestion documentaire facilitent l’accès et
l’organisation des contenus, et les outils métiers répondent à des besoins spécifiques.
Ces outils peuvent être regroupés dans un système ERP (Enterprise Resource Planning), qui intègre
différents modules métiers dans une plateforme unique. Aujourd’hui, la plupart des organisations
utilisent une combinaison d’un ERP et de quelques logiciels spécialisés pour répondre à leurs besoins.
L’une des fonctions clés des systèmes d’information concerne l’exécution des tâches au sein de
l’organisation. L’automatisation de certaines tâches discrètes, souvent répétitives, est désormais
possible, parfois même en partie ou totalement.
Cela concerne :
Cette automatisation progressive, que McAfee appelle “informatique fonctionnelle”, s’appuie de plus en
plus sur les avancées en intelligence artificielle et en robotique.
- Organisation du travail
En parallèle, l’organisation du travail évolue fortement sous l’effet des technologies de l’information. Ces
technologies abolissent certaines contraintes de temps et d’espace, facilitant la communication (par
courriels, forums, visioconférences) et renforçant la collaboration via des outils partagés (wikis,
intranets, plateformes de gestion de projets, etc.).
Le travail devient aussi plus flexible. Cela se traduit par une plus grande mobilité (télétravail, espaces de
coworking), des horaires adaptés, ou encore des méthodes agiles qui favorisent l’auto-organisation
autour de projets. Ces évolutions imposent aussi de repenser l’évaluation du travail, en dépassant la
simple présence physique au bureau pour juger de la performance réelle, ce qui pose de nouveaux
défis (biais d’évaluation, différences culturelles, etc.).
Dans cette dynamique émerge le concept de New Way of Working (NWOW), qui repose sur trois
piliers:
- La flexibilité spatio-temporelle,
- Un management plus participatif,
- Une organisation du travail centrée sur la collaboration.
Pour accompagner ces transformations, il faut faire évoluer la culture organisationnelle. Cela implique
de privilégier la transversalité plutôt qu’une hiérarchie rigide, de rendre les processus numériques
exécutables sans intervention humaine constante, et de documenter systématiquement l’information
pour qu’elle soit accessible à tous.
Cependant, un écart persiste souvent entre les discours managériaux et la réalité du terrain, où les
pratiques tardent à s’adapter aux ambitions annoncées.
- Questions stratégiques
Enfin, l’intégration du numérique soulève aussi des questions stratégiques majeures. Quelles
compétences faut-il développer pour intégrer la technologie dans les produits ? Doit-on construire ces
compétences en interne ou les externaliser ? La maîtrise de l’informatique peut-elle être une source de
différenciation concurrentielle ? Et comment encadrer l’explosion des objets connectés dans l’entreprise
comme dans la société ? Ces enjeux exigent une réflexion à la fois technique, organisationnelle et
éthique.
L’organisation n’est pas isolée : elle échange constamment des données avec l’extérieur. Cela inclut des
activités de communication (marketing, publicité, gestion de crise), mais aussi des flux de données
liés aux marchandises elles-mêmes.
Par exemple, un produit peut envoyer ou recevoir des données, c’est le cas des mises à jour logicielles,
des systèmes embarqués dans les véhicules, ou des objets connectés. On collecte également des
données techniques sur les équipements ou des données comportementales sur les utilisateurs.
Ces échanges concernent aussi les partenaires de l’organisation, comme les fournisseurs ou les
franchisés. Ils nécessitent donc des systèmes d’information interopérables, sécurisés et bien régulés.
- Exemples
Une décision stratégique est alors prise : développer le premier moteur quatre cylindres
de l’histoire de la marque. Grâce à cette réactivité et à l’usage intensif de l’outil numérique,
la nouvelle moto est opérationnelle dès octobre. En 2003, les résultats sont remarquables
: Ducati se classe deuxième chez les constructeurs et place deux pilotes dans le top 6 du
championnat.
Les bénéfices sont nets : baisse de 16 % des ruptures de stock, réduction par trois du délai
de réapprovisionnement, chute importante des coûts de stockage et
d’approvisionnement. La centralisation des décisions permet d’éviter des excès dus à des
ajustements locaux mal coordonnés.
- Un autre cas exemplaire est celui de Chrysler. Le constructeur automobile a mis en place
un extranet appelé SPIN (Supplier Partner Information Network), qui donne accès à plus
de 3500 fournisseurs à des informations clés : changements de spécifications, état des
stocks, facturation, etc. Les fournisseurs peuvent alors réapprovisionner les usines
automatiquement.
En parallèle, lorsque les stocks bloquent une tâche sur la chaîne de production, le système
réaffecte les ouvriers vers d’autres activités. Ce pilotage intelligent des ressources a permis
à Chrysler d’améliorer l’efficacité de certains processus de 25 à 50 %.
- Enfin, Greenpeace illustre comment les systèmes d’information peuvent aussi servir à
coordonner l’action collective. L’ONG a développé une plateforme numérique pour
organiser les actions des volontaires.
Applications monolithes
Dans les années 1970, les systèmes d'information étaient majoritairement constitués d'applications dites
« monolithes », c’est-à-dire des programmes autonomes et cloisonnés, chacun dédié à une fonction
précise comme la comptabilité ou la gestion des ventes.
Ces applications étaient généralement conçues pour un département spécifique, avec une forte
intégration entre les données et les programmes, tous deux hébergés sur un même système centralisé,
souvent un serveur de type mainframe. Les utilisateurs accédaient à ces ressources via des terminaux
simples, qui ne faisaient qu’afficher l’interface et transmettre les commandes. L’échange de données
entre applications, lorsque nécessaire, s’effectuait via des mécanismes d’import-export automatisés,
mais restait limité et rigide.
données sont structurées dans une base relationnelle composée de tables interconnectées (clients,
produits, commandes, etc.).
- Comptabilité
Les fonctions permettent de créer ou modifier les clients, enregistrer des factures, des paiements, des
écritures comptables, ou encore gérer les comptes bancaires.
- Problèmes
L’ensemble de ces fonctions est encapsulé dans des programmes, qui accèdent aux données selon les
besoins des traitements. Ce modèle, bien que performant à l’époque, présente des limites importantes.
Bien qu’ils manipulent parfois des données similaires (comme les clients) celles-ci sont dupliquées, ce
qui multiplie les risques d’incohérence.
Ce cloisonnement crée une forte interdépendance entre les programmes et les données, ce qui rend la
maintenance difficile : toute modification peut entraîner des effets inattendus ailleurs.
En outre, la taille des applications croît de manière exponentielle au fil du temps et des
développements, rendant leur évolution complexe.
Lorsqu’une même donnée comme les informations sur un client est présente dans plusieurs systèmes,
deux choix se présentent : soit elle est dupliquée, auquel cas des divergences peuvent apparaître ; soit
elle ne l’est pas, et il faut alors mettre en place des échanges automatisés (import/export), ce qui ajoute
de la complexité et introduit souvent des délais ou des incohérences temporaires.
Architecture en couches
- Architecture 3-tiers
Chaque composant est hébergé sur une machine distincte, ce qui facilite la gestion, la réutilisation et
l’évolution de chaque partie.
Les bénéfices sont nombreux. La maintenance est simplifiée car les données restent centralisées et sont
utilisées par plusieurs logiciels, dans une relation plus structurée et flexible. La même logique
applicative peut alimenter différentes interfaces, adaptées aux besoins de divers utilisateurs.
Par exemple, dans le secteur bancaire, les employés utilisent une interface Windows, les clients accèdent
à des services de type self-service ou web banking, et les fournisseurs interagissent via des systèmes e-
business comme l’EDI (Échange de Données Informatisé).
- Systèmes intégrés
Depuis les années 1990, les organisations ont commencé à adopter des systèmes intégrés
standardisés, adaptés à leurs besoins spécifiques. Un exemple connu est le logiciel SAP. Ces systèmes
intégrés permettent de gérer différentes fonctions de l’entreprise au sein de modules spécialisés.
Par exemple, les systèmes ERP (Enterprise Resource Planning) s’occupent des opérations et de la
comptabilité, les systèmes HRM (Human Resource Management) prennent en charge la gestion des
ressources humaines, et les systèmes CRM (Customer Relationship Management) sont dédiés à la
gestion de la relation client.
Pour résoudre cela, une nouvelle approche est mise en place : Enterprise
Application Integration (EAI). Elle vise à remplacer l’architecture
spaghetti par une solution plus propre et modulaire. L’idée est d’utiliser
une abstraction des données (data abstraction), c’est-à-dire d’établir
des correspondances explicites entre les données des différents
systèmes.
- Interfaces Web
Pour cela, ils reposent sur des serveurs d’application dédiés, qui exécutent la logique du site et
construisent dynamiquement les pages Web, souvent avec une mise en forme flexible grâce au CSS. Ces
serveurs interagissent avec les systèmes d’information pour accéder aux données nécessaires.
- SOA
Avec l’évolution des systèmes d’information et des applications Web, les entreprises cherchent à mieux
intégrer leurs différentes applications. Pour cela, elles adoptent des architectures orientées services
(SOA), qui consistent à mutualiser les fonctions principales (comme créer un compte client ou facturer
une carte de crédit) sous forme de services accessibles à plusieurs applications. Cette approche permet
de raccourcir les délais de développement et facilite l’implantation de nouveaux processus.
Dans une architecture SOA, les systèmes ne sont plus centrés autour des fonctions ou des données, mais
autour de services. On utilise de plus en plus des web services via des protocoles standards comme
HTTP, avec des échanges de données au format JSON.
Externalisation
Face à la complexité croissante de la gestion des systèmes, une tendance actuelle est l’externalisation
de l’infrastructure et/ou des systèmes intégrés. Les entreprises souscrivent à des services contractuels
appelés SLA (Service Level Agreement).
Des exemples de prestataires sont : Amazon Web Services (AWS), Microsoft Office 365, Google Apps,
Dropbox, Salesforce, etc.
- Types
- Infrastructure as a Service (IaaS) : fournit uniquement des machines (ex : machine virtuelle
à louer).
- Platform as a Service (PaaS) : fournit une plateforme logicielle prête à l’emploi (ex :
hébergement WordPress).
- Software as a Service (SaaS) : fournit des logiciels directement utilisables (ex : messagerie
Outlook en ligne).
- Principales limites
Conclusion
L’informatique joue un rôle clé dans les organisations modernes. Elle permet de numériser les activités
via des données (qui modélisent les ressources) et des logiciels (qui exécutent les processus métiers).
Les architectures multi-couches sont privilégiées pour séparer les problèmes et réutiliser les ressources
efficacement.
Les projets d’analyse de données s’appuient sur l’utilisation (et parfois la construction) de modèles qui
peuvent être simples ou complexes pour explorer les données sous trois grandes dimensions :
descriptive, prédictive et prescriptive.
- La dimension descriptive vise à comprendre le passé. Elle consiste à analyser les données
pour en extraire les caractéristiques générales et en faire un portrait fidèle.
- La dimension prédictive se concentre sur l’anticipation de ce qui pourrait arriver. Elle
permet par exemple d’estimer une valeur inconnue comme une appartenance à un groupe,
une évolution attendue (augmentation/diminution), ou encore de tirer des inférences à
partir des données observées.
- Enfin, la dimension prescriptive propose des options de décision en s’appuyant à la fois
sur les analyses descriptives et prédictives. Elle aide donc à faire des choix éclairés.
- Méthodologie CRISP-DM
Pour structurer un projet d’analyse de données, on suit souvent la méthodologie CRISP-DM (Cross
Industry Standard Process for Data Mining). Ce processus standardisé est composé de plusieurs étapes
itératives :
Ce processus n’est pas linéaire : il suit une logique itérative. On peut revenir à des étapes précédentes
pour ajuster ou améliorer l’analyse, car les besoins évoluent ou parce que de nouveaux éléments
apparaissent. C’est un processus réflexif.
Un autre aspect fondamental de l’analyse de données concerne la typologie des données, c’est-à-dire
leur classification. On distingue d’abord les données qualitatives, aussi appelées catégorielles, qui
décrivent des qualités ou des attributs (comme une couleur, une catégorie, une étiquette). Par exemple
: "rouge", "étudiant", "bon", "5 étoiles". Elles peuvent être purement descriptives ou associées à une
valeur symbolique ou numérique.
En revanche, les données quantitatives correspondent à des grandeurs mesurables. Elles peuvent être
exprimées par des nombres, comme le prix, la taille, la température, ou encore l’âge. On les subdivise
ensuite en deux sous-types : les données discrètes, qui prennent un nombre fini de valeurs (par exemple,
le nombre d’enfants dans une famille), et les données continues, qui peuvent théoriquement prendre
une infinité de valeurs (par exemple, la taille d’une personne mesurée avec précision).
Cette distinction est cruciale, car le type de données conditionne les méthodes d’analyse et les modèles
à utiliser. Une mauvaise classification peut entraîner des erreurs d’interprétation, voire invalider une
analyse entière.
Planification
La planification constitue la première étape clé d’un projet d’analyse de données. Elle ne consiste pas
simplement à organiser les étapes futures, mais à poser les bases conceptuelles et pratiques du projet.
Cette phase vise à aligner les analyses sur les objectifs stratégiques de l’organisation, en clarifiant ce que
l’on cherche à savoir, comment on va le découvrir, et avec quelles données.
Planifier, c’est d’abord comprendre. Il faut analyser les besoins informationnels en lien avec les finalités
stratégiques : que cherche-t-on à résoudre ou à améliorer ? Cela suppose aussi d’identifier les données
pertinentes et de savoir où les trouver. Une fois les données repérées, il faut déterminer quels
traitements préalables elles nécessitent (nettoyage, normalisation, etc.) et quels types de modèles
seraient les plus adaptés pour répondre au problème posé.
- Objectifs
Chaque organisation doit clarifier ses objectifs stratégiques avant de lancer l’analyse. Cela peut passer
par une étude structurelle de ses secteurs d’activité, afin d’identifier les besoins prioritaires en
information. L’enjeu est ensuite de cibler les bonnes données à analyser.
Analyser toutes les données est souvent irréaliste (temps, budget), mais un ciblage trop restreint peut
priver l’analyse d’éléments essentiels. Il faut donc trouver un juste milieu et hiérarchiser les informations
selon leur utilité et leur impact.
- Axes d’analyse
Un objectif stratégique peut nécessiter plusieurs axes d’analyse, c’est-à-dire plusieurs angles de vue et
types d’informations provenant de sources différentes.
Chaque axe devient un mini-projet en soi : il faut déterminer les données à collecter, les traitements à
appliquer (prétraitement, analyse, visualisation), et le mode de présentation des résultats (graphiques,
rapports, interfaces interactives, etc.).
- Sources
- Sources primaires : les données n’existent pas encore sous forme numérique, il faut les
produire via des entretiens, questionnaires, focus groupes ou observations.
- Sources secondaires : les données sont déjà disponibles, soit sous forme ciblée (données
choisies avec soin comme les mesures cliniques d’un patient), soit sous forme massive (big
data), où l’on collecte tout ce qui est accessible (comme le font Google, Amazon ou Netflix).
Dans tous les cas, il est essentiel d’évaluer la qualité des sources en analysant leur couverture
(représentativité), leur coût, leur niveau de structuration, et leur pertinence.
Lorsque les données exactes sont absentes ou difficiles à obtenir, on peut recourir à des données proxy
: ce sont des indicateurs indirects qui permettent d’approcher la réalité recherchée. Par exemple, on
peut étudier les climats anciens à partir des bulles d’air emprisonnées dans des carottes de glace, ou
estimer la solvabilité d’un client à partir de ses revenus.
Toutefois, ces données indirectes reposent toujours sur des hypothèses, et leur mauvaise utilisation peut
produire des erreurs majeures. Un exemple de mauvaise pratique serait d’évaluer la capacité de
remboursement d’un individu uniquement à partir de son profil LinkedIn, ce qui est manifestement peu
fiable.
Prétraitement
Avant de pouvoir exploiter des données à l’aide d’algorithmes ou de modèles statistiques, il faut passer
par une étape souvent invisible, mais pourtant essentielle : le prétraitement. Cette phase, chronophage
et rigoureuse, peut représenter jusqu’à 80 % du temps total d’un projet d’analyse. Pourquoi ? Parce que
les données issues du terrain ne sont quasiment jamais prêtes à l’emploi.
Les données collectées présentent fréquemment des défauts : elles sont incomplètes, mal structurées,
hétérogènes, voire incohérentes. Elles peuvent varier en qualité sur plusieurs aspects : exactitude,
précision, niveau de détail, taux de couverture, etc.
L’objectif du prétraitement est donc d’améliorer ces données pour qu’elles deviennent exploitables par
les outils d’analyse. Ce travail consiste à rendre les données « propres », fiables, et adaptées aux objectifs
du projet.
- Étapes
Le prétraitement ne suit pas forcément un ordre strict, mais on peut identifier plusieurs grandes étapes
:
1. Explorer les données disponibles : identifier leur format, leur structure, leur origine.
2. Agir sur les données : les transformer, les compléter, les nettoyer.
3. Vérifier leur qualité finale : s’assurer qu’elles sont prêtes pour les analyses.
Cette phase nécessite une collaboration étroite entre les experts métiers (qui comprennent le sens et
les besoins liés aux données) et les spécialistes informatiques (qui maîtrisent les traitements
techniques). Ce travail en binôme permet de faire des allers-retours constructifs pour ajuster les
données à mesure.
Avant toute action, il est crucial d’avoir une vision claire des données existantes. Cela implique de
consulter les bases de données (et leurs schémas), de privilégier les documents bien structurés, et de
comprendre comment les données actuelles se relient aux données nécessaires pour répondre aux
objectifs.
Des analyses statistiques préliminaires permettent de mieux cerner la forme des données (ex. tailles
de champs, taux de valeurs manquantes). On identifie aussi les sources, les croisements possibles et les
liens logiques entre les données.
- Principales actions
- Supprimer les données non pertinentes ou absurdes (ex. un client avec un achat
incohérent).
- Inférer les données manquantes à l’aide d’hypothèses raisonnées.
- Éliminer les doublons, qui peuvent fausser les résultats.
- Structurer ou déstructurer certaines données pour uniformiser le niveau de détail (ex. un
coût total versus un détail par composante).
- Changer le type de données pour harmoniser les formats (ex. convertir une température
“7” en “froid”).
- Normalisation : mettre les données sur une échelle commune, souvent entre 0 et 1, pour
les rendre comparables.
- Transposition : convertir des unités différentes (pieds ↔ mètres, 1$ en 1918 ¹ 1$ en 2024)
pour permettre une agrégation cohérente.
- Validation : comparer les données entre sources pour vérifier leur fiabilité.
- Sécurisation
Lorsqu’on manipule des informations personnelles ou sensibles, une politique de sécurité est
indispensable, et parfois même imposée par la loi. Deux approches principales sont utilisées :
- Reduction de dimensionnalité
Enfin, il peut être nécessaire de réduire la dimensionnalité des données, c’est-à-dire de diminuer le
nombre de variables utilisées, sans sacrifier l’information. Cela permet de gagner en performance (moins
de calculs, moins de mémoire) et en lisibilité. On mobilise alors des outils statistiques comme :
- L’analyse fréquentielle,
- Les mesures de centralité (moyenne, médiane),
- La dispersion (écart-type),
- Les régressions,
- Ou encore des techniques plus avancées comme l’analyse factorielle.
Modélisation
- Modèles
Dans un projet d’analyse de données, la modélisation joue un rôle fondamental. Elle consiste à
construire une représentation mathématique ou algorithmique d’un phénomène réel. L’objectif est
de simplifier ce phénomène pour pouvoir en dégager des régularités, faire des prévisions ou proposer
des solutions.
- Hyperparamètres, qui définissent la forme générale du modèle (par exemple, choisir une
courbe de Gauss pour modéliser la distribution d’une population).
- Paramètres, qui quantifient cette forme (par exemple, la moyenne et l’écart-type de la
courbe).
Mais attention : tout modèle reste une simplification. Il est approximatif parce que la réalité est
complexe, et subjectif car conçu par des humains avec leurs propres choix, limites ou biais.
Dans tous les cas, un équilibre est à trouver entre la complexité du modèle et la difficulté du
problème : un modèle trop simple ne sera pas efficace, tandis qu’un modèle trop complexe peut être
difficile à entraîner ou à interpréter.
- Approche ad-hoc
Dans certains contextes, on adopte une approche sur mesure selon la nature des données. Deux
exemples illustratifs :
1. Analyse textuelle : on décompose les textes en tokens (unités de langage comme des mots
ou des signes). On peut ensuite faire :
- Une analyse lexicographique (fréquence des mots, corrélations entre eux) ;
- Une analyse sémantique (identifier la fonction grammaticale ou le type de discours
comme “critique” ou “louange”).
2. Analyse de graphes : utile quand les données sont interconnectées (ex. : réseaux sociaux,
articles scientifiques liés par citations).
- Les nœuds représentent les entités (ex. personnes,
documents).
- Les arcs représentent les relations (ex. amitié,
citation).
- On peut calculer des métriques globales (comme la
centralité) ou locales (comme la distance entre
nœuds).
Dans certains cas, les volumes de données sont si grands qu’on entre dans le domaine de
l’apprentissage profond (deep learning), utilisé notamment pour la reconnaissance d’images, la
détection de fraudes ou les assistants intelligents comme les modèles de langage (LLM).
Évaluation
Une fois qu’un modèle est construit, il ne suffit pas de constater qu’il fonctionne bien sur les données
d’entraînement. L’évaluation vise à déterminer dans quelle mesure le modèle est capable de
généraliser, c’est-à-dire de faire de bonnes prédictions sur des données nouvelles, jamais vues
auparavant. Cette étape est donc essentielle pour juger de la robustesse du modèle.
- Objectifs
1. Mesurer ses performances sur des données inédites, pour estimer de manière fiable et
précise ce qu’on peut attendre de lui en situation réelle.
2. Évaluer la variabilité de ses performances : un bon modèle doit non seulement être
performant, mais aussi stable. Cela signifie que ses résultats ne doivent pas trop fluctuer
d’un jeu de données à l’autre. Si un modèle est excellent sur un échantillon mais médiocre
sur un autre, sa fiabilité est douteuse.
Il est donc recommandé de retourner dans les données brutes pour analyser en profondeur d’où
viennent les éventuelles erreurs et s’assurer de la cohérence globale du processus.
- Fonction de cout
L’évaluation passe par la définition d’une fonction de coût, c’est-à-dire un indicateur qu’on cherche à
minimiser (ou parfois maximiser). Cette fonction mesure les erreurs ou les inefficacités du modèle :
Par exemple, en classification, on peut chercher à minimiser le nombre de faux positifs (diagnostic
erroné d’une maladie inexistante) et de faux négatifs (absence de diagnostic d’une maladie réelle).
Dans d’autres cas, il peut s’agir d’optimiser une ressource (réduire les coûts, augmenter la satisfaction
client, etc.).
- Elles prennent en compte plusieurs erreurs avec des poids différents (ex. : un faux négatif
coûte plus cher qu’un faux positif).
- Elles doivent arbitrer entre plusieurs critères qui peuvent être contradictoires (ex. : qualité
vs coût).
Des solutions comme la combinaison linéaire de critères ou les classements multi-objectifs sont alors
utilisées.
- Scores et seuils
Les modèles, notamment ceux de classification, ne produisent pas toujours directement une décision
(oui/non), mais souvent un score, généralement une probabilité. Il faut alors définir un ou plusieurs
seuils à partir desquels le score est transformé en décision. Le choix de ces seuils influence fortement
les résultats :
L’optimisation des seuils fait donc partie intégrante de l’évaluation. Il s’agit de trouver le meilleur
compromis en fonction des enjeux (ex. : un modèle médical privilégiera souvent la prudence).
- Apprentissage automatique
L’une des méthodes les plus répandues pour évaluer un modèle est la validation croisée :
Cette méthode permet de s’assurer que le modèle fonctionne bien quelle que soit la partie des
données utilisée pour l’entraînement. Elle évite les biais liés à un jeu d’entraînement trop spécifique.
- Multiples modèles
- Des modèles de nature différente (ex. : forêts aléatoires, SVM, réseaux de neurones),
- Ou bien des variantes du même modèle avec des hyperparamètres différents.
Il faut donc rechercher un équilibre entre performance et complexité, en fonction du contexte, des
moyens disponibles, et des exigences du problème à résoudre.
Déploiement
Une fois le modèle construit, testé et validé, vient l’étape de son déploiement, c’est-à-dire son
intégration dans un environnement réel, dans le but de produire des résultats concrets. Cependant, cette
phase ne doit jamais être considérée comme un aboutissement automatique et sans risque. Les résultats
d’un modèle doivent toujours être manipulés avec précaution.
- Dangers
Lorsqu’un modèle est mis en production, plusieurs biais peuvent affecter l’interprétation ou l’utilisation
de ses résultats :
- Utiliser des données indirectes ou proxy peut induire des erreurs de jugement (par
exemple, estimer la qualité d’un article scientifique à partir du nombre de fois où il a été cité,
ce qui ne reflète pas toujours sa valeur réelle).
- Le bruit dans les données peut induire des corrélations trompeuses (exemple classique :
l’augmentation des ventes de glaces en été pourrait faussement être liée à une hausse des
noyades).
- Des erreurs d’interprétation peuvent survenir, notamment dans des contextes économiques
ou sociaux où les données sont anciennes ou ambigües.
Un autre risque réside dans ce qu’on appelle la réification : les utilisateurs s’approprient les résultats du
modèle comme s’ils étaient des vérités absolues. Ils finissent par perdre de vue leur construction
humaine et leur nature interprétative.
À force de les utiliser pour simplifier ou automatiser des décisions, on peut perdre le sens initial de
l’information (par exemple, évaluer des enseignants uniquement sur des scores chiffrés sans tenir
compte de la complexité de leur travail).
- Défis
- Ils doivent comprendre les données sur lesquelles repose le modèle, et les hypothèses qu’il
intègre.
- Il est tout aussi important qu’ils sachent interpréter correctement les résultats (par exemple,
ne pas confondre une probabilité avec une certitude).
En parallèle, il est nécessaire de développer un esprit critique chez les utilisateurs, pour qu’ils
interrogent les sorties du modèle et ne les prennent pas pour des vérités intouchables.
Pour renforcer cette vigilance, certaines organisations mettent en place des procédures qualité, c’est-
à-dire des règles formelles pour s’assurer que les modèles sont utilisés de manière appropriée et
conforme aux objectifs.
Enfin, des institutions ou entreprises avancées sur ces sujets créent même des comités éthiques
indépendants. Leur mission est de surveiller l’usage des modèles, en particulier lorsque ceux-ci peuvent
avoir des conséquences importantes sur des individus ou des groupes (ex. : sélection de candidats, accès
à des droits, etc.).
Conclusions
Nous vivons dans une ère où l’usage généralisé de l’informatique génère des volumes croissants de
données numériques. À chaque instant, les organisations (entreprises, administrations, institutions, etc.)
sont confrontées à une multitude de questions auxquelles elles cherchent à répondre de manière
éclairée. C’est dans ce contexte que l’analyse de données s’impose comme un outil essentiel.
L’enjeu de l’analyse de données est de tirer parti de ces masses d’informations numériques pour
construire des modèles qui aident à comprendre le passé, anticiper l’avenir et guider les prises de
décision. Cela implique bien plus qu’une simple collecte de données : il s’agit de mettre en œuvre une
méthodologie rigoureuse, structurée, et adaptée à chaque situation.
Cependant, se lancer dans un projet d’analyse de données représente un investissement réel. Il faut
mobiliser des compétences spécialisées, parfois faire appel à des développements informatiques
pointus, et disposer d’infrastructures technologiques adéquates. C’est donc un processus exigeant,
qui doit être planifié sérieusement.
Enfin, comme tout outil puissant, l’analyse de données comporte à la fois des bénéfices et des risques.
Pour qu’elle serve véritablement les objectifs des organisations, celles-ci doivent apprendre à maîtriser
ses avantages, tout en restant lucides sur les dangers qu’elle peut engendrer (biais, mauvaise
interprétation, perte de sens, etc.). La clé du succès réside dans une approche équilibrée, éthique et
critique.
L’intelligence artificielle, souvent abrégée IA, est une branche de l’informatique qui cherche à reproduire
certaines fonctions cognitives humaines à l’aide de programmes informatiques. Elle est née
officiellement en 1956, marquant le début d’une discipline ambitieuse visant à doter les machines d’un
comportement intelligent.
Dans ses premières années, l’IA a connu quelques succès grâce au traitement symbolique (une approche
qui utilise des règles explicites pour manipuler des symboles) et aux réseaux de neurones artificiels
(RNA), inspirés du fonctionnement du cerveau humain.
Mais ce chemin n’a pas été linéaire. Dès la fin des années 1970, une première période de désillusion a
freiné les espoirs initiaux, suivie dans les années 1990 par une seconde crise, en raison de limites
techniques et d’attentes trop élevées.
Néanmoins, certains développements comme les systèmes experts dans les années 1980 ont permis de
réaliser des applications concrètes, notamment en médecine ou en logistique. Ce n’est qu’à partir de la
fin des années 1990 que l’IA a connu un regain d’intérêt, en grande partie grâce à l’amélioration des
algorithmes d’apprentissage dans les réseaux de neurones.
Depuis les années 2000, plusieurs facteurs ont radicalement transformé le paysage de l’IA : d’un côté,
l’explosion des volumes de données disponibles (les « mégadonnées »), et de l’autre, l’augmentation
phénoménale de la puissance de calcul des ordinateurs.
Cette double dynamique a permis des avancées spectaculaires dans des domaines aussi variés que les
jeux de stratégie (comme AlphaGo), la traduction automatique, ou encore la reconnaissance faciale et
visuelle. L’un des tournants majeurs récents a été l’émergence des transformeurs, une architecture
d’apprentissage profonde qui a donné naissance à des modèles très puissants comme ChatGPT-3.5
lancé en novembre 2022.
- Mégadonnées
Les mégadonnées, ou big data, désignent ces masses immenses d’informations générées en continu
par les applications mobiles, les objets connectés, les réseaux sociaux, etc. Leur exploitation est rendue
possible par l’augmentation du nombre d’utilisateurs, des équipements connectés et des capacités de
stockage. Ces données sont précieuses car elles permettent aux systèmes d’IA d’apprendre à partir
d’exemples variés et nombreux, rendant les prédictions ou classifications bien plus efficaces.
- Outils
Pour tirer parti de ces données et développer des systèmes d’IA performants, les chercheurs et
ingénieurs utilisent aujourd’hui des outils très puissants. Le langage Python s’est imposé comme la
référence dans ce domaine, grâce à sa simplicité et aux nombreuses bibliothèques spécialisées comme
NumPy, SciPy, PyTorch (Facebook) ou TensorFlow (Google). Ces outils facilitent aussi bien les calculs
scientifiques que l’implémentation de réseaux de neurones complexes.
Parallèlement, le matériel informatique a aussi évolué pour répondre aux besoins très exigeants des
applications d’IA. Les cartes graphiques (GPU), initialement conçues pour les jeux vidéo, sont
aujourd’hui incontournables pour l’apprentissage profond grâce à leur capacité à effectuer rapidement
des calculs matriciels. D’autres composants spécialisés comme les FPGA (circuits programmables), les
ASIC (circuits intégrés conçus pour une tâche précise), ou encore les processeurs neuromorphiques
(imitant le cerveau humain) sont également utilisés.
- Méthodes et approches
Enfin, il faut distinguer deux grandes approches dans le domaine de l’IA. L’IA faible vise à créer des
systèmes capables de simuler certaines tâches humaines sans comprendre réellement ce qu’ils font, par
exemple, trier des emails ou recommander des films.
L’IA forte, en revanche, ambitionne de reproduire une véritable intelligence comparable à celle de
l’homme, y compris la capacité de réfléchir, d’apprendre, ou même d’avoir une conscience.
Au fil des décennies, l’IA a ainsi développé de nombreuses méthodes : traitement symbolique, réseaux
de neurones, algorithmes évolutifs, et bien d’autres. Mais aujourd’hui, c’est l’apprentissage statistique
qui domine, notamment à travers les réseaux de neurones profonds. Grâce à ces outils, l’intelligence
artificielle est passée du rêve à la réalité, et elle s’intègre peu à peu dans tous les secteurs de notre
société.
Applications
L’intelligence artificielle (IA) n’est pas qu’un domaine théorique : elle a aujourd’hui des applications
concrètes dans de nombreux secteurs de la vie quotidienne et professionnelle. On peut classer ces
applications en trois grandes catégories : la catégorisation, la détection et la prédiction.
- Catégorisation
La catégorisation consiste à classer des données dans des groupes prédéfinis. Ces catégories sont
généralement établies a priori, c’est-à-dire en amont de l’analyse. L’IA est capable d’associer
automatiquement de nouveaux éléments à ces catégories grâce à des modèles entraînés.
Un exemple courant est la catégorisation de documents : un système peut, par exemple, classer
automatiquement des emails, des rapports ou des articles scientifiques selon leur thème ou leur auteur.
De même, dans les entreprises, l’IA peut identifier les experts internes en analysant les documents qu’ils
produisent.
L’IA est également utilisée pour la reconnaissance de motifs, c’est-à-dire pour repérer des formes ou
des structures particulières dans les données :
- Détection
Une autre fonction puissante de l’IA est sa capacité à détecter des anomalies ou des événements
inhabituels. Cela repose sur la comparaison entre ce qui est observé et ce qui est attendu, sur base de
schémas appris.
- Prédiction
La troisième grande application de l’IA est la prédiction, c’est-à-dire l’anticipation d’événements futurs
à partir de données passées et présentes. Cette fonction est particulièrement précieuse pour la prise de
décision.
Les applications prédictives sont également cruciales dans deux domaines sensibles :
En santé :
En sécurité :
- Prédire les lieux et moments où les crimes sont susceptibles de survenir pour
renforcer la présence policière.
- Identifier des réseaux criminels ou terroristes à partir de l’analyse de données
comportementales et relationnelles.
Technique
- Apprentissage statistique
Cette approche repose sur l’apprentissage statistique. Le principe est simple mais puissant : on fournit
à l’ordinateur un grand nombre d’exemples (appelés échantillons) illustrant un problème donné (par
exemple, des milliers d’images de chats et de chiens). L’algorithme explore ensuite les corrélations entre
les caractéristiques de ces exemples et leur étiquette (chat ou chien). Il en résulte un modèle
mathématique capable de généraliser ces observations et de prédire la catégorie d’un nouvel exemple
qu’il n’a jamais vu.
- RNA
Inspirés du cerveau humain, les réseaux de neurones sont une structure d’algorithmes organisés en
couches :
L’apprentissage consiste à ajuster les poids de ces connexions entre neurones. Si le résultat produit est
correct, on renforce les connexions responsables ; s’il est faux, on les affaiblit. Ce processus est répété
sur de nombreux exemples jusqu’à ce que le modèle converge vers un comportement stable et
performant.
Aujourd’hui, ces réseaux peuvent comporter des milliers de neurones par couche, et parfois des
centaines de couches intermédiaires, notamment dans le cas du deep learning (apprentissage
profond). Certaines couches peuvent aussi transformer les données de manière abstraite : par exemple,
simplifier une image en la réduisant à une version plus « compacte » mais toujours pertinente pour la
tâche.
- Transformeurs
Les transformeurs représentent une autre avancée majeure. Ils sont particulièrement efficaces pour le
traitement des données séquentielles comme les textes, mais aussi les images ou les sons divisés en
petits éléments appelés tokens.
Le principe est de prédire le prochain token à partir d’une séquence précédente de tokens (appelée
fenêtre). Cette fenêtre glisse au fur et à mesure, chaque nouvelle prédiction étant ajoutée à la chaîne,
remplaçant le token le plus ancien. On commence généralement avec une entrée initiale fournie par
l’utilisateur (appelée prompt), et on génère la suite, un token à la fois.
Ce fonctionnement itératif permet de créer du texte mot par mot (comme le fait ChatGPT), de générer
une image pixel par pixel ou même de produire des vidéos à partir d’une image initiale. Les
transformeurs sont devenus la technologie dominante dans les IA génératives modernes, comme les
modèles de langage (LLM), les générateurs d’image ou de musique.
- Illustrations
Prenons un exemple simplifié : on commence avec un texte initial appelé prompt, ici, la phrase « Le loup
et le petit ». Le modèle ajoute ensuite un mot à la fois, en prédisant la suite la plus probable, comme s’il
complétait une phrase dans notre tête. Il propose alors :
- « chap »,
- puis « chaperon »,
- ensuite « rouge », et ainsi de suite, jusqu’à
obtenir la phrase complète : « Le loup et le
petit chaperon rouge. »
Ce processus s’appuie sur la recherche statistique du mot ou symbole le plus probable à ajouter à chaque
étape. C’est ce qu’on appelle un fonctionnement itératif, où chaque nouvelle prédiction est influencée
par la séquence précédente, et la fenêtre d’analyse glisse au fur et à mesure.
Le modèle repère les motifs dans les données d’apprentissage : il observe que chaque fois qu’il voit «
98 13 », le nombre suivant est souvent « 15 ». Il ajoute donc « 15 », puis ajuste la fenêtre pour continuer
la prédiction, exactement comme il le ferait pour compléter une phrase.
- Mécanisme de l’attention
Un élément clé des transformeurs est le mécanisme d’attention. Contrairement à d’anciens modèles
qui ne regardaient que les derniers éléments de la séquence, les transformeurs peuvent prendre en
compte des éléments lointains dans la phrase ou même le paragraphe.
« La mouette rieuse attend pendant que Gaston regarde le bol d’eau qu’elle a vidé. »
Le modèle comprend que le mot « elle » fait référence à « la mouette rieuse », même si plusieurs mots
les séparent. Cela est possible parce qu’il calcule des corrélations à différentes distances lexicales, puis
les combine intelligemment pour produire du texte fluide et cohérent.
1. La forme linguistique est maîtrisée car les modèles ont été formés sur des corpus immenses,
ce qui garantit une bonne grammaire, syntaxe et orthographe.
2. Le fond du contenu est cohérent dans la mesure où le prompt de l’utilisateur est bien
représenté dans les données d’entraînement. Si le sujet a été fréquemment rencontré dans les
textes appris par le modèle, la réponse a de fortes chances d’être pertinente.
Ainsi, les LLM excellent dans la production de contenus cohérents tant qu’ils restent dans des
domaines bien représentés dans leur base de connaissances.
Limites
Les modèles mathématiques utilisés en intelligence artificielle ne sont que des représentations
simplifiées de la réalité. Ils fonctionnent comme des approximations, parfois grossières, des
phénomènes complexes qu’ils tentent de simuler.
Un exemple souvent évoqué est celui du « modèle de l’acteur rationnel » : ce modèle suppose que
l’humain agit toujours de manière logique et optimisée. Pourtant, dans les faits, nos décisions sont
influencées par des émotions, des contextes sociaux, ou encore des comportements altruistes. Cela rend
la modélisation humaine imparfaite.
D’autre part, l’approche traditionnelle en science consistait à formuler des hypothèses a priori, puis à les
valider ou non à partir de données collectées. L’intelligence artificielle, surtout à l’ère du Big Data,
propose parfois l’inverse : laisser émerger les tendances des données, sans poser d’hypothèse au
départ. Un exemple emblématique en est la tentative de Google (en 2009) de détecter les épidémies de
grippe uniquement à partir de requêtes web.
Cette approche, bien qu’efficace en apparence, reste fondée sur une hypothèse implicite : celle que les
comportements en ligne reflètent réellement les épidémies sur le terrain. Or, cette hypothèse, même
non formulée, influence les résultats, ce qui montre que les biais sont souvent intégrés en amont, parfois
inconsciemment.
Même les systèmes d’IA les plus sophistiqués ne comprennent pas ce qu’ils traitent. C’est ce qu’on
appelle la cécité sémantique (selon Daniel Andler). Ces modèles n’ont pas de bon sens, pas de
compréhension du contexte ou du monde réel (ce que la philosophie appelle l’« Umwelt », le monde
vécu par un être).
Ils utilisent des raccourcis statistiques, ce qu’on appelle en anglais le shortcut learning : ils apprennent
à repérer les corrélations les plus fréquentes, même si ces dernières sont parfois sans pertinence réelle.
Cela entraîne des conséquences très concrètes. Les modèles peuvent produire des réponses erronées,
incomplètes ou absurdes. Par exemple, des modèles peuvent confondre la main d’une personne avec
un objet s’il a appris des exemples biaisés, ou générer des images de personnes avec six doigts. Dans
les systèmes de recrutement, certains modèles ont appris à favoriser certains profils uniquement en
raison de biais présents dans les données d’entraînement (comme le genre d’un nom de candidat).
Les performances des systèmes d’IA dépendent fortement des données qu’ils consomment. Or, tous les
phénomènes humains ne sont pas facilement quantifiables. Par exemple, donner une note à une
expérience émotionnelle ou artistique est sujet à beaucoup de subjectivité. L’IA repose sur une méta-
hypothèse : accumuler une immense quantité de données permettrait de compenser ces biais subjectifs
et de dégager une évaluation « moyenne » plus fiable.
- La répartition des données est souvent déséquilibrée (80 % des avis ne concernent que 20 % des
produits).
- L’espace de stockage limite la capacité à conserver toutes les données utiles ; seules certaines
dimensions sont retenues.
- On utilise parfois des données proxy, c’est-à-dire des variables indirectes (par exemple, juger la
solvabilité d’une personne via son réseau LinkedIn).
Par ailleurs, les corpus publics utilisés pour entraîner les modèles comportent souvent des biais sociaux,
culturels ou géographiques, qui se retrouvent ensuite dans les résultats. De plus, certains acteurs
peuvent volontairement manipuler les données pour fausser les résultats (comme injecter de fausses
critiques en ligne ou manipuler les métriques de performance).
- Améliorations difficiles
Corriger une erreur dans un modèle déjà entraîné est extrêmement compliqué. Si une mauvaise
information est profondément intégrée, il n’est pas possible de la retirer sans réentraîner le modèle avec
un nouveau corpus. Pour améliorer les résultats, les chercheurs ont tendance à augmenter la taille des
modèles (par exemple, ChatGPT-4 contient plus de 10 trillions de paramètres !) ainsi que la quantité de
données traitées.
Mais même avec des modèles gigantesques, une tension persiste : précision vs généralisation. Si l’on
veut qu’un modèle soit très performant sur une tâche spécifique, il perd souvent en capacité
d’adaptation à d’autres contextes. Inversement, plus on veut un modèle polyvalent, moins il est
performant sur les tâches spécialisées.
- Cout environnemental
De plus, les centres de données doivent être refroidis, souvent avec de grandes quantités d’eau : chaque
prompt traité par ChatGPT peut consommer jusqu’à 500 ml d’eau pour le refroidissement. Enfin, la
fabrication du matériel informatique repose sur l’extraction de métaux rares (comme le lithium), dont
l’impact environnemental est considérable.
- Mauvais usages
Comme toute technologie, l’IA peut être utilisée à mauvais escient. Certains individus ou groupes
peuvent détourner ces outils pour des usages malintentionnés :
Enjeux
L’intelligence artificielle remet en question de nombreux aspects du monde du travail. Elle concurrence
non seulement les emplois peu qualifiés, mais aussi ceux qui exigent une haute spécialisation, comme
les informaticiens ou les radiologues. Pour l’instant, peu de nouveaux emplois de qualité émergent.
Les véritables spécialistes requis pour définir les paramètres globaux des systèmes IA sont peu
nombreux, tandis que les tâches en amont (préparation des données, étiquetage) ou en aval
(modération) sont peu qualifiées, facilement automatisables ou sous-traitées à bas coût.
- Fournisseurs
Du côté des fournisseurs, le marché est dominé par quelques grandes entreprises privées comme
Microsoft et OpenAI. Ces acteurs contrôlent les outils principaux et utilisent d’énormes corpus de
données générés par d’autres, souvent sans compensation (ex : New York Times, grèves à Hollywood).
Cette situation illustre un "comportement de cow-boys", typique de la culture de la Silicon Valley, avec
la mise sur le marché d’outils imparfaits.
- Surveillance
Un autre enjeu majeur est celui de la cybersurveillance. Les entreprises exploitent la collecte de données
personnelles à grande échelle, souvent sans cadre législatif suffisant (notamment aux États-Unis). Même
lorsqu’elles sont "anonymisées", il est possible de réidentifier les individus en croisant différentes bases.
Les États eux-mêmes utilisent ces technologies à des fins de surveillance (lutte antiterroriste, contrôle
d’Internet), alimentées par la baisse des coûts de stockage et la multiplication des dispositifs de capture
de données (caméras, objets connectés...).
- Uniformisation
Cette dynamique conduit aussi à une uniformisation des comportements et des goûts. Inspiré par les
travaux de Marcuse dès 1964, on note l’émergence d’un "internaute moyen", résultat de l’usage massif
d’algorithmes qui favorisent les contenus populaires. Initialement neutres, ces algorithmes biaisent les
profils d’utilisateurs en leur proposant ce que la majorité consomme. Cela entraîne une spirale de
recommandations conformes à la norme dominante, ce qui réduit l’individualité.
En matière d’innovation, ces modèles prédictifs peuvent freiner la nouveauté. Par exemple, pour un film
à produire, on croise ses caractéristiques avec celles de films antérieurs afin d’estimer sa rentabilité.
Si l’on décide de financer des projets uniquement selon ce critère, on risque de reproduire indéfiniment
les mêmes œuvres, les mêmes idées. Cela pourrait s’étendre à la sélection des projets scientifiques ou
culturels, favorisant ce qui a déjà fonctionné plutôt que l’originalité.
Cette logique de modélisation statistique s’étend à la catégorisation simpliste des individus. Certains
modèles peuvent prédire les quartiers à surveiller ou les individus à cibler, sur la base de critères
économiques ou sociaux. Cela peut amener à des politiques de sécurité discriminatoires. En génétique,
des chercheurs vont jusqu’à chercher les gènes des bons mathématiciens, ce qui rappelle les débuts d’un
projet eugénique.
- Libre arbitre ?
Enfin, se pose la question du libre arbitre. Les modèles prédictifs imposent une vision déterministe du
monde : si nos décisions sont gouvernées par des modèles basés sur nos données passées, alors notre
marge de liberté s’amenuise.
Cela mène à une gestion "manageriale" des individus, réduits à suivre le chemin qui leur est
statistiquement le plus probable. Il devient difficile de "changer" ou d’échapper aux prédictions faites
sur nous.
Cette contrainte est renforcée par la comparaison continue de nos profils à ceux des autres, via des
plateformes comme LinkedIn ou des systèmes comme ParcourSup. Être "différent" devient un handicap
dans un monde où la conformité à la moyenne est la norme implicite.
Enfin, cette logique peut aller jusqu’à une assimilation simpliste : si vous ressemblez à un groupe de
personnes (criminels, malades, pauvres), vous êtes traité comme eux. Dans les États-Unis, des
algorithmes sont utilisés pour prédire la récidive ou la dangerosité. Mais cela soulève une question
éthique majeure : à quel moment une probabilité justifie une privation de liberté ?
Conclusions
L’intelligence artificielle moderne repose sur l’émergence de modèles capables de produire des résultats
impressionnants. Ces performances tiennent à plusieurs facteurs clés :
- Ensuite, la disponibilité massive de mégadonnées (ou big data), fournissant aux modèles
une matière d’apprentissage quasi illimitée.
- À cela s’ajoutent une grande puissance de calcul (grâce à des infrastructures matérielles
performantes) et un capital financier considérable, souvent mobilisé par les grandes
entreprises technologiques.
Cependant, malgré ces avancées, les limites demeurent nombreuses. Au fond, ces modèles choisissent
un mot ou un symbole sur la base de probabilités, sans comprendre leur signification. Cela pose deux
problèmes essentiels :
Ces constats soulignent que les IA, aussi puissantes soient-elles, ne doivent pas être acceptées sans
réflexion. Elles soulèvent des enjeux cruciaux qui doivent être discutés démocratiquement,
notamment autour de leur usage, leur impact social, économique, éthique et politique.
Cours 12 : Enjeux I
Elle pose des questions essentielles : crée-t-elle de nouveaux dangers pour les individus, notamment en
matière de santé mentale ou de surcharge cognitive ? Affecte-t-elle notre manière de vivre ensemble ?
A-t-elle des effets politiques, en influençant l’opinion publique ou en renforçant le pouvoir de certains
acteurs ? Et surtout, comment préparer les individus à ces bouleversements et encadrer ceux qui les
provoquent ?
Dynamique économique
- Marchés
Cette transformation s’accompagne d’une redéfinition des marchés : certains, comme ceux du
transport ou du commerce de détail, sont directement concurrencés par des acteurs numériques comme
Amazon ou Uber. Parallèlement, de nouveaux produits apparaissent souvent hybrides (comme les
smartphones) ou entièrement synthétiques (comme les moteurs de recherche) ainsi que de nouveaux
marchés liés au numérique (publicité en ligne, jeux en réseau, réseaux sociaux).
- Classiques
Ces transformations économiques s’appuient sur plusieurs dynamiques clés. D’abord, la numérisation
permet des économies d’échelle inédites : la personnalisation des offres (comme Amazon le pratique)
devient standard, et le principe de la longue traîne permet à des plateformes comme Netflix de valoriser
une multitude de produits peu populaires, mais cumulativement rentables.
Cependant, ces bénéfices s’accompagnent de tensions : le numérique mondial entre parfois en conflit
avec les cadres juridiques nationaux, que ce soit pour la fiscalité (localisation des bénéfices) ou les délais
d’adaptation législative (comme le montre le cas de Facebook et Uber).
Du point de vue de la production, deux ressources deviennent centrales : les connaissances et les
données. Formaliser les savoirs implicites, les structurer à travers des outils (comme les tableaux de bord)
et les transformer en brevets est désormais une exigence stratégique.
De même, les données représentent un facteur de production essentiel : elles permettent non
seulement d’améliorer les produits mais aussi d’identifier des opportunités commerciales, d’anticiper les
besoins et de personnaliser l’offre. Cette dynamique est parfois qualifiée de "data capitalism". Par
ailleurs, l’intelligence collective joue un rôle croissant, à travers des initiatives comme Wikipédia, le
développement open source ou encore le crowdsourcing.
- Réseaux
La structure même de l’économie numérique repose sur des réseaux, ce que souligne Castells en parlant
d’“économie informationnelle”. Les grandes entreprises, en s’implantant au centre de ces réseaux,
parviennent à résister aux aléas du marché, tandis que les plus petites, en périphérie, restent plus
vulnérables.
Ce phénomène est renforcé par ce qu’on appelle l’effet de réseau : l’utilité perçue d’un service
augmente avec le nombre de ses utilisateurs. Selon la loi de Metcalfe, cette utilité est même
proportionnelle au carré de ce nombre. Ainsi, les services comme eBay ou Google AdWords bénéficient
de dynamiques exponentielles, générant des cercles vertueux.
- Longue traîne
Un autre phénomène majeur est celui de la longue traîne, qui s’appuie sur la loi de Pareto : si 80 % des
ventes concernent 20 % des produits, les 80 % restants (souvent oubliés dans les modèles traditionnels)
peuvent être valorisés grâce à la baisse des coûts de stockage numérique. Cela permet la vente de
produits de niche avec une rentabilité nouvelle, et une intermédiation à coût réduit.
- Concentration
Enfin, la numérisation engendre des tendances de concentration. Le coût marginal des produits
numériques (immatériel) tend vers zéro : une fois les infrastructures mises en place (logiciels, serveurs),
la reproduction d’un bien ou service supplémentaire ne coûte pratiquement rien. Cela explique pourquoi
certains modèles, comme le streaming ou les moteurs de recherche, peuvent offrir des services à grande
échelle sans coût additionnel significatif.
Ce phénomène favorise la logique du “winner takes all” : les entreprises capables d’atteindre une masse
critique s’imposent globalement, concentre les transactions et peuvent étendre leur marché. Amazon
est l’un des exemples les plus emblématiques de ce modèle.
Ce type de croissance repose en grande partie sur un cycle auto-entretenu : les entreprises utilisent les
données qu’elles collectent pour développer des infrastructures plus puissantes, lesquelles permettent
d’exploiter ces données via des modèles mathématiques de plus en plus sophistiqués. Ce cycle de
collecte, modélisation, extension et réinvestissement nourrit une dynamique de croissance organique,
comme c’est le cas pour Google Search, financé par la publicité ciblée.
Marchandises
Les transformations induites par le numérique ne concernent pas seulement les processus de production
ou les réseaux, mais touchent également la nature même des marchandises. On distingue ainsi les
marchandises matérielles, faites de carbone, de celles immatérielles, faites de bits.
- Marchandises matérielles
Dans les produits matériels (voitures, réfrigérateurs, chambres, etc). Les technologies informatiques sont
de plus en plus intégrées, créant ce qu’on appelle des "objets intelligents". L’objectif est d’y introduire
de nouvelles fonctionnalités ou d’en permettre un contrôle à distance.
Des exemples concrets incluent l’informatique embarquée dans les véhicules, les systèmes de
surveillance de structures (comme le pont Morandi), les électroménagers connectés, ou encore la
médecine personnalisée. Cette tendance s’inscrit dans l’expansion de ce que l’on appelle aujourd’hui
l’internet des objets.
- Marchandises immatérielles
Parallèlement, on assiste à une montée en puissance des marchandises immatérielles, qui prennent la
forme de fichiers, services ou contenus numériques. Ce processus inclut d’abord la transformation
d’anciens biens matériels (livres, CD, vidéos) en marchandises synthétiques consommées en ligne.
Grâce à l’effet réseau et à la réduction drastique des coûts de distribution numérique, ces nouveaux
formats concurrencent sévèrement leurs équivalents physiques, provoquant par exemple la disparition
progressive des librairies et des disquaires. S’y ajoutent des marchandises synthétiques entièrement
nouvelles : services en ligne (Google Search, Facebook), applications, jeux ou encore mondes virtuels
comme World of Warcraft ou Second Life.
- Services d’intermédiation
Les technologies numériques jouent également un rôle central dans les services d’intermédiation, en
facilitant la mise en relation entre producteurs et consommateurs. Ces plateformes numériques
surpassent les contraintes des lieux physiques (comme les marchés ou les boutiques), rassemblant des
acteurs à grande échelle (ex: Amazon, eBay, 2ememain).
Elles permettent un accès ciblé à des catégories de services spécifiques (Uber pour le transport, Airbnb
pour l’hébergement), améliorent la qualité perçue via des évaluations continues, et réduisent les coûts
de transaction. Elles exploitent ainsi à la fois l’effet de réseau et la longue traîne (mise en vente facile
de produits de niche et l’intermédiation numérique coûte moins cher), tout en réalisant des économies
d’échelle et en contournant souvent les régulations locales (Uber et Airbnb).
- Services gratuits
Autre variante : le marché tripartite, où une tierce partie finance l’échange entre deux acteurs, comme
dans le cas de la publicité en ligne (YouTube, par exemple). L’économie de l’attention devient ici
essentielle : plus un service attire de trafic, plus il est rentable grâce à la publicité. Cela implique une
monétisation indirecte : le coût du marketing est alors intégré dans le prix des marchandises finales.
Cette logique se retrouve aussi dans certains modèles open source, où des logiciels gratuits sont
proposés (ex: Apache, Odoo) et les revenus sont générés par des services ou fonctionnalités annexes.
Le modèle freemium complète ce tableau : une version gratuite limitée est proposée, tandis que les
fonctionnalités avancées sont payantes. Anderson (2009) évoque la “règle des 5 %” : seuls 5 % des
utilisateurs paient, mais cela suffit à financer le service pour tous les autres. C’est ce que pratiquent des
services comme Dropbox (stockage supplémentaire payant) ou Candy Crush (paiement pour débloquer
des niveaux).
Enfin, certains marchés reposent sur des logiques non monétaires, où les producteurs n’attendent
aucun paiement. Anderson identifie trois motivations : l’économie du don (désintéressement, recherche
de reconnaissance), l’échange de travail (participation collaborative en espérant un retour), et le
piratage (consommation sans contribution).
On retrouve cela dans la création de logiciels libres, la rédaction de contenus collaboratifs (Wikipédia),
ou la participation à des plateformes communautaires (ex: StackOverflow).
Croissance
Malgré les promesses d’efficacité associées aux technologies numériques, la question de leur
contribution réelle à la croissance économique reste sujette à débat.
Le célèbre paradoxe formulé par l’économiste Robert Solow, prix Nobel en 1987, illustre bien cette
tension : « L’ordinateur est partout, sauf dans les statistiques de productivité ». Autrement dit, bien que
l’informatique soit omniprésente dans notre environnement de travail, les gains de productivité
mesurables restent difficiles à cerner.
Edward F. Denison, dès 1979, rappelait d’ailleurs que la diffusion d’une technologie ne s’accompagne
pas nécessairement d’un gain immédiat de productivité. Cela peut s’expliquer par des délais
d’adaptation, des investissements mal orientés ou mal gérés, ou encore par une mauvaise articulation
entre innovations techniques et transformations organisationnelles.
De fait, de nombreux projets informatiques échouent, et les statistiques montrent des taux d’échec non
négligeables dans ce domaine. Il convient alors de s’interroger : combien de ces projets aboutissent
réellement ? Pourquoi certains sont-ils mal gérés, au point de ne produire ni innovation, ni bénéfice clair
?
Un autre problème réside dans la bureaucratisation accrue que peut engendrer l’usage de systèmes
informatiques : en rigidifiant les processus (par exemple, via des systèmes de contrôle stricts des tâches
ou profils), on peut inhiber la créativité, brider l’innovation et baser les choix d’investissement
uniquement sur les données du passé.
Par ailleurs, même lorsque des progrès sont bien réels, ils ne sont pas toujours visibles dans les
indicateurs économiques traditionnels, comme le PIB.
En effet, une grande partie des services numériques sont gratuits (Google Maps, Wikipedia, Skype (RIP),
etc.) et n’entrent donc pas dans le calcul de la richesse produite (PIB). De plus, la polyvalence et la
convergence des outils numériques (un smartphone remplaçant plusieurs dispositifs en un seul)
compliquent encore la mesure.
Enfin, la contribution au capital organisationnel, c’est-à-dire les effets de l’informatisation sur les
modes de gestion, la circulation de l’information ou la coordination interne, reste largement invisible
dans les statistiques, bien qu’elle soit fondamentale pour comprendre les gains d’efficacité induits par
le numérique.
Emploi
- Loi d’Okun
La question a été abordée dès 1962 par Arthur Okun, qui proposait une relation empirique entre
croissance économique (via le PIB) et baisse du chômage. Pourtant, aujourd’hui, cette corrélation semble
s’affaiblir : les gains de productivité ne se traduisent plus automatiquement par des créations d’emplois.
Trois hypothèses dites "orthodoxes" sont avancées pour l’expliquer : une croissance trop faible
(hypothèse de la cyclicité, défendue par Krugman), une stagnation de l’innovation sur le long terme
(comme le soutiennent Cowen ou Phelps), ou, au contraire, une accélération de l’innovation qui
mènerait à une destruction massive d’emplois plus rapide que leur création.
- Destruction créatrice
Ainsi, le recul massif de l’emploi agricole au XIXe et XXe siècle (de 90 % à 2 % de la population active) a
été compensé par des emplois dans l’industrie et les services. La question actuelle est donc la suivante
: la révolution numérique suit-elle la même logique ?
L’ordinateur, et plus récemment l’intelligence artificielle, sont des “machines à tout faire” : elles
envahissent une multitude de domaines d’activités, automatisent un nombre croissant de tâches, et
franchissent des frontières jadis considérées comme humaines y compris dans la création, l’analyse ou
la prise de décision. L’IA générative en est un exemple frappant, en élargissant encore les limites de
l’automatisation.
Le rythme du progrès technique en informatique est tel qu’il dépasse de loin notre capacité
d’adaptation institutionnelle. Entre 1994 et 2014, la puissance des ordinateurs a été multipliée par
7000. Cette accélération met à rude épreuve les institutions éducatives, les modèles économiques, les
règles juridiques et les modes d’organisation du travail.
- Transformations
Par ailleurs, les technologies numériques provoquent une disparition massive des métiers
intermédiaires (guichetiers, caissiers, agents de voyages, etc.) un phénomène désigné comme
technological displacement. Ce phénomène s’étend à d’autres professions : demain : traducteurs,
médecins ou artistes pourraient eux aussi être menacés. Dans le même temps, on assiste à la création
de formes de sous-emploi, peu rémunérées et précaires, comme celles proposées sur Amazon
Mechanical Turk, où des micro-tâches sont réalisées par des travailleurs du monde entier.
- Futur
Ces mutations appellent à une réflexion de fond sur l’avenir du travail. Dès 1995, Jeremy Rifkin annonçait
une nouvelle ère dans The End of Work, où les technologies permettraient de produire les biens et
services nécessaires avec de moins en moins de travailleurs. Il envisageait une société où le travail
deviendrait marginal, relégué à des secteurs résiduels, tandis que les tâches productives seraient
entièrement automatisées.
Les enjeux sociaux posés par ce scénario sont majeurs : comment accompagner la décroissance
potentielle de l’emploi ? Et, dans une perspective plus lointaine, comment organiser nos sociétés dans
un monde où le travail ne constituerait plus la norme pour la majorité ?
- Liens
L’opposition entre le monde “réel” (fait d’atomes) et le monde “immatériel” (fait de bits) est souvent
présentée comme évidente, mais elle repose en réalité sur une erreur de perception. Les technologies
numériques ne sont pas en dehors du monde réel : elles sont pleinement intégrées à nos vies
matérielles. Leur déploiement, leur usage et leur impact sont inscrits dans des structures bien concrètes.
Que ce soit à travers les serveurs, les appareils connectés ou les comportements sociaux qu’elles
modifient, ces technologies s’insèrent profondément dans notre quotidien.
- Individus
Les impacts sur les individus sont nombreux. Dès lors qu’un avatar numérique peut être lié à une
personne physique ou morale, la distinction entre identité en ligne et hors ligne s’efface. Notre
réputation devient hybride, exposée à des dynamiques globales parfois incontrôlables.
De plus, les traditions morales et éthiques ne s’appliquent pas de manière homogène dans l’espace
numérique : certaines vidéos peuvent être bloquées pour des raisons de pudeur, tandis que d'autres
circulent librement ailleurs. Cette asymétrie soulève des enjeux de protection des mineurs, notamment
face au cyberharcèlement ou à des contenus inappropriés (pornographie, etc.).
Un autre phénomène marquant est l’érosion de la frontière entre vie privée et vie professionnelle.
Avec le télétravail, les notifications permanentes ou les appareils connectés, il devient de plus en plus
difficile de délimiter des espaces de repos ou de déconnexion. La vie numérique déborde sur la sphère
personnelle, altérant notre rapport au temps, à l’attention, et parfois à l’équilibre mental.
- Planète
Mais au-delà de l’individu, les technologies numériques ont aussi un impact sur la planète. La
consommation énergétique du numérique ne cesse d’augmenter. Environ 45 % du trafic internet
mondial serait lié aux vidéos longues, ce qui sollicite intensément les infrastructures. À cela s’ajoute la
croissance de la puissance de calcul (jeux vidéo, IA, blockchain), ainsi que la multiplication des objets
connectés.
Ce phénomène s’inscrit dans ce qu’on appelle le paradoxe de Jevon : plus une technologie devient
efficace dans l’usage d’une ressource, plus sa consommation globale tend à augmenter.
Le trafic vidéo augmente d’environ 24 % par an, porté par les plateformes comme Netflix, YouTube ou
TikTok. En parallèle, des technologies comme le Bitcoin consomment autant d’électricité qu’un pays
entier comme la Suisse. Une simple transaction en cryptomonnaie peut requérir davantage d’énergie
qu’un citoyen américain moyen en une journée.
Les modèles d’intelligence artificielle ne sont pas en reste : l’entraînement d’un modèle de grande taille
comme ChatGPT-3 représente à lui seul 0,1 % de la consommation électrique annuelle belge. Et
même son usage courant a un coût écologique : générer un texte de 100 mots nécessite environ 500
mL d’eau (pour refroidir les serveurs) et l’équivalent de 14 ampoules LED allumées pendant une heure.
À cela s’ajoute l’extraction de terres rares, indispensable pour produire les composants électroniques,
mais souvent destructrice pour l’environnement et peu recyclable.
Culture
- Consommation culturelle
Le numérique a profondément transformé notre rapport à la culture, en facilitant son accès tout en en
modifiant les formes et les modes de production. D’un côté, la consommation culturelle a été rendue
plus fluide grâce aux outils numériques. Il est désormais possible de consulter les pages sociales
d’institutions (comme la page Facebook d’une bibliothèque), de visiter des musées virtuels ou
d’échanger facilement autour d’œuvres artistiques. Le langage lui-même évolue : l’usage d’expressions
comme "to google" ou de notes scolaires comme "A+" s’est généralisé dans des contextes autres que
ceux d’origine, signe d’une culture mondialisée.
Parallèlement, on observe l’émergence de référentiels aculturels, fondés sur des codes universels
simplifiés : smileys, acronymes comme “LOL”, ou encore le recours généralisé à un “broken English” (par
exemple : « give me pen » ou « this no good ») compréhensible par une majorité d’internautes.
Cette uniformisation participe à une forme d’hégémonie culturelle anglo-saxonne, où l’anglais devient
la langue principale des contenus numériques. Les plateformes dominantes étant en majorité
américaines, les internautes occidentaux sont exposés à une vision très “US-centrée” de la culture.
- Production culturelle
Côté production culturelle, le numérique a également redistribué les cartes. Avec l’avènement du Web
2.0, chacun peut désormais publier du contenu : textes, vidéos, musique, etc. Cette démocratisation de
la création s’inscrit dans le principe de la longue traîne : les plateformes peuvent proposer une quantité
massive d’œuvres, y compris très spécialisées, car les coûts de stockage et de diffusion tendent vers
zéro.
Il en résulte une diversité inédite de l’offre, mais aussi une dévalorisation unitaire des contenus : les
œuvres culturelles numérisables (comme une chanson sur Spotify ou une image générée par une IA)
voient leur prix par unité chuter considérablement.
Cette logique alimente ce qu’on appelle la culture du gratuit. Si les utilisateurs peuvent accéder
librement à une grande quantité de contenus, cela soulève une question cruciale : comment rémunérer
équitablement les créateurs ? Et surtout, la multiplication des productions ne risque-t-elle pas de nuire
à la qualité artistique ? Ce débat touche aussi bien les artistes que les plateformes de diffusion, et
renvoie à des enjeux plus larges de gouvernance, de reconnaissance et de régulation dans l’économie
numérique.
Démocratie en ligne
Le numérique, dès ses débuts, a été associé à une certaine forme de participation politique. Internet,
en particulier, s’est construit dans un contexte où les campus américains, dans les années 1960, étaient
le théâtre de protestations massives contre la guerre du Vietnam. Certains chercheurs estiment même
que le succès initial d’ARPANET, ancêtre d’internet, tient en partie à sa capacité à favoriser les échanges
démocratiques horizontaux.
Une étude de 1998 révèle que 12 % des messages échangés dans les groupes de discussion de l’époque
abordaient des sujets politiques. C’est dans ce contexte que le concept de “démocratie en ligne” a
émergé dans les années 1990, porté par l’idée que le numérique peut abaisser les coûts de participation
politique et favoriser la constitution d’identités collectives.
La démocratie en ligne recouvre un ensemble de pratiques citoyennes facilitées par internet, telles que
la consultation de débats publics, la participation à des référendums électroniques ou encore le vote en
ligne.
Vedel (2003) distingue trois niveaux d'interaction : tout d'abord, l'accès à l'information politique,
nécessaire à la transparence des décisions ; ensuite, la création d'espaces numériques de discussions et
de débats citoyens, qui permettent une coordination des actions ; enfin, la participation active à des
processus délibératifs, dans une optique de co-construction des décisions. Ces dimensions sont parfois
perçues comme une réponse à la crise de confiance envers les institutions politiques traditionnelles.
- Exemples
Des initiatives concrètes illustrent cette dynamique. En 2004, le site BetaVote proposait à des internautes
du monde entier de voter symboliquement pour l’élection présidentielle américaine, et plus de 500 000
personnes y ont participé, avec 88 % de votes en faveur de Kerry. D’autres formes d’interactions entre
citoyens et États se développent :, création de portails numériques consultations électroniques,
pétitions en ligne (par exemple sur les brevets logiciels), ou encore mise en place de systèmes de vote
par internet.
- Cyberactivisme
Dans ce contexte émerge aussi le cyberactivisme, que l’on peut définir comme une forme d’activisme
utilisant les technologies numériques pour défendre des causes.
- Critiques
Mais la démocratie en ligne suscite aussi des critiques. Andrew Keen, dans The Cult of the Amateur,
souligne que l’ouverture à tous engendre une production massive d’informations peu fiables ou
subjectives, ce qui rend la distinction entre fait et opinion plus floue.
Plus généralement, certains estiment que cette forme de démocratie est difficile à appliquer à grande
échelle, voire utopique. Elle pose la question de la complémentarité entre démocratie participative et
démocratie représentative, et risque d’aggraver les fractures numériques. Il est également plus facile de
mobiliser contre une cause (comme lors des printemps arabes) que pour une construction politique
commune.
Enfin, le modèle du Web 2.0, qui repose sur la production gratuite de contenus par les utilisateurs, a
parfois conduit à un désinvestissement dans les savoirs experts – l’exemple de l’Encyclopaedia Britannica
concurrencée par Wikipédia en est un symbole.
Santé
Le développement des technologies numériques s’accompagne d’effets contrastés sur la santé humaine.
D’un côté, de nombreux troubles liés à l’usage intensif des écrans ou à certaines conditions de travail
technologiques ont été identifiés.
Sur le plan physique, on retrouve des pathologies comme la fatigue oculaire, le syndrome du canal
carpien ou encore l’exposition prolongée à certaines radiations.
À ces troubles corporels s’ajoutent des problèmes sociaux, notamment le technostress ou les situations
de burn-out, fréquents dans les environnements fortement numérisés.
Sur le plan psychologique, les effets sont encore plus préoccupants : la techno-dépendance, les
modifications de la perception de la réalité, les formes d’addiction, voire un repli social accentué par
l’isolement numérique, sont autant de phénomènes observés.
Certaines études pointent même des "épidémies" contemporaines de narcissisme, en partie nourries
par les logiques d’exposition et de validation sur les réseaux sociaux. Toutefois, il est important de noter
que la recherche scientifique ne parvient pas encore à un consensus clair sur l’impact des écrans sur la
socialisation, tant les résultats varient selon les contextes, les publics et les usages.
En parallèle, les technologies numériques ont aussi permis des avancées majeures dans le domaine
médical. L’exploitation des mégadonnées (ou "big data") a révolutionné l’analyse biologique et clinique
: il devient aujourd’hui possible de traiter des volumes d’informations colossaux, permettant des analyses
de séquençage génétique ou de compatibilité moléculaire autrefois inaccessibles.
Ces progrès ouvrent la voie à une médecine personnalisée, capable d’adapter les traitements aux
spécificités individuelles des patients. Plus encore, on assiste à l’émergence de la médecine dite de
précision, qui repose sur des technologies de pointe telles que la chirurgie microabrasive ou les
dispositifs embarqués capables de suivre en temps réel certaines constantes physiologiques.
Ces avancées dessinent un avenir où la technologie pourrait contribuer à une amélioration significative
du diagnostic et du soin, à condition de rester attentive aux risques qu’elle engendre en parallèle.
Conclusions
Sur le plan individuel, les enjeux sont liés à la protection de la réputation, à la santé mentale et
physique, ou encore aux impacts psychologiques du numérique.
Par ailleurs, l’informatisation provoque une véritable mutation des structures économiques. Elle
redéfinit les modalités de production, notamment via l'automatisation, la dématérialisation des
processus et l’émergence de nouveaux modèles économiques.
On distingue aujourd’hui plusieurs types de marchandises : les biens matériels intégrant des
technologies numériques (objets connectés, systèmes embarqués) et les biens synthétiques, purement
numériques (logiciels, services en ligne, contenus dématérialisés).
Les frontières entre le monde matériel et le monde numérique deviennent de plus en plus floues.
Internet, l’Internet des objets, la numérisation des services et les données omniprésentes illustrent
cette interconnexion croissante.
Enfin, une attention particulière doit être portée aux dynamiques d’inégalités. La numérisation, en
facilitant l’accumulation de capital informationnel, économique et technique par certains acteurs,
risque de renforcer des inégalités déjà existantes. Il devient donc crucial d’anticiper et d’encadrer cette
croissance probable des disparités de richesse pour préserver une certaine équité dans la société de
demain
Cours 13 : Enjeux II
L’informatisation transforme en profondeur nos sociétés et pose tout un tas de questions. Sur le plan
personnel, elle peut créer de nouveaux risques : cyberdépendance, surcharge cognitive, exposition à
des contenus nocifs... Il y a aussi des effets sur la santé, comme les troubles musculo-squelettiques liés
au travail sur écran. D’un autre côté, nos relations sociales évoluent : les interactions en ligne peuvent
remplacer ou transformer les échanges physiques.
Politiquement, l’informatisation peut aussi avoir un impact : influence sur les élections, usage des
données par les États, surveillance de masse, etc. Sur le plan économique, la question se pose : est-ce
que le numérique stimule la croissance ? Oui, dans certains secteurs, mais il bouleverse aussi les emplois
certains métiers disparaissent, d’autres apparaissent. D’où des enjeux d’éducation : comment former
les gens aux usages du numérique, à leurs droits, à l’esprit critique ? Et faut-il réglementer les grandes
plateformes ? Si oui, comment ?
- Aterritorialité d’internet
L’autre gros sujet, c’est la disparition des frontières physiques dans le monde numérique. On parle
d’atterritorialité : les lois traditionnelles sont construites autour d’un territoire, mais Internet ne respecte
pas ces frontières.
Par exemple, une personne peut être diffamée depuis un autre continent, via un site hébergé dans un
troisième pays. Dans ce cas, à quel tribunal s’adresser ? Quelle loi s’applique ? On voit vite les limites du
droit classique.
- Organisations juridictionnelles
Selon les pays, la protection de la vie privée peut donc varier. En Belgique, elle relève d’une loi fédérale.
En Allemagne, chaque Land peut avoir ses propres règles, plus ou moins strictes. En Australie, la vie
privée est régulée uniquement au niveau des États ou territoires fédérés.
- Systèmes législatifs
Il faut aussi distinguer deux grandes traditions juridiques. D’un côté, les pays de common law où les
lois sont formulées de manière générale et les juges ont un rôle important pour les interpréter. Cela
permet plus de flexibilité.
De l’autre côté, les pays de droit codifié (comme la France ou la Belgique), où les lois sont très précises.
C’est plus clair, mais il faut créer de nouvelles lois quand des situations inédites apparaissent.
- Vie privée
Un enjeu central aujourd’hui, c’est la protection de la vie privée. Les entreprises collectent énormément
de données personnelles pour affiner leur marketing. Cela va des recherches Google aux achats en ligne,
en passant par les déplacements. Certains parlent de “capitalisme de surveillance” : on bénéficie de
services gratuits, mais en réalité, on paie avec nos données. En Europe, les lois (comme le RGPD) sont
strictes, mais les plateformes sont souvent américaines, ce qui crée un déséquilibre juridique.
L’internet des objets amplifie encore cette collecte : nos smartphones enregistrent notre localisation,
nos habitudes, nos données de santé... et de plus en plus d’objets connectés (voitures, frigos, montres)
en font autant. Comme tout est stocké dans le cloud, ça soulève deux grandes questions : qui peut
accéder à ces données ? Et pour en faire quoi ?
- Propriété intellectuelle
Enfin, la propriété intellectuelle est mise au défi par l’IA générative, qui s’appuie sur des œuvres
existantes (textes, images, sons, etc.) pour en créer de nouvelles. Il faut donc repenser le droit : faut-il
l’adapter, ou au contraire renforcer les contrôles pour éviter les abus ? En parallèle, on observe une
nouvelle économie de l’accès, où la quantité prime sur la sélection (ex : YouTube) et où les prix tendent
vers zéro (ex : Spotify).
Pour valoriser ces contenus, de nouveaux modèles apparaissent : merchandising, publicité, services
complémentaires... D’autres reposent sur la logique des communs : logiciels libres, Wikipédia, Creative
Commons, fablabs… Un mode de production collaboratif, souvent plus éthique, mais avec ses propres
limites.
Cadre constitutionnel
- Situation internationale
Le cadre juridique lié à Internet est l’un des plus variés au niveau mondial. On constate une grande
diversité selon les pays : dans les régimes autoritaires, la liberté d’expression est très limitée, voire
inexistante. À l’opposé, les États-Unis défendent une vision très étendue de cette liberté, souvent plus
permissive que celle adoptée par les démocraties européennes.
Cette diversité rend difficile la recherche d’un équilibre. Il faut jongler entre deux exigences : d’un côté,
protéger les libertés individuelles, comme la vie privée ; de l’autre, préserver l’intégrité de l’État,
notamment face au terrorisme. Entre ces deux pôles, certains défendent une vision libertarienne :
Internet ne devrait être soumis à aucun contrôle, ni étatique, ni privé.
- Liberté d’expression
Une question centrale émerge alors : peut-on vraiment tout dire au nom de la liberté d’expression ? En
Europe, certains discours comme le racisme, la xénophobie ou le négationnisme sont punis par la loi.
Aux États-Unis, en revanche, le 1er amendement protège quasiment toute forme de parole, même les
plus choquantes. La seule limite posée par la Communication Decency Act de 1996 concerne les
contenus pornographiques, où l’âge de l’utilisateur doit être vérifié.
Mais cette liberté absolue pose des problèmes concrets. Par exemple, des vidéos d’organisations
terroristes peuvent circuler librement. Autre cas : un citoyen belge hébergeant aux États-Unis un site
contenant des propos racistes, qui seraient pourtant illégaux dans son pays d’origine.
Le débat se prolonge avec la presse. Les journalistes doivent pouvoir exercer leur métier librement, à
l’abri de la censure, et bénéficier du secret des sources. Mais qui peut aujourd’hui être considéré comme
journaliste ?
En principe, il faut appartenir à une association professionnelle reconnue. Mais certains pays, comme la
Belgique ou la Suède, élargissent la définition à toute personne diffusant des infos au public, y compris
sur Internet. C’est ce qui explique que WikiLeaks ait localisé une partie de son infrastructure dans ces
pays plus tolérants.
Quand on parle de liberté d’expression, il faut aussi aborder les contenus problématiques. D’abord, les
pourriels (ou spams) : de nombreuses démocraties ont adopté des lois pour les limiter, et les tribunaux
américains ont jugé ces règles compatibles avec le 1er amendement. À l’inverse, certains pays d’où
proviennent ces spams n’ont pas de législation efficace (ex. : la Russie).
Ensuite, la pédopornographie : unanimement considérée comme criminelle dans tous les pays, sa
diffusion est sanctionnée. Toutefois, la Cour suprême américaine a jugé que des représentations
numériques “fictives” d’enfants relevaient de la liberté d’expression, ce qui illustre à quel point les
interprétations peuvent diverger.
Enfin, la question de la responsabilité des acteurs du numérique est complexe. Les entreprises comme
les plateformes sont souvent considérées comme de simples hébergeurs : elles ne sont pas tenues
responsables des contenus postés par les utilisateurs, tant qu’elles n’en ont pas connaissance. En
revanche, dès qu’elles sont informées d’un contenu illégal, elles doivent agir rapidement pour le retirer
sinon leur responsabilité peut être engagée, comme l’a montré l’exemple de YouTube.
De plus, ces plateformes adoptent parfois leur propre politique éditoriale, en décidant par exemple de
supprimer les comptes de certains utilisateurs (comme les complotistes), ou d’interdire certains
contenus, sans passer par un juge. Cela ouvre un autre débat : qui décide vraiment de ce qui peut être
dit ou montré en ligne ?
- Vie privée
Les questions de vie privée dans le monde numérique sont devenues essentielles à mesure que les
organisations collectent de plus en plus de données sur les individus. Cela concerne non seulement la
gestion des données elles-mêmes (leur stockage, leur usage, leur sécurisation) mais aussi leur possible
transfert vers d’autres entités, qu’elles soient privées, comme les sociétés de marketing, ou publiques,
comme les agences de renseignement.
Les données personnelles représentent aujourd’hui une ressource économique à part entière, avec une
valeur d’échange réelle. Certaines entreprises, en difficulté financière, peuvent être tentées de vendre
ces données pour éponger leurs dettes. D’autres acteurs suggèrent que la meilleure manière de protéger
les utilisateurs serait de rémunérer ces derniers pour l’usage de leurs données personnelles.
L’Union européenne a mis en place une législation particulièrement protectrice. Dès 1995, la directive
95/46/CE a posé les bases des droits numériques en définissant la notion de donnée à caractère
personnel comme toute information permettant d’identifier une personne, de manière directe ou
indirecte.
Cela comprend des éléments comme les numéros d’identification, les caractéristiques physiques ou
encore le contexte social. La directive interdit en principe le traitement de données sensibles, telles que
les opinions politiques, les croyances religieuses ou les origines ethniques. Par ailleurs, elle impose que
les mesures de sécurité appliquées aux données soient proportionnelles à leur niveau de sensibilité.
Six cas sont reconnus comme justifiant légalement le traitement de données à caractère personnel : le
consentement explicite de la personne concernée, la nécessité contractuelle (par exemple, lorsqu’un
journal en ligne mémorise les articles lus), une obligation légale comme dans le cadre de la lutte contre
le blanchiment, l’urgence vitale (comme les données médicales lors d’un accident), l’exercice d’une
mission d’intérêt public ou de l’autorité publique, et enfin, l’intérêt légitime de l’organisme qui traite
les données, à condition de ne pas collecter plus que nécessaire.
Une autre directive européenne adoptée en 2002, la directive 2002/58/CE, concerne spécifiquement
les communications électroniques. Elle impose la protection des communications numériques
interpersonnelles, comme les courriels. Les données de trafic ou de localisation ne peuvent être utilisées
que pour le bon fonctionnement technique des services concernés, et toute donnée liée à une
communication doit être supprimée ou rendue anonyme une fois la communication terminée.
Ces principes ont été renforcés en 2016 avec l’adoption du Règlement général sur la protection des
données (RGPD). Ce règlement instaure un cadre juridique harmonisé pour tous les pays de l’Union
européenne, applicable aussi aux entreprises situées hors UE dès lors qu’elles traitent les données de
citoyens européens.
Parmi ses dispositions clés, on retrouve l’obligation d’un consentement explicite et positif, le droit à
l’effacement des données (connu sous le nom de droit à l’oubli), le droit à la portabilité des données, le
droit de ne pas faire l’objet d’un profilage automatisé, ainsi que l’obligation pour les entreprises
d’intégrer la protection des données dès la conception des outils informatiques. Le RGPD impose aussi
la notification des fuites de données et, dans certains cas, la désignation d’un délégué à la protection
des données (ou DPO, Data Protection Officer).
Aux États-Unis, la notion de vie privée n’est pas inscrite explicitement dans la Constitution. Toutefois,
plusieurs décisions de la Cour suprême ont reconnu certains droits en la matière. Le système américain
repose davantage sur une approche sectorielle et sur l’autorégulation, notamment dans le secteur privé.
Les États fédérés peuvent adopter des lois plus strictes que celles de l’État fédéral, comme l’a fait la
Californie avec le California Consumer Privacy Act (CCPA), entré en vigueur en 2020 et inspiré du
RGPD, bien que moins contraignant.
Le caractère privé d’une communication n’est juridiquement reconnu aux États-Unis que si un effort
de protection est démontré. Par exemple, l’écoute d’une conversation téléphonique dans un lieu public
pourrait être jugée légale si aucune mesure de protection particulière n’a été prise. Internet, étant
considéré comme un espace public, n’est donc pas automatiquement protégé par le droit à la vie privée.
Il est même envisageable que la surveillance de courriels non chiffrés soit considérée comme légale.
Du côté des entreprises, une large majorité des Américains (75%), dès la fin des années 1990, acceptaient
déjà que leurs données soient exploitées en échange de services gratuits, pourvu que cela soit clairement
annoncé.
Plusieurs décisions judiciaires ont validé cette pratique, y compris lorsque des données sont transmises
à des tiers comme les fournisseurs d’accès ou les opérateurs mobiles. Cela signifie que des entreprises
comme Google peuvent légalement conserver l’historique des recherches effectuées depuis la fin des
années 1990, et que des plateformes comme Facebook peuvent revendre certaines données d’utilisation
à des partenaires commerciaux.
Au niveau mondial, on distingue quatre grandes zones en matière de législation sur les données
personnelles. La première regroupe les pays qui appliquent ou reconnaissent l’équivalent de la directive
européenne, comme la Suisse, le Liechtenstein ou l’Islande. La deuxième catégorie inclut les pays dont
les législations sont jugées équivalentes, comme le Canada ou l’Argentine. La troisième correspond à
des régimes moins protecteurs, comme les États-Unis ou les pays de la Coopération économique pour
l’Asie-Pacifique. Enfin, certains pays comme la Chine n’ont pas encore de véritable législation en la
matière.
Il est important de rappeler que le traitement des données personnelles par un service en ligne dépend
fortement de la localisation des serveurs utilisés. On parle ici de territorialité des serveurs : c’est le pays
où les données sont hébergées qui détermine souvent quelle législation s’applique réellement.
La question des transferts de données personnelles entre différentes zones juridiques pose des
problèmes complexes. Lorsqu’une donnée quitte un territoire pour être traitée dans un autre, il est
crucial que le pays destinataire offre des garanties de protection comparables à celles du pays d’origine.
Deux approches s’opposent à ce sujet : certains estiment que le pays de réception doit disposer a priori
d’un système juridique “équivalent” ou au moins “adéquat” à celui de la zone émettrice ; c’est la position
adoptée par l’Union européenne.
Dans le cas particulier des échanges de données entre l’Europe et les États-Unis, un protocole appelé
EU-US Privacy Shield avait été mis en place. Il prévoyait que les entreprises américaines souhaitant
exploiter des données issues de l’UE s’engagent à respecter un ensemble de principes.
Toutefois, ce protocole a été vivement critiqué pour son manque de contrainte réelle : les
engagements étaient souvent déclaratifs, peu vérifiés, et de nombreuses entreprises américaines ne s’y
conformaient pas, voire ne s’y inscrivaient pas du tout. Cela a soulevé des doutes quant à l’efficacité de
ce cadre, notamment en termes de surveillance étatique et de recours effectif pour les citoyens
européens.
Un autre problème majeur se pose à la croisée des chemins entre deux droits fondamentaux : d’un côté,
la liberté d’expression ; de l’autre, le respect de la vie privée. Jusqu’où peut-on aller dans la publication
de contenus en ligne sans nuire à la réputation ou à l’intimité des personnes concernées ?
Parmi les pistes envisagées, on trouve l’idée de mieux définir ce qu’est une diffusion légitime
d’information, autrement dit, encadrer juridiquement ce qui peut ou non être rendu public. Le droit à
l’oubli, reconnu notamment à travers des décisions européennes à l’encontre de Google, permet à une
personne de demander le déréférencement d’informations obsolètes ou nuisibles à son encontre. Ce
droit, cependant, se heurte lui aussi à la complexité du web et à la tension persistante entre information
et vie privée.
Cadre économique
- OMC
L’Organisation mondiale du commerce (OMC), qui regroupe 164 pays membres et observateurs, a
pour objectif principal de faciliter les échanges internationaux de biens, qu’ils soient agricoles, industriels
ou liés aux services. Pour y parvenir, elle établit un ensemble de règles favorisant la globalisation et
l’harmonisation économique.
Parmi ces règles, on retrouve l’accord général sur les tarifs douaniers et le commerce (GATT), celui sur
le commerce des services (GATS), ainsi que l’accord TRIPS portant sur les droits de propriété
intellectuelle touchant au commerce. En cas de conflit entre membres, c’est l’Organe de Règlement des
Différends (ORD) qui intervient pour trancher.
- Propriété intellectuelle
En matière de propriété intellectuelle, l’usage de réseaux de pair à pair (P2P) pour diffuser des œuvres
protégées sans autorisation est considéré comme du piratage. Certains pays, comme la France avec la
loi Hadopi, ont adopté des mesures répressives pour lutter contre ce phénomène.
Une distinction est parfois faite entre le téléchargement (download) à usage personnel, qui est toléré
dans certains pays comme les Pays-Bas ou le Canada, et l’envoi de fichiers (upload), qui est plus souvent
sanctionné. Cependant, la plupart des systèmes P2P impliquent automatiquement un partage des
fichiers téléchargés, rendant cette distinction difficile à appliquer juridiquement.
La culture du gratuit en ligne pose également des problèmes en matière de droits d’auteur. De
nombreux contenus sont réutilisés sans respecter les droits associés : c’est le cas notamment d’extraits
de presse exploités par certains agrégateurs comme Google News, ou encore de musiques utilisées dans
des vidéos amateurs. Un exemple marquant est le procès opposant le New York Times à OpenAI.
Pourtant, certains usages sont perçus comme légitimes, comme l’indexation de pages web par les
moteurs de recherche ou les traitements facilitant l’accès à l’information. À noter également que la
notion de "contenu" englobe aujourd’hui une grande variété de données, y compris celles issues de
bases de données en ligne, comme chez Amazon.
La contrefaçon numérique concerne notamment la copie de la présentation d’un site web. Dès lors
qu’un site présente une charte graphique originale, il peut être protégé par le droit d’auteur. Copier
cette présentation sans autorisation constitue donc une contrefaçon. Par ailleurs, la mise en place de
liens hypertextes vers des pages de concurrents peut aussi poser problème, à moins qu’un partenariat
ne soit établi.
Les noms de domaine sont également soumis à une forme de protection juridique inspirée du droit des
marques. Il est interdit, par exemple, d’utiliser une marque déposée comme nom de domaine. Le
cybersquattage, qui consiste à enregistrer des noms de domaine proches de marques connues dans
une logique de nuisance ou de profit, est combattu par des procédures juridiques spécifiques.
Cependant, il n’est pas toujours facile de démontrer le caractère abusif du cybersquattage. Dans certains
cas, les tribunaux ont même reconnu que la liberté d’expression pouvait primer sur la protection
intellectuelle, comme dans le cas du site de boycott « [Link] ».
- Commerce en ligne
Dans le cadre du commerce électronique, des problèmes de juridiction peuvent apparaître lorsque le
fournisseur et le consommateur relèvent de pays différents. Le fournisseur peut parfois se doter d’une
filiale locale pour se soumettre à une juridiction particulière.
En général, le consommateur doit se tourner vers la juridiction du fournisseur, ce qui complique les
recours. Les médiateurs de services, comme Amazon qui propose des vitrines pour des tiers, ne sont en
général pas tenus responsables des litiges puisqu’ils ne font que transmettre des données.
Des mesures plus protectrices peuvent être adoptées au niveau national, comme en France où le délai
de rétractation peut atteindre trois mois. Par ailleurs, la portabilité transfrontalière de certains services
(comme Spotify ou Netflix) est désormais assurée.
En 2024, de nouvelles régulations européennes sont entrées en vigueur. Le Digital Services Act (DSA)
cible les « Very Large Online Platforms » (VLOP), qui comptent au moins 45 millions d’utilisateurs actifs
européens. Ces plateformes doivent désormais communiquer leurs actions de modération de contenus,
faire preuve de transparence sur leurs algorithmes (notamment concernant les recommandations ou
publicités ciblées) et se doter d’une autorité de régulation indépendante.
Le Digital Markets Act (DMA), quant à lui, vise les grandes plateformes « gatekeepers » comme Amazon
ou Google. Il cherche à rééquilibrer les relations commerciales entre ces géants et leurs partenaires.
Enfin, l’IA Act, entré en vigueur le 1er août 2024, introduit une approche graduée selon les niveaux de
risque que présentent les usages de l’intelligence artificielle : du risque inacceptable jusqu’au risque
minimal. Il repose sur une régulation proportionnée allant de l’interdiction à l’absence de contraintes.
Toutefois, des incertitudes demeurent quant à la méthode d’évaluation du risque d’une IA.
Face à cette législation, certains fournisseurs américains réagissent en restreignant l’accès à certaines
fonctionnalités ou en quittant purement le marché européen. Le contexte géopolitique actuel ne facilite
pas l’application stricte de ce texte.
- Prestataires de services
Les prestataires de services peuvent établir leurs propres règles, en allant au-delà des exigences légales
minimales, en mettant en place des mécanismes supplémentaires de protection. Leur motivation
principale est de défendre leur réputation en ligne, essentielle à leur survie économique.
Par exemple, eBay propose un système d’évaluation des acheteurs et des vendeurs, ainsi qu’une option
de rétractation dans certains cas (comme une erreur lors d'une enchère). PayPal offre un
remboursement intégral si le produit ne correspond pas à la description. YouTube, quant à lui,
démonétise les vidéos contenant des contenus signalés par d’autres utilisateurs, bien que certaines
réclamations soient infondées.
Le télétravail entraîne diverses conséquences : certaines tâches peuvent être délocalisées (comme les
joueurs professionnels dans des fermes de jeux), et il y a une mise en concurrence croissante entre
travailleurs, d'abord à l’intérieur d’un même pays, puis entre pays.
Concernant les transactions économiques globales, on observe une concurrence fiscale exacerbée entre
États, avec des exonérations ou faibles taux d’imposition, et des revenus captés par des pays
étrangers (exemple : un belge achetant sur un site américain).
On assiste aussi à une régulation progressive des services d’intermédiation, par exemple la
requalification des travailleurs indépendants (Uber, Deliveroo) comme salariés, ou la régulation de
services comme Amazon ou Airbnb.
- Législations antitrust
En ce qui concerne les législations antitrust, on note la formation d’oligopoles par certains géants du
numérique (Google, Facebook, etc.), souvent caractérisés par une croissance cyclique et des coûts
d’exploitation décroissants.
Ces groupes médiatiques défient les lois traditionnelles sur la concentration de la presse, ce qui pose
des problèmes d’information pluraliste. Les États-Unis et l’Union européenne disposent de lois antitrust
qui permettent de sanctionner les abus de position dominante (par des amendes, des obligations
pratiques, voire des démantèlements).
Dans la pratique, plusieurs cas célèbres existent : le démantèlement de Standard Oil et d’AT&T, ou
l’obligation faite à Microsoft d’offrir le choix d’un autre navigateur que Internet Explorer.
Actuellement, la Commission européenne a ouvert des procédures contre Google et Meta, et certains
pays comme l’Italie ont engagé des actions contre OpenAI. Apple est contraint de ne pas imposer Apple
Pay. Aux États-Unis, des procédures sont également en cours. Toutefois, le lobbying des géants du
numérique reste très puissant.
Enfin, les États-Unis tiennent à conserver leur “soft power” et résistent à une régulation trop stricte,
comme illustré par les propos de J. D. Vance, qui souhaite conditionner le soutien à l’OTAN à une absence
de régulation numérique.
Régulation
La régulation du numérique couvre plusieurs aspects : la situation actuelle, les propositions en cours, les
principes qui devraient guider cette régulation, ainsi que le rôle d’agences indépendantes.
Actuellement, la régulation technique repose sur des standards définis par quelques acteurs majeurs
(langages de programmation, protocoles, etc.) comme ICANN, IEEE ou le W3C.
Côté marché, certains secteurs imposent déjà des contraintes, comme la neutralité du net en
télécommunication. Les entreprises disposent parfois de comités éthiques, bien que cela reste rare.
Une forme importante de régulation vient également des ingénieurs et informaticiens eux-mêmes, par
le biais de la régulation par le code (comme le propose Lessig), car ils influencent directement les
pratiques. Enfin, on observe aussi une régulation étatique, par exemple en Europe pour limiter certains
propos racistes.
- Proposition
Cela suppose aussi plus de volonté politique pour faire respecter les normes, et la création d’agences
de régulation indépendantes.
- Le principe constitutionnel vise à garantir en ligne les droits déjà reconnus hors
ligne, un accès équitable aux technologies (ex. débit garanti) et un encadrement de
la cybersurveillance.
- Le principe de sécurité concerne la protection des consommateurs (données,
objets connectés), l’accès à l’information (documentation des services) et l’usage de
standards ouverts.
- Le principe de concurrence vise à réguler les monopoles, assurer un accès ouvert
aux infrastructures, garantir une fiscalité équitable pour les entreprises, et faciliter le
changement de fournisseur.
Ces agences pourraient chercher des compromis locaux et proposer des cadres plus protecteurs,
adaptés aux évolutions technologiques et aux différents contextes législatifs (mondial, européen,
national). Elles auraient aussi un pouvoir de certification (comme pour les médicaments) et de contrôle
(similaire à celui appliqué à la chaîne alimentaire).
Éducation
L’éducation au numérique joue un rôle essentiel dans l’émancipation des citoyens. Elle leur permet
de comprendre les technologies, d'éviter l'aliénation par manque de maîtrise (moteurs de recherche,
protection de la vie privée, etc.) et de surmonter les fractures éducatives.
Une formule frappante le résume bien : « Être incompétent en informatique à l’ère numérique, c’est
comme être illettré dans une culture de l’imprimerie. »
Enfin, une citation d’Henry Havelock Ellis (1922) rappelle l’importance de replacer la technologie
à sa juste place dans notre société :
« La plus grande tâche à laquelle la civilisation doit faire face aujourd’hui, c’est de remettre la machine
à la place qui devrait être la sienne, c’est-à-dire l’esclave de l’homme, et non le maître. »
Conclusions
L’informatisation de la société soulève de nombreuses questions. Ces enjeux concernent tant les dangers
individuels (notamment la vie privée) que les dangers collectifs (comme la cybercriminalité). Les lois
existantes encadrent principalement les aspects constitutionnels et économiques.
Toutefois, on observe une multiplicité de régulations : certains États imposent des contraintes sur
Internet et les usages des internautes, tandis que les géants du numérique créent de nouvelles normes,
parfois en contradiction avec les cadres en place, notamment en matière de vie privée.
Face à ces évolutions rapides, un nouveau cadre de régulation paraît indispensable. Enfin, l’éducation
des citoyens aux enjeux technologiques et à leurs conséquences est essentielle pour qu’ils puissent agir
en connaissance de cause.