KASSERINE
Cours : Gestion d’un data center
Chapitre 2 : Les technologies de stockage
(1)
Enseignant : S. FELHI Groupe : RSI-31
A.U. 2020-2021 Semestre 1
Définition
Le RAID (Redundant Array of Inexpensive Disks) est un ensemble de techniques
de virtualisation du stockage permettant de répartir des données sur plusieurs disques
durs afin d'améliorer soit les performances, soit la sécurité ou la tolérance aux pannes de
l'ensemble du ou des systèmes.
Cette technologie permet de gérer un ensemble de disques durs physiques comme étant
des volumes de stockage logiques en utilisant des techniques telles que :
• La redondance
• La répartition
Cette technologie assure des critères de qualité sur le stockage tels que :
• La tolérance aux pannes : un système tolérant aux pannes continue à fonctionner
et à fournir un service, éventuellement de manière réduite (ou en mode dégradé),
au lieu de tomber complètement en panne, lorsque l’un de ses composants ne
fonctionne plus correctement. Dans le cas d’un système de stockage, la
disponibilité désigne le fait de pouvoir stocker l’information même si l’un des
disques physiques est en panne.
• La disponibilité : un système continue à fonctionner et à fournir un service quel
que soit l’instant ou la durée qu’on souhaite qu’il soit opérationnel. Dans le cas d’un
système de stockage, la disponibilité désigne le fait de pouvoir stocker
l’information à l’instant souhaité.
• La fiabilité : désigne le fait de récupérer l’information depuis le système de
stockage telle qu’elle a été stockée (sans modification).
• Les performances : désigne la rapidité d’écriture de l’information sur le système
de stockage.
Page 1 sur 14
Mise en œuvre du RAID
Récemment, la technologie RAID a été mise en service dans presque toutes les
applications telles que les ordinateurs de bureau, les serveurs, les ordinateurs portables,
les périphériques de stockage et dans des environnements qui nécessitent un grand
nombre de disques durs.
La technologie RAID est un moyen de virtualiser plusieurs disques physiques en une ou
plusieurs unités logiques appelées niveaux RAID. Les données de chaque fichier sont
réparties entre tous les disques de plusieurs façons appelées niveaux RAID. La sélection
des niveaux RAID dépend de la taille des disques durs, du niveau de fiabilité et de
performance requis.
La technologie RAID peut être implémentée soit comme :
• un RAID matériel dans lequel la configuration est effectuée en connectant un
lecteur à la carte mère via un matériel spécial appelé contrôleur RAID
• un RAID logiciel dans lequel la configuration est effectuée en connectant des
lecteurs directement à la carte mère dont la configuration est ensuite gérée par le
logiciel utilitaire du système d’exploitation.
RAID Logiciel :
le RAID logiciel n’utilise aucun matériel spécial pour connecter les périphériques de
stockage. Ici, les périphériques de stockage sont directement connectés à l’ordinateur
hôte. La distribution du contenu sur les lecteurs est gérée uniquement par les pilotes et le
logiciel utilitaire du système d’exploitation hôte.
Avantages du RAID Logiciel
• La plupart des principaux systèmes d’exploitation comme Microsoft, Apple et
Linux prennent en charge la configuration RAID du logiciel.
• Contrairement au RAID matériel, la configuration RAID logiciel n’est pas coûteuse
car vous n’avez pas besoin de matériel dédié pour la configuration RAID. La
configuration RAID est effectuée dans le système d’exploitation lui-même.
• Le RAID logiciel est principalement adapté pour un traitement simple qui ne cause
pas trop de charge sur le système
Page 2 sur 14
Inconvénients du RAID Logiciel
• Le RAID logiciel peut affecter les performances globales du système tout en
effectuant une configuration RAID complexe. L’implémentation de RAID logiciel
n’est pas appropriée s’il y a trop de pilotes.
• Seuls les niveaux RAID limités sont pris en charge par le système d’exploitation et
il y a peu de place pour la migration du système d’exploitation.
• Le RAID logiciel est plus vulnérable aux virus et autres attaques de sécurité car il
fonctionne à l’intérieur du système informatique hôte.
Le RAID logiciel est utilisé pour des configurations simples et il n’est pas adapté au contexte
des entreprises qui préfèrent plutôt utiliser le RAID matériel plus rapide et plus performant
et très utilisé au niveau des serveurs
RAID Matériel :
Le RAID Matériel ou Hardware Raid utilise du matériel spécial appelé contrôleur RAID
pour la récupération et la sauvegarde de données. Sa mise en œuvre est basée sur la
technologie RAID sur puce. Il a son processeur et sa mémoire cache pour exécuter
l’application RAID.
Figure 1 : Un contrôleur RAID
Un contrôleur RAID est une carte qui gère les unités de disque physiques et les présente
au système d’exploitation sous forme d'unités logiques.
Page 3 sur 14
Figure 2 : Rôle du contrôleur RAID
Au niveau d’un serveur, un contrôleur RAID est branché à la carte mère et permet de
connecter plusieurs disques durs.
Figure 3 : Un contrôleur RAID sur lequel est branché quatre disques durs
Un contrôleur RAID est composé de :
• un processeur dédié pour exécuter le niveau ou l’application RAID
• un ensemble de connecteurs permettant de connecter des disques durs
Page 4 sur 14
• une mémoire cache DRAM pour la sauvegarde et la restauration. L’opération
stockée par le système d’exploitation sur le disque logique est transférée via le
contrôleur RAID pour stockage physique sur le disque dur mais avant d’être
stockée sur le disque dur, elle est stockée temporairement sur la mémoire cache
du contrôleur RAID.
• pins pour connecter une batterie. La batterie est nécessaire pour alimenter la
mémoire cache RAM du contrôleur RAID en cas de coupure de courant pour ne
pas perdre l’information stockée dans la RAM étant donné qu’elle est une mémoire
volatile.
Les niveaux du RAID
RAID 0 (Striping) : Répartir les données sur les disques
Niveau de RAID 0 généralement appelé striping. En gros, les données sont réparties sur
plusieurs disques (minimum 2). Les opérations de données sont gérées par plusieurs
disques au lieu d'un, ce qui augmente les performances d'E / S et améliore le
fonctionnement général du serveur.
Figure 4 : RAID 0
Page 5 sur 14
Les disques physiques formant la matrice RAID (la matrice RAID désigne le disque
logique formé par l’ensemble des disques physiques) doivent avoir la même taille
et la même vitesse. La capacité totale correspond à la somme de la capacité de tous
les disques. Par exemple : si vous combinez deux disques de 1 To en mode RAID 0, la
capacité totale sera de 2 To (1 To + 1 To).
Si vous avez des disques durs de tailles différents, la capacité totale sera égale à la capacité
minimale entre les disques durs multiplié par le nombre de disques durs.
On suppose que vous disposez de 4 disques durs de capacité C1, C2, C3 et C4, le mode
RAID 0 vous permet d’avoir une capacité totale de : 4* Min (C1, C2, C3, C4).
Si vous avez des disques de vitesses d’écritures différentes, la vitesse d’écriture du mode
RAID 0 correspond à celle du disque le plus lent en écriture.
Il n'y a pas de redondance pour le niveau RAID 0 car, en cas de défaillance d'un des disques
durs, l'ensemble de la matrice (le disque logique) échouera également.
Le RAID 0 est rapide puisque l’écriture d’une information se fait simultanément sur les
disques durs existants. Le temps d’écriture de (n bits) sur (m disques durs) est égal au
temps d’écriture de (n/m) bits sur un seul disque dur.
Cependant, il n’est pas performant car, en cas de défaillance d'un des disques durs,
l'ensemble de la matrice (le disque logique) échouera également.
RAID 0 est préférable pour les systèmes non critiques qui impliquent une activité de
lecture / écriture intense et un stockage plus important, par exemple : montage vidéo,
rendu d'image, etc.
RAID 1 (Mirroring) : Recopier les données sur plusieurs disques
Le niveau 1 de RAID s'appelle la mise en miroir, parce qu'il crée littéralement la copie des
données d’un disque sur un autre. RAID 1, comme le RAID 0, nécessite au moins deux
disques durs. RAID 1 se concentre sur la redondance plutôt que sur les performances.
RAID 1 nécessite exactement 2 disques de même taille et de même vitesse dans la
matrice.
Page 6 sur 14
Figure 5 : RAID 1
Lorsque l'un des disques tombe en panne, l'autre peut toujours fonctionner. Si vous avez
n disques, le système continue à fonctionner même si (n-1) disques tombent en panne. On
dit que le niveau RAID 1 est tolérant aux pannes.
Il n’y a aucun ajout de capacité à ce niveau, la capacité totale reste la même que s’il n’y
avait qu’un seul disque. Par exemple, la combinaison de deux disques de 1 To en mode
RAID 1 donnera une capacité totale de 1 To. Si vous avez par exemple 4 disques durs de
capacité différentes C1, C2, C3 et C4, alors le mode RAID 1 permet d’avoir une capacité
totale de Min (C1, C2, C3, C4).
Si vous avez des disques de vitesses d’écritures différentes, la vitesse d’écriture du mode
RAID 1 correspond à celle du disque le plus lent en écriture.
RAID 1 est le mieux utilisé pour les systèmes critiques nécessitant un fonctionnement
continu et pour lesquels les temps d'arrêt de stockage sont inacceptables, tels que :
serveur de fichiers, base de données financière, etc.
Page 7 sur 14
RAID 5 : répartir les données sur les disques durs avec contrôle de données
Le niveau RAID 5 correspond à la répartition avec la parité. RAID 5 partage également les
données sur plusieurs disques, comme RAID 0, mais ajoute une somme de contrôle de
parité sur chaque disque.
Figure 6 : RAID 5
La somme de contrôle de parité est une donnée qui peut être utilisée par le système pour
recréer les données manquantes d’un des autres disques en cas d’échec.
Trois disques au moins sont requis pour créer un disque logique en RAID 5. La parité, qui
est incluse avec chaque écriture, se retrouve répartie circulairement sur les différents
disques. Si on suppose que nous disposons de n disques durs, chaque bande est donc
constituée de (n-1) blocs de données et d’un bloc de parité. Ainsi, en cas de défaillance de
l'un des disques de la grappe, pour chaque bande il manquera soit un bloc de données soit
le bloc de parité. Si c'est le bloc de parité, ce n'est pas grave, car aucune donnée ne manque.
Si c'est un bloc de données, on peut calculer son contenu à partir des (n-1) autres blocs de
données et du bloc de parité. L'intégrité des données de chaque bande est préservée. Donc
non seulement la grappe est toujours en état de fonctionner, mais il est de plus possible
de reconstruire le disque une fois échangé à partir des données et des informations de
parité contenues sur les autres disques.
Page 8 sur 14
La manière dont la somme de contrôle de parité est ajoutée rend la création de la matrice
requise par au moins 3 disques, mais une matrice RAID 5 peut survivre lorsque l'un des
disques tombe en panne sans perte de données.
Exemple : On considère 4 disques durs A, B, C et D de taille identique et on veut créer
un disque logique en mode RAID 5.
1) Le système va répartir les trois premiers blocs de données sur les disques A, B et
C comme dans le mode RAID 0. Sur le disque D, un bloc de parité est construit en
fonction des blocs de données déjà crées sur les disques A, B et C. Sur le disque D,
le bloc de parité est égal au résultat de l’opérateur OU EXCLUSIF (XOR)
appliqué aux trois premiers blocs de données déjà écrits sur les disques A, B
et C.
D = A XOR B XOR C
2) Ensuite, il va répartir les données sur les disques A, B et D. Sur le disque C, le bloc
de parité est égal au résultat de l’opérateur OU EXCLUSIF (XOR) appliqué aux
trois premiers blocs de données déjà écrits sur les disques A, B et D.
C = A XOR B XOR D
3) Ensuite, il va répartir les données sur les disques A, C et D. Sur le disque B, le bloc
de parité est égal au résultat de l’opérateur OU EXCLUSIF (XOR) appliqué aux
trois premiers blocs de données déjà écrits sur les disques A, C et D.
B = A XOR C XOR D
4) Ensuite, il va répartir les données sur les disques B, C et D. Sur le disque A, le bloc
de parité est égal au résultat de l’opérateur OU EXCLUSIF (XOR) appliqué aux
trois premiers blocs de données déjà écrits sur les disques B, C et D.
A = B XOR C XOR D
5) Les opérations 1), 2), 3) et 4) sont répétées jusqu’à terminer les données à écrire.
Ainsi, les blocs de parité sont répartis de façon circulaire sur les quatre disques durs.
Chaque disque dur contient des blocs de données et des blocs de parité.
Page 9 sur 14
Figure 7 : Exemple de 4 disques en mode RAID 5
En cas de défaillance d’un disque, les données qui s'y trouvaient pourront être
reconstituées par l'opération OU EXCLUSIF (XOR). En effet, l’opérateur XOR a la propriété
suivante :
Si on a :
X= A1 XOR A2 XOR A3
alors
A1 = A2 XOR A3 XOR X
et
A2 = A3 XOR X XOR A1
et
A3= X XOR A1 XOR A2
Page 10 sur 14
C’est-à-dire que n’importe quel bloc de données ou bloc de parité perdu, à cause d’un
disque défaillant, peut être retrouvé en fonction des autres blocs de données ou de parité.
On voit donc que le RAID 5 ne supporte la perte que d'un seul disque à la fois, ce qui
devient un problème depuis que les disques qui composent une grappe sont de plus en
plus gros (1 To et plus), car le temps de reconstruction de la parité en cas de disque
défaillant est allongé (ce qui augmente la probabilité de survenue d'une nouvelle
défaillance car les autres disques durs sont sollicités de façon intensive durant la
reconstruction).
Pour limiter le risque il est courant d'ajouter un disque de rechange (spare), dédié au
remplacement immédiat d'un éventuel disque défaillant : en régime normal celui-ci est
inutilisé ; en cas de panne d'un disque, il prendra automatiquement la place du disque
défaillant. Cela nécessite une phase communément appelée recalcul de parité, consistant
à recréer sur le nouveau disque le bloc manquant (données ou parité) pour chaque bande.
Pendant le processus de recalcul de parité, le volume RAID reste disponible normalement,
l'ordinateur se trouve juste un peu ralenti.
La capacité de stockage totale de la matrice RAID 5, lorsqu’on dispose de n disques durs
de même taille, correspond au nombre de disques moins un :
Capacité totale = (n-1) * Capacité d’un disque dur
Si vous avez par exemple 4 disques durs de capacité différentes C1, C2, C3 et C4, alors le
mode RAID 5 permet d’avoir une capacité totale de 3 * Min (C1, C2, C3, C4).
Si vous avez des disques de vitesses d’écritures différentes, la vitesse d’écriture du mode
RAID 5 correspond à celle du disque le plus lent en écriture.
Le RAID 5 est plus tolérant aux pannes que RAID 0 et a une capacité de stockage
supérieure à RAID 1. RAID 5 est une option équilibrée qui offre à la fois des performances
et une redondance tout en maintenant la rentabilité. Il est préférable de l'utiliser pour les
systèmes nécessitant de l'espace et une activité de lecture intense.
Page 11 sur 14
RAID 10 : Combiner des disques en mode RAID 1 avec le mode RAID 0
Le niveau RAID 10 nécessite au moins 4 disques durs. En plus, le nombre total de disques
durs doit être pair. Il s’agit de former des groupes composés d’un nombre pair de disques
durs chacun. Ensuite, d’appliquer le RAID 0 sur les groupes de disques durs en
considérant chaque groupe comme un seul disque dur. Ensuite, appliquer le RAID 1 sur
chaque groupe en recopiant l’information sur les disques durs formant un groupe.
La capacité de stockage totale d'une matrice RAID 10 est le nombre de disques N divisé
par deux (N / 2). On suppose que vous disposez de 4 disques durs de même taille C, alors
la capacité totale est égale à (4* C) /2 = 2*C
Figure 8 : RAID 10
Le RAID 10 est l'option la plus chère parmi les autres, mais il offre plus de redondance et
un fonctionnement en lecture / écriture plus fluide par rapport au RAID 5. Il est très
recommandé pour tous les systèmes critiques, en particulier au niveau de l'entreprise.
RAID 0+1 : Combiner des disques en mode RAID 0 avec le mode RAID 1
Le niveau RAID 0+1 nécessite au moins 4 disques durs. En plus, le nombre total de disques
durs doit être pair. Il s’agit de former des groupes composés d’un nombre pair de disques
Page 12 sur 14
durs chacun. Ensuite, d’appliquer le RAID 0 sur les disques durs d’un groupe. Ensuite,
appliquer le RAID 1 sur chaque groupe en considérant chaque groupe comme un seul
disque dur.
La capacité de stockage totale d'une matrice RAID 10 est le nombre de disques N divisé
par deux (N / 2). On suppose que vous disposez de 4 disques durs de même taille C,
alors la capacité totale est égale à (4* C) /2 = 2*C
Figure 9 : RAID 0+1
RAID 50 : Combiner des disques en mode RAID 5 avec le mode RAID 0
Figure 10 : RAID 50
Page 13 sur 14
RAID 100 : Combiner des disques en mode RAID 10 avec le mode RAID 0
Figure 11 : RAID 100
En pratique, on peut configurer dans un même système de stockage ou dans un même
serveur des disques durs en un niveau RAID et d’autres disques durs en un autre niveau
RAID. C’est le contrôleur RAID qui fait la différence entre les deux niveaux. Par contre, le
système d’exploitation ne voit que des volumes logiques de stockage et ne connaît pas le
niveau RAID configuré. La figure ci-dessous illustre des disques (05 disques dans le cas de
cette figure) connectés à un fond de panier communiquant avec le contrôleur RAID pour
fournir 2 disques virtuels à l’hôte. Un disque virtuel en RAID 1 et un disque virtuel en RAID
5. Il s’agit de gérer les disques durs physiques en les décomposant par le contrôleur RAID
en un ou plusieurs disques virtuels ou logiques. Dans le cas de cette figure, 05 disques
physiques sont regroupés et décomposés en un disque virtuel en RAID 1 et un disque
virtuel en RAID 5.
Figure 12 : disque virtuel en mode RAID 1 et un disque virtuel en mode RAID 5
Page 14 sur 14