06/12/2021
Conteneurs Linux: l’isolation
et les namespaces
Anthony BUSSON
Exécution d’un processus
Un processus s’exécute au sein de son espace d’adressage (en RAM).
Il n’a pas le droit de lire ou d’écrire en dehors, il n’a pas directement accès aux
ressources (fichiers, réseau, etc.) : en cela il est par nature isolé.
L’interaction avec les ressources ou les autres processus se fait obligatoirement via des
appels systèmes.
Si il existe des services d’isolation, c’est forcément le système qui les implémentent.
User space
Espace d’adressage du processus
Accès à des
ressources
Processus
Code
Variables
SE
Piles
Appels systèmes
1
06/12/2021
Conteneurs: les outils linux
Nous nous intéressons à l’isolation sous Linux (en cours sous windows)
Les conteneurs sont basés sur des fonctionnalités du noyau Linux
namespace
cgroups
sécurité
namespace
Depuis 2002
Linux 2.4.19 (dernière version 5.15.5)
8 différents namespace depuis la version 5.6 du noyau Linux
Chaque type de namespace définit ce que le processus ou groupe de processus
peut accéder et modifie le comportement des appels systèmes associés
mount: montage des périphériques / de systèmes de fichiers
process ID (pid)
network: interface, table de routage, ports, iptable, etc.
ipc (inter processes communication)
UTS (Unix Time Sharing): host and domain name
user ID: mapping des ID
time namespace: le temps peut être différent d’un namespace à l’autre (depuis 2020)
Control group namespace
2
06/12/2021
Principe
Chaque processus appartient à chacun des namespace
Par défaut, un processus hérite des namespace de son père
Un processus peut créer son propre namespace
Par défaut, tous ses fils appartiendront au même namespace (sauf nouvel appel
à unshare)
Namespaces du Namespaces du
processus père fork processus père
PID MOUNT NET IPC PID MOUNT NET IPC
UTS USER CGROUP TIME UTS USER CGROUP TIME
Principe
Chaque processus appartient à chacun des namespace
Par défaut, un processus hérite des namespace de son père
Un processus peut créer son propre namespace
Par défaut, tous ses fils appartiendront au même namespace (sauf nouvel appel
à unshare)
Namespaces du
processus père fork Namespaces du
processus père
PID MOUNT NET IPC PID MOUNT NET IPC
UTS TIME CGROUP UTS TIME CGROUP
fork
Namespaces du
processus père
PID MOUNT NET IPC
UTS TIME CGROUP
3
06/12/2021
Identifiant d’un namespace
Un namespace est identifié par un numéro d’inode.
Tous les processus appartiennent à un namespace pour chaque catégorie
(7 sous les versions actuelles de Linux/Ubuntu)
Chaque processus a un lien symbolique vers chacun de ses namespaces
L’inode pointé a un numéro (d’inode) et un nom qui identifie le namespace
Tous les processus appartenant au même namespace ont ce même lien
symbolique
/proc/<pid>/ns/<leLien>
lsns
La commande lsns liste les namespace d’un processus
Type de Nombre de Plus petit Commande
Identifiant du namespace processus PID dans (processus) pour
namespace: c’est un Voir slide dans ce ce ns lequel ces ns ont été
inode précédent namespace affichés.
4
06/12/2021
namespace pid
Isolation des processus
Lorsqu’un processus est assigné a un nouveau namespace « pid »
Il récupère le pid 1 dans son propre namespace
Ses fils auront les pid 2, 3, etc.
Les processus ne peuvent interagir qu’avec les processus de leur propre
namespace ou des namespace enfants
Interagir = utiliser des appels systèmes avec eux (signaux, etc.)
Namespace pid: détail (1)
Les namespace sont emboîtés (nested)
Arbre correspondant
namespace root
namespace 110 namespace
Pid
Pid root
1
2 1
namespace 117
3 2
Pid
110 3
1 namespace
111 4 namespace
2 110
113 5 115
115
116 namespace 115
117 Pid
118 1 namespace
2 117
Le processus de pid 117 a 3 PID: un dans son propre namespace (1 ici), et un dans chacun des
namespaces de niveau supérieur (4 et 117).
5
06/12/2021
Namespace mount
Isole les points de montages pour chacun des « mount » namespace
Chaque namespace « mount » a sa liste de points de montage
Intérêt: monter des parties du système qui seront propre au processus de
ce namespace (et pas visible par les autres processus).
On peut donc avoir des dossiers qui sont les mêmes que ceux du SE et d’autres
qui sont locales au namespace (suivant ce qui a été monté).
Processus 1001 Processus 1002: ns mount différent.
\ \
Ce point de
montage
n’est visible
bin etc usr boot bin etc usr boot
que par les
processus de
ce nouveau
ns mount.
cmd1 cmd2 cmd3 cmd4
Namespace UTS et user
Namespace UTS: Permet de changer le hostname et domainname
Et aussi le NIS name (peu utilisé)
Namespace user (exemple du « root mapping ») :
Associe l’uid 0 / gid 0 au processus qui créer le nouveau namespace
L’ensemble des namespace créer en même temps appartiennent à ce nouveau
namespace user
Les capabilities de ces nouveaux namespace sont accessibles par cet utilisateur
root (hostname, network, etc.).
Pour les autres namespaces, le root local n’a pas les droits.
Fonctionnement: mapping entre l’uid/gid du namespace et celui du host.
6
06/12/2021
Exemple namespace user: le root mapping
Appartiennent tous au ns user 1
PROC Les droits/capabilities sont associés
ns user 1 ns net 1 ns pid 1 ns mount 1 aux utilisateurs/root du ns user 1
1
Création d’un processus fils avec la création
de nouveaux namespace: user et net.
Pour les appels-systèmes touchant
PROC ns user 2 ns mount 1 aux ns user et net, on regarde les
ns net 2 ns pid 1
2 privilèges de l’utilisateur dans le
name space user 2.
Pour les appels systèmes des ns pid
et mount on regarde les privilèges
de l’utilisateur dans le namespace
user 1.
Namespace net
Permet d’isoler les aspects réseau des processus.
Pour chaque net namespace, les éléments suivants lui sont propres:
interface
Une table de routage, une table arp
Régles de filtrage (iptable)
Etc.
Les commandes doivent s’appliquer au bon namespace
7
06/12/2021
Namespace net
Namespace net root Namespace net différent
Accès
aux RT Cache ARP RT Cache ARP
cartes
physiques
Interface netfilter Interface netfilter
Par défaut le nouveau
namespace net n’a pas
accès au réseau.
Namespace net: se connecter au
namespace root
Interface virtuel
Interface virtuel
Namespace net root Namespace net différent
Accès
veth
veth
aux RT Cache ARP RT Cache ARP
cartes
physiques
Interface netfilter Interface netfilter
Par défaut le nouveau namespace net n’a pas accès au réseau.
Des interfaces virtuelles (dans chaque namespace) permettent d’interconnecter les
namespace net entre eux et potentiellement d’accéder aux interfaces physiques via le
namespace root.
8
06/12/2021
Namespace net: utilisation d’un bridge
interne Namespace net différent
Interface virtuel
veth
RT Cache ARP
Namespace net root
Interface virtuel Bridge Linux Interface netfilter
Accès
Ou
veth
aux RT Cache ARP
cartes
physiques Bridge openswitch Namespace net différent
Interface virtuel
Interface netfilter
veth
RT Cache ARP
Interface netfilter
Interface virtuel veth
Namespace net différent
RT Cache ARP
Interface netfilter
Possibilité de créer un ou des « bridges » internes au système. Ils seront utilisés pour
interconnecter les namespace net.
Namespace net: topologie arbitraire
Namespace net différent Namespace net différent
Interface virtuel
Namespace net root
Interface virtuel
Interface virtuel
Interface virtuel
Accès
veth
aux RT Cache ARP
veth
veth
veth
RT Cache ARP RT Cache ARP
cartes
physiques
Interface netfilter
Interface netfilter Interface netfilter
Il est possible de créer des topologies arbitraires avec un jeu d’interfaces virtuelles,
éventuellement des bridges, et des routes adaptées.
Les namespaces peuvent alors avoir des rôles différents, de filtrages par exemple.
9
06/12/2021
Namespace IPC
Isolation des IPC system V
Sémaphores
Files de messages
Mémoire partagée
Les commandes
lsns: affiche les ns d’un processus
unshare:
associe un namespace à un processus existant
créer un processus avec un ou des namespaces différents
nsenter:
permet de taper des commandes associés à certains namespace
Changer l’utilisateur
Monter des systèmes de fichiers ou périphériques
Changer le hotsname
Etc.
10
06/12/2021
cgroups (control groups)
Depuis 2008 (Linux version 2.6.24)
Bien distinguer les cgroups (ci-dessous) et le namespace cgroup (slides
suivants)
Limite l’usage des ressources pour un ensemble de processus
Priorisation: limite l’usage CPU
Mémoire: alloue un volume maximum de mémoire au groupe
Comptabilité: compte le temps CPU
Isolation: un groupe de processus sera associé à des namespace (déjà fait).
Actuellement: cgroup version 2
cgroups: fonctionnement
Les cgroups sont créés/supprimés au travers de dossiers dans le répertoire
suivant (pour le cpu ici / cela peut être memory aussi):
/sys/fs/cgroup/cpu/
Le cgroup initial incluant tous les processus est le cgroup « / » se trouvant à la
racine de /sys/fs/cgroup/cpu
La création d’un cgroup peut se faire avec mkdir:
mkdir /sys/fs/cgroup/cpu/myCgroup
Pour ajouter un processus à ce cgroup, il faut ajouter son pid dans le fichier
/sys/fs/cgroup/cpu/myCgroup/[Link]
Les fils appartiennent aux cgroups de leur père.
11
06/12/2021
cgroups: création des limites
CPU:
On alloue des ressources sur une base globale de 1024
Par exemple: 512 limitera à 50% du CPU
Alloué dans le fichier /sys/fs/cgroup/cpu/myCgroup/[Link]
Mémoire:
On alloue en nombre d’octets
/sys/fs/cgroup/memory/myCgroup/memory.limit_in_bytes
cgroup hierarchy
Cgroup est un moyen de limiter l’accès aux ressources CPU et mémoires
Il est possible de créer une hierarchie entre les cgroups.
cgroup root Hierarchie de processus:
Process 1001 • L’ensemble des proc se partagent les
Process 1002 ressouurces du cgroup root.
• Les processus du cgroup 1005 se
cgroup 1005 partagent des ressources plus
contraignantes que le cgroup root, etc.
Process 1005
Process 1006
cgroup 1009
Process 1009
12
06/12/2021
cgroup namespace
Permet de créer des cgroup différents qui ne se voient pas (isolation)
Racine différente pour chaque namespace
cgroup root cgroup root cgroup root
Process 1001 Process 2001 Process 3001
Process 1002 Process 2002 Process 3002
cgroup 1005 cgroup 2005 Cgroup 3005
Process 1005 Process 2005 Process 3005
Process 1006 Process 2006 Process 3006
cgroup 1009 cgroup 2009 cgroup 3009
Process 1009 Process 2009 Process 3009
Sécurité: contrôler l’accès aux
ressources (appels systèmes)
Il existe 3 moyens de contrôler les appels systèmes qu’un processus a le
droit d’appeler.
Namespace user
Capabilities seccomp
Root mapping
Root au sein de son Autoriser/interdire Autoriser/interdire les
Namespace. chaque tâches systèmes avec la
tâche système. granularité des appels
systèmes.
13
06/12/2021
Sécurité: capabilities
• Les capabilities sont associés à un processus donné.
• Ils regroupent des appels systèmes.
• Permet de limiter les droits root (pour certains processus)
• Permet d’augmenter les droits de certains processus (non root).
• Les capabilities sont modifiables mais héritées du père.
Liste de toutes les « capabilities » Processus en cours d’exécution
CAP_SYS_NICE CAP_SYS_NICE
Capabilities
autorisé
CAP_SYS_ROOT CAP_SYS_ROOT
CAP_SYS_TIME CAP_SYS_TIME
Capabilities
… … Non autorisé
Sécurité
L’appel système seccomp(2):
Filtre les appels systèmes qui peuvent être exécutés par un processus
Liste blanche
Liste noir
Une liste préétablie: read, write, exit, etc.
Les fils récupèrent les mêmes filtres que leur père.
14
06/12/2021
Conclusion Un processus a initié une isolation:
namespaces
• Montages (mount) isolés
• Isolation des processus fils
• Isolation du réseau
• Hostname propre
• Privilèges limités au namepaces
cgroups
Groupe de
• Allocation limitée de CPU et
processus 1
mémoire
capabilities
Host • Limitation des appels systèmes
Seccomp
possibles
Groupe de
processus 2
Conclusion
Processus 101 (ns, cgroups, setccomp)
Processus 101 Proc. 102 Proc. 103
Proc. 106 Proc. 104 Proc. 105
Host
Tout l’arbre généalogique hérite de l’isolation.
15