Stratégies de Tromperie en Cybersécurité
Stratégies de Tromperie en Cybersécurité
Résumé—Cet article étudie un jeu multicouche représentant un système peut le reconnaître. La théorie de l'hyperjeu, qui modélise diverses perspectives
cyberphysique dans lequel un défenseur doit protéger un ensemble de subjectives des participants dans des conditions d'incertitude, est utilisée par Cho
ressources d'un adversaire. Le défenseur utilise des actions trompeuses dans
et al. [7] pour évaluer l'efficacité des signaux de tromperie défensive pour dissuader
les domaines cyber et physique. Les deux domaines sont interconnectés et
les attaquants. De plus, Wan et al. [8] discutent des stratégies de tromperie basées
les gains des joueurs dépendent de leurs actions dans les deux domaines.
Nous étudions la complexité de ce jeu multidomaines et utilisons une sur l'hyperjeu pour contrer les attaques de menaces persistantes avancées (APT),
approche à double oracle pour le résoudre, en présentant des programmes exécutées par étapes séquentielles comme indiqué dans le cadre de la chaîne de
linéaires en nombres entiers pour les oracles des joueurs. destruction cybernétique.
En raison de la grande dimensionnalité de l'espace d'action combiné du
L'application de la théorie des jeux aux mécanismes de cyberdéfense,
défenseur, le jeu devient intraitable même pour les réseaux de taille moyenne.
Par conséquent, nous proposons un oracle de défense heuristique pour notamment par le biais de techniques de tromperie, est un axe clé de la littérature
résoudre efficacement les problèmes à grande échelle. Nos simulations sur la cybersécurité [9]–[11]. La théorie des jeux propose une approche structurée
valident que la méthode proposée peut résoudre efficacement les problèmes à grande échelle. les interactions entre attaquants et défenseurs dans des conditions
pour modéliser
Les résultats numériques démontrent qu'en utilisant l'oracle heuristique, le d'incertitude. Différents types de jeux sont utilisés pour étudier différents scénarios
gain du défenseur est, en moyenne, dans les 16 % de la solution optimale
d'attaque/défense. Les jeux bayésiens, un sousensemble de la théorie des jeux,
pour des instances de problèmes aléatoires.
sont particulièrement efficaces dans ce domaine, offrant un cadre robuste pour
I. INTRODUCTION développer des stratégies optimales de cyberdéception en tenant compte des
doutes et des erreurs de jugement potentiels de l'attaquant. La théorie des jeux
Il a été démontré que la cybertromperie joue un rôle crucial dans la lutte contre
améliore non seulement l'efficacité des stratégies de cyberdéception, mais
les désavantages informationnels auxquels sont confrontés les défenseurs face
contribue également de manière significative à la résilience globale des défenses
à des cybermenaces inconnues [1]. Son objectif principal est de développer des
de cybersécurité [12]. Une nouvelle approche théorique des jeux pour analyser et
tactiques robustes qui améliorent les stratégies défensives en trompant les parties
atténuer les vulnérabilités zeroday a également été introduite dans [13]. De plus,
qui tentent de mener des attaques importantes.
l'interaction entre la théorie des jeux et l'apprentissage automatique dans le
Dans la même lignée que la tromperie physique classique [2], la cybertromperie
développement de stratégies de déception défensive est explorée dans [5]. Enfin,
consiste à créer des environnements, des systèmes ou des données conçus pour
un cadre théorique de jeu stratégique pour l'allocation de pots de miel au sein de
tromper les attaquants, redirigeant ou empêchant ainsi leurs actions de cibler des
réseaux tactiques dynamiques, visant à renforcer la cybertromperie, est étudié
actifs précieux [3]. Le cœur de la cybertromperie est sa nature proactive,
dans [14].
transformant les mécanismes de défense traditionnels en positions de sécurité
dynamiques, imprévisibles et plus résilientes. En incorporant des éléments
Dans certains scénarios, le défenseur et/ou l'attaquant peuvent manquer
trompeurs dans les cadres de cybersécurité, les défenseurs peuvent créer un
d'informations complètes sur l'état du jeu ou sur les actions de l'autre. Des jeux
environnement plus ambigu et plus difficile pour les attaquants, augmentant le coût
stochastiques partiellement observables peuvent modéliser de tels scénarios [15].
et la difficulté de leurs activités malveillantes [4]. Cette stratégie permet non
seulement de détecter les menaces de manière précoce, mais renforce également
la résilience globale du système, en utilisant la désinformation et l'ambiguïté Tromperie physique : Similaire à la cybertromperie, la tromperie physique
comme outils de défense [5]. implique la manipulation stratégique des environnements et des ressources
physiques pour tromper les adversaires. En général, elle fait appel à des tactiques
Notre objectif dans cet article sera d’étudier les attaques coordonnées qui se telles que le déploiement d'objets leurres, l'utilisation de camouflage et le placement
déroulent simultanément dans des systèmes couplés cyber et physiques et de stratégique d'informations trompeuses pour créer de fausses perceptions sur les
développer des politiques de tromperie efficaces qui fonctionnent dans ce contexte capacités, les intentions et les ressources précieuses du défenseur [16], [17].
L'attaque a été compromise en 2015 en raison de la disponibilité d'informations Dans le domaine physique, le défenseur déploie une flotte de ressources
open source. L'attaque a commencé par un email de phishing diffusant le physiques, telles que des véhicules terrestres sans pilote (UGV), pour protéger
logiciel malveillant BlackEnergy, permettant un accès non autorisé aux les actifs physiques contre d'éventuelles attaques. Ces ressources physiques
données sensibles et au contrôle du système. Cette violation a conduit à l'arrêt sont placées stratégiquement à divers endroits essentiels à la protection de
à distance des sousstations et a été suivie d'attaques de logiciels malveillants l'environnement. Cependant, l'efficacité de ces ressources physiques est
qui ont détruit des fichiers critiques et empêché la récupération du système. influencée par leurs systèmes de contrôle, qui résident dans le domaine
Une attaque par déni de service (DoS) ultérieure sur les centres d'appels a cybernétique. Le domaine cybernétique comprend un réseau de nœuds et de
laissé près de 225 000 consommateurs sans électricité pendant plusieurs heures [19].
bords représentant des ordinateurs, des serveurs et d'autres périphériques
Un autre exemple récent est l’attaque par ransomware qui a touché le réseau réseau. Les nœuds contrôlant les ressources physiques sont essentiels, car la
Colonial Pipeline aux ÉtatsUnis en avril 2021 [20]. compromission de ces nœuds peut perturber les opérations des ressources
L’intégration de la tromperie dans le domaine physique dans les cadres de physiques qu'ils contrôlent. Par conséquent, la protection de ces nœuds
sécurité améliore la capacité du défenseur à protéger les actifs critiques en cybernétiques est essentielle pour garantir la sécurité des actifs physiques.
augmentant la complexité et l’incertitude auxquelles sont confrontés les
adversaires, augmentant ainsi le coût et le risque de leurs activités malveillantes. L'adversaire opère dans les deux domaines, dans le but d'attaquer
directement les ressources physiques et de compromettre les nœuds
Multidomaine : Dans le paysage de la modélisation de la cybersécurité, en cybernétiques qui les contrôlent. Si l'adversaire parvient à compromettre un
particulier lorsqu’il s’agit d’intégrer des éléments de cybertromperie, il est nœud cybernétique, la ressource physique correspondante devient vulnérable,
évident que les jeux joués au sein d’une seule couche ou d’un seul domaine la rendant potentiellement incapable de répondre aux attaques physiques.
ne parviennent pas à saisir la dynamique complexe des scénarios Lorsqu'une ressource physique est directement attaquée, la ressource physique
multidomaines. Les approches monocouches traditionnelles ne parviennent la plus proche doit réagir pour atténuer l'attaque.
pas à prendre en compte l’interaction complexe entre les domaines cybernétique
et physique, qui est essentielle pour une compréhension holistique des Le défenseur emploie diverses tactiques trompeuses pour renforcer la
menaces de sécurité et des stratégies d’atténuation. Cette insuffisance souligne sécurité. Dans le domaine cybernétique, des honeypots peuvent être déployés
la nécessité d’un modèle multidomaine qui englobe deux couches distinctes : pour attirer et neutraliser les cyberattaques. Dans le domaine physique, le
l’une représentant l’espace cybernétique et l’autre l’espace physique. Une telle défenseur peut désigner certains agents physiques comme protégés, en les
approche bifurquée permet une simulation et une analyse plus nuancées, dotant de mesures de sécurité avancées pour résister aux cyberattaques. Cela
permettant aux défenseurs de concevoir des tactiques de tromperie plus garantit que ces agents restent opérationnels même si leurs nœuds
sophistiquées et plus efficaces qui couvrent à la fois les spectres numériques cybernétiques de contrôle sont compromis.
et physiques de leurs environnements opérationnels. Par conséquent, cette En intégrant des stratégies dans les deux domaines, le défenseur vise à
évolution vers des modèles multidomaines marque une étape cruciale dans le créer un mécanisme de défense robuste qui minimise le taux de réussite de
développement de stratégies de cybersécurité complètes. l'adversaire et maximise la protection des actifs précieux. Nous décrivons
maintenant en détail les deux domaines ainsi que les rôles de l'attaquant et du
Nos contributions peuvent être résumées comme suit : défenseur.
• Nous proposons un nouveau cadre pour protéger un système cyberphysique
en tant que jeu de tromperie multidomaines. Le cadre proposé garantit A. Domaine physique
une tromperie bien coordonnée et cohérente entre les domaines cyber Nous modélisons le domaine physique comme un graphe pondéré G1 =
et physique. • Nous explorons la complexité du jeu (V1, E1), où V1 représente l'ensemble des sommets et E1 l'ensemble des
multicouche développé en montrant que la recherche de l'équilibre de Nash arêtes. Chaque nœud v V1 correspond à un emplacement qui doit être
à l'aide des techniques de pointe existantes échoue même sur les protégé par le défenseur. Chaque nœud v a un poids associé (v), qui signifie
réseaux de taille moyenne. le gain pour l'attaquant s'il attaque avec succès ce nœud. Les arêtes (i, j) E1
sont pondérées par wi,j , représentant la distance entre les nœuds i et j.
• Nous proposons une nouvelle approche pour résoudre le jeu de tromperie
multidomaines en exploitant l'algorithme du double oracle dans des
environnements multicouches. Nous nous concentrons plus Le défenseur dispose d'une flotte de N agents physiques, tels que des
particulièrement sur les performances de véhicules terrestres sans pilote (UGV), qui sont déployés à des sommets
l'oracle du défenseur. • Enfin, nous évaluons l'évolutivité du jeu proposé. spécifiques {v1, v2, . . . , vN } V1 dans le graphe physique.
Ces agents ont pour mission de protéger les emplacements de l'environnement.
II. ÉNONCÉ DU PROBLÈME
Inversement, un adversaire opère dans le même environnement, dans le but
Dans cet article, nous étudions un scénario multidomaines dans lequel le d'attaquer ou de compromettre ces emplacements ou ces biens physiques.
défenseur protège un ensemble de ressources contre un adversaire cherchant
à lancer des attaques. Le scénario englobe deux domaines interconnectés : le Lorsqu'un nœud u V1 est ciblé par une attaque, l'agent physique le plus
domaine physique et le domaine cybernétique. Bien que notre scénario soit proche de l'emplacement attaqué est alerté et peut répondre. La probabilité
formulé dans le contexte d'un problème réaliste spécifique, nous l'utilisons d'une attaque réussie est une fonction monotone f de la distance entre le lieu
également plus largement pour démontrer comment nous pensons que des de l'attaque et l'emplacement de l'agent physique répondant. Formellement,
approches multidomaines peuvent être développées en général.
Machine Translated by Google
la probabilité qu'une attaque sur v V1 soit réussie est donnée par P[attaque sur v domaine cybernétique
égale au poids du sommet attaqué ; si l'attaque échoue, l'attaquant encourt une pénalité
de capture D. Le gain du défenseur est le négatif du gain de l'attaquant.
B. Cyberdomaine Nous
Dans le cyberespace, un sousensemble de sommets Ve V2 représente les Dans un scénario pratique, cela pourrait signifier que le défenseur a alloué des
nœuds d'entrée, tandis qu'un autre sousensemble Vt V2 représente les nœuds ressources pour mettre en œuvre un chiffrement avancé et des mécanismes
cibles. Les nœuds d'entrée servent de points d'entrée dans l'environnement d'authentification robustes pour les commandes envoyées depuis le nœud
cybernétique, tandis que les nœuds cibles sont les emplacements que l'adversaire cybernétique à ces agents physiques protégés. Cela empêche l'attaquant de les
cherche à compromettre ou à attaquer. désactiver par des moyens cybernétiques. En déployant stratégiquement des
Ces nœuds cibles correspondent aux nœuds qui contrôlent les N agents honeypots dans le domaine cybernétique et en renforçant certains agents
physiques. Pour faciliter la notation, dans cet article, nous supposons que chaque physiques, le défenseur peut créer une stratégie de défense en couches qui
nœud cible contrôle un agent physique, bien que les résultats présentés puissent améliore la sécurité des systèmes physiques et cybernétiques.
être étendus au cas où plusieurs agents physiques sont contrôlés par un nœud actifs.
La combinaison de ces actions d'attaquant de chaque domaine donne les bords le long du chemin. Soit le nœud cible du chemin pa noté ui .
l'ensemble des actions de l'attaquant pour le jeu complet, noté Aa = A1. Par Si ui est attaqué avec succès et que l'agent physique i
× A2 . une action d'attaquant peut être écrite comme aa = (pa, va), où
conséquent, n'est pas protégé (c'estàdire i / {i1, . . . , ig}), alors l'agent physique i est
un un
pa est le chemin d'attaque dans le cybergraphe et va est le sommet d'attaque compromis et ne peut pas répondre à une attaque physique. Dans ce cas, les
dans le graphe physique. agents physiques restants occupent les emplacements Vocc = {v1, . . . , vi−1,
Il convient de noter que même si l'ensemble des actions d'un joueur dans vi+1, . . . , vN }. Cependant, s'il y a un honeypot sur le chemin d'attaque, ou si
ce cas est le produit cartésien des actions disponibles dans chaque domaine, l'agent physique i correspondant au nœud cible cybernétique attaqué ui est
cela n'est pas toujours vrai, comme nous allons le voir dans le cas des actions « protégé », alors l'agent physique i reste actif, et tous les agents physiques
du défenseur. Par conséquent, ce jeu sert d'exemple illustratif mettant en occupent les emplacements dans l'ensemble Vocc = {v1, . . . , vN }.
évidence les deux scénarios : l'un où les actions d'un joueur dans un
environnement multidomaines forment le produit cartésien des actions dans Considérez une attaque physique lancée au sommet va, le gain de
chaque domaine, et l'autre où le produit cartésien ne parvient pas à englober l'attaquant est exprimé comme :
toutes les actions disponibles.
Ra(aa, ad) = f(wva,s) (va) − (1 − f(wva,s))D, où s = arg minx Vocc wx,v,
B. Actions du défenseur
D est la pénalité de capture et f : R → [0, 1] est une fonction monotone représentant la
Dans le domaine cybernétique, le défenseur alloue h honeypots aux arêtes
probabilité que l'attaquant attaque avec succès le sommet va. Plus l'agent physique répondant
du graphe G2. Par conséquent, l'ensemble des actions disponibles pour le
est éloigné du sommet attaqué, plus la probabilité de réussite de l'attaque est élevée. Puisqu'il
défenseur dans le domaine cybernétique, noté A2 , se compose des |E2| d,
s'agit d'un jeu à somme nulle, la récompense du défenseur est Rd = −Ra.
h
allocations possibles de pots de miel.
Dans le domaine physique, le défenseur alloue N agents dans le graphe
G1 et désigne g de ces agents comme « protégés ». Ainsi, l'ensemble des
|V1| N
actions A1 comprend des actions possibles. D. Équilibre du jeu
d N g
Bien que les agents physiques soient homogènes par nature, c'estàdire Étant donné que le jeu de tromperie multidomaines développé cidessus est fini (c'està
qu'ils partagent les mêmes capacités et caractéristiques, l'affectation spécifique dire que chaque espace d'action est fini), il admet un équilibre de Nash en stratégie mixte
de ces agents aux sommets du graphe physique devient cruciale lorsqu'on [21], [22]. Une stratégie mixte est une distribution de probabilité sur l'espace d'action d'un
considère leur connexion aux nœuds cibles cybernétiques. En particulier, joueur. Une méthode pour trouver cette stratégie mixte est Double Oracle, abordée dans la
chaque nœud cible cybernétique ui est directement connecté à un agent section suivante.
physique correspondant, appelé agent i. Par conséquent, l'affectation d'agents
physiques aux sommets du graphe physique influence directement l'efficacité
IV. APPROCHE DU DOUBLE ORACLE
de la stratégie de défense dans le domaine cybernétique. Cette connexion
entre les agents physiques et les nœuds cibles cybernétiques souligne la Comme nous l'avons vu dans la section I, l'oracle double (DO) est souvent
nécessité de prendre en compte non seulement l'affectation des agents aux utilisé pour résoudre des jeux avec des espaces d'action extrêmement grands.
sommets, mais également l'affectation spécifique des agents aux nœuds L'algorithme commence par résoudre un jeu restreint relativement petit.
cibles cybernétiques. L'algorithme ajoute de manière itérative les meilleures stratégies de réponse
Pour capturer cette relation, nous introduisons l'ensemble A12 qui d, au jeu restreint jusqu'à ce qu'aucun joueur ne puisse améliorer sa stratégie,
représente toutes les permutations d'allocations d'agents physiques au sein ce qui conduit à une convergence vers un équilibre de Nash ou un équilibre
d'une action physique donnée. Par conséquent, dans le scénario multi de Nash approximatif [23]. L'algorithme du double oracle s'arrête lorsqu'aucun
domaines, l'ensemble des actions de défense est donné par Ad = A1. Cela joueur ne peut trouver une meilleure stratégie que celles déjà incluses dans le
implique qu'au×lieu
A2 × A12ensemble
d'un d. d'emplacements pour les agents physiques jeu restreint.
d d
dans le cybergraphe, un Nuplet est requis, où le i agent physique est connecté Étant donné que l’algorithme proposé repose sur l’algorithme DO, nous
Le
à ui dans le cybergraphe.
ème ème élément désigne l'emplacement du i présentons un aperçu des principales étapes et composants de DO.
Étape 1, initialisez l'ensemble des stratégies pour les deux joueurs (défenseur
et attaquant) avec un petit ensemble de stratégies initiales. Les stratégies
Par conséquent, une action de défenseur peut être représentée comme ad = (v1, . . . , vN ),
initiales peuvent être sélectionnées de manière aléatoire ou à l'aide d'une
{e1, . . . , eh}, {i1, . . . , ig} , où : • (v1, . . . , vN ) désigne les sommets
connaissance experte du domaine. Étape 2, définissez le jeu restreint en
physiques occupés par les agents physiques respectifs, • {e1, . . . , eh} E2 représente
utilisant les stratégies initiales. Étape 3, résolvez le jeu restreint pour trouver
l'ensemble des arêtes du pot de miel, •
l'équilibre actuel (c'estàdire le métaNE) pour le jeu restreint. Étape 4,
{i1, . . . , ig} indique quels agents physiques sont désignés comme protégés.
calculez les meilleures stratégies de réponse pour les deux joueurs par rapport
à l'équilibre actuel en utilisant l'oracle de chaque joueur. L'oracle du défenseur
trouve la meilleure stratégie de réponse à la stratégie mixte actuelle de
C. Récompenses
l'attaquant, et l'oracle de l'attaquant trouve la meilleure stratégie de réponse à
Étant donné les actions aa = (pa, va) pour l'attaquant et ad = (v1, . . . , vN ), la stratégie mixte actuelle du défenseur. Étape 5, ajoutez les meilleures
{e1, . . . , eh}, {i1, . . . ,ig} pour le défenseur, définissons les récompenses stratégies de réponse aux ensembles respectifs de stratégies pour les joueurs
pour les deux joueurs. et mettez à jour le jeu restreint avec les nouvelles stratégies. Itérez sur les
Premièrement, dans le domaine cybernétique, le nœud cible cybernétique étapes précédentes (étape 2 à étape 5) jusqu'à ce que la condition d'arrêt soit
du chemin pa est attaqué avec succès s'il n'y a pas de honeypot sur aucun des remplie. La condition d'arrêt est remplie
Machine Translated by Google
Postes d'agent • ca : variable continue représentant le gain attendu par le défenseur pour l'action
physique
de l'attaquant a.
sélectionne l'action a parmi son ensemble actuel d'actions soit P[attaque a]. Le problème de e E
l'oracle du défenseur peut alors être décrit comme suit. hdp ≥ Ipeλe p (11)
e E
Problème IV.1 (Problème de l'oracle du défenseur). Trouver la meilleure environ ≤ (1 − dp)(1 − zr) xvjrµ(v, j)
action de réponse a Ad pour le défenseur qui maximise le gain attendu du j
défenseur, étant donné la stratégie mixte π de l'attaquant sur les actions a¯ + (dp + zr) xvj0µ(v, j), a (12)
Aa. j
Le problème IV.1 est NPdifficile puisque résoudre l'oracle du défenseur, Dans la contrainte (12), v est le sommet d'attaque dans l'action a de
avec h = g = 0, et aucun chemin de cyberattaque, équivaut à résoudre le l'attaquant, p est le chemin de cyberattaque dans l'action a et r est l'agent
problème kmédian [24] pour N agents physiques sur le graphe G1. physique associé au nœud cybernétique cible du chemin d'attaque p.
De plus,
Cidessous, nous présentons un programme entier pour résoudre le problème
µ(v, j) = (1 − f(wv,j ))D − f(wv,j ) (v). (13)
problème de l'oracle de Fender. Ses variables sont les suivantes :
• xvjr {0, 1} : indique si le sommet v V1 est attribué à un agent physique situé Dans la contrainte (10), Ipe est 1 si l'arête e est dans le chemin p et 0 sinon.
au sommet j V1 lorsque l'agent physique r est compromis par l'attaquant. Nous expliquons les contraintes du programme entier proposé dans la preuve
Nous avons également des variables xvj0 indiquant si le sommet v est attribué à de la proposition cidessous.
un agent physique situé au sommet j lorsqu'aucun agent n'est compromis par
Proposition IV.2. Le programme entier décrit cidessus résout le problème IV.1
l'attaquant.
de l'oracle du défenseur.
• yjr {0, 1} : indique si l'agent physique r est au sommet Preuve. Nous montrons d'abord que toute solution qui satisfait les contraintes
j V1. du programme en nombres entiers est aussi une solution au problème de
• zr {0, 1} : indique si l'agent physique r est protégé. • dp {0, 1} : indique l'oracle du défenseur. La contrainte (2) garantit que chaque emplacement j
si le chemin de cyberattaque p comporte un honeypot sur au moins un de ses bords. peut avoir au plus un agent, et la contrainte (3) garantit que chaque agent r
doit être à l'un des emplacements.
• λe {0, 1} : indique si l’arête e E2 possède un pot de miel. La contrainte (4) garantit que le nombre total d'agents doit
Machine Translated by Google
La contrainte (5) garantit que chaque sommet v est affecté à exactement un La résolution de ce problème ILP peut nécessiter beaucoup de calculs, en particulier
emplacement. La contrainte (6) garantit que si un sommet v est affecté à un agent à pour les problèmes de grande taille. Pour résoudre ce problème, nous proposons un
l'emplacement j alors qu'aucun agent n'est compromis, alors il doit y avoir un agent à solveur heuristique pour le problème de l'oracle du défenseur. Bien que cette
j. La contrainte (7) garantit que si un sommet v est affecté à un emplacement j alors heuristique ne fournisse pas toujours la solution optimale, elle est capable d'identifier
que l'agent r est compromis, il doit y avoir un agent à j autre que l'agent r. La contrainte une réponse appropriée pour le défenseur compte tenu de la stratégie actuelle de
(8) garantit que le nombre d'agents protégés est exactement g. La contrainte (9) l'attaquant dans un délai nettement plus court, ce qui la rend plus pratique pour les
garantit que le nombre de pots de miel placés sur les arêtes est exactement h. Les problèmes de plus grande taille. Nous évaluerons les performances de l'heuristique
contraintes (10) et (11) garantissent qu'un chemin de cyberattaque p est considéré dans la section des simulations.
comme protégé si au moins une arête du chemin possède un pot de miel. La contrainte
(12) garantit que le gain attendu pour le défenseur, ca, est correctement calculé selon
que le chemin d'attaque est protégé par un pot de miel ou que l'agent physique est Algorithme 1 : DEFENDERHEURISTICORACLE
protégé. Entrée : G1, G2, N, politique d'attaque π et ensemble d'actions actuel a
Aa
Sortie : Action du défenseur d Ad 1 pour les
Notez également que toute solution au problème de l'oracle du défenseur peut être chemins cybernétiques p dans un do
représentée par une solution réalisable du programme en nombres entiers. Étant donnée une 2 P[p] ← Probabilité que l'attaquant choisisse le chemin p 3 pour le
action pour le défenseur, nous pouvons attribuer les valeurs correspondantes aux variables
sommet v dans V1 do
xvjr, yjr, zr, dp et λe de telle sorte que toutes les contraintes soient satisfaites.
4 P[v] ← Probabilité que l'attaquant choisisse le sommet v
Par conséquent, le programme entier décrit cidessus modélise et résout 5 Résolvez ILP (14) pour trouver les allocations de pots de miel
correctement le problème de l'oracle du défenseur tel que défini dans le problème IV.1. 6 Résolvez ILP (15) pour trouver l'affectation d'agent physique 7 pour
chaque cybernœud cible que je fais
8 pi ← probabilité de réussite d'une cyberattaque sur un nœud
Notons que l'ensemble des contraintes (12) n'est pas linéaire dans les variables du
i
programme en nombres entiers. Afin de le convertir en programme linéaire en nombres
9 pour chaque agent physique i fais 10 R−i ←
entiers (ILP), nous ajoutons les variables u et u¯ au lieu de ca avec les contraintes
gain du défenseur sans agent i 11 R0 ← gain du défenseur avec tous
suivantes au lieu de la contrainte (12).
les agents présents 12 {i1, . . . , ig} ← indices des g agents avec les valeurs
1 − dp uvjp ≤ 1 − v, j, p
v, j, p 14 Affectez avec gourmandise des agents avec un R−i plus élevé à des nœuds cybernétiques
zT(p) uvjp ≥ xvjT(p) − dp
avec un pi plus élevé
− zT(p) u¯vjp ≤ xvj0 u¯vjp ≤ dp + zT(p) v, j, p
u¯vjp ≥ xvj0 + dp v, j, p
L'algorithme de l'oracle du défenseur heuristique est décrit dans l'algorithme 1.
+ zT(p) − 1 Ici, T(p) v, j, p
L'idée principale derrière l'heuristique est de diviser le problème en domaines
représente l'agent physique contrôlé par le v, j, p
cybernétique et physique et de résoudre les sousproblèmes plus petits dans chaque
nœud cybernétique qui est la cible du chemin p. La variable uvjp est 1 si le sommet v est domaine avant de combiner les solutions pour trouver l'action du défenseur.
assigné à un agent physique situé à j lorsque la cyberattaque sur le chemin d'attaque p est
réussie et que l'agent contrôlé par le nœud cible du chemin p n'est pas protégé. La variable Étant donné la probabilité que l'attaquant choisisse l'action de l'attaquant a = (p,
u¯vjp vaut 1 si le sommet v est affecté à un agent physique situé à j lorsque soit le chemin v), nous trouvons les probabilités marginales que l'attaquant choisisse le chemin
d'attaque p possède un honeypot, soit l'agent physique connecté au cybernœud attaqué est d'attaque p dans le cybergraphe et le sommet d'attaque v dans le graphe physique
protégé. Avec ces variables et l'objectif suivant, nous obtenons un ILP qui résout le problème dans les lignes 1 à 4. Nous trouvons ensuite les allocations de pots de miel sur les
de l'oracle du défenseur. arêtes du cybergraphe en résolvant l'ILP suivant :
Ici, p et v représentent respectivement le chemin cybernétique et le sommet de Ici, P[p] est la probabilité marginale que l'attaquant choisisse le chemin d'attaque p
dans sa politique actuelle π. Cette ILP est similaire à celle utilisée dans [23] pour le
l'attaque dans l'attaque a.
problème de recherche de barrages routiers dans un graphe physique.
B. Défenseur heuristique Oracle
Le programme linéaire en nombres entiers décrit cidessus fournit une solution Dans le domaine physique, le problème de la recherche de l'emplacement des
optimale au problème de l'oracle du défenseur. Cependant, agents en fonction des probabilités d'attaque à différents sommets peut être
Machine Translated by Google
formulé comme un problème kmédian avec N agents, c'estàdire que nous les agents blindés et l'allocation d'agents physiques à des emplacements tels
devons déterminer N emplacements d'agent à partir de V1 pour minimiser le que le pi le plus élevé soit multiplié par le nombre le plus élevé. Cela se traduit
coût total entre chaque sommet et son agent le plus proche. Le coût entre un par la stratégie de cupidité consistant à choisir les g agents physiques avec
agent à l'emplacement j et un sommet v V1 est le gain de l'attaquant pour les valeurs les plus basses de R−1 comme blindés de sorte que leur R−1
avoir attaqué l'emplacement j multiplié par la probabilité marginale que effectif devienne R0. Ensuite, nous connectons ces agents blindés à g
l'attaquant attaque l'emplacement v. Soit V V1 de N sommets l'ensemble terminaux cybernétiques avec les valeurs les plus élevées de pi .
des emplacements d'agent, alors la fonction objective est Les agents restants sont connectés avec avidité de telle sorte que les agents
avec des valeurs plus élevées de R−i sont connectés à des terminaux
min min P[v]µ(v, j), j V (15) cybernétiques avec une probabilité plus élevée d'attaque réussie pi .
V1
Le résultat suivant montre que le double oracle avec un oracle heuristique
où µ(v, j) est défini dans l'équation (13) et P[v] est la probabilité marginale que du défenseur aboutit à une limite inférieure pour le gain du défenseur. Le
l'attaquant attaque le sommet v. Nous résolvons ce problème en utilisant un résultat s'étend à partir de l'exactitude du double oracle [26] et est présenté
ILP [25]. pour plus d'exhaustivité.
Après avoir déterminé l'allocation des pots de miel dans le domaine
cybernétique et les emplacements des agents physiques dans le domaine Proposition IV.4. Si l'algorithme Double Oracle avec Oracle Défenseur
physique, l'étape suivante consiste à identifier les agents physiques protégés. Heuristique et Oracle Attaquant Optimal se termine avec πd et πa comme
De plus, nous devons établir la permutation des agents physiques, ce qui politiques de défenseur et d'attaquant respectivement et le gain attendu η pour
implique de déterminer les connexions entre les emplacements des agents le défenseur, alors il n'y a pas de politique d'attaquant qui puisse donner un
physiques et les nœuds cibles cybernétiques. Cela se fait dans les lignes 7 à gain de défenseur inférieur à η pour la politique de défenseur πd.
14. Étant donné que les bords des pots de miel sont connus, nous calculons
la probabilité d'une cyberattaque réussie sur le terminal cybernétique i comme Preuve. Supposons par contradiction qu'il existe une politique d'attaquant π¯a
pi . Nous trouvons ensuite le gain pour le telle qu'il y ait au moins une action aa dans son support qui n'est pas dans le
défenseur si l’agent i est compromis par l’attaquant comme R−i (avec R0 étant support de πa et que son gain attendu soit η2 < η pour le défenseur. Alors le
le gain lorsqu’aucun agent n’est compromis). gain attendu pour l'attaquant jouant l'action aa, avec la politique de défenseur
Les agents physiques g dont l'absence serait la plus dommageable, c'està donnée devrait être η2. Cela implique que l'algorithme Double Oracle n'aurait
dire les agents avec les valeurs les plus basses pour R−i , sont assignés pas dû se terminer puisque l'oracle de l'attaquant peut proposer l'action aa qui
comme blindés, de sorte que même si leur terminal cybernétique est attaqué, a un meilleur gain pour l'attaquant que le gain actuel de l'attaquant.
le gain du défenseur serait R0. Ensuite, les agents physiques avec des valeurs
plus élevées de R−i , c'estàdire les agents dont l'absence serait la moins
dommageable, sont assignés aux nœuds cybernétiques avec une probabilité
plus élevée d'attaque réussie. La proposition suivante montre que cette De plus, nous présentons le résultat suivant spécifique à un cas particulier
sélection gourmande d'agents blindés et cette assignation gourmande d'agents de l'instance du problème :
physiques aux nœuds cybernétiques sont optimales, compte tenu des
Proposition IV.5. Lorsque le nombre de pots de miel h est suffisant pour
allocations d'agents physiques et de pots de miel.
protéger tous les cybernœuds cibles, l'oracle de défense heuristique proposé
Proposition IV.3. Étant donné la politique d'attaque π pour un ensemble donné est optimal.
d'actions d'attaque a, l'allocation de honeypot sur E2 et l'allocation d'agent
Preuve. Puisque l'ILP du domaine cybernétique (14) trouve l'allocation optimale
physique sur V1, la sélection gourmande d'agents protégés et l'affectation
de honeypot, il protégera tous les nœuds cybernétiques. Dans ce cas, les
gourmande d'agents physiques aux nœuds cybernétiques, comme cela est fait
agents protégés n'ont pas d'importance, et il ne reste plus qu'à trouver la
dans l'algorithme 1, sont optimales.
meilleure allocation physique pour les N agents du domaine physique, ce qui
Preuve. Supposons que le gain du défenseur lorsque l'agent physique i est est fait de manière optimale par l'ILP (15).
compromis par l'attaquant soit R−i , où R0 est le gain lorsqu'aucun agent n'est
C. Attaquant Oracle
compromis. Le gain du défenseur peut alors s'écrire comme piR−i où pi est la
probabilité que l'attaquant parvienne à compromettre l'agent i, et p0 est la L'oracle de l'attaquant cherche à trouver la meilleure réponse à la stratégie
i=0:N
probabilité que la cyberattaque soit interceptée par un piège. actuelle du défenseur. Pour une version plus simple du problème à domaine
unique où l'attaquant doit trouver un chemin d'attaque et le défenseur place
Étant donné que les valeurs de pi sont données et que nous ne disposons que des obstacles (pots de miel), il est montré dans [23] que la résolution de
des emplacements physiques des agents, le gain des défenseurs dépend de l'oracle de l'attaquant est NPdifficile, et un ILP est proposé pour le résoudre.
l'agent physique connecté à quel terminal informatique. Notez également que, Étant donné que notre problème est une version plus générale qui inclut à la
dans le cas où un nœud informatique connecté à un agent physique protégé fois les domaines cyber et physique, nous pouvons étendre l'ILP de [23] pour
est attaqué avec succès, le gain du défenseur est toujours R0 car l'attaquant inclure des variables pour les emplacements d'attaque physique. En raison de
ne peut pas compromettre l'agent protégé. considérations d'espace, nous ne présentons pas l'ILP étendu dans cet article.
De plus, R0 ≥ R−i car la suppression d'un agent physique ne peut pas
augmenter le gain du défenseur. Par conséquent, si nous voulons maximiser De plus, dans la littérature sur la cybersécurité [10], [11], les cyberchemins
l'objectif, nous pouvons choisir i=0:N piR−i , peuvent être traités comme une entrée du problème ou calculés
Machine Translated by Google
104
comme une étape de prétraitement en trouvant tous les chemins entre les Alg. proposé (Graphique cybernétique ER)
Alg. proposé (BA Cyber graph)
nœuds d'entrée et les nœuds cibles qui se situent dans un certain facteur Optimal (graphique Cyber ER)
Optimal (graphique Cyber BA)
des longueurs de chemin les plus courtes. La motivation derrière cela est
que même si un cyberattaquant ne peut pas choisir le chemin le plus court 102
d'exécution
Durée
(s)
dans le réseau car cela pourrait augmenter les chances d'être détecté.
Bien que le nombre de ces chemins puisse encore être exponentiel dans 100
V. SIMULATIONS
8
Dans cette section, nous évaluons les performances de l'algorithme Alg. proposé (Graphique cybernétique ER)
Alg. proposé (BA Cyber graph)
proposé. Pour la création de l'instance du problème, le graphe physique G1 7.5 Optimal (graphique Cyber ER)
Optimal (graphique Cyber BA)
a été construit en plaçant aléatoirement des sommets dans un environnement 7
planaire, puis en trouvant les distances les plus courtes entre chaque paire
6.5
de sommets. Les poids des sommets ont été sélectionnés aléatoirement et
indépendamment. Pour le cybergraphe, nous avons créé des graphes 6
Récompense
défenseur
attendue
du
aléatoires en utilisant le modèle BarabasiAlbert (BA) [27] et le modèle Erdos 5.5
Renyi (ER) [28]. Les programmes linéaires en nombres entiers ont été
5
résolus en utilisant le solveur Gurobi [29].
Comparaison avec l'Oracle optimal du défenseur : nous comparons les 4.5
n=10,m=15 n=10, m=20 n=15, m=15 n=15,m=20
performances de l'approche heuristique proposée à la solution optimale Taille de l'instance du problème
pas de solutions optimales, elle peut trouver des solutions qui ne sont pas Graphique cybernétique BarabasiAlbert
loin d'être optimales dans un délai beaucoup plus court. Notez également 102
que comme N, h et g restent les mêmes, les graphes plus grands sont plus
difficiles à défendre, ce qui entraîne une diminution du gain à mesure que la 101
d'exécution
Durée
(s)
Alg. proposé (Graphique cybernétique ER) Ligne de base (graphique Cyber ER)
Alg. proposé (BA Cyber graph) Ligne de base (graphique BA Cyber)
[6] A. Schlenker, O. Thakoor, H. Xu, F. Fang, M. Tambe et P. Vayanos, « La cyber
6
tromperie basée sur la théorie des jeux pour déjouer la reconnaissance du réseau
adverse », dans Adaptive Autonomous Secure Cyber Systems, pp. 183–204,
5 Springer, 2020.
[7] J.H. Cho, M. Zhu et MP Singh, « Modélisation et analyse de jeux de tromperie basés
4 sur la théorie des hyperjeux », dans Autonomous Cyber Deception, pp. 49–74,
Springer, 2019.
[8] Z. Wan, J.H. Cho, M. Zhu, AH Anwar, C. Kamhoua et MP
3
Récompense
défenseur
attendue
du
˝ ´
[28] P. Erdos, A. Renyi, et al., « Sur l’évolution des graphes aléatoires »,
Publications de l'Institut de mathématiques de l'Académie hongroise
des Sciences, vol. 5, no. 1, pp. 17–60, 1960.
[29] Gurobi Optimization, LLC, « Manuel de référence de Gurobi Optimizer », 2023.