Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
19 janvier 2022
ENONCÉ 1
On considère un espace probabilisé (Ω, A, P).
Graphes aléatoires d’Erdös-Renyi
Pour définir un graphe aléatoire non orienté G on se donne :
• S = {s1 , ..., sn }, un ensemble fini de n ≥ 2 sommets ;
• pour toute paire de sommets {si , sj } avec i < j, Ti,j est une variable de Bernoulli de paramètre p sur (Ω, A, P) ;
Les arêtes du graphe sont les paires {si , sj } telles que Ti,j = 1 avec i < j. Les variables Ti,j sont supposées
indépendantes.
Voici un exemple de graphe aléatoire avec S = {a, b, c, d, e} et p = 0, 4 :
a c
e d
On peut considérer qu’un graphe aléatoire est un modèle très simplifié de réseau social à un instant donné.
1. Quel est le nombre maximal d’arêtes de G ?
2. Écrire une fonction Python listAdj(S,p) qui génère la liste des listes d’adjacence d’un tel graphe aléatoire ayant
S pour liste de sommets.
Le graphe dessiné correspond à la liste des listes d’adjacence suivante, [[’c’, ’e’], [’d’, ’e’], [’a’, ’e’],
[’b’, ’e’], [’a’, ’b’, ’c’, ’d’]], avec la liste des sommets qui est S=’abcde’.
3. Pour tout k ∈ [[1, n]], on considère la variable aléatoire Dk égale au degré du sommet sk . Déterminer la loi de Dk .
4. On dit que sk est isolé si Dk = 0 est réalisé. On note Zn la variable aléatoire comptant les sommets isolés de G et
Xk la variable aléatoire de Bernoulli qui vaut 1 si sk est isolé et 0 sinon.
Xn
a) Montrer que : Zn = Xk . En déduire que E(Zn ) = n(1 − p)n−1 .
k=1
n
X X
b) Montrer que : Zn2 = Xk + 2 Xi Xj .
k=1 1≤i<j≤n
c) Justifier que P([Xi = 1] ∩ [Xj = 1]) = (1 − p)2n−3 . En déduire que E(Zn2 ) = n(1 − p)n−1 + n(n − 1)(1 − p)2n−3 .
1
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
ln(n)
On suppose désormais que p = pn = c , avec c > 0, c 6= 1.
n
5.a) Écrire une fonction Python Z qui renvoie le nombre de sommets isolés d’un graphe donné par sa liste de listes
d’adjacence lst . On importera les bibliothèques numpy as np et [Link] as rd.
b) On souhaite estimer l’influence de la valeur de c sur le nombre de sommets isolés. En exécutant le script suivant
list2c=[0.3,0.5,0.7,1.3,1.5,1.7];n=1000;res=[]
for c in list2c:
s=0
for k in range(200):
if Z(listAdj(range(1,n+1),c*[Link](n)/n))==0:
s+=1
[Link](s/200)
print(res)
on obtient [0.0, 0.0, 0.0, 0.91, 0.975, 0.99] après de longues minutes .
Quelle conjecture sur la valeur d’une probabilité pouvez-vous faire lorsque c < 1 et c > 1 ? Justifier.
6.a) Montrer que (1 − pn )n−1 ∼ (1 − pn )n puis que (1 − pn )n−1 ∼ n−c .
n→+∞ n→+∞
b) On rappelle que l’inégalité de Markov affirme que si X est une variable aléatoire positive admettant une espérance
et a > 0,
E(X)
P([X ≥ a]) ≤
a
Si c > 1, en déduire la limite de P([Zn ≥ 1]) puis de P([Zn = 0]), lorsque n → +∞.
V(Zn )
c) En utilisant l’inégalité de Bienaymé-Tchébichev, montrer que P([Zn = 0]) ≤ . En déduire que si c < 1,
E(Zn )2
P([Zn = 0]) → 0 quand n → +∞.
d) Votre conjecture est-elle correcte ?
Solution
n n(n − 1)
1. Le nombre maximal d’arêtes correspond au nombre de paires de sommets soit = .
2 2
2. Un exemple de fonction qui convient :
def listAdj(S,p):
l=[[]for k in range(len(S))]
for i in range(len(S)-1):
for j in range(i+1,n):
if [Link]()<p:
l[i].append(S[j])
l[j].append(S[i])
return l
k−1
X n
X
3. On a Dk = Ti,k + Tk,i . Dk est la somme de (n − 1) variables de Bernoulli indépendantes de paramètre p
i=1 i=k+1
d’où Dk suit la loi binomiale de paramètres n − 1 et p.
4.a) Classique. Or pour tout k, E(Xk ) = P([Xk = 1]) = P([Dk = 0]) qui vaut (1 − p)n−1 d’après la loi de Dk , d’où par
linéarité de l’espérance, E(Zn ) = n(1 − p)n−1 .
b) On a :
n
!2
X X X X X
Zn2 = Xk = Xi Xj = Xi Xj + Xi Xj + Xi Xj
k=1 (i,j)∈[[1,n]]2 1≤i=j≤n 1≤i<j≤n 1≤j<i≤n
2
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
X X
Or comme toute variable de Bernoulli Xi2 = Xi et on a aussi Xi Xj = Xi Xj d’où on obtient bien que :
1≤j<i≤n 1≤i<j≤n
n
X X
Zn2 = Xk + 2 Xi Xj
k=1 1≤i<j≤n
c) On a pour i < j, [Xi = 1] ∩ [Xj = 1] est réalisé ssi les événements [Tk,i = 0] pour k < i, [Ti,k = 0] pour k > i,
[Tk,j = 0] pour k < j et k 6= i, [Tj,k = 0] pour k > j sont réalisés.
Or ces événements sont au nombre de (n − 1) + (n − 2) = 2n − 3, indépendants et de probabilité p. D’où P([Xi =
1] ∩ [Xj = 1]) = (1 − p)2n−3 .
De plus par linéarité de l’espérance :
X
E(Zn2 ) = n(1 − p)n−1 + 2 E(Xi Xj )
1≤i<j≤n
Or E(Xi Xj ) = P([Xi Xj = 1]) = P([Xi = 1] ∩ [Xj = 1]) = (1 − p)2n−3 .
n(n − 1)
et il y a couples (i, j) tels que 1 ≤ i < j ≤ n, alors on a bien :
2
E(Zn2 ) = n(1 − p)n−1 + n(n − 1)(1 − p)2n−3
5.a) def Z(lst):
isolés=0
for k in range(len(lst)):
isolés+=(lst[k]==[])
return isolés
b) Ce script utilise la loi faible des grands nombres qui permet d’affirmer que, la fréquence empirique de réalisation d’un
événement, ici [Zn = 0], lors d’une répétition d’un grand nombre d’expériences identiques liées à la réalisation de cet
événement et indépendantes, est proche de sa probabilité. On peut conjecturer que, lorsque n est grand, P([Zn = 0])
est proche de 1 pour c > 1 et de 0 pour c < 1.
6.a) On remarque que (1 − pn )n−1 ∼ (1 − pn )n car 1 − pn → 1 quand n → +∞.
2
ln(n)2
De plus (1 − pn )n = exp n ln 1 − c ln(n)n . Or, n ln 1 − c ln(n)
n = n −c ln(n)
n − c2 ln(n)
2n 2 + o n 2 ,
d’où n ln 1 − c ln(n)
n = −c ln(n) + o(1) donc (1 − pn )n ∼ n−c .
b) Si c > 1, E(Zn ) → 0 car E(Zn ) ∼ n1−c , quand n → +∞. D’après Markov, P([Zn ≥ 1]) ≤ E(Zn ), d’où P([Zn ≥ 1]) → 0
quand n → +∞ et ainsi P([Zn = 0]) → 1 quand n → +∞.
c) Appliquons l’inégalité de BT à Zn pour ε = E(Zn ) :
V(Zn )
P([|Zn − E(Zn )| ≥ E(Zn )]) ≤
E(Zn )2
Or si Zn = 0 alors |Zn − E(Zn )| ≥ E(Zn ), donc P([Zn = 0]) ≤ P([|Zn − E(Zn )| ≥ E(Zn )]) et par transitivité,
V(Zn )
P([Zn = 0]) ≤ .
E(Zn )2
V(Zn ) 1 n−1
D’après les questions précédentes, = + − 1.
E(Zn )2 n(1 − pn )n−1 n(1 − pn )
n−1 1
Or → 1 quand n → +∞ et si c < 1, → 0, d’où P([Zn = 0]) → 0 quand n → +∞.
n(1 − pn ) n(1 − pn )n−1
d) On a confirmation de la conjecture.
N.B :
Les considérations qui suivent pourraient faire l’objet d’une première partie.
aléatoire à Nn arêtes, sur un ensemble de n sommets, se fait a priori en choisissant Nn
La définition d’un graphe
n
paires au hasard parmi paires de sommets.
2
3
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
Nn
Ainsi, si on considère les variables de Bernoulli Xi,j , leur paramètre vaut .
n
2
Plus généralement pour {i1 , j1 }, ..., {ik , jk } k arêtes :
Nn (Nn − 1)...(Nn − k + 1)
P([Xi1 ,j1 = 1] ∩ ... ∩ [Xik ,jk = 1]) =
n n n
− 1 ... −k+1
2 2 2
Si n → +∞ et Nn → +∞ alors
k
Nn
n = P([Xi1 ,j1 = 1]) × ... × P([Xik ,jk = 1])
P([Xi1 ,j1 = 1] ∩ ... ∩ [Xik ,jk = 1]) ∼
On peut donc lorsque n grand, dans ces conditions, supposer que les Xi,j sont indépendantes de loi de Bernoulli de
Nn c
paramètre pn = . On retrouve ainsi les conditions de l’exercice dans lequel Nn ∼ n ln(n).
n 2
2
4
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
ENONCÉ 2
Loi de Pareto-Zipf
On souhaite modéliser la loi de probabilité de la variable aléatoire T qui à une ville, choisie au hasard parmi les
villes françaises, associe l’effectif de sa population. On note n le nombre de villes.
1.a) Pour 2018, on dispose d’un fichier [Link] de données provenant de l’INSEE et on utilise la bibliothèque Pandas.
On exécute les instructions suivantes :
import pandas as pd; import [Link] as rd;import numpy as np;import [Link] as plt
dataset=pd.read_csv(’[Link]’,sep=";")
données=dataset[["Libellé","Population" ]]
données=données.sort_values(by =["Population","Libellé"], ascending=False, ignore_index=True)
logPopu=[[Link](t) for t in données["Population"]]
logRang=[[Link](k) for k in range (1,len(logPopu)+1)]
[Link](logPopu,logRang,’*’)
ce qui produit le graphique suivant :
Expliquer pourquoi le programme et le graphique précédent justifient qu’il existe deux réels a et b tels que, pour toute
a
ville, le réel b , où t est l’effectif de celle-ci, est une approximation raisonnable du rang de celle-ci dans la liste des
t
villes classées par ordre décroissant de population ?
Quelle grandeur peut-on calculer pour confirmer ce que l’on constate graphiquement ? Quelle méthode peut-on utiliser
pour obtenir le meilleur couple (a, b) en un certain sens ?
a
b) On suppose que l’on a pour toutes les villes , r = b , r étant le rang de cette ville, t son effectif, a et b deux réels
t
identiques pour toutes les villes. Si x est l’effectif d’une des villes françaises, quelle est, en fonction de a, b, x et n, la
proportion de villes dont la population urbaine est supérieure ou égale à x ?
• On suppose désormais que T suit la loi de Pareto de paramètre θ > 1 et x0 > 0, c’est à dire qu’elle admet pour
densité la fonction f définie par :
xθ0
(
θ xθ+1 si x ≥ x0
f (x) =
0 sinon.
On note Par(θ, x0 ) cette loi.
2.a) Déterminer la fonction de répartition F de T .
5
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
b) En calculant P([T > x]), montrer que ce résultat est cohérent avec le résultat de la question 1 et exprimer x0 et θ
en fonction de a, b et n.
θ
c) Montrer que E(T ) existe et vaut x0 .
θ−1
3. Soit x ≥ x0 , on note Px la probabilité conditionnelle sachant [T > x].
x θ
a) Montrer que pour tout t ≥ x ≥ x0 , Px (T > t) = .
t
b) On pose pour tout t ∈ R, Fx (t) = Px ([T ≤ t]). De quelle loi Fx est-elle la fonction de répartition ? Quelle est alors
l’espérance de cette loi ?
4. Soit δ ∈]1, +∞[.
• On suppose que Y est une variable aléatoire à valeurs dans [x0 , +∞[ dont fY est une densité, continue sur [x0 , +∞[,
FY la fonction de répartition. On suppose que ∀x ≥ x0 , P([Y ≥ x]) > 0.
a) Soit x ≥ x0 . Montrer que la fonction Gx définie sur R par Gx : t 7→ P[Y ≥x] (Y ≤ t) est la fonction de répartition
d’une variable aléatoire à densité dont on déterminera une densité.
• On suppose que pour tout x ≥ x0 , l’espérance d’une variable aléatoire de fonction de répartition Gx existe et vaut
δx.
b) En déduire que pour tout x ≥ x0 , (δ − 1)xfY (x) = δ(1 − FY (x)).
c) Résoudre l’équation différentielle (1 − δ)xy 0 − δy = 0 sur [x0 , +∞[.
d) En conclure que Y suit une loi de Pareto dont on précisera les paramètres.
Solution
1.a) Cette relation peut aussi s’écrire ln(r) = ln(a) − b ln(t). On a représenté le nuage de points (ln(ti ), ln(ri ))i∈[[1,n]]
on constate un très bon alignement des points, donc on peut considérer qu’une telle relation est raisonnable.
On peut par ailleurs calculer le coefficient de corrélation linéaire entre les ln(ti ) et les ln(ri ). S’il est proche de 1 en
valeur absolue, on peut alors valider la relation.
On trouve −0, 9947 ce qui confirme l’utilisation de ce modèle.
Pour obtenir (a, b) on peut réaliser un ajustement aux moindres carrés du nuage de points (ln(ti ), ln(ri ).
r(x) a
b) Notons r(x) le rang de la ville d’effectif x, cette proportion vaut = .
n nxb
Z x x
xθ0
x θ
1 0
2.a) Si x < x0 , alors F (x) = 0. Si x ≥ x0 , F (x) = θ θ+1 dt = xθ0 − θ =1− .
x0 t t x0 x
xθ0
b) On a donc que si x est l’effectif d’une ville, P([T > x]) = . Si l’on rapproche ce résultat du résultat de la question
xθ
a
précédente on peut alors considérer que cette probabilité correspond à la valeur trouvée dans cette question soit
a 1b nxb
a
. Ces deux résultats sont donc cohérents en identifiant θ à b et xθ0 à donc x0 à .
n n
Z +∞ Z +∞ θ
x θ x0 θ
c) On s’intéresse à la convergence de tf (t)dt i.e. de θ θ0 dt. La fonction H : t 7→ est une
−∞ x0 t −θ + 1 tθ−1
primitive de la fonction dans l’intégrale qui admet une limite finie égale à 0 en +∞. Donc cette intégrale est convergente
θ
et vaut −H(x0 ) = x0 .
θ−1
x0 θ
P(T > t] ∩ [T > x) 1 − F (t) t
3.a) Par définition, Px (T > t) = = puisque t ≥ x. Finalement Px (T > t) = =
P([T > x] 1 − F (x) x0 θ
x
x θ
t .
(
0 si t ≤ x
b) D’après la question précédente, Fx (t) = x θ
. On reconnaı̂t la fonction de répartition de la loi
1− t sinon.
θ
Par(θ, x). D’où l’espérance de cette loi existe et vaut x.
θ−1
6
Ébauche de parties de sujets HEC-ESSEC Mathématiques appliquées
4.a) En reprenant la méthode utilisée dans le 4.a), on obtient que :
FY (t) − FY (x) si t > x
Gx (t) = 1 − FY (x)
0 sinon.
On vérifie que Gx est bien la fonction de répartition d’une variable à densité. Elle est de classe C 1 sur R\{x} et
fY (t)
si t > x
G0x (t) = 1 − FY (x)
0 si t < x.
d’où une densité...
Z +∞ Z +∞
b) On peut donc en déduire que pour tout x ≥ x0 , tfY (t)dt converge et vérifie : tfY (t)dt = δx(1 − FY (x)).
x Z +∞ x
En utilisant une primitive, on voit que la fonction K : x 7→ tfY (t)dt est de classe C 1 sur [x0 , +∞[ et vérifie
x
K 0 (x) = −xfY (x). Donc, pour tout x ≥ x0 , −xfY (x) = δ(1 − FY (x) − xfY (x)) i.e (δ − 1)xfY (x) = δ(1 − FY (x)).
δ δ
c) Sur [x0 , +∞[, (1 − δ)xy 0 − δy = 0 ⇐⇒ y0 = y. Posons β = . Les solutions sont de la forme
(1 − δ)x δ−1
λ
y = λ exp (−β(ln(x)) = avec λ réel.
xβ
d) Si l’on pose pour tout x ≥ x0 , ϕ(x) = 1 − FY (x), ϕ vérifie l’équation différentielle
précédente
et ϕ(x0 ) = 1 d’où
x β δ
0
λ = xβ0 et pour tout x ≥ x0 , FY (x) = . On en conclut que Y suit la loi Par , x0 .
x δ−1