Probabilita
Probabilita
Probabilità e informazione
abcefg
Manuale per il corso di Teoria dei Fenomeni Aleatori
N APOLI 2002
c Giacinto Gelli [email protected]
L’autore consente la riproduzione anche parziale del testo agli studenti del corso. Non è con-
sentito modificare il testo, diffonderlo, pubblicarlo anche con mezzi telematici senza il consenso
scritto dell’autore.
Prima versione (1.0): settembre 2001.
Seconda versione (2.0): febbraio 2002.
Terza versione (3.0): ottobre 2002.
Quarta versione (3.1): marzo 2003.
Quinta versione (3.2): settembre 2003.
Dedicato ad Annalisa, Andrea, ed Alice.
Prefazione
Il libro è organizzato in 10 capitoli ed alcune appendici; nei capitoli 1 e 2 si espongono le basi della
teoria della probabilità; i capitoli 3, 4 e 5 sono dedicati allo studio della teoria di una variabile
aleatoria; i capitoli 6 e 7 si occupano della teoria di due variabili aleatorie; il capitolo 8 generalizza
molti dei concetti esposti nei capitoli precedenti al caso di n > 2 variabili aleatorie e discute
brevemente i teoremi limite (legge dei grandi numeri e teorema limite fondamentale); nel capitolo
9 sono introdotte le distribuzioni condizionali; infine, il capitolo 10 è dedicato all’introduzione
dei concetti fondamentali della teoria dell’informazione (entropia, codifica di sorgente, primo
teorema di Shannon, codici di Huffmann). Gli argomenti marcati con il simbolo possono essere
saltati ad una prima lettura, senza pregiudicare la comprensione del resto. Il libro è corredato
da numerosi esempi svolti e da oltre 200 esercizi proposti, suddivisi per capitolo; gli esercizi
contrassegnati con il simbolo sono di maggiore difficoltà.
Per la comprensione del testo, sono richieste conoscenze di base di calcolo combinatorio, di ana-
lisi reale (teoria delle funzioni di una e più variabili, integrazione delle funzioni di una e più
variabili, derivazione delle funzioni di una e più variabili, successioni e serie) e di algebra li-
neare e geometria (vettori, matrici, determinanti). È necessaria anche una conoscenza operativa
dell’impulso di Dirac (le proprietà fondamentali sono richiamate nell’appendice D).
http://www.die.unina.it/GruppoTLC/gelli/didattica/CorsoFAlaurea/materiale
Si ringraziano gli studenti della Facoltà di Ingegneria dell’Università di Napoli per il loro in-
coraggiamento, la loro inesauribile curiosità, e particolarmente per le osservazioni che hanno
consentito di correggere molti degli errori presenti nelle precedenti versioni.
Principali notazioni
A, B, C insiemi
A, B, C classi (collezioni di insiemi)
∅ insieme vuoto
ω∈A ω appartiene ad A
ω ∈ A ω non appartiene ad A
A⊆B A è un sottoinsieme di B
A⊂B A è un sottoinsieme proprio di B
A ∪ B, A + B unione di A e B
A ∩ B, AB intersezione di A e B
A−B differenza tra A e B
A complemento di A
A×B prodotto cartesiano di A e B
uguale per definizione
N insieme dei numeri naturali {1, 2, . . . , }
N0 = N ∪ {0} insieme dei numeri naturali, zero incluso {0, 1, 2, . . .}
Z insieme dei numeri interi relativi {. . . , −2, −1, 0, 1, 2, . . .}
R insieme dei numeri reali
R = R ∪ {−∞, ∞} insieme ampliato dei numeri reali
[a, b] intervallo a ≤ x ≤ b
[a, b[ intervallo a ≤ x < b
]a, b] intervallo a < x ≤ b
]a, b[ intervallo a < x < b
] − ∞, b[ intervallo x < b
] − ∞, b] intervallo x ≤ b
]a, ∞[ intervallo x > a
[a, ∞[ intervallo x ≥ a
(a, b) indica indifferentemente un qualunque intervallo di estremi a e b
Ω spazio campione
S σ-campo costruito su uno spazio campione Ω
P(Ω) collezione delle parti di Ω
P(A) probabilità dell’evento A
P(A|B) probabilità condizionata dell’evento A dato l’evento B
X, Y, Z variabili aleatorie
x, y, z vettori
A, B, C matrici
det(A) determinante della matrice A
A−1 inversa della matrice A
AT trasposta della matrice A
iv
Indice
1 Probabilità elementare 1
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Richiami di teoria degli insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Probabilità: definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Probabilità assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Campi e σ-campi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Assiomi di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Proprietà elementari della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.4 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.5 Proprietà di continuità della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Altri approcci alla teoria della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2 Approccio classico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Vantaggi (e svantaggi) dell’approccio assiomatico . . . . . . . . . . . . . . . . . . . . . 15
1.6 Esempi di costruzione di spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.1 Spazi di probabilità discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Spazi di probabilità continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Variabili aleatorie 51
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Definizione formale di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Funzione di distribuzione cumulativa (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1 Proprietà della CDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Variabili aleatorie discrete, continue, miste . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.3 Percentile e mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3 Funzione densità di probabilità (pdf) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1 Proprietà della pdf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 Funzione distribuzione di probabilità (DF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Proprietà della DF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5 Variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5.1 Variabile aleatoria di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5.2 Variabile aleatoria binomiale e problema delle prove ripetute . . . . . . . . . . . . . . 67
3.5.3 Variabile aleatoria binomiale negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5.4 Variabile aleatoria geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.5 Variabile aleatoria di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.6 Variabile aleatoria uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.7 Variabile aleatoria gaussiana o normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.8 Variabile aleatoria esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.9 Variabile aleatoria di Laplace (esponenziale bilatera) . . . . . . . . . . . . . . . . . . . 76
3.5.10 Variabile aleatoria di Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.11 Variabile aleatoria di tipo “mixture” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.12 Relazioni tra variabile aleatoria binomiale e gaussiana: i teoremi di de Moivre-Laplace 78
3.6 Esercizi proposti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Bibliografia 271
x INDICE
Capitolo 1
Probabilità elementare
In questo capitolo si introducono i concetti basilari della teoria della probabilità. Dopo aver
fornito le definizioni preliminari di esperimento, spazio campione, ed evento, si mostra come
costruire in modo rigoroso una legge di probabilità utilizzando l’approccio assiomatico di Kol-
mogorov e si presentano le proprietà elementari della probabilità. Si accenna poi ad alcuni ap-
procci alternativi allo studio della probabilità (classico e frequentista), discutendo i vantaggi e gli
svantaggi dell’approccio assiomatico e motivando la scelta di quest’ultimo. I concetti introdot-
ti vengono infine applicati per costruire leggi di probabilità su spazi campione di tipo discreto
oppure continuo.
1.1 Introduzione
La teoria della probabilità è uno strumento matematico utile per lo studio dei cosiddetti fenomeni
aleatori, che sono fenomeni complessi o di difficile modellizzazione, il cui esito non è prevedibile
a priori con certezza, ma che tuttavia presentano una qualche forma di regolarità; per questo mo-
tivo, il comportamento di tali fenomeni può essere descritto solo attraverso opportune grandezze
globali o medie.
Per esempio, il lancio di una moneta su un tavolo è un fenomeno fisico che può essere certa-
mente descritto in termini delle equazioni matematiche tipiche della cinematica e della dinamica;
tuttavia è estremamente difficile, se non praticamente impossibile, pur supponendo di conoscere
esattamente la forma, la massa, la velocità iniziale della moneta, le caratteristiche del tavolo, e
ogni altro parametro del problema, prevedere quale faccia della moneta si manifesterà in un sin-
golo lancio. Nonostante ciò, la nostra intuizione ci dice che se lanciamo la moneta (supposta non
truccata) un numero sufficientemente elevato di volte, la percentuale di volte che si presenterà la
faccia testa o la faccia croce sarà prossima al 50%. Quindi, pur non essendo possibile prevedere il
risultato di un singolo lancio, riconosciamo che il fenomeno aleatorio presenta una qualche forma
2 Probabilità elementare
1 L’esempio del lancio di una moneta non è scelto a caso: la nascita stessa della teoria della probabilità è attribuita da
molti storici alla necessità di calcolare le percentuali di vittoria o di sconfitta per i più comuni giochi d’azzardo (lancio di
dadi, roulette, poker, etc.). Un episodio storicamente documentato, cui spesso si fa risalire la nascita della moderna teoria
della probabilità, è la corrispondenza (1654) tra il matematico B. Pascal ed il giocatore cavalier de Meré su una particolare
scommessa relativa al gioco dei dadi (nota come il “paradosso di de Meré”, vedi esercizio 2.13).
1.2 Richiami di teoria degli insiemi 3
A
A
B
A
Fig. 1.1. L’insieme B è sottoinsieme dell’insieme Fig. 1.2. Il complemento A = Ω − A di un
A (B ⊆ A). insieme A (in grigio).
sufficiente familiarità con tali concetti può scorrere rapidamente il paragrafo 1.2 per familiarizza-
re con la notazione utilizzata, oppure saltare direttamente al paragrafo 1.3, dove si introducono i
primi elementi di teoria della probabilità.
escluso lo zero), con Z l’insieme dei numeri relativi (interi positivi e negativi, zero incluso). In generale, il significato delle
principali notazioni utilizzate è richiamato all’inizio del libro.
4 Probabilità elementare
A∪B A∩B
A B A B
Fig. 1.3. L’unione A ∪ B di due insiemi (in Fig. 1.4. L’intersezione A ∩ B di due insiemi (in
grigio). grigio)
La differenza A − B tra due insiemi è l’insieme che contiene gli elementi di A che non appar-
tengono a B.
Sia A un sottoinsieme di Ω. Il complemento A di A (rispetto ad Ω) è l’insieme contenente tutti
gli elementi di Ω che non appartengono ad A (Fig. 1.2), ovvero A = Ω − A. Nella logica formale,
il complemento corrisponde all’operazione di NOT.
L’unione o somma di due insiemi A, B è l’insieme che contiene tutti gli elementi di A, di B, o
di entrambi (Fig. 1.3). L’unione di due insiemi si denota con A ∪ B oppure A + B, e gode della
proprietà commutativa:
A∪B = B∪A.
L’operazione di unione, inoltre, si può estendere a più di due insiemi in maniera naturale, in
quanto essa gode della proprietà associativa:
(A ∪ B) ∪ C = A ∪ (B ∪ C) ,
(A ∩ B) ∩ C = A ∩ (B ∩ C) ,
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) ,
A(B + C) = A B + A C .
1.2 Richiami di teoria degli insiemi 5
(A × B) × C = A × (B × C) ,
4. card(∅) = 0;
Le leggi di de Morgan, utilizzate anche nella logica formale, mettono in relazione tra loro le opera-
zioni di unione, intersezione e complementazione:
Tali leggi possono essere estese anche all’unione e all’intersezione di più di due insiemi, e finan-
che al caso di infiniti insiemi.
3 Questo risultato fu dimostrato da G. Cantor (1845–1918) con un procedimento ora noto come procedimento diagonale
Esempio 1.1. Un possibile esperimento è il lancio di una moneta, con risultati convenzionalmente deno-
minati “testa” (T) e “croce” (C); oppure il lancio di un dado, con possibili risultati una faccia marcata con
un numero intero tra uno e sei; oppure ancora l’estrazione di un numero al gioco del lotto, con possibili
risultati un numero intero tra 1 e 90.
Esempio 1.2. Nel lancio di una moneta lo spazio campione è Ω = {T, C}; nel lancio di un dado, lo
spazio campione è Ω = {1, 2, 3, 4, 5, 6}; nell’estrazione di un numero al gioco del lotto, lo spazio campione è
Ω = {1, 2, . . . , 89, 90}.
Esempio 1.3. Nel lancio di una moneta un possibile evento è A = {T} (evento elementare, costituito da
un solo elemento); nel lancio di un dado, un possibile evento è A = {pari} = {2, 4, 6}; nell’estrazione di un
numero al gioco del lotto, un possibile evento è A = {minore di 10} = {1, 2, 3, . . . , 9}.
Si definisce prova una singola ripetizione di un esperimento. Supponiamo allora di effettuare una
prova e di ottenere il risultato ω ∈ Ω: diremo allora che, nella prova considerata, si è verificato
l’evento A, se ω ∈ A. Allo stesso modo, diremo che:
Ad esempio, poichè ω ∈ Ω sempre, l’evento Ω (evento certo) si verifica ad ogni prova, mentre l’e-
vento ∅ (evento impossibile) non si verifica in nessuna prova. Tra i possibili eventi, i più semplici
sono quelli del tipo A = {ω}, costituiti cioè da un singolo elemento di Ω; tali eventi “atomici” (in
quanto non ulteriormente decomponibili in eventi più semplici) si dicono eventi elementari. No-
tiamo la distinzione tra risultato ω ed evento elementare {ω} (evidenziato dall’uso delle parentesi
graffe): il risultato ω è il generico elemento dello spazio campione Ω (non è un evento), mentre
l’evento elementare {ω} è l’insieme costituito da un solo elemento (è un evento).
Esempio 1.4. Nel lancio di un dado, consideriamo gli eventi A = {pari}, B = {maggiore o uguale a 3},
C = {minore di 2}. Se il risultato dell’esperimento è il numero 4, diremo allora che:
1.3 Probabilità: definizioni preliminari 7
Possiamo adesso introdurre i concetti di spazio degli eventi ed una prima definizione di probabilità.
Per spazio degli eventi intendiamo la classe S di tutti gli eventi di interesse (poiché gli eventi sono
sottoinsiemi di Ω, si tratta di una classe, cioè di una collezione di insiemi). La probabilità è una
funzione P definita4 sullo spazio degli eventi S e a valori in [0, 1]:
P : A ∈ S → P(A) ∈ [0, 1] .
In altri termini, una legge di probabilità consiste nell’assegnare ad ogni evento A un numero
compreso tra 0 ed 1 che in qualche modo misura il grado di incertezza associato al verificarsi
dell’evento stesso.
A questo punto sorge un problema fondamentale: dato un qualsiasi esperimento, è abbastan-
za semplice identificare in maniera non ambigua lo spazio campione Ω, gli eventi A, lo spazio
dei possibili eventi S. Ad esempio, sembra naturale scegliere come spazio degli eventi S la classe
P(Ω) di tutti i sottoinsiemi di Ω (vedremo poi che questa scelta non è sempre possibile). Ma come
è possibile specificare la legge di probabilità? Vediamo un semplice esempio.
Esempio 1.5. Consideriamo il lancio di una moneta, il cui spazio campione denotiamo con Ω = {T, C}.
Come spazio degli eventi, consideriamo la collezione P(Ω) delle parti di Ω, ovvero la classe di tutti i sot-
toinsiemi di Ω, incluso Ω e ∅. In generale, la collezione delle parti, per un insieme con N elementi, contiene
2 N sottoinsiemi;5 nel caso in esame, poniamo S = P(Ω) = {{T}, {C}, {T, C}, {∅}}. Possiamo assegnare la
probabilità a tutti gli eventi di S nel seguente modo:
In questo caso, allora, abbiamo assegnato un valore numerico di probabilità ad un qualunque evento dello
spazio degli eventi, e quindi abbiamo costruito una legge di probabilità.
Nel semplice esempio precedente una plausibile legge di probabilità si è ottenuta sulla base di
considerazioni intuitive e per motivi di simmetria. Tuttavia, per trattare casi più complicati è
necessario ricorrere ad un approccio sistematico. In particolare, è necessario introdurre degli
assiomi o dei postulati6 a cui deve soddisfare una legge di probabilità; questa strada è quella
seguita dall’approccio assiomatico, introdotto nel 1933 dal matematico russo A. N. Kolmogorov
(1903–1987),7 ed è quella ritenuta più soddisfacente dal punto di vista matematico. Tuttavia,
4 Notiamo che la probabilità è una funzione che opera, anziché su numeri, su insiemi (eventi): una tale funzione è
con N elementi equivale a costruire una stringa di N bit, nella quale ai simboli “0” si associa la mancanza nel sottoinsieme
dell’elemento di Ω corrispondente, mentre ai simboli “1” si associa la sua presenza. Poichè è possibile costruire 2 N distinte
stringhe di N bit, tale sarà il numero dei distinti sottoinsiemi di Ω.
6 Ricordiamo che, in una teoria formale, un assioma o un postulato è un’asserzione che non dev’essere dimostrata. Ad
esempio, l’assioma fondamentale della geometria euclidea è il cosiddetto assioma delle rette parallele: “in un piano, per un
punto non appartenente ad una retta, passa una ed una sola retta parallela alla retta data”.
7 Il contributo di Kolmogorov apparve per la prima volta con il titolo “Grundebegriffe der Wahrscheinlichkeitrech-
nung” (Fondamenti del calcolo delle probabilità) nella rivista tedesca Ergebnisse Der Mathematik nel 1933; una traduzio-
ne in inglese (curata da N. Morrison) di non difficile reperibilità è Kolmogorov, A. N. “Foundations of the theory of
probability”, Chelsea Publishing Co., New York, 1956 (ristampata da American Mathematical Society, 2000).
8 Probabilità elementare
Esempio 1.6. L’approccio assiomatico ci consentirà di costruire leggi di probabilità su esperimenti più
complessi, quali quelli ad esempio che hanno un numero infinito di possibili risultati. Si pensi, ad esempio,
all’esperimento che consiste nel contare il numero di automobili che passano ad un casello autostradale in
un determinato intervallo di tempo; sebbene in pratica tale numero sarà limitato superiormente, in man-
canza di informazioni su tale limite superiore possiamo assumere come spazio campione Ω = {0, 1, 2, . . .},
ovvero l’insieme N0 dei numeri interi non negativi, avente cardinalità infinita numerabile. Un altro esem-
pio è l’esperimento consistente nel misurare la durata (il “tempo di vita”) di un dispositivo (si pensi, ad
esempio, ad una lampadina appena montata). In questo caso potremmo assumere come spazio campione
Ω un opportuno intervallo [0, a] di numeri reali positivi, anche se, non conoscendo il valore di a (il massimo
tempo di vita) risulta più semplice assumere Ω = [0, ∞[; in questo caso abbiamo a che fare con uno spazio
campione Ω di cardinalità infinita continua. La costruzione di leggi di probabilità su spazi campione aventi
cardinalità infinita (in particolare, continua) non può essere affrontata soltanto con considerazioni intuitive,
ma richiede una formulazione più rigorosa dei principi della probabilità.
Definizione (campo). Una classe S non vuota di eventi si dice campo se soddisfa le seguenti
proprietà:
Sulla base delle proprietà 1–2, è facile dimostrare che, se S è un campo, si ha anche:
1 . Ω, ∅ ∈ S.
Prova. Infatti, poichè S è non vuoto, contiene almeno un elemento A ⇒ A ∈ S (per la proprietà 1) ⇒
A ∪ A = Ω ∈ S (per la proprietà 2) ⇒ Ω = ∅ ∈ S (per la proprietà 1).
L’intera teoria della probabilità discende dai precedenti assiomi in maniera deduttiva.8 Abbiamo
già osservato che assegnare i valori di probabilità agli eventi equivale a misurare il livello di incer-
tezza associato agli stessi. In effetti, bisogna osservare che una funzione definita su un insieme Ω,
che soddisfa assiomi analoghi a quelli di Kolmogorov, viene proprio definita dai matematici una
misura (casi elementari di misura sono la lunghezza, l’area, ed il volume); pertanto, il contributo
più significativo di Kolmogorov è stato in sostanza quello di riconoscere che, per definire una
8 Una teoria si dice deduttiva se ricava i casi particolari a partire da principi generali; viceversa, si dice induttiva se ricava
i principi generali a partire da casi particolari. Il principio di induzione è stato spesso severamente messo in discussione
da scienziati e filosofi; per una interessante discussione critica sui due approcci si veda K. Popper, “Logica della ricerca
scientifica”, Einaudi, 1970.
10 Probabilità elementare
corretta teoria della probabilità, quest’ultima va inquadrata come un caso particolare della teoria
della misura. Notiamo, in particolare, che l’assioma di normalizzazione impone che la misura di
Ω sia unitaria, e per questo motivo si parla anche della probabilità come di una misura norma-
lizzata. Va osservato che nel seguito, per mantenere la trattazione ad un livello elementare, non
faremo uso di tale analogia in maniera estesa; tuttavia, sfrutteremo l’analogia tra probabilità e
misura per giustificare intuitivamente alcune proprietà della probabilità, quali quelle presentate
nel paragrafo seguente.
A partire dagli assiomi di Kolmogorov, applicando semplici concetti di teoria degli insiemi, è
possibile ricavare le proprietà elementari della probabilità riportate in questo paragrafo. Per
ciascuna di queste proprietà, è fornita una dimostrazione formale rigorosa; tuttavia, una giustifi-
cazione più intuitiva si può dare sfruttando l’analogia tra probabilità e misura e ragionando sui
diagrammi di Venn; in tal caso, possiamo identificare la probabilità di un insieme A con l’area del-
la superficie che occupa sul diagramma di Venn. In particolare, per l’assioma di normalizzazione,
l’analogia richiede che lo spazio campione Ω abbia “area” unitaria. Per brevità, tutti gli insiemi
di cui si calcolano le probabilità nelle proprietà che seguono sono sempre assunti appartenenti al
σ-campo S.
1. P(∅) = 0.
3. P(A) = 1 − P(A).
Ω Ω
;;
;;
AB AB AB B
A B A
Fig. 1.5. Diagramma di Venn delle relazioni A ∪ Fig. 1.6. Diagramma di Venn della relazione
B = A ∪ AB e B = A B ∪ A B. A = B ∪ A B (valida se B ⊆ A).
A ∪ B = A ∪ AB
B = Ω ∩ B = (A + A) ∩ B = A B ∪ A B
5. B ⊆ A ⇒ P(B) ≤ P(A).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.6) è facile verificare che, se B ⊆ A, si ha:
A = B∪AB
perché P(A B) ≥ 0.
6. P(B) ≤ 1.
Esempio 1.7. Riprendiamo l’esempio del lancio di una moneta. Abbiamo definito lo spazio campione
Ω = {T, C} ed il σ-campo S = {{T}, {C}, {T, C}, {∅}}. Per definire una legge di probabilità bisogna allora
assegnare le probabilità agli eventi. A tale scopo è sufficiente assegnare le probabilità ai cosiddetti eventi
elementari {T} e {C}. Una scelta ragionevole è:
è facile vedere che anche tale assegnazione soddisfa gli assiomi di Kolmogorov. Allora qual è la legge di
probabilità “corretta”?
Tale continuità sembra simile a quella comunemente introdotta per le funzioni reali di una va-
riabile reale, ma va interpretata con cautela: poiché infatti S non è un insieme numerico, non
9 Le sezioni contrassegnate dal simbolo possono essere saltate ad una prima lettura.
1.5 Altri approcci alla teoria della probabilità 13
è chiaro che in che senso vada intesa la convergenza della successione di insiemi An all’insieme
A. Una trattazione rigorosa richiederebbe l’introduzione e l’uso di concetti matematici avanza-
ti, quali la teoria degli spazi metrici e/o degli spazi topologici. Qui considereremo un caso più
semplice, nel quale definiremo il concetto di limite solo per particolari successioni di insiemi: in
particolare, diremo che An è una successione decrescente (rispetto alla relazione di inclusione) se
An ⊇ An+1 , ∀n ∈ N; viceversa, diremo che An è una successione crescente (rispetto alla relazione
di inclusione) se An ⊆ An+1 , ∀n ∈ N. Porremo allora le seguenti definizioni di limite:
∞
lim An An , se {An }∞
n=1 è decrescente; (1.4)
n
n=1
∞
lim An An , se {An }∞
n=1 è crescente. (1.5)
n
n=1
Teorema 1.1 (continuità della probabilità). Sia (Ω, S, P) uno spazio di probabilità.
∞
i) Se {An }∞
n=1 è una successione descrescente di eventi, posto A = lim An n=1 An , si
ha:
lim P(An ) = P(lim An ) = P(A) . (1.6)
n n
∞
ii) Se {An }∞
n=1 è una successione crescente di eventi, posto A = lim An n=1 An , si ha:
Prova. La dimostrazione non è complicata, ma viene omessa per brevità, rimandando il lettore interessato a
[7]. Limitiamoci ad osservare che poiché S è un σ-campo, allora A ∈ S, essendo ottenuto come intersezione
o unione numerabile di eventi di S; pertanto ha senso calcolare P(A) in entrambi i casi.
∞
Notiamo che è possibile costruire sequenze {An }∞ n=1 decrescenti tali che n=1 An = ∅. In tal caso,
l’applicazione del risultato i) del teorema precedente consente di affermare che, per sequenze
siffatte, risulta
lim P(An ) = P(∅) = 0 . (1.8)
n
Si può mostrare (si veda [2] oppure [4]) che la (1.8) è logicamente equivalente all’assioma III di
Kolmogorov (numerabile additività), e quindi potrebbe sostituirlo in una diversa assiomatizza-
zione della teoria della probabilità. Per tale motivo, la relazione (1.8) viene talvolta chiamata
assioma di continuità.10
cipalmente a Bruno de Finetti (si veda B. de Finetti, “Theory of Probability”, Wiley, New York, 1974), secondo il quale
non è possibile assegnare alla probabilità un significato ed un valore “oggettivo” (come avviene nell’approccio classico
14 Probabilità elementare
nA
P(A) lim . (1.9)
n→∞ n
L’approccio frequentista è un approccio induttivo, cioè un approccio che si basa (o vorrebbe basar-
si) sull’esperienza, e presenta il vantaggio innegabile di essere vicino al nostro concetto intuitivo
di probabilità; tuttavia non è del tutto soddisfacente per fornire una definizione operativa di pro-
babilità, perché non è possibile ripetere un esperimento un numero infinito di volte. Inoltre, dal
punto di vista matematico, l’esistenza stessa del limite nella (1.9) può essere messa in discussione.
È interessante tuttavia interpretare gli assiomi di Kolmogorov in senso frequentista, visto che
in molti casi la nostra interpretazione intuitiva della probabilità è vicina a quella frequentista.
Infatti, se interpretiamo la probabilità come frequenza di successo dell’evento A su n prove, cioè
trascuriamo l’operazione di limite nella (1.9), ponendo
n
P(A) A ,
n
si ha:
I. P(A) ≥ 0, banalmente perché n A ≥ 0 ed n > 0;
card(A)
P(A) = .
card(Ω)
e frequentista, e parzialmente in quello assiomatico), ma la probabilità stessa esprime piuttosto il grado di aspettativa
soggettiva di un individuo relativamente al verificarsi di un evento. Tale approccio, sebbene ulteriormente sviluppato da
de Finetti e dai suoi discepoli in modo da garantire un’assegnazione “coerente” delle probabilità, è stato guardato spesso
con sospetto dalla comunità scientifica per la sua natura, appunto, soggettiva.
1.5 Altri approcci alla teoria della probabilità 15
Esempio 1.8. Consideriamo il lancio di un dado, per il quale Ω = {1, 2, 3, 4, 5, 6}. Sia poi A = {pari} =
{2, 4, 6}. Sulla base dell’approccio classico, risulta NA = card(A) = 3, N = card(Ω) = 6, per cui P(A) =
card(A)
card(Ω)
= 12 .
L’approccio classico è anch’esso, come quello assiomatico, di tipo deduttivo, cioè si fonda su una
definizione a priori di probabilità, data dalla (1.10). Inoltre è facile verificare che le leggi di proba-
bilità costruite a partire dalla definizione classica soddisfano gli assiomi di Kolmogorov. A prima
vista, allora, l’approccio classico pare più soddisfacente dell’approccio assiomatico, in quanto me-
diante esso è possibile assegnare dei precisi valori alle probabilità, sulla base della (1.10). Tuttavia,
i limiti insiti nell’uso di tale approccio appaiono chiari se ragioniamo più approfonditamente sul-
l’esempio precedente. Infatti, il valore di probabilità dell’esempio precedente è “corretto” a patto
che si assuma che il dado non sia truccato. E se viceversa assumessi il dado truccato? Secondo
l’approccio classico, otterrei esattamente lo stesso valore di probabilità, il che ovviamente non è
il risultato corretto, ed evidenzia la più seria limitazione di tale approccio. Potrei modificare la
definizione classica richiedendo che i risultati da considerare nella (1.10) siano equiprobabili, ma
in questo modo userei il concetto di “equiprobabilità” per definire il concetto di “probabilità”,
cioè ricadrei in un circolo vizioso o tautologico. Infine, non è chiaro come estendere la (1.10) al
caso di un esperimento con infiniti risultati.
• l’approccio classico può servire ad assegnare i valori di probabilità in molti casi pratici (es.
giochi, scommesse, etc.), in cui i risultati possibili si possono ritenere equiprobabili;
12 Va osservato, peraltro, che i tre approcci considerati (ed anche quello soggettivista) differiscono “soltanto” nel modo
in cui si definisce la probabilità e nella sua interpretazione, mentre le regole formali del calcolo delle probabilità restano
esattamente le stesse.
16 Probabilità elementare
dove I A ⊆ N è l’insieme degli indici che identificano gli elementi appartenenti ad A. Poichè
gli eventi elementari {ωi } sono mutuamente esclusivi, allora si ha, per l’assioma III (numerabile
additività):
P(A) = ∑ P({ωi }) .
i∈I A
Tale risultato è esattamente equivalente alla definizione (1.10) di probabilità secondo l’approccio
classico, che quindi può riguardarsi come l’applicazione dell’approccio assiomatico a spazi cam-
pione Ω finiti con eventi elementari equiprobabili, un caso tipico della teoria dei giochi e delle
scommesse. Osserviamo inoltre esplicitamente che determinare la probabilità di un evento A se-
condo la (1.12) equivale a contare gli elementi di A e quelli di Ω. Evidentemente, se card(Ω) = ∞
13 Tale principio, noto anche come “rasoio di Occam”, dal nome del filosofo inglese William of Ockham (1280-1349)
che lo formulò, stabilisce che, se si deve scegliere tra diverse ipotesi riguardanti un fenomeno, bisogna scegliere la più
semplice.
1.6 Esempi di costruzione di spazi di probabilità 17
non è possibile assumere gli eventi equiprobabili, in quanto avrei P(Ω) = ∞ dalla (1.11) in tal
caso!
In definitiva, la (1.12) mostra che in molti casi il calcolo delle probabilità di eventi si riduce
ad un problema puramente combinatorio, consistente cioè nel contare gli elementi di un insieme,
problema semplice in linea di principio, ma la cui applicazione a casi reali può giungere a notevoli
livelli di complessità. I principali risultati del calcolo combinatorio sono riportati in Appendice
B; in particolare, le formule di conteggio più frequentemente utilizzate sono raccolte in Tab. B.1.
Esempio 1.9. Consideriamo il lancio di una moneta. In tal caso lo spazio campione è Ω = {T, C}, e come
σ-campo S è possibile scegliere la classe P(Ω) di tutti i possibili sottoinsiemi di Ω (in numero pari a 22 = 4).
Per assegnare la legge di probabilità, basta assegnare la probabilità degli eventi elementari {T} e {C}. Per
simmetria, poniamo:
P({T}) = P({C}) = 1/2
e le probabilità di tutti gli altri eventi in S si ricavano da queste.
Esempio 1.10. Consideriamo il lancio di un dado. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}, e co-
me σ-campo S è possibile scegliere la classe P(Ω) di tutti i possibili sottoinsiemi di Ω (in numero pari
a 26 = 64). Per assegnare la legge di probabilità, basta assegnare la probabilità degli eventi elementari
{1}, {2}, {3}, {4}, {5}, {6}. Per simmetria, poniamo:
P({1}) = P({2}) = · · · = P({6}) = 1/6
e le probabilità di tutti gli altri eventi in S si ricavano da queste.
Esempio 1.11. Consideriamo il lancio di due monete uguali, o di una moneta due volte. In tal caso, lo
spazio campione è Ω = {TT, TC, CT, CC}, e come σ-campo S è possibile scegliere la classe P(Ω) di tutti i
possibili sottoinsiemi di Ω (in numero pari a 24 = 16). Osserviamo che l’evento
A = {esce testa al primo lancio}
non è un evento elementare. Infatti:
A = {TT, TC} = {TT} ∪ {TC} .
Per assegnare la legge di probabilità, basta associare un valore di probabilità a ciascuno degli eventi elemen-
tari {TT}, {TC}, {CT}, {CC}. Per simmetria, poniamo:
P({TT}) = P({TC}) = P({CT}) = P({CC}) = 1/4
e le probabilità di tutti gli altri eventi in S si ricavano da queste. Ad esempio, per l’evento A definito
precedentemente, si ha:
P(A) = P({TT}) + P({TC}) = 1/4 + 1/4 = 1/2
perché {TT} ∩ {TC} = ∅ (gli eventi elementari sono sempre mutuamente esclusivi) e per l’assioma III di
Kolmogorov.
In sintesi, se Ω è uno spazio discreto (finito o infinito numerabile) è possibile scegliere come σ-
campo la classe P(Ω) delle parti di Ω, ed assegnare la legge di probabilità definendo le probabilità
pi degli eventi elementari {ωi }; in particolare, se Ω è finito con N elementi, è possibile assumere
i risultati equiprobabili e quindi pi = 1/N; tale scelta non è legittima se Ω è infinito.
Esempio 1.12. Sebbene nella maggior parte dei problemi riguardanti spazi discreti si consideri S =
P(Ω), non bisogna pensare che questa sia l’unica scelta possibile. Ad esempio, con riferimento a Ω =
{1, 2, 3, 4, 5, 6}, se un giocatore intende scommettere solo su A = {pari} o A = {dispari}, allora una
scelta più opportuna sarà S = {∅, A, A, Ω}; si può verificare che questo è un σ-campo, anzi è il più pic-
colo σ-campo contenente A, e prende il nome di σ-campo generato da A. In questo caso si ottiene una
semplificazione notevole nella descrizione probabilistica dell’esperimento.
18 Probabilità elementare
Esempio 1.13 (lancetta ruotante). Un semplice esempio di esperimento aleatorio i cui risultati si possano
considerare, con un piccolo sforzo di astrazione, appartenenti ad uno spazio campione continuo è raffigu-
rato in Fig. 1.7. Una lancetta sottile (idealmente filiforme) è messa in rotazione su un piano orizzontale
e si ferma in una posizione arbitraria. Tale posizione può essere individuata univocamente introducendo
un sistema di riferimento cartesiano con origine nell’estremità fissa della lancetta e misurando la posizione
della lancetta con l’angolo ω formato da quest’ultima con l’asse delle ascisse. Pertanto, lo spazio campione
associato ad un tale esperimento sarà Ω = [0, 2π[. Eventi di interesse potranno essere allora sottoinsiemi di
Ω, del tipo:
Dovremo poi assegnare una legge di probabilità che consenta di definire la probabilità di tali eventi e di
tutti gli eventi di interesse. Per fare ciò, tuttavia, dovremo prima individuare la classe di tutti gli eventi di
interesse, ovvero il σ-campo S.
Se Ω è continuo,14 non è possibile scegliere come σ-campo S la classe P(Ω) delle parti di Ω, cioè
la classe di tutti i possibili sottoinsiemi di Ω. Abbiamo già osservato che P(Ω) è senz’altro un
σ-campo, anzi è il σ-campo più grande che è possibile concepire, ma si può dimostrare che è
impossibile costruire una valida legge di probabilità (che soddisfi gli assiomi di Kolmogorov) su
di esso. L’approccio corretto è invece scegliere S come il più piccolo σ-campo che contiene tutti gli
14 Osserviamo che per definire rigorosamente leggi di probabilità su spazi continui sono necessari concetti di teoria degli
spazi con misura e nel caso di Ω ⊆ Rk i concetti della misura secondo Lebesgue in Rk . Per una trattazione rigorosa di tali
concetti si veda [7].
1.6 Esempi di costruzione di spazi di probabilità 19
insiemi aperti di Ω.15 Gli insiemi che appartengono a tale σ-campo si dicono gli insiemi di Borel (o
borelliani) di Ω.
In pratica considereremo solo spazi continui che sono sottoinsiemi dello spazio euclideo Rk ;
in particolare, se Ω ⊆ R, denoteremo con x il generico elemento ω di Ω; se Ω ⊆ R2 , denoteremo
con (x, y) il generico elemento ω di Ω, e così via.
Se Ω ⊆ R, allora, è possibile definire S come il più piccolo σ-campo che contiene tutti gli
intervalli aperti ]a, b[ di Ω. Si può facilmente verificare che complementando, unendo ed inter-
secando un’infinità numerabile di intervalli di questo tipo, si ottengono tutti i tipi di intervalli
[a, b], [a, b[, ]a, b], ]a, b[, così come i punti isolati {a}, e tutti i loro complementi, unioni e interse-
zioni (tutti questi insiemi costituiscono la classe degli insiemi di Borel in R). Tuttavia è possibile
(anche se non immediato) costruire sottoinsiemi di Ω che non stanno in S, e quindi S non con-
tiene tutti i sottoinsiemi di Ω, ovvero S ⊂ P(Ω). Senza essere eccessivamente formali, tuttavia,
potremo assumere che tutti i sottoinsiemi di R che si utilizzano nella pratica appartengano a S,
siano cioè insiemi di Borel.
Una volta determinato il σ-campo, ci rendiamo conto che non è possibile procedere come
abbiamo fatto nel caso discreto, ovvero assegnando le probabilità degli eventi elementari {x}.
In questo caso, infatti, utilizzando l’assioma di numerabile additività, riusciremmo a definire la
probabilità solo di sottoinsiemi numerabili di Ω; invece, non potremmo mai definire in questo
modo la probabilità di eventi del tipo (a, b).
Dobbiamo allora procedere in maniera alternativa. Una possibile strada è quella di conside-
rare una funzione reale f (x) ≥ 0 tale che
f (x) dx = 1 (1.13)
Ω
dove si assume che l’integrale esista finito per ogni A ∈ S. Si può facilmente osservare che la
(1.14) definisce una funzione da S a R che rispetta gli assiomi di Kolmogorov, ed è quindi una
valida legge di probabilità. Infatti, P(A) ≥ 0 perché f (x) ≥ 0 (assioma I); P(Ω) = Ω f (x) dx = 1
per la (1.13) (assioma II); infine, se A e B sono insiemi disgiunti, si ha P(A ∪ B) = P(A) + P(B)
per l’additività dell’integrale (assioma III nella forma finita).16
Esempio 1.14. Ad esempio, per la lancetta rotante dell’esempio 1.13, potremo scegliere una funzione f (x)
così definita:
1
, se x ∈ [0, 2π];
f (x) = 2π
0, altrimenti.
Come si vede, tale funzione è non negativa e soddisfa alla condizione di normalizzazione (1.13): tale legge
di probabilità si dice uniforme nell’intervallo [0, 2π[. A questo punto, la probabilità che la lancetta si fermi in
qualunque intervallo angolare A = [θ1 , θ2 ] ⊆ [0, 2π[= Ω è:
θ2
1 θ2 − θ1
P(A) = dx = .
2π θ1 2π
15 Nello spazio Ω ⊆ R, un insieme A si dice aperto se per un qualunque x ∈ A esiste un intervallo aperto A =]a, b[ tale
x
che x ∈ A x ⊂ A. In uno spazio astratto Ω qualsiasi, per definire un insieme aperto occorre definire una topologia su Ω.
16 A voler essere precisi, bisogna dire che non tutte le leggi di probabilità su Ω ⊆ R possono essere espresse nella forma
Utilizzando tale formulazione, è semplice calcolare la probabilità degli eventi A1 , A2 e A3 definiti nell’e-
sempio 1.13. Si ha:
π/2 1
P(A1 ) = =
2π 4
π 1
P(A2 ) = =
2π 2
0
P(A3 ) = =0
2π
I primi due risultati sono in accordo con la nostra intuizione, mentre l’ultimo risultato appare sorprendente:
la probabilità che la lancetta si fermi in una precisa posizione angolare è zero!
per cui
x+1/n
lim f (u) du =0
n x
da cui l’asserto.
Il risultato che gli eventi elementari {x} abbiano probabilità nulla, sebbene possa apparire a pri-
ma vista sorprendente, non è in contrasto con l’assioma di normalizzazione (P(Ω) = 1), nè con
quello di numerabile additività. Infatti, nel caso continuo risulta Ω = x∈Ω {x}, ovvero Ω è
esprimibile come l’unione degli eventi elementari disgiunti, ma tale unione non è numerabile, e
quindi non è applicabile il terzo assioma (che restituirebbe un paradossale P(Ω) = 0). In questo
caso, allora, può evidentemente risultare P(Ω) = 1 anche se gli eventi elementari hanno probabi-
lità zero. D’altra parte, l’apparente paradosso nasce dal fatto che specificare l’evento elementare
{x} significa idealmente assegnare un numero reale x con tutte le cifre significative; nella prati-
ca questo è impossibile, e ci limitiamo a fornire la rappresentazione di x solo fino alla K-esima
cifra significativa, per cui quello che consideriamo un “numero reale approssimato” è in realtà
l’insieme (continuo) dei numeri reali la cui rappresentazione fino alla K-esima cifra significativa
coincide con quella assegnata. Ad esempio, l’approssimazione x = 3.14 di π rappresenta in real-
tà qualunque numero reale compreso tra 3.140000 . . . e 3.149999 . . ., ovvero l’intervallo di valori
[3.14, 3.15[. Pertanto, nella pratica non è possibile considerare veri e propri eventi elementari, ma
solo intervalli di R, la cui probabilità, calcolata sulla base della (1.14), è generalmente diversa da
zero.
Per completare il nostro ragionamento, resta da approfondire l’interpretazione da dare alla
funzione f (x). Se f (x) è continua, consideriamo l’evento A = {x ≤ u ≤ x + ∆x} ed applichiamo
1.6 Esempi di costruzione di spazi di probabilità 21
con θ ∈ [0, 1], da cui, dividendo per ∆x e passando al limite per ∆x → 0, si ha:
e quindi la funzione f (x) si può interpretare come una densità di probabilità. Notiamo che tale
densità di probabilità è in genere diversa da zero, anche se la probabilità dell’evento elementare
{x} è nulla.
Nelle precedenti considerazioni, un punto non completamente chiaro è come scegliere la fun-
zione f (x). Anche qui emerge l’incompletezza dell’approccio assiomatico, ovvero ogni funzione
f (x) ≥ 0 che soddisfi la (1.13) definisce una valida legge di probabilità. Ma, se vogliamo invocare
il principio di ragione insufficiente, qual è la scelta più “semplice” da fare? A prima vista, sem-
brerebbe che, in mancanza di altre informazioni, la scelta di una funzione f (x) costante ovvero di
una legge di probabilità uniforme (vedi esempio 1.14) sia la più naturale. Tuttavia, tale scelta non
è lecita se Ω non è limitato, perché una funzione costante e positiva avrebbe integrale infinito
su un insieme non limitato, e quindi non potrebbe soddisfare la condizione di normalizzazione
(1.13). La scelta di una funzione costante è viceversa perfettamente legittima se Ω è limitato,
ad esempio se Ω = [x1 , x2 ], come già osservato nell’esempio 1.14 ed ulteriormente discusso nel
seguente esempio.
Esempio 1.15. Si consideri l’esperimento consistente nell’arrivo a caso di una telefonata ad una centrale
telefonica nell’intervallo [t1 , t2 ]. In tal caso, il risultato dell’esperimento è un numero reale x ∈ [t1 , t2 ], che
rappresenta l’istante di arrivo della telefonata, per cui lo spazio campione è Ω = [t1 , t2 ]. Come σ-campo,
tenendo conto dell’osservazione fatta nel precedente esempio, scegliamo il più piccolo σ-campo che con-
tiene tutti gli intervalli aperti ]a, b[⊆ [t1 , t2 ]. Come legge di probabilità, in mancanza di altre informazioni,
scegliamo una funzione f (x) così definita:
α, se x ∈ [t1 , t2 ];
f (x) =
0, altrimenti.
Tale f (x) si dice uniforme in [t1 , t2 ]. Imponiamo ora che la condizione di normalizzazione (1.13) sia soddi-
sfatta: t2
1
f (x) dx = 1 ⇒ α = .
t1 t2 − t1
In base a questa scelta della funzione f (x), la probabilità che giunga una telefonata in un intervallo A =
[a, b] ⊆ Ω è:
b
1 b−a
P(A) = dx = .
t2 − t1 a t2 − t1
Osserviamo che, poichè b − a è la misura dell’intervallo [a, b], e t2 − t1 è la misura dell’intervallo Ω = [t1 , t2 ],
la probabilità P(A) si può interpretare come una misura normalizzata:
misura(A)
P(A) = .
misura(Ω)
Tale interpretazione della probabilità mostra chiaramente i legami della teoria della probabilità con la teo-
ria della misura, e prende anche il nome di interpretazione geometrica della probabilità o semplicemente
probabilità geometrica.
22 Probabilità elementare
y y = x + ∆t1
y Ω
Ω T
T
T1
C
D
∆t1
y = x − ∆t2
D1
T2
D2
T x ∆t2 T x
I concetti introdotti per il caso Ω ⊆ R possono essere estesi, senza grosse difficoltà concettuali, al
caso più generale in cui Ω ⊆ Rk . Il caso k = 2 è discusso nel seguente esempio, con riferimento
ad un problema concreto.
misura(A)
P(A) = ,
misura(Ω)
dove misura(Ω) = misura(quadrato) = T 2 . Ad esempio, la probabilità che (x, y) ∈ A = [a, b] × [c, d] è data
da:
(b − a)(d − c)
P(A) = .
T2
Una volta individuato un corretto modello probabilistico, possiamo affrontare il calcolo della probabilità
di un qualsiasi evento, e data la definizione della probabilità come misura normalizzata, il calcolo si può
effettuare utilizzando semplici considerazioni geometriche.
Ad esempio, sia C il seguente evento: “Tizio arriva prima di Caio”. In termini numerici, risulta eviden-
temente C = {x ≤ y}, per cui l’evento C è il triangolo rappresentato in Fig. 1.8. Si ha allora:
misura(C) T 2 /2 1
P(C) = = = .
misura(Ω) T2 2
Calcoliamo adesso la probabilità dell’evento D definito come segue: “Tizio e Caio si incontrano”. Evi-
dentemente, ciò si verifica se:
• arriva prima Tizio, e risulta y ≤ x + ∆t1 ; corrisponde al dominio D1 = {x ≤ y, y ≤ x + ∆t1 } di Fig.
1.9; oppure:
1.6 Esempi di costruzione di spazi di probabilità 23
(T − ∆t1 )2
misura(T1 ) = ,
2
(T − ∆t2 )2
misura(T2 ) = ,
2
da cui sostituendo si ha il risultato finale:
Esercizio 1.2. Sia Ω = {1, 2, 3, 4, 5, 6} uno spazio campione, verificare se le seguenti collezioni di insiemi
sono σ-campi:
Esercizio 1.3. Siano A e B due eventi tali che P(A ∩ B) = 1/4, P(A) = 1/3 e P(B) = 1/2. Calcolare la
probabilità di A ∪ B. [Risposta: 11/12]
Esercizio 1.4. Siano A, B e C tre eventi di uno spazio di probabilità. Esprimere i seguenti eventi in termini di
operazioni elementari sugli insiemi:
a) si verificano almeno due dei tre eventi A, B, C;
b) si verificano esattamente due dei tre eventi A, B, C;
c) si verificano al più due dei tre eventi A, B, C;
d) si verifica esattamente uno dei tre eventi A, B, C.
Esercizio 1.5. Siano A e B due eventi di uno spazio di probabilità. Calcolare la probabilità dell’evento A − B
in termini di P(A) e P(A ∩ B). [Risposta: P(A − B) = P(A) − P(A ∩ B)]
Esercizio 1.6. Siano A e B due eventi di uno spazio di probabilità. Se definisce differenza simmetrica degli
insiemi A e B l’insieme A∆B contenente gli elementi di A oppure di B ma non di entrambi (corrisponde
logicamente all’operazione di OR esclusivo). Calcolare la probabilità dell’evento A∆B in termini di P(A),
P(B) e P(A ∩ B). [Risposta: P(A∆B) = P(A) + P(B) − 2 P(A ∩ B)]
Esercizio 1.7. Siano A e B due eventi di uno spazio di probabilità. Esprimere i seguenti eventi in termini di
operazioni elementari sugli insiemi e calcolarne le probabilità in termini di P(A), P(B) e P(A ∩ B):
a) A oppure B oppure entrambi;
b) almeno uno tra A e B;
c) A ma non B;
d) A oppure B ma non entrambi;
e) al più uno tra A e B.
Esercizio 1.8. Siano A, B e C tre eventi di uno spazio di probabilità. Mostrare che
Esercizio 1.9. 17 Giovanni e Maria seguono un corso di matematica, il cui esame finale prevede solo tre
punteggi: A, B e C. La probabilità che Giovanni prenda B è pari a 0.3, la probabilità che Maria prenda B è
pari a 0.4, la probabilità che nessuno dei due prenda A ma almeno uno dei due prenda B è pari a 0.1. Qual
è la probabilità che almeno uno dei due prenda B ma nessuno prenda C? [Risposta: 0.6]
17 Gli esercizi contrassegnati con il simbolo sono di maggiore difficoltà e non vanno affrontati per primi.
1.7 Esercizi proposti 25
Esercizio 1.10. I risultati di un esperimento sono numeri interi equiprobabili tra 1 (incluso) e 12 (incluso). Si
considerino i seguenti eventi:
Esercizio 1.11. Si lanciano due dadi18 . Calcolare la probabilità dei seguenti eventi:
Esercizio 1.12. Nel 1600, alcuni giocatori chiesero a Galileo Galilei di spiegare perché, nel lancio di tre
dadi, la somma 10 si presenti con maggior frequenza di 9, nonostante sia 10 che 9 si possano ottenere come
somme di 6 terne distinte di interi tra 1 e 6.
a) Formulare un appropriato modello probabilistico del problema.
b) Calcolare la probabilità di ottenere 10 e 9 e verificare che effettivamente l’osservazione dei giocatori era
fondata.19
Esercizio 1.13. Un dado è truccato in modo che la probabilità di ogni faccia sia proporzionale al numero di
punti sulla faccia stessa (ad esempio, un “sei” è tre volte più probabile di un “due”). Calcolare la probabilità
di ottenere un numero pari in un singolo lancio del dado.
Esercizio 1.15. Si lanciano due dadi, e si denotano i risultati come d1 ed d2 . Qual è la probabilità che
l’equazione di secondo grado x2 + x d1 + d2 = 0 abbia radici reali? [Risposta: 19
36 ]
Esercizio 1.16. Si considerino le cifre 1, 2, 3, 4, 5. L’esperimento è il seguente: si sceglie prima una cifra, e
poi una seconda tra le restanti. Assumendo i 20 (perché?) possibili risultati dell’esperimento equiprobabili,
determinare la probabilità che
a) la prima volta venga scelta una cifra dispari;
b) la seconda volta venga scelta una cifra dispari;
c) entrambe le volte venga scelta una cifra dispari.
[Risposta: 35 , 35 , 3
10 ]
Esercizio 1.17. Si estraggono simultaneamente due carte da un mazzo di carte francesi (senza jolly). Calco-
1
lare la probabilità di ottenere due assi. [Risposta: 221 ≈ 0.0045]
Esercizio 1.18. Si estraggono simultaneamente due carte da un mazzo di carte francesi (senza jolly). Calco-
lare la probabilità che almeno una sia di cuori. [Risposta: 15
34 ≈ 0.441]
18 In questo e negli esercizi che seguono, salvo avviso contrario, le monete ed i dadi sono bilanciati, i mazzi di carte
Esercizio 1.19. Si estraggono in successione due carte da un mazzo di carte francesi (senza jolly). Calcolare
la probabilità che la seconda carta estratta sia maggiore della prima. [Risposta: 16
34 ≈ 0.471] [Suggerimento: os-
servare che P(uguale) + P(maggiore) + P({minore}) = 1, che P(maggiore) = P(minore) per simmetria, e calcolare
P(uguale)]
Esercizio 1.20. La metropolitana arriva nella stazione di Campi Flegrei in un istante qualsiasi fra le 14.00 e
le 14.30 e vi sosta T minuti. Uno studente, a sua volta, arriva nella stazione di Campi Flegrei in un istante
qualsiasi dello stesso intervallo di tempo, indipendentemente dalla metropolitana. Quanto deve valere T
affinché lo studente prenda la metropolitana con probabilità 0.8? [Risposta: T ≈ 11 minuti]
Esercizio 1.21. Il gioco delle freccette consiste nel lanciare una freccetta su un bersaglio (vedi figura), otte-
nendo un punteggio corrispondente alla regione colpita. Il quadrato ha lato 2 r, e la distanza tra due cerchi
concentrici adiacenti è pari a r/5. Determinare la probabilità di effettuare 100, 50, 20, 10, oppure 0 punti,
π
lanciando una freccetta a caso (si supponga che la freccetta colpisca comunque il quadrato). [Risposta: 100 ,
3π 5π 7π 16 π
100 , 100 , 100 , 1 − 100 ]
r/5
100 50 20 10
0 punti
2r
Capitolo 2
Probabilità condizionale e
indipendenza
Si affrontano in questo capitolo due argomenti fondamentali della teoria della probabilità: la
probabilità condizionale e l’indipendenza statistica tra eventi. Dopo aver definito il concetto di
probabilità condizionale, si mostra che tutte le proprietà della probabilità possono essere appli-
cate anche alla probabilità condizionale, e si introducono la legge della probabilità composta, il
teorema della probabilità totale ed il teorema di Bayes, estremamente utili nella risoluzione di
problemi pratici. Successivamente si introduce il concetto di indipendenza statistica, che viene
applicato per semplificare la costruzione di spazi di probabilità su esperimenti combinati. I con-
cetti studiati vengono infine applicati ad un modello semplificato di sistema di comunicazione,
comprendente una sorgente di informazione, un canale di comunicazione ed una destinazione;
in particolare, viene studiato in dettaglio il modello di canale binario simmetrico (BSC).
2.1 Introduzione
Nel precedente capitolo abbiamo introdotto i concetti basilari della teoria della probabilità, ed
in particolare abbiamo visto come si definisce la probabilità di un evento A appartenente ad
uno spazio di probabilità (Ω, S, P); inoltre, a partire dalle probabilità di eventi semplici, abbia-
mo derivato delle semplici regole per il calcolo delle probabilità di eventi ottenuti come unione,
complementazione e intersezione di più eventi semplici.
Tuttavia, anche nello studio delle relazioni che coinvolgono più eventi di uno spazio di proba-
bilità, non abbiamo approfondito le relazioni di dipendenza (o di assenza di dipendenza, ovvero
indipendenza) tra tali eventi. Lo studio di tali relazioni, affrontato nel corso di questo capitolo,
consentirà di dare risposta a quesiti del tipo: se sappiamo che si è verificato l’evento B, come
si modifica la probabilità dell’evento A? Il punto di partenza delle nostre considerazioni sarà il
concetto di probabilità condizionale.
28 Probabilità condizionale e indipendenza
Esempio 2.1. In un lancio di un dado ben equilibrato, calcolare la probabilità che esca 6 sapendo che (dato
che) è uscito un numero pari.
Definiamo come al solito lo spazio campione Ω = {1, 2, 3, 4, 5, 6}, e gli eventi A = {6}, B = {pari} =
{2, 4, 6}. Assumendo gli eventi elementari equiprobabili, si ha:
P(A) = 1/6 ,
P(B) = 3/6 = 1/2 ,
P(AB) = P(A) = 1/6 ,
1/6
P(A|B) = = 1/3 .
1/2
Si noti che P(A|B) > P(A), cioè è aumentata la probabilità che esca 6 se sappiamo che è uscito un numero
pari, come è naturale.
• se P(A|B) = P(A), A è “indifferente” a B; in questo caso vedremo nel seguito (cfr. § 2.3)
che A e B sono statisticamente indipendenti.
Esempio 2.2. Dati gli eventi A = {oggi piove} e B = {oggi è estate}, si ha che P(A|B) < P(A) cioè
diminuisce la probabilità che oggi piova se so che è estate. Se viceversa B = {oggi è inverno} ho che
P(A|B) > P(A) cioè aumenta la probabilità che oggi piova se so che è inverno.
Ω Ω
A2 B
A1 B
E
B
A2
A1
B A A
Fig. 2.1. Diagramma di Venn che mostra che se Fig. 2.2. Diagramma di Venn della relazione E =
A1 ed A2 sono mutuamente esclusivi, anche A1 B B − E = A ∩ B, con E = A ∩ B.
ed A2 B sono mutuamente esclusivi.
P(A1 B) + P(A2 B)
P(A1 ∪ A2 |B) = = P(A1 |B) + P(A2 |B) .
P(B)
possiamo vedere la legge di probabilità condizionata come una sorta di “raffinamento” della
legge di probabilità originaria.
Una interpretazione leggermente differente è quella secondo la quale la probabilità condizio-
nale definisce una legge di probabilità PB su un nuovo spazio campione ΩB = B, con eventi del
tipo E = A ∩ B (A ∈ S). Secondo questa interpretazione, se sappiamo che si è verificato B allora
possiamo “restringere” il nostro spazio campione a B stesso, eliminando cioè tutti quei risulta-
ti che non appartengono a B, e che quindi certamente non si sono verificati. In questo senso,
la legge di probabilità condizionata è una “restrizione” della legge di probabilità originaria al
sottoinsieme B.
Prova. Consideriamo il nuovo spazio campione Ω B = B, come σ-campo l’insieme S B composto da tutti gli
insiemi del tipo E = A ∩ B, con A ∈ S, e come legge di probabilità su Ω B la PB definita dalla seguente:
P(AB)
PB (E) .
P(B)
P(A1 B) + P(A2 B)
P(E1 ∪ E2 ) = = PB (E1 ) + PB (E2 ) .
P(B)
Gli assiomi di Kolmogorov sono verificati e quindi la PB (·) è una valida legge di probabilità su Ω B = B.
A rigore, per ricavare tale legge dalla definizione (2.1), è necessario supporre che P(A) e P(B)
siano non nulle. Tuttavia, si osservi che essa vale formalmente anche se P(A) e/o P(B) è zero, e
quindi la probabilità condizionale non è ben definita. Infatti, in tal caso, dalla relazione A ∩ B ⊆ A
e A ∩ B ⊆ B si ricava necessariamente P(A ∩ B) = 0. Si osservi, infine, che la probabilità P(A ∩ B)
viene comunemente denominata probabilità congiunta degli eventi A e B.
L’utilità della legge della probabilità composta è che essa consente di calcolare la probabilità
dell’evento A ∩ B in tre passi: (i) si calcola prima la probabilità di A; (ii) si calcola la probabilità
di B dato A; (iii) si moltiplicano i due valori di probabilità. Ovviamente, data la simmetria della
legge, si possono scambiare i ruoli di A e B secondo convenienza.
2.2 Probabilità condizionale 31
Esempio 2.3. Una scatola contiene 3 palle bianche (w1 , w2 , w3 ) e 2 rosse (r1 , r2 ). Si rimuovono due palle in
successione. Qual è la probabilità che la prima sia bianca e la seconda rossa?
Lo spazio campione è costituito da tutte le coppie ordinate di palle, che sono esattamente venti:
Ω = {w1 w2 , w1 w3 , w1 r1 , w1 r2 , w2 w1 , w2 w3 , . . . , r1 r2 } .
Infatti, la prima palla può essere scelta in 5 modi differenti; fissata la prima palla, la seconda può essere
scelta in 4 modi differenti, per cui ho un totale di 5 × 4 = 20 differenti modi. Più formalmente, le disposizioni
ordinate senza sostituzione di n elementi su k posti sono n!/(n − k)! = n(n − 1) · · · (n − k + 1) (cfr. Tab. B.1),
e nel caso in questione n = 3 + 2 = 5 e k = 2, da cui il risultato.
L’evento C = {prima palla bianca, seconda rossa} è costituito da 6 elementi:
C = {w1 r1 , w2 r1 , w3 r1 , w1 r2 , w2 r2 , w3 r2 } .
Se assumiamo gli eventi elementari equiprobabili e con probabilità pari ad 1/20, allora P(C) = card(C)/card(Ω) =
6/20 = 3/10.
Vediamo ora se possiamo applicare il concetto di probabilità condizionale per arrivare allo stesso risul-
tato più semplicemente. Definiamo:
Ora, evidentemente,
P(A) = P(prima bianca) = 3/5
e rimane da calcolare
P(B|A) = P(seconda rossa|prima bianca) .
Se la prima palla estratta è bianca, rimangono nella scatola 4 palle, 2 bianche e 2 rosse, per cui P(B|A) = 1/2.
Si ha allora:
3 1 3
P(C) = P(B|A) P(A) = · = .
5 2 10
Notiamo che seguendo il secondo approccio non è stato necessario determinare (contare) il numero di
elementi di Ω.
P(ABC)
P(A|B, C) , P(BC) = 0 .
P(BC)
Si noti che P(A|B, C) è da intendersi come P(A|BC), cioè si condiziona all’evento BC, ovvero al
fatto che si sono verificati congiuntamente l’evento B e l’evento C. Riscrivendo la precedente, si
trova allora una legge di fattorizzazione analoga alle legge della probabilità composta:
e poichè, per la legge della probabilità composta, P(BC) = P(B|C) P(C), si ottiene:
assioma si ha:
n
P(B) = ∑ P(B ∩ Ai ) .
i=1
Per la legge della probabilità composta, si ha:
A2
A3
A1 A2 B
A1 B A3 B
A4 B B
A4
Fig. 2.3. Diagramma di Venn del teorema della probabilità totale (n = 4).
2.2 Probabilità condizionale 33
n
Nella pratica può essere complicato verificare la condizione B ⊆ i=1 Ai , per cui spesso si assume
che gli insiemi A1 , A2 , . . . , An , mutuamente esclusivi, costituiscano una partizione di Ω. In tal caso
n
i=1 Ai = Ω per cui la condizione precedente risulta senz’altro verificata.
Prova. Il teorema è una conseguenza banale della legge della probabilità composta e del teorema della
probabilità totale. Infatti, per la legge della probabilità composta, si ha:
per cui:
P(B|Ai ) P(Ai )
P(Ai |B) = .
P(B)
Sostituendo P(B) come espresso dal teorema della probabilità totale nella precedente si ha l’asserto.
Il teorema di Bayes vale nelle stesse ipotesi del teorema della probabilità totale; inoltre entrambi i
teoremi possono estendersi al caso in cui gli eventi Ai condizionanti siano un’infinità numerabile.
Nel teorema di Bayes, la probabilità P(Ai ) è spesso definita probabilità a priori, mentre la P(Ai |B)
è definita probabilità a posteriori.
Poichè siamo nelle ipotesi del teorema della probabilità totale, possiamo scrivere:
Sostituendo i valori numerici si trova P(B) ≈ 0.18, che pertanto è la risposta al primo quesito. Per rispondere
al secondo, possiamo applicare il teorema di Bayes:
P(B|A2 ) P(A2 )
P(A2 |B) = ≈ 0.73 .
P(B)
Notiamo che la probabilità a posteriori P(A2 |B) che il componente provenga dalla scatola 2, sapendo che è
difettoso, è molto maggiore della probabilità a priori P(A2 ) che il componente provenga dalla stessa scatola,
che è pari ad 1/3. Questo è intuitivamente chiaro, perché la percentuale di componenti difettosi contenuti
nella scatola 2 è maggiore di quella delle altre scatole.
Esempio 2.5. Si dispone di un test per individuare una malattia molto rara, che colpisce 1 paziente su
100 000. Il test è abbastanza affidabile: se il paziente ha la malattia, il test la individua con probabilità 0.95;
se il paziente non la malattia, il test è falsamente positivo con probabilità 0.005. Se il test dice che la malattia
è presente, qual è la probabilità che il paziente abbia effettivamente la malattia?
Lo spazio campione Ω associato a tale esperimento è costituito da tutti i pazienti sottoposti al test.
Definiamo i tre eventi:
Poiché P(B|A2 ) P(A1 ), si ha che P(A1 |B) 1. In effetti, sostituendo i valori numerici, si trova
P(A1 |B) ≈ 2 · 10−3 ; nonostante il test sembri abbastanza affidabile, la rarità della malattia lo rende pra-
ticamente inutile. Dalle considerazioni fatte, si comprende che per avere P(A1 |B) ≈ 1 (un buon test) debba
risultare P(B|A2 ) P(A1 ), cioè dovrei avere un test con probabilità di “falsa positività” molto più piccola
della probabilità di occorrenza della malattia. Pertanto, si capisce perché effettuare uno screening di massa
per individuare una malattia rara sia spesso considerato economicamente poco conveniente.
2.3 Indipendenza tra eventi 35
Si noti che sostituendo tale espressione nella legge di probabilità composta (2.2) si ha:
P(B|A) = P(B)
Tale definizione afferma che la probabilità congiunta P(AB) si fattorizza nel prodotto delle pro-
babilità P(A) e P(B), che prendono il nome di probabilità marginali.
Esempio 2.6. Consideriamo l’esempio, già visto, del lancio di due monete uguali, o di una moneta due
volte. Lo spazio campione è Ω = {TT, TC, CT, CC}, e abbiamo assunto gli eventi elementari equiprobabili
e con probabilità pari ad 1/4, per simmetria. Consideriamo ora gli eventi:
A = {TT, TC} ,
B = {CT, TT} ,
P(AB) = P({TT}) = 1/4 ,
P(A) = 2/4 = 1/2 ,
P(B) = 2/4 = 1/2 ,
per cui P(AB) = P(A) P(B), e quindi gli eventi sono indipendenti. Ragionando allo stesso modo, è fa-
cile provare che risultano statisticamente indipendenti tutti gli eventi del tipo {T/C al primo lancio} e
{T/C al secondo lancio}.
Abbiamo già osservato che la definizione di indipendenza implica che P(A|B) = P(A) e P(B|A) =
P(B). Inoltre, se A e B sono indipendenti, è facile provare che risultano indipendenti anche A e
B, A e B, A e B.
36 Probabilità condizionale e indipendenza
1. sono indipendenti a coppie, cioè P(AB) = P(A) P(B), P(AC) = P(A) P(C), P(BC) =
P(B) P(C);
Osserviamo esplicitamente che non è possibile assumere solo la seconda fattorizzazione come
definizione di indipendenza, in quanto è possibile costruire esempi per i quali risulta P(ABC) =
P(A) P(B) P(C) mentre P(AB) = P(A) P(B) etc.
Generalizzando il discorso al caso di n eventi, conviene definire separatamente il concetto di
indipendenza a coppie e quello di indipendenza:
P Ai = ∏ P(Ai ) ,
i∈I i∈I
Esempio 2.7. Un esempio1 di eventi indipendenti a coppie ma non indipendenti è il seguente: dato lo
spazio campione Ω = {ω1 , ω2 , ω3 , ω4 }, con gli eventi elementari equiprobabili, si considerino gli eventi:
Esempio 2.8 (eventi indipendenti ed eventi mutuamente esclusivi). Due concetti talvolta confusi sono quelli di
eventi indipendenti e di eventi mutuamente esclusivi. Mentre infatti l’indipendenza equivale alla fattoriz-
zazione P(AB) = P(A) P(B), due eventi si dicono mutuamente esclusivi se AB = ∅, per cui risulta neces-
sariamente P(AB) = 0. Inoltre il concetto di eventi mutuamente esclusivi ha una chiara interpretazione sui
diagrammi di Venn (gli insiemi A e B non si sovrappongono), mentre il concetto di eventi indipendenti no
(se utilizziamo l’analogia in termini di aree normalizzate, la condizione di indipendenza si può esprimere
dicendo che “l’area dell’interesezione AB è pari al prodotto delle aree di A e di B”, che non ha una chiara
interpretazione sul diagramma di Venn, in quanto non si riconduce a relazioni di inclusione/esclusione). In
definitiva, i due concetti non hanno alcuna relazione reciproca, salvo nel caso banale in cui P(A) = 0 oppure
P(B) = 0.
P(AB|C) = P(A|C)P(B|C) .
Si noti che l’indipendenza condizionale non implica l’indipendenza di A e B, se non nel caso in
cui C = Ω. Allo stesso modo, per quanto meno intuitivamente comprensibile, l’indipendenza tra
A e B non implica l’indipendenza condizionale rispetto ad un terzo evento C (si veda l’esercizio
2.18).
Esempio 2.9. Supponiamo di avere due esperimenti aleatori, cui siano associati due spazi di probabilità
(Ω1 , S1 , P1 ) e (Ω2 , S2 , P2 ). Per fissare le idee, si consideri come primo esperimento il lancio di una moneta,
con spazio campione Ω1 = {T, C}, e come secondo esperimento il lancio di un dado, con spazio campione
Ω2 = {1, 2, 3, 4, 5, 6}. Gli spazi di probabilità associati a ciascuno di tali esperimenti si costruiscono nel
modo consueto (assumendo l’equiprobabilità degli eventi elementari).
Consideriamo adesso l’esperimento combinato (lancio di una moneta e di un dado), che ha come spazio
campione il prodotto cartesiano di Ω1 ed Ω2 :
Ω = Ω1 × Ω2 = {(T, 1), (T, 2), . . . , (T, 6), (C, 1), (C, 2), . . . , (C, 6)}
38 Probabilità condizionale e indipendenza
Dall’esempio precedente, abbiamo osservato che non tutti gli eventi di Ω1 × Ω2 sono del tipo
A × B, e quindi S non è semplicemente dato da S1 × S2 : d’altra parte, se Ω1 ed Ω2 sono insiemi
finiti di cardinalità n1 ed n2 , e se S1 e S2 sono le classi di tutti i sottoinsiemi di Ω1 e Ω2 , rispet-
tivamente, si ha che card(S1 ) = 2n1 e card(S2 ) = 2n2 , per cui card(S1 × S2 ) = 2n1 +n2 mentre
card(S) = 2n1 n2 > 2n1 +n2 . In generale è possibile costruire il σ-campo S partendo da S1 × S2
e aggiungendo complementi, unioni e intersezioni di un numero finito o infinito numerabile di
insiemi. I precedenti concetti possono essere formalizzati nella seguente definizione di spazio di
probabilità prodotto:
In sostanza, dalla precedente definizione di indipendenza,2 si ha che per tutti gli eventi di S che
possono essere espressi come A × B, con A ∈ S1 e B ∈ S2 , poiché risulta:
A × B = (A × Ω2 ) ∩ (Ω1 × B) ,
si ha:
P(A × B) = P[(A × Ω2 ) ∩ (Ω1 × B)] = P(A × Ω2 )P(Ω1 × B) = P1 (A) P2 (B) .
In particolare, osserviamo che, per gli eventi elementari di Ω, si ha (ω1 , ω2 ) = {ω1 } × {ω2 }, per
cui
P(ω1 , ω2 ) = P1 (ω1 ) P2 (ω2 ) . (2.8)
È facile dimostrare a questo punto, almeno per spazi di probabilità discreti, che l’ipotesi di in-
dipendenza consente di calcolare completamente le probabilità dello spazio prodotto in termini
delle probabilità degli spazi componenti. Infatti, un qualunque evento appartenente al σ-campo
costruito sullo spazio di probabilità prodotto potrà essere espresso come unione al più nume-
rabile di eventi elementari dello spazio prodotto, e quindi la sua probabilità si potrà calcolare, a
partire dalle probabilità degli eventi elementari (2.8), adoperando l’assioma di numerabile additi-
vità. Concetti più sofisticati di teoria della misura mostrano che è possibile procedere in maniera
simile anche per spazi di probabilità continui. In definitiva, allora, nel caso di esperimenti indipenden-
ti è possibile specificare la legge di probabilità P sullo spazio prodotto semplicemente a partire dalle leggi di
probabilità P1 e P2 definite sugli spazi componenti.
Esempio 2.10. Torniamo al caso del lancio di una moneta e di un dado. Se supponiamo che gli esperimenti
siano indipendenti, e la moneta ed il dado non siano truccati, avrò ad esempio:
1 1 1
P(T, 1) = P1 (T) P2 (1) = · = .
2 6 12
Poichè lo spazio campione dell’esperimento combinato è composto da 12 elementi, è facile riconoscere che
i risultati dell’esperimento combinato sono equiprobabili e con probabilità 1/12.
Esempio 2.11. Consideriamo adesso il lancio di una moneta 2 volte (i lanci sono assunti indipendenti).
È chiaro che quest’esperimento si può vedere come il prodotto di due esperimenti, ciascuno dei quali si
riferisce ad un singolo lancio. Possiamo introdurre, allora, i seguenti spazi campione:
Ω1 = {T, C} ,
Ω2 = Ω1 = {T, C} ,
Ω = Ω1 × Ω2 = Ω21 = {TT, TC, CT, CC} .
2 Notiamo che tale definizione può apparire più elaborata della precedente definizione di indipendenza di eventi
appartenenti ad un medesimo spazio di probabilità, vale a dire P(AB) = P(A) P(B), ma non è sostanzialmente differente:
bisogna infatti osservare che per parlare di indipendenza tra due eventi bisogna che i due eventi A e B appartengano ad
uno stesso spazio di probabilità; pertanto, bisogna prima costruire lo spazio di probabilità prodotto.
40 Probabilità condizionale e indipendenza
Notiamo poi che poiché i lanci sono effettuati con la stessa moneta (supposta bilanciata), risulta P1 = P2 , è
poichè i due lanci sono assunti indipendenti, allora si ha:
1 1 1
P(TT) = P1 (T) P2 (T) = P1 (T)P2 (T) = · =
2 2 4
e similmente per le altre probabilità. Si trova in questo caso che i quattro possibili risultati dell’esperimento
combinato sono equiprobabili.
Esempio 2.12. L’esempio 2.11 può facilmente essere generalizzato al caso di n lanci indipendenti di una
moneta bilanciata. In questo caso lo spazio campione dell’esperimento prodotto è Ω = Ω1n i cui elementi
sono le 2n stringhe di lunghezza n composte dai simboli T e C: ad esempio, per n = 4 si ha:
Poiché gli n lanci sono effettuati con la stessa moneta, si ha P1 = P2 = · · · = Pn ; poiché poi sono assunti
indipendenti, allora la probabilità di una qualunque successione (stringa) di lanci si calcola facilmente, in
quanto, considerando, ad esempio, la stringa composta da n teste, si ha
n
1 1 1 1
P(TTT · · · T) = P1 (T) P1 (T) · · · P1 (T) = · · · · = .
2 2 2 2
n termini
Anche in questo caso, le 2n stringhe sono tutte equiprobabili. Questo può sembrare controintuitivo, poiché
potremmo pensare (data l’equiprobabilità tra testa e croce) che le stringhe con circa n/2 teste ed n/2 croci
debbano essere più probabili di una stringa con n teste o n croci. In realtà il risultato ottenuto è corretto, e
l’apparente contraddizione va sanata portando in conto il differente numero di tali stringhe. Tale proble-
ma sarà analizzato più in dettaglio quando si studierà il problema delle prove ripetute e la distribuzione
binomiale di probabilità) (cfr. 3.5.2).
Notiamo che nella pratica l’indipendenza tra due o più esperimenti si giustifica con considerazio-
ni di natura fisica o intuitiva. Ciò significa che, in molti casi, l’indipendenza è una assunzione o
una ipotesi di lavoro (come l’equiprobabilità), spesso motivata in accordo al principio di ragione
insufficiente.
Esempio 2.13. Consideriamo come primo esperimento il seguente: si sceglie a caso una persona in un
gruppo di persone, il risultato dell’esperimento è la sua altezza h. Come secondo esperimento, possiamo
considerare il seguente: si sceglie a caso una persona in un gruppo di persone, il risultato dell’esperimento
è il suo peso p. L’esperimento combinato può essere descritto nel modo seguente: si sceglie a caso una
persona in un gruppo di persone, il risultato dell’esperimento è una coppia (h, p) rappresentante l’altezza
ed il peso della persona. È chiaro, da considerazioni intuitive, che i due esperimenti non sono indipendenti,
perchè esiste una chiara relazione di dipendenza fisica tra altezza e peso di una persona.
Consideriamo, invece, un terzo esperimento definito nel modo seguente: si sceglie a caso una persona in
un gruppo, il risultato dell’esperimento è il colore dei suoi occhi. È chiaro adesso che le stesse motivazioni
intuitive ci indurranno a ritenere indipendenti il primo ed il terzo esperimento, così come il secondo ed il
terzo, in quanto non esiste nessuna relazione evidente e dimostrata tra l’altezza ed il colore degli occhi di
una persona, oppure tra il peso ed il colore degli occhi di una persona. Se anche sospettassimo l’esistenza di
una relazione del genere, non sapremmo quantificarla, e quindi non ci resterebbe che assumere ugualmente
gli esperimenti indipendenti.
Si estrae una palla da ogni scatola. Calcolare la probabilità che la palla estratta dalla scatola S1 sia bianca e
quella estratta dalla scatola S2 sia rossa.
Gli spazi campione e le leggi di probabilità associate ai singoli esperimenti sono i seguenti (si assumono
gli eventi elementari equiprobabili):
Esempio 2.15. Riprendiamo il problema dell’incontro (esempio 1.16), per mostrare come esso si possa
interpretare come esperimento combinato. Possiamo infatti costruire due spazi di probabilità (Ω1 , S1 , P1 )
e (Ω2 , S2 , P2 ) che descrivono, rispettivamente, l’istante x di arrivo di Tizio e l’istante y di arrivo di Caio.
Risulta Ω1 = Ω2 = [0, T], come σ-campo S1 = S2 sceglieremo la classe degli insiemi di Borel e come legge
di probabilità su Ω1 ed Ω2 potremo assumere quella uniforme, cioè se A = [a, b] ⊆ Ω1 , si avrà:
misura(A) b−a
P1 (A) = =
misura(Ω1 ) T
misura(B) d−c
P2 (B) = = .
misura(Ω2 ) T
Lo spazio campione prodotto sarà Ω = Ω1 × Ω2 = [0, T] × [0, T], cioè il quadrato di lato T, con S costruito
come il più piccolo σ-campo contenente i rettangoli aperti di [0, T] × [0, T]. Se assumiamo che l’arrivo di
Tizio sia indipendente da quello di Caio, gli esperimenti saranno indipendenti, per cui possiamo porre:
(b − a)(d − c)
P((x, y) ∈ [a, b] × [c, d]) = P(A × B) = P1 (A) P2 (A) = ,
T2
che è lo stesso risultato che abbiamo già ricavato nell’esempio 1.16. Notiamo che questa rappresenta solo
la probabilità di eventi di tipo rettangolare, ovvero esprimibili come A × B, con A ∈ S1 e B ∈ S2 . Utiliz-
zando un teorema fondamentale di teoria della misura (teorema di Carathéodory) si può provare che tale
misura(A)
probabilità si può estendere a tutto il σ-campo S, come P(A) = misura(Ω) .
X Y
Sorgente Canale Destinazione
mente l’evento: “il simbolo all’ingresso del canale è 0” mediante la notazione {X = 0}. Vedremo poi nel capitolo 3 che X
rappresenta un semplice esempio di variabile aleatoria.
2.5 Elementi di un sistema di comunicazione 43
P(0|0) + P(1|0) = 1 ,
P(0|1) + P(1|1) = 1 ,
per cui, delle quattro probabilità condizionali menzionate, solo due possono essere assegnate ad
arbitrio, restando univocamente determinate le altre due. Una volta assegnate tali probabilità, se
conosciamo le probabilità dei simboli X emessi dalla sorgente, siano esse:
P1 (X = 0) = q ,
P1 (X = 1) = p ,
è chiaro che possiamo descrivere lo spazio di probabilità prodotto applicando la legge della
probabilità composta, avendosi, ad esempio,
e similmente per tutte le altre. Evidentemente, restano anche univocamente determinate le pro-
babilità dei simboli di uscita. Si ha, infatti,
P2 (Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) ,
P2 (Y = 1) = P(X = 0, Y = 1) + P(X = 1, Y = 1) .
P(0|1) = P(1|0) = ε ,
il canale binario si dirà simmetrico (binary symmetric channel, BSC), e sarà descritto dal solo para-
metro ε. Per la condizione di normalizzazione, risulta anche:
P(0|0) = P(1|1) = 1 − ε ,
44 Probabilità condizionale e indipendenza
1−ε
0 0
ε
X Y
ε
1 1
1−ε
dove evidentemente P(0|0) e P(1|1) rappresentano probabilità di non scambio. Un canale binario
simmetrico è convenientemente rappresentato da un grafo orientato (Fig. 2.5).
Ricaviamo esplicitamente, per un canale binario simmetrico, le probabilità di tutti gli elementi
dello spazio prodotto Ω = Ω1 × Ω2 . Con notazione sintetica, si ha:
È conveniente raggruppare tali probabilità in una tabella (Tab. 2.1). Possiamo osservare che som-
mando lungo le righe otteniamo le probabilità P1 dei simboli X, mentre sommando lungo le
colonne otteniamo le probabilità P2 dei simboli Y.
❅ Y
X ❅
❅ 0 1
0 (1 − ε) q εq
1 εp (1 − ε) p
Se i simboli di ingresso sono equiprobabili (P1 (0) = P1 (1) = 1/2, ovvero p = q = 1/2),
si ricava facilmente che anche i simboli di uscita sono equiprobabili (P2 (0) = P2 (1) = 1/2); si
noti che questa proprietà consegue dalla simmetria del canale, oltre che dalla equiprobabilità dei
simboli di ingresso.
2.5 Elementi di un sistema di comunicazione 45
P(e) = P(Y = X) = P(01 ∪ 10) = P(01) + P(10) = P(1|0) P1 (0) + P(0|1) P1 (1)
= ε q + ε p = ε(p + q) = ε .
Notiamo allora che P(e) = ε, ovvero la probabilità di errore coincide con la probabilità di scam-
bio, indipendentemente dalla distribuzione di probabilità della sorgente. È chiaro allora che ε
determina l’affidabilità del canale di comunicazione; quanto più ε è piccolo (valori tipici sono
nell’ambito da 10−3 a 10−9 ), tanto più il canale è affidabile.4
Possiamo utilizzare il canale binario simmetrico per chiarire meglio il significato di probabilità
a priori e a posteriori. Se non osserviamo l’uscita del canale, potremo dire che il simbolo emesso
dalla sorgente è 0 con probabilità P1 (0) oppure 1 con probabilità P1 (1) (probabilità a priori). Se
però osserviamo l’uscita del canale, sia ad esempio Y = 1, tali probabilità a priori si trasformano
nelle probabilità a posteriori:
P(01) εq
P(X = 0|Y = 1) = = ,
P2 (1) ε q + (1 − ε)p
P(11) (1 − ε) p
P(X = 1|Y = 1) = = .
P2 (1) ε q + (1 − ε)p
per cui si verifica che P(X = 1|Y = 1) P(X = 0|Y = 1) (al limite, per ε → 0, si ha P(X =
1|Y = 1) → 1 e P(X = 0|Y = 1) → 0); ciò significa che osservare l’uscita Y = 1 fa aumentare
significativamente la probabilità che la sorgente abbia emesso il simbolo 1. In questo caso il
canale trasmette l’informazione dalla sorgente alla destinazione in maniera affidabile.
È interessante individuare la condizione di massima incertezza, nella quale P(X = 0|Y =
1) = P(X = 1|Y = 1). Si trova:
ε q = (1 − ε)p ⇒ ε = p .
Impostando un problema analogo per il caso in cui si osserva l’uscita Y = 0, si ricava simmetri-
camente ε = q. Le due condizioni sono entrambe soddisfatte se p = q = ε, il che ovviamente
implica ε = 0.5. Per cui il canale meno affidabile in assoluto è quello caratterizzato da ε = 0.5;
si noti che tale canale ha una probabilità di errore anch’essa pari a 0.5, cioè sbaglia il 50% delle
volte.
Si può facilmente verificare che per un BSC con ε = 0.5 tutte le probabilità congiunte si fat-
torizzano nel prodotto delle probabilità marginali. Questo equivale a dire che gli spazi di pro-
babilità Ω1 e Ω2 sono indipendenti. È chiaro che avere un’uscita indipendente dall’ingresso è la
condizione più sfavorevole che possa capitare se si trasmette informazione su un canale di comu-
nicazione; per decidere quale simbolo è stato trasmesso, una volta osservato un valore dell’uscita,
tanto vale lanciare una moneta e scegliere X = 0 se esce testa, X = 1 se esce croce (o viceversa).
4 A dire il vero, osserviamo che un canale con ε prossimo ad 1, ad esempio ε = 1 − 10−3 , è altrettanto affidabile
di un canale con ε = 10−3 ; infatti il primo canale inverte sistematicamente i simboli, ma questo può facilmente essere
compensato alla destinazione. Per evitare questa incongruenza, considereremo solo valori di ε in [0, 1/2].
46 Probabilità condizionale e indipendenza
Un caso semplice è quello di canale discreto senza memoria (discrete memoryless channel, DMC), cor-
rispondente concettualmente al caso in cui la trasmissione di un blocco avvenga trasmettendo
indipendentemente i simboli che lo compongono. In tal caso, la probabilità precedente si fattorizza
come:
Possiamo esprimere il tutto in forma abbastanza compatta, se osserviamo che in pratica la proba-
bilità condizionata precedente si può vedere come il prodotto di ε, elevato al numero di disaccordi
tra le stringhe 101 e 001, moltiplicato per (1 − ε), elevato al numero di accordi. Il numero di di-
saccordi tra due stringhe binarie x e y prende il nome di distanza di Hamming tra le due stringhe
d H (x, y), ed in pratica si può calcolare effettuando la somma modulo due5 o OR esclusivo (XOR)
5 La somma modulo due è un’operazione binaria, si denota con il simbolo ⊕ ed è caratterizzata dalla seguente tabella
2.5 Elementi di un sistema di comunicazione 47
delle due stringhe e contando il numero di 1 del risultato, ovvero il cosiddetto peso di Hamming
p H (x) della stringa x. Matematicamente, si ha:
d H (x, y) = p H (x ⊕ y)
Ad esempio, la distanza di Hamming tra le stringhe x = 101 e y = 100 si può calcolare come
segue:
d H (101, 100) = p H (101 ⊕ 100) = p H (001) = 1 .
per cui si vede che la caratterizzazione del canale è particolarmente semplice, in quanto si può
esprimere in funzione dell’unico parametro ε e della distanza di Hamming tra le stringhe all’in-
gresso ed all’uscita.
di verità:
0⊕1 = 1⊕0 = 1
0⊕0 = 1⊕1 = 0
48 Probabilità condizionale e indipendenza
Esercizio 2.2. Risolvere l’esercizio 1.16 utilizzando le leggi della probabilità condizionale.
Esercizio 2.3. Risolvere l’esercizio 1.18 utilizzando le leggi della probabilità condizionale.
Esercizio 2.4. (Paradosso dei due figli). Considerate le seguenti due formulazioni del medesimo problema:
a) una coppia ha due figli; sapendo che uno dei due è maschio, qual è la probabilità che anche l’altro sia
maschio?
b) una coppia ha due figli; sapendo che il maggiore dei due è maschio, qual è la probabilità che anche l’altro
sia maschio?
Calcolate le due probabilità e discutete il risultato. [Risposta: 13 , 12 ]
Esercizio 2.5. A e B giocano a dadi, a turno tirano due dadi (comincia A) e vince chi per primo ottiene un
punteggio maggiore o uguale a 7. Si determinino le rispettive probabilità di vittoria. [Risposta: probabilità
che vinca A = 12 5
17 ; probabilità che vinca B = 17 ]
Esercizio 2.6. Una scatola contiene tre dadi, di cui uno è truccato in modo tale che P(6) = 2/3, mentre gli
altri due sono bilanciati. Si estrae a caso un dado e lo si lancia ottenendo un 6. Qual è la probabilità che sia
il dado truccato? Ripetere il calcolo sapendo che lanciando lo stesso dado una seconda volta si riottiene un
6. [Risposta: 23 , 89 ]
Esercizio 2.7. Una compagnia di assicurazione ha tre tipologie di clienti: ad alto rischio, a medio rischio,
e a basso rischio. In particolare, il 20% dei clienti è ad alto rischio, il 30% è a medio rischio, ed il 50% è a
basso rischio. Inoltre, la probabilità che un cliente abbia almeno un incidente durante l’anno è pari a 0.25
per clienti ad alto rischio, a 0.16 per clienti a medio rischio, ed a 0.10 per clienti a basso rischio.
a) Determinare la probabilità che un cliente scelto a caso abbia almeno un incidente durante l’anno.
b) Determinare la probabilità che un cliente sia ad alto rischio, sapendo che ha avuto almeno un incidente
durante l’anno.
[Risposta: 0.148, 0.338]
Esercizio 2.8. Si hanno due monete, una bilanciata e l’altra con due teste. Si sceglie una moneta a caso e si
lancia due volte, ottenendo due teste. Qual è la probabilità che si sia scelta la moneta bilanciata? [Risposta:
1
5]
Esercizio 2.10. (Urna di Polya). Un’urna contiene b palle blu e c palle ciano. Si estrae una palla a caso,
si verifica il colore, e si reintroduce nell’urna insieme con d palle dello stesso colore6 . La procedura viene
ripetuta all’infinito. Qual è la probabilità che:
a) la prima palla estratta sia ciano;
6 Questo schema fu introdotto dal matematico G. Polya per descrivere gli effetti di una malattia contagiosa. Infatti
l’estrazione di una palla di un colore aumenta la probabilità di estrarre successivamente una palla dello stesso colore, il
che rappresenta un modello semplificato per il contagio di una malattia, nelle quali il verificarsi di un caso aumenta la
probabilità che ci siano ulteriori casi.
2.6 Esercizi proposti 49
Esercizio 2.11. Se N studenti nati nel 1983 stanno seguendo il corso di Teoria dei Fenomeni Aleatori, qual è
la probabilità che almeno due di essi festeggino il compleanno nello stesso giorno? Che cosa cambierebbe
365!
se gli studenti fossero nati nel 1984? [Risposta: 1 − 365N (365−N)! ]
Esercizio 2.12. Se P(A) = 1/3 e P(B) = 1/4, A e B possono essere indipendenti? Possono essere mutua-
mente esclusivi? Motivare le risposte.
Esercizio 2.13. (Paradosso di de Meré). Dimostrare che è più probabile ottenere almeno un 6 lanciando un
dado 4 volte che un doppio 6 lanciando due dadi 24 volte.7
Esercizio 2.15. Dovete affrontare in un torneo di scacchi i maestri Alekhine, Botvinnik e Capablanca,
una volta ciascuno. Le vostre probabilità di vittoria contro i tre sono, rispettivamente, p A > p B > pC ;
vi aggiudicate il torneo se vincete due partite consecutive, altrimenti perdete. Avete però la possibilità di
scegliere in che ordine affrontare i tre avversari. Mostrate che per massimizzare la vostra probabilità di
vittoria dovete affrontare Alekhine per secondo.
Esercizio 2.16. Siano A, B e C tre eventi indipendenti. Mostrare che risultano indipendenti:
a) l’evento A e l’evento B C;
b) l’evento A e l’evento B ∪ C.
Esercizio 2.19. (Paradosso di Monty Hall). In un gioco televisivo a premi un concorrente è invitato a
scegliere una tra tre porte chiuse: dietro due di tali porte ci sono due capre, mentre dietro la rimanente
c’è una lussuosa automobile. Si supponga che il concorrente scelga la porta numero 1: a questo punto il
conduttore del gioco apre la porta numero 2 dietro la quale vi è una capra, e chiede al concorrente se questi
voglia cambiare la propria scelta della porta oppure no. Qual è la scelta più conveniente per il concorrente?8
7 Questo è il calcolo originariamente effettuato nel 1654 dal matematico e filosofo francese B. Pascal (1623-1662) su
richiesta di un famoso scommettitore e matematico dilettante, il cavaliere de Meré, che riteneva erroneamente che i due
eventi avessero la stessa probabilità.
8 Questo problema fu effettivamente proposto agli ospiti di un celebre gioco a premi televisivo americano “Let’s make
a deal”, il cui conduttore era appunto Monty Hall, e suscitò una accesa controversia sulla rivista “Parade” nel 1990 su
quale fosse la scelta più conveniente (si veda P. Hoffman, “L’uomo che amava solo i numeri”, ed. Mondadori (1999)).
50 Probabilità condizionale e indipendenza
Esercizio 2.20. (Paradosso dei prigionieri). Tre prigionieri A, B, e C sono condannati a morte. Il gover-
natore decide di concedere la grazia ad uno di essi scelto a caso, ed informa il secondino della sua scelta,
chiedendogli di non rivelare tale nome ai prigionieri. Il giorno successivo, A cerca inutilmente di sapere
dal secondino chi sia stato graziato. Allora A chiede al secondino di rivelargli almeno chi tra B e C sarà
giustiziato, ed il secondino, dopo averci pensato un attimo, gli rivela che B sarà giustiziato. A è soddisfatto
della risposta del secondino, perchè ritiene che la probabilità di essere stato graziato sia cresciuta da 1/3 ad
1/2. Ha ragione?9
Esercizio 2.21. Nel codice telegrafico Morse si utilizzano punti (dot) e linee (dash), nella proporzione di 3 : 4,
per codificare le lettere dell’alfabeto. Si supponga che errori nella trasmissione possano far interpretare
erroneamente in ricezione un punto come una linea con probabilità 1/4, ed una linea come un punto con
probabilità 1/3.
a) Mostrare che il problema può essere descritto da un modello di canale binario non simmetrico.
b) Sapendo che è stata ricevuta una linea, calcolare la probabilità che sia stata trasmessa una linea.
c) Supponendo che le successive trasmissioni siano indipendenti, nell’ipotesi che sia stato ricevuto il mes-
saggio punto-punto, calcolare la distribuzione di probabilità dei quattro possibili messaggi trasmessi.
Esercizio 2.22. Caratterizzare il canale binario equivalente ottenuto collegando in cascata tre BSC indipen-
denti con probabilità di scambio ε i , i = 1, 2, 3. Discutere in particolare il caso ε i = ε = 10−3 . L’affidabilità
della trasmissione aumenta o diminuisce?
Esercizio 2.23. Caratterizzare il canale binario equivalente ottenuto trasmettendo tre volte lo stesso simbolo
su un BSC di parametro ε e decidendo a maggioranza in ricezione (si supponga che le differenti trasmissioni
siano indipendenti). Discutere in particolare il caso ε = 10−3 . L’affidabilità della trasmissione aumenta o
diminuisce?
Esercizio 2.24. Un simbolo binario è trasmesso in parallelo su tre BSC indipendenti con probabilità di scam-
bio ε i , i = 1, 2, 3. In ricezione si decide per il simbolo presente in almeno due delle uscite dei tre cana-
li. Determinare la probabilità di scambio del canale binario equivalente, discutendo in particolare il caso
ε i = ε = 10−3 . L’affidabilità della trasmissione aumenta o diminuisce?
Esercizio 2.25. Tre sorgenti binarie indipendenti emettono il simbolo 1 con probabilità pi , i = 1, 2, 3, e sono
connesse mediante un interruttore ad un BSC. L’interruttore è connesso per il 50% del tempo alla prima
sorgente, e per il 25% del tempo a ciascuna delle altre due (indipendentemente dai simboli emessi dalle
sorgenti). Determinare:
a) la probabilità dei simboli in uscita al BSC;
b) la probabilità che il canale sia connesso alla prima sorgente avendo osservato uno zero in uscita al BSC.
Esercizio 2.26. Per aumentare l’affidabilità nella trasmissione di una coppia di bit, ad essi viene concate-
nato un terzo bit (bit di parità) in modo che il numero di bit alti in ciascuna terna risulti pari (oppure zero).
Le terne di bit così ottenute vengono trasmesse in serie su un canale BSC con probabilità di scambio ε (si
suppongano le successive trasmissioni indipendenti). In ricezione, se la terna di bit non soddisfa la regola di
parità, si richiede una ritrasmissione della terna, altrimenti si elimina il bit di parità riottenendo l’originaria
coppia di bit.
a) Calcolare la probabilità p R di ritrasmissione, la probabilità pC di ricevere correttamente la coppia di bit
trasmessi, la probabilità p E di commettere un errore che il bit di parità non è in grado di individuare
(ovviamente deve risultare p R + pC + p E = 1);
b) calcolare la probabilità p T di errore complessiva tenendo conto anche delle ritrasmissioni;
c) confrontare p T con la probabilità di errore che si otterrebbe trasmettendo direttamente la coppia di bit
senza alcun controllo di parità (si assuma ε = 10−3 ).
9 La formulazione di questo problema è simile a quella del precedente paradosso di Monty Hall; la soluzione classi-
ca non è difficile da ottenere, ma considerazioni più approfondite evidenziano le ambiguità che possono sorgere nella
costruzione di spazi di probabilità prodotto.
Capitolo 3
Variabili aleatorie
3.1 Introduzione
Nei precedenti capitoli abbiamo mostrato come costruire spazi di probabilità a partire da esperi-
menti i cui risultati non sono necessariamente numerici, quali ad esempio il lancio di una moneta
o di un dado, o l’estrazione di una carta da un mazzo di carte francesi. Nelle scienze fisiche e
nell’ingegneria, tuttavia, nasce la necessità di descrivere i risultati di un esperimento e gli eventi
associati ad esso in maniera numerica. Un modo semplice di ottenere ciò consiste nell’associa-
re ad ogni risultato dell’esperimento un numero reale; ciò conduce al fondamentale concetto di
variabile aleatoria.
Esempio 3.1. Consideriamo il lancio di una moneta, il cui spazio campione è Ω = {T, C}. Un esempio di
variabile aleatoria si ottiene associando al risultato T il numero 1, ed al risultato C il numero 0.
52 Variabili aleatorie
Esempio 3.2. Consideriamo il lancio di un dado, il cui spazio campione è Ω = {ω1 , ω2 , . . . , ω6 }, dove
con ωi abbiamo indicato il risultato che nel lancio si presenti la i-esima faccia del dado. Possiamo costruire
una variabile aleatoria semplicemente associando a ωi il valore i. Si noti che abbiamo già (implicitamente)
effettuato questa corrispondenza, quando abbiamo assunto come spazio campione per il lancio di un dado
l’insieme Ω = {1, 2, . . . , 6}, invece dell’insieme Ω = {ω1 , ω2 , . . . , ω6 }.
Esempio 3.3. Consideriamo un sondaggio di opinione, nel quale si intervistano 1000 persone, per sapere
se sono d’accordo oppure no su un certo argomento. Lo spazio campione Ω associato a tale esperimento è
composto da 21000 ≈ 10300 risultati, ognuno dei quali è una stringa di 1000 simboli, scelti tra S (corrispon-
dente alla risposta “sì”) ed N (corrispondente alla risposta “no”), che è un numero eccezionalmente grande
(provate a calcolarlo sulla vostra calcolatrice tascabile!). Tuttavia, nella pratica quello che interessa sapere è
quante persone rispondono sì e quante no. Allora ad ogni punto (stringa) dello spazio campione possiamo
associare il numero dei simboli S presenti nella stringa stessa, ottenendo un numero intero tra 0 e 1000. In
questo modo abbiamo descritto il problema in maniera più semplice e soprattutto più aderente alle nostre
finalità.
Generalizzando, per un dato esperimento, una variabile aleatoria X (Fig. 3.1) è una funzione
costruita su Ω e che assume valori nell’insieme R = R ∪ {−∞, ∞}:
X : ω ∈ Ω → X(ω) ∈ X ⊆ R
dove abbiamo denotato con X il codominio della funzione X, ovvero l’insieme dei possibili valori
assunti da X. Tale funzione deve soddisfare certe condizioni di regolarità, come vedremo meglio
nel seguito.
Ω ω1 R
ω2 ω3
X(ω1 )
X(ω3 )
X(ω2 )
Esempio 3.4. Consideriamo ancora il lancio di un dado, per il quale lo spazio campione è Ω = {ω1 , ω2 , . . . , ω6 }.
Tre diverse variabili aleatorie definite su Ω sono:
3.1 Introduzione 53
Ω ω1
R
ω2 ω3
ω4
X(ω1 )
{X ≤ x} X(ω3 )
x
X(ω4 )
X(ω2 )
1. X(ωi ) = i;
2. X(ωi ) = 10 i;
1, se i è pari;
3. X(ωi ) =
0, se i è dispari.
Notiamo che qui e nel seguito, in analogia alla notazione comunemente utilizzata in matematica, indichere-
mo con X la legge di corrispondenza (funzione o variabile aleatoria), e con X(ω) il valore della funzione in
corrispondenza del risultato ω.
Il successivo passo per una corretta comprensione del concetto di variabile aleatoria è capire in
che modo, se Ω è un insieme dotato di struttura di spazio di probabilità, una variabile aleatoria
X costruita su Ω “conservi” informazioni sulle probabilità degli eventi di Ω. A tale scopo, di
fondamentale importanza è chiarire il significato della notazione
{X ≤ x} (3.1)
per un dato x ∈ R. Dal punto di vista dell’analisi reale, l’insieme dei valori reali minori o uguali di
un dato valore x è una semiretta sinistra (chiusa a destra), che si denota anche con ] − ∞, x]. Tutta-
via, il senso che noi daremo alla notazione (3.1) è completamente differente: con essa intenderemo
riferirci al sottoinsieme A di Ω così definito:
ovvero all’insieme dei valori ω ∈ Ω la cui immagine (Fig. 3.2) attraverso la funzione X è minore o
uguale1 ad x. Pertanto, {X ≤ x} non va considerato come un sottoinsieme di R, ma come un sottoinsieme
di Ω.
Se allora A = {X ≤ x} è un evento ∀x ∈ R, è possibile calcolarne la probabilità P(A); se
tale assunzione è verificata, sarà più in generale possibile calcolare la probabilità dell’insieme
B = {X ∈ T} = {ω ∈ Ω tali che X(ω) ∈ T}, se tale insieme si può ottenere come complemento,
unione o intersezione numerabile di eventi del tipo {X ≤ x}; intuitivamente, ciò equivale a
dire che l’insieme numerico T ⊆ R si può ottenere come complemento, unione o intersezione
numerabile di semirette sinistre.
Esempio 3.5. Con riferimento all’esempio precedente (lancio di un dado) e alla variabile aleatoria definita
al punto 2, vale a dire X(ωi ) = 10 i, si ha:
Definizione (variabile aleatoria). Dato uno spazio di probabilità (Ω, S, P), una variabile
aleatoria (v.a.) X è una funzione definita in Ω ed a valori in X ⊆ R = R ∪ {−∞, +∞}, tale
che
1. {X ≤ x} è un evento, ∀x ∈ R;
Il significato della proprietà 1 è stato discusso precedentemente; con la proprietà 2, per motivi
matematici che qui non è il caso di approfondire, si consente alla funzione X di assumere il valore
+∞ oppure −∞, ma gli eventi {X = +∞} e {X = −∞} devono avere probabilità nulla. Infine,
una osservazione sulla notazione: benchè sia più corretta la notazione P({X ≤ x}), che evidenzia
la natura di evento di {X ≤ x}, nel seguito useremo quasi sempre la notazione semplificata, ma
più imprecisa, P(X ≤ x).
In conclusione, osserviamo che definire una variabile aleatoria su uno spazio di probabilità
(Ω, S, P) equivale in pratica a costruire un nuovo spazio di probabilità, nel quale lo spazio cam-
pione diventa X ⊆ R, gli eventi sono sottoinsiemi di X che si ottengono per complementazioni,
unioni ed intersezioni di semirette sinistre, e la legge di probabilità è, per così dire, “indotta”
dalla legge di probabilità P.
Ha senso calcolare questa probabilità perchè nella definizione di variabile aleatoria abbiamo
richiesto (proprietà 1) che {X ≤ x} sia un evento, ∀x ∈ R. Notiamo anche che, sebbene il
codominio di X sia X, la CDF è definita in tutto R.
2 Osserviamo che il termine variabile aleatoria è fuorviante, trattandosi piuttosto di una funzione aleatoria; tuttavia esso
F(x) F(x)
1 1
q
1/6
1 x 10 20 30 40 50 60 x
Fig. 3.3. La CDF F(x) della variabile aleatoria Fig. 3.4. La CDF F(x) della variabile aleatoria
dell’esempio 3.6. dell’esempio 3.7.
In alternativa alla notazione F(x), useremo la notazione FX (x) quando vorremo specificare
esplicitamente che si tratta della CDF della variabile aleatoria X (quindi, ad esempio, quando
avremo a che fare con più variabili aleatorie). Osserviamo esplicitamente che il pedice X (maiu-
scolo) rappresenta la variabile aleatoria (ovvero la legge di corrispondenza), mentre la variabile
indipendente della funzione x (minuscolo) è un numero reale. Notazioni come FX (y) oppure
FX (w) sono ovviamente lecite.
Esempio 3.6. Si consideri la variabile aleatoria definita su Ω = {T, C} nel seguente modo:
X(T) = 1,
X(C) = 0.
Se P(T) = p e P(C) = q, con p + q = 1, la CDF di X è la seguente:
0, x < 0 ;
F(x) = q, 0 ≤ x < 1 ;
1, x > 1 .
Infatti:
- per x < 0, si ha F(x) = P(X ≤ x) = P(X ≤ x < 0) = P(∅) = 0;
- per 0 ≤ x < 1, si ha F(x) = P(X ≤ x) = P(X = 0) = P(C) = q;
- per x ≥ 1, si ha F(x) = P(X ≤ x) = P({X = 0} ∪ {X = 1}) = P(C) + P(T) = q + p = 1.
Osserviamo che tale CDF (Fig. 3.3) ha un andamento costante a tratti. Si parla in questo caso di variabile
aleatoria discreta (cfr. § 3.2.2).
ed, anche in questo caso, ha un andamento costante a tratti (Fig. 3.4) per cui X è una variabile aleatoria
discreta (cfr. § 3.2.2).
56 Variabili aleatorie
F(x) F(x)
1 1
T x a x
Fig. 3.5. La CDF F(x) della variabile aleatoria Fig. 3.6. La CDF F(x) della variabile aleatoria
dell’esempio 3.8. dell’esempio 3.9.
Esempio 3.8. Consideriamo l’esperimento consistente nell’arrivo a caso di una telefonata nell’intervallo
[0, T], e denotiamo con t l’istante di arrivo della telefonata. Lo spazio campione è Ω = [0, T], gli eventi sono
complementi, unioni ed intersezioni numerabili di intervalli aperti ]a, b[⊆ Ω. Come legge di probabilità,
porremo (legge uniforme):
b−a
P(t ∈ (a, b)) = , con 0 ≤ a ≤ b ≤ T.
T
Essendo il risultato dell’esperimento già numerico, possiamo definire una variabile aleatoria su Ω sempli-
cemente come la trasformazione identica
X(t) = t .
È allora semplice calcolare la CDF:
- per x < 0, si ha F(x) = P(X ≤ x) = P(X ≤ x < 0) = P(∅) = 0;
- per 0 ≤ x < T, si ha F(x) = P(X ≤ x) = P(0 ≤ X ≤ x) = x/T;
- per x ≥ T, si ha F(x) = P(X ≤ x) = P(0 ≤ X ≤ T) = T/T = 1.
In questo caso la CDF (Fig. 3.5) non è una funzione costante a tratti, ma è una funzione continua su tutto
l’insieme di definizione. Si parla allora di variabile aleatoria continua (cfr. § 3.2.2).
Esempio 3.9 (variabile aleatoria costante o deterministica). Sia X una variabile aleatoria definita su un qualun-
que spazio campione Ω nel seguente modo:
X(ω) = a, ∀ω ∈ Ω .
1. F(+∞) = 1, F(−∞) = 0.
Prova. Si ha, banalmente, F(+∞) = P(X ≤ +∞) = P(Ω) = 1 e F(−∞) = P(X ≤ −∞) = P(X =
−∞) = 0 (per la seconda, si sfrutta la proprietà 2 della definizione di variabile aleatoria).
Prova. Basta osservare che {X ≤ x} ∪ {X > x} = Ω, e che i due eventi sono mutuamente esclusivi,
per cui P(X ≤ x) + P(X > x) = P(Ω) = 1, da cui l’asserto.
La funzione F(x) 1 − F(x) prende il nome di CDF complementare o anche di funzione di
affidabilità.4
Prova. Dobbiamo provare che limε→0 F(x + ε) = F(x), per ε > 0. Notiamo che poiché per la proprietà
2 la F(x) è monotona crescente (e limitata), sicuramente in ogni punto esiste finito il limite da destra e
da sinistra (teorema sull’esistenza del limite per le funzioni monotone). Allora, per calcolare il limite
da destra, non è restrittivo considerare ε = 1/n e far tendere n → ∞ (cioè far tendere ε a zero su una
particolare successione di valori). Osserviamo allora che F(x + 1/n) = P(X ≤ x + 1/n) = P(An ),
∞ abbiamo posto An = {X ≤ x + 1/n}; si noti che An è una successione decrescente e tale che
dove
n=1 An = A = {X ≤ x}, per cui possiamo applicare la proprietà di continuità della probabilità (cfr.
§ 1.4.5) e scrivere:
cioè l’asserto.
{X ≤ x1 } ∪ {x1 < X ≤ x2 } = {X ≤ x2 }
nella quale i due eventi a primo membro sono mutuamente esclusivi, per cui:
da cui si ha l’asserto.
4 La denominazione di “funzione di affidabilità” deriva dal fatto che, se si interpreta la variabile aleatoria X come il
“tempo di vita” di un dispositivo, la funzione F(x) descrive la probabilità che il dispositivo “viva” per un tempo maggiore
o uguale a x, e quindi misura l’affidabilità del dispositivo stesso.
58 Variabili aleatorie
Prova. Poniamo
An = {x − 1/n < X ≤ x}: tale successione di eventi è chiaramente decrescente e
tale che ∞n=1 An = A = {X = x}. Dalla proprietà 5, per x1 = x − 1/n e x2 = x, si ha:
Passando al limite per n → ∞, sfruttando la la proprietà di continuità della probabilità (cfr. § 1.4.5)
si ha limn P(An ) = P(A) = P(X = x) al primo membro; d’altra parte, come già osservato, la F(x)
essendo monotona e limitata ammette sicuramente limite finito da sinistra nel punto x, e quindi si ha:
cioè l’asserto.
e gli eventi a secondo membro sono mutuamente esclusivi. Si ha allora, per le proprietà 5 e 6,
cioè l’asserto.
Si noti che se F(x) è continua (cioè se la variabile aleatoria è continua, cfr. § 3.2.2), i limiti da
sinistra e da destra coincidono tutti con il valore assunto dalla funzione nel punto, e quindi le
probabilità calcolate sulle base delle proprietà 5, 7, 8, 9 sono tutte uguali tra loro, e pari a F(x2 ) −
F(x1 ) (indipendentemente dal fatto che gli estremi appartengano oppure no all’intervallo).
Quindi in pratica una variabile aleatoria discreta X assume i valori xk con probabilità pk date dai
valori dei salti di discontinuità della sua CDF, e pertanto l’insieme X dei valori assunti da X è un
insieme discreto, cioè X = {x1 , x2 , . . .} (finito o infinito numerabile).
3.2 Funzione di distribuzione cumulativa (CDF) 59
Un caso particolare di variabili aleatorie discrete sono quelle di tipo reticolare, caratterizzate
dal fatto che i valori assunti xk sono equispaziati (appartengono, cioè, ad un reticolo monodi-
mensionale), e si può porre quindi xk = a + bk, con a, b ∈ R e k ∈ K ⊆ Z.
La variabile aleatoria X si dirà continua se la sua CDF F(x) è una funzione continua (Fig. 3.5).
La continuità di F(x) implica che F(x) = F(x+ ) = F(x − ) e quindi P(X = x) = 0, ∀x ∈ R. In altri
termini, una variabile aleatoria continua assumerà ogni valore del suo codominio con probabilità
nulla. L’insieme X dei valori assunti da una variabile aleatoria continua è un insieme continuo,
quale ad esempio un intervallo (a, b), o anche tutto R.
Infine, la variabile aleatoria X si dirà mista se la sua CDF F(x) è discontinua, ma non costante
a tratti. L’insieme X dei valori assunti da X sarà l’unione di un insieme continuo, ad esempio
un intervallo, e di un insieme discreto (eventualmente vuoto). Esempi di variabili aleatorie miste
saranno presentati nel cap. 4.
Esempio 3.10 (variabile aleatoria indicatrice di un evento). Sia Ω uno spazio campione qualunque, e sia A ⊆ Ω
un evento di Ω. Definiamo una variabile aleatoria X A su Ω come segue:
1, se ω ∈ A;
X A (ω) =
0, se ω ∈ A.
Tale variabile aleatoria X A è di tipo discreto, in quanto assume solo i valori 0 ed 1 con le seguenti probabilità:
e quindi la sua CDF è a costante a tratti e, se poniamo p = P(A), è la stessa di quella dell’esempio 3.6
(Fig. 3.3). Tale variabile aleatoria prende il nome di variabile aleatoria indicatrice dell’evento A.
L’ultimo esempio mette in evidenza che è possibile costruire variabili aleatorie discrete su un
qualunque spazio di probabilità (discreto o continuo). Osserviamo infatti che, se Ω è uno spazio
di probabilità discreto, tutte le variabili aleatorie costruite su Ω saranno necessariamente discrete.
Se invece Ω è uno spazio di probabilità continuo, su di esso è possibile costruire sia variabili
aleatorie continue che discrete (e ovviamente anche miste).
Definizione (percentile). Dato u ∈ [0, 1], il percentile u-esimo di una variabile aleatoria è il
più piccolo numero xu tale che
Osserviamo che u deve necessariamente assumere valori in [0, 1], perchè rappresenta un valore
di probabilità. L’interpretazione del percentile è la seguente (Fig. 3.7): il percentile xu rappresenta
quel valore della variabile aleatoria che non è superato con probabilità maggiore o uguale ad u.
Ad esempio, posto u = 0.75, il percentile x0.75 rappresenta quel valore che non è superato nel
75% o più dei casi, e viene chiamato quartile superiore. Similmente, il percentile x0.25 rappresenta
il valore che non è superato con probabilità maggiore o uguale a 0.25, e viene chiamato quartile
inferiore.
60 Variabili aleatorie
F(x) F(x)
1 1
0.75 0.5
u
xu x0.75 x m = x0.5 x
Fig. 3.7. Il percentile u-esimo della variabile Fig. 3.8. La mediana m della variabile aleato-
aleatoria X con CDF F(x) è xu ; x0.75 rappresen- ria X con CDF F(x) è il valore che non è su-
ta il valore che non è superato con probabilità perato con probabilità maggiore o uguale a 0.5
maggiore o uguale a 0.75 (quartile superiore). (coincide con il percentile x0.5 ).
Notiamo inoltre che se F(x) assume tutti i valori in [0, 1] (non ha salti di discontinuità, ovve-
ro la variabile aleatoria è continua) allora la definizione (3.2), per la monotonia di F(x), si può
scrivere come:
P(X ≤ xu ) = F(xu ) = u .
per cui, se F(x) è anche una funzione invertibile, si ha
xu = F −1 (u) ,
e quindi la curva che fornisce i percentili si ottiene semplicemente considerando l’inversa della
CDF, ovvero scambiando gli assi del diagramma cartesiano di F(x). In pratica le considerazioni
precedenti valgono anche se la CDF è localmente invertibile in corrispondenza dell’ordinata u.
In tutti gli altri casi (CDF discontinua, oppure CDF non invertibile, il che accade tipicamente
se F(x) presenta uno o più tratti costanti) si può determinare il percentile direttamente applicando
la definizione (3.2), ovvero come
Notiamo che la funzione xu = F −1 (u) definita implicitamente dalla (3.3) prende il nome di inversa
sinistra della CDF F(x), e si riduce all’inversa convenzionale quando la CDF è invertibile (tale
inversa sinistra ricorre anche nel problema della generazione di variabili aleatorie discrete, si
veda anche il § 4.3.1 per ulteriori dettagli). In pratica l’inversa sinistra si ottiene graficamente
scambiando gli assi della CDF, anche quando la CDF non è invertibile. Notiamo peraltro che
il concetto di percentile è maggiormente utilizzato quando la variabile aleatoria ha una CDF
continua ed invertibile.
F(m) ≥ 0.5 .
Per la determinazione della mediana (Fig. 3.8) valgono considerazioni analoghe a quelle effettua-
te per il percentile, essendo di fatto m = x0.5 . Osserviamo che la mediana è un primo esempio
di grandezza media relativa ad una variabile aleatoria: nel seguito incontreremo altre grandezze
simili, quali la moda e la media propriamente detta.
3.3 Funzione densità di probabilità (pdf) 61
Esempio 3.11. Consideriamo la CDF F(x) dell’esempio 3.8, diagrammata in Fig. 3.5. Poichè l’andamento
di F(x), per x ∈ [0, T], è lineare, è immediato invertirla per ottenere il percentile. Si ha:
xu
u = F(xu ) = ⇒ xu = T u
T
per cui il quartile inferiore è x0.25 = 0.25 T, il quartile superiore è x0.75 = 0.75 T, mentre la mediana è
m = 0.5 T.
d
f (x) F(x) . (3.4)
dx
Per quanto riguarda la notazione, useremo anche qui la notazione f X (x) quando vorremo speci-
ficare esplicitamente che si tratta della pdf di X.
Nella (3.4), la derivata va intesa in senso generalizzato, ovvero possono comparire degli impulsi
di Dirac5 in corrispondenza delle discontinuità di F(x). A tale proposito, osserviamo che se la
variabile aleatoria X è continua, F(x) è una funzione continua, e quindi la pdf f (x) non può
contenere impulsi. Viceversa, se X è discreta, F(x) è costante a tratti, con salti di discontinuità in
corrispondenza dei valori xi : l’ampiezza dei salti di discontinuità rappresenta (per la proprietà 6
della CDF) la probabilità pi che la variabile aleatoria assuma il valore xi . Pertanto, derivando tale
CDF, si ottiene una pdf costituita da soli impulsi di Dirac, centrati nei valori discreti xi ∈ X:
f (x) = ∑ pi δ(x − xi ) ,
x i ∈X
dove pi P(X = xi ). Infine, se X è mista, la pdf conterrà una parte continua (la derivata
convenzionale) e impulsi di Dirac in corrispondenza delle discontinuità di F(x).
Esempio 3.12. Consideriamo la CDF F(x) dell’esempio 3.6, diagrammata in Fig. 3.3. Poichè si tratta di una
variabile aleatoria discreta (CDF costante a tratti), la pdf sarà una somma di impulsi di Dirac. Applicando
le proprietà di derivazione dell’impulso di Dirac, si trova
che è raffigurata in Fig. 3.9. Un risultato simile si ottiene calcolando le pdf associate alle CDF degli esempi
3.7 e 3.9.
5 Si suppone che il lettore conosca la definizione e le principali proprietà dell’impulso di Dirac; tali proprietà sono
f (x) f (x)
area = q
area = p
1/T
0 1 x T x
Fig. 3.9. La pdf f (x) della variabile aleatoria Fig. 3.10. La pdf f (x) della variabile aleatoria
dell’esempio 3.12. dell’esempio 3.13.
Esempio 3.13. Consideriamo la CDF F(x) dell’esempio 3.8, diagrammata in Fig. 3.5. Poichè si tratta di una
variabile aleatoria continua (con CDF quindi continua), la pdf non conterrà impulsi di Dirac, ma la derivata
si calcolerà in senso ordinario. Si ha:
1
, se x ∈]0, T[;
f (x) = T
0 , se x ∈] − ∞, 0[∪]T, ∞[;
che è raffigurata in Fig. 3.10. Notiamo che la derivata (e quindi la pdf) non è definita nei punti x = 0 e
x = T (punti angolosi della curva della CDF). Ciò, tuttavia, non rappresenta un problema perchè, come
vedremo, la pdf viene utilizzata sempre all’interno di un integrale, e quindi i valori assunti in punti isolati
non giocano alcun ruolo (a patto, ovviamente, che in tali punti non siano presenti impulsi di Dirac).
1. f (x) ≥ 0.
Prova. La proprietà discende dal fatto che F(x) è una funzione monotona crescente, e quindi la sua
derivata è non negativa. In corrispondenza delle discontinuità, la proprietà va interpretata nel senso
che gli impulsi di Dirac ivi presenti hanno area positiva.
x
2. F(x) = f (y) dy.
−∞
∞
3. f (x) dx = 1.
−∞
Prova. Dalla proprietà 2, per x = +∞, si ha l’asserto, tenendo conto che F(+∞) = 1.
x2
4. P(x1 < X ≤ x2 ) = F(x2 ) − F(x1 ) = f (x) dx.
x1
La proprietà va impiegata con qualche cautela nel caso in cui la pdf f (x) contenga impulsi
di Dirac (e quindi se la variabile aleatoria X è discreta oppure mista); in particolare, in
accordo con il fatto che si sta calcolando la probabilità dell’evento {x1 < X ≤ x2 }, l’integrale
x
tra x1 ed x2 della pdf va inteso come limε→0 x 2+ε f (x) dx, con ε > 0, in maniera da non
1
portare in conto l’eventuale presenza di un impulso in x1 , mentre un (eventuale) impulso
in x2 va portato in conto. Se viceversa la variabile aleatoria X è continua, la pdf f (x) non
contiene impulsi di Dirac e quindi P(X = x1 ) = 0, per cui P(x1 ≤ X ≤ x2 ) = P(X =
x
x1 ) + P(x1 < X ≤ x2 ) = x 2 f (x) dx. Più in generale, per variabili aleatorie continue, la
1
probabilità di eventi del tipo {X ∈ (x1 , x2 )} è la stessa, indipendentemente dal fatto che gli
estremi x1 ed x2 si considerino appartenenti all’intervallo oppure no, e si calcola integrando
(in senso ordinario) la pdf tra x1 ed x2 .
5. X continua, con pdf f (x) continua ⇒ P(x ≤ X ≤ x + ∆x) ≈ f (x) ∆x, per ∆x 1.
Prova. Dalla proprietà 4, ponendo x1 = x e x2 = x + ∆x, ed osservando che per una variabile aleatoria
continua la probabilità non cambia se includiamo il limite sinistro x1 oppure no, si ha:
x+∆x
P(x ≤ X ≤ x + ∆x) = P(x < X ≤ x + ∆x) = f (y) dy
x
Per l’ipotesi di continuità della pdf f (x), possiamo applicare il teorema della media per il calcolo
integrale:
x+∆x
P(x ≤ X ≤ x + ∆x) = f (y) dy = f (x + θ∆x) ∆x ≈ f (x) ∆x .
x
con θ ∈ [0, 1], dove l’ultima approssimazione vale per ∆x 1.
e quindi il valore f (x) nel punto x rappresenta la probabilità che X assuma valori in un
intervallo (x, x + ∆x) prossimo a x, divisa per l’ampiezza dell’intervallo ∆x, cioè proprio
una densità di probabilità. Per questo motivo, poiché f (x) è una densità di probabilità e non
una probabilità, può assumere valori maggiori di 1.
Osserviamo inoltre che, per la stessa proprietà, la probabilità che X ∈ [x, x + ∆x] è propor-
zionale (se ∆x 1) a f (x) ed è (localmente) massima se [x, x + ∆x] contiene il valore xm
dove f (x) è (localmente) massima. Ognuno di tali punti xm si dice valore modale o moda,
64 Variabili aleatorie
f (x) f (x)
massimo locale massimi locali
xm x xm1 xm2 x
Fig. 3.11. La moda xm della variabile aleatoria X Fig. 3.12. La pdf f (x) in figura ha due mode
corrisponde ad un massimo locale. La pdf f (x) xm1 ed xm2 , corrispondenti a due massimi locali,
in figura ha una sola moda, quindi è unimodale. quindi è multimodale.
e rappresenta un valore (localmente) più probabile di X (Fig. 3.11). Una variabile aleato-
ria si dice unimodale se ha un solo valore modale (Fig. 3.11), altrimenti si dice multimodale
(Fig. 3.12).
Notiamo in conclusione che, come già osservato, definire una variabile aleatoria significa, in
sostanza, sostituire allo spazio di probabilità (Ω, S, P) un nuovo spazio di probabilità, in cui lo
spazio campione è X ⊆ R. Se, in particolare, la variabile aleatoria è continua, allora X ⊆ R è un
insieme continuo, per cui la definizione di una legge di probabilità su tale insieme avviene, come
descritto nel § 1.6.2, definendo una funzione densità di probabilità f (x) che, di fatto, possiamo
adesso interpretare come la pdf di una variabile aleatoria X (si noti in particolare che vale la
condizione di normalizzazione (1.13) tipica delle pdf). In definitiva, allora, definire una legge di
probabilità su uno spazio continuo è equivalente ad assegnare la pdf di una variabile aleatoria X.
Il lettore è invitato a rileggere il § 1.6.2 alla luce di questa interpretazione.
con x ∈ X.
Anche per la DF, come per la CDF e la pdf, utilizzeremo la notazione pX (x) quando vorremo
esplicitamente denotare che essa si riferisce alla variabile aleatoria X.
3.4 Funzione distribuzione di probabilità (DF) 65
p(x)
p
q
0 1 x
Esempio 3.14. Si consideri la variabile aleatoria dell’esempio 3.6, che assume i due valori X = 1 con
probabilità p e X = 0 con probabilità q. La DF di X è:
q, x = 0;
p(x) =
p, x = 1;
ed è raffigurata in Fig. 3.13. Si noti che la pdf (Fig. 3.9) della stessa variabile aleatoria è:
Il vantaggio nell’uso della DF è quello di disporre di una funzione ordinaria che non contiene impulsi di
Dirac.
Notiamo esplicitamente che per una variabile aleatoria continua non ha senso introdurre la DF,
in quanto essa risulterebbe identicamente nulla, ∀x ∈ X, perché una variabile aleatoria continua
assume tutti i valori di X con probabilità zero. Per lo stesso motivo, la DF fornisce una descrizione
incompleta di una variabile aleatoria mista, e non è utilizzata neanche in questo caso.
1. p(x) ≥ 0.
2. F(x) = ∑ p(u).
u∈X,u≤x
66 Variabili aleatorie
3. ∑ p(u) = 1.
u∈X
Prova. Si ha:
P(x1 < X ≤ x2 ) = P {X = u} = ∑ P(X = u) = ∑ p(u) .
u∈]x1 ,x2 ]∩X u∈]x1 ,x2 ]∩X u∈]x1 ,x2 ]∩X
Concludiamo osservando che la CDF, pdf e DF di una variabile aleatoria sono collettivamen-
te denominate funzioni di distribuzione della variabile aleatoria: per caratterizzazione statistica di
una variabile aleatoria, allora, si intende la conoscenza di almeno una tra le sue funzioni di
distribuzione.
Teorema 3.1 (teorema di esistenza). Data una funzione F(x) che soddisfax le proprietà di
CDF (o alternativamente data una funzione f (x) tale che F(x) = −∞ f (y) dy soddisfi le
proprietà di CDF, o una funzione p(x) tale che F(x) = ∑u∈X,u≤x p(u) soddisfi le proprietà
di CDF), è possibile costruire uno spazio di probabilità (Ω, S, P) ed una variabile aleatoria X
con CDF F(x) (o pdf f (x), o DF p(x)).
Sulla base di questo teorema, potremo o costruire la variabile aleatoria su un determinato spazio
di probabilità, oppure in alternativa introdurre direttamente le variabili aleatorie attraverso le
loro funzioni di distribuzione (CDF, pdf o DF), senza specificare esplicitamente l’esperimento su
cui sono definite.
Nel seguito del paragrafo introdurremo alcune delle variabili aleatorie più comunemente uti-
lizzate. Per le variabili discrete, riporteremo la descrizione in termini di funzione di distribu-
zione di probabilità (DF), lasciando per esercizio al lettore di ricavare le corrispondenti pdf e
CDF, peraltro scarsamente utilizzate nel caso discreto. Notiamo preliminarmente che tutte le
3.5 Variabili aleatorie notevoli 67
1
0.2
0.9
0.18
0.8 0.16
0.7 0.14
0.6 0.12
p(x)
0.5
p(x)
0.1
0.4 0.08
0.3 0.06
0.2 0.04
0.1 0.02
0 0
−1 0 1 2 3 4 0 5 10 15 20
x x
Fig. 3.14. La DF p(x) di una variabile aleatoria Fig. 3.15. La DF p(x) di una variabile aleatoria
bernoulliana (p = 0.4). binomiale (n = 20, p = 0.4).
variabili aleatorie discrete che introdurremo saranno di tipo reticolare. A differenza di quelle di-
screte, le variabili aleatorie continue saranno descritte attraverso la pdf e la CDF (risultando la
DF identicamente nulla).
Ω = Ω1n = Ω1 × Ω1 · · · × Ω1 ,
n volte
il σ-campo S sarà il più piccolo σ-campo contenente gli eventi del tipo A = A1 × A2 · · · × An ,
con Ai ∈ Ω1 , ed infine la legge di probabilità P, nell’ipotesi di prove indipendenti, è indotta dalla
68 Variabili aleatorie
legge P1 . Infatti, per qualunque evento A ∈ S che si possa esprimere come prodotto cartesiano
del tipo precedentemente visto, risulta
La probabilità di un qualunque altro evento di S si può ottenere facilmente a partire dalle pro-
babilità del tipo precedente, ovvero utilizzando la proprietà di fattorizzazione. In particolare, se
Ω1 (e quindi Ω) è un insieme discreto, è possibile calcolare la probabilità degli eventi elemen-
tari ω = (ω1 , ω2 , . . . , ω N ) come P(ω) = P1 (ω1 ) P1 (ω2 ) · · · P1 (ω N ) e quindi, a partire da esse, la
probabilità di un qualunque evento di Ω.
Per capire come determinare il numero di configurazioni (stringhe) con k ∈ {0, 1, . . . , n} suc-
cessi (valori 1), consideriamo un esempio specifico. Se n = 4 e k = 2, l’evento A si verifica in 2
delle 4 prove, ed evidentemente nelle altre n − k = 2 prove si verificherà A. Ovviamente l’evento
A si potrà verificare nella prima e nella seconda prova, nella prima e nella terza, nella prima e
nella quarta, nella seconda e nelle terza, etc. Tutte le possibili configurazioni (sei, in questo caso)
6 La denominazione deriva dal matematico svizzero J. Bernoulli (1654–1705), autore del fondamentale trattato di
A×A×A×A → 1100
A×A×A×A → 1010
A×A×A×A → 1001
A×A×A×A → 0110
A×A×A×A → 0101
A×A×A×A → 0011
In generale, per determinare il numero delle possibili conigurazioni, posso ragionare come se-
gue: ho n oggetti (le prove), e devo specificarne k (le prove in cui si hanno i successi), senza
sostituzioni e senza ordinamento; pertanto il numero di possibili configurazioni è pari al numero
delle disposizioni di n oggetti su k posti senza sostituzioni e senza ordinamento (cfr. Tab. B.1),
espressa da nk , che nel caso in esame vale appunto 42 = 6.7 Data l’indipendenza delle prove, la
probabilità di una qualsiasi configurazione di k successi ed n − k insuccessi vale sempre pk qn−k .
Ad esempio,
con q = 1 − p. Una variabile aleatoria avente tale DF si dice binomiale di parametri n > 0 e p ∈
[0, 1], e si denota X ∼ B(n, p). I valori della DF hanno somma unitaria (proprietà 3 della DF), come
si può facilmente provare utilizzando il teorema binomiale (cfr. Appendice A). Osserviamo che
una variabile aleatoria bernoulliana si può riguardare come un caso particolare (per n = 1) della
variabile aleatoria binomiale, ovvero le notazioni X ∼ Bern(p) e X ∼ B(1, p) sono equivalenti.
L’andamento della DF binomiale al variare di k, per n = 20 e p = 0.4, è illustrato in Fig. 3.15.
Dalla Fig. 3.15 si può notare che, al variare di k, la p(k) prima cresce, poi decresce, presentando
un massimo per k = n p = 8. Un’analisi più rigorosa mostra che il massimo si trova, in generale,
in k = (n + 1)p, dove con il simbolo x denotiamo il più grande intero non superiore ad
x. Se, tuttavia, (n + 1)p è intero, allora p(k) è massima per due consecutivi valori di k, dati da
k1 = (n + 1)p − 1 e k2 = (n + 1)p.
Il modello delle prove ripetute e la variabile aleatoria binomiale possono essere applicati a
numerosi problemi pratici, come illustrato dai seguenti esempi.
Esempio 3.15. Un’azienda produce componenti elettronici in lotti da n = 1000 componenti. La probabilità
che un componente sia difettoso è pari a p = 10−1 , indipendentemente dagli altri. Qual è la probabilità che:
• il numero di componenti difettosi di un lotto sia pari a zero;
• il numero di componenti difettosi di un lotto sia minore o uguale a 80;
7 La
n
definizione di coefficiente binomiale k e di fattoriale n!, insieme con le principali proprietà, sono riportate in
Appendice A.
70 Variabili aleatorie
Se interpretiamo come “successo” è l’evento che il componente sia difettoso, abbiamo proprio un problema
di prove ripetute, con n = 1000. Pertanto, il numero di componenti difettosi si può modellare come una
variabile aleatoria binomiale X ∼ B(1000, 10−1 ). La probabilità che nessun componente sia difettoso è allora
data da:
1000 0 1000
P(X = 0) = p(0) = p q = q1000 = 0.91000 ≈ 1.75 · 10−46
0
cioè del tutto trascurabile. La probabilità che il numero di componenti difettosi sia minore o uguale a 80 si
calcola facilmente, in quanto si ha {X ≤ 80} = ∪80 k=0 {X = k}. Poichè gli eventi elementari sono mutuamente
esclusivi, la probabilità dell’unione è pari alla somma delle probabilità, e si ha:8
80 80 80
1000 k 1000−k
P(X ≤ 80) = P ∪80
k=0 {X = k} = ∑ P(X = k) = ∑ p(k) = ∑ k
p q ≈ 0.0176 .
k=0 k=0 k=0
Infine, l’evento che X sia compreso tra 80 e 120 può essere anch’esso espresso come unione di eventi
k=80 {X = k}, per cui
elementari mutuamente esclusivi, ovvero come {80 ≤ X ≤ 120} = ∪120
120 120 120
1000 k 1000−k
P(80 ≤ X ≤ 120) = P ∪120
k=80 {X = k} = ∑ P(X = k) = ∑ p(k) = ∑ k
p q ≈ 0.9695 .
k=80 k=80 k=80
Esempio 3.16. Un test a risposte multiple prevede n = 20 domande, con tre possibili risposte per ciascuna
domanda. Uno studente poco preparato risponde a caso a tutte le domande; qual è la probabilità che
totalizzi un punteggio maggiore o uguale a 12, che è la soglia minima per l’ammissione?
Anche qui possiamo ricondurre il problema allo schema delle prove ripetute. Rispondendo a caso a cia-
scuna domanda, lo studente individuerà la risposta esatta (successo) con probabilità p = 1/3, e sbaglierà
(insuccesso) con probabilità q = 1 − p = 2/3. Pertanto, il numero di risposte esatte è una variabile aleatoria
binomiale X ∼ B(20, 1/3), e quindi la probabilità cercata, con considerazioni analoghe a quelle dell’esempio
precedente è data da:
20 20
20 k n−k
P(X ≥ 12) = ∑ p(k) = ∑ p q ≈ 0.0130 ,
k=12 k=12
k
che è una probabilità inferiore al 2%, per cui è estremamente difficile che lo studente superi il test, rispon-
dendo a casaccio alle domande.
8 Per effettuare il calcolo numerico che segue, come anche per gli altri che ricorrono in questo esempio ed in quello
seguente, è indispensabile ricorrere ad un calcolatore, ad esempio scrivendo un semplice script Matlab. In alternativa, si
veda il § 3.5.12 per un’interessante approssimazione numerica.
3.5 Variabili aleatorie notevoli 71
0.1 0.5
0.09 0.45
0.08 0.4
0.07 0.35
0.06 0.3
p(x)
p(x)
0.05 0.25
0.04 0.2
0.03 0.15
0.02 0.1
0.01 0.05
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15
x x
Fig. 3.16. La DF p(x) di una variabile aleatoria Fig. 3.17. La DF p(x) di una variabile aleatoria
binomiale negativa (n = 20, p = 0.6). geometrica (p = 0.4).
Esempio 3.17. Come la variabile aleatoria binomiale, anche la variabile aleatoria binomiale negativa è as-
sociata al problema delle prove ripetute. Supponiamo infatti di voler calcolare la distribuzione di probabilità
della variabile aleatoria Y che rappresenta la prova in cui si verifica l’r-esimo successo. Evidentemente, Y
potrà assumere i valori r, r + 1, r + 2, . . ., in quanto, per avere r successi, è necessario effettuare almeno r
prove. D’altra parte, l’r-esimo successo si verificherà nella prova h ≥ r se e solo se si verificano i seguenti
due eventi:
• A = {nelle h − 1 prove precedenti, si hanno r − 1 successi}; tale evento ha una probabilità, descritta
r−1 h−r
dalla legge binomiale, pari a P(A) = h−1
r−1 p q ;
• B = {nella h-esima prova, si ha un successo}; tale evento ha probabilità pari a P(B) = p.
Poiché gli eventi A e B sono indipendenti, si ha:
h − 1 r−1 h−r h − 1 r h−r
P(Y = h) = P(A) P(B) = p q p= p q
r−1 r−1
per h = r, r + 1, . . ., che può essere semplicemente espressa in termini di una variabile aleatoria binomiale
negativa. Infatti, poiché h ≥ r, basta porre h = r + k, con k ≥ 0, e far riferimento ad una variabile X = Y − r
che può assumere i valori k = 0, 1, . . .. Si ha in tal caso:
r+k−1 r k
P(X = k) = P(Y = r + k) = p q
k
dove si sono sfruttate le proprietà del coefficiente binomiale (cfr. Appendice A). Notiamo allora che risulta
X ∼ NB(r, p), che possiamo interpretare allora come la distribuzione del numero di prove che bisogna
effettuare, successivamente alla r-esima, per ottenere l’r-esimo successo.
con q = 1 − p. Per provare che i valori della DF hanno somma unitaria, basta sfruttare la formula
per la somma di una serie geometrica:
∞ ∞ ∞
p
∑ p(k) = p ∑ qk−1 = p ∑ qk = 1 − q = 1.
k=1 k=1 k=0
72 Variabili aleatorie
0.2
0.18
0.16
0.14
0.12
p(x)
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15
x
Esempio 3.18. Come la variabile aleatoria binomiale negativa, anche la variabile aleatoria geometrica è
associata al problema delle prove ripetute. Infatti, se denotiamo con X il numero di prove che intercorrono
tra due successi consecutivi, tale variabile aleatoria assumerà valori in 1, 2, . . .. Evidentemente, ci saranno k
prove tra due successi consecutivi se e solo se si presenterà una sequenza di k − 1 insuccessi seguiti da un
successo, il che avviene con probabilità qk−1 p, data l’indipendenza tra i successi in prove distinte. Pertanto,
X è proprio una variabile aleatoria geometrica X ∼ Geom(p).
λk −λ
p(k) = e , k ∈ X = {0, 1, . . .} = N0 .
k!
Sfruttando lo sviluppo in serie di Mc-Laurin della funzione esponenziale, si dimostra facilmente
che i valori della DF hanno somma unitaria:
∞ ∞
λk
∑ p(k) = e−λ ∑ k!
= e−λ eλ = 1 .
k=0 k=0
È possibile mostrare che anche la variabile aleatoria di Poisson è legata al problema delle prove
ripetute; in particolare, essa rappresenta la forma limite della variabile aleatoria binomiale per
p piccolo al divergere di n, ottenuta mantenendo il prodotto λ = n p costante (vedi [1, pagg.
153–154]).
1.5 1.2
1 0.8
f (x)
F(x)
0.6
0.5 0.4
0.2
0 0
−1 −0.5 0 0.5 1 1.5 2 −1 −0.5 0 0.5 1 1.5 2
x x
Fig. 3.19. La pdf f (x) di una variabile aleatoria Fig. 3.20. La CDF F(x) di una variabile aleatoria
uniforme (a = 0, b = 1). uniforme (a = 0, b = 1).
0.5 1.2
0.45
1
0.4
0.35 0.8
0.3
F(x)
f (x)
0.25 0.6
0.2
0.4
0.15
0.1
0.2
0.05
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
x x
Fig. 3.21. La pdf f (x) di una variabile aleatoria Fig. 3.22. La CDF F(x) di una variabile aleatoria
gaussiana (µ = 0, σ = 1). gaussiana (µ = 0, σ = 1).
possibile scrivere:
x
1 −
(y−µ)2 x−µ
F(x) = √ e 2σ2 dy = G (3.8)
−∞ σ 2π σ
dove, dopo un banale cambio di variabile, abbiamo espresso la F(x) (Fig. 3.22) in termini della
funzione G(x): x
1 y2
G(x) √ e− 2 dy .
2π −∞
In particolare, dalla (3.8), notiamo che G(x) rappresenta la CDF di una variabile aleatoria gaus-
siana “standard” con µ = 0 e σ = 1.
Dobbiamo osservare, tuttavia, che la funzione G(x) non è comunque una funzione elemen-
tare, per cui, per determinarne i valori, è necessario ricorrere a grafici, a tabelle o a programmi
al calcolatore. Un grafico della funzione G(x), in scala naturale, è riportato in Fig. 3.23; notiamo
tuttavia che tale grafico non consente la determinazione accurata dei valori della funzione. Si
veda l’Appendice C per un grafico più accurato (Fig. C.1), per una tabella dei valori (Tab. C.1)
e per programmi Matlab utili per il calcolo; nella stessa Appendice sono riportate le principali
proprietà della funzione G(x) e le relazioni con altre funzioni frequentemente utilizzate.
0.9
0.8
0.7
0.6
G(x)
0.5
0.4
0.3
0.2
0.1
0
−4 −3 −2 −1 0 1 2 3 4
x
Una forma alternativa per la CDF di una variabile aleatoria gaussiana si può ottenere defi-
nendo la funzione Q(x) (più nota, con terminologia inglese, come “Q-function”)
∞
1 y2
Q(x) 1 − G(x) = √ e− 2 dy (3.9)
2π x
che rappresenta la CDF complementare di una variabile aleatoria gaussiana con µ = 0 e σ = 1, e
pertanto si ha:
x−µ x−µ
F(x) = G = 1−Q .
σ σ
3.5 Variabili aleatorie notevoli 75
1.5 1.2
1 0.8
f (x)
F(x)
0.6
0.5 0.4
0.2
0 0
0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 4
x x
Fig. 3.24. La pdf f (x) di una variabile aleatoria Fig. 3.25. La CDF F(x) di una variabile aleatoria
esponenziale (λ = 1). esponenziale (λ = 1).
Per calcolare la funzione Q(x), è possibile utilizzare grafici, tabelle e programmi per il calco-
lo della G(x), tenendo conto della relazione (3.9). Inoltre, per ogni x > 0, vale la coppia di
disuguaglianze
1 −x2 /2 1 1
e−x /2 .
2
√ e 1 − 2 < Q(x) < √
x 2π x x 2π
Poichè il rapporto fra i due limiti vale 1 − 1/x2 , al crescere di x essi diventano sempre più vicini
e quindi entrambi approssimano la Q(x) con notevole accuratezza.
La variabile aleatoria gaussiana gioca un ruolo preminente nella teoria della probabilità, prin-
cipalmente in virtù del fatto che essa rappresenta una distribuzione limite: più precisamente, la
pdf gaussiana rappresenta la distribuzione della somma di un numero elevato (al limite, infinito)
di variabili aleatorie indipendenti e aventi pdf arbitrarie, a patto che il contributo di ciascuna
variabile aleatoria alla somma sia trascurabile, una situazione che si verifica spesso in pratica (si
pensi alla corrente elettrica che si può guardare come la somma dei contributi elementari di cor-
rente dei singoli elettroni). Questa proprietà è formulata in maniera matematicamente corretta
nel teorema fondamentale del limite, che vedremo nel capitolo 8 (cfr. § 8.6.2).
Osserviamo che la variabile aleatoria esponenziale monolatera è una variabile aleatoria positiva.
76 Variabili aleatorie
0.6 1.2
0.5 1
0.4 0.8
f (x)
F(x)
0.3 0.6
0.2 0.4
0.1 0.2
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
x x
Fig. 3.26. La pdf f (x) di una variabile aleatoria Fig. 3.27. La CDF F(x) di una variabile aleatoria
di Laplace (λ = 1). di Laplace (λ = 1).
1 1.2
0.9
1
0.8
0.7
0.8
0.6
f (x)
F(x)
0.5 0.6
0.4
0.4
0.3
0.2
0.2
0.1
0 0
0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 2 2.5 3
x x
Fig. 3.28. La pdf f (x) di una variabile aleatoria Fig. 3.29. La CDF F(x) di una variabile aleatoria
di Rayleigh (b = 1). di Rayleigh (b = 1).
1.2 1.2
1 1
0.8 0.8
f (x)
F(x)
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
x x
Fig. 3.30. La pdf f (x) di una variabile aleatoria Fig. 3.31. La CDF F(x) di una variabile aleatoria
mixture di due pdf gaussiane, con µ1 = 0 µ2 = 2, mixture di due CDF gaussiane, con µ1 = 0 µ2 =
σ1 = 0.5, σ2 = 0.2, γ1 = γ2 = 0.5. 2, σ1 = 0.5, σ2 = 0.2, γ1 = γ2 = 0.5.
con γ ∈ [0, 1]. Osserviamo che effettivamente la (3.10) definisce una valida pdf, in quanto:
• f (x) ≥ 0;
∞
• −∞ f (x)dx = 1 .
La variabile aleatoria X avente tale pdf viene chiamata mixture (mistura) delle variabili aleatorie
X1 ed X2 . Ovviamente, la CDF F(x) sarà la combinazione lineare delle CDF F1 (x) ed F2 (x),
con gli stessi coefficienti γ1 e γ2 . In Figg. 3.30 e 3.31 sono riportate la pdf e la CDF della variabile
aleatoria ottenuta come mixture di due pdf (o CDF) gaussiane. Si noti in particolare dalla Fig. 3.30
la natura multimodale (in particolare, bimodale) della pdf risultante, una proprietà tipica delle
variabile aleatoria mixture.
La definizione precedente può essere facilmente estesa al caso più generale di una pdf f (x)
ottenuta come mixture di n > 2 pdf:
n
f (x) = ∑ γi f i (x) ,
i=1
n
dove γi > 0 e ∑i=1 γi = 1.
Esempio 3.19. Una variabile aleatoria X ∼ Lap(λ) di tipo Laplace si può vedere come mixture delle
seguenti pdf (per γ = 0.5):
Infatti, si ha:
λ −λ|x|
f (x) = 0.5 λ e−λx u(x) + 0.5 λ eλx u(−x) = e ,
2
poichè per x > 0 risulta u(x) = 1 e u(−x) = 0, e viceversa per x < 0.
10 Il teorema fu dimostrato da A. de Moivre (1667-1754) nel caso particolare p = 1/2, e generalizzato da P. S. Laplace
(1749-1827) al caso di p arbitrario. Per una dimostrazione moderna, si veda [1] oppure [2]: tale dimostrazione si basa sullo
sviluppo asintotico (per valori elevati di n) del coefficiente binomiale utilizzando la formula di Stirling per il fattoriale
(vedi Appendice A).
3.5 Variabili aleatorie notevoli 79
0.2
0.18
0.16
0.14
0.12
p(k)
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12 14 16 18 20
k
x−np
Con il cambiamento di variabile u = √
npq , l’integrale si riscrive:
k2 −np
√ k2 −np
√ k1 −np
√
1 npq
− u2
2 1 npq 2
− u2 1 npq u2
√ k1 −np
e du = √ e du − √ e− 2 du
2π √
npq
2π −∞ 2π −∞
Esempio 3.20. Per mostrare la validità dell’approssimazione del teorema di de Moivre-Laplace, ricalcolia-
√
mo i risultati dell’esempio 3.15. Notiamo che si ha np = 100 e npq ≈ 9.49. Tralasciando il primo risultato
(nessun componente difettoso) per il quale il calcolo diretto non presenta difficoltà, per il secondo (numero
di componenti difettosi minore o uguale a 80) si ha (cfr. Tab. C.1 per i valori della G(x)):
80
80 − 100 0 − 100
∑ p(k) ≈ G
9.49
− G
9.49
k=0
= G(−2.11) − G(−10.54) ≈ G(−2.11) = 1 − G(2.11) = 1 − 0.9826 = 0.0174
11 Osserviamo che entrambi i teoremi di de Moivre-Laplace rappresentano un caso particolare di un teorema più
generale, noto come teorema limite fondamentale, che vedremo in dettaglio nel § 8.6.
80 Variabili aleatorie
che va confrontato con il risultato esatto pari a 0.0176. Per il terzo risultato (numero di componenti difettosi
compreso tra 80 e 120), si ha (cfr. Tab. C.1):
120
120 − 100 80 − 100
∑ p(k) ≈ G
9.49
−G
9.49
k=80
= G(2.11) − G(−2.11) = G(2.11) − 1 + G(2.11) =
= 2 G(2.11) − 1 = 2 · 0.9826 − 1 = 0.9652
Esempio 3.21. Un’altra applicazione interessante del teorema di de Moivre-Laplace ci consente di mettere
in relazione tra loro il concetto di probabilità con quello di frequenza di successo. Sia X ∼ B(n, p) il numero
di volte che si verifica un evento A, di probabilità p, in n prove; ci aspettiamo che, se il numero di prove è
sufficientemente elevato, la frequenza di successo, definita come p Xn , debba essere prossima alla proba-
bilità p. Questo enunciato vago può essere espresso in termini più precisi nel modo seguente: per n elevato,
la probabilità che la variabile aleatoria p si discosti da p di un ammontare pari ad ε deve essere piccola.
Proviamo a calcolare tale probabilità, che si può esprimere come:
P(| p − p| > ε) .
che ci aspettiamo grande per n sufficientemente elevato. Poichè siamo giunti ad una probabilità binomiale,
possiamo scrivere, adoperando il teorema integrale di de Moivre-Laplace:
n(p+ε)
n(p + ε) − np n(p − ε) − np
P(| p − p| ≤ ε) = ∑ p(k) ≈ G √
npq
−G √
npq
k=n(p−ε)
!
nε −nε n
=G √ −G √ = 2G ε −1.
npq npq pq
Se, ad esempio, p = 0.1 e ε = 0.1 p, cioè lo scostamento è pari al 10% del valore di p, allora si trova che:
• per n = 100, la probabilità è pari a 0.2611;
• per n = 1000, la probabilità è pari a 0.7063;
• per n = 10 000, la probabilità è pari a 0.9991.
In effetti, poiché G(∞) = 1, si ha che limn→∞ P(| p − p| ≤ ε) = 1. Si osserva allora che, se aumentiamo
il numero di prove, effettivamente la frequenza di successo assume con probabilità tendente ad 1 valori
prossimi a piacere alla probabilità p. 12
12 Questa regolarità della frequenza di successo è nota come legge dei grandi numeri, e sarà approfondita più in dettaglio
nel § 8.6.
3.6 Esercizi proposti 81
Esercizio 3.2. Si lanciano due dadi bilanciati, e si definisce la variabile aleatoria X come la somma dei
punteggi ottenuti nei due lanci. Determinare la DF della variabile aleatoria X e rappresentarla graficamente.
Esercizio 3.3. Si lanciano tre dadi bilanciati, e si definisce la variabile aleatoria X come la somma dei
punteggi ottenuti nei tre lanci. Determinare la DF della variabile aleatoria X e rappresentarla graficamente.
[Suggerimento: risolvere per enumerazione ed utilizzando calcolo combinatorio elementare]
Esercizio 3.4. Si lancia un dado bilanciato finchè non esca la stessa faccia due volte consecutive, e sia X la
variabile aleatoria che rappresenta il numero di lanci. Calcolare la DF di X.
Esercizio 3.5. Stabilire per quale valore di c ciascuna delle seguenti funzioni p(k), definite sui valori interi
positivi k = 1, 2, . . ., è una valida DF:
2k
a) p(k) = c
k!
b) p(k) = c pk , p ∈ [0, 1];
pk
c) p(k) = c , p ∈ [0, 1];
k
1
d) p(k) = c
k(k + 1)
[Risposta: c = 1/(e2 − 1); c = (1 − p)/p; c = 1/ ln(1/(1 − p)); c = 1]
Esercizio 3.6. Si consideri il seguente esperimento di probabilità: l’intensità di corrente che scorre attraverso
un resistore R è una grandezza aleatoria i ∈ Ω = [−I0 , I0 ]. Assumendo per i una distribuzione uniforme di
probabilità su Ω, si considerino le seguenti variabili aleatorie definite su (Ω, S, P):
a) la corrente X(i) = i;
b) la tensione X(i) = R i ai capi del resistore;
c) la potenza X(i) = R i2 dissipata dal resistore per effetto Joule.
Calcolare le CDF e le pdf delle variabili aleatorie X precedentemente definite e rappresentarle graficamente.
Esercizio 3.7. Un utente si reca ad uno sportello in un istante t qualunque dell’intervallo Ω = (0, T), senza
sapere che lo sportello è occupato fino all’istante T0 < T. Costruire una variabile aleatoria positiva X su Ω
che descrive il tempo di attesa dell’utente e calcolarne CDF e pdf, rappresentandole graficamente; stabilire
inoltre se X è una variabile aleatoria continua, discreta oppure mista.
Esercizio 3.8. Una coppia decide di continuare ad avere figli finchè non nasce una bambina. Calcolare la DF
della variabile aleatoria discreta X che rappresenta il numero di figli della coppia.
Esercizio 3.9. Il numero di persone in una fila è modellato come una variabile aleatoria X ∼ Geom(0.5).
a) Calcolare la probabilità che ci sia un numero dispari di persone in fila.
b) Calcolare la probabilità che ci sia un numero pari di persone in fila.
Esercizio 3.11. In un cesto ci sono 12 mele sane e 4 mele marce, e voi estraete 3 mele a caso, simultanea-
mente.
a) Descrivere l’esperimento in termini probabilistici, individuando lo spazio campione Ω e la legge di
probabilità;
b) determinare la DF della variabile aleatoria discreta X, definita su Ω, che rappresenta il numero di mele
sane che estraete dal cesto. Qual è il valore di X più probabile?
[Suggerimento: utilizzare il calcolo combinatoriale]
1 18 66 55
[Risposta: p X (0) = 140 , p X (1) = 140 , p X (2) = 140 , p X (3) = 140 ]
Esercizio 3.12. Determinare la pdf f (x) associata alla CDF F(x) = (1 − e−αx ) u(x − c), con α > 0 e c ≥ 0.
Stabilire se si tratta di una variabile aleatoria discreta, continua o mista.
Determinare k, valutare P(X ≤ 5) e P(5 < X ≤ 7), calcolare e diagrammare la pdf corrispondente. Si tratta
1 1 6
di una variabile aleatoria discreta, continua o mista? [Risposta: k = 100 ; 4 , 25 ]
Esercizio 3.15. La pdf triangolare vale 0 ovunque, ad eccezione dell’intervallo limitato (a, b), nel quale essa
assume la forma di un triangolo isoscele.
a) Determinare l’espressione di f (x) e diagrammarla;
b) determinare l’espressione di F(x) e diagrammarla.
Esercizio 3.16. Una moneta viene lanciata 10 volte ed i lanci sono tutti indipendenti.
a) Calcolare P(10 teste).
b) Calcolare P(5 teste e 5 croci in ordine qualsiasi).
c) Dire se P(testa | 10 teste) è minore, uguale o maggiore di 0.5.
d) Stabilire se è più facile avere N teste e N croci su 2N lanci o N + 1 teste e N + 1 croci su 2N + 2 lanci.
Esercizio 3.17. Una moneta viene lanciata 4 volte ed i lanci sono tutti indipendenti. Calcolare la probabilità
di ottenere:
a) almeno tre teste;
b) esattamente tre teste;
c) una sequenza di tre o più teste consecutive;
d) una sequenza di esattamente tre teste consecutive.
5 1 3 1
[Risposta: 16 , 4 , 16 , 8 ]
Esercizio 3.18. In un gioco a premi, un giocatore ha a disposizione 10 lanci per colpire un bersaglio, e vince
se il bersaglio viene colpito almeno due volte. Supponendo che la probabilità di colpire il bersaglio in un
singolo lancio sia 1/5, e che i lanci siano indipendenti:
a) calcolare la probabilità che il giocatore vinca il premio;
3.6 Esercizi proposti 83
b) calcolare la probabilità che il giocatore vinca il premio, sapendo che ha colpito almeno una volta il
bersaglio.
Esercizio 3.19. Si trasmettono messaggi di tre bit su un BSC con probabilità di scambio ε = 1/5, e sia X la
variabile aleatoria discreta che descrive il numero di errori presenti in una terna di bit. Determinare la DF
della variabile aleatoria X.
Esercizio 3.20. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X ∼ Exp(λ).
Esercizio 3.21. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X ∼ Rayleigh(b).
Esercizio 3.22. Calcolare la mediana ed il percentile u-esimo di una variabile aleatoria X ∼ N(µ, σ). In
particolare, determinare il valore dei quartile inferiore x0.25 , del quartile superiore x0.75 , e dei percentili
x0.90 , x0.95 , x0.99 in funzione dei parametri µ e σ.
[Suggerimento: utilizzare la tabella dei valori della funzione G(x)]
Esercizio 3.23. Si misurano i valori di resistenza di componenti prodotti da una linea di produzione, e si
accettano solo quei componenti la cui resistenza X è compresa tra 96 e 104 ohm. Determinare la percentuale
dei componenti accettati, nei casi in cui:
a) X è una variabile aleatoria uniforme tra 95 e 105 ohm;
b) X è una variabile aleatoria gaussiana con µ = 100 ohm e σ = 2 ohm.
[Risposta: 0.8, 0.9546]
Esercizio 3.24. In un processo per paternità contestata, un esperto testimonia che la lunghezza (espressa in
giorni) di una gravidanza, dal concepimento alla nascita, è approssimativamente una variabile aleatoria
X ∼ N(µ, σ), con µ = 270 e σ = 10. La difesa può provare che il suo cliente, imputato nel processo, si
trovava all’estero nel periodo da 290 a 240 giorni prima della nascita del bambino. Qual è la probabilità che
l’imputato si trovasse in Italia quando il bambino fu concepito? [Risposta: 2.41 · 10−2 ]
Esercizio 3.25. L’esame finale del corso di Teoria dei Fenomeni Aleatori è congegnato in modo che il punteg-
gio sia distribuito approssimativamente come una variabile aleatoria gaussiana X ∼ N(µ, σ). Al punteggio
X si associano cinque fasce di merito, da A (la migliore) fino a E (la peggiore), secondo la tabella seguente.
Calcolare la frazione degli studenti che viene valutato A, B, C, D, E. [Risposta: 16%, 34%, 34%, 14%, 2%]
4.1 Introduzione
Si presentano spesso casi in cui, a partire da una variabile aleatoria X, si ottiene una nuova va-
riabile aleatoria Y mediante una opportuna trasformazione Y = g(X). Ad esempio, supponiamo
che la variabile aleatoria X rappresenti l’intensità di corrente che passa attraverso una resistenza
(ideale) di 1 ohm; la potenza dissipata dalla resistenza si può scrivere come Y = X2 , e poichè X
è una variabile aleatoria, anche Y sarà una variabile aleatoria. Un altro esempio è quello in cui
la variabile aleatoria X rappresenta un angolo scelto a caso in (0, 2π); il coseno Y = cos(X) di
tale angolo è una variabile aleatoria ottenuta a partire da X. Formalizzando, possiamo dare la
seguente definizione di trasformazione di una variabile aleatoria:
86 Trasformazioni di una variabile aleatoria
Ω R R
Y(ω)=g[X(ω)]
X X(ω) g
Fig. 4.1. La trasformazione Y = g(X) definisce una nuova variabile aleatoria Y sullo spazio campione Ω.
Definizione (trasformazione di una variabile aleatoria). Sia X una variabile aleatoria defi-
nita sullo spazio di probabilità (Ω, S, P), e g(x) una funzione definita in R e a valori in R, tale
che l’insieme di definizione di g(x) contenga il codominio X della funzione X(ω). La tra-
sformazione Y = g(X) definisce una nuova variabile aleatoria ottenuta associando a ω ∈ Ω
il valore Y(ω) = g[X(ω)] ∈ R.
In sostanza la nuova variabile aleatoria Y è definita su (Ω, S, P) mediante una legge (Fig. 4.1)
che è la funzione composta di X e g. La condizione richiesta sull’insieme di definizione di g(x) ed
il codominio X di X(ω) serve semplicemente a garantire che tale funzione composta abbia un
insieme di definizione non vuoto. Tuttavia, affinché Y = g(X) sia effettivamente una variabile
aleatoria, è necessario che la funzione g soddisfi qualche ulteriore condizione, come analizzato
più in dettaglio nel seguente paragrafo.1
Per quanto riguarda la prima proprietà, osserviamo che, se {Y ≤ y} è un evento, la sua probabi-
lità coincide proprio con la CDF di Y, e si ha:
Per un dato y ∈ R, i valori di x tali che g(x) ≤ y (le soluzioni della disequazione) formano un
sottoinsieme di R, sia esso Ry ; si ha allora:
cui il lettore non interessato ad approfondimenti ulteriori può tranquillamente saltare il paragrafo che segue.
4.2 Caratterizzazione statistica di Y = g(X) 87
1. per ogni y ∈ R, l’insieme Ry = {x ∈ R tali che g(x) ≤ y} delle soluzioni della disequazione
g(x) ≤ y dev’essere la complementazione, unione e/o intersezione (al più numerabile) di
semirette chiuse a destra, cosicchè {Y ≤ y} sia un evento; una funzione g che possiede tale
proprietà prende il nome di funzione di Baire [1];
2. gli eventi {g(X) = +∞} e {g(X) = −∞} devono avere probabilità zero.
Osserviamo che, mentre la prima proprietà coinvolge solo la funzione g, nella seconda entra in
gioco anche la variabile aleatoria X. Peraltro, notiamo che praticamente tutte le funzioni elemen-
tari soddisfano la prima proprietà (sono cioè funzioni di Baire); per quanto riguarda la seconda
proprietà, essa è spesso automaticamente soddisfatta, per il semplice motivo che la funzione g
assume valori in R e non in R. Nel seguito, per tutte le trasformazioni di variabili aleatorie che
considereremo, riterremo sempre verificate le precedenti proprietà.
per cui per ogni y ∈ R dobbiamo determinare i valori di X la cui immagine attraverso la funzione
g è minore o uguale di y, e determinare la probabilità dell’evento corrispondente. Tale problema
non ammette evidentemente una soluzione generale, ma si riconduce alla risoluzione di una o
più disequazioni numeriche. I seguenti esempi, nei quali assumeremo che X sia una variabile
aleatoria continua, chiariranno meglio la procedura da seguire in alcuni casi tipici.
Y=g(X)
Y=g(X)
y a<0
y
b
x = ( y-b)/a X X
x = ( y-b)/a
b
a>0
Y=g(X) y
y
0 x1 x2 2π X
-1
-y 1/2 y 1/2 X
2 Si ricordi che, nell’ipotesi che X sia continua, si ha P(X < x) = P(X ≤ x).
4.2 Caratterizzazione statistica di Y = g(X) 89
1.5 5
4.5
3.5
1
3
FY(y)
f (y)
2.5
Y
2
0.5
1.5
1
1/π
0.5
0 0
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2
y y
Fig. 4.5. La CDF F(x) della variabile aleatoria Fig. 4.6. La pdf f (x) della variabile aleatoria Y =
Y = cos(X), con X ∼ U(0, 2π). cos(X), con X ∼ U(0, 2π).
Esempio 4.3. Consideriamo la trasformazione Y = cos(X), che è rappresentata graficamente in Fig. 4.4,
e supponiamo in particolare che sia X ∼ U(0, 2π). Se y < −1, si ha evidentemente FY (y) = P(Y ≤ y) =
P(cos(X) ≤ y < −1) = P(∅) = 0. Viceversa, se y ≥ 1, risulta FY (y) = P(cos(X) ≤ y) = P(Ω) = 1. Infine,
per −1 ≤ y < 1, si ha (vedi Fig. 4.4) che la disequazione cos(X) ≤ y è soddisfatta, all’interno dell’intervallo
(0, 2π), dai valori di X ∈ [x1 , x2 ], con x1 = arccos(y) e x2 = 2π − arccos(y).3 Pertanto, per tali valori di y si
ha, poiché X è uniforme in (0, 2π),
x2 − x1 1
FY (y) = P(X ∈ [x1 , x2 ]) = = 1 − arccos(y) .
2π π
In definitiva, allora, la CDF di Y si può esprimere come:
0, y < −1 ;
1
FY (y) = 1 − arccos(y), −1 ≤ y < 1 ;
π
1, y ≥ 1;
ed è raffigurata in Fig. 4.5 (si noti che è una funzione continua). La pdf si ottiene derivando la FY (y):
0, y < −1 ;
1 1
f Y (y) = , −1 < y < 1 ;
π 1 − y2
0, y > 1;
ed è raffigurata in Fig. 4.6. Si noti che tale pdf non contiene impulsi, perché la CDF è continua; inoltre, essa
non è definita (diverge) nei punti ±1, tuttavia ha comunque area unitaria.
3 Evidentemente la disuguaglianza è soddisfatta, per la periodicità della funzione coseno, anche in qualunque inter-
vallo del tipo [x1 + 2kπ, x2 + 2kπ]; tuttavia, poiché per ipotesi X assume valori in (0, 2π), non è necessario considerare
tali ulteriori intervalli, ma è sufficiente limitarsi all’intervallo (0, 2π).
90 Trasformazioni di una variabile aleatoria
Esempio 4.4 (amplificatore con saturazione). Consideriamo la trasformazione in Fig. 4.7, che può essere
espressa matematicamente come segue:
−dy , x < −d x ;
g(x) = a x, −d x ≤ x < d x ;
dy , x ≥ dx .
dy
con a dx > 0. Tale legge è quella caratteristica di un dispositivo che amplifica (se a > 1) a patto che
Y=g(X)
dy
tg(ϕ) = d y /d x = a
-d x
dx X
-d y
ed è riportata in Fig. 4.8. Notiamo che per y = −dy tale CDF è discontinua, perché il suo limite da sinistra
vale 0, mentre il limite da destra vale FX (−d x ). Allo stesso modo, la CDF è discontinua nel punto y = dy ,
in quanto il limite da destra vale 1, mentre il limite da destra vale FX (d x ). Pertanto, quando calcoleremo la
pdf, compariranno, oltre alla derivata convenzionale, due impulsi di Dirac, centrati in y = −dy e y = dy , e
fY(y)
F Y(y) area = F X (-d x )
area = 1- F X (d x )
1 h(y)
salto = F X (-d x )
salto = 1- F X (d x )
-d y dy y -d y dy y
Fig. 4.8. La CDF FY (y) della variabile aleatoria Y Fig. 4.9. La pdf f Y (y) della variabile aleatoria Y
all’uscita di un amplificatore con saturazione. all’uscita di un amplificatore con saturazione.
4.2 Caratterizzazione statistica di Y = g(X) 91
Y=g(X)
dy
-d y
F Y(y)
fY(y)
area = 1- F X (0)
1
salto = F X (0)
area = F X (0)
F X (0)
salto = 1- F X (0)
-d y dy y -d y dy y
Fig. 4.11. La CDF FY (y) della variabile aleatoria Fig. 4.12. La pdf f Y (y) della variabile aleatoria Y
Y all’uscita di un hard limiter. all’uscita di un hard limiter.
mentre la pdf si ottiene aggiungendo alla derivata convenzionale gli impulsi di Dirac:
ed è raffigurata in Fig. 4.9. In conclusione, la variabile aleatoria Y ha una CDF discontinua ma non costante
a tratti, per cui costituisce un primo esempio di una variabile aleatoria mista.
Esempio 4.5 (hard limiter). Consideriamo la trasformazione in Fig. 4.10, che può essere espressa matemati-
camente come
g(x) = dy sgn(x) ,
dove dy > 0, e sgn(x) è la funzione signum:
1, x ≥ 0;
sgn(x)
−1, x < 0.
Tale legge è quella caratteristica di un dispositivo limitatore ideale o hard limiter, e si può vedere come caso
limite di un amplificatore con saturazione per d x → 0.
Passiamo al calcolo della CDF di Y. Se y < −dy , si ha FY (y) = P(Y ≤ y) = P(g(X) ≤ y < −dy ) =
P(∅) = 0. Viceversa, se y ≥ dy , FY (y) = P(Ω) = 1. Per −dy ≤ y < dy , si ha FY (y) = P(g(X) ≤ y) = P(X ≤
92 Trasformazioni di una variabile aleatoria
p X (x) p Y(y)
4/9
1/3 1/3
2/9 2/9 2/9
1/9 1/9
-2 -1 0 1 2 x 0 1 2 3 4 y
P(Y = y) = ∑ P(X = x) ,
x∈X,g(x)=y
ovvero la probabilità che la variabile aleatoria Y assuma un qualunque valore y ∈ Y si ottiene co-
me somma delle probabilità che la variabile aleatoria X assuma i valori x, con y = g(x). Pertanto,
introducendo le DF di Y ed X, possiamo scrivere sinteticamente
Esempio 4.6. Si consideri la seguente variabile aleatoria discreta X, che assume i valori X = {−2, −1, 0, 1, 2}
con la seguente DF (Fig. 4.13):
1/3, x = 0 ;
p X (x) = 2/9, x = ±1 ;
1/9, x = ±2 .
Calcoliamo la DF della variabile aleatoria Y = X 2 . La variabile aleatoria Y è ancora discreta, e assume i
valori y ∈ Y = {0, 1, 4}. Applicando la (4.2), si ha:
pY (0) = P(Y = 0) = P(X = 0) = 1/3 ;
pY (1) = P(Y = 1) = P(X = −1) + P(X = 1) = 2/9 + 2/9 = 4/9 ;
pY (4) = P(Y = 4) = P(X = −2) + P(X = 2) = 1/9 + 1/9 = 2/9 ;
4.2 Caratterizzazione statistica di Y = g(X) 93
Teorema 4.1 (teorema fondamentale sulle trasformazioni di variabili aleatorie). Sia X una
variabile aleatoria avente pdf f X (x), e si consideri la trasformazione Y = g(X); la pdf di Y è
data da:
0, se l’equazione y = g(x) non ammette soluzioni;
f Y (y) = f X (xi )
∑ |g (x )| , dove xi è una soluzione dell’equazione y = g(x).
i i
Prova. La pdf f Y (y) si può ottenere sulla base della seguente relazione (per dy > 0):
Se y è un valore tale che l’equazione g(x) = y non ammette soluzioni, allora f Y (y) = 0. Infatti, se y non
appartiene alla frontiera del codominio di g(x), è possibile scegliere dy sufficientemente piccolo tale che
Se invece y appartiene alla frontiera del codominio di g(x), posso comunque porre f Y (y) = 0, perchè la
frontiera è un insieme di misura nulla, e quindi il valore della pdf su un insieme di misura nulla è ines-
senziale. Viceversa, si consideri il caso in cui y appartenga al codominio di g(x), cioè sia un valore tale che
l’equazione g(x) = y ammette una o più soluzioni. Per semplicità, supponiamo che le soluzioni siano tre,
x1 , x2 , x3 , come in Fig. 4.14. Allora:
f Y (y) dy = P(y < Y ≤ y + dy) = P(x1 < X ≤ x1 + dx1 ) + P(x2 + dx2 < X ≤ x2 ) + P(x3 < X ≤ x3 + dx3 ) ,
dove dx1 > 0, dx2 < 0, dx3 > 0. (Fig. 4.14) e, poiché dy è infinitesimo, i tre insiemi cui appartiene X sono
mutuamente esclusivi. Poichè:
ed inoltre
dove (Fig. 4.14) g (x1 ) > 0, g (x2 ) < 0, e g (x3 ) > 0, risulta
f X (x1 ) f (x ) f (x )
f Y (y) dy = dy + X 2 dy + X 3 dy ,
g (x1 ) |g (x2 )| g (x3 )
x1 x2 x3 X
x 1 + dx 1 x 2 + dx 2 x 3 + dx 3
Fig. 4.14. Dimostrazione del teorema fondamentale sulle trasformazioni di variabili aleatorie. Le soluzioni
dell’equazione y = g(x) sono x1 , x2 , ed x3 .
Nel seguito, sono riportati numerosi esempi di applicazione del teorema precedente per alcu-
ne trasformazioni di particolare interesse. Notiamo che la caratterizzazione di Y in termini di
pdf è appropriata se Y è una variabile aleatoria continua oppure mista, il che richiede necessa-
riamente che X sia una variabile aleatoria continua oppure mista anch’essa (se X fosse discreta,
anche Y sarebbe tale). Per semplicità, molte delle considerazioni fatte negli esempi, assumono
(esplicitamente o implicitamente) che X sia una variabile aleatoria continua.
Y = aX + b ,
raffigurata in Fig. 4.2. Qualunque sia y ∈ R, e per ogni a = 0, l’equazione y = g(x) = ax + b ammette l’unica
soluzione
y−b
x= ,
a
ed inoltre risulta
|g (x)| = |a| ,
per cui:
1 y−b
f Y (y) = f
|a| X a
che coincide con il risultato ottenuto, derivando la CDF, nell’esempio 4.1.
Y = X2
raffigurata in Fig. 4.3. Se y < 0, l’equazione y = g(x) = x2 non ha soluzioni, e quindi f Y (y) = 0. Se y > 0, si
hanno due soluzioni:
√ √
x1 = y, x2 = − y
ed inoltre
|g (x)| = 2|x| ,
per cui:
1 √ √
f Y (y) = √ [ f X ( y) + f X (− y)] u(y) ,
2 y
4.2 Caratterizzazione statistica di Y = g(X) 95
che è lo stesso risultato ottenuto nell’esempio 4.2.4 Come applicazione del precedente risultato, si consideri
il caso in cui X ∼ N(0, 1):
1
e−x /2
2
f X (x) = √
2π
e sia Y = X 2 . Dalla relazione precedente, tenendo conto che X ha una pdf pari, si ha:
1 √ 1
f Y (y) = √ f X ( y) u(y) = e−y/2 u(y)
y 2πy
che è la pdf di una variabile aleatoria di tipo chi-square con un grado di libertà, che si denota Y ∼ χ2 (1).
Notiamo che per y → 0 tale pdf diverge, ma l’area sottesa si mantiene comunque finita.
Y = 1/X .
1
x= ,
y
ed inoltre si ha
1
|g (x)| = ,
x2
per cui:
1 1
f Y (y) = fX (4.3)
y2 y
Per quanto riguarda il caso y = 0, l’equazione y = g(x) non ha soluzione per y = 0, per cui la pdf di Y è
nulla in tal punto. Come applicazione del precedente risultato, si consideri il caso in cui X ∼ Cauchy(α),
ovvero X ha una pdf di tipo Cauchy di parametro α:
α/π
f X (x) = .
x 2 + α2
Si verifica facilmente, applicando la (4.3), che la variabile aleatoria Y = 1/X risulta anch’essa Cauchy, e
precisamente Y ∼ Cauchy(1/α):
1/(απ)
f Y (y) = 2 .
y + 1/α2
In altri termini, la classe delle variabili aleatorie di Cauchy è chiusa rispetto all’operazione di reciprocazione.
Notiamo che sebbene l’espressione generale (4.3) sia stata ricavata per y = 0, la f Y (y) di Cauchy ottenuta
può essere prolungata per continuità in y = 0.
Negli esempi precedenti, abbiamo incontrato casi in cui il teorema non è applicabile, e precisa-
mente per quei valori di y = g(x) in corrispondenza dei quali la derivata g (x) si annulla. Se tali
punti y sono isolati, il valore di fY (y) è inessenziale, in quanto la pdf compare solo in relazioni
integrali, e quindi il suo valore in un punto isolato non è rilevante (l’integrale della pdf non cam-
bia). Può accadere che, nei punti y in cui il teorema non è applicabile, la pdf sia divergente (cfr.
la variabile aleatoria chi-square dell’esempio 4.8 per y = 0), oppure che essa si possa prolungare
per continuità (cfr. la variabile aleatoria Cauchy dell’esempio 4.9 per y = 0).
Diversa è la situazione se, per un determinato y, l’equazione y = g(x) ammette una infinità
continua di soluzioni, come accade ad esempio se g(x) presenta uno o più tratti costanti con
4 Se y = 0 il teorema non è applicabile, poichè anche se l’equazione y = g(x) ha una sola soluzione x = 0, in
corrispondenza di tale punto la derivata g (x) è nulla. Tuttavia, essendo y = 0 un punto isolato, il valore della pdf nel
punto y = 0 è inessenziale, a patto, ovviamente, di essere sicuri che in y = 0 non ci sia un impulso (si veda la discussione
che segue l’esempio 4.9).
96 Trasformazioni di una variabile aleatoria
ordinata pari ad y (si noti che in tal caso si ha anche g (x) = 0 per tutti i valori x corrispondenti
al tratto costante). In tal caso, la pdf di Y presenta nel punto y un impulso di Dirac, la cui area
va determinata direttamente calcolando P(Y = y). L’esempio che segue chiarirà meglio questo
concetto.
(i) Da X ad una variabile aleatoria uniforme: vogliamo passare dalla variabile aleatoria X ad una
variabile aleatoria U ∼ U(0, 1). È immediato verificare che la trasformazione appropriata è
g1 (x) = FX (x).
5 L’ipotesi di invertibilità delle CDF non è strettamente necessaria, nel paragrafo 4.3.1 vedremo una importante
X U uniforme Y
g 1 (x)= F X (x) g 2 (x)= F Y(x)-1
passo 1 passo 2
Fig. 4.15. La trasformazione di una variabile aleatoria X in una variabile aleatoria Y si articola in due passi:
a partire da X, si genera una variabile aleatoria U ∼ U(0, 1); successivamente, da U si genera la variabile
aleatoria Y.
in quanto i valori assunti da una CDF sono sempre non superiori ad 1. Infine, se u ∈ [0, 1[, si ha:
Si noti che abbiamo applicato la FX−1 (·) ad entrambi i membri della disuguaglianza perchè abbiamo
supposto che la CDF di X sia strettamente monotona (crescente) e quindi invertibile. In definitiva,
mettendo insieme i tre casi, la CDF di U è data da:
0, u < 0 ;
FU (u) = u, u ∈ [0, 1[ ;
1, u ≥ 1 ;
e questa è proprio la CDF di una variabile aleatoria U ∼ U(0, 1), per cui resta dimostrato l’asserto.
(ii) Da una variabile aleatoria uniforme a Y: abbiamo a disposizione una variabile aleatoria U ∼
U(0, 1) e vogliamo trasformarla in una variabile aleatoria Y = g2 (U) con preassegnata CDF
FY (y). Si può verificare in tal caso che la trasformazione cercata è g2 (x) = FY−1 (x), coincide
cioè con l’inversa (che abbiamo supposto esistente) della CDF desiderata.
Prova. Per verificarlo, denotiamo con FY (y) la CDF di Y = FY−1 (U) e dimostriamo che essa coincide
con FY (y). Si ha:
perchè FY (y) ∈ [0, 1] ed U è una variabile aleatoria uniforme in (0, 1), quindi con CDF FU (u) = u per
u ∈ [0, 1]. Resta pertanto dimostrato che FY (y) = FY (y), e quindi la trasformazione g2 (x) coincide
proprio con l’inversa della CDF di Y.
Una dimostrazione più semplice, e meno formale, è la seguente: abbiamo mostrato in precedenza
che per passare da una variabile aleatoria Y qualsiasi ad una variabile aleatoria uniforme U occorre
effettuare la trasformazione U = FY (Y). Se, allora, FY (y) è invertibile, la variabile aleatoria Y si otterrà
dalla variabile aleatoria uniforme U come Y = FY−1 (U).
A questo punto, come precedentemente osservato, il caso della trasformazione di una variabile
aleatoria X con CDF arbitraria in una variabile aleatoria Y con CDF arbitraria può essere affronta-
to sfruttando i risultati dei due casi precedenti, e cioè articolando la trasformazione in due passi
(Fig. 4.15):
(i) nel primo passo, si trasforma X in una variabile aleatoria uniforme U ∼ U(0, 1), mediante
la trasformazione g1 (x) = FX (x);
98 Trasformazioni di una variabile aleatoria
(ii) nel secondo passo, dalla variabile aleatoria uniforme U ∼ U(0, 1), si ottiene Y mediante la
trasformazione g2 (x) = FY−1 (x).
Esempio 4.11. Determiniamo la trasformazione g(x) che consente di passare da una variabile aleatoria
esponenziale X ∼ Exp(λ) ad una variabile aleatoria Rayleigh Y ∼ Rayleigh(b). La CDF di X è:
mentre quella di Y è:
y2
FY (y) = (1 − e− b ) u(y) .
Per individuare la g(x), conviene riscrivere la (4.4) nella forma:
FY [g(x)] = FX (x) ,
che va riguardata come un’equazione nell’incognita g(x) e risolta rispetto all’incognita. Sostituendo le
espressioni delle CDF, si ha:
g2 (x)
1 − e− b u[g(x)] = 1 − e−λx u(x) .
Per x < 0, il secondo membro si annulla, per cui posso assumere g(x) ≡ 0 per x < 0; invece, per x ≥ 0,
il secondo membro si annulla solo per x = 0, per cui deve risultare necessariamente g(x) ≥ 0 cosicché
u[g(x)] = 1; in tal caso, si ha:
g2 (x)
1 − e− b = 1 − e−λx ,
da cui con semplici passaggi algebrici si ricava:
√
g2 (x) = λ x b ⇒ g(x) = λxb.
Si noti che nella risoluzione abbiamo scelto la soluzione non negativa per g(x) per tenere conto della con-
dizione g(x) ≥ 0 ricavata in precedenza; questo corrisponde al fatto che, poiché la variabile aleatoria di
Rayleigh è positiva, allora la trasformazione g(x) cercata deve essere non negativa.
Generatore U uniforme X
variabili aleatorie g(x)= F X (x)-1
uniformi in (0,1)
Fig. 4.16. La generazione di una variabile aleatoria X con CDF FX (x) invertibile si può effettuare a par-
tire da un generatore di variabili aleatorie uniformi U ∼ U(0, 1), applicando all’uscita di quest’ultimo la
trasformazione g(x) = FX−1 (x).
Esempio 4.12. Determiniamo la trasformazione che consente di generare una variabile aleatoria esponen-
ziale X ∼ Exp(λ) a partire da una variabile aleatoria uniforme U ∼ U(0, 1). Poichè:
allora si ha:
1
g(x) = FX−1 (x) = − ln(1 − x) .
λ
Osserviamo però che, se U ∼ U(0, 1), allora anche 1 − U ∼ U(0, 1). Allora, più semplicemente, possiamo
scrivere:
1
g(x) = − ln(x) .
λ
Poiché X è una variabile aleatoria positiva, la trasformazione g(x) è non negativa.
Esempio 4.13. Determiniamo la trasformazione che consente di generare una variabile aleatoria Rayleigh
X ∼ Rayleigh(b) a partire da una variabile aleatoria uniforme U ∼ U(0, 1). Poichè:
x2
FX (x) = (1 − e− b ) u(x) ,
allora si ha:
g(x) = FX−1 (x) = −b ln(1 − x) ,
dove nella determinazione dell’inversa abbiamo scelto la soluzione positiva perchè la variabile aleatoria
di Rayleigh è positiva. Anche qui, poiché se U ∼ U(0, 1), anche 1 − U ∼ U(0, 1), possiamo scrivere più
semplicemente:
g(x) = −b ln(x) .
Poiché X è una variabile aleatoria positiva, la trasformazione g(x) è non negativa.
In molti casi, la FX (x) non ha una espressione analitica semplice e pertanto, sebbene sia stret-
tamente monotona, non è semplice calcolarne l’inversa FX−1 (x); ciò accade, ad esempio, se X ∼
N(µ, σ), e quindi la CDF è espressa in termini della funzione non elementare G(x). Se allora si rie-
sce a mettere in relazione la variabile aleatoria X con altre variabili aleatorie Z1 , Z2 , . . . , Zn di più
semplice generazione, mediante una legge del tipo X = f (Z1 , Z2 , . . . , Zn ), è possibile risolvere il
problema della generazione di X in due passi:
(i) si genera ciascuna delle variabili aleatorie Z1 , Z2 , . . . , Zn con il metodo della trasformazione
percentile;
F X (x) F X -1 (y)
1
1
q
0
1 x q 1 y
Fig. 4.17. La CDF FX (x) della variabile aleatoria Fig. 4.18. L’inversa sinistra FX−1 (y) della CDF
X ∼ Bern(p). della variabile aleatoria X ∼ Bern(p) raffigurata
in Fig. 4.17.
Un altro caso in cui il metodo della trasformazione percentile non sembrerebbe applicabile
è quello in cui la FX (x) non è strettamente monotona e, quindi, non è invertibile. Tale limita-
zione escluderebbe l’impiego della tecnica di generazione nei casi in cui la CDF della variabile
aleatoria da generare presenti uno o più tratti costanti; in particolare, ne precluderebbe l’uso per
la generazione di variabili aleatorie discrete, che hanno una CDF costante a tratti. In realtà, per
applicare il metodo della trasformazione percentile anche a questi casi, è sufficiente generalizzare
la definizione di inversa della CDF, ponendo, per ogni y ∈ [0, 1],
Osserviamo che, se FX (x) è strettamente monotona, la FX−1 (y) definita dalla (4.5) si riduce all’in-
versa convenzionale; altrimenti, se ad esempio la CDF FX (x) presenta un tratto costante nell’in-
tervallo [x1 , x2 ] di ordinata pari a y, è facile verificare che FX−1 (y) = x1 . La funzione definita
dalla (4.5) viene a volte denominata inversa “sinistra”, in quanto si può facilmente verificare
che FX [FX−1 (y)] = y, mentre in generale risulta FX−1 [FX (x)] = x; inoltre poichè FX (x) è mono-
tona crescente, anche la funzione FX−1 (y) definita dalla (4.5) è monotona crescente. Si può al-
lora facilmente verificare che la dimostrazione sviluppata nel § 4.3 al punto (ii) rimane valida,
a patto di sostituire all’inversa convenzionale l’inversa sinistra. In particolare, il metodo della
trasformazione percentile risulta ancora applicabile, come mostrato dal seguente esempio.
Esempio 4.14. Si vuole generare una variabile aleatoria X ∼ Bern(p), la cui CDF è raffigurata in Fig. 4.17.
Calcoliamo prima l’inversa sinistra FX−1 (y), in accordo alla (4.5). Si ha:
F X (x) F X -1 (y)
x3
p 1 +p 2 +p 3
p 1 +p 2 x2
x1
p1
x1 x2 x3 x p1 p 1 +p 2 p 1 +p 2 +p 3 y
Fig. 4.19. La CDF FX (x) di una variabile Fig. 4.20. L’inversa sinistra FX−1 (y) della CDF
aleatoria discreta X. della variabile aleatoria X discreta raffigurata in
Fig. 4.19.
si scambiano gli assi x ed y. Pertanto, a partire da U ∼ U(0, 1) e tenendo conto della forma dell’inversa
sinistra, la tecnica di generazione è molto semplice:
1. si genera un valore U ∈ [0, 1];
2. se U ∈ [0, q], si pone X = 0;
3. se U ∈]q, 1], si pone X = 1.
Si noti che abbiamo arbitrariamente assegnato anche a U = 0 il valore X = 0, e non il valore X = −∞;
questo non altera la probabilità che X = 0, e quindi la distribuzione di X, poiché, essendo U una variabile
aleatoria continua, si ha P(U = 0) = 0.
2. se U ∈ [0, p1 ], si pone X = x1 ;
p1 + p2 + . . . pk−1 < U ≤ p1 + p2 + . . . pk ,
e si pone X = xk .
x0 = 5232
52322 = 27|3738|24 → x1 = 3738
37382 = 13|9726|44 → x2 = 9726
97262 = 94|5950|76 → x3 = 5950
...
Dalla sequenza intera ottenuta è possibile ottenere numeri interi in (0, 1) semplicemente spostan-
do la virgola in prima posizione, ovvero dividendo ciascun numero per 10 000: ad esempio, la
sequenza del precedente esempio genera la seguente successione di valori in (0, 1):
È chiaro che, essendo solo 10 000 i numeri di quattro cifre, e poichè ogni numero dipende solo
da quello precedentemente generato, la sequenza ottenuta sarà necessariamente periodica, con
periodo al più pari a 10 000. In realtà, il principale svantaggio di tale procedura è che le proprietà
della sequenza generata dipendono in maniera critica dalla scelta del seme iniziale; ad esempio,
la scelta x0 = 0000 produce la sequenza banale
Ma anche scelte meno banali del seme possono portare a risultati altrettanto sgradevoli: ad
esempio, scegliendo x0 = 2100, si ottiene la sequenza composta dai soli quattro valori interi
che si ripetono indefinitamente. Proprio a causa della sensibilità rispetto alla scelta del seme
iniziale, il metodo “middle-square” è stato presto abbandonato, e l’attenzione degli studiosi si è
spostata verso tecniche ricorsive che fossero al tempo stesso più efficienti computazionalmente
(l’algoritmo “middle-square” ricorre ad una elevazione al quadrato, che ha una complessità al-
goritmica non trascurabile) e tali da garantire proprietà ottimali o quasi ottimali delle sequenze
generate.
dove il moltiplicatore a, l’incremento c ed il modulo m sono tutti numeri interi non negativi. L’e-
quazione (4.6) descrive sostanzialmente una ricorsione lineare, in cui tuttavia il risultato è preso
in aritmetica “modulo m”, considerando cioè il resto della divisione per m e ottenendo quindi
sempre numeri interi compresi tra 0 ed m − 1, estremi inclusi. Ad esempio, scegliendo a = c = 7,
m = 10 ed un seme x0 = 7, si ottiene la sequenza:
7 6 9 0 7 6 9 0 ...
che risulta chiaramente periodica di periodo 4. Tale periodicità è una proprietà generale del
generatore lineare congruente: tutte le sequenze generate in base alla (4.6) saranno periodiche
di periodo minore o uguale ad m, in quanto composte al più da m valori. Per avere un buon
generatore, allora, dovremo scegliere m molto grande: in pratica converrebbe scegliere m pari al
massimo numero intero rappresentabile nella parola macchina del calcolatore, quindi ad esempio
m = 216 per un calcolatore a 16 bit, oppure m = 232 per un calcolatore a 32 bit. Inoltre dobbiamo
assicurarci che la sequenza generata sia a massimo periodo: affinché ciò accada, devono valere le
seguenti condizioni [8]:
È chiaro che, nel caso di sequenze a massimo periodo, il periodo m dovrà eccedere significa-
tivamente la lunghezza tipica delle sequenze che utilizzeremo in una singola simulazione; se
così non fosse, la periodicità della sequenza generata sarebbe chiaramente individuabile, e ciò ne
comprometterebbe la natura pseudo-aleatoria.6
Una volta progettato un buon generatore di numeri casuali interi xn tra 0 ed m − 1, possiamo
ottenere un generatore7 di numeri casuali yn tra 0 ed 1 semplicemente dividendo xn per m:
xn
yn = .
m
I numeri yn così generati non riempiono tutto l’intervallo (0, 1), ma si dispongono su un reticolo
monodimensionale con spaziatura 1/m; in pratica, non otterremo tutti i numeri reali tra 0 ed 1,
ma soltanto i numeri razionali del tipo p/m, con p ∈ {0, 1, . . . , m − 1}. Se però m è molto grande,
il reticolo è sufficientemente fitto da potersi ritenere una buona approssimazione8 dei numeri
nell’intervallo (0, 1).
Osserviamo inoltre che, se la sequenza è a massimo periodo, ogni valore p tra 0 ed m − 1 sarà
assunto una ed una sola volta nel periodo, e quindi ogni valore razionale p/m sarà anch’esso
assunto una ed una sola volta nel periodo; in altri termini, osservando una sequenza di lunghezza
pari al periodo m, otterrei una distribuzione perfettamente uniforme (sebbene discreta) di valori in
(0, 1). In pratica, se m è sufficientemente elevato, è possibile osservare solo sequenze di lunghezza
molto minore del periodo, per cui la legge di distribuzione dei valori è solo approssimativamente
uniforme, se il segmento di sequenza osservato è sufficientemente lungo.
Una classe di generatori lineari congruenti particolarmente utilizzata è quella dei generatori
puramente moltiplicativi, per i quali cioè c = 0. In questo caso, la condizione c = 0 impedisce
di raggiungere il massimo periodo m, perché dobbiamo escludere dai valori ammissibili per la
sequenza il valore 0, che porterebbe il generatore in un ciclo composto da tutti 0; tuttavia esistono
condizioni che garantiscono comunque la possibilità di raggiungere un periodo massimo pari ad
m − 1, e precisamente ciò accade se:
1. m è primo;
numeri razionali consecutivi è la minima che posso rappresentare su una macchina con registri di dimensione finita.
9 Un numero intero a si dice [3] [8] radice primitiva di m se il più piccolo valore di n tale che a n − 1 = 0 mod m è
n = m − 1.
10 Fino alla versione 4: nella versione 5 e successive si utilizza un generatore basato su un algoritmo più sofisticato
di quello lineare congruente, che assicura un periodo pari a 21492 (si veda http://www.mathworks.com/company/
newsletter/pdf/Cleve.pdf per maggiori dettagli sui generatori impiegati in Matlab).
4.3 Problema inverso: determinazione di g(x) 105
0.15 0.15
0.1 0.1
fX(x)
fX(x)
0.05 0.05
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
x x
Fig. 4.21. Istogrammi di N = 4000 valori generati dal generatore “good” (a sinistra) e dal generatore “bad”
(a destra).
In Fig. 4.21, sono riportati gli istogrammi di N = 4000 valori generati in (0, 1) da ciascuno dei due
generatori: si può notare che per entrambi l’ipotesi di distribuzione uniforme è ben verificata.
Tuttavia, abbiamo osservato che non basta che la distribuzione sia uniforme, ma occorre ve-
rificare che non ci sia una “regolarità” facilmente identificabile nella sequenza generata. Un te-
st semplice per individuare tali regolarità consiste nel diagrammare su un piano cartesiano le
106 Trasformazioni di una variabile aleatoria
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
yn+1
yn+1
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
yn y
n
Fig. 4.22. Diagrammi delle coppie (yn , yn+1 ) di valori consecutivi generati in (0, 1) per il generatore
“good”(a sinistra) ed il generatore “bad” (a destra).
coppie di valori (xn , xn+1 ) generate: poichè xn+1 = f (xn ), un “cattivo” generatore tenderà a
presentare delle configurazioni regolari abbastanza evidenti. Ad esempio, il diagramma per il
generatore (4.7) “a rampa” sarebbe composto dalle coppie
che si dispongono chiaramente a formare una retta. I corrispondenti diagrammi per i due gene-
ratori considerati sono riportati in Fig. 4.22, con riferimento ai valori yn generati nell’intervallo
(0, 1): mentre il generatore “good” (a sinistra) non presenta schemi o regolarità facilmente indivi-
duabili, è facile invece notare che nel diagramma del generatore “bad” (a destra) i valori tendono
a disporsi su rette oblique, il che induce a ritenere che “bad” non sia un buon generatore. Ov-
viamente esistono test più sofisticati di questi menzionati, per i quali si rimanda a [8] e [11]; per
verificare la bontà di un generatore, è buona norma sottoporlo a più di un test. A tale proposito,
gli studiosi di generatori di numeri casuali sono soliti citare l’affermazione: “Un generatore può
ingannare un test qualche volta, e qualche test tutte le volte, ma non tutti i test tutte le volte”.
4.4 Esercizi proposti 107
e rappresentarle graficamente.
c) Determinare CDF e pdf della variabile aleatoria Y ottenuta attraverso la seguente trasformazione:
−1, X ≤ 0 ;
Y=
X, X > 0.
e rappresentarle graficamente.
Esercizio 4.4. Sia X la variabile aleatoria che descrive il numero di teste che si ottengono nel lancio di 3
monete bilanciate. Determinare la DF della variabile aleatoria Y = 3 − X.
Esercizio 4.5. Sia X una variabile aleatoria discreta che assume tutti i valori interi tra −2 e 2 (estremi inclusi)
in maniera equiprobabile.
a) Determinare la DF di Y = |X| e rappresentarla graficamente;
b) ripetere il punto 1 per la variabile aleatoria Y = sgn(X) + X;
c) ripetere il punto 1 per la variabile aleatoria Y = X 2 − 1.
Esercizio 4.8. Si determini la pdf di Y = sin(X + φ), con X ∼ U(0, 2π) e φ costante.
Esercizio 4.14. Sia X una variabile aleatoria con pdf f X (x) = 2 e−2x u(x).
a) Determinare la pdf della variabile aleatoria Y = 2 X − 5, e rappresentare le pdf di X ed Y sullo stesso
diagramma;
b) ripetere il punto 1 per Y = −2 X + 1.
Esercizio 4.15. Sia X una variabile aleatoria con pdf f X (x) = e−x u(x), e sia Y = g(X) la variabile aleatoria
ottenuta mediante la seguente trasformazione:
x, x ≤ 1;
g(x) =
1/x, x > 1 .
Determinare la pdf della variabile aleatoria Y e rappresentarla graficamente.
Esercizio 4.16. Determinare la trasformazione che consente di generare una variabile aleatoria X ∼ U(0, 2π)
a partire da una variabile aleatoria U ∼ U(0, 1).
[Risposta: g(x) = 2πx]
Esercizio 4.17. Determinare la trasformazione che consente di generare una variabile aleatoria X ∼ Cauchy(α)
a partire da una variabile aleatoria U ∼ U(0, 1).
[Risposta: g(x) = α tan[π(x − 0.5)]]
Esercizio 4.18. Determinare la trasformazione che consente di generare una variabile aleatoria X ∼ Lap(λ)
a partire da una variabile aleatoria U ∼ U(0, 1).
[Risposta: g(x) = (1/λ) ln(2x), per x ≤ 1/2; g(x) = −(1/λ) ln[2(1 − x)], per x ≥ 1/2]
Esercizio 4.19. Determinare la trasformazione che consente, a partire da una variabile aleatoria U ∼ U(0, 1),
di generare una variabile aleatoria X di tipo Weibull, avente cioè pdf:
α
f X (x) = α x α−1 e−x u(x) ,
con α ≥ 0. [Risposta: g(x) = [− ln(x)]1/α ]
Esercizio 4.20. Determinare la trasformazione che consente, a partire da una variabile aleatoria U ∼ U(0, 1),
di generare una variabile aleatoria X di tipo Pareto, avente cioè pdf:
α−1
f X (x) = u(x − 1)
xα
1
1 α−1
con α > 1. [Risposta: g(x) = x ]
Esercizio 4.21. Determinare la trasformazione che consente, a partire da una variabile aleatoria U ∼ U(0, 1),
di generare una variabile aleatoria X avente pdf
12(x − 0.5)2 , 0 < x < 1 ;
f X (x) =
0, altrimenti .
5.1 Introduzione
Abbiamo visto che una variabile aleatoria X è completamente descritta (“completamente caratte-
rizzata”, in gergo probabilistico) dalla conoscenza della sua CDF, pdf, o DF. In molti casi pratici,
tuttavia, tale informazione è eccessivamente dettagliata oppure è difficile da ottenere, mentre in-
vece è interessante conoscere solo alcuni parametri numerici della variabile aleatoria, che sono
genericamente denominati momenti. Tali parametri forniscono informazioni sintetiche (rispetto
alla conoscenza della CDF, pdf, o DF) sulla variabile aleatoria: si parla infatti in tal caso di ca-
ratterizzazione sintetica della variabile aleatoria in oggetto. Il primo passo per introdurre la ca-
ratterizzazione sintetica è quello di fornire la definizione di media (statistica) di una variabile
aleatoria.
110 Caratterizzazione sintetica di una variabile aleatoria
Definizione (media di una variabile aleatoria). La media (statistica) E(X) di una variabile
aleatoria X con pdf f (x) è: ∞
E(X) x f (x) dx (5.1)
−∞
se tale integrale esiste finito.
Osserviamo che la media di una variabile aleatoria è un numero reale. Nella notazione E[X], la
E deriva dalla denominazione anglosassone di media come “expectation” (in italiano, diremmo
“valore atteso”). Talvolta si usa indicare la media di una variabile aleatoria con la lettera greca
µ; per specificare, poi, che si tratta della media della variabile aleatoria X, useremo anche la
notazione µ X .
Esempio 5.1 (media di una variabile aleatoria uniforme). Sia X ∼ U(a, b), allora si ha:
b " # x=b
1 1 x2 a+b
E(X) = x dx = = ,
a b−a b−a 2 x=a 2
per cui la media di X coincide con il punto medio dell’intervallo [a, b].
Esempio 5.2 (media di una variabile aleatoria esponenziale). Sia X ∼ Exp(λ), allora si ha:
∞ ∞
d
E(X) = x λ e−λx dx = x [−e−λx ] dx = (per parti) =
0 0 dx
$ % x=∞ ∞ 1
= −xe−λx + e−λx dx = ,
x=0 0 λ
per cui la media di X coincide con il reciproco del parametro λ.
Che cosa rappresenta in pratica la media, o valore atteso? Dal punto di vista matematico, l’in-
tegrale nella (5.1) effettua una “media pesata” dei valori x, dove la “pesatura” è rappresentata
dal valore f (x) della pdf nel punto x, e quindi i valori x in corrispondenza dei quali la pdf è
più grande vengono pesati maggiormente, e contribuiscono in maggior misura al valore della
media. Con una similitudine tratta dalla fisica, possiamo pensare alla media E(X) come al valore
“baricentrico” della distribuzione (pdf) di probabilità (e difatti la definizione di media è formal-
mente identica alla definizione del baricentro di una distribuzione lineare di masse). In pratica, la
media è una grandezza deterministica che si può interpretare come “rappresentativa” dei valori
assunti dalla variabile aleatoria, ed in questo senso si parla di “valore atteso”; è questo l’uso che
si fa correntemente della media quando si fanno affermazioni del tipo “i maschi italiani sono alti
in media 172 cm” oppure “uno studente di Ingegneria impiega in media 2.3 mesi a preparare
un esame”. Si noti tuttavia che, a dispetto dell’interpretazione precedente, per particolari forme
della pdf la media potrebbe non coincidere con alcuno dei valori assunti dalla variabile aleatoria
(ciò accade spesso per variabili aleatorie discrete). Altre grandezze deterministiche che possono
essere assunte come “rappresentative” della variabile aleatoria sono la mediana (ovvero il valore
5.2 Media di una variabile aleatoria 111
che non è superato con probabilità pari a 0.5, vedi § 3.2.3) e la moda (ovvero il valore in cui la pdf
ha un massimo locale, vedi § 3.3.1).
Esempio 5.3 (media di una variabile aleatoria di Cauchy). Per particolari pdf la media potrebbe non essere
definita, nel senso che la funzione integranda nella (5.1) potrebbe non essere sommabile. È questo il caso di
una variabile aleatoria X ∼ Cauchy(α), che ha pdf f (x) = xα/π 2 +α2 , per la quale l’integrale nella (5.1) si scrive
esplicitamente come: ∞ ∞
α/π
E(X) x f (x) dx = x 2 dx .
−∞ x + α
2
−∞
La funzione integranda non è sommabile, in quanto decade a zero all’infinito come 1/x. Pertanto, la media
E(X) di una variabile aleatoria di Cauchy non è definita.1
Esempio 5.4 (media di una variabile aleatoria gaussiana). Sia X ∼ N(µ, σ), ricordiamo che la sua pdf è (cfr. §
3.5.7)
1 (x−µ)2
−
f (x) = √ e 2σ2 .
σ 2π
Poichè tale funzione ha chiaramente x = µ come asse di simmetria, allora risulta necessariamente E(X) = µ
(notiamo che la media esiste, in quanto la funzione x f (x) è sicuramente sommabile, in quanto di tipo
esponenziale). Pertanto il parametro µ, caratteristico di una variabile aleatoria gaussiana, ne rappresenta la
media E(X).
Vediamo come si particolarizza la definizione di media al caso in cui X è una variabile aleatoria
discreta. In tal caso, la pdf f (x) si riduce (cfr. § 3.3) ad una somma discreta di impulsi di Dirac,
del tipo
f (x) = ∑ pi δ(x − xi ) ,
x i ∈X
dove pi = P(X = xi ), per cui, sostituendo la pdf nella definizione di media, si ottiene con facili
passaggi:
∞ ∞
E(X) = x f (x) dx = x ∑ pi δ(x − xi ) dx
−∞ −∞ x i ∈X
∞
= ∑ pi
−∞
x δ(x − xi ) dx = ∑ pi xi
x i ∈X x i ∈X
= ∑ xi P(X = xi ) = ∑ xi p(xi ) ,
x i ∈X x i ∈X
ovvero la media si può esprimere, anziché attraverso un integrale, mediante una sommatoria dei
valori xi ∈ X della variabile aleatoria discreta X, ciascuno pesato per la DF p(x) calcolata nel pun-
to xi (“somma pesata”). Se i valori xi sono in numero finito ed equiprobabili, la media statistica
si riduce alla semplice media aritmetica dei valori xi .
1 Notiamo che se, viceversa, si adoperasse nella (5.1) la definizione di integrale a valor principale secondo Cauchy o integrale
Esempio 5.5 (media di una variabile aleatoria di Bernoulli). Sia X ∼ Bern(p), allora
Si noti come la media (salvo nei casi, peraltro poco interessanti, in cui p = 0 oppure p = 1) non coincide con
alcun valore assunto dalla variabile aleatoria X.
Esempio 5.6 (media di una variabile aleatoria binomiale). Sia X ∼ B(n, p), allora
n n
n k
E(X) = ∑ k P(X = k) = ∑ k
k
p (1 − p)n−k = np .
k=0 k=0
Per ottenere tale risultato, occorre sfruttare opportunamente le proprietà dei coefficienti binomiali. Si ha:
n n
n k n!
E(X) = ∑ k
k
p (1 − p)n−k = ∑ k k!(n − k)! pk (1 − p)n−k
k=0 k=1
n n−1
n! n!
= ∑ (k − 1)!(n − k)!
pk (1 − p)n−k = ∑ h!(n − h − 1)!
ph+1 (1 − p)n−h−1
k=1 h=0
n−1
(n − 1)!
= np ∑ h!(n − 1 − h)!
ph (1 − p)n−1−h = np .
h=0
=(p+q)n−1 =1
Vedremo nel seguito (cfr. esempio 8.2) che il risultato precedente si può giustificare assai più semplicemente
riguardando la variabile aleatoria binomiale come la somma di n variabili aleatorie bernoulliane. Osserviamo
infine che solo nel caso in cui np sia intero, la media coincide con uno dei valori assunti dalla variabile
aleatoria X.
Esempio 5.7 (media di una variabile aleatoria indicatrice di un evento). Sia X A la variabile aleatoria indicatrice
di un evento A (vedi esempio 3.10), e cioè:
1, se ω ∈ A;
X A (ω) =
0, se ω ∈ A.
Tale variabile aleatoria è ovviamente discreta, e assume i valori 1 e 0 con probabilità P(A) e P(A). Si ha,
allora:
E(X A ) = 1 · P(A) + 0 · P(A) = P(A) .
Questo esempio evidenzia che la probabilità di un evento A si può interpretare come media della variabile
aleatoria indicatrice dell’evento stesso.
Esempio 5.8 (media di una costante). Sia X = a una variabile aleatoria costante, che assume l’unico valore
reale a con probabilità 1. Poiché la sua pdf è f (x) = δ(x − a), si ha:
∞
E(X) = x δ(x − a) dx = a
−∞
e pertanto E(a) = a.
5.2 Media di una variabile aleatoria 113
Pertanto, per determinare E(Y), sembra necessario calcolare la pdf fY (y), il che può farsi ado-
perando il teorema fondamentale 4.1 sulle trasformazioni di variabili aleatorie. Tale conclusione
non è però del tutto corretta, in virtù del seguente teorema fondamentale della media, che enunciamo
senza dimostrazione:
Teorema 5.1 (teorema fondamentale della media). Sia Y = g(X) una trasformazione della
variabile aleatoria X avente pdf f X (x), si ha:
∞
E(Y) = E[g(X)] = g(x) f X (x) dx
−∞
Nel caso in cui X sia una variabile aleatoria discreta con DF p(x), abbiamo avuto già modo di
osservare che anche Y = g(X) sarà una variabile aleatoria discreta, ed il teorema fondamentale
della media si può esprimere come:
ovvero la media di Y si esprime in termini della DF pX (x) di X. In questo caso si può fornire una
dimostrazione semplice del teorema (si veda [4] oppure [5]).
Esempio 5.9. Sia X ∼ U(0, 2π), e si voglia calcolare la media di Y = cos(X). Applicando il teorema
fondamentale, scriviamo:
2π
1 1
E(Y) = E[cos(X)] = cos(x) dx = [sin(x)] x=2π
x=0 = 0
2π 0 2π
per cui E(Y) = 0 e non è stato necessario calcolare esplicitamente la pdf di Y, la cui espressione abbiamo
peraltro derivato nell’esempio 4.3 (si tratta di una pdf pari, per cui effettivamente E(Y) = 0).
In particolare, si ha:
E(a X + b) = a E(X) + b ,
in quanto E(b) = b. Tale fondamentale proprietà va sotto il nome di linearità della media.
114 Caratterizzazione sintetica di una variabile aleatoria
Notiamo che la definizione precedente si può interpretare anche come l’applicazione del teorema
fondamentale della media al calcolo della media di Y = g(X) = (X − µ)2 .
La varianza è una quantità non negativa: la sua radice quadrata σ Var(X) prende il no-
me di deviazione standard della variabile aleatoria X; si noti che la varianza è dimensionalmente
omeogenea al quadrato della variabile aleatoria, mentre la deviazione standard ha le stesse di-
mensioni della variabile aleatoria. Useremo anche la notazione σX per denotare esplicitamente
che si tratta della deviazione standard della variabile aleatoria X.
Sviluppando algebricamente il quadrato che compare nella definizione di varianza, ed ado-
perando la proprietà di linearità della media, si ha, con semplici passaggi,
La quantità E(X 2 ) (anch’essa non negativa) si calcola applicando il teorema fondamentale della
media e prende il nome di valore quadratico medio (vqm):
La radice quadrata xrms E(X 2 ) del valore quadratico medio prende il nome di valore efficace
della variabile aleatoria X, ed è dimensionalmente omogeneo ad X.3
La relazione (5.3) tra varianza, media e valor quadratico medio è fondamentale, e mostra
che solo due tra questi tre parametri possono essere assegnati arbitrariamente, in quanto il terzo
dipende univocamente dagli altri due. Inoltre, la relazione (5.3) mostra che, per variabili aleatorie
a media nulla, la varianza coincide con il valor quadratico medio, e quindi la deviazione standard
coincide con il valore efficace.
Esempio 5.10 (varianza di una variabile aleatoria uniforme a media nulla). Consideriamo il caso di X ∼
U(−∆/2, ∆/2), allora µ = E(X) = 0, e si ha:
∆/2 " # x=∆/2
1 1 x3 ∆2
σ2 = E[X 2 ] = x2 dx = = .
−∆/2 ∆ ∆ 3 x=−∆/2 12
Osserviamo come la varianza cresca al crescere dell’ampiezza ∆ dell’intervallo in cui la variabile aleatoria
X assume i suoi valori. Il caso di una variabile aleatoria uniforme a media non nulla è trattato nell’esempio
5.14.
Esempio 5.11 (varianza di una costante). Sia X = a una variabile aleatoria costante, che assume l’unico
valore reale a con probabilità 1. È immediato verificare che la sua varianza è nulla, in quanto risulta X − µ =
a − a = 0.
Qual è l’interpretazione della varianza? Notiamo che l’integrale (5.2) effettua una media pesata,
con funzione di peso f (x), degli scarti quadratici (x − µ)2 tra i valori assunti dalla variabile alea-
toria e la sua media. La varianza σ2 , pertanto, misura la concentrazione (o, equivalentemente, la
dispersione) di X intorno alla sua media µ. In altri termini, se una variabile aleatoria ha varianza
piccola, allora essa è poco dispersa intorno alla sua media (assumerà con maggior probabilità valo-
ri intorno alla media); viceversa, se una variabile aleatoria ha varianza grande, allora essa è molto
dispersa intorno alla sua media (assumerà con probabilità non trascurabile valori assai lontani
dalla media).4 Possiamo equivalentemente dire che la varianza è una misura dell’incertezza asso-
ciata ai valori della variabile aleatoria aleatoria X; infatti una variabile aleatoria costante (X = a)
ha varianza nulla, perchè non c’è nessuna incertezza sui valori che può assumere.
Adoperando una similitudine fisica, come la media è equivalente al baricentro di una distri-
buzione di masse, così la varianza rappresenta (e la sua espressione matematica è formalmente
equivalente) il momento di inerzia della distribuzione di masse rispetto al baricentro.
Esempio 5.12 (varianza di una variabile aleatoria gaussiana). Sia X ∼ N(µ, σ): vogliamo verificare che σ2
rappresenta proprio la varianza di X, e quindi σ la sua deviazione standard. Per provarlo, ricorriamo ad un
artificio: avendo già dimostrato che µ = E(X), consideriamo l’integrale (condizione di normalizzazione per
una pdf): ∞
f (x) dx = 1 ,
−∞
che per la pdf gaussiana si scrive esplicitamente:
∞ (x−µ)2
1 −
√ e 2σ2 dx = 1 ,
−∞ σ 2π
3 Il
pedice “rms” sta per “root mean square”, che è la denominazione inglese per “radice del valor quadratico medio”.
4 Un legame quantitativo più preciso tra il valore della varianza e la probabilità con cui la variabile aleatoria assume
valori nell’intorno della media è fornito dalla fondamentale disuguaglianza di Chebishev (vedi § 5.5).
116 Caratterizzazione sintetica di una variabile aleatoria
ovvero: ∞
−
(x−µ)2 √
e 2σ2 dx = σ 2π .
−∞
Poiché quest’identità vale per ogni σ > 0, deriviamola rispetto a σ:
∞ √
−
(x−µ)2 (x − µ)2
e 2σ2 dx = 2π
−∞ σ 3
f (x) = ∑ pi δ(x − xi )
x i ∈X
e quindi, sostituendo la pdf nella definizione di varianza, con facili passaggi si ottiene:
dove p(x) è la DF di X. Ovviamente, anche per variabili aleatorie discrete vale la fondamentale
relazione (5.3) tra varianza, media e valor quadratico medio.
Esempio 5.13 (varianza di una variabile aleatoria di Bernoulli). Sia X ∼ Bern(p), allora, poiché:
E(X) = 1· p+0·q = p,
2
E(X ) = 12 · p + 02 · q = p ,
Esempio 5.14 (varianza di una variabile aleatoria uniforme). Sia X ∼ U(a, b), allora µ X = E(X) = a+b
2 .
La variabile aleatoria centrata Y = X − µ X avrà media nulla e sarà ancora uniforme, ma nell’intervallo
(−∆/2, ∆/2), con ∆ = b − a. Pertanto, ricordando il risultato dell’esempio 5.10, si ha:
∆2 (b − a)2
Var(X) = Var(Y) = = .
12 12
In questo caso, l’applicazione della proprietà (5.4) ha consentito di semplificare il calcolo, riconducendosi
ad una variabile aleatoria uniforme con la stessa varianza ma avente media nulla.
In molti casi, a partire da una variabile aleatoria X, si desidera ottenere una variabile aleatoria
standard, ovvero una variabile aleatoria Z a media nulla e varianza unitaria. È allora sufficiente
dividere la variabile aleatoria centrata Y = X − µX per la deviazione standard di X, costruendo
Z come:
X − µX
Z= .
σX
Infatti, è banale verificare che E(Z) = 0, mentre applicando la proprietà (5.4) si ha:
1
Var(Z) = Var(X) = 1 .
σX2
Notiamo che, poiché Z si ottiene da X attraverso una trasformazione lineare del tipo Z = aX + b,
la pdf di Z sarà data (per il teorema fondamentale sulle trasformazioni di variabili aleatorie, cfr.
§ 4.2.3) da
f Z (z) = σX f X (σX z + µ X ) ,
dove abbiamo sfruttato le proprietà della funzione G(x) e la tabella dei valori riportata in Appendice C.
detti (µn ) ed ai momenti centrali (σn ). In particolare, osserviamo che la media E(X) = µ coincide
con il momento µ1 di ordine n = 1, che la varianza σ2 = Var(X) coincide con il momento centrale
σ2 di ordine n = 2, e infine che il valor quadratico medio E(X2 ) coincide con il momento µ2 di
ordine n = 2. I momenti con n > 2 sono meno utilizzati, e prendono il nome di momenti di ordine
superiore.
Notiamo infine che la caratterizzazione di una variabile aleatoria in termini di momenti viene
detta caratterizzazione sintetica, in quanto fornisce un’informazione ridotta (per l’appunto, “sin-
tetica”) rispetto alla conoscenza della CDF, pdf o DF. Infatti, mentre assegnare la CDF, pdf o
DF di una variabile aleatoria X (caratterizzazione statistica o caratterizzazione completa) con-
sente di calcolare un qualunque momento, la conoscenza di un sottoinsieme di momenti di X
(caratterizzazione sintetica) non consente in generale di risalire alla CDF, pdf o DF. 6
Osserviamo che il momento centrale σn di ordine n dipende dalla media µ e da tutti i momenti
µk di ordine k ≤ n.
Altrettanto immediato è ricavare i momenti non centrali in funzione di quelli centrali. Si ha:
& '
n
n
µn = E[X n ] = E[(X − µ + µ)n ] = E ∑ (X − µ)k µn−k
k=0
k
n n
(5.5)
n n
= ∑ k
E[(X − µ) ] µ n−k
= ∑ σ µ n−k
.
k=0
k k=0
k k
Anche qui il momento µn di ordine n dipende dalla media µ e da tutti i momenti centrali σk di
ordine k ≤ n.
Esempio 5.16 (momenti di una variabile aleatoria gaussiana). Sia X ∼ N(µ, σ): vogliamo calcolarne i momenti
e i momenti centrali di ordine n qualsiasi.
Iniziamo con il calcolo dei momenti della normale standard Z ∼ N(0, 1). Infatti, poichè possiamo
esprimere una generica gaussiana X ∼ N(µ, σ) in termini della normale standard Z, come X = σ Z + µ,
potremo poi esprimere i momenti di X in funzione dei momenti di Z.
Poiché Z è a media nulla, momenti e momenti centrali coincidono: dobbiamo allora calcolare il generico
momento di ordine n, dato da: ∞
µn = σn = E[Z n ] = x n f Z (x) dx ,
−∞
dove
1
e− 2 x .
1 2
f Z (x) = √
2π
Notiamo che tali momenti esistono tutti finiti, perché la funzione x n f Z (x), per la natura esponenziale di
f Z (x), è sommabile per ogni n ∈ N. Poiché poi f Z (x) è una funzione pari, i momenti per n dispari risultano
6 Il discorso è diverso se si suppone di conoscere tutti i momenti; in tal caso, sotto opportune ipotesi, è possibile risalire
alla CDF, pdf o DF attraverso l’uso della funzione caratteristica (vedi ad esempio [3, § 5-5])
120 Caratterizzazione sintetica di una variabile aleatoria
nulli, essendo definiti attraverso l’integrale di una funzione dispari; il calcolo va allora affrontato solo per n
pari. Poiché il calcolo diretto dell’integrale per n pari è tuttavia complicato, utilizziamo un artificio simile a
quello dell’esempio 5.12, ovvero partiamo dall’identità
∞ √
e−αx dx = π α−1/2 ,
2
−∞
valida per ogni α > 0, che si può ottenere a partire dalla condizione di normalizzazione della pdf per una
variabile aleatoria X ∼ N(0, σ) con σ2 = 1/(2α). Derivando k volte rispetto ad α tale identità, si ottiene:
∞
1 √
e−αx (−x2 ) dx = α−3/2
2
π −
−∞ 2
∞
√ 1 3
e−αx (−x2 )(−x2 ) dx = π − α−5/2
2
−
−∞ 2 2
...
∞
−αx √ 1 3 2k − 1
α−(2k+1)/2
2
2 2 2
e (−x )(−x ) · · · (−x ) dx = π − − ··· −
−∞ 2 2 2
k termini
k termini
L’ultima relazione può essere riscritta, con semplici manipolazioni algebriche, nella forma:
∞
!
π
e−αx x2k dx = 1 · 3 · · · (2k − 1) (2α)−k
2
−∞ α
(
π
da cui, portando α al primo membro e ponendo α = 1/2 si ottiene:
∞
1
x2k e−x
2
√ /2
dx = 1 · 3 · · · (2k − 1) (2k − 1)!!
2π −∞
ovvero proprio il momento E(Z n ) con n = 2k pari.7 In definitiva, se Z ∼ N(0, 1), si ha:
n 0, n dispari ;
E(Z ) =
(n − 1)!!, n pari .
Possiamo adesso affrontare il caso più generale di X ∼ N(µ, σ). Procediamo dapprima considerando il
caso di una variabile aleatoria X con µ = 0 (a media nulla), per la quale ovviamente i momenti ed i momenti
centrali coincidono, ed inoltre si ha X = σ Z, per cui E(X n ) = σn E(Z n ), e quindi:
n 0, n dispari ;
E(X ) = (5.6)
σn (n − 1)!!, n pari .
In particolare, per una variabile aleatoria X ∼ N(0, σ), molto utilizzato è il momento del quarto ordine
E(X 4 ) = 3 σ4 .
Infine, se µ = 0, e quindi X ∼ N(µ, σ), i momenti centrali σn coincidono con quelli di Y = X − µ che è a
media nulla, e quindi sono dati ancora dalla relazione (5.6):
0, n dispari ;
σn E[(X − µ) ] = n
σn (n − 1)!!, n pari ;
mentre i momenti non centrali si ottengono a partire da quelli centrali sfruttando la relazione (5.5).
7 Si noti che abbiamo utilizzato il simbolo !! (doppio fattoriale) per denotare il prodotto dei soli numeri dispari fino ad
Teorema 5.2 (Disuguaglianza di Markov). Sia Y una variabile aleatoria positiva, cioè tale
che f Y (y) ≡ 0 per ogni y < 0, e con media E(Y) finita. Si ha:
E(Y)
P(Y ≥ α) ≤
α
per ogni α > 0.
da cui l’asserto.
L’utilità della disuguaglianza di Markov consiste nella possibilità di valutare approssimativa-
mente la probabilità che una variabile aleatoria positiva ecceda un dato valore α. In effetti, poi-
ché P(Y ≥ α) per una variabile aleatoria continua rappresenta la CDF complementare F(α) =
1 − FX (α), allora la disuguaglianza di Markov fornisce un limite superiore per l’andamento della
CDF complementare di una variabile aleatoria positiva, che non può decrescere più lentamente
di 1/α. Tuttavia, in molti casi pratici la rapidità di decadimento a zero della CDF complementare
è molto più rapido (ad esempio, è di tipo esponenziale) di quello previsto dalla disuguaglianza
di Markov, come mostrato dal seguente esempio.
Esempio 5.17. Sia Y ∼ Exp(λ), con E(Y) = λ1 . Essendo FY (y) = [1 − e−λy ] u(y), possiamo calcolare
direttamente P(Y ≥ α) = 1 − FY (α) = e−λα . La disuguaglianza di Markov si scrive allora esplicitamente
nella forma:
1
e−λ α ≤ .
λα
Tale disuguaglianza è senz’altro verificata, ma l’errore relativo tra primo membro (che decade con legge
esponenziale) e secondo membro (che decade con legge iperbolica) cresce senza limiti al crescere di λα,
come dimostrato dai valori riportati in Tab. 5.5.
Teorema 5.3 (disuguaglianza di Bienaymé). Sia X una variabile aleatoria e sia b un numero
reale. Si ha:
E(|X − b|n )
P(|X − b| ≥ ε) ≤ ,
εn
per ogni n ∈ N ed ε > 0.
Tab. 5.1. Confronto tra i valori di probabilità previsti dalla disuguaglianza di Markov e quelli esatti per una
variabile aleatoria esponenziale Y di parametro λ.
La probabilità che compare nella disuguaglianza di Bienaymé è quella che la variabile aleatoria
X non appartenga all’intervallo (b − ε, b + ε). Tale probabilità a parità di ε, è tanto più piccola
quanto più è piccolo il momento assoluto E[|X − b|n ] rispetto a b, che quindi va interpretato
come un indice di dispersione della variabile aleatoria intorno a b. Notiamo, in particolare, che
se b = µ = E(X) e se n è pari, E[|X − b|n ] coincide con il momento centrale σn di ordine n,
che pertanto va interpretato, per n pari, come un indice di dispersione intorno alla media. Tale
risultato vale in particolare per n = 2, e quindi per la varianza σ2 = σ2 , ed è tanto importante da
prendere il nome di disuguaglianza di Chebishev:
Teorema 5.4 (disuguaglianza di Chebishev). Sia X una variabile aleatoria con media µ e
varianza σ2 finite. Si ha:
σ2
P(|X − µ| ≥ ε) ≤ 2 , (5.7)
ε
per ogni ε > 0.
Sulla base della disuguaglianza di Chebishev, la varianza può essere interpretata come il più
semplice indice di dispersione dei valori assunti da una variabile aleatoria intorno alla sua media.
Infatti, ponendo ε = kσ, possiamo anche riscrivere la (5.7) come
1
P(|X − µ| ≥ kσ) ≤ , (5.8)
k2
o equivalentemente come:
1
P(|X − µ| < kσ) ≥ 1 − . (5.9)
k2
In particolare, la (5.9) consente di ottenere un limite inferiore per la probabilità che la variabile
aleatoria X assuma valori nell’intervallo (µ − kσ, µ + kσ), come evidenziato in Tab. 5.5, nella quale
tali valori sono riportati per i valori di k da 1 a 5.
Ad esempio, per k = 4 la variabile aleatoria assume valori in µ ± 4σ con probabilità superiore
al 93%; pertanto, quanto più σ è piccola, tanto più tale intervallo sarà piccolo, e conterrà comun-
que una frazione superiore al 93% dei valori assunti dalla variabile aleatoria. In questo senso, σ
misura la dispersione o variabilità della variabile aleatoria intorno alla media µ, ed è questo il
motivo per cui, in ultima analisi, σ2 è denominata varianza.
Osserviamo infine che poiché la disuguaglianza di Chebishev discende da quella di Markov,
valgono per essa considerazioni analoghe a quelle già effettuate per la disuguaglianza di Markov
relativamente allo scostamento – che può essere notevole – tra i valori effettivi di probabilità
5.5 Disuguaglianze notevoli 123
Tab. 5.2. Probabilità che la variabile aleatoria X appartenga ad un intervallo centrato intorno alla media
previsti dalla disuguaglianza di Chebishev.
ed il limite previsto dalla disuguaglianza. L’utilità della disuguaglianza di Chebishev non sta
tanto nell’accuratezza con la quale è in grado di fornire i valori della probabilità che la variabile
aleatoria X appartenga ad un intervallo centrato intorno alla media, ma nella sua generalità e
semplicità, in quanto consente di ottenere stime di tale probabilità senza richiedere la conoscenza
esplicita della pdf o CDF della variabile aleatoria, ma solo della sua varianza.
124 Caratterizzazione sintetica di una variabile aleatoria
Esercizio 5.2. Calcolare la media e la varianza di una variabile aleatoria X ∼ B(n, p). [Risposta: µ = n p,
σ2 = n p q.]
Esercizio 5.3. Calcolare la media e la varianza di una variabile aleatoria X ∼ Geom(p). [Risposta: µ = 1/p,
σ2 = q/p2 .]
Esercizio 5.4. Calcolare la media e la varianza di una variabile aleatoria X ∼ Poiss(λ). [Risposta: µ = λ,
σ2 = λ.]
Esercizio 5.5. Calcolare la media e la varianza di una variabile aleatoria X ∼ U(0, 2π). [Risposta: µ = π,
σ2 = π3 ]
2
Esercizio 5.6. Calcolare la media e la varianza di una variabile aleatoria X ∼ Exp(λ). [Risposta: µ = 1/λ,
σ2 = 1/λ2 ]
Esercizio 5.7. Calcolare la media e la varianza di una variabile aleatoria X ∼ Lap(λ). [Risposta: µ = 0,
σ2 = 2/λ2 ]
Esercizio
√ 5.8. Calcolare la media e la varianza di una variabile aleatoria X ∼ Rayleigh(b). [Risposta: µ =
π b/4, σ2 = b(1 − π/4)]
Esercizio 5.9. Calcolare la media e la varianza di una variabile aleatoria X di tipo Pareto, avente cioè pdf:
α−1
f X (x) = u(x − 1)
xα
α−1 α−1
con α > 1. [Risposta: µ = α−2 , per α > 2; σ2 = (α−3)(α−2)2
, per α > 3]
Esercizio 5.10. Per ciascuna delle seguenti variabili aleatorie X, calcolare media e varianza.
a) X variabile aleatoria continua con pdf f X (x) = α x α−1 , 0 ≤ x ≤ 1, α > 0;
b) X variabile aleatoria discreta con DF p X (k) = 1/n, k ∈ {1, 2 . . . , n}, n ∈ N;
3
c) X variabile aleatoria continua con pdf f X (x) = 2 (x − 1)2 , 0 ≤ x ≤ 2.
α α n+1 n2 −1
[Risposta: a) µ = α+1 , σ2 = (α+2)(α+1)2
; b) µ = 2 , σ2 = 12 ; c) µ = 1, σ2 = 3/5]
Esercizio 5.11. Sia X una variabile aleatoria continua non negativa. Mostrare che:
∞
E(X) = [1 − FX (x)] dx
0
Suggerimento: integrare per parti l’integrale tra (0, y) e far tendere y ad infinito.
Esercizio 5.12. Dovete aprire la porta del vostro nuovo ufficio, ed il portiere vi ha dato un mazzo con n chiavi
simili tra loro. Decidete di provarle tutte, a caso. In particolare, siete indecisi tra due strategie:
1. non eliminare dal mazzo le chiavi che si dimostrano inutili;
2. eliminare dal mazzo le chiavi che si dimostrano inutili.
Detta X la variabile aleatoria che conta il numero di tentativi che dovete effettuare per aprire la porta,
determinare la DF di X ed il numero medio di tentativi utilizzando le due strategie. [Risposta: E(X) = n
(strategia 1), E(X) = n+1
2 (strategia 2).]
5.6 Esercizi proposti 125
Esercizio 5.13. Se X è una variabile aleatoria con media e valor quadratico medio unitari, calcolare media e
varianza della variabile aleatoria Y = X + 1.
Esercizio 5.14. Calcolare la media della variabile aleatoria Y = − ln(X), con X ∼ U(0, 1). [Risposta: µ = 1]
√
Esercizio 5.15. Se X ∼ N(0, 1), calcolare media e varianza di Y = |X|. [Risposta: µ = 2/π, σ2 = 1 − 2/π ]
Esercizio 5.16. Calcolare media e valore efficace della variabile aleatoria Y = cos(X), con X ∼ U(0, 2π).
[Risposta: µ = 0, yrms = √1 ]
2
Esercizio 5.18. Un proiettile viene lanciato dal suolo con velocità iniziale v0 e con angolo θ rispetto al suolo
uniformemente distribuito tra 0 e π/2. Detta X la variabile aleatoria che rappresenta la distanza tra il punto
in cui il proiettile è stato lanciato e quello di atterraggio, determinare la distanza mediamente percorsa dal
2v20
proiettile (considerare il proiettile soggetto alla sola accelerazione di gravità g). [Risposta: E(X) = πg ]
Esercizio 5.19. Si supponga che la durata X, espressa in secondi, di una telefonata da un cellulare sia una
variabile aleatoria esponenziale X ∼ Exp(λ), con media E(X) = 180. Il gestore A offre un piano tariffario a
3 lire al secondo con scatto di 200 lire alla risposta, per cui il costo della telefonata (in lire) si esprime come:
200, 0<X≤3
Y=
200 + 3 (X − 3), X > 3
Il gestore B offre un piano tariffario a 4 lire al secondo senza scatto alla risposta, per cui il costo della
telefonata (in lire) si esprime semplicemente come Y = 4 X.
Stabilire qual è il piano tariffario più conveniente con riferimento al costo medio di una telefonata.
Esercizio 5.20. Dimostrare che la media µ di una variabile aleatoria X è il valore b che rende minimo il
momento generalizzato E[(X − b)2 ].
Esercizio 5.21. Dimostrare che la mediana m di una variabile aleatoria X è il valore b che rende minimo il
momento generalizzato assoluto E(|X − b|).
Suggerimento: utilizzare la formula di Leibnitz (Appendice F) per la derivazione.
Esercizio 5.22. Data una variabile aleatoria X ∼ N(µ, σ), calcolare la probabilità che essa appartenga ad
un intervallo (µ − kσ, µ + kσ), con k ∈ {1, 2, 3, 4, 5}, e confrontare il risultato con i valori previsti dalla
disuguaglianza di Chebishev.
126 Caratterizzazione sintetica di una variabile aleatoria