1
Distribución normal
Sin duda la distribución continua de probabilidad
más importante, por la frecuencia con que se
encuentra y por sus aplicaciones teóricas, es la
distribución normal, gaussiana o de Laplace-
Gauss. Fue descubierta y publicada por primera
vez en 1733 por De Moivre.
A la misma llegaron, de forma independiente,
Laplace (1812) y Gauss (1809), en relación con la
teoría de los errores de observación astronómica y
física .
La distribución normal o curva de Gauss es una de las
distribuciones de probabilidad que mejor aproxima una amplia
variedad de fenómenos y características en diferentes áreas del
conocimiento. Algunos de los caracteres o variables que se
ajustan bien a la distribución normal son:
•Mediciones físicas y biológicas:
– Altura, peso, talla, diámetro, longitud, etc. de seres vivos
(humanos, animales, plantas).
– Parámetros fisiológicos como presión sanguínea,
temperatura corporal, niveles de glucosa, etc.
•Características de poblaciones:
– Puntajes de exámenes, pruebas y test estandarizados.
– Niveles de inteligencia, habilidades cognitivas,
rendimiento académico.
– Características demográficas como edad, ingresos,
cantidad de hijos, etc.
•Procesos en la naturaleza:
– Errores de medición en experimentos científicos.
3
– Variaciones en el crecimiento de plantas y animales.
– Fenómenos meteorológicos como temperatura, precipitación,
velocidad del viento, etc.
•Procesos industriales y económicos:
– Tiempos de espera, tiempos de producción, cantidad de
defectos en procesos industriales.
– Rendimientos de cultivos, producción de alimentos, precios de
mercado.
– Fluctuaciones en los retornos de inversiones financieras.
La distribución normal es ampliamente utilizada en estadística
inferencial, ya que permite aplicar una variedad de técnicas
paramétricas, como el análisis de varianza (ANOVA), pruebas de
hipótesis, intervalos de confianza, entre otras.
Además, muchos métodos y teorías estadísticas se basan en el
supuesto de normalidad, lo que hace que esta distribución sea
fundamental en diversas áreas de la investigación y la toma de
decisiones.
Otras distribuciones como la binomial o la de Poisson se
aproximan
a la normal. Distribuciones binomiales con n grande (n>30) y ‘p ni
pequeño’ (np > 5) ‘ni grande’ (n(1-p) > 5).
5
Distribución normal o
gaussiana
Está caracterizada por dos parámetros: la media, μ y la
desviación típica, σ.
Su función de densidad es:
( x μ) 2
1
2σ 2
N (μ, σ) P( x) e (σ 0)
σ 2π
La curva normal adopta un número infinito de
formas, determinadas por sus parámetros μ y σ.
• Tiene forma de campana, es asintótica al eje de las
abscisas (para x = )
• Simétrica con respecto a la media () donde coinciden la
mediana (Mn) y la moda (Mo )
• Los puntos de inflexión tienen como abscisas los valores
Puntos
de
inflexión
+
- , Mo, Mn +
( x μ) 2
1 2σ 2
N (μ, σ) P( x) e (σ 0)
σ 2π
5 5
10
20 30 40 50 60 70 80 90 100 110 120
Curvas normales con distintas medias y desviaciones estándar.
N(μ, σ):
Interpretación
geométrica
Podemos interpretar
la media como un
factor de traslación.
Y la desviación
típica como un
factor de escala,
grado de dispersión,
…
N(μ, σ): Interpretación probabilista
Entre la media y
una desviación
típica tenemos
siempre la misma
probabilidad:
aproximadamente
el 68%.
Entre la media
y dos
desviaciones
típicas aprox.
95%
•Si tomamos intervalos centrados en μ, y cuyos extremos están…
–a distancia σ, tenemos probabilidad 68%
–a distancia 2 σ, tenemos probabilidad 95%
–a distancia 2’5 σ tenemos probabilidad 99%
( x μ) 2
1
2σ 2
N (μ, σ) P( x) e
10
σ 2π
Podemos obtener la función de
distribución F(x) integrando la
función de densidad de probabilidad:
x ( v μ) 2 De modo que la probabilidad de una
1
F ( x)
σ 2π e
2σ 2
dv variable aleatoria normal X en un
intervalo a x b es:
b ( v μ) 2
1
P (a X b) F (b) F (a )
σ 2π a
e 2σ 2
dv
( v μ) 2
1
En particular:
σ 2π e
2σ 2
dv 1
Apliquemos el cambio de variable tipificada a la función de
distribución F(x):
x ( v μ) 2
1
F ( x)
σ 2π e
2σ 2
dv
z2
- μ 1
z p( z ) e 2
; z
σ 2π
z u2
dv σ dz 1
F ( z ) p( Z z )
2π e
2
du
Las probabilidades de la variable tipificada (z) están
tabuladas para los diferentes valores de la variable.
Para calcular probabilidades, una vez transformada,
la variable a valores de z, se busca en una tabla el
área correspondiente.
12
¿Cómo calcular probabilidades asociadas
a una curva normal específica?
Dado que tanto como pueden asumir infinitos valores lo
que hace impracticable tabular las probabilidades para todas las
posibles distribuciones normales, se utiliza la distribución
normal reducida o tipificada.
Se define una variable z =
x -
Es una traslación , y un cambio de escala de
la variable original.
La nueva variable z se distribuye como una NORMAL con
13 media = 0 y desviación típica = 1
68 %
2 95 %
3 99,7 %
95%
68%
99%
68%
95%
99% z
-3 -2 -1 0 1 2
3
Distribución normal con =0 para varios valores
14 1.6
1.2
p(x 0.8
)
0.4
0
-2.50 -1.50 -0.50 0.50 1.50 2.50
x
Tipificación
Dada una variable de media μ y desviación típica σ, se denomina
valor tipificado z, de una observación x, a la distancia (con signo)
con respecto a la media, medido en desviaciones típicas, es decir:
x
z
• En el caso de variable X normal, la interpretación es clara:
asigna a todo valor de N(μ, σ), un valor de N(0,1) que deja
exáctamente la misma probabilidad por debajo.
• Nos permite así comparar entre dos valores de dos
distribuciones normales diferentes, para saber cuál de los dos
es más extremo.
En el contexto de la distribución normal o curva de Gauss,
parametrizar significa definir y utilizar los parámetros que
caracterizan esta distribución. Los principales motivos por los cuales
se parametriza la distribución normal son:
Describir por completo la distribución:
– La distribución normal se define completamente a partir de
dos parámetros: la media (μ) y la desviación estándar (σ).
– Estos parámetros determinan la ubicación y la dispersión de la
distribución, respectivamente.
Facilitar la interpretación y el análisis:
– Contar con parámetros permite una interpretación más sencilla
y clara de las características de la distribución.
– La media y la desviación estándar son medidas descriptivas
fácilmente comprensibles.
Permitir inferencias y generalizaciones:
•Al conocer los parámetros, se pueden realizar inferencias y
generalizaciones sobre la población a partir de una muestra.
•Esto es fundamental en el uso de métodos estadísticos paramétricos, como
las pruebas de hipótesis y los intervalos de confianza.
Posibilitar el cálculo de probabilidades:
•Los parámetros de la distribución normal permiten calcular las
probabilidades de que una variable aleatoria tome determinados valores o
se encuentre dentro de ciertos rangos.
•Esto se logra a través de la función de distribución acumulativa (CDF) o
la función de densidad de probabilidad (PDF).
Facilitar la estandarización y transformaciones:
•Conocer los parámetros permite estandarizar los datos y transformarlos a
una distribución normal estándar (con media 0 y desviación estándar 1).
•Esto simplifica los cálculos y las comparaciones entre diferentes
conjuntos de datos.
Se quiere dar una beca a uno de dos estudiantes de sistemas
educativos diferentes y se asignará al que tenga mejor expediente
académico:
El estudiante A tiene una calificación de 8 en un sistema donde
la calificación de los alumnos se comporta como N(6,1).
El estudiante B tiene una calificación de 80 en un sistema
donde la calificación de los alumnos se comporta como
N(70,10).
–No podemos comparar directamente 8
puntos de A frente a los 80 de B, pero como
ambas poblaciones se comportan de modo
normal, podemos tipificar y observar las
puntuaciones sobre una distribución de
referencia N(0,1).
–Como zA > zB, podemos decir que el xA A 8 6
porcentaje de compañeros del mismo zA 2
sistema de estudios que ha superado en A 1
calificación al estudiante A es mayor que el
que ha superado B. En principio A es mejor xB B 80 70
zB 1
candidato para la beca. B 10
19 Tabla A. (z negativo)
20
21 Tabla A. (z positivo)
22
23
EJEMPLOS:
1.-¿Cuál es la probabilidad de que un
valor de z esté entre 0 y -2.03?
2.-¿Cuál es la probabilidad de que
un valor de z esté entre -2.03 y
+2.03?
3. Hallar P( z >1.25 ) 4. Hallar P ( -0.34 < z
< )
5. Hallar P ( 0.34 < z <
2.30 )
Ejemplo 1
¿Cuál es la probabilidad de que un valor de z esté entre 0 y -
2.03?
Cómo la curva es simétrica
P (-2.03 < z < 0) = P (0 < z <
2.03)
?
z
-3 -2 -1 0 1 2 3
Ejemplo 1
25
¿Cuál es la probabilidad de que un valor de z esté entre 0 y -2.03?
Se busca en la tabla el área correspondiente a z = 2.03
0 1 2 3 4
1.8
1.9
2.0 0.47882
2.1
47. 88%
z
-3 -2 -1 0 1 2 3
26
Ejemplo 2
¿Cuál es la probabilidad de que un valor de z esté entre -2.03 y 2.03 ?
En el ejemplo 1, vimos que la probabilidad de que z estuviera entre 0
y 2.03= 0.47882
La misma área hay entre 0 y
-2.03 , por lo tanto
P ( -2.03< z< 2.03) = 0.95764
?
95.76%
47.88% 47.88%
z
-3 -2 -1 0 1 2 3
Ejemplo 3
27
¿Cuál es la probabilidad de que un valor de z sea mayor a 1.25 ?
1.- La probabilidad de 0 < z < + = 0.500
2.- La probabilidad de 0 < z < 1.25 = 0.39435
3.- La probabilidad de z > 1.25 =
0.500 - 0.39435= 0.10565
50%
39.44%
10.56%
? z
-3 -2 -1 0 1 2 3
28
Ejemplo 4
Hallar P( -0.34 < z < )
P(0 < z <0.34) = 0.13307 = 63.31%
P(-0.34 < z < 0)
P (0 < z < ) = 0.50000
P( -0.34 < z < ) =
0.13307 + 0.50000 = 0.63307
13.31% 50%
-3 -2 -1 0 1 2
3
Ejemplo 5
29
Hallar P( 0.34 < z < 2.30) P(0< z <0.34) = 0.13307
P( 0 < z < 2.30) = 0.4893
P (0.34 < z < 2.30) = 0.48930 - 0.13307 = 0.35623
35.62%
z
-3 -2 -1 0 1 2 3
30
EJEMPLO
Sea una variable distribuida normalmente con media
= 4 y desviación típica = 1.5.
¿Cuál es la probabilidad de encontrar un valor x 6
(P(x 6 ))?
Hallar P ( x > 6 )
=4 = 1.5
0.5
x μ 0.40824
z
σ
0.09176
? x
-0.5 1 2.5 4 5.5 6 7 8.5
-3 -2 -1 0 1 1.33 2 3 z