1.
PRINCIPALES ESTADISTICOS DE MUESTRA
MEDIDAS DE TENDENCIA CENTRAL
1. MEDIA ARITMETICA
2. MEDIA GEOMETRICA
3. MEDIA ARMONICA
MEDIDAS DE DISPERCION
4. VARIANZA
5. DESVIACION ESTANDAR
2. COEFICIENTE DE CORRELACION SIMPLE
Antes de introducirnos en el modelo de regresión lineal, que hace referencia a la
naturaleza de la relación entre distintas variables, pasaremos a exponer el estadístico
utilizado para medir la magnitud de la relación (supuestamente lineal) entre dichas
variables. Tiene sentido darle un tratamiento aparte por su importancia y las continuas
referencias que ofreceremos a lo largo de este texto. Usualmente para dos variables.
El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente”. La correlación, también conocida como coeficiente de correlación lineal
(de Pearson), es una medida de regresión que pretende cuantificar el grado de variación
conjunta entre dos variables.
Valores que puede tomar la correlación
ρ = -1 Correlación perfecta negativa
ρ=0 No existe correlación
ρ = +1 Correlación perfecta positiva
Decimos que la correlación entre dos variables X e Y es perfecta positiva cuando
exactamente en la medida que aumenta una de ellas aumenta la otra
Se dice que la relación es perfecta negativa cuando exactamente en la medida que
aumenta una variable disminuye la otra
En los fenómenos humanos, fuertemente cargados de componentes aleatorios, no suelen
ser posible establecer relaciones funcionales exactas.
El coeficiente de correlación
Significación del coeficiente de correlación
Una vez calculado el valor del coeficiente de correlación interesa determinar si tal valor
obtenido muestra que las variables X e Y están relacionadas en realidad o tan solo
presentan dicha relación como consecuencia del azar.
Cuanto más cerca de 1 mayor ser la correlación, y menor cuanto más cerca de cero.
No puede darse una respuesta precisa. Depende en gran parte de la naturaleza de la
investigación. Por ejemplo, una correlación de 0.6 sería baja si se trata de la fiabilidad de
un cierto test, pero, sin embargo, sería alta si estamos hablando de su validez.
3. MODELOS DE PROBABILIDAD
MODELO NORMAL:
Se usa para representar una variable aleatoria continua, caracterizada por una distribución
simétrica de sus ocurrencias alrededor de un valor central.
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss".
Abraham de Moivre (1667-754) Carl Friedrich Gauss (1777-1855)
La distribución de una variable normal está completamente determinada por dos parámetros,
su media y su desviación estándar, denotadas generalmente por μ y σ.
ECUACION DE LA DENSIDAD DE LA NORMAL
Donde:
• P(x)= Valor de la función densidad asociada a
• la variable.
• x= valor de la variable en estudio.
• m= valor medio de la variable.
• σ = Desviación típica de la variable
CAMPANA DE GAUSS
Campana de Gauss , es una representación
gráfica de la distribución normal de un grupo
de datos.
Éstos se reparten en valores bajos, medios y
altos, creando un gráfico de forma
acampanada y simétrica con respecto a un
determinado parámetro. Se conoce como
curva o campana de Gauss o distribución
Normal.
PRINCIPALES AREAS BAJO LA CURVA DE GAUSS A RECORDAR
PROPIEDADES DE LA DISTRIBUCIÓN NORMAL:
Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y
+∞ Es simétrica con respecto a su media.
La distancia entre la línea trazada en la media y el punto de inflexión de la curva es
igual a una desviación típica.
La distancia comprendido entre los valores situados a dos desviaciones estándar de la
media es igual a 0.95
(μ - 1.96σ ; μ +1.96σ)
La forma de la campana de Gauss depende de los parámetros (μ, σ)
TIPIFICACIÓN O ESTANDARIZACION
COEFICIENTE DE ASIMETRIA FISHER COMO:
EL COEFICIENTE DE APLASTAMIENTOO CURTOSIS DE FISHER
4. DISTRIBUCION NORMAL
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss". La distribución de una variable normal está
completamente determinada por dos parámetros, su media y su desviación estándar,
denotadas generalmente por μ y σ.
Así, se dice que una característica X sigue una distribución normal de media μ y varianza
σ2 y se denota como X≈ N (μ, σ) si su función de densidad viene dada por la Ecuación 1.
Al igual que ocurría con un histograma, en el que el área de cada rectángulo es
proporcional al número de datos en el rango de valores correspondiente si, tal y como se
muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y
b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable
de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su
mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente
hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable
observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
I. Tiene una única moda, que coincide con su media y su mediana.
II. II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor
entre -∞ y +∞ es teóricamente posible. El área total bajo la curva es, por tanto,
igual a 1.
III. Es simétrica con respecto a su media μ Según esto, para este tipo de variables
existe una probabilidad de un 50% de observar un dato mayor que la media, y
un 50% de observar un dato menor.
IV. La distancia entre la línea trazada en la media y el punto de inflexión de la
curva es igual a una desviación típica (σ) Cuanto mayor sea σ , más aplanada
será la curva de la densidad.
V. El área bajo la curva comprendido entre los valores situados aproximadamente
a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un
95% de posibilidades de observar un valor comprendido en el intervalo (μ –
1.96 σ, μ +1.96 σ)
VI. La forma de la campana de Gauss depende de los parámetros μ y σ. La media
indica la posición de la campana, de modo que para diferentes valores de μ la
gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación
estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea
el valor de σ , más se dispersarán los datos en torno a la media y la curva será
más plana. Un valor pequeño de este parámetro indica, por tanto, una gran
probabilidad de obtener datos cercanos al valor medio de la distribución.
Como se deduce de este último apartado, no existe una única distribución normal,
sino una familia de distribuciones con una forma común, diferenciadas por los valores
de su media y su varianza.
De entre todas ellas, la más utilizada es la distribución normal estándar, que
corresponde a una distribución de media 0 y varianza 1.
Así, la expresión que define su densidad se puede obtener de la Ecuación 1,
resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribución N
(μ, σ) se puede obtener otra característica Z con una distribución normal estándar, sin más
que efectuar la transformación:
DISTRIBUCION LOGARITMICA NORMAL
La distribución logarítmico normal es continua. Se suele utilizar a menudo en situaciones
en las que los valores se sesgan positivamente, por ejemplo, para determinar precios de
acciones, precios de propiedades inmobiliarias, escalas salariales y tamaños de depósitos
de aceite.
Parámetros
Ubicación: Media, Desviación estándar
De forma predeterminada, la distribución logarítmico normal utiliza la media aritmética
y la desviación estándar. En el caso de aplicaciones en las que hay datos históricos
disponibles, resulta más adecuado utilizar la desviación estándar logarítmica y la media
logarítmica o la media geométrica y la desviación estándar geométrica. Estas opciones
están disponibles en el menú Parámetros de la barra de menús. Tenga en cuenta que el
parámetro de ubicación está siempre en el espacio aritmético.
Características de la distribución
La distribución lognormal se obtiene cuando los logaritmos de una Variable se describen
mediante una distribución normal. Es el caso en el que las variaciones en la fiabilidad de
una misma clase de componentes técnicos se representan considerando la tasa de fallos
λaleatoria en lugar de una variable constante.
Es la distribución natural a utilizar cuando las desviaciones a partir del valor del modelo
están formadas por factores, proporciones o porcentajes más que por valores absolutos
como es el caso de la distribución normal.
La distribución lognormal tiene dos parámetros: M (media aritmética del logaritmo de
los datos o tasa de fallos) y σ(desviación estándar del logaritmo de los datos o tasa de
fallos).
Propiedades
La distribución lognormal se caracteriza por las siguientes propiedades:
● Asigna a valores de la variable < 0 la probabilidad 0 y de este modo se ajusta a las tasas
y probabilidades de fallo que de esta forma sólo pueden ser positivas.
● Como depende de dos parámetros, según veremos, se ajusta bien a un gran número de
distribuciones empíricas.
● Es idónea para parámetros que son a su vez producto de numerosas cantidades
aleatorias (múltiples efectos que influyen sobre la fiabilidad de un componente).
● La esperanza matemática o media en la distribución lognormal es mayor que su
mediana. De este modo da más importancia a los valores grandes de las tasas de fallo que
una distribución normal con los mismos percentiles del 5% y 50% tendiendo, por tanto,
a ser pesimista. Esta propiedad se puede apreciar en la figura 2.
FIGURA 2
La distribución log-normal tiende a la función densidad de probabilidad
Para X > 0 , donde μ y σ. son la media y la desviación estándar del logaritmo de variable.
El valor esperado es:
y la varianza es :
5. VARIABLES ALEATORIAS
Una variable aleatoria es un número que representa un resultado de una circunstancia o
un experimento aleatorio. Una variable aleatoria puede ser discreta o continua. Una
variable aleatoria discreta solo puede tener valores contables distintos, tales como 0, 1,
2, 3, …. Los ejemplos incluyen el número de estudiantes en un aula, el número de
aviones en un aeropuerto o el número de defectos en un lote. Una variable aleatoria
continua puede tener cualquier valor, por ejemplo, una medición. Los ejemplos incluyen
la estatura de los sujetos de un estudio, el peso de cajas de cereal o la longitud de
destornilladores.
MODELO BINOMIAL
En estadística, la distribución binomial es una distribución de probabilidad discreta que
cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes
entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un
experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados
son posibles. A uno de estos se denomina «éxito» y tiene una probabilidad de
ocurrencia p y al otro, «fracaso», con una probabilidad2 q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma independiente, y se trata de
calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se
convierte, de hecho, en una distribución de Bernoulli.
Propiedades de la distribución binomial
Para que una variable aleatoria se considere que sigue una distribución binomial, tiene
que cumplir las siguientes propiedades:
En cada ensayo, experimento o prueba solo son posibles dos resultados (éxito o
fracaso).
La probabilidad del éxito ha de ser constante. Esta se representa mediante la letra p. La
probabilidad de que salga cara al lanzar una moneda es 0,5 y esta es constante dado que
la moneda no cambia en cada experimento y las probabilidades de sacar cara es
constate.
La probabilidad de fracaso ha de ser también constate. Esta se representa mediante la
letra q = 1-p.
El resultado obtenido en cada experimento es independiente del anterior. Por lo tanto, lo
que ocurra en cada experimento no afecta a los siguientes.
Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2 al mismo
tiempo. No se puede ser hombre y mujer al mismo tiempo o que al lanzar una moneda
salga cara y sello al mismo tiempo.
Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los 2 ha de
ocurrir. Si no se es hombre, se es mujer y si se lanza una moneda, si no sale cara ha de
salir sello.
La variable aleatoria que sigue una distribución binomial se suele representar como
X~(n,p). n representa el número de ensayos o experimentos y p la probabilidad de éxito.
Se aplica usualmente a fenómenos caracterizados por una variable aleatoria que
observada de experimentos independientes e idénticos responde necesariamente a dos
posibles eventos, ocurrencia o no ocurrencia
FORMULA
Donde:
P(x)=probabilidad de ocurrencia combinada de N° X de eventos de n
consecutivas
n= numero total de observaciones
x= número de eventos a ocurrir (número de éxitos)
p= probabilidad de ocurrencia de un evento cualquiera
Donde:
p= probabilidad de ocurrencia de un bloque atractivo por distrito
m= valor medio de N° de bloques atractivos por distrito
n= N° total de bloques observados por distrito
Ejemplo
Supongamos 100 distritos mineros, cada uno de ellos subdivididos en una malla de 5x5
bloques, cada uno de los bloques generados se somete a una caracterización de su
potencial minero, usando para ello dos categorías. Bloques potencialmente atractivos y
sin interés.
La siguiente tabla muestra el resultado obtenido en estas observaciones:
La probabilidad de que un bloque sea atractivo
La probabilidad de que ningún bloque sea atractivo
La probabilidad de que dos o más bloques sean atractivos, será
DISTRIBUCION DE POISON
la distribución de Poisson es una distribución de probabilidad discreta que expresa, a
partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un
determinado número de eventos durante cierto período de tiempo. Concretamente, se
especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy
pequeñas, o sucesos "raros"
Se utiliza la distribución de Poisson para describir el número de veces que un evento
ocurre en un espacio finito de observación. Por ejemplo, una distribución de Poisson
puede describir el número de defectos en el sistema mecánico de un avión o el número
de llamadas a un centro de llamadas en una hora. La distribución de Poisson se utiliza
con frecuencia en el control de calidad, los estudios de fiabilidad/supervivencia y los
seguros.
Una variable sigue una distribución de Poisson si se cumplen las siguientes condiciones:
Los datos son conteos de eventos (enteros no negativos, sin límite superior).
Todos los eventos son independientes.
La tasa promedio no cambia durante el período de interés.
Donde
P(x)= probabilidad de ocurrencia combinada de un N° x de eventos de n consecutivas
observaciones
X= numero de eventos a ocurrir en un intervalo de tiempo
= número de veces que ocurre un suceso en un intervalo de tiempo
Ejemplo
Supongamos 100 distritos mineros, cada uno de ellos subdivididos en una malla de 5x5
bloques, cada uno de los bloques generados se somete a una caracterización de su
potencial minero, usando para ello dos categorías. Bloques potencialmente atractivos y
sin interés.
La siguiente tabla muestra el resultado obtenido en estas observaciones:
Donde
M= valor medio de N° de bloques atractivos por distritos
La probabilidad de que un bloque sea atractivo
La probabilidad de que ningún bloque sea atractivo
La probabilidad de que dos o más bloques sean atractivos, será
LECTURAS DE GRAFICOS
Es necesario la síntesis de datos
medidas centrales de localización
Media: es el valor promedio de la muestra
Mediana: es el valor que se encuentra en la mitad
Moda: el valor mas observado
Mínimo: es el menor valor de la muestra
Máximo: mayor valor de la muestra
Medidas de dispersión
Amplitud: diferencia entre máximo y mínimo
Desviación estándar: diferencia media de los datos respecto de la media
medidas de forma
Sesgo: asimetría
Curtosis: apuntamiento
SESGO
También conocida como asimetría es la medida que indica la simetría de la distribución
de una variable respecto a la media aritmética, sin necesidad de hacer la representación
grafica
El sesgo examina la diferencia entre la medición promedio observada y un valor de
referencia. El sesgo indica cuál es la exactitud del sistema de medición cuando se
compara con un valor de referencia
Tipos de sesgos
Si la simetría y la mediana son iguales, la distribución es simétrica
Si la media es mayor que la mediana la distribución esta segada a la derecha
Si la media es menor que la mediana, la distribución esta sesgada a la izquierda
La media se influye mucho por el peso de los valores extremos y la mediana no. Por
ello conviene usar la media en las distribuciones simétricas y la mediana en las
asimétricas
KURTOSIS
La kurtosis es una medida de forma que mide cuan achatada esta una forma o
distribución. Esto indica la cantidad de datos que hay cercanos a la media, de manera
que a mayor grado de kurtosis, más apuntada será la forma de la curva
Tipos de curtosis
Las curvas se pueden clasificar en tres grupos según el signo de la kurtosis, es decir,
según la forma de la distribución
Leptocúrtica: la kurtosis >0: los datos están muy concentrados en la media, siendo
una curva muy apuntada
Mesocúrtica: la kurtosis = 0. Distribución normal
Platicurtica: l kurtosis <0: muy poca concentración de datos en la media, presentando
una forma muy achatada
6. TEST DE BONDAD DE AJUSTE
1-TEST DE CHI – CUADRADO:
Es una prueba de hipotesis que consiste en comparar la distibucion observada con una
distribución teorica esperada.
• Se plantean 2 hipotesis:
• H0: la nuestra tiene una distribución x
• H1:la muestra no tiene una distribución x
-Formula para hallar las posibles hipotesis:
2-TEST DE KOLMOGOROV - SMIRNOV
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es
una prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de
probabilidad entre sí.
En el caso de que queramos verificar la normalidad de una distribución, la prueba de
Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en
general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más
potentes.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los
valores cercanos a la mediana que a los extremos de la distribución. La prueba de
Anderson-Darling proporciona igual sensibilidad con valores extremos.
Sean los valores mostrados a continuacion las leyes de Zn (%) de 33 muestras Tomados
de un yacimiento .Comprobar si dichos valores siguen una leynormal
6.4 7.1 5.4 5.9
5.4 4.9 7.5 5.8
4.7 5.7 5.8 5.8
8.2 6.1 2.8 4.6
6.8 6.2 5.9 4.9
6.2 7.4 9.1 6.2
6.3 7.5 7.3
3.9 6.1 3.3
6.2 5.6 5.1