Resumen para Estadística
Resumen para Estadística
Escalas de medición
Se entenderá por medición al proceso de asignar el valor a una variable de un elemento en observación.
Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón.
La escala nominal se utiliza cuando las categorías de una variable cualitativa no tienen naturalmente un
orden establecido. Los siguientes son ejemplos de variables con este tipo de escala: Nacionalidad, Uso de
anteojos, Número de camiseta en un equipo de fútbol, Número de Documento Nacional de Identidad.
La escala ordinal, en cambio, es útil cuando las categorías de una variable cualitativa tienen naturalmente
un orden o jerarquía preestablecidos, siendo un ejemplo claro las categorías ocupacionales de las
personas: jefe, subjefe, empleado, etc.; categorías de los profesores de la Universidad: Titular, Asociado,
Adjunto, y de los Auxiliares de docencia, Jefe de Trabajos Prácticos, Ayudante de Primera y Ayudante de
segunda, los días de la semana, los meses del año, etc. La escala ordinal, además de las propiedades de la
escala nominal, permite establecer un orden entre los elementos medidos. Otros ejemplos de variables
con escala ordinal son: Preferencia a productos de consumo, Etapa de desarrollo de un ser vivo,
Clasificación de películas por una comisión especializada, Madurez de una fruta al momento de comprarla.
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga sentido
calcular diferencias entre las mediciones. Los siguientes son ejemplos de variables con esta escala:
Temperatura de una persona, Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85
Ruta 5), Sobrepeso respecto de un patrón de comparación, Nivel de aceite en el motor de un automóvil
medido con una vara graduada.
La escala de razón permite, además de lo de las otras escalas, comparar mediciones mediante un
cociente. Algunos ejemplos de variables con la escala de razón son los siguientes: Altura de personas,
Cantidad de litros de agua consumida por las personas en un día, Velocidad de los autos en la ruta, Número
de goles marcados por un jugador de básquetbol en los partidos de un año. Las escalas de intervalo y de
razón se diferencian fundamentalmente por dos razones: 1) por la existencia del cero natural, que
significa “ausencia de…” (razón), y el cero convencional que no significa ausencia de … (intervalo); 2)
porque la escala de razón permite establecer proporciones entre los valores de las variables, mientras que
la escala de intervalo no lo admite.
El símbolo para una variable cualquiera será una letra mayúscula, y los valores individuales que puede
asumir se simbolizan con la misma letra, minúscula, con un subíndice.
Estratificado al azar
Una muestra sistemática es obtenida cuando los elementos son seleccionados de una manera ordenada. La
manera de la selección depende del número de elementos incluidos en la población y el tamaño de la
muestra. El número de elementos en la población es, primero, dividido por el número deseado en la
muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población
tendrá que ser seleccionado. El primer elemento de la muestra se selecciona al azar. Por lo tanto, una
muestra sistemática puede dar la misma precisión de estimación acerca de la población, que una muestra
aleatoria simple cuando los elementos en la población están ordenados al azar.
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de
extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k,
i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra: k = N/n. El número i que empleamos como punto de partida será
un número al azar entre 1 y k.
Por ejemplo, si para realizar una investigación de mercado se necesita seleccionar una muestra de 12 días
de octubre, noviembre y diciembre de 2018, de manera tal que todos los días de la semana se encuentren
representados en la muestra, la forma de seleccionar una muestra sistemática es la siguiente:
Los días seleccionados han sido sombreados en la tabla anterior. Puede observarse que todos los días de la
semana están representados en la muestra sistemática
El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población, ya que al
elegir a los miembros de la muestra con una periodicidad constante (k) puede ocurrir que se introduzca una
homogeneidad que no se da en la población. Por ejemplo, si se debe seleccionar una muestra sobre listas
de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si se emplea un muestreo
aleatorio sistemático con k = 10 siempre seleccionaremos o sólo hombres o sólo mujeres, no podría haber
una representación de los dos grupos.
Sistemático/Estratificado
Una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la
población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de
muestreo, se divide a la población en varios grupos o estratos (formados por elementos homogéneos entre
sí) con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la
selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. Las
estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o
menor error muestral) que si la población entera fuera muestreada mediante muestreo aleatorio simple.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir
el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes
entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar,
por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende
con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra.
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
simple o el sistemático para elegir los elementos concretos que formarán parte de la muestra. En ocasiones
las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la
población. (tamaño, geográfico, sexos, edades, ...).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de
diferentes tipos:
- Afijación Simple: a cada estrato le corresponde igual número de elementos muestrales.
- Afijación Proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la población
en cada estrato.
- Afijación Óptima: se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer
la desviación.
Por conglomerados
Para obtener una muestra de conglomerados, primero se divide la población en grupos que son
convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método
sistemático. Finalmente, tomar todos los elementos o parte de ellos al azar o por un método sistemático de
los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son
muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto, la muestra es
aleatoria.
Los métodos anteriores están estructurados para seleccionar directamente los elementos de la población,
es decir, que las unidades muestrales son los elementos de la población. En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la
que se llama conglomerado. Las unidades hospitalarias, los departamentos universitarios, instituciones
educativas, distritos militares, una caja de determinado producto, etc. son conglomerados naturales. En
otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos
los elementos pertenecientes a los conglomerados elegidos.
Por ejemplo, en un operativo muestral con el fin de realizar encuestas en hogares de una ciudad, un criterio
apropiado para seleccionar la muestra de hogares sería el siguiente: sobre un plano de la ciudad (marco
muestral) dividir el plano en sectores, que podrían ser estratos, y dentro de cada uno de estos, seleccionar
manzanas al azar, y en las manzanas elegidas encuestar a todos los hogares que habitan en ellas. Entonces,
las manzanas son los conglomerados.
Una muestra de conglomerados usualmente produce un mayor error muestral (por lo tanto, da menor
precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño.
Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo
la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas
las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las
áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es
muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa
el tamaño de la muestra de área.
El incremento del tamaño de la muestra puede fácilmente hacerse en la muestra de área. Los
entrevistadores no tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias.
Por lo tanto, una muestra grande de área puede ser obtenida dentro de un corto período de tiempo y a
bajo costo. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la
estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada
conglomerado es tan grande como la de la población.
Si se tuviera que seleccionar una muestra probabilística de docentes y estudiantes de escuelas primarias,
por ejemplo, las escuelas serían los conglomerados, porque todas son homogéneas entre sí.
Doble, múltiple y secuencial.
(Respuesta generada con inteligencia artificial por falta de bibliografía)
Muestreo doble
El muestreo doble es un tipo de muestreo en el que se realizan dos muestras de la misma población. La
primera muestra se utiliza para estimar las características de la población, y la segunda muestra se utiliza
para verificar las estimaciones de la primera muestra. El muestreo doble se utiliza a menudo cuando la
población es grande o cuando es difícil obtener una muestra representativa de la población.
Muestreo múltiple
El muestreo múltiple es un tipo de muestreo en el que se realizan dos o más muestras de la misma
población. Cada muestra se utiliza para estimar las características de la población, y las estimaciones de las
diferentes muestras se combinan para obtener una estimación más precisa de la población. El muestreo
múltiple se utiliza a menudo cuando es necesario obtener una estimación precisa de la población, o cuando
es difícil obtener una muestra representativa de la población. puede estar relacionado con utilizar más de
una técnica de muestreo probabilístico, ya que cada muestra puede utilizar una técnica diferente.
Muestreo secuencial
El muestreo secuencial es un tipo de muestreo en el que se toma una muestra de la población una a la vez.
La decisión de tomar otra muestra se basa en los resultados de las muestras anteriores. El muestreo
secuencial se utiliza a menudo cuando es necesario tomar muestras de una población que está cambiando
rápidamente.
Muestreos no Probabilísticos
1. Muestreo intencionado o de juicio
También recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son
representativos, lo que exige un conocimiento previo de la población que se investiga. Es utilizado
generalmente en los estudios de casos.
0. Muestreo por cuotas
También llamado muestreo accidental, se divide a la población en estratos o categorías, y se asigna una
cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. Por
ejemplo, en una encuesta realizada en boca de urna, es decir, a los ciudadanos que salen de votar, suele
establecerse de antemano la cantidad de mujeres y varones a encuestar, o bien la cantidad de jóvenes,
adultos y mayores, estas cantidades predeterminadas son las cuotas. La muestra debe ser proporcional a la
población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a
distorsiones, al quedar a criterio del investigador la selección de las categorías.
0. Muestreo bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una
muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones
"marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
0. Muestreo mixto
Se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en
forma aleatoria y después aplicar el muestreo por cuotas.
Diseño muestral más eficiente
Principio: Cada número se divide en dos partes, una que se llama "Tallo" y la otra denominada "ramas u
hojas".
Distribuciones de frecuencia: se construyen tablas de resumen en la que los datos se agrupan o arreglan
en clases o categorías ordenadas en forma numérica, establecidas de modo conveniente. También se les
dice “Datos agrupados”.
Datos agrupados sin intervalos: se utiliza cuando la variable, sea discreta o continua, presenta pocos
valores diferentes entre sí, repetidos muchas veces cada uno. La tabla se presenta así:
Donde fi se llama frecuencia absoluta e indica la cantidad de veces que se presenta o se repite cada valor
de la variable.
La tabla se presenta generalmente en forma vertical. Por ejemplo:
Significa que hay 11 estudiantes que no tienen materias aprobadas, 18 estudiantes que tienen una materia
aprobada, 29 estudiantes que tienen cinco materias aprobadas, y así sucesivamente.
Datos agrupados en intervalos: se utiliza esta forma de distribución de frecuencias, cuando la variable, sea
discreta o continua, presenta muchos valores diferentes entre sí repetidos muchas veces.
El objetivo es distribuir los datos en intervalos de clase, preferiblemente del mismo tamaño, y verificar
cuántas observaciones se presentan en cada intervalo (frecuencia absoluta).
El procedimiento para encontrar la distribución de frecuencias es el siguiente:
1- Encontrar el rango de variación de los datos. Para ello se requiere calcular los valores
mínimo y máximo de la muestra
3- Calcular el tamaño del intervalo de clase o amplitud de clase (a). Para ello se debe calcular
la relación entre el rango de los datos y el número de intervalos. Se tomará como tamaño
del intervalo a un valor ligeramente superior a esta relación, es decir:
4- Construir los intervalos. Cada intervalo de clase i, está definido mediante un límite inferior
(Lim Infi = bi-1) y por un límite superior (Lim Supi = bi). Para el primer intervalo de clase, el
límite inferior corresponde al valor más pequeño de la muestra o menor (Lim Inf1 ≤ b0 =
xmín), y el límite superior de cada intervalo siempre será igual al límite inferior más el ancho
del intervalo de clase (Lim Supi = bi-1 + a).
Para los demás intervalos diferentes al primero, el límite inferior será igual al límite superior
del intervalo inmediatamente anterior (Lim Infi = Lim Supi-1).
De acuerdo con lo anterior se calculan los límites de los intervalos de clase, los cuales estarán dados de la
siguiente manera, según se muestra en la tabla:
Ejemplo de aplicación
La inversión real anual de 60 empresas es la siguiente:
10 12 8 40 16 28 10 30 2 8 6 14 16 20 25 36 39 52 30 0
30 4 6 10 18 17 13 17 21 7 6 8 14 7 15 26 14 28 30 26
6 8 39 11 13 15 18 20 30 60 6 12 25 45 26 8 37 12 19 27
Siguiendo los pasos para construir la distribución de frecuencias:
1. Rango: r = 60 – 0 = 60 (amplitud total de la serie)
2. Nº de clases: k = 1 + 3.3 log60 = 6.87 ≅ 7
3. Amplitud de clase: a = 60/7 = 8.57 ≅ 9
Para simplificar la construcción de los intervalos se tomará a = 10
0. Formación de los intervalos y 5) registro de datos:
Intervalos Registros fi xi ← Marcas de clase: son los puntos
[ 0 – 10) ///// ///// ///// 15 5 medios de los intervalos.
[10 – 20) ///// ///// ///// ///// / 21 15 Representan a todos los valo-
[20 – 30) ///// ///// / 11 25 res de la variable comprendidos
[30 – 40) ///// //// 9 35 en el intervalo.
[40 – 50) // 2 45
[50 – 60) / 1 55 xi = (Li + Ls) / 2
[60 – 70) / 1 65
Total: 60
La representación gráfica es un diagrama con una línea curva siempre creciente llamado polígono de
frecuencias acumuladas u “ojiva”. Cuando las frecuencias son acumuladas de la forma “Mayor o igual que” (
Fi ↑ ) la línea es decreciente. Si se genera un gráfico con ambos tipos de frecuencias acumulativas, el punto
de intersección de las ojivas corresponde a la Mediana, una medida de posición.
La representación gráfica es un diagrama escalonado, en este caso el escalón más alto le corresponde a una
ordenada igual a n.
Fi ↓ genera un gráfico escalonado creciente, mientras que Fi↑ genera una escalera descendente. El punto de
intersección de ambas curvas corresponde a la Mediana, una medida de posición.
Las Fi ↓ se utilizan cuando se desea averiguar cuántas observaciones de la variable son menores o iguales
que una de ellas determinada, mientras que las Fi ↑ son más apropiadas cuando se necesita saber qué
cantidad de observaciones de la variable son mayores o iguales que alguna de ellas.
Considerando como ejemplo de los puntajes en habilidad espacial de 80 empleados de una empresa, la
distribución de frecuencias absolutas, relativas y acumulativas es la siguiente:
Interpretación:
Por ejemplo, r6 = 0,15 o bien 15%, indica que la proporción de empleados que obtuvieron un puntaje
comprendido entre 64 y 74 puntos es 0,15, o también que el 15% de los empleados obtuvieron puntajes
comprendidos entre 64 y 74 puntos.
Y F6 = 65 indica que 65 empleados tienen menos de 74 puntos en la prueba de habilidad espacial.
Si los datos están agrupados en una tabla de frecuencias sin intervalos, como en el ejemplo de la cantidad
de materias aprobadas por los estudiantes de Estadística, la tabla de frecuencias (obtenida utilizando el
software SPSS) tiene el aspecto siguiente:
Las frecuencias relativas y acumulativas están expresadas en porcentaje. Por ejemplo, ri = 20,6 indica que el
20,6% de los estudiantes tiene 3 materias aprobadas. Si el porcentaje se calcula sobre el total de casos
válidos, resulta que 20,7% es el porcentaje de estudiantes que tiene 3 materias aprobadas.
Y Fi = 92,0% significa que el 92% de los estudiantes tiene 7 o menos materias aprobadas.
La representación gráfica de las frecuencias acumuladas (ojiva) para el ejemplo de los puntajes de los
empleados, es la siguiente:
Para el ejemplo de la cantidad de materias aprobadas, correspondería representar las frecuencias
acumuladas mediante los gráficos escalonados.
- Gráficos.
Variable cualitativa o categórica
Existen diversas formas de representar gráficamente una variable cualitativa, pero generalmente se utilizan
las barras, y de entre ellas se prefieren las barras horizontales.
Por ejemplo, si se deben representar gráficamente los datos siguientes:
Categorías de la variable: A B C D
Frecuencias (%): 18 32 23 27
El gráfico adecuado es el de barras horizontales, en el cual cada barra tiene la longitud del porcentaje que
representa, como se indica a continuación:
Variable cuantitativa
Serie simple o datos no agrupados: la representación gráfica adecuada es el diagrama de tallo y hojas.
Serie de frecuencias o datos agrupados: en este caso deben distinguirse dos casos diferentes, según que
los datos hayan sido agrupados con o sin intervalos.
El gráfico de barras adyacentes constituye el histograma de frecuencias absolutas, y la línea quebrada que
une los puntos medios de los lados superiores de los rectángulos, es el polígono de frecuencias absolutas.
En el histograma la frecuencia está representada por el área de los rectángulos, no por la altura de los
mismos, por lo tanto, si los intervalos son de amplitud no constante, deberá ajustarse la altura proporcional
a las bases distintas de los rectángulos.
En la abscisa se colocan los límites de los intervalos de clase b0, b1, b2,.., bk , y en la ordenada se dibuja, bien
sea la frecuencia absoluta, o la frecuencia relativa. Para cada intervalo se levanta una barra cuya longitud es
proporcional a la frecuencia (absoluta, o relativa). La forma que toma el gráfico es la misma, bien sea que
se trabaje con frecuencia absoluta o relativa, ya que la diferencia entre las dos es simplemente un cambio
de escala. El área bajo el histograma es exactamente igual al área bajo el polígono de frecuencias.
A veces se dibuja una ordenada izquierda con la frecuencia absoluta, y una ordenada derecha con la
frecuencia relativa.
El gráfico de bastones resultante de representar las frecuencias absolutas del ejemplo de la cantidad de
materias aprobadas por los estudiantes de Estadística es el siguiente:
Un ejemplo de histograma y polígono de frecuencias con datos agrupados en intervalos.
Ejemplo. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una
graduación de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide: Distribuir los
datos en intervalos de clase y construir el histograma de frecuencias.
El histograma de frecuencias absolutas y el polígono de frecuencias correspondiente, se muestran en los
gráficos siguientes:
La media aritmética de un conjunto de n valores es el resultado de la suma de todos ellos dividido entre n.
Actúa como punto de equilibrio, de modo que las observaciones que son mayores que la media equilibran a
las que son menores.
= x1f1 + x2 f2 + x3 f3 + ….. + xk fk
f1 + f2 + f3 + .... + fk
=
Ejemplo de media aritmética con datos agrupados
En una prueba de aptitud realizada a un grupo de 42 personas se han obtenido las puntuaciones que
muestra la tabla siguiente. Calcular la puntuación media.
Intervalos xi fi xi.fi
[10, 20) 15 1 15
[30,40) 35 10 350
[50, 60 55 8 440
[60,70) 65 4 260
42 1.820
= 1820/42 = 43,33
Si los datos están agrupados en una tabla de frecuencias sin intervalos, los valores xi son directamente los
que asume la variable, los que en el ejemplo anterior se obtuvieron calculando las marcas de clase.
Propiedades de la media aritmética
1. Puede ser calculada en distribuciones con escala relativa e intervalar.
2. Todos los valores son incluidos en el cómputo de la media.
3. Una serie de datos solo tiene una media.
4. Es una medida muy útil para comparar dos o más poblaciones.
5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la
media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie
de datos.
Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo
x1, mediante el valor central , es compensado por los demás errores:
La suma de las desviaciones de los números 8, 3, 5, 12, 10, de su media aritmética 7,6 es igual a cero.
(8 – 7,6) + (3 – 7,6) + (5 – 7,6) + (12 – 7,6) + (10 – 7,6) = 0,4 – 4,6 – 2,6 + 4,4 + 2,4 = 0
n
li-1 - li
i
0 - 10 1
10 -
2
20
20 -
4
30
30 -
3
40
Solución:
x
li-1 - li ni xi ni
i
0 - 10 1 5 5 -19 -19
10 - 1
2 30 -9 -18
20 5
20 - 2
4 100 +1 +4
30 5
30 - 3
3 105 +11 +33
40 5
n=1
0
1. La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a la media
aritmética, es un mínimo. Esto significa que si se calcula esa suma tomando otro valor cualquiera
distinto de la media aritmética, el resultado siempre será mayor que cuando se toman las
desviaciones con respecto a la media.
Demostración:
2. Si a todos los valores de la variable se les suma una constante, la media aritmética queda
aumentada en dicho número.
Demostración:
Sea la variable Y = a + X, siendo a una constante (positiva o negativa).
=( ) / n = {an + ( )} / n = a +
3. Si todos los valores de la variable se multiplican por una constante, la media aritmética queda
multiplicada por dicho número.
Demostración:
Sea la variable Y = aX, siendo a una constante (puede ser a o 1/a).
=( )/n=a( )/n=a
4. Propiedad de linealidad de la media (resultante de las dos propiedades anteriores)
10. Dados r grupos con n1, n2, ..., nr observaciones y siendo, , ... , las respectivas medias de cada
uno de ellos. Entonces la media de las n = n1 + n2 + … + nr observaciones es
Demostración
Llamando xij a la j-ésima observación del grupo i; Entonces es
xi fi
[72, ∞ ) 8
100
En este caso no es posible hallar la media porque no se puede calcular la marca de clase del último
intervalo.
Ventajas de la media aritmética
● Es la medida de tendencia central más usada.
● El promedio es estable en el muestreo.
● Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en
los datos).
● Se emplea a menudo en cálculos estadísticos posteriores.
● Presenta rigor matemático.
● En la gráfica de frecuencia representa el centro de gravedad.
Desventajas
● Es sensible a los valores extremos. Si alguno de los valores es extremadamente grande o
extremadamente pequeño, la media no es el promedio apropiado para representar la serie de
datos.
● No es recomendable emplearla en distribuciones muy asimétricas.
Un ejemplo es la obtención de la media ponderada de las notas de una oposición en la que se asigna
distinta importancia (peso) a cada una de las pruebas de que consta el examen.
- Mediana: concepto, propiedades y aplicaciones para variable discreta y continua. Determinación gráfica
y analítica. Cuartiles, quintiles, deciles y percentiles
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales,
de forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o
igual a estos. Su aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media.
Me
Si el ejemplo anterior tuviera una observación más, es decir, n = 16, los datos serían:
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 5
Entonces la mediana es: Me = (1+2)/2 = 1,5
La última columna indica las frecuencias acumuladas porcentuales, por lo tanto n/2 = 50%. La frecuencia
acumulada inmediatamente superior a 50% es 51,1%, por lo tanto,
Me = 3 materias aprobadas
Este resultado se interpreta diciendo que “la mitad de los estudiantes que cursaban Estadística en 2019
tenían 3 o menos materias aprobadas y la otra mitad tenía 3 o más materias aprobadas”.
Cálculo gráfico
En el gráfico escalonado de frecuencias absolutas o relativas acumuladas de la forma “menor que”:
F i ↓ o Ri ↓
n
n/2
0 1 2 3 4 5 xi
Me
Por el valor n/2 se traza una línea paralela al eje de abscisas hasta cortar el gráfico escalonado, por esa
intersección se baja una línea perpendicular al mismo eje, y allí se encuentra la mediana.
Datos agrupados en intervalos
La extensión para el cálculo de la mediana en el caso de datos agrupados en intervalos se realiza a
continuación:
En primer lugar se ubica el intervalo que contiene la Mediana de la misma manera que en el caso anterior,
es decir, el intervalo que contiene la mediana es aquel al cual le corresponde la frecuencia acumulada de la
forma “menor que” inmediatamente superior a la mitad de las observaciones.
Luego se aplica en ese intervalo la siguiente fórmula:
Donde:
Md = Mediana.
Li = Limite inferior del intervalo donde se encuentra la mediana, la forma de calcularlo es a través de
encontrar la posición n/2. En ocasiones en el intervalo donde se encuentra la mediana se conoce como
intervalo mediano.
n = Número de observaciones o frecuencia total.
Fi ↓ o Ri ↓
n
n/2
xi
0 Med Intervalos de clase
Por n/2 se traza una línea paralela al eje de abscisas hasta cortar el polígono de frecuencias acumuladas,
por esa intersección se baja una línea perpendicular al mismo eje, y allí se encuentra la mediana.
Cómo obtener la fórmula de la mediana con datos agrupados en intervalos
En un gráfico de frecuencias acumuladas de datos agrupados en intervalos,
Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones.
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación
lineal (teorema de Thales) como sigue:
Ejemplo:
La tabla siguiente muestra la edad de las personas que recibieron atenciones médicas brindadas por el
hospital,
15 8 8
25 20 28
35 14 42
45 8 50
55 2 52
65 2 54
75 1 55
55 enfermos
atendidos
por lo que se puede concluir que el 50% de las personas atendidas en un fin de semana por el hospital
tienen una edad inferior o igual a los 29,75 años, y el otro 50% tiene una edad igual o superior a los 29,75
años.
Propiedades de la mediana
1.- Es única y simple.
2.- Los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media.
Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no
depende de los valores que toma la variable, sino del orden de los mismos. Por ello es adecuado su uso en
distribuciones asimétricas.
Si se cambia la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la
media:
En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observación
extrema. Este no ha sido el caso para la mediana.
3.- Es de cálculo rápido y de interpretación sencilla.
4.- Si una población está formada por 2 subpoblaciones de medianas Med1 y Med2, sólo se puede afirmar que
la mediana, Med, de la población está comprendida entre Med1 y Med2
5.- Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.
6.- La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o
igual que cualquier otro valor.
Otro ejemplo
Obtener la media aritmética y la mediana en la distribución siguiente. Determinar gráficamente cuál de los
dos promedios es más significativo.
li-1 - li ni
6
0 - 10
0
8
10 - 20
0
3
20 - 30
0
2
30 - 100
0
100 - 1
500 0
Solución:
li-1 - li ni ai xi xi ni Ni
0 - 10 60 10 5 300 60 60
14
10 - 20 80 10 15 1.200 80
0
17
20 - 30 30 10 25 750 30
0
19
30 - 100 20 70 65 1.300 2,9
0
100 - 40 30 20 0,2
10 3.000
500 0 0 0 5
n=20
0
La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo
mediano es [10;20). Así:
Para ver la representatividad de ambos promedios, se realiza el histograma de los datos, y se observa que
dada la forma de la distribución, la mediana es más representativa que la media.
- Moda o modo: concepto, propiedades y aplicaciones para variable discreta y continua. Cálculo gráfico y
analítico
Es el valor más frecuente.
Su cálculo es el más simple de los tres correspondientes a estadísticos de centralidad pero la moda es el
estadístico de mayor varianza.
La moda puede no existir y cuando existe no es necesariamente única. No tiene sentido en muestras
pequeñas en las que la aparición de coincidencias en los valores es con gran frecuencia más producto del
azar que de otra cosa.
Donde, fi es la frecuencia absoluta del intervalo modal; fi-1 es la frecuencia absoluta del intervalo premodal;
fi+1 es la frecuencia absoluta del intervalo posmodal; ai es la amplitud del intervalo modal y li-1 es el límite
inferior del intervalo modal.
En el ejemplo de las edades de los pacientes atendidos en la clínica durante un fin de semana, la mayor
frecuencia absoluta es 20, por lo tanto, el intervalo modal es 20 ≤ x < 30, entonces, aplicando la fórmula en
ese intervalo, se obtiene la Mo.
La Mo = 20 + {(20-8) / [(20-8) + (20-14)]}10 = 26,67 ≈ 27 años
Significa que, entre los pacientes atendidos, hay mayor cantidad que tiene 27 años.
15 8 8
25 20 28
35 14 42
45 8 50
55 2 52
65 2 54
75 1 55
55 enfermos
atendidos
0 Mo xi
Se hablará de una distribución bimodal de los datos, cuando se encuentren dos modas, es decir, dos datos
que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que se
encuentran tres modas. Si todas las variables tienen la misma frecuencia es que no hay moda.
¿Cuándo conviene usar una u otra de las medidas de tendencia central?
La media es el estadístico de centralidad más usado cuando uno espera que la población tenga una
distribución más o menos simétrica, sin estar clasificada en grupos claramente diferenciados.
En el caso de distribuciones muy asimétricas, con una cola muy larga, la mediana es, normalmente, el valor
de elección dado que la media suele estar desplazada respecto al núcleo principal de observaciones de la
variable. En estos casos, la mediana es el valor que mejor expresa el punto donde se acumulan
mayoritariamente las observaciones de la variable.
En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la media y la mediana
carecen, normalmente, de sentido y los valores que más claramente reflejan el comportamiento de las
observaciones de la variable son las modas.
La mediana, como se vio, separa en dos mitades el conjunto ordenado de observaciones. Se puede aún dividir cada
mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de esas divisiones se conoce como Cuartil y
se simboliza mediante la letra Q agregando un subíndice según a cual de los cuatro cuartiles se refiera. Se
llama primer cuartil Q1 a la mediana de la mitad que contiene los datos más pequeños. Este cuartil, corresponde al
menor valor que supera – o que deja por debajo de él - a la cuarta parte de los datos. Se llama tercer cuartil Q3 a la
mediana de la mitad formada por las observaciones más grandes. El tercer cuartil es el menor valor que supera – o
que deja por debajo de él - a las tres cuartas partes de las observaciones. Con esta terminología, la mediana es
el segundo cuartil Q2 y el cuarto cuartil Q4 coincide con el valor que toma el último dato, luego de ordenados.
Tal como se concluye de lo anterior, el cálculo será idéntico al de la mediana para el segundo cuartil. El primer cuartil
será
Solo quedan por ver los otros dos cuartiles, que serán análogos a los cálculos de la mediana, pero con las salvedades
correspondientes.
El primer cuartil está ubicado en el intervalo cuya frecuencia acumulada de la forma “menor que” es
inmediatamente superior a n/4, mientras que Q3 se encuentra en el intervalo al cual le corresponde la frecuencia
acumulada de la forma “menor que” inmediatamente superior a 3n/4. En esos intervalos se aplican las fórmulas
siguientes:
Quintiles
Los quintiles son valores que resultan de dividir la población (el N de las observaciones) en cinco partes iguales (20%
en c/u)
El quintilg se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
que corresponde al (g.20) % de la población.
Deciles
Los deciles son valores que resultan de dividir la población (el N de las observaciones) en diez partes iguales (10% en
c/u)
El decilh se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
que corresponde al (h.10) % de la población.
Percentiles
Los percentiles son valores que resultan de dividir la población (el N de las observaciones) en cien partes iguales (1%
en cada una).
El percentilj se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
j%.
Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9. Sus valores se encuentran
en un rango de:
Rango = xmáximo – xmínimo = 9 - 4 =5
El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del
camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es:
Ejemplo: Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor
Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería:
El rango intercuartílico, RI es, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir
Esto dice en cuántas unidades de los valores que toma la variable se concentra el cincuenta por ciento
central de los casos. Mide la variabilidad de la mitad central de los datos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las
desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es
siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las
desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado
(Varianza).
Propiedades
▪ Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a
0.
▪ Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor
será detectado.
▪ Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo
serán.
Yi = Xi + k
▪ Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por
el cuadrado de esa constante.
Esta varianza muestral se obtiene como la suma de diferencias al cuadrado, y por tanto tiene como
unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
Como ejemplo, se consideran 10 personas de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media
de edad de estos sujetos será de:
la varianza sería:
S2
=
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese
problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se
halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los
datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta
medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en
inglés.
Desviación típica muestral
Se interpreta diciendo que “la dispersión de los datos mayores que la media por encima de la media, y de
los valores menores que la media por debajo de la media, es de 20,68 años.
Desviación típica poblacional
Cuando los datos están agrupados, sea con o sin intervalos, cada desviación al cuadrado deberá
multiplicarse por la correspondiente frecuencia absoluta antes de realizar la suma.
La desviación estándar es una medida del grado de dispersión de los datos del valor promedio. Una
desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica
que los datos están agrupados cerca a la media.
Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus
desviaciones estándar son 7, 4 y 1, respectivamente. La tercera muestra tiene una desviación mucho menor
que las otras dos porque sus valores están más cerca de 7.
La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar
de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de
medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital
importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida
en desviaciones estándar), entonces se considera que las medidas contradicen la teoría. Esto es coherente,
ya que las mediciones caen fuera del rango de valores en el cual sería razonable esperar que ocurrieran si el
modelo teórico fuera correcto. La desviación estándar muestra la agrupación de los datos alrededor de un
valor central (la media o promedio).
Mirando el gráfico siguiente, se observa que representa tres polígonos de frecuencias diferentes pero todos
tienen la misma media, μ = 0.
Las tres distribuciones tienen distintas varianzas: σ2 = 0.5, σ2 = 1.0 y σ2 = 2.0.
La pregunta es: ¿de cuál de las tres poblaciones la media μ es más representativa? ¿Por qué?
Para responder, tener en cuenta que cuanto menor sea la dispersión o variabilidad de la variable, la
media será más representativa.
- Coeficiente de variación: concepto, cálculo y aplicaciones.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa
de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente
por 100. Su utilidad estriba en que permite comparar la dispersión o variabilidad de dos o más grupos.
Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su
desviación típica S = 10,44 y la TAS (tensión arterial sistólica) de los mismos (150, 170, 135, 180 y 195
mmHg1) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es
más dispersa, el peso o la tensión arterial? Si se comparan las desviaciones típicas se observa que la
desviación típica de la tensión arterial es mucho mayor; sin embargo, no se puede comparar dos variables
que tienen escalas de medidas diferentes, por lo que se calculan los coeficientes de variación:
A la vista de los resultados, se observa que la variable peso tiene mayor dispersión.
El coeficiente de variación es una calificación que permite a los usuarios evaluar la calidad estadística de las
estimaciones.
Se considera que una estimación con un coeficiente de variación:
● Hasta del 7%, es precisa;
● Entre el 8 y el 14% significa que existe una precisión aceptable;
● Entre el 15% y 20% precisión regular y por lo tanto se debe utilizar con precaución;
● Mayor del 20% indica que la estimación es poco precisa y por lo tanto se recomienda utilizarla sólo
con fines descriptivos (tendencias, no niveles).
1
- Análisis gráficos. Coeficiente pearsoniano de asimetría.
Esta medida permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central
(Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma
concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva
cuando la mayoría de los datos se encuentran agrupados en los menores valores de la variable, la curva
es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la
media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los
valores mayores de la variable.
● (As > 0): La curva es asimétrica positiva por lo que los valores se tienden a reunir más en la parte
izquierda que en la derecha de la media. La distribución es asimétrica positiva cuando Mo < Me < .
● (As < 0): La curva es asimétrica negativa, por lo que los valores se tienden a reunir más en la parte
derecha de la media. La distribución es asimétrica negativa cuando < Me < Mo.
Desde luego, entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la
aglomeración de los valores con respecto a la media.
- Coeficiente de Kurtosis
Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución.
Por medio del Coeficiente de Curtosis, se puede identificar si existe una gran concentración de valores (Leptocúrtica),
una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
En el gráfico siguiente, se compara la kurtosis de una variable rendimiento, con diferentes grados de concentración:
½ (Q3 – Q1)
P90 – P10
● (K ⇒ 0) la distribución es Platicúrtica.
En todos los casos la representación grafica debe ser simple y precisa. Debe contener necesariamente varias partes:
- Título: el título es una descripción del gráfico. Debe ser compacto y completo. Debe responder a las
preguntas “Que?; Donde?; Como?; Cuando?”. Por ejemplo: “Exportación de granos, en la republica
Argentina, en miles de toneladas, durante el año 1999”. Puede ir arriba o abajo del gráfico.
- Escalas: la escala es la relación que existe entre la unidad del dibujo y la unidad en la variable que desea
representarse.
- Diagramas: los diagramas son los dibujos que se utilizan para representar gráficamente los datos
estadísticos; pueden ser líneas, barras, áreas, etc.
- Fuente: la fuente es una nota que indica de donde provienen los datos tomados como base para
construir la gráfica. Se coloca en la parte inferior de la gráfica.
Gráfico de barras
El grafico de barras tiene una gran variedad de formas (simples, partes componentes, superpuestas, etc.).
Se utilizan cuando se trata de representar atributos que no tienen variación continua, por ejemplo la
producción de cereales.
Mientras que el ancho de las barras es igual para todas, la longitud de cada una indica los datos
representados. Son efectivas para enfatizar unos pocos ítems de una o dos series de datos. También
enfatizan las diferencias entre ítems y son usadas frecuentemente para representar datos clasificados
mediante cualquier base, ya sea cronológica, geográfica, cuantitativa o cualitativa.
Gráfico angular
Estos gráficos se utilizan en casos especiales para representar datos mensuales en el transcurso de un año.
Se construye una circunferencia cuyo radio es equivalente al promedio aritmético de los valores
observados, los cuales se representan gráficamente sobre los 12 radios vectores correspondientes a cada
uno de los meses del año. Luego se unen los puntos obtenidos con una línea quebrada.
Gráfico de líneas.
Se utiliza para graficar la evolución de la variable a lo largo del tiempo.
En un sistema de ejes coordenados se hace corresponder el tiempo, marcando continuamente de izquierda
a derecha los periodos, empezando por el tiempo mas antiguo; y el eje de ordenadas se hace corresponder
la variable cuya evolución se estudia.
Gráfico de sectores circulares
Son especialmente utilizados cuando se quiere representar la distribución de un atributo en sus partes
componentes.
Se divide un circulo en sus partes componentes proporcionales de acuerdo a las cifras porcentuales que se
quieren representar. El número de grados representativo de cada valor se calcula mediante la aplicación de
una regla de tres simple directa (si 100%=360° entonces 32%= 32*360/100= 115,2°)
Por ejemplo, son experimentos aleatorios: elegir una unidad de la producción de un día a fin de
inspeccionar su calidad, preguntarle a un elector si tiene preferencia por uno u otro candidato en una
elección, registrar el número de clientes que llegan a la caja de un banco a una hora determinada, observar
los gastos mensuales en comunicaciones de una empresa.
Ejemplos:
En la tirada de una moneda, S = {C,X}, N(S) = 2 Simbolizando con C cara y con X cruz.
C (C’,C,C)
C
C’ (C’,C,C’)
C’
C (C’,C’,C)
C’
C’ (C’,C’,C’)
Para empezar, vamos a prestar atención a experiencias aleatorias sencillas como lanzar dados o monedas,
extraer cartas de una baraja, sacar bolas de urnas, ...
Ejercicio 1-1:
Describe el espacio muestral asociado a cada uno de los siguientes experimentos aleatorios:
a. Lanzar tres monedas.
b. Lanzar tres dados y anotar la suma de los puntos obtenidos.
c. Extracción de dos bolas de una urna que contiene cuatro bolas blancas y tres negras.
d. El tiempo, con relación a la lluvia, que hará durante tres días consecutivos.
Solución:
a. Llamando C a obtener cara y X a la obtención de cruz, obtenemos el siguiente espacio muestral:
S = {(CCC),(CCX),(CXC),(XCC),(CXX),(XCX),(XXC),(XXX)}
b. S = {3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18}
c. Llamando B a sacar bola blanca y N a sacar bola negra, tenemos:
S = {BB,BN,NN}
d. Si llamamos L al día lluvioso y N al día sin lluvia, para tres días consecutivos se obtiene el siguiente
espacio muestral:
S = {(LLL),(LLN),(LNL),(NLL),(LNN),(NLN),(NNL),(NNN)}
2. Sucesos. Operaciones con sucesos.
2.1. Sucesos.
En el Ejercicio 1.1 podemos ver que el espacio muestral asociado al lanzamiento de tres dados y anotar la
suma de los puntos obtenidos es:
S = {3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18}
Ejercicio 2.1-1:
Se considera el sexo de los hijos de las familias de tres hijos. Sea A el suceso el hijo mayor es una mujer, y B
el suceso los dos hijos pequeños son varones. ¿Cuáles son los elementos de A y B?
Solución:
Llamando V a ser varón y H a ser mujer, el espacio muestral está formado por los sucesos elementales:
S = {(VVV),(VVH),(VHV),(HVV),(VHH),(HVH),(HHV),(HHH)}
Y los sucesos A y B son compuestos y están formados por los siguientes sucesos elementales:
A = {(HHH),(HHV),(HVH),(HVV)}
B = {(VVV),(HVV)}
2.2. Operaciones con sucesos.
Dados dos sucesos, A y B, se llaman:
También se llaman mutuamente excluyentes (la presencia de uno excluye la presencia del otro).
1. Conmutativa
2. Asociativa
3. Idempotente
4. Simplificación
5. Distributiva
6. Elemento
neutro
7. Absorción
A las familias de conjuntos que verifican las propiedades anteriores se les denomina álgebras de Boole.
En el álgebra de Boole anterior se verifican las siguientes propiedades, conocidas como leyes de De
Morgan:
● El suceso contrario de la unión de dos sucesos es la intersección de sus sucesos contrarios:
Ejercicio 2.1-2:
Tenemos una urna con nueve bolas numeradas del 1 al 9. Realizamos el experimento, que consiste en sacar
una bola de la urna, anotar el número y devolverla a la urna. Consideramos los siguientes sucesos: A="salir
un número primo" y B="salir un número cuadrado". Responde a las cuestiones siguientes:
= {1,2,3,4,5,7,9}
=Ø
Se dice que varios sucesos son colectivamente exhaustivos, cuando entre todos constituyen el espacio
muestral.
Gráficamente:
A B C D=S
Por ejemplo, la probabilidad de que salga cara al lanzar una moneda es de 1/2, ya que hay dos casos
posibles (cara o cruz) y solo uno de ellos es favorable (cara).
Teorías:
Existen tres escuelas de pensamiento que permiten definir e interpretar la probabilidad de un suceso. Ellas
son:
- Clásica.
Definición de Laplace. Teoría Clásica.
En el caso de que todos los sucesos elementales del espacio muestral E sean equiprobables, Laplace define
la probabilidad del suceso A como el cociente entre el número de resultados favorables a que ocurra el
suceso A en el experimento y el número de resultados posibles del experimento.
De la frecuencia relativa
Un experimento aleatorio se caracteriza porque repetido muchas
veces y en idénticas condiciones el cociente entre el número de Probabilidad de un suceso es el número al
veces que aparece un resultado (suceso) y el número total de que tiende la frecuencia relativa asociada al
veces que se realiza el experimento tiende a un número fijo. Esta suceso a medida que el número de veces
propiedad es conocida como ley de los grandes números, que se realiza el experimento crece.
establecida por Jakob Bernouilli. Tiene el inconveniente de variar
la sucesión de las frecuencias relativas de unas series de realizaciones a otras, si bien el valor al que se
aproximan a medida que el número de realizaciones aumenta se mantiene estable.
La frecuencia relativa del suceso A:
6. fr(E) = 1 fr(Ø) = 0.
Esta definición presenta el inconveniente de tener que realizar el experimento un gran número de veces y
además siempre obtendremos un valor aproximado de la probabilidad.
Personalista o subjetiva.
Contrariamente a las anteriores, que son objetivas, esta teoría es subjetiva. La teoría clásica es objetiva
porque se basa en la deducción de un conjunto de supuestos, y la teoría de la frecuencia relativa lo es
porque la probabilidad de un suceso es determinada por repetidas observaciones empíricas.
Esta teoría personalista considera la probabilidad como una medida de la confianza personal en la
ocurrencia de un suceso. Un subjetivista asigna un peso entre cero y uno a un suceso, según su grado de
creencia en su posible ocurrencia.
Por ejemplo, si se tiene el doble de confianza en la ocurrencia de un suceso A que en la del suceso B, y si A
y B son los dos únicos hechos posibles, se asignarán los valores:
P(A) = 2/3 y P(B) = 1/3
Se utiliza cuando las otras teorías no pueden aplicarse, ya sea porque el suceso de interés es inédito, está
enmarcado en una circunstancia que ocurre por primera vez, por lo tanto, no pueden determinarse las
probabilidades a priori; pero tampoco puede repetirse empíricamente la experiencia de manera que no
puede aplicarse la teoría de la frecuencia relativa. Un ejemplo característico del uso de esta teoría
subjetiva, es cuando se realizan elecciones para ocupar algún cargo. Generalmente es un suceso sin
antecedentes, y tampoco puede replicarse una gran cantidad de veces.
El inconveniente que los objetivistas encuentran en esta forma de asignar probabilidades a los sucesos, es
que diferentes individuos razonables pueden diferir en su grado de confianza, por lo tanto, las
probabilidades personalistas para un mismo suceso, pueden diferir a los ojos de las personas que toman
decisiones.
Pero también hay que destacar que los subjetivistas pueden obtener probabilidades en todos los casos en
que los objetivistas lo hacen, y en muchos más en que ellos no pueden calcular.
Algunos autores mencionan una cuarta forma de definir la probabilidad de un suceso, mediante axiomas.
● Definición axiomática.
La definición axiomática de probabilidad se debe a Kolmogorov, quien consideró la relación entre la
frecuencia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el
experimento es muy grande.
Ejemplo:
Llamamos sistema completo de sucesos a una familia de sucesos A1, A2, ...,An que cumplen:
1. Son incompatibles dos a dos, Ai Aj = Ø
Ejercicio 7-1:
Una compañía dedicada al transporte público explota tres líneas de una ciudad, de forma que el 60% de los
autobuses cubre el servicio de la primer línea, el 30% cubre la segunda y el 10% cubre el servicio de la
tercera línea. Se sabe que la probabilidad de que, diariamente, un autobús se averíe es del 2%, 4% y 1%,
respectivamente, para cada línea. Determina la probabilidad de que, en un día, un autobús sufra una
avería.
Solución:
El suceso "sufrir una avería" (Av) puede producirse en las tres líneas, (L1, L2, L3). Según el teorema de la
probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, tenemos:
Se dice que dos sucesos A y B son independientes entre sí, si la ocurrencia de uno de ellos no modifica
la probabilidad del otro, es decir, si
P( B/A ) = P( B ) ó P( A/B ) = P( A )
Se dice que dos sucesos A y B son dependientes entre sí, si la ocurrencia de uno de ellos modifica la
probabilidad del otro, es decir, si
P( B/A ) P( B ) ó P( A/B ) P( A )
b. Si M A, ¿cuál es el valor de P( / )?
Solución:
a. Para ver si son independientes, comprobaremos si P( A B ) = P( A ) · P( B )
b. M A . Por tanto,
Ejemplos de aplicación
Ejemplo 1. El supervisor de un grupo de 20 obreros pide la opinión de dos de ellos (seleccionados al azar)
sobre las nuevas disposiciones de seguridad en la construcción. Si 12 están a favor de las nuevas
disposiciones y los 8 restantes en contra, ¿cuál es la probabilidad de que ambos trabajadores elegidos por
el supervisor estén en contra de las nuevas disposiciones?
Llamando C al suceso de obreros en contra de las disposiciones,
P(C1 y C2) = P(C1 ∩ C2) = P(C1). P(C2 / C1) = (8 / 20) . (7 / 19) = 0,1474 ≈ 15%
Probabilidad Condicional.
En los teoremas de probabilidad, la probabilidad condicional es la probabilidad de que ocurra un suceso,
dado que otro suceso ya ha ocurrido.
En el cálculo de las probabilidades de algunos sucesos, el valor de dicha probabilidad variará en función del
conocimiento de determinadas informaciones relativas a estos sucesos. Por ejemplo, si se dispone de una
urna que contiene cuatro bolas numeradas del 1 al 4, se extrae una bola y seguidamente se vuelve a
introducir para realizar una segunda extracción, la probabilidad de extraer, por ejemplo, la bola número 3
en la segunda extracción es la misma que en la primera.
Si se realiza el mismo proceso sin reemplazar la bola extraída la probabilidad de extraer, por ejemplo, la
bola número 3 en la segunda extracción dependerá de la bola extraída en primer lugar.
El hecho de disponer de información adicional tiene como consecuencia la reducción del espacio muestral
a un subconjunto del mismo. Por ejemplo, observando la figura siguiente:
Se ve que, si se selecciona al azar un elemento del espacio muestral S, y se comprueba que pertenece al
suceso A, entonces la probabilidad de que también pertenezca a B es una Probabilidad condicional. Se
simboliza P(B/A) y se lee probabilidad condicional de B dado A.
Para determinar la probabilidad de B, conociendo que el elemento seleccionado pertenece a A, no es
necesario utilizar el espacio muestral S, sino una porción del mismo, el espacio muestral reducido, A.
Entonces, P(B/A) = n(A∩B) dividiendo por N(S)
N(A)
Ejemplo:
Consideremos el experimento de "lanzar un dado al aire". Calculemos, por ejemplo, la
probabilidad de obtener un 3 sabiendo que ha salido un número impar:
Definimos los sucesos A="sacar 3" y B= {1,3,5}; entonces, P(A/B)=1/3 puesto que si sabemos que
ha salido un número impar, los casos posibles ahora son 3 y los casos favorables al suceso A sólo
1.
Síntesis
5.3. Aplicaciones de la probabilidad a tablas de contingencia
- Tabla de probabilidades conjuntas y marginales.
Una tabla de probabilidades conjuntas es una tabla que muestra la probabilidad de que ocurran dos o más
sucesos simultáneamente.
En una tabla de probabilidades conjuntas, cada fila representa un suceso y cada columna representa un
valor posible para el segundo suceso. La celda en la intersección de una fila y una columna representa la
probabilidad de que ocurran el suceso de la fila y el valor posible del suceso de la columna.
Una tabla de probabilidades marginales es una tabla que muestra la probabilidad de que ocurra un suceso
solo.
En una tabla de probabilidades marginales, cada fila representa un suceso y cada columna representa la
probabilidad de que ocurra el suceso.
A 14 22 38 74
B 10 11 49 70
C 6 11 48 65
Estrategia Resultado
B 100%
C 100%
TOTAL 100%
Habría que completarla, pero creo que con calcular una fila es suficiente. En la segunda fila se debe dividir
por 70 y en la tercera por 65. Todas las filas deben sumar 100%.
Indica cómo está constituida cada fila.
Y se interpreta así:
De la aplicación de la estrategia A, 18,9% dio resultado Bajo, 29,7% dio resultado Medio y 51,4% dio
resultado Alto.
Y así para cada fila.
La tabla de perfiles columna se construye así:
Estrategia Resultado
A (14/30)100=46,7%
B (10/30)100=33,3%
C (6/30)100=20%
Para la segunda columna hay que dividir cada frecuencia de casilla por 44, y en la tercera por 135. La suma
de todas las columnas debe ser 100%.
Indica cómo está constituida cada columna.
La interpretación es: de los resultados Bajo que se obtuvieron, 46,7% corresponden a la aplicación de la
estrategia A, 33,3% a la B y 20% a la C.
Para calcular probabilidades en intervalos de valores de la variable, habría que integrar la función de
densidad entre los extremos del intervalo. Por desgracia (o por suerte), la función de densidad normal no
tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a tablas de la función de
distribución de la variable (calculadas por integración numérica). Estas tablas tendrían que ser de triple
entrada (μ, σ, valor) y el asunto tendría una complejidad enorme.
Distribuciones de probabilidad
Las distribuciones de probabilidad son idealizaciones de los polígonos de frecuencias. En el caso de una
variable estadística continua consideramos el histograma de frecuencias relativas, y se comprueba que al
aumentar el número de datos y el número de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la gráfica de una función.
Las distribuciones de probabilidad de variable continua se definen mediante una función y=f(x) llamada
función de densidad.
Así como en el histograma la frecuencia viene dada por el área, en la función de densidad la probabilidad
viene dada por el área bajo la curva, por lo que:
● El área encerrada bajo la totalidad de la curva es 1.
● Para obtener la probabilidad p(a≤X≤b) obtenemos la proporción de área que hay bajo la curva
desde a hasta b.
● La probabilidad de sucesos puntuales es 0, p(X=a)=0
Las distribuciones de probabilidad continua más utilizadas son: Uniforme, Normal, Gamma, Exponencial,
Chi-cuadrado (χ2), t de Student, F de Snedecor.
Normal.
DISTRIBUCIÓN NORMAL
La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor importancia en el
campo de la estadística.
Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus valores son el
resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto
infinitesimal.
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su
extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a
parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de
campana.
Chi cuadrado.
la distribución chi-cuadrado es una distribución de probabilidad continua que se utiliza para probar la
bondad de ajuste de una distribución teórica a una distribución observada.
t de Student.
la distribución t de Student es una distribución de probabilidad continua que se utiliza para realizar pruebas
estadísticas cuando la desviación estándar de la población es desconocida.
La distribución t de Student se puede interpretar como la distribución de la suma de las desviaciones estándar de n
variables aleatorias normales estándar divididas por la raíz cuadrada de n.
En el estudio de la asociación entre variables hay dos aspectos distintos, pero relacionados,
● Análisis de regresión
● Análisis de correlación
El análisis de regresión establece la naturaleza de la relación entre las variables, la relación funcional
que proporciona un mecanismo de predicción. En cambio, el análisis de correlación determina el grado de
la relación entre las variables.
Diagrama de dispersión.
Para orientarnos con respecto a todos los aspectos de la Asociación entre variables mencionados, existe
una herramienta muy eficaz y sencilla que a simple vista nos ayuda a interpretarlos; se trata del Diagrama
de Dispersión de los datos observados. Consiste en una representación gráfica de los pares ordenados [xi ,
yi] en un sistema de coordenadas cartesianas, donde en el eje de abcisas se colocan los valores de X y en el
eje de ordenadas los valores de la variable Y.
Ahora bien, ¿cuáles son los conceptos fundamentales y las interrelaciones en esta temática? Los
podremos representar gráficamente en el esquema conceptual que se indica a continuación:
2.3. Ejemplo de aplicación
En una compañía de seguros se desea determinar la relación entre la experiencia en ventas de los
vendedores y el volumen de las mismas. Se selecciona una muestra aleatoria de diez vendedores y se
encuentra que sus años de experiencia (X) y el volumen de ventas anuales normales (Y), en miles de pesos,
son los siguientes:
X: 1 2 3 4 5 6 7 8 9 10
Y: 2 1 3 3 4 5 6 5 7 6
¿Podríamos averiguar gráficamente si existe relación lineal entre la cantidad de años de experiencia de
los vendedores y el volumen de ventas anual?
Por supuesto que sí, lo haremos dibujando el diagrama de dispersión de los datos.
El diagrama de dispersión de los datos refleja alta relación positiva entre el número de años de
experiencia en ventas de los vendedores y el volumen de ventas anuales, porque ambas variables varían en
el mismo sentido, es decir, aumenta una y también aumenta la otra.
6.1.1. Análisis de correlación lineal
En el modelo de regresión se supone que la variable independiente (o las variables independientes) se
conocen sin error, porque toma los valores que el investigador selecciona. Si bien esto es aplicable a
múltiples situaciones experimentales, existen también problemas en los cuales tanto las x como las y son
valores asumidos por variables aleatorias. Por ejemplo, la relación entre las precipitaciones pluviales y la
producción de una cosecha.
En este tipo de situaciones, el análisis de correlación es aplicable para determinar el grado de relación
que existe entre las variables de interés.
La medida del grado de relación entre dos variables se llama coeficiente de correlación, representado
por ρ (ro).
Suposiciones básicas.
1.- X e Y son variables aleatorias, por lo tanto no es necesario establecer si una es independiente y la
otra dependiente, porque cualquier designación proporcionará el mismo resultado.
2.- La población bivariable es normal. Es decir, X e Y están normalmente distribuidas, con sus
respectivas esperanza y varianza.
E(X) = μX y V(X) = σX2 y
E(Y) = μY y V(Y) = σY2
3.- La relación entre X e Y es lineal. Esto implica que todas las medias de Y asociadas con valores X, μYX ,
caen sobre una línea recta que es la recta de regresión de X sobre Y.
Según los supuestos anteriores, el coeficiente de correlación de la población se define como la
covarianza entre X e Y, dividida por el producto de las desviaciones estándares de las variables.
=
El coeficiente de correlación lineal, también conocido como coeficiente de correlación de Pearson, es una
medida de la relación lineal entre dos variables cuantitativas.
El coeficiente de correlación “ρ” tiene las siguientes propiedades:
1.- La ecuación contiene los cinco parámetros de una población bivariable normal: μX , σX , μY ,σY y ρ.
2.- ρ es simétrico con respecto a Y y X, es decir, si se intercambian X e Y no cambia el coeficiente de
correlación.
3.- Cuando Cov (Y,X) = 0 ρ = 0 (no hay relación).
Cuando hay covariabilidad perfecta y las variables varían en el mismo sentido, ρ = 1.
Cuando hay covariabilidad perfecta, pero X e Y varían en sentido contrario, ρ = -1.
Cuando existe cierto grado de covariabilidad entre X e Y, es
-1 < ρ < 0 ó 0<ρ<1
Gráficamente, el diagrama de dispersión puede ser:
Y
Ejemplo de aplicación
Los datos siguientes corresponden a la cantidad de minutos, X, que tardan 10 mecánicos en
ensamblar cierta pieza de una maquinaria en la mañana, y la variable Y representa el tiempo que ocupan
en la tarde:
X 11,1 10,3 12,0 15,1 13,7 18,5 17,3 14,2 14,8 15,3
Y 10,9 14,2 13,8 21,5 13,2 21,1 16,4 19,3 17,4 19,0
Para responder al punto a) debemos realizar el diagrama de dispersión de los datos observados. Como ya
se han hecho varios diagramas de dispersión, al estudiar el tema les sugiero que lo hagan como un ejercicio
más.
Vamos a suponer que el diagrama de dispersión indica que existe correlación lineal positiva. Entonces
resolvemos los otros puntos.
b) Tabla de resultados
n = 10 xi yi = 2.434,69
xi = 142.3 yi = 166.8
0.025 0.025
-2,306 0 2,306 t
R No rechazo R
5.- Cálculos:
6.- Decisión: como 3.021 > 2,306 ⇒ SE RECHAZA H0
7.- Conclusión: el rechazo de la hipótesis nula indica que la correlación lineal entre X e Y es
estadísticamente significativa.
6.1.2. Análisis de regresión
Modelo de regresión bivariable lineal.
Una variable Y, dependiente, se relaciona con una variable X, independiente, por la siguiente
expresión:
yi = α + βxi + εi
donde α y β son los parámetros de regresión desconocidos llamados coeficientes de regresión de
población, y εi es el error o residual.
Decir Y dependiente y X independiente, significa que Y es función de X, matemáticamente, no implica
dependencia estadística, ni causa y efecto.
La expresión del modelo de regresión consta de dos partes:
yi = ( α + βxi ) + εi
sistemática estocástica
La parte estocástica hace que el modelo sea probabilista y no determinista. La naturaleza estocástica
del modelo de regresión implica que el valor de Y nunca puede predecirse con exactitud como en un caso
determinista. εi, que es una variable aleatoria, imparte aleatoriedad a Y. Por ejemplo, plantas de la misma
edad (xi) seguramente no tendrán la misma altura (yi), debido a la influencia de factores casuales. εi puede
representar errores de medición en Y o puede surgir por la exclusión de otras variables explicativas
importantes y relevantes en el modelo, o por ambas causas. La inclusión de otras variables conduciría a un
modelo de regresión múltiple.
Ahora bien, ¿siempre se puede utilizar este modelo de regresión bivariable lineal para analizar la
naturaleza de la asociación entre dos variables?
La respuesta para esta pregunta la encontraremos en un conjunto de supuestos básicos que hacen
válidas y confiables las conclusiones.
Supuestos básicos.
1.- La variable independiente X toma valores fijados por el investigador, y para cada valor de X, xi,
existe una subpoblación de valores de Y con distribución normal. Por ejemplo, si X es edad, el investigador
puede seleccionar individuos que tengan las edades que son de su interés, y para cada edad fijada habrá
varios valores de Y (altura o peso). En el gráfico siguiente puede verse con claridad el significado de este
supuesto básico:
2.- El error εi es una variable aleatoria cuya distribución de probabilidades se supone que es normal con
E(εi) = 0; esto significa que para cualquier valor de xi , se supone que las diferencias entre los valores de yi y
μy/x algunas veces son positivas y otras negativas. Estas diferencias se compensan y se produce que E(εi) =
0.
Entonces la esperanza condicional de yi dado xi, es:
E(yi / xi) = μYX = E(α + βxi + εi) = α + βΕ(xi) + 0 = α + βxi
El resultado obtenido se llama ecuación de regresión de población de Y sobre X, que da el valor
medio de Y dado un valor fijo de X. α es el valor medio de Y cuando X = 0; β mide el cambio en el valor
medio de Y correspondiente a una unidad de cambio en X.
En el gráfico α + βxi se llama línea de regresión poblacional, donde α es la ordenada al origen del
sistema de coordenadas, y β es la pendiente de la línea de regresión.
3.- La varianza condicional de Y dada X se llama varianza de la regresión y se simboliza σ2YX. Se supone que
es constante para todo X, y es igual a la varianza de εi, σ2ε.
V(yi) = E[yi - E(yi )]2 = E[α + βxi + εi - E(α + βxi + εi)]2 =
= E(α + βxi + εi − α − βxi )2 = E(εi2) = σ2ε = σ2
Esta propiedad se llama homocedasticidad, cuyo significado se comprende mejor por la noción de
heterocedasticidad, que se presenta cuando, por ejemplo, las variaciones en la altura de los árboles
podrían disminuir al aumentar las edades de los mismos; o donde las variaciones en el gasto para consumo
son mayores al aumentar el nivel de ingresos de las familias. Esto significa que si se quiere estudiar la
distribución del consumo (y) en función del ingreso (x), es probable que para valores pequeños de x, la
distribución del consumo sea más homogénea, puesto que en estos niveles de ingreso, se consume
prácticamente todo lo que se gana. En cambio, para valores altos de ingresos la dispersión del consumo
será más grande, ya que las decisiones con respecto al ingreso serán más dispares. Algunas familias gastan
más, otras ahorran, otras invierten, etc.
4.- εi es independiente de xi , y εi es independiente de εj .
Esto significa que el signo y el tamaño de un error no condiciona el signo o la magnitud de otro. Este
supuesto es violado generalmente cuando las observaciones se toman a través del tiempo.
Por ejemplo, si se está estudiando la demanda mensual de electrodomésticos, es muy probable que la
demanda de un mes determinado esté condicionada a la demanda del mes anterior. Si un mes se compran
muchos electrodomésticos, es probable que al mes siguiente esta demanda disminuya porque se puede
producir una cierta saturación del mercado.
En la práctica no siempre se cumplen estos supuestos básicos, que permiten calcular estimadores para
los parámetros de regresión desconocidos, y realizar inferencias con respecto a los mismos.
Que no se verifique el primer supuesto no es tan grave, se pueden obtener resultados muy útiles aún
cuando X sea una variable aleatoria. Si εi no es independiente de sí misma los términos de error están
autocorrelacionados. Si la varianza no es constante se dice que los términos de error son heterocedásticos.
Si E(εi) ≠ 0 para algunos valores de X, indica que la regresión no es lineal, sino de alguna otra forma. Si εi no
se distribuye normalmente los estimadores derivados del supuesto de normalidad no tienen las
propiedades que tendrían si εi tiene distribución normal, y puede ser muy difícil descubrir qué propiedades
tienen los estimadores. Existen métodos econométricos para estimar los parámetros de regresión cuando
no se cumplen los supuestos.
Para concluir esta sección, veremos el gráfico siguiente, en el cual se expresa que para cada valor de X,
la distribución de probabilidad de Y es normal, con varianza constante σ2 y promedio μy/x , que varía
linealmente cuando cambia X.
= a + bxi
las diferencias entre los valores realmente observados, yi , y los valores estimados, . Esto significa que
las estimaciones a y b proporcionan la ecuación de la recta de regresión de Y sobre X, que “pasa más cerca
de todos los puntos” del diagrama de dispersión.
Para demostrar que la expresión anterior es un mínimo, se debe aplicar derivación parcial con
respecto a a y a b; y mediante el criterio de la derivada segunda (derivada primera igual a cero y derivada
segunda positiva), se obtiene el siguiente sistema de “ecuaciones normales”:
yi = na + b xi
yixi = a xi + b xi2 , i = 1, 2, ... , n
a= y b= yixi / ( xi)2
Ejemplo de aplicación
Ahora retomaremos el ejemplo de la compañía de seguros (página 9), y con esos datos numéricos,
calcularemos la ecuación de regresión lineal simple de la cantidad de años de experiencia en ventas que
tienen los vendedores, sobre el volumen de ventas de la compañía.
Una forma sencilla de obtener los datos necesarios para aplicar las fórmulas de estimación de los
parámetros de regresión, a y b, es elaborar, utilizando las características de la calculadora científica, la tabla
de resultados que se indica a continuación:
Tabla de resultados
n = 10 Σi xi yi = 280
Σi xi = 55 Σi yi = 42
Σi xi2 = 385 Σi yi2 = 210
(Σi xi)2 = 3.025 (Σi yi)2 = 1.764
= 5.5 = 4.2
Sx = 3,0276 Sy = 1,9322
Aunque tal vez no se necesiten todos estos resultados para resolver el problema que nos interesa,
siempre es conveniente tener los datos a mano.
Si observas las fórmulas de a y b, verás que en el cálculo de a interviene b, por lo tanto, se debe
calcular en primer lugar b.
Este valor de b significa que por cada año de experiencia en ventas que se aumenta, el volumen de
ventas se incrementa en promedio $593.90.
Ahora calcularemos el valor de a:
= 0.93 + 0.5939 xi
Ahora bien, con esta ecuación, asignándole distintos valores a xi , obtendremos los correspondientes
valores medios de yi estimados. Por ejemplo, si un vendedor tiene 6 años y medio de experiencia en ventas,
se espera que en promedio se registre un volumen de ventas de $4.790,35.
yi = 0.93 + (0.5939)(6.5) = 4,79035 (miles de pesos).
En realidad, esta estimación debe hacerse luego de comprobar que la regresión de Y sobre X es
estadísticamente significativa, y de que la ecuación de regresión muestral hallada es buena como ecuación
predictiva.
Una forma intuitiva de comprobar si la recta se ajusta bien a los datos, es representarla gráficamente
en el diagrama de dispersión. Para ello basta con ubicar en el gráfico dos puntos, obtenidos mediante el
reemplazo de xi en la ecuación, y unirlos con una recta. Uno de los puntos que podemos utilizar es el de
coordenadas (0, 0.93), y otro que es el que hemos estimado para x = 6.5, de coordenadas (6.5, 4.79).
Veamos el gráfico.
7 = 0.93 + 0.5939 xi
6
5
4
3
2
1
0 1 2 3 4 5 6 7 8 9 10 X
Aparentemente, la recta de regresión ajusta bastante bien a los datos.
Y = a + bxi
0 X
La medida numérica de tales desviaciones es el estimador insesgado de la varianza de la regresión de
población, que se define como:
y
En el análisis de regresión lineal no tiene mucha importancia práctica realizar inferencias con respecto
al parámetro α, ordenada al origen de coordenadas; pero sí es fundamental probar hipótesis de nulidad
para β, porque se refiere a la existencia o no de regresión lineal de Y sobre X.
En la prueba de hipótesis para el parámetro β se utiliza la distribución de probabilidad “t de Student”.
Es una distribución de probabilidad con un único parámetro, δ, número de grados de libertad.
f(z) y f(t)
Zyt
Similitudes entre la distribución t de Student y la n(0, 1)
Ambas distribuciones tienen recorrido infinito: - ∞ < Z < ∞ y - ∞ < t < ∞.
Ambas distribuciones son simétricas con respecto a la media.
Ambas distribuciones tienen media igual a 0.
Diferencia entre Z y t: t tiene mayor dispersión que Z, es decir, V(t) > 1.
t de Student ⇒ Z a medida que n → ∞.
Prueba de hipótesis para β
1.- Hipótesis: H0: β = 0 (no existe regresión lineal estadísticamente significativa de Y sobre X)
H1: β ≠ 0 (existe regresión lineal estadísticamente significativa de Y sobre X).
2.- Nivel de significación: P(e1) = α
3.- Estadística de prueba: zc = b/Sb que tiene distribución aproximadamente normal bajo el supuesto de
que H0 es verdadera.
Cuando n < 30 y σ es desconocido, a y b están distribuidas aproximadamente como t de Student con
δ= n − 2. Entonces la estadística de prueba adecuada es:
t = b/ Sb ~ t(n-2) bajo el supuesto de que H0 es verdadera.
4.- Criterio de decisión: rechazar la hipótesis nula si, solo si: t < -t (α/2), (n-2) ó t > t(α/2), (n-2)
P
α/2 α/2
t
-t (α/2), (n-2) 0 t(α/2), (n-2)
R No rechazo R
5.- Cálculos: se realizan todos los cálculos necesarios para obtener el valor numérico de la estadística de
prueba.
6.- Decisión: si t se ubica en la zona crítica, se rechaza H0, en caso contrario se dice que no existen
evidencias suficientes para rechazarla.
7.- Conclusión: el rechazo de la hipótesis nula indica que existe regresión lineal estadísticamente
significativa de Y sobre X; en cambio el no rechazo de la hipótesis nula indica que no existe.
En general, la ecuación de regresión de la muestra debe ser considerada como un instrumento de
predicción, sólo si b es significativa; en caso contrario debe ser desechada.
Ahora, después de este procedimiento de prueba, podemos comprobar si las estimaciones que
hagamos son realmente confiables o no.
Intervalo de confianza para β
Si se comprueba que el coeficiente de regresión β es significativamente distinto de cero, es
conveniente estimarlo mediante un intervalo de confianza.
Se calcula de la forma usual, utilizando la fórmula general de los I. de C., por lo tanto es:
P [ b − t (α/2), (n-2) Sb < β < b + t (α/2), (n-2) Sb ] = 1 − α
Las estimaciones de intervalos para μYX construidos con varios valores de X, en un nivel de confianza,
forman la banda de confianza para μYX; que se hace más ancha a medida que los valores de X se alejan de
su media, por lo tanto las estimaciones serán menos precisas. Por este motivo es que no resulta
conveniente realizar predicciones para valores de X fuera del rango de la variable en la muestra.
Ejemplo de aplicación
Continuaremos trabajando con el ejemplo de la compañía de seguros, conde las variables en estudio
son: X cantidad de años de experiencias en ventas de los vendedores, Y el volumen de ventas (en miles de
pesos), y veremos cuán buena es la ecuación de regresión muestral hallada como ecuación predictiva.
Prueba de hipótesis para β
1.- Hipótesis : H0: β = 0 (no existe regresión lineal estadísticamente significativa de Y sobre X)
H1: β ≠ 0 (existe regresión lineal estadísticamente significativa de Y sobre X).
2.- Nivel de significación: P(e1) = α = 0.05
3.- Estadística de prueba: t = b/ Sb ~ t(n-2)
4.- Criterio de decisión: rechazar la hipótesis nula si, solo si :
t < -t (α/2), (n-2) ó t > t(α/2), (n-2)
t < -t (0.025), (8) ó t > t(0.025), (8)
t < - 2,306 ó t > 2,306
La región crítica se encuentra en ambas colas bajo la curva de t.
P
0.025 0.025
t
-2,306 0 2,306
R No rechazo R
5.- Cálculos: comenzaremos por calcular S2.
S2 = (Σ yi2 − a Σ yi − b Σ yixi)/(n-2) = [210 – (0.93)(42) – (0.5939)(280)]/8
= 0,581
Sb2 = S2 / Σ(xi − x )2 = 0,581 / 82,5 = 0,007042 ⇒ Sb = 0,0839
t = b / Sb = 0.5939 / 0.0839 = 7,0787
6.- Decisión: como 7,0787 > 2,306 ⇒ SE RECHAZA H0
7.- Conclusión: el rechazo de la hipótesis nula indica que existe regresión lineal significativa de Y sobre X;
por lo tanto podemos decir que el volumen de ventas de la compañía de seguros, depende
estadísticamente, en promedio, de la cantidad de años de experiencia en ventas de sus vendedores.
Entonces, la ecuación de regresión de la muestra puede ser considerada como un buen instrumento
de predicción, y la estimación realizada para el volumen de ventas dado un valor particular de la
cantidad de años de experiencia en ventas, es confiable.