0% encontró este documento útil (0 votos)
31 vistas95 páginas

Resumen para Estadística

Cargado por

Dafne Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
31 vistas95 páginas

Resumen para Estadística

Cargado por

Dafne Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Resumen para Estadística

Unidad Didáctica N.º 1: INTRODUCCIÓN A LA ESTADÍSTICA

Naturaleza y objeto de la Estadística


Significado de la Estadística. Su rol en las Ciencias de la Comunicación
La Estadística es una ciencia que estudia la aplicación del método científico en el análisis de datos,
numéricos o no, con el fin de contribuir a tomar decisiones racionales. La Estadística es una ciencia con
base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar
condiciones regulares en fenómenos de tipo aleatorio. Es aplicable en una amplia variedad de disciplinas,
desde la física hasta las ciencias sociales, las ciencias de la salud hasta el control de calidad, y es usada para
la toma de decisiones en áreas de negocios e instituciones gubernamentales.

Poblaciones y muestras. Parámetros y estadísticos


En Estadística la población, también llamada universo o colectivo es el conjunto de elementos de referencia
sobre el que se realizan las observaciones. Puede estar constituida por personas, animales, plantas,
artículos o cosas. Es un conjunto generalmente inaccesible, que reúne unas características determinadas.
Por ejemplo la población de habitantes en S.S. de Jujuy, los estudiantes de la facultad de Cs. Económicas,
los libros de una biblioteca, etc.
Muestra: es el grupo de elementos en el que se recogen los datos y se realizan las observaciones, siendo
realmente un subconjunto representativo de la población, es accesible y limitado. El número de muestras
que se puede obtener de una población es una o más.
En Estadística se llama parámetro a un valor representativo de una población. El parámetro es el cálculo de
valores en la población. Es una medida descriptiva de alguna característica de una población. También se
puede decir que es el resultado que generaliza las características de la población; se puede dar en
porcentaje o en promedio. Por ejemplo, el ingreso familiar mensual promedio de los hogares de San
Salvador de Jujuy en un momento determinado, la proporción de estudiantes de la Facultad que tienen
quince o más materias aprobadas, la proporción de libros de la biblioteca de la Facultad que fueron
adquiridos en los últimos cinco años. Generalmente se simbolizan con letras griegas: μ, σ, π, α, β, etc.
En cambio, un estadístico o una estadística, es una medida descriptiva que resume una característica de
una muestra extraída de la población. Por ejemplo, el ingreso familiar mensual promedio de 500 hogares
de San Salvador de Jujuy (representativos de todos los hogares de la ciudad) en un momento determinado,
la proporción de una muestra de 100 estudiantes de la Facultad que tienen quince o más materias
aprobadas, en una muestra de 55 libros de la biblioteca de la Facultad que fueron adquiridos en los últimos
cinco años, la proporción de libros que corresponde al Área Contable. La palabra estadísticas también se
refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas
económicas, estadísticas criminales, estadísticas demográficas, etc.

Variables: concepto y clasificación


Una variable es una característica que varía de un elemento a otro de la población o de la muestra.
Lo que se estudia en cada individuo o elemento de la muestra son las variables (edad, sexo, peso, talla,
tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Se asignan
valores a las variables incluidas en el estudio. Se debe además concretar la escala de medida que se
aplicará a cada variable.
Según su naturaleza las variables se clasifican en cualitativas y cuantitativas.
Son variables cualitativas aquellas que no son susceptibles de medición numérica. Representan cualidades
y atributos que se expresan en categorías, por eso, estas variables también se llaman categóricas. Por
ejemplo, son variables cualitativas el color de las flores, cuyas categorías pueden ser rojo, rosado, blanco; el
tamaño de las empresas, cuyas categorías pueden ser pequeñas, medianas y grandes; los días de la
semana, las estaciones del año, el color del cabello y de los ojos de las personas, etc. En esta clase de
variables se encuentran las dicotómicas, que son aquellas variables cualitativas que solo admiten dos
categorías, por ejemplo, Sí y No, correcto e incorrecto, frío y calor, femenino y masculino.
Son variables cuantitativas aquellas susceptibles de medición numérica. Sus valores provienen de medir o
de contar los elementos de la población o de la muestra. Según que se generen contando o midiendo, estas
variables se clasifican en discretas y continuas.
Son variables cuantitativas discretas aquellas cuyos valores provienen de contar, por ejemplo, cantidad de
hijos por familia, cantidad de alumnos por aula, número de errores de facturación por mes, número de
ausentes por día en una empresa. Sus valores asumen números enteros.
Son variables cuantitativas continuas las que provienen de efectuar mediciones. Se caracterizan porque
entre dos valores cualesquiera de la variable, existen infinitos otros valores. Por ejemplo, la altura y el peso
de las personas, los valores monetarios en cualquier tipo de moneda, la edad de las personas, el tiempo de
espera para ser atendidos, los precios de los artículos, y tantos otros ejemplos. Sus valores pueden asumir
números con cifras decimales.

Escalas de medición
Se entenderá por medición al proceso de asignar el valor a una variable de un elemento en observación.
Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón.

La escala nominal se utiliza cuando las categorías de una variable cualitativa no tienen naturalmente un
orden establecido. Los siguientes son ejemplos de variables con este tipo de escala: Nacionalidad, Uso de
anteojos, Número de camiseta en un equipo de fútbol, Número de Documento Nacional de Identidad.
La escala ordinal, en cambio, es útil cuando las categorías de una variable cualitativa tienen naturalmente
un orden o jerarquía preestablecidos, siendo un ejemplo claro las categorías ocupacionales de las
personas: jefe, subjefe, empleado, etc.; categorías de los profesores de la Universidad: Titular, Asociado,
Adjunto, y de los Auxiliares de docencia, Jefe de Trabajos Prácticos, Ayudante de Primera y Ayudante de
segunda, los días de la semana, los meses del año, etc. La escala ordinal, además de las propiedades de la
escala nominal, permite establecer un orden entre los elementos medidos. Otros ejemplos de variables
con escala ordinal son: Preferencia a productos de consumo, Etapa de desarrollo de un ser vivo,
Clasificación de películas por una comisión especializada, Madurez de una fruta al momento de comprarla.
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga sentido
calcular diferencias entre las mediciones. Los siguientes son ejemplos de variables con esta escala:
Temperatura de una persona, Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85
Ruta 5), Sobrepeso respecto de un patrón de comparación, Nivel de aceite en el motor de un automóvil
medido con una vara graduada.
La escala de razón permite, además de lo de las otras escalas, comparar mediciones mediante un
cociente. Algunos ejemplos de variables con la escala de razón son los siguientes: Altura de personas,
Cantidad de litros de agua consumida por las personas en un día, Velocidad de los autos en la ruta, Número
de goles marcados por un jugador de básquetbol en los partidos de un año. Las escalas de intervalo y de
razón se diferencian fundamentalmente por dos razones: 1) por la existencia del cero natural, que
significa “ausencia de…” (razón), y el cero convencional que no significa ausencia de … (intervalo); 2)
porque la escala de razón permite establecer proporciones entre los valores de las variables, mientras que
la escala de intervalo no lo admite.
El símbolo para una variable cualquiera será una letra mayúscula, y los valores individuales que puede
asumir se simbolizan con la misma letra, minúscula, con un subíndice.

Unidad Didáctica N.º 2: RELEVAMIENTO DE DATOS

2.1. Teoría del Muestreo


Conceptos básicos. Censos y operativos muestrales
Se denomina Censo, en estadística descriptiva, al recuento de individuos que conforman una población
estadística, definida como un conjunto de elementos de referencia sobre el que se realizan las
observaciones. El censo de una población estadística consiste, básicamente, en obtener el número total de
individuos mediante las más diversas técnicas de recuento.
El censo es una de las operaciones estadísticas que no trabaja sobre una muestra, sino sobre la población
total. Uno de los casos particulares de censo pero, al mismo tiempo, uno de los más comunes, es el
denominado censo de población, en el cual el objetivo es determinar el número de personas humanas que
componen un grupo, normalmente un país o una nación. En este caso, la población estadística
comprendería a los componentes o habitantes del grupo, país o nación.
La muestra es el grupo de sujetos (personas, animales, seres microscópicos u objetos inanimados) que se
utilizarán como objeto de estudio en una investigación. Será a ellos a quienes se les aplique el
procedimiento experimental (las pruebas, mediciones, entrevistas, encuestas, tratamientos médicos
farmacológicos o no farmacológicos) y serán ellos los que, distribuidos o no en dos o más grupos, cada uno
de éstos con una condición experimental específica, nos darán, después del análisis de los resultados, la
respuesta positiva o negativa a la pregunta que generó el desarrollo de la investigación, respuesta que se
expresará, por medio de una publicación científica, a través de una serie de conclusiones.
Existen varios tipos de muestras, de los cuales en el cuadro siguiente se mencionan los más comúnmente
utilizados:

Un muestreo es probabilístico cuando se puede determinar de antemano la probabilidad de selección de


cada uno de los elementos de la población, es decir que la selección de cada elemento debe ser realizada al
azar con una probabilidad conocida a priori.
Encuestas. Ejemplos de aplicación
2.2. Modelos de muestreo alternativos
Simple al azar
La forma más común de obtener una muestra es la selección al azar. Es decir, cada uno de los elementos de
una población tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la
muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para
su constitución algún método aleatorio (al azar). El procedimiento empleado es el siguiente: 1) se asigna un
número a cada individuo elemento de la población y 2) a través de algún medio mecánico (bolillas dentro
de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora o
computadora, etc.) Se eligen tantos elementos como sea necesario para completar el tamaño de muestra
requerido. Este procedimiento tiene poca o nula utilidad práctica cuando la población objetivo es muy
grande y heterogénea.

Estratificado al azar
Una muestra sistemática es obtenida cuando los elementos son seleccionados de una manera ordenada. La
manera de la selección depende del número de elementos incluidos en la población y el tamaño de la
muestra. El número de elementos en la población es, primero, dividido por el número deseado en la
muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población
tendrá que ser seleccionado. El primer elemento de la muestra se selecciona al azar. Por lo tanto, una
muestra sistemática puede dar la misma precisión de estimación acerca de la población, que una muestra
aleatoria simple cuando los elementos en la población están ordenados al azar.
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de
extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k,
i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra: k = N/n. El número i que empleamos como punto de partida será
un número al azar entre 1 y k.
Por ejemplo, si para realizar una investigación de mercado se necesita seleccionar una muestra de 12 días
de octubre, noviembre y diciembre de 2018, de manera tal que todos los días de la semana se encuentren
representados en la muestra, la forma de seleccionar una muestra sistemática es la siguiente:

Los días seleccionados han sido sombreados en la tabla anterior. Puede observarse que todos los días de la
semana están representados en la muestra sistemática
El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población, ya que al
elegir a los miembros de la muestra con una periodicidad constante (k) puede ocurrir que se introduzca una
homogeneidad que no se da en la población. Por ejemplo, si se debe seleccionar una muestra sobre listas
de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si se emplea un muestreo
aleatorio sistemático con k = 10 siempre seleccionaremos o sólo hombres o sólo mujeres, no podría haber
una representación de los dos grupos.
Sistemático/Estratificado
Una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la
población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de
muestreo, se divide a la población en varios grupos o estratos (formados por elementos homogéneos entre
sí) con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la
selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. Las
estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o
menor error muestral) que si la población entera fuera muestreada mediante muestreo aleatorio simple.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir
el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes
entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar,
por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende
con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra.
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
simple o el sistemático para elegir los elementos concretos que formarán parte de la muestra. En ocasiones
las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la
población. (tamaño, geográfico, sexos, edades, ...).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de
diferentes tipos:
- Afijación Simple: a cada estrato le corresponde igual número de elementos muestrales.
- Afijación Proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la población
en cada estrato.
- Afijación Óptima: se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer
la desviación.

Por conglomerados
Para obtener una muestra de conglomerados, primero se divide la población en grupos que son
convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método
sistemático. Finalmente, tomar todos los elementos o parte de ellos al azar o por un método sistemático de
los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son
muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto, la muestra es
aleatoria.
Los métodos anteriores están estructurados para seleccionar directamente los elementos de la población,
es decir, que las unidades muestrales son los elementos de la población. En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la
que se llama conglomerado. Las unidades hospitalarias, los departamentos universitarios, instituciones
educativas, distritos militares, una caja de determinado producto, etc. son conglomerados naturales. En
otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos
los elementos pertenecientes a los conglomerados elegidos.
Por ejemplo, en un operativo muestral con el fin de realizar encuestas en hogares de una ciudad, un criterio
apropiado para seleccionar la muestra de hogares sería el siguiente: sobre un plano de la ciudad (marco
muestral) dividir el plano en sectores, que podrían ser estratos, y dentro de cada uno de estos, seleccionar
manzanas al azar, y en las manzanas elegidas encuestar a todos los hogares que habitan en ellas. Entonces,
las manzanas son los conglomerados.
Una muestra de conglomerados usualmente produce un mayor error muestral (por lo tanto, da menor
precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño.
Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo
la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas
las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las
áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es
muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa
el tamaño de la muestra de área.
El incremento del tamaño de la muestra puede fácilmente hacerse en la muestra de área. Los
entrevistadores no tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias.
Por lo tanto, una muestra grande de área puede ser obtenida dentro de un corto período de tiempo y a
bajo costo. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la
estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada
conglomerado es tan grande como la de la población.
Si se tuviera que seleccionar una muestra probabilística de docentes y estudiantes de escuelas primarias,
por ejemplo, las escuelas serían los conglomerados, porque todas son homogéneas entre sí.
Doble, múltiple y secuencial.
(Respuesta generada con inteligencia artificial por falta de bibliografía)
Muestreo doble
El muestreo doble es un tipo de muestreo en el que se realizan dos muestras de la misma población. La
primera muestra se utiliza para estimar las características de la población, y la segunda muestra se utiliza
para verificar las estimaciones de la primera muestra. El muestreo doble se utiliza a menudo cuando la
población es grande o cuando es difícil obtener una muestra representativa de la población.
Muestreo múltiple
El muestreo múltiple es un tipo de muestreo en el que se realizan dos o más muestras de la misma
población. Cada muestra se utiliza para estimar las características de la población, y las estimaciones de las
diferentes muestras se combinan para obtener una estimación más precisa de la población. El muestreo
múltiple se utiliza a menudo cuando es necesario obtener una estimación precisa de la población, o cuando
es difícil obtener una muestra representativa de la población. puede estar relacionado con utilizar más de
una técnica de muestreo probabilístico, ya que cada muestra puede utilizar una técnica diferente.
Muestreo secuencial
El muestreo secuencial es un tipo de muestreo en el que se toma una muestra de la población una a la vez.
La decisión de tomar otra muestra se basa en los resultados de las muestras anteriores. El muestreo
secuencial se utiliza a menudo cuando es necesario tomar muestras de una población que está cambiando
rápidamente.

Muestreos no Probabilísticos
1. Muestreo intencionado o de juicio
También recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son
representativos, lo que exige un conocimiento previo de la población que se investiga. Es utilizado
generalmente en los estudios de casos.
0. Muestreo por cuotas
También llamado muestreo accidental, se divide a la población en estratos o categorías, y se asigna una
cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. Por
ejemplo, en una encuesta realizada en boca de urna, es decir, a los ciudadanos que salen de votar, suele
establecerse de antemano la cantidad de mujeres y varones a encuestar, o bien la cantidad de jóvenes,
adultos y mayores, estas cantidades predeterminadas son las cuotas. La muestra debe ser proporcional a la
población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a
distorsiones, al quedar a criterio del investigador la selección de las categorías.
0. Muestreo bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una
muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones
"marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
0. Muestreo mixto
Se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en
forma aleatoria y después aplicar el muestreo por cuotas.
Diseño muestral más eficiente

Ventajas y desventajas de un operativo muestral


Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas se pueden señalar:
a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
a. Como consecuencia del punto anterior se ahorran costos.
a. Estudiar la totalidad de los pacientes o personas con una característica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.
a. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y
mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que si las
tuviésemos que realizar a una población.
a. La selección de muestras específicas permitirá reducir la heterogeneidad de una población al indicar
los criterios de inclusión y/o exclusión.

Unidad Didáctica N.º 3: ANÁLISIS ESTADÍSTICO DE DATOS


CUALITATIVOS Y CUANTITATIVOS.

3.1. Organización y presentación de datos univariables


Recopilación, tabulación, análisis, interpretación y representación gráfica de datos estadísticos.
La estadística opera sobre información de interés denominada datos Estadísticos mediante la aplicación de
métodos, también Estadísticos. Los métodos estadísticos pueden dividirse en etapas:
1) Recopilación: la recopilación puede ser de datos o registros internos o bien de fuentes externas a una
organización, como pueden ser las publicaciones o las encuestas originales.
2) Organización: en general, los datos recopilados deben ser organizados. Para ello, los mismos deberían
corregirse, clasificarse y tabularse.
3) Presentación: existen distintas formas de presentar datos estadísticos, como:
a) Mediante enunciados: es útil solo en caso de tener que presentar datos que incluyen unos pocos
ítems.
b) Tablas Estadísticas
c) Gráficos Estadísticos
4) Análisis: el análisis de los datos presentados puede consistir desde una simple observación hasta
complejos y sofisticados métodos de investigación altamente matemática.
5) Interpretación: finalizado el análisis, los resultados de este deben ser interpretados para poder generar
conclusiones validas y así tomar decisiones en base a ellas.

3.2. Series simples y series de frecuencias


La serie simple: es un conjunto de pocos datos, generalmente menos de treinta (n<30)
¿Cómo es el tratamiento adecuado de estos datos?
Generalmente, la primera forma como deben analizarse o explorarse los datos es mediante un gráfico que
permita descubrir un patrón de comportamiento, tendencias, variaciones estacionales o simplemente las
variaciones aleatorias. Igualmente, el análisis gráfico permite, mediante una simple ojeada, dar una idea de
la información y sus características básicas.
Los métodos gráficos se pueden usar para visualizar la información bruta (sin ningún tipo de organización o
análisis previo) o la información ya resumida y/o consolidada. En este sentido adquiere plena validez la
frase "Una imagen vale más que mil palabras".
Una forma adecuada de representar y ordenar una serie simple es mediante el diagrama de tallo y hojas. Es
un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un
"tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se
escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) de los valores tallo. El "tallo" es
usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.
Objetivos
● Representación visual de la información
● Descubrir un patrón de comportamiento de los datos, es decir, cómo se distribuyen los datos
● Identificar si hay valores extremos o datos anormales en la muestra
Es aplicable para valores formados por al menos dos cifras.

Principio: Cada número se divide en dos partes, una que se llama "Tallo" y la otra denominada "ramas u
hojas".

Distribuciones de frecuencia: se construyen tablas de resumen en la que los datos se agrupan o arreglan
en clases o categorías ordenadas en forma numérica, establecidas de modo conveniente. También se les
dice “Datos agrupados”.

Datos agrupados sin intervalos: se utiliza cuando la variable, sea discreta o continua, presenta pocos
valores diferentes entre sí, repetidos muchas veces cada uno. La tabla se presenta así:
Donde fi se llama frecuencia absoluta e indica la cantidad de veces que se presenta o se repite cada valor
de la variable.
La tabla se presenta generalmente en forma vertical. Por ejemplo:

Significa que hay 11 estudiantes que no tienen materias aprobadas, 18 estudiantes que tienen una materia
aprobada, 29 estudiantes que tienen cinco materias aprobadas, y así sucesivamente.
Datos agrupados en intervalos: se utiliza esta forma de distribución de frecuencias, cuando la variable, sea
discreta o continua, presenta muchos valores diferentes entre sí repetidos muchas veces.
El objetivo es distribuir los datos en intervalos de clase, preferiblemente del mismo tamaño, y verificar
cuántas observaciones se presentan en cada intervalo (frecuencia absoluta).
El procedimiento para encontrar la distribución de frecuencias es el siguiente:
1- Encontrar el rango de variación de los datos. Para ello se requiere calcular los valores
mínimo y máximo de la muestra

2- Definir el número de intervalos de clase (k). Se recomienda que el número de intervalos de


clase esté entre 5 y 15, dependiendo del tamaño de la muestra disponible. Si se usa un
número muy bajo, los valores quedan muy concentrados y se pierde mucha precisión,
mientras que si se emplea un número muy alto y la muestra es muy pequeña, los datos
quedan muy dispersos y realmente no se obtiene mucha información. Como una guía para
escoger el número de intervalos puede usarse la fórmula de Sturgess, dada por:

3- Calcular el tamaño del intervalo de clase o amplitud de clase (a). Para ello se debe calcular
la relación entre el rango de los datos y el número de intervalos. Se tomará como tamaño
del intervalo a un valor ligeramente superior a esta relación, es decir:
4- Construir los intervalos. Cada intervalo de clase i, está definido mediante un límite inferior
(Lim Infi = bi-1) y por un límite superior (Lim Supi = bi). Para el primer intervalo de clase, el
límite inferior corresponde al valor más pequeño de la muestra o menor (Lim Inf1 ≤ b0 =
xmín), y el límite superior de cada intervalo siempre será igual al límite inferior más el ancho
del intervalo de clase (Lim Supi = bi-1 + a).
Para los demás intervalos diferentes al primero, el límite inferior será igual al límite superior
del intervalo inmediatamente anterior (Lim Infi = Lim Supi-1).
De acuerdo con lo anterior se calculan los límites de los intervalos de clase, los cuales estarán dados de la
siguiente manera, según se muestra en la tabla:

5- Se toman los valores de la muestra, y se define a qué intervalo corresponde. El intervalo i


comprenderá aquellos valores que son mayores o iguales al límite inferior de dicho intervalo
(bi-1) y estrictamente menores que el respectivo límite superior (bi). Es decir, el valor x
quedará en el intervalo i si cumple la siguiente condición.

Es decir, si un valor es igual al límite superior de un intervalo, entonces la observación corresponde al


intervalo siguiente. Para ello se toma cada valor y se compara sucesivamente con el límite superior del
primer intervalo, luego con el del segundo, y así sucesivamente hasta que caiga en alguno. Si el valor x
queda en el intervalo i, entonces se aumenta en uno la frecuencia del respectivo intervalo.

Ejemplo de aplicación
La inversión real anual de 60 empresas es la siguiente:
10 12 8 40 16 28 10 30 2 8 6 14 16 20 25 36 39 52 30 0
30 4 6 10 18 17 13 17 21 7 6 8 14 7 15 26 14 28 30 26
6 8 39 11 13 15 18 20 30 60 6 12 25 45 26 8 37 12 19 27
Siguiendo los pasos para construir la distribución de frecuencias:
1. Rango: r = 60 – 0 = 60 (amplitud total de la serie)
2. Nº de clases: k = 1 + 3.3 log60 = 6.87 ≅ 7
3. Amplitud de clase: a = 60/7 = 8.57 ≅ 9
Para simplificar la construcción de los intervalos se tomará a = 10
0. Formación de los intervalos y 5) registro de datos:
Intervalos Registros fi xi ← Marcas de clase: son los puntos
[ 0 – 10) ///// ///// ///// 15 5 medios de los intervalos.
[10 – 20) ///// ///// ///// ///// / 21 15 Representan a todos los valo-
[20 – 30) ///// ///// / 11 25 res de la variable comprendidos
[30 – 40) ///// //// 9 35 en el intervalo.
[40 – 50) // 2 45
[50 – 60) / 1 55 xi = (Li + Ls) / 2
[60 – 70) / 1 65
Total: 60

- Para variables discretas y continuas

- Distribuciones de frecuencias absolutas, relativas y acumulativas


Distribución de frecuencias relativas
Se simboliza con “ri“ y se obtiene dividiendo la frecuencia absoluta por n.
Las frecuencias relativas se utilizan para saber qué proporción o porcentaje de observaciones tiene un
determinado valor, o están comprendidas en un intervalo determinado. Su representación gráfica es igual a
la de las frecuencias absolutas, sólo cambia la escala del eje de ordenadas, en el cual se representan las
frecuencias relativas.
La importancia de la frecuencia relativa radica en que indica la proporción de observaciones referida al
total de observaciones realizadas, y esta es una interpretación más completa y más precisa que la de las
frecuencias absolutas.
Distribución de frecuencias acumulativas
Se simbolizan Fi↓ o Fi↑ según que las frecuencias se acumulen de la forma “Menor que” (Ls) o “Mayor o
igual que” (Li), en el caso de que los datos sean agrupados en intervalos, o de la forma “< que” ó “ ≥ que”
cuando los datos se agruparon sin intervalos.
Cuando los datos han sido agrupados en intervalos de clase, las frecuencias acumuladas se calculan como
se indica a continuación:

La representación gráfica es un diagrama con una línea curva siempre creciente llamado polígono de
frecuencias acumuladas u “ojiva”. Cuando las frecuencias son acumuladas de la forma “Mayor o igual que” (
Fi ↑ ) la línea es decreciente. Si se genera un gráfico con ambos tipos de frecuencias acumulativas, el punto
de intersección de las ojivas corresponde a la Mediana, una medida de posición.

La representación gráfica es un diagrama escalonado, en este caso el escalón más alto le corresponde a una
ordenada igual a n.
Fi ↓ genera un gráfico escalonado creciente, mientras que Fi↑ genera una escalera descendente. El punto de
intersección de ambas curvas corresponde a la Mediana, una medida de posición.
Las Fi ↓ se utilizan cuando se desea averiguar cuántas observaciones de la variable son menores o iguales
que una de ellas determinada, mientras que las Fi ↑ son más apropiadas cuando se necesita saber qué
cantidad de observaciones de la variable son mayores o iguales que alguna de ellas.

Distribución de frecuencias relativas acumuladas


Las frecuencias relativas acumuladas se obtienen acumulando las frecuencias relativas, o bien relativizando
las frecuencias acumuladas.
Se simbolizan Ri , con la flechita indicando el sentido de la acumulación.
Representación gráfica:
Cuando la variable está agrupada en intervalos de clase, la representación gráfica se llama polígono de
frecuencias acumulativas u “ojiva”, y toma las formas siguientes:
Combinando ambas representaciones en un solo gráfico, se obtiene:

Considerando como ejemplo de los puntajes en habilidad espacial de 80 empleados de una empresa, la
distribución de frecuencias absolutas, relativas y acumulativas es la siguiente:
Interpretación:
Por ejemplo, r6 = 0,15 o bien 15%, indica que la proporción de empleados que obtuvieron un puntaje
comprendido entre 64 y 74 puntos es 0,15, o también que el 15% de los empleados obtuvieron puntajes
comprendidos entre 64 y 74 puntos.
Y F6 = 65 indica que 65 empleados tienen menos de 74 puntos en la prueba de habilidad espacial.
Si los datos están agrupados en una tabla de frecuencias sin intervalos, como en el ejemplo de la cantidad
de materias aprobadas por los estudiantes de Estadística, la tabla de frecuencias (obtenida utilizando el
software SPSS) tiene el aspecto siguiente:

Las frecuencias relativas y acumulativas están expresadas en porcentaje. Por ejemplo, ri = 20,6 indica que el
20,6% de los estudiantes tiene 3 materias aprobadas. Si el porcentaje se calcula sobre el total de casos
válidos, resulta que 20,7% es el porcentaje de estudiantes que tiene 3 materias aprobadas.
Y Fi = 92,0% significa que el 92% de los estudiantes tiene 7 o menos materias aprobadas.
La representación gráfica de las frecuencias acumuladas (ojiva) para el ejemplo de los puntajes de los
empleados, es la siguiente:
Para el ejemplo de la cantidad de materias aprobadas, correspondería representar las frecuencias
acumuladas mediante los gráficos escalonados.
- Gráficos.
Variable cualitativa o categórica
Existen diversas formas de representar gráficamente una variable cualitativa, pero generalmente se utilizan
las barras, y de entre ellas se prefieren las barras horizontales.
Por ejemplo, si se deben representar gráficamente los datos siguientes:
Categorías de la variable: A B C D
Frecuencias (%): 18 32 23 27
El gráfico adecuado es el de barras horizontales, en el cual cada barra tiene la longitud del porcentaje que
representa, como se indica a continuación:
Variable cuantitativa
Serie simple o datos no agrupados: la representación gráfica adecuada es el diagrama de tallo y hojas.
Serie de frecuencias o datos agrupados: en este caso deben distinguirse dos casos diferentes, según que
los datos hayan sido agrupados con o sin intervalos.

El gráfico de barras adyacentes constituye el histograma de frecuencias absolutas, y la línea quebrada que
une los puntos medios de los lados superiores de los rectángulos, es el polígono de frecuencias absolutas.
En el histograma la frecuencia está representada por el área de los rectángulos, no por la altura de los
mismos, por lo tanto, si los intervalos son de amplitud no constante, deberá ajustarse la altura proporcional
a las bases distintas de los rectángulos.
En la abscisa se colocan los límites de los intervalos de clase b0, b1, b2,.., bk , y en la ordenada se dibuja, bien
sea la frecuencia absoluta, o la frecuencia relativa. Para cada intervalo se levanta una barra cuya longitud es
proporcional a la frecuencia (absoluta, o relativa). La forma que toma el gráfico es la misma, bien sea que
se trabaje con frecuencia absoluta o relativa, ya que la diferencia entre las dos es simplemente un cambio
de escala. El área bajo el histograma es exactamente igual al área bajo el polígono de frecuencias.
A veces se dibuja una ordenada izquierda con la frecuencia absoluta, y una ordenada derecha con la
frecuencia relativa.
El gráfico de bastones resultante de representar las frecuencias absolutas del ejemplo de la cantidad de
materias aprobadas por los estudiantes de Estadística es el siguiente:
Un ejemplo de histograma y polígono de frecuencias con datos agrupados en intervalos.
Ejemplo. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una
graduación de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide: Distribuir los
datos en intervalos de clase y construir el histograma de frecuencias.
El histograma de frecuencias absolutas y el polígono de frecuencias correspondiente, se muestran en los
gráficos siguientes:

ANÁLISIS DE DATOS. MEDIDAS DESCRIPTIVAS


Para completar la descripción de los datos recopilados se determinan diferentes medidas que caracterizan
al conjunto de observaciones desde distintos aspectos. Estas medidas pueden ser: de posición o tendencia
central, de dispersión o variabilidad, de asimetría y de kurtosis o agudeza.
Interpretación:
Medidas de tendencia central: indican los valores centrales de la variable hacia los cuales tienden a
agruparse las observaciones. Comúnmente se los llama promedios.
Medidas de dispersión: miden la cantidad de variación, desperdigamiento o diseminación de los datos
alrededor de los valores centrales.
Medidas de asimetría: determinan si la distribución de los valores de la variable es simétrica con respecto
a los valores centrales, o si existe un sesgamiento hacia la derecha o hacia la izquierda.
Medidas de kurtosis: miden el grado de apuntamiento o agudeza de la distribución de los valores de la
variable.

3.3. Medidas de tendencia central


Al analizar grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para
tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya
que solo representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un
valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse
medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos más
bien que a individuos. Un promedio es una característica de grupo, no individual.

- Media aritmética simple y ponderada: concepto, propiedades, ventajas e inconvenientes. Cálculo


La medida de tendencia central más obvia que se puede elegir es el valor obtenido sumando las
observaciones y dividiendo esta suma por el número de observaciones que hay en el grupo. La media
resume en un valor las características de una variable teniendo en cuenta a todos los casos. Solamente
puede utilizarse con variables cuantitativas. Es el promedio más conocido y de mayor uso.
Dada una serie simple de observaciones de la variable X: x1 x2 x3 ….. xn , la media aritmética es:

La media aritmética de un conjunto de n valores es el resultado de la suma de todos ellos dividido entre n.
Actúa como punto de equilibrio, de modo que las observaciones que son mayores que la media equilibran a
las que son menores.

La fórmula para la media aritmética de una serie simple es la siguiente: =( )/n


Ejemplo de aplicación
De serie simple o datos no agrupados: la inversión real (en miles de dólares) anual de un grupo de 24
pequeñas empresas fue: 12 8 40 6 8 10 30 2 8 6 14 16 20 25 28 30 26 30 26 30 4 6 10.

= (10 + 12 + 8 + . . . + 10) / 24 = 405 / 24 = 16,875 miles de dólares


La inversión real promedio es de 16.875 dólares.
La media de datos agrupados o de una serie de frecuencias
Si los datos están agrupados en una tabla de frecuencias, por ejemplo:
xi : x1 x2 x3 ….. xk
fi : f 1 f2 f 3 ….. fk la media aritmética es:

= x1f1 + x2 f2 + x3 f3 + ….. + xk fk
f1 + f2 + f3 + .... + fk

=
Ejemplo de media aritmética con datos agrupados
En una prueba de aptitud realizada a un grupo de 42 personas se han obtenido las puntuaciones que
muestra la tabla siguiente. Calcular la puntuación media.

Intervalos xi fi xi.fi

[10, 20) 15 1 15

[20, 30) 25 8 200

[30,40) 35 10 350

[40, 50) 45 9 405

[50, 60 55 8 440

[60,70) 65 4 260

[70, 80) 75 2 150

42 1.820

= 1820/42 = 43,33
Si los datos están agrupados en una tabla de frecuencias sin intervalos, los valores xi son directamente los
que asume la variable, los que en el ejemplo anterior se obtuvieron calculando las marcas de clase.
Propiedades de la media aritmética
1. Puede ser calculada en distribuciones con escala relativa e intervalar.
2. Todos los valores son incluidos en el cómputo de la media.
3. Una serie de datos solo tiene una media.
4. Es una medida muy útil para comparar dos o más poblaciones.
5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la
media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie
de datos.

Demostración: Basta desarrollar la sumatoria para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo
x1, mediante el valor central , es compensado por los demás errores:
La suma de las desviaciones de los números 8, 3, 5, 12, 10, de su media aritmética 7,6 es igual a cero.
(8 – 7,6) + (3 – 7,6) + (5 – 7,6) + (12 – 7,6) + (10 – 7,6) = 0,4 – 4,6 – 2,6 + 4,4 + 2,4 = 0

Otro ejemplo con datos agrupados


Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es
cero.

n
li-1 - li
i

0 - 10 1

10 -
2
20

20 -
4
30

30 -
3
40

Solución:

x
li-1 - li ni xi ni
i

0 - 10 1 5 5 -19 -19

10 - 1
2 30 -9 -18
20 5

20 - 2
4 100 +1 +4
30 5

30 - 3
3 105 +11 +33
40 5

n=1
0

La media aritmética es:

Como se puede comprobar sumando los elementos de la última columna,

1. La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a la media
aritmética, es un mínimo. Esto significa que si se calcula esa suma tomando otro valor cualquiera
distinto de la media aritmética, el resultado siempre será mayor que cuando se toman las
desviaciones con respecto a la media.

Demostración:

Sea k ≠ . Se verá que el error cuadrático cometido por k es mayor que el de .

2. Si a todos los valores de la variable se les suma una constante, la media aritmética queda
aumentada en dicho número.
Demostración:
Sea la variable Y = a + X, siendo a una constante (positiva o negativa).

=( ) / n = {an + ( )} / n = a +
3. Si todos los valores de la variable se multiplican por una constante, la media aritmética queda
multiplicada por dicho número.
Demostración:
Sea la variable Y = aX, siendo a una constante (puede ser a o 1/a).
=( )/n=a( )/n=a
4. Propiedad de linealidad de la media (resultante de las dos propiedades anteriores)

10. Dados r grupos con n1, n2, ..., nr observaciones y siendo, , ... , las respectivas medias de cada
uno de ellos. Entonces la media de las n = n1 + n2 + … + nr observaciones es

Demostración
Llamando xij a la j-ésima observación del grupo i; Entonces es

Así, agrupando convenientemente las observaciones se llega a que

Observaciones sobre la media aritmética


1. La media se puede hallar solo para variables cuantitativas.
2. La media es independiente de las amplitudes de los intervalos.
3. La media es muy sensible a las observaciones extremas. Si se cuenta con los siguientes valores de la
variable peso:
65kg 69kg 65kg 72kg 66kg 75kg 70kg 110kg
La media es igual a 74kg, que es una medida de tendencia central poco representativa de la distribución.
4. La media no se puede calcular si hay un intervalo abierto (con amplitud indeterminada).

xi fi

[60, 63) 61.5 5


[63, 66) 64.5 18

[66, 69) 67.5 42

[69, 72) 70.5 27

[72, ∞ ) 8

100

En este caso no es posible hallar la media porque no se puede calcular la marca de clase del último
intervalo.
Ventajas de la media aritmética
● Es la medida de tendencia central más usada.
● El promedio es estable en el muestreo.
● Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en
los datos).
● Se emplea a menudo en cálculos estadísticos posteriores.
● Presenta rigor matemático.
● En la gráfica de frecuencia representa el centro de gravedad.
Desventajas
● Es sensible a los valores extremos. Si alguno de los valores es extremadamente grande o
extremadamente pequeño, la media no es el promedio apropiado para representar la serie de
datos.
● No es recomendable emplearla en distribuciones muy asimétricas.

La media aritmética ponderada


Se denomina media (aritmética) ponderada de un conjunto de números al resultado de multiplicar cada
uno de los números por un valor particular para cada uno de ellos, llamado su peso o ponderación,
obteniendo a continuación la suma de estos productos, y dividiendo el resultado de esta suma de
productos entre la suma de los pesos. Este "peso" depende de la importancia de cada uno de los valores. O
dicho de otro modo es un promedio en el que cada valor de observación se pondera con algún índice de su
importancia.
Para una serie de datos X = { x1, x2, ..., xn}
a la que corresponden los pesos W = { w1, w2, ..., wn}
la media ponderada se calcula como:
O bien:

Un ejemplo es la obtención de la media ponderada de las notas de una oposición en la que se asigna
distinta importancia (peso) a cada una de las pruebas de que consta el examen.

- Mediana: concepto, propiedades y aplicaciones para variable discreta y continua. Determinación gráfica
y analítica. Cuartiles, quintiles, deciles y percentiles

La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales,
de forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o
igual a estos. Su aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media.
Me

La notación más usual que se utiliza para representar a la mediana es , Md , Me ó Med .


La mediana para datos no agrupados
Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos
criterios conduce al mismo resultado.

Sean ordenados lo datos en orden ascendente

Si el número de valores es impar, la mediana es el valor medio, el cual corresponde al dato .


Ejemplo:

Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3, para la obtención de la mediana se


deberán de ordenar. Tomemos el criterio de orden ascendente con lo que, tendremos:
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4
≤1 y >1
por otro lado, el número de datos es igual a 15, siendo el número de datos impar se elige el dato que se
encuentra en el centro, una vez ordenados los datos, en este caso es Me = 1.
Cuando el número de valores en el conjunto es par, no existe un solo valor medio, si no que existen dos
valores medios, en tal caso, la mediana es el promedio de los valores centrales, es decir, la mediana es
numéricamente igual a

Si el ejemplo anterior tuviera una observación más, es decir, n = 16, los datos serían:
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 5
Entonces la mediana es: Me = (1+2)/2 = 1,5

La mediana para datos agrupados


Datos agrupados sin intervalos
En este caso la mediana es el valor de la variable al cual le corresponde la frecuencia acumulada, de la
forma “menor que”, inmediatamente superior a la mitad de las observaciones (n/2).
En el ejemplo de la cantidad de materias aprobadas por alumno en la Cátedra Estadística, cuya distribución
de frecuencias se muestra en el cuadro siguiente:

Cantidad de materias aprobadas

Frecuenci Porcentaj Porcentaje


a e acumulado

Válid 0 11 5,9 5,9


o
1 18 9,6 15,4
2 28 14,9 30,3
3 39 20,7 51,1
4 33 17,6 68,6
5 29 15,4 84,0
6 7 3,7 87,8
7 8 4,3 92,0
8 7 3,7 95,7
9 4 2,1 97,9
12 2 1,1 98,9
13 1 ,5 99,5
14 1 ,5 100,0
Total 188 100,0

La última columna indica las frecuencias acumuladas porcentuales, por lo tanto n/2 = 50%. La frecuencia
acumulada inmediatamente superior a 50% es 51,1%, por lo tanto,
Me = 3 materias aprobadas
Este resultado se interpreta diciendo que “la mitad de los estudiantes que cursaban Estadística en 2019
tenían 3 o menos materias aprobadas y la otra mitad tenía 3 o más materias aprobadas”.

Cálculo gráfico
En el gráfico escalonado de frecuencias absolutas o relativas acumuladas de la forma “menor que”:

F i ↓ o Ri ↓
n

n/2

0 1 2 3 4 5 xi
Me
Por el valor n/2 se traza una línea paralela al eje de abscisas hasta cortar el gráfico escalonado, por esa
intersección se baja una línea perpendicular al mismo eje, y allí se encuentra la mediana.
Datos agrupados en intervalos
La extensión para el cálculo de la mediana en el caso de datos agrupados en intervalos se realiza a
continuación:
En primer lugar se ubica el intervalo que contiene la Mediana de la misma manera que en el caso anterior,
es decir, el intervalo que contiene la mediana es aquel al cual le corresponde la frecuencia acumulada de la
forma “menor que” inmediatamente superior a la mitad de las observaciones.
Luego se aplica en ese intervalo la siguiente fórmula:
Donde:
Md = Mediana.
Li = Limite inferior del intervalo donde se encuentra la mediana, la forma de calcularlo es a través de
encontrar la posición n/2. En ocasiones en el intervalo donde se encuentra la mediana se conoce como
intervalo mediano.
n = Número de observaciones o frecuencia total.

= frecuencia acumulada hasta el intervalo anterior al intervalo mediano.

= Frecuencia absoluta del intervalo mediano.


A = Amplitud del intervalo en el que se encuentra la mediana.
Geométricamente la mediana se encuentra en el valor X que divide al histograma en dos partes de áreas
iguales.
Cálculo gráfico
En el gráfico escalonado de frecuencias absolutas o relativas acumuladas de la forma “menor que”:

Fi ↓ o Ri ↓
n

n/2

xi
0 Med Intervalos de clase
Por n/2 se traza una línea paralela al eje de abscisas hasta cortar el polígono de frecuencias acumuladas,
por esa intersección se baja una línea perpendicular al mismo eje, y allí se encuentra la mediana.
Cómo obtener la fórmula de la mediana con datos agrupados en intervalos
En un gráfico de frecuencias acumuladas de datos agrupados en intervalos,

Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones.
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación
lineal (teorema de Thales) como sigue:
Ejemplo:
La tabla siguiente muestra la edad de las personas que recibieron atenciones médicas brindadas por el
hospital,

Tabla de frecuencias de edades reportadas por la clínica

Clases Punto Frecuencias Frecuencias


medio de de cada clase acumulada
(Datos en años)
cada clase

15 8 8

25 20 28

35 14 42

45 8 50

55 2 52

65 2 54

75 1 55

55 enfermos
atendidos

Se determina n/2, como n = 55 entonces n/2=27.5


El intervalo mediano o la clase donde se encuentra la mediana es la segunda clase, porque le corresponde
la frecuencia acumulada inmediatamente superior a la mitad de los datos.
sustituyendo en la ecuación se obtiene

por lo que se puede concluir que el 50% de las personas atendidas en un fin de semana por el hospital
tienen una edad inferior o igual a los 29,75 años, y el otro 50% tiene una edad igual o superior a los 29,75
años.
Propiedades de la mediana
1.- Es única y simple.
2.- Los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media.
Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no
depende de los valores que toma la variable, sino del orden de los mismos. Por ello es adecuado su uso en
distribuciones asimétricas.

Si se cambia la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la
media:

En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observación
extrema. Este no ha sido el caso para la mediana.
3.- Es de cálculo rápido y de interpretación sencilla.
4.- Si una población está formada por 2 subpoblaciones de medianas Med1 y Med2, sólo se puede afirmar que
la mediana, Med, de la población está comprendida entre Med1 y Med2

5.- Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.
6.- La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o
igual que cualquier otro valor.

Esta expresión es un mínimo.


7.- El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace
que sea muy difícil de utilizar en inferencia estadística.

Otro ejemplo
Obtener la media aritmética y la mediana en la distribución siguiente. Determinar gráficamente cuál de los
dos promedios es más significativo.

li-1 - li ni

6
0 - 10
0

8
10 - 20
0

3
20 - 30
0

2
30 - 100
0

100 - 1
500 0

Solución:

li-1 - li ni ai xi xi ni Ni

0 - 10 60 10 5 300 60 60

14
10 - 20 80 10 15 1.200 80
0

17
20 - 30 30 10 25 750 30
0

19
30 - 100 20 70 65 1.300 2,9
0

100 - 40 30 20 0,2
10 3.000
500 0 0 0 5

n=20
0

La media aritmética es:

La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo
mediano es [10;20). Así:
Para ver la representatividad de ambos promedios, se realiza el histograma de los datos, y se observa que
dada la forma de la distribución, la mediana es más representativa que la media.

Para esta distribución de frecuencias es más representativo usar


como estadístico de tendencia central la mediana que la media.

- Moda o modo: concepto, propiedades y aplicaciones para variable discreta y continua. Cálculo gráfico y
analítico
Es el valor más frecuente.
Su cálculo es el más simple de los tres correspondientes a estadísticos de centralidad pero la moda es el
estadístico de mayor varianza.
La moda puede no existir y cuando existe no es necesariamente única. No tiene sentido en muestras
pequeñas en las que la aparición de coincidencias en los valores es con gran frecuencia más producto del
azar que de otra cosa.

La moda de una serie simple (o datos no agrupados)


Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3, para la obtención de la moda se debe
detectar cual es el valor que se repite mayor cantidad de veces. En este caso es:
Mo = 1

La moda de una serie de frecuencias (o datos agrupados)


Para datos agrupados sin intervalos
En este caso la Moda es el valor de la variable que tiene mayor frecuencia absoluta o relativa. En el ejemplo
del número de materias aprobadas por estudiante,
La moda es 3, porque es el valor de la variable que tiene la mayor frecuencia absoluta y/o relativa.
Se interpreta diciendo que hay mayor cantidad de estudiantes que tienen 3 materias aprobadas.
Gráficamente, se detecta la moda porque es el valor de la variable al cual, en el gráfico de bastones, le
corresponde el bastón más alto.

Para datos agrupados con intervalos


En este caso habrá un intervalo al cual le corresponde la máxima frecuencia absoluta y/o relativa, el
intervalo modal. En ese intervalo se aplica la fórmula de interpolación para calcular el valor modal.

Donde, fi es la frecuencia absoluta del intervalo modal; fi-1 es la frecuencia absoluta del intervalo premodal;
fi+1 es la frecuencia absoluta del intervalo posmodal; ai es la amplitud del intervalo modal y li-1 es el límite
inferior del intervalo modal.
En el ejemplo de las edades de los pacientes atendidos en la clínica durante un fin de semana, la mayor
frecuencia absoluta es 20, por lo tanto, el intervalo modal es 20 ≤ x < 30, entonces, aplicando la fórmula en
ese intervalo, se obtiene la Mo.
La Mo = 20 + {(20-8) / [(20-8) + (20-14)]}10 = 26,67 ≈ 27 años
Significa que, entre los pacientes atendidos, hay mayor cantidad que tiene 27 años.

Tabla de frecuencias de edades reportadas por la clínica

Clases Punto Frecuencias Frecuencias


medio de de cada clase acumulada
(Datos en años)
cada clase

15 8 8

25 20 28

35 14 42

45 8 50

55 2 52

65 2 54

75 1 55

55 enfermos
atendidos

Gráficamente, la moda se calcula en el histograma de frecuencias absolutas o relativas, como se indica en


el gráfico siguiente:
fi

0 Mo xi
Se hablará de una distribución bimodal de los datos, cuando se encuentren dos modas, es decir, dos datos
que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que se
encuentran tres modas. Si todas las variables tienen la misma frecuencia es que no hay moda.
¿Cuándo conviene usar una u otra de las medidas de tendencia central?
La media es el estadístico de centralidad más usado cuando uno espera que la población tenga una
distribución más o menos simétrica, sin estar clasificada en grupos claramente diferenciados.
En el caso de distribuciones muy asimétricas, con una cola muy larga, la mediana es, normalmente, el valor
de elección dado que la media suele estar desplazada respecto al núcleo principal de observaciones de la
variable. En estos casos, la mediana es el valor que mejor expresa el punto donde se acumulan
mayoritariamente las observaciones de la variable.
En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la media y la mediana
carecen, normalmente, de sentido y los valores que más claramente reflejan el comportamiento de las
observaciones de la variable son las modas.

Otras medidas de posición.


Cuartiles

La mediana, como se vio, separa en dos mitades el conjunto ordenado de observaciones. Se puede aún dividir cada
mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de esas divisiones se conoce como Cuartil y
se simboliza mediante la letra Q agregando un subíndice según a cual de los cuatro cuartiles se refiera. Se
llama primer cuartil Q1 a la mediana de la mitad que contiene los datos más pequeños. Este cuartil, corresponde al
menor valor que supera – o que deja por debajo de él - a la cuarta parte de los datos. Se llama tercer cuartil Q3 a la
mediana de la mitad formada por las observaciones más grandes. El tercer cuartil es el menor valor que supera – o
que deja por debajo de él - a las tres cuartas partes de las observaciones. Con esta terminología, la mediana es
el segundo cuartil Q2 y el cuarto cuartil Q4 coincide con el valor que toma el último dato, luego de ordenados.

Cuartiles para datos sin agrupar

Tal como se concluye de lo anterior, el cálculo será idéntico al de la mediana para el segundo cuartil. El primer cuartil
será

en caso de que N sea impar y

en caso de que N sea par

Y el tercer cuartil será

en caso de que N sea impar y

en caso de que N sea par

Cuartiles para datos agrupados

Sin duda el cálculo para el cuartil dos es idéntico al de la mediana.

Solo quedan por ver los otros dos cuartiles, que serán análogos a los cálculos de la mediana, pero con las salvedades
correspondientes.
El primer cuartil está ubicado en el intervalo cuya frecuencia acumulada de la forma “menor que” es
inmediatamente superior a n/4, mientras que Q3 se encuentra en el intervalo al cual le corresponde la frecuencia
acumulada de la forma “menor que” inmediatamente superior a 3n/4. En esos intervalos se aplican las fórmulas
siguientes:

Quintiles

Los quintiles son valores que resultan de dividir la población (el N de las observaciones) en cinco partes iguales (20%
en c/u)

Cálculo para datos sin agrupar

El quintilg se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
que corresponde al (g.20) % de la población.

Cálculo para datos agrupados a partir de la frecuencia absoluta

Deciles

Los deciles son valores que resultan de dividir la población (el N de las observaciones) en diez partes iguales (10% en
c/u)

Cálculo para datos sin agrupar

El decilh se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
que corresponde al (h.10) % de la población.

Cálculo para datos agrupados a partir de la frecuencia absoluta

Percentiles

Los percentiles son valores que resultan de dividir la población (el N de las observaciones) en cien partes iguales (1%
en cada una).

Cálculo para datos sin agrupar

El percentilj se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición
j%.

Cálculo para datos agrupados a partir de la frecuencia absoluta


3.4. Medidas de dispersión
- Rango o recorrido: concepto, ventajas e inconvenientes.
El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de
números aleatorios. Se le suele simbolizar con R.
Requisitos del rango

▪ Se ordenan los números según su tamaño.

▪ Se resta el valor mínimo del valor máximo.

Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9. Sus valores se encuentran
en un rango de:
Rango = xmáximo – xmínimo = 9 - 4 =5
El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del
camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es:

Ejemplo: Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor
Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería:

El rango intercuartílico, RI es, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir

Esto dice en cuántas unidades de los valores que toma la variable se concentra el cincuenta por ciento
central de los casos. Mide la variabilidad de la mitad central de los datos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las
desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es
siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las
desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado
(Varianza).

Variancia y desviación estándar: concepto, aplicaciones para datos agrupados y no agrupados.


Propiedades. Ventajas e inconvenientes. Cálculo.
La varianza (también denominada variancia, aunque esta denominación es menos utilizada) es una medida
estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de
las diferencias cuadráticas de las puntuaciones respecto a su media aritmética. Suele ser representada con
la letra griega σ o una V en mayúscula, cuando es varianza poblacional.
La expresión de la varianza poblacional, es:

La expresión de la varianza muestral, en su fórmula de trabajo, es la siguiente:

También, su fórmula de cálculo es:

Propiedades

▪ La varianza es siempre positiva o 0:

▪ Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a
0.

▪ Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor
será detectado.

▪ Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo
serán.

▪ Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la


mitad la desviación típica, la muestra se tiene que multiplicar por 4.
▪ Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.

Yi = Xi + k

▪ Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por
el cuadrado de esa constante.

▪ Propiedad distributiva: V(X ± Y) = V(X) + V(Y) si X e Y son independientes.

Esta varianza muestral se obtiene como la suma de diferencias al cuadrado, y por tanto tiene como
unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
Como ejemplo, se consideran 10 personas de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media
de edad de estos sujetos será de:

la varianza sería:

S2
=

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese
problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se
halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los
datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta
medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en
inglés.
Desviación típica muestral

En el ejemplo anterior es: S = √ 427,61 = 20,68 años

Se interpreta diciendo que “la dispersión de los datos mayores que la media por encima de la media, y de
los valores menores que la media por debajo de la media, es de 20,68 años.
Desviación típica poblacional
Cuando los datos están agrupados, sea con o sin intervalos, cada desviación al cuadrado deberá
multiplicarse por la correspondiente frecuencia absoluta antes de realizar la suma.
La desviación estándar es una medida del grado de dispersión de los datos del valor promedio. Una
desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica
que los datos están agrupados cerca a la media.
Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus
desviaciones estándar son 7, 4 y 1, respectivamente. La tercera muestra tiene una desviación mucho menor
que las otras dos porque sus valores están más cerca de 7.
La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar
de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de
medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital
importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida
en desviaciones estándar), entonces se considera que las medidas contradicen la teoría. Esto es coherente,
ya que las mediciones caen fuera del rango de valores en el cual sería razonable esperar que ocurrieran si el
modelo teórico fuera correcto. La desviación estándar muestra la agrupación de los datos alrededor de un
valor central (la media o promedio).
Mirando el gráfico siguiente, se observa que representa tres polígonos de frecuencias diferentes pero todos
tienen la misma media, μ = 0.
Las tres distribuciones tienen distintas varianzas: σ2 = 0.5, σ2 = 1.0 y σ2 = 2.0.

La pregunta es: ¿de cuál de las tres poblaciones la media μ es más representativa? ¿Por qué?
Para responder, tener en cuenta que cuanto menor sea la dispersión o variabilidad de la variable, la
media será más representativa.
- Coeficiente de variación: concepto, cálculo y aplicaciones.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa
de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente
por 100. Su utilidad estriba en que permite comparar la dispersión o variabilidad de dos o más grupos.

Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su
desviación típica S = 10,44 y la TAS (tensión arterial sistólica) de los mismos (150, 170, 135, 180 y 195
mmHg1) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es
más dispersa, el peso o la tensión arterial? Si se comparan las desviaciones típicas se observa que la
desviación típica de la tensión arterial es mucho mayor; sin embargo, no se puede comparar dos variables
que tienen escalas de medidas diferentes, por lo que se calculan los coeficientes de variación:

A la vista de los resultados, se observa que la variable peso tiene mayor dispersión.
El coeficiente de variación es una calificación que permite a los usuarios evaluar la calidad estadística de las
estimaciones.
Se considera que una estimación con un coeficiente de variación:
● Hasta del 7%, es precisa;
● Entre el 8 y el 14% significa que existe una precisión aceptable;
● Entre el 15% y 20% precisión regular y por lo tanto se debe utilizar con precaución;
● Mayor del 20% indica que la estimación es poco precisa y por lo tanto se recomienda utilizarla sólo
con fines descriptivos (tendencias, no niveles).

3.5. Medidas de asimetría y kurtosis


Las medidas de distribución permiten identificar la forma en que se separan o aglomeran los valores de
acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse
de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad
de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales
medidas son la Asimetría y la Curtosis.

1
- Análisis gráficos. Coeficiente pearsoniano de asimetría.
Esta medida permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central
(Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma
concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva
cuando la mayoría de los datos se encuentran agrupados en los menores valores de la variable, la curva
es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la
media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los
valores mayores de la variable.

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

As = ( - Mo) / S cuyo campo de variación es: -1 ≤ As ≤ 1


● (As = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma
cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se
tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5). Teóricamente una
distribución es simétrica cuando = Me = Mo.

● (As > 0): La curva es asimétrica positiva por lo que los valores se tienden a reunir más en la parte
izquierda que en la derecha de la media. La distribución es asimétrica positiva cuando Mo < Me < .
● (As < 0): La curva es asimétrica negativa, por lo que los valores se tienden a reunir más en la parte
derecha de la media. La distribución es asimétrica negativa cuando < Me < Mo.
Desde luego, entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la
aglomeración de los valores con respecto a la media.

- Coeficiente de Kurtosis
Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución.
Por medio del Coeficiente de Curtosis, se puede identificar si existe una gran concentración de valores (Leptocúrtica),
una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

En el gráfico siguiente, se compara la kurtosis de una variable rendimiento, con diferentes grados de concentración:

Para calcular el coeficiente de Curtosis (K) se utiliza la ecuación:

½ (Q3 – Q1)

K= su campo de variación es 0 ≤ K ≤ 0,5

P90 – P10

● (K ⇒ 0) la distribución es Platicúrtica.

● (K ⇒ 0,5) la distribución es Leptocúrtica.

● (K ⇒ 0,25) la distribución es Mesocúrtica.

Unidad Didáctica N°. 4: PRESENTACIÓN DE DATOS


ESTADÍSTICOS
Presentación de datos estadísticos
Cuadros y tablas. Distintos tipos.

Representaciones gráficas. Técnicas para su elaboración.


La representación grafica constituye un elemento fundamental en el análisis y presentación de la información. Un
grafico es una representación plástica de una información dada, proporciona un apreciación integral del fenómeno
en estudio, y permite sacar conclusiones a simple vista que difícilmente podrían extraerse de un cuadro estadístico.

En todos los casos la representación grafica debe ser simple y precisa. Debe contener necesariamente varias partes:

- Título: el título es una descripción del gráfico. Debe ser compacto y completo. Debe responder a las
preguntas “Que?; Donde?; Como?; Cuando?”. Por ejemplo: “Exportación de granos, en la republica
Argentina, en miles de toneladas, durante el año 1999”. Puede ir arriba o abajo del gráfico.
- Escalas: la escala es la relación que existe entre la unidad del dibujo y la unidad en la variable que desea
representarse.
- Diagramas: los diagramas son los dibujos que se utilizan para representar gráficamente los datos
estadísticos; pueden ser líneas, barras, áreas, etc.
- Fuente: la fuente es una nota que indica de donde provienen los datos tomados como base para
construir la gráfica. Se coloca en la parte inferior de la gráfica.

Gráfico de barras
El grafico de barras tiene una gran variedad de formas (simples, partes componentes, superpuestas, etc.).
Se utilizan cuando se trata de representar atributos que no tienen variación continua, por ejemplo la
producción de cereales.
Mientras que el ancho de las barras es igual para todas, la longitud de cada una indica los datos
representados. Son efectivas para enfatizar unos pocos ítems de una o dos series de datos. También
enfatizan las diferencias entre ítems y son usadas frecuentemente para representar datos clasificados
mediante cualquier base, ya sea cronológica, geográfica, cuantitativa o cualitativa.

Gráfico angular
Estos gráficos se utilizan en casos especiales para representar datos mensuales en el transcurso de un año.
Se construye una circunferencia cuyo radio es equivalente al promedio aritmético de los valores
observados, los cuales se representan gráficamente sobre los 12 radios vectores correspondientes a cada
uno de los meses del año. Luego se unen los puntos obtenidos con una línea quebrada.

Gráficos en escalas logarítmicas y semilogarítmicas


Cuando la variable en estudio presenta crecimiento o disminución en forma muy rápida en el tempo, o
cuando es necesario representar magnitudes muy dispares entre sí, resulta imposible graficar su
comportamiento en escala natural por las dimensiones que demandaría el grafico. Para estos casos se
utilizan las escalas logarítmicas.

Gráfico de líneas.
Se utiliza para graficar la evolución de la variable a lo largo del tiempo.
En un sistema de ejes coordenados se hace corresponder el tiempo, marcando continuamente de izquierda
a derecha los periodos, empezando por el tiempo mas antiguo; y el eje de ordenadas se hace corresponder
la variable cuya evolución se estudia.
Gráfico de sectores circulares
Son especialmente utilizados cuando se quiere representar la distribución de un atributo en sus partes
componentes.
Se divide un circulo en sus partes componentes proporcionales de acuerdo a las cifras porcentuales que se
quieren representar. El número de grados representativo de cada valor se calcula mediante la aplicación de
una regla de tres simple directa (si 100%=360° entonces 32%= 32*360/100= 115,2°)

Uso adecuado de cada tipo de gráfico

Unidad Didáctica N°. 5: PROBABILIDAD Y DISTRIBUCIONES DE


PROBABILIDAD

5.1. Conceptos básicos y teorías


Incertidumbre, proceso aleatorio, espacio muestral, puntos muestrales. Eventos o sucesos. Selección
aleatoria.
Algunos conceptos básicos
1. Experimentos aleatorios. Espacio muestral.
Si dejamos caer una piedra o la lanzamos, y Experimentos o fenómenos aleatorios son los
conocemos las condiciones iniciales de altura, que pueden dar lugar a varios resultados, sin que
velocidad, etc., sabremos con seguridad dónde caerá, pueda ser previsible enunciar con certeza cuál de
cuánto tiempo tardará, etc. Es una experiencia éstos va a ser observado en la realización del
determinista. Si echamos un dado sobre una mesa, experimento.
ignoramos qué cara quedará arriba. El resultado
depende del azar. Es una experiencia aleatoria.

Por ejemplo, son experimentos aleatorios: elegir una unidad de la producción de un día a fin de
inspeccionar su calidad, preguntarle a un elector si tiene preferencia por uno u otro candidato en una
elección, registrar el número de clientes que llegan a la caja de un banco a una hora determinada, observar
los gastos mensuales en comunicaciones de una empresa.

A la colección de resultados que se obtiene


en los experimentos aleatorios se le llama Espacio muestral es el conjunto formado por todos los
espacio muestral. posibles resultados de un experimento aleatorio. Por lo
tanto, el espacio muestral es el conjunto de todos los puntos
Cada resultado posible de un experimento muestrales.
aleatorio se llama punto muestral.
En adelante se designará S.
El número de puntos muestrales que
forman el espacio muestral es N(S).

Ejemplos:

En la tirada de un dado, S = {1,2,3,4,5,6}, N(S) = 6

En la tirada de una moneda, S = {C,X}, N(S) = 2 Simbolizando con C cara y con X cruz.

Si se tiran simultáneamente al aire una moneda y un dado, el espacio muestral es:


S = { (1,C),(2,C),(3,C),(4,C),(5,C),(6,C), (1,X),(2,X),(3,X),(4,X),(5,X),(6,X) }, N(S) = 12
Gráficamente, el último ejemplo puede representarse así:
Moneda
C * * * * * *
X * * * * * *
1 2 3 4 5 6 Dado
Pero a menudo no es tan sencillo representar gráficamente un espacio muestral correspondiente a un
experimento aleatorio. Cuando éste es complejo, puede representarse mediante un diagrama de árbol.
Cualquiera sea la forma en que se escriba, dibuje o diagrame un espacio muestral S, los puntos muestrales
deben ser mutuamente excluyentes y colectivamente exhaustivos para un experimento.
Por ejemplo, si en el experimento de seleccionar facturas de un archivo, se eligen al azar tres facturas
consecutivas, y se observa la presencia o no de errores de facturación, el diagrama de árbol es el siguiente:
(simbolizando con C a la factura correcta y con C’ a la incorrecta).

1ra. Factura 2da. Factura 3ra. Factura Puntos muestrales


C (C,C,C)
C
C’ (C,C,C’)
C
C (C,C’,C)
C’
C’ (C,C’,C’)

C (C’,C,C)
C
C’ (C’,C,C’)
C’
C (C’,C’,C)
C’
C’ (C’,C’,C’)
Para empezar, vamos a prestar atención a experiencias aleatorias sencillas como lanzar dados o monedas,
extraer cartas de una baraja, sacar bolas de urnas, ...
Ejercicio 1-1:
Describe el espacio muestral asociado a cada uno de los siguientes experimentos aleatorios:
a. Lanzar tres monedas.
b. Lanzar tres dados y anotar la suma de los puntos obtenidos.
c. Extracción de dos bolas de una urna que contiene cuatro bolas blancas y tres negras.
d. El tiempo, con relación a la lluvia, que hará durante tres días consecutivos.
Solución:
a. Llamando C a obtener cara y X a la obtención de cruz, obtenemos el siguiente espacio muestral:
S = {(CCC),(CCX),(CXC),(XCC),(CXX),(XCX),(XXC),(XXX)}
b. S = {3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18}
c. Llamando B a sacar bola blanca y N a sacar bola negra, tenemos:
S = {BB,BN,NN}
d. Si llamamos L al día lluvioso y N al día sin lluvia, para tres días consecutivos se obtiene el siguiente
espacio muestral:
S = {(LLL),(LLN),(LNL),(NLL),(LNN),(NLN),(NNL),(NNN)}
2. Sucesos. Operaciones con sucesos.
2.1. Sucesos.

Suceso aleatorio es un La vida cotidiana está plagada de sucesos aleatorios. Muchos de


acontecimiento que ocurrirá o no, ellos, de tipo sociológico (viajes, accidentes, número de personas
dependiendo del azar. que acudirán a un shopping o que se matricularán en una
carrera...) aunque son suma de muchas decisiones individuales,
Es un subconjunto del espacio
pueden ser estudiados, muy ventajosamente, como aleatorios.
muestral.

En el Ejercicio 1.1 podemos ver que el espacio muestral asociado al lanzamiento de tres dados y anotar la
suma de los puntos obtenidos es:
S = {3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18}

Podemos considerar algunos subconjuntos de S, por ejemplo:

● Salir múltiplo de 5: A={5,10,15}


● Salir número primo: C={2,3,5,7,11,13,17}
D={12,13,14,15,16,17,18
● Salir mayor o igual que 12:
}

Todos estos subconjuntos del espacio muestral S se llaman sucesos.


Los elementos de S se llaman Suceso de un fenómeno o experimento aleatorio es cada uno de
sucesos individuales o los subconjuntos del espacio muestral S.
sucesos elementales.
También son sucesos el suceso vacío o suceso imposible, Ø, y el propio S, suceso seguro.
Al conjunto de todos los sucesos de una experiencia aleatoria lo llamaremos E.
Si S tiene un número finito, n, de elementos, el número de sucesos de S es 2n.
Ejemplos:
● {1,2},{2,4,6},{3,5} son sucesos. {1},{2}, {3}..., son sucesos individuales.
● En un dado hay 26 = 64 sucesos.
● En una moneda hay 22 = 4 sucesos, que son: Ø, {C},{X}, {C,X}
Es decir, S={Ø,{C},{X},{C,X}}

Ejercicio 2.1-1:
Se considera el sexo de los hijos de las familias de tres hijos. Sea A el suceso el hijo mayor es una mujer, y B
el suceso los dos hijos pequeños son varones. ¿Cuáles son los elementos de A y B?
Solución:
Llamando V a ser varón y H a ser mujer, el espacio muestral está formado por los sucesos elementales:
S = {(VVV),(VVH),(VHV),(HVV),(VHH),(HVH),(HHV),(HHH)}

Y los sucesos A y B son compuestos y están formados por los siguientes sucesos elementales:
A = {(HHH),(HHV),(HVH),(HVV)}

B = {(VVV),(HVV)}
2.2. Operaciones con sucesos.
Dados dos sucesos, A y B, se llaman:

es el suceso formado por todos los elementos de


Unión
A y todos los elementos de B.

es el suceso formado por todos los elementos que


Intersección
son, a la vez, de A y de B.

es el suceso formado por todos los elementos de


Diferencia
A que no son de B.

Suceso contrario El suceso =E - A se llama suceso contrario de A.


Dos sucesos A y B, se llaman incompatibles cuando no tienen ningún elemento común. Es decir,
cuando = Ø (A y B son disjuntos)

También se llaman mutuamente excluyentes (la presencia de uno excluye la presencia del otro).

Pueden representarse gráficamente mediante un diagrama de Venn.

Se dice que un suceso se ha verificado, si al realizar el experimento aleatorio correspondiente, el resultado


es uno de los sucesos elementales de dicho suceso. Por ejemplo, si al lanzar un dado sale 5, se ha
verificado, entre otros, los sucesos {5}, {1,3,5} o S.
De manera análoga, decimos que:

● El suceso se verifica cuando se verifica uno de los dos o ambos.

● El suceso se verifica cuando se verifican simultáneamente A y B.

● El suceso , contrario de A, se verifica cuando no se verifica A.


● Dos sucesos incompatibles no se verifican simultáneamente.
Ejemplo:
En el experimento S = "lanzar un dado al aire", consideramos los sucesos:
A = "sacar un número par". B = {1,2,3,5} = "obtener un 1, 2, 3 ó 5".
C = {4,6} = "obtener un 4 ó un 6". D = {2,4,6} = "obtener un 2, 4 ó 6".
F = {1,3} = "obtener un 1 ó un 3". G = "obtener un múltiplo de 3".
o A y D son sucesos iguales al estar formados por los mismos sucesos elementales.

o C está contenido en A. Luego = C, puesto que siempre que ocurre el suceso C


(sacar 4 ó 6) ocurre el suceso A, puesto que se obtiene un número par.

o B y C son incompatibles, ya que B C = Ø y complementarios, al cumplirse B C = S.

o = "sacar un número par" {1,2,3,5} = {1,2,3,4,5,6} = S.


o A G = {2,4,6} {3,6} = {6}, es decir, el suceso intersección de los sucesos "sacar un
número par" y "obtener un múltiplo de tres" es "sacar un 6".

o B-D = B = {1,2,3,5} {1,3,5} = {1,3,5} = "obtener un número impar" = .


o C y F son incompatibles puesto que C F = Ø.

Las operaciones unión, intersección y complementación (contrario) verifican las propiedades:


Unión Intersección

1. Conmutativa

2. Asociativa

3. Idempotente

4. Simplificación

5. Distributiva

6. Elemento
neutro

7. Absorción

A las familias de conjuntos que verifican las propiedades anteriores se les denomina álgebras de Boole.

En el álgebra de Boole anterior se verifican las siguientes propiedades, conocidas como leyes de De
Morgan:
● El suceso contrario de la unión de dos sucesos es la intersección de sus sucesos contrarios:

● El suceso contrario de la intersección de dos sucesos es la unión de sus sucesos contrarios:

Ejercicio 2.1-2:
Tenemos una urna con nueve bolas numeradas del 1 al 9. Realizamos el experimento, que consiste en sacar
una bola de la urna, anotar el número y devolverla a la urna. Consideramos los siguientes sucesos: A="salir
un número primo" y B="salir un número cuadrado". Responde a las cuestiones siguientes:

a. Calcula los sucesos y .


b. Los sucesos A y B, ¿son compatibles o incompatibles?
c. Encuentra los sucesos contrarios de A y B.
Solución:
Los sucesos A y B están formados por los sucesos elementales que pueden verse a continuación:
A = {2,3,5,7} B = {1,4,9} A partir de estos conjuntos, tenemos:
1. La unión e intersección de A y B son:

= {1,2,3,4,5,7,9}

2. Al ser = Ø, los sucesos A y B son incompatibles.


3. El suceso contrario de A es = {1,4,6,8,9}
El suceso contrario de B es = {2,3,5,6,7,8}
Sucesos colectivamente exhaustivos

Se dice que varios sucesos son colectivamente exhaustivos, cuando entre todos constituyen el espacio
muestral.
Gráficamente:

A B C D=S

Concepto de probabilidad de un suceso.


La definición axiomática de probabilidad se debe a Kolmogorov, quien consideró la relación entre la
frecuencia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el
experimento es muy grande.

Sea S el espacio muestral de cierto experimento aleatorio. La Probabilidad de cada suceso


es un número que verifica:

1. Cualquiera que sea el suceso A, P(A) 0. (Ley de no negatividad)


2. Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la
suma de sus probabilidades.

=Ø P( ) = P(A) + P(B). (Ley aditiva especial)


3. La probabilidad total es 1. P(S) = 1.

Por ejemplo, la probabilidad de que salga cara al lanzar una moneda es de 1/2, ya que hay dos casos
posibles (cara o cruz) y solo uno de ellos es favorable (cara).

Teorías:
Existen tres escuelas de pensamiento que permiten definir e interpretar la probabilidad de un suceso. Ellas
son:

- Clásica.
Definición de Laplace. Teoría Clásica.
En el caso de que todos los sucesos elementales del espacio muestral E sean equiprobables, Laplace define
la probabilidad del suceso A como el cociente entre el número de resultados favorables a que ocurra el
suceso A en el experimento y el número de resultados posibles del experimento.

De la frecuencia relativa
Un experimento aleatorio se caracteriza porque repetido muchas
veces y en idénticas condiciones el cociente entre el número de Probabilidad de un suceso es el número al
veces que aparece un resultado (suceso) y el número total de que tiende la frecuencia relativa asociada al
veces que se realiza el experimento tiende a un número fijo. Esta suceso a medida que el número de veces
propiedad es conocida como ley de los grandes números, que se realiza el experimento crece.
establecida por Jakob Bernouilli. Tiene el inconveniente de variar
la sucesión de las frecuencias relativas de unas series de realizaciones a otras, si bien el valor al que se
aproximan a medida que el número de realizaciones aumenta se mantiene estable.
La frecuencia relativa del suceso A:

Propiedades de la frecuencia relativa:

4. 0 fr (A) 1 cualquiera que sea el suceso A.

5. fr( ) = fr(A) + fr(B) si = Ø.

6. fr(E) = 1 fr(Ø) = 0.
Esta definición presenta el inconveniente de tener que realizar el experimento un gran número de veces y
además siempre obtendremos un valor aproximado de la probabilidad.

Personalista o subjetiva.
Contrariamente a las anteriores, que son objetivas, esta teoría es subjetiva. La teoría clásica es objetiva
porque se basa en la deducción de un conjunto de supuestos, y la teoría de la frecuencia relativa lo es
porque la probabilidad de un suceso es determinada por repetidas observaciones empíricas.
Esta teoría personalista considera la probabilidad como una medida de la confianza personal en la
ocurrencia de un suceso. Un subjetivista asigna un peso entre cero y uno a un suceso, según su grado de
creencia en su posible ocurrencia.
Por ejemplo, si se tiene el doble de confianza en la ocurrencia de un suceso A que en la del suceso B, y si A
y B son los dos únicos hechos posibles, se asignarán los valores:
P(A) = 2/3 y P(B) = 1/3
Se utiliza cuando las otras teorías no pueden aplicarse, ya sea porque el suceso de interés es inédito, está
enmarcado en una circunstancia que ocurre por primera vez, por lo tanto, no pueden determinarse las
probabilidades a priori; pero tampoco puede repetirse empíricamente la experiencia de manera que no
puede aplicarse la teoría de la frecuencia relativa. Un ejemplo característico del uso de esta teoría
subjetiva, es cuando se realizan elecciones para ocupar algún cargo. Generalmente es un suceso sin
antecedentes, y tampoco puede replicarse una gran cantidad de veces.
El inconveniente que los objetivistas encuentran en esta forma de asignar probabilidades a los sucesos, es
que diferentes individuos razonables pueden diferir en su grado de confianza, por lo tanto, las
probabilidades personalistas para un mismo suceso, pueden diferir a los ojos de las personas que toman
decisiones.
Pero también hay que destacar que los subjetivistas pueden obtener probabilidades en todos los casos en
que los objetivistas lo hacen, y en muchos más en que ellos no pueden calcular.
Algunos autores mencionan una cuarta forma de definir la probabilidad de un suceso, mediante axiomas.
● Definición axiomática.
La definición axiomática de probabilidad se debe a Kolmogorov, quien consideró la relación entre la
frecuencia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el
experimento es muy grande.

Sea S el espacio muestral de cierto experimento aleatorio. La Probabilidad de cada suceso


es un número que verifica:

1. Cualquiera que sea el suceso A, P(A) 0. (Ley de no negatividad)


2. Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la
suma de sus probabilidades.

=Ø P( ) = P(A) + P(B). (Ley aditiva especial)


3. La probabilidad total es 1. P(S) = 1.

Ejemplo:

Consideremos el experimento "lanzar un dado de quinielas y anotar el resultado".

El espacio muestral es S = {1,X,2}.

Las probabilidades de cada uno de los sucesos son:


● P(Ø) = 0

● P({1}) = 1/3 P({X}) = 1/3 P({2}) = 1/3


● P({1,2}) = P({1}) + P({2}) = 1/3 + 1/3 = 2/3 P({1,X}) = 2/3 P({2,X}) = 2/3
● P({1,X,2}) = P(E) = 1

5.2. Teoremas de probabilidad


Los teoremas de probabilidad son fórmulas matemáticas que permiten calcular la probabilidad de que
ocurra un suceso o un conjunto de sucesos.

Leyes aditivas (total).

Llamamos sistema completo de sucesos a una familia de sucesos A1, A2, ...,An que cumplen:
1. Son incompatibles dos a dos, Ai Aj = Ø

2. La unión de todos ellos es el suceso seguro,

Teorema de la probabilidad total


Sea A1, A2, ...,An un sistema completo de sucesos tales que la probabilidad de cada uno de ellos es
distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales
P(B/Ai), entonces la probabilidad del suceso B viene dada por la expresión:

Ejercicio 7-1:
Una compañía dedicada al transporte público explota tres líneas de una ciudad, de forma que el 60% de los
autobuses cubre el servicio de la primer línea, el 30% cubre la segunda y el 10% cubre el servicio de la
tercera línea. Se sabe que la probabilidad de que, diariamente, un autobús se averíe es del 2%, 4% y 1%,
respectivamente, para cada línea. Determina la probabilidad de que, en un día, un autobús sufra una
avería.
Solución:
El suceso "sufrir una avería" (Av) puede producirse en las tres líneas, (L1, L2, L3). Según el teorema de la
probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, tenemos:

P(Av) = P(L1) · P(Av/L1) + P(L2) · P(Av/L2) + P(L3) · P(Av/L3) =


= 0.6 · 0.02 + 0.3 · 0.04 + 0.1 · 0.01 =
= 0.012 + 0.012 + 0.001 = 0.025

Leyes multiplicativas (compuesta).


El conocimiento de que ha ocurrido el suceso A modifica, en algunas ocasiones, la probabilidad del suceso
B, pero en otras no. Los sucesos en los que, conociendo que uno ha ocurrido, no se modifica la
probabilidad del otro, decimos que son independientes y, si se modifica, decimos que son dependientes
entre sí.
En los experimentos de selección aleatoria de elementos de un espacio muestral, el hecho de reponer o no
reponer el elemento extraído influye en la determinación de la probabilidad de los sucesos.
Si la selección se realiza sin reposición, se generan sucesos dependientes, en caso contrario no lo son.
Resumiendo:
Sin reposición → Sucesos dependientes
Selección aleatoria
Con reposición → Sucesos independientes

Se dice que dos sucesos A y B son independientes entre sí, si la ocurrencia de uno de ellos no modifica
la probabilidad del otro, es decir, si

P( B/A ) = P( B ) ó P( A/B ) = P( A )

Se dice que dos sucesos A y B son dependientes entre sí, si la ocurrencia de uno de ellos modifica la
probabilidad del otro, es decir, si
P( B/A ) P( B ) ó P( A/B ) P( A )

Como consecuencia inmediata de la definición se tiene:


● Dos sucesos A y B son independientes si se cumple:
P( A B ) = P( A ) · P( B )
● Tres sucesos A, B y C son independientes si se cumplen a la vez:
P( A B ) = P( A ) · P( B )
P( A C ) = P( A ) · P( C )
P( B C ) = P( B ) · P( C )
P( A B C ) = P( A ) · P( B ) · P( C )
Ejercicio 5-1:

Se consideran dos sucesos, A y B, asociados a un experimento aleatorio con P(A)=0.7; P(B)=0.6; P(


)=0.58.
a. ¿Son independientes A y B?

b. Si M A, ¿cuál es el valor de P( / )?
Solución:
a. Para ver si son independientes, comprobaremos si P( A B ) = P( A ) · P( B )

P( ) = P[(A B)c] = 1 - P(A B)

Por tanto, P(A B) = 1 - P( ) = 1 -0.58 = 0.42

Por otro lado, P( A ) · P( B ) = 0.7 · 0.6 = 0.42

Luego, A y B son independientes, pues P( A B ) = P( A ) · P( B ) = 0.42

b. M A . Por tanto,

Ejemplos de aplicación
Ejemplo 1. El supervisor de un grupo de 20 obreros pide la opinión de dos de ellos (seleccionados al azar)
sobre las nuevas disposiciones de seguridad en la construcción. Si 12 están a favor de las nuevas
disposiciones y los 8 restantes en contra, ¿cuál es la probabilidad de que ambos trabajadores elegidos por
el supervisor estén en contra de las nuevas disposiciones?
Llamando C al suceso de obreros en contra de las disposiciones,
P(C1 y C2) = P(C1 ∩ C2) = P(C1). P(C2 / C1) = (8 / 20) . (7 / 19) = 0,1474 ≈ 15%
Probabilidad Condicional.
En los teoremas de probabilidad, la probabilidad condicional es la probabilidad de que ocurra un suceso,
dado que otro suceso ya ha ocurrido.
En el cálculo de las probabilidades de algunos sucesos, el valor de dicha probabilidad variará en función del
conocimiento de determinadas informaciones relativas a estos sucesos. Por ejemplo, si se dispone de una
urna que contiene cuatro bolas numeradas del 1 al 4, se extrae una bola y seguidamente se vuelve a
introducir para realizar una segunda extracción, la probabilidad de extraer, por ejemplo, la bola número 3
en la segunda extracción es la misma que en la primera.
Si se realiza el mismo proceso sin reemplazar la bola extraída la probabilidad de extraer, por ejemplo, la
bola número 3 en la segunda extracción dependerá de la bola extraída en primer lugar.
El hecho de disponer de información adicional tiene como consecuencia la reducción del espacio muestral
a un subconjunto del mismo. Por ejemplo, observando la figura siguiente:

Se ve que, si se selecciona al azar un elemento del espacio muestral S, y se comprueba que pertenece al
suceso A, entonces la probabilidad de que también pertenezca a B es una Probabilidad condicional. Se
simboliza P(B/A) y se lee probabilidad condicional de B dado A.
Para determinar la probabilidad de B, conociendo que el elemento seleccionado pertenece a A, no es
necesario utilizar el espacio muestral S, sino una porción del mismo, el espacio muestral reducido, A.
Entonces, P(B/A) = n(A∩B) dividiendo por N(S)
N(A)

P(B/A) = n(A∩B) / N(S) = P(A∩B) con P(A) ≠ 0


N(A) / N(S) P(A)

Por otra parte, P(A/B) = P(A∩B) con P(B) ≠ 0


P(B)

Sean A y B dos sucesos tales que P( A ) 0, se llama probabilidad de B condicionada a A, P(B/A), a la


probabilidad de B tomando como espacio muestral A, es decir, la probabilidad de que ocurra B dado
que ha sucedido A.

De esta igualdad se deduce: P( B A ) = P( B/A ) · P( A ) (Ley multiplicativa general)


La fórmula anterior adopta la forma para tres sucesos, A, B y C:
P( A B C ) = P( A ) · P( B/A ) · P( C/A B)
Esta fórmula admite una generalización para un número cualquiera de sucesos.

Ejemplo:
Consideremos el experimento de "lanzar un dado al aire". Calculemos, por ejemplo, la
probabilidad de obtener un 3 sabiendo que ha salido un número impar:
Definimos los sucesos A="sacar 3" y B= {1,3,5}; entonces, P(A/B)=1/3 puesto que si sabemos que
ha salido un número impar, los casos posibles ahora son 3 y los casos favorables al suceso A sólo
1.

Síntesis
5.3. Aplicaciones de la probabilidad a tablas de contingencia
- Tabla de probabilidades conjuntas y marginales.

Una tabla de probabilidades conjuntas es una tabla que muestra la probabilidad de que ocurran dos o más
sucesos simultáneamente.
En una tabla de probabilidades conjuntas, cada fila representa un suceso y cada columna representa un
valor posible para el segundo suceso. La celda en la intersección de una fila y una columna representa la
probabilidad de que ocurran el suceso de la fila y el valor posible del suceso de la columna.
Una tabla de probabilidades marginales es una tabla que muestra la probabilidad de que ocurra un suceso
solo.
En una tabla de probabilidades marginales, cada fila representa un suceso y cada columna representa la
probabilidad de que ocurra el suceso.

- Tabla de perfiles filas. Tabla de perfiles columnas.


Cómo construir tablas de perfiles filas y de perfiles columnas:
Se construyen a partir de datos arreglados en una tabla de contingencia o de clasificación cruzada.
Ejemplo: Los resultados de aplicar tres estrategias de diseño en una empresa y los resultados obtenidos se
muestran en la tabla siguiente:

Estrategia Resultados TOTAL

Bajo Medio Alto

A 14 22 38 74

B 10 11 49 70

C 6 11 48 65

TOTAL 30 44 135 209

La tabla de perfiles filas se construye así:

Estrategia Resultado

Bajo Medio Alto TOTAL

A (14/74)100=18,9% (22/74)100=29,7% (38/74)100=51,4% 100%

B 100%

C 100%

TOTAL 100%
Habría que completarla, pero creo que con calcular una fila es suficiente. En la segunda fila se debe dividir
por 70 y en la tercera por 65. Todas las filas deben sumar 100%.
Indica cómo está constituida cada fila.
Y se interpreta así:
De la aplicación de la estrategia A, 18,9% dio resultado Bajo, 29,7% dio resultado Medio y 51,4% dio
resultado Alto.
Y así para cada fila.
La tabla de perfiles columna se construye así:

Estrategia Resultado

Bajo Medio Alto TOTAL

A (14/30)100=46,7%

B (10/30)100=33,3%

C (6/30)100=20%

TOTAL 100% 100% 100% 100%

Para la segunda columna hay que dividir cada frecuencia de casilla por 44, y en la tercera por 135. La suma
de todas las columnas debe ser 100%.
Indica cómo está constituida cada columna.
La interpretación es: de los resultados Bajo que se obtuvieron, 46,7% corresponden a la aplicación de la
estrategia A, 33,3% a la B y 20% a la C.

5.4. Variables aleatorias


Funciones de probabilidad y funciones de densidad.
una función de probabilidad es una función que asigna una probabilidad a cada valor posible de una
variable aleatoria. Se representa con la letra griega f(x).
Una función de densidad es una función que asigna una probabilidad a cada intervalo de valores de una
variable aleatoria. Se representa con la letra griega f(x).
Diferencias entre funciones de probabilidad y funciones de densidad:
La principal diferencia entre las funciones de probabilidad y las funciones de densidad es que las funciones
de probabilidad se utilizan para variables aleatorias discretas, mientras que las funciones de densidad se
utilizan para variables aleatorias continuas.
En las variables aleatorias discretas, los valores posibles son finitos o infinitos contables. En las variables
aleatorias continuas, los valores posibles son infinitos no contables.
Interpretación de las funciones de probabilidad y las funciones de densidad:
La función de probabilidad de una variable aleatoria se puede interpretar como la probabilidad de que la
variable aleatoria tome un valor determinado. La función de densidad de una variable aleatoria se puede
interpretar como la probabilidad de que la variable aleatoria tome un valor en un intervalo determinado.

Funciones de distribución acumulativa.


Función de distribución acumulada

● Puede tomar cualquier valor (-infinito, +infinito).


● Son más probables los valores cercanos a uno central que llamamos media μ.
● Conforme nos separamos de ese valor μ, la probabilidad va decreciendo de igual forma a derecha e
izquierda (es simétrica).
● Conforme nos separamos de ese valor μ , la probabilidad va decreciendo de forma más o menos
rápida dependiendo de un parámetro σ , que es la desviación típica.

P(μ - σ < X < μ + σ) = 68,2%


P(μ - 2σ < X < μ + 2σ) = 95,4%
P(μ - 3σ < X < μ + 3σ) = 99,6%
F(x) es el área sombreada de esta gráfica

Para calcular probabilidades en intervalos de valores de la variable, habría que integrar la función de
densidad entre los extremos del intervalo. Por desgracia (o por suerte), la función de densidad normal no
tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a tablas de la función de
distribución de la variable (calculadas por integración numérica). Estas tablas tendrían que ser de triple
entrada (μ, σ, valor) y el asunto tendría una complejidad enorme.

Esperanza y varianza de variables aleatorias.

Distribuciones de probabilidad
Las distribuciones de probabilidad son idealizaciones de los polígonos de frecuencias. En el caso de una
variable estadística continua consideramos el histograma de frecuencias relativas, y se comprueba que al
aumentar el número de datos y el número de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la gráfica de una función.

Las distribuciones de probabilidad de variable continua se definen mediante una función y=f(x) llamada
función de densidad.
Así como en el histograma la frecuencia viene dada por el área, en la función de densidad la probabilidad
viene dada por el área bajo la curva, por lo que:
● El área encerrada bajo la totalidad de la curva es 1.
● Para obtener la probabilidad p(a≤X≤b) obtenemos la proporción de área que hay bajo la curva
desde a hasta b.
● La probabilidad de sucesos puntuales es 0, p(X=a)=0
Las distribuciones de probabilidad continua más utilizadas son: Uniforme, Normal, Gamma, Exponencial,
Chi-cuadrado (χ2), t de Student, F de Snedecor.

Normal.
DISTRIBUCIÓN NORMAL
La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor importancia en el
campo de la estadística.
Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus valores son el
resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto
infinitesimal.
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su
extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a
parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de
campana.

Histograma de una normal idealizada Histograma de una muestra de una variable


normal
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores
de n cada vez mayores, se ve que sus gráficos de frecuencias se aproximan a una curva en "forma de
campana".
En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables
asociadas a fenómenos naturales que siguen el modelo de la normal
● Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas,
pesos, envergaduras, diámetros, perímetros,...
● Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma
cantidad de abono.
● Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.
● Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
● Errores cometidos al medir ciertas magnitudes.
● Valores estadísticos muestrales, por ejemplo: la media.
● Otras distribuciones como la binomial o la de Poisson pueden tener aproximaciones normales, ...
Y en general cualquier característica que se obtenga como suma de muchos factores.
Las variables normales tienen una función de densidad con forma de campana a la que se llama campana
de Gauss.
Características de la distribución normal tipificada (reducida, estándar)
● No depende de ningún parámetro
● Su media es 0, su varianza es 1 y su desviación típica es 1.
● La curva f(x) es simétrica respecto del eje OY
● Tiene un máximo en este eje
● Tiene dos puntos de inflexión en z =1 y z = -1

Chi cuadrado.
la distribución chi-cuadrado es una distribución de probabilidad continua que se utiliza para probar la
bondad de ajuste de una distribución teórica a una distribución observada.

t de Student.

la distribución t de Student es una distribución de probabilidad continua que se utiliza para realizar pruebas
estadísticas cuando la desviación estándar de la población es desconocida.

La distribución t de Student tiene las siguientes propiedades:

● La media de la distribución t de Student con n grados de libertad es 0.

● La varianza de la distribución t de Student con n grados de libertad es n / (n - 2).


● La distribución t de Student se aproxima a la distribución normal estándar a medida que n aumenta.

Interpretación de la distribución t de Student

La distribución t de Student se puede interpretar como la distribución de la suma de las desviaciones estándar de n
variables aleatorias normales estándar divididas por la raíz cuadrada de n.

Unidad Didáctica N° 6: DISTRIBUCIONES ESTADÍSTICAS


BIVARIABLES

6.1. Asociación entre variables.

En el estudio de la asociación entre variables hay dos aspectos distintos, pero relacionados,
● Análisis de regresión
● Análisis de correlación
El análisis de regresión establece la naturaleza de la relación entre las variables, la relación funcional
que proporciona un mecanismo de predicción. En cambio, el análisis de correlación determina el grado de
la relación entre las variables.

Diagrama de dispersión.
Para orientarnos con respecto a todos los aspectos de la Asociación entre variables mencionados, existe
una herramienta muy eficaz y sencilla que a simple vista nos ayuda a interpretarlos; se trata del Diagrama
de Dispersión de los datos observados. Consiste en una representación gráfica de los pares ordenados [xi ,
yi] en un sistema de coordenadas cartesianas, donde en el eje de abcisas se colocan los valores de X y en el
eje de ordenadas los valores de la variable Y.
Ahora bien, ¿cuáles son los conceptos fundamentales y las interrelaciones en esta temática? Los
podremos representar gráficamente en el esquema conceptual que se indica a continuación:
2.3. Ejemplo de aplicación
En una compañía de seguros se desea determinar la relación entre la experiencia en ventas de los
vendedores y el volumen de las mismas. Se selecciona una muestra aleatoria de diez vendedores y se
encuentra que sus años de experiencia (X) y el volumen de ventas anuales normales (Y), en miles de pesos,
son los siguientes:

X: 1 2 3 4 5 6 7 8 9 10
Y: 2 1 3 3 4 5 6 5 7 6
¿Podríamos averiguar gráficamente si existe relación lineal entre la cantidad de años de experiencia de
los vendedores y el volumen de ventas anual?
Por supuesto que sí, lo haremos dibujando el diagrama de dispersión de los datos.
El diagrama de dispersión de los datos refleja alta relación positiva entre el número de años de
experiencia en ventas de los vendedores y el volumen de ventas anuales, porque ambas variables varían en
el mismo sentido, es decir, aumenta una y también aumenta la otra.
6.1.1. Análisis de correlación lineal
En el modelo de regresión se supone que la variable independiente (o las variables independientes) se
conocen sin error, porque toma los valores que el investigador selecciona. Si bien esto es aplicable a
múltiples situaciones experimentales, existen también problemas en los cuales tanto las x como las y son
valores asumidos por variables aleatorias. Por ejemplo, la relación entre las precipitaciones pluviales y la
producción de una cosecha.
En este tipo de situaciones, el análisis de correlación es aplicable para determinar el grado de relación
que existe entre las variables de interés.
La medida del grado de relación entre dos variables se llama coeficiente de correlación, representado
por ρ (ro).

Suposiciones básicas.
1.- X e Y son variables aleatorias, por lo tanto no es necesario establecer si una es independiente y la
otra dependiente, porque cualquier designación proporcionará el mismo resultado.
2.- La población bivariable es normal. Es decir, X e Y están normalmente distribuidas, con sus
respectivas esperanza y varianza.
E(X) = μX y V(X) = σX2 y
E(Y) = μY y V(Y) = σY2
3.- La relación entre X e Y es lineal. Esto implica que todas las medias de Y asociadas con valores X, μYX ,
caen sobre una línea recta que es la recta de regresión de X sobre Y.
Según los supuestos anteriores, el coeficiente de correlación de la población se define como la
covarianza entre X e Y, dividida por el producto de las desviaciones estándares de las variables.
=

Coeficiente de correlación lineal: concepto. Propiedades. Campo de variación. Importancia. Cálculo.

El coeficiente de correlación lineal, también conocido como coeficiente de correlación de Pearson, es una
medida de la relación lineal entre dos variables cuantitativas.
El coeficiente de correlación “ρ” tiene las siguientes propiedades:
1.- La ecuación contiene los cinco parámetros de una población bivariable normal: μX , σX , μY ,σY y ρ.
2.- ρ es simétrico con respecto a Y y X, es decir, si se intercambian X e Y no cambia el coeficiente de
correlación.
3.- Cuando Cov (Y,X) = 0 ρ = 0 (no hay relación).
Cuando hay covariabilidad perfecta y las variables varían en el mismo sentido, ρ = 1.
Cuando hay covariabilidad perfecta, pero X e Y varían en sentido contrario, ρ = -1.
Cuando existe cierto grado de covariabilidad entre X e Y, es
-1 < ρ < 0 ó 0<ρ<1
Gráficamente, el diagrama de dispersión puede ser:
Y

Correlación lineal positiva: X e Y varían en el mismo sentido: 0 < ρ < 1.


0 X
Correlación lineal positiva perfecta: ρ = 1

Correlación lineal negativa: X e Y varían en sentido contrario: - 1 < ρ < 0.

Inferencia estadística del coeficiente de correlación lineal.


Para realizar inferencias a partir de r se debe analizar su distribución por muestreo. Este coeficiente
tiene una distribución simétrica cuando ρ = 0 y es asimétrica cuando ρ ≠ 0. Para una población normal
bivariable, la distribución de r se aproxima a una distribución normal cuando n → ∞ . Cuando ρ = 0, hay
una transformación para la cual los valores transformados de r tienen distribución tn-2.
Entonces,
~ t de Student con δ = n-2 grados de libertad.
Como esta transformación sólo se aplica en el caso en que ρ = 0, no se puede utilizar para estimación
del intervalo de confianza para ρ , pero sí puede usarse como estadística de prueba para la hipótesis nula
de que ρ = 0, contra una alternativa apropiada.
Cuando la hipótesis nula es rechazada no se puede enunciar explícitamente la relación entre las
variables.
Si se quiere probar una hipótesis nula de que ρ tiene un cierto valor distinto de cero, o si se quiere
construir un intervalo de confianza para ρ , se puede emplear una transformación z, que aproxima la
distribución de r a una normal.

Ejemplo de aplicación
Los datos siguientes corresponden a la cantidad de minutos, X, que tardan 10 mecánicos en
ensamblar cierta pieza de una maquinaria en la mañana, y la variable Y representa el tiempo que ocupan
en la tarde:

X 11,1 10,3 12,0 15,1 13,7 18,5 17,3 14,2 14,8 15,3

Y 10,9 14,2 13,8 21,5 13,2 21,1 16,4 19,3 17,4 19,0

Responde las siguientes preguntas:


a) ¿Existe correlación lineal entre las variables?
b) Si existe ¿cuánto mide?
c) ¿Es estadísticamente significativa la correlación lineal entre X e Y?

Para responder al punto a) debemos realizar el diagrama de dispersión de los datos observados. Como ya
se han hecho varios diagramas de dispersión, al estudiar el tema les sugiero que lo hagan como un ejercicio
más.
Vamos a suponer que el diagrama de dispersión indica que existe correlación lineal positiva. Entonces
resolvemos los otros puntos.
b) Tabla de resultados

n = 10 xi yi = 2.434,69

xi = 142.3 yi = 166.8

xi2 = 2.085,31 yi2 = 2.897,80


= 14,23 = 16.68
Con estos resultados es:

Por lo tanto, existe correlación lineal positiva bastante alta.


c) Para resolver este punto debemos realizar una prueba de hipótesis para el parámetro ρ.
1. Hipótesis: H0: ρ = 0 (no existe correlación lineal estadísticamente significativa entre X e Y)
H1: ρ ≠ 0 (existe correlación lineal estadísticamente significativa entre X e Y).
2.- Nivel de significación: P(e1) = α = 0.05

3.- Estadística de prueba: ~ t(n-2) bajo el supuesto de que H0 es verdadera.


4.- Criterio de decisión: rechazar la hipótesis nula si, solo si :
t < -t (α/2), (n-2) ó t > t(α/2), (n-2)
t < -t (0.025), (8) ó t > t(0.025), (8)
t < - 2,306 ó t > 2,306
La región crítica se encuentra en ambas colas bajo la curva de t.
P

0.025 0.025

-2,306 0 2,306 t
R No rechazo R

5.- Cálculos:
6.- Decisión: como 3.021 > 2,306 ⇒ SE RECHAZA H0
7.- Conclusión: el rechazo de la hipótesis nula indica que la correlación lineal entre X e Y es
estadísticamente significativa.
6.1.2. Análisis de regresión
Modelo de regresión bivariable lineal.
Una variable Y, dependiente, se relaciona con una variable X, independiente, por la siguiente
expresión:
yi = α + βxi + εi
donde α y β son los parámetros de regresión desconocidos llamados coeficientes de regresión de
población, y εi es el error o residual.
Decir Y dependiente y X independiente, significa que Y es función de X, matemáticamente, no implica
dependencia estadística, ni causa y efecto.
La expresión del modelo de regresión consta de dos partes:
yi = ( α + βxi ) + εi

sistemática estocástica
La parte estocástica hace que el modelo sea probabilista y no determinista. La naturaleza estocástica
del modelo de regresión implica que el valor de Y nunca puede predecirse con exactitud como en un caso
determinista. εi, que es una variable aleatoria, imparte aleatoriedad a Y. Por ejemplo, plantas de la misma
edad (xi) seguramente no tendrán la misma altura (yi), debido a la influencia de factores casuales. εi puede
representar errores de medición en Y o puede surgir por la exclusión de otras variables explicativas
importantes y relevantes en el modelo, o por ambas causas. La inclusión de otras variables conduciría a un
modelo de regresión múltiple.
Ahora bien, ¿siempre se puede utilizar este modelo de regresión bivariable lineal para analizar la
naturaleza de la asociación entre dos variables?
La respuesta para esta pregunta la encontraremos en un conjunto de supuestos básicos que hacen
válidas y confiables las conclusiones.

Supuestos básicos.
1.- La variable independiente X toma valores fijados por el investigador, y para cada valor de X, xi,
existe una subpoblación de valores de Y con distribución normal. Por ejemplo, si X es edad, el investigador
puede seleccionar individuos que tengan las edades que son de su interés, y para cada edad fijada habrá
varios valores de Y (altura o peso). En el gráfico siguiente puede verse con claridad el significado de este
supuesto básico:
2.- El error εi es una variable aleatoria cuya distribución de probabilidades se supone que es normal con
E(εi) = 0; esto significa que para cualquier valor de xi , se supone que las diferencias entre los valores de yi y
μy/x algunas veces son positivas y otras negativas. Estas diferencias se compensan y se produce que E(εi) =
0.
Entonces la esperanza condicional de yi dado xi, es:
E(yi / xi) = μYX = E(α + βxi + εi) = α + βΕ(xi) + 0 = α + βxi
El resultado obtenido se llama ecuación de regresión de población de Y sobre X, que da el valor
medio de Y dado un valor fijo de X. α es el valor medio de Y cuando X = 0; β mide el cambio en el valor
medio de Y correspondiente a una unidad de cambio en X.
En el gráfico α + βxi se llama línea de regresión poblacional, donde α es la ordenada al origen del
sistema de coordenadas, y β es la pendiente de la línea de regresión.
3.- La varianza condicional de Y dada X se llama varianza de la regresión y se simboliza σ2YX. Se supone que
es constante para todo X, y es igual a la varianza de εi, σ2ε.
V(yi) = E[yi - E(yi )]2 = E[α + βxi + εi - E(α + βxi + εi)]2 =
= E(α + βxi + εi − α − βxi )2 = E(εi2) = σ2ε = σ2
Esta propiedad se llama homocedasticidad, cuyo significado se comprende mejor por la noción de
heterocedasticidad, que se presenta cuando, por ejemplo, las variaciones en la altura de los árboles
podrían disminuir al aumentar las edades de los mismos; o donde las variaciones en el gasto para consumo
son mayores al aumentar el nivel de ingresos de las familias. Esto significa que si se quiere estudiar la
distribución del consumo (y) en función del ingreso (x), es probable que para valores pequeños de x, la
distribución del consumo sea más homogénea, puesto que en estos niveles de ingreso, se consume
prácticamente todo lo que se gana. En cambio, para valores altos de ingresos la dispersión del consumo
será más grande, ya que las decisiones con respecto al ingreso serán más dispares. Algunas familias gastan
más, otras ahorran, otras invierten, etc.
4.- εi es independiente de xi , y εi es independiente de εj .
Esto significa que el signo y el tamaño de un error no condiciona el signo o la magnitud de otro. Este
supuesto es violado generalmente cuando las observaciones se toman a través del tiempo.
Por ejemplo, si se está estudiando la demanda mensual de electrodomésticos, es muy probable que la
demanda de un mes determinado esté condicionada a la demanda del mes anterior. Si un mes se compran
muchos electrodomésticos, es probable que al mes siguiente esta demanda disminuya porque se puede
producir una cierta saturación del mercado.
En la práctica no siempre se cumplen estos supuestos básicos, que permiten calcular estimadores para
los parámetros de regresión desconocidos, y realizar inferencias con respecto a los mismos.
Que no se verifique el primer supuesto no es tan grave, se pueden obtener resultados muy útiles aún
cuando X sea una variable aleatoria. Si εi no es independiente de sí misma los términos de error están
autocorrelacionados. Si la varianza no es constante se dice que los términos de error son heterocedásticos.
Si E(εi) ≠ 0 para algunos valores de X, indica que la regresión no es lineal, sino de alguna otra forma. Si εi no
se distribuye normalmente los estimadores derivados del supuesto de normalidad no tienen las
propiedades que tendrían si εi tiene distribución normal, y puede ser muy difícil descubrir qué propiedades
tienen los estimadores. Existen métodos econométricos para estimar los parámetros de regresión cuando
no se cumplen los supuestos.
Para concluir esta sección, veremos el gráfico siguiente, en el cual se expresa que para cada valor de X,
la distribución de probabilidad de Y es normal, con varianza constante σ2 y promedio μy/x , que varía
linealmente cuando cambia X.

Estimación de los parámetros de regresión por el método de mínimos cuadrados.


Si de una población bivariable, en la cual el investigador ha determinado previamente cada valor de X, se
extrae una muestra al azar de tamaño n, se obtienen observaciones(xi,yi) para i = 1, 2, . . . , n.
El modelo de regresión lineal de la muestra es:
yi = a + bxi + ei ,
y la ecuación de regresión de Y sobre X de la muestra es:

= a + bxi

En estas dos ecuaciones yi e indican el valor individual de Y y el valor calculado (estimado) de Y,


respectivamente.
Despejando se tiene: ei = yi − a − bxi

donde ei son los errores o residuales, estimadores de εi, con = 0,


a y b son los estimadores de α y β, respectivamente.
Gráficamente,
Debido al supuesto de linealidad del modelo, (a + bxi) se llama estimador lineal de (α + βxi). El estimador
lineal ideal que se busca es el mejor estimador insesgado lineal (MEIL), y se obtiene aplicando el método
de mínimos cuadrados.
Dada la dependencia lineal entre Y y X y los n pares de valores observados (yi, xi), el método de
mínimos cuadrados produce estimadores paramétricos a y b tales que

ei2 = (yi − )2 = [yi − (a + bxi)]2 , i = 1, 2, ... , n


es un mínimo.
El criterio de mínimos cuadrados selecciona valores para a y b que minimizan la suma de cuadrados de

las diferencias entre los valores realmente observados, yi , y los valores estimados, . Esto significa que
las estimaciones a y b proporcionan la ecuación de la recta de regresión de Y sobre X, que “pasa más cerca
de todos los puntos” del diagrama de dispersión.
Para demostrar que la expresión anterior es un mínimo, se debe aplicar derivación parcial con
respecto a a y a b; y mediante el criterio de la derivada segunda (derivada primera igual a cero y derivada
segunda positiva), se obtiene el siguiente sistema de “ecuaciones normales”:

yi = na + b xi
yixi = a xi + b xi2 , i = 1, 2, ... , n

De la primera ecuación se deduce que a= −b


Multiplicando la segunda ecuación por n y restando de ella la primera ecuación multiplicada por Σxi ,
se obtiene la siguiente expresión:

Si se transforma la variable X de manera tal que xi = 0, entonces:

a= y b= yixi / ( xi)2
Ejemplo de aplicación
Ahora retomaremos el ejemplo de la compañía de seguros (página 9), y con esos datos numéricos,
calcularemos la ecuación de regresión lineal simple de la cantidad de años de experiencia en ventas que
tienen los vendedores, sobre el volumen de ventas de la compañía.
Una forma sencilla de obtener los datos necesarios para aplicar las fórmulas de estimación de los
parámetros de regresión, a y b, es elaborar, utilizando las características de la calculadora científica, la tabla
de resultados que se indica a continuación:

Tabla de resultados
n = 10 Σi xi yi = 280
Σi xi = 55 Σi yi = 42
Σi xi2 = 385 Σi yi2 = 210
(Σi xi)2 = 3.025 (Σi yi)2 = 1.764

= 5.5 = 4.2
Sx = 3,0276 Sy = 1,9322
Aunque tal vez no se necesiten todos estos resultados para resolver el problema que nos interesa,
siempre es conveniente tener los datos a mano.
Si observas las fórmulas de a y b, verás que en el cálculo de a interviene b, por lo tanto, se debe
calcular en primer lugar b.

yixi − ( yi)( xi)/n 280 – (55)(42)/10

b= xi2 − ( xi)2/n = 385 – 3.025/10 = 0.5939

Este valor de b significa que por cada año de experiencia en ventas que se aumenta, el volumen de
ventas se incrementa en promedio $593.90.
Ahora calcularemos el valor de a:

= 4.2 – (0.5939)(5.5) = 0.93


a = 0.93 indica que aunque los vendedores no tuvieran ningún año de experiencia en ventas, el
volumen de ventas sería, en promedio, de $930.
Por lo tanto, la ecuación de regresión de Y sobre X, muestral es:

= 0.93 + 0.5939 xi

Ahora bien, con esta ecuación, asignándole distintos valores a xi , obtendremos los correspondientes
valores medios de yi estimados. Por ejemplo, si un vendedor tiene 6 años y medio de experiencia en ventas,
se espera que en promedio se registre un volumen de ventas de $4.790,35.
yi = 0.93 + (0.5939)(6.5) = 4,79035 (miles de pesos).
En realidad, esta estimación debe hacerse luego de comprobar que la regresión de Y sobre X es
estadísticamente significativa, y de que la ecuación de regresión muestral hallada es buena como ecuación
predictiva.
Una forma intuitiva de comprobar si la recta se ajusta bien a los datos, es representarla gráficamente
en el diagrama de dispersión. Para ello basta con ubicar en el gráfico dos puntos, obtenidos mediante el
reemplazo de xi en la ecuación, y unirlos con una recta. Uno de los puntos que podemos utilizar es el de
coordenadas (0, 0.93), y otro que es el que hemos estimado para x = 6.5, de coordenadas (6.5, 4.79).
Veamos el gráfico.

7 = 0.93 + 0.5939 xi
6
5
4
3
2
1
0 1 2 3 4 5 6 7 8 9 10 X
Aparentemente, la recta de regresión ajusta bastante bien a los datos.

Predicción estadística. Variancia de la regresión en la muestra. Inferencia estadística de ß.


Variancia de la regresión en la muestra
La ecuación de regresión de la muestra se llama ecuación predictiva, porque su función principal es
predecir μYX o yi asociadas con un valor dado de X. Pero ¿cuán buena es para estimar esos valores?
Observando el gráfico siguiente, se ve que a pesar de que la línea de regresión ajusta bastante bien a
los puntos del diagrama de dispersión, éstos se desvían un poco de aquélla.

Y = a + bxi

0 X
La medida numérica de tales desviaciones es el estimador insesgado de la varianza de la regresión de
población, que se define como:

S2 = (yi − )2/(n-2) = (yi − a − bxi)2/(n-2) =

=( yi2 − a yi − b yixi) /(n-2)


En la expresión anterior el denominador es (n-2) porque se pierden dos grados de libertad, uno por
cada parámetro de regresión que se debe estimar.
La raíz cuadrada de S2 es la desviación estándar de la regresión para la muestra.
La varianza y la desviación estándar son una medida del grado de ajuste de la relación lineal entre Y y
X. Cuanto menor sea S, tanto más precisa es la ecuación de regresión de la muestra como instrumento de
predicción.
3.5. Inferencias acerca de los coeficientes de regresión de la población
Una vez obtenida la ecuación de regresión de la muestra, aún cuando su desviación estándar sea tan
pequeña que pueda considerarse que la ecuación de regresión de la muestra es idéntica a la de la
población, las predicciones pueden contener cierto error, porque la relación entre Y y X en la población
bivariable puede no ser perfecta. Ese error se mide mediante σ2.
Además, al realizar predicciones se presenta otro error debido a variaciones casuales en el muestreo.
Es decir, al realizar distintas muestras del mismo tamaño el estimador lineal de (α + βxi) tiende a variar de
muestra a muestra. Los errores de muestreo de a y b se evalúan en términos de sus respectivas
distribuciones muestrales.
Como a y b son estimadores mínimo cuadráticos (EMC) son insesgados, por lo tanto
E(α) = a y E(β) = b
Y como son combinaciones lineales de variables normales independientes, Y, también a y b tienen
distribución normal.
Por otra parte, los estimadores insesgados para las variancias de a y b se definen de la manera
siguiente:

y
En el análisis de regresión lineal no tiene mucha importancia práctica realizar inferencias con respecto
al parámetro α, ordenada al origen de coordenadas; pero sí es fundamental probar hipótesis de nulidad
para β, porque se refiere a la existencia o no de regresión lineal de Y sobre X.
En la prueba de hipótesis para el parámetro β se utiliza la distribución de probabilidad “t de Student”.
Es una distribución de probabilidad con un único parámetro, δ, número de grados de libertad.
f(z) y f(t)

Zyt
Similitudes entre la distribución t de Student y la n(0, 1)
Ambas distribuciones tienen recorrido infinito: - ∞ < Z < ∞ y - ∞ < t < ∞.
Ambas distribuciones son simétricas con respecto a la media.
Ambas distribuciones tienen media igual a 0.
Diferencia entre Z y t: t tiene mayor dispersión que Z, es decir, V(t) > 1.
t de Student ⇒ Z a medida que n → ∞.
Prueba de hipótesis para β
1.- Hipótesis: H0: β = 0 (no existe regresión lineal estadísticamente significativa de Y sobre X)
H1: β ≠ 0 (existe regresión lineal estadísticamente significativa de Y sobre X).
2.- Nivel de significación: P(e1) = α
3.- Estadística de prueba: zc = b/Sb que tiene distribución aproximadamente normal bajo el supuesto de
que H0 es verdadera.
Cuando n < 30 y σ es desconocido, a y b están distribuidas aproximadamente como t de Student con
δ= n − 2. Entonces la estadística de prueba adecuada es:
t = b/ Sb ~ t(n-2) bajo el supuesto de que H0 es verdadera.
4.- Criterio de decisión: rechazar la hipótesis nula si, solo si: t < -t (α/2), (n-2) ó t > t(α/2), (n-2)
P

α/2 α/2
t
-t (α/2), (n-2) 0 t(α/2), (n-2)

R No rechazo R

5.- Cálculos: se realizan todos los cálculos necesarios para obtener el valor numérico de la estadística de
prueba.
6.- Decisión: si t se ubica en la zona crítica, se rechaza H0, en caso contrario se dice que no existen
evidencias suficientes para rechazarla.
7.- Conclusión: el rechazo de la hipótesis nula indica que existe regresión lineal estadísticamente
significativa de Y sobre X; en cambio el no rechazo de la hipótesis nula indica que no existe.
En general, la ecuación de regresión de la muestra debe ser considerada como un instrumento de
predicción, sólo si b es significativa; en caso contrario debe ser desechada.
Ahora, después de este procedimiento de prueba, podemos comprobar si las estimaciones que
hagamos son realmente confiables o no.
Intervalo de confianza para β
Si se comprueba que el coeficiente de regresión β es significativamente distinto de cero, es
conveniente estimarlo mediante un intervalo de confianza.
Se calcula de la forma usual, utilizando la fórmula general de los I. de C., por lo tanto es:
P [ b − t (α/2), (n-2) Sb < β < b + t (α/2), (n-2) Sb ] = 1 − α
Las estimaciones de intervalos para μYX construidos con varios valores de X, en un nivel de confianza,
forman la banda de confianza para μYX; que se hace más ancha a medida que los valores de X se alejan de
su media, por lo tanto las estimaciones serán menos precisas. Por este motivo es que no resulta
conveniente realizar predicciones para valores de X fuera del rango de la variable en la muestra.

Ejemplo de aplicación
Continuaremos trabajando con el ejemplo de la compañía de seguros, conde las variables en estudio
son: X cantidad de años de experiencias en ventas de los vendedores, Y el volumen de ventas (en miles de
pesos), y veremos cuán buena es la ecuación de regresión muestral hallada como ecuación predictiva.
Prueba de hipótesis para β
1.- Hipótesis : H0: β = 0 (no existe regresión lineal estadísticamente significativa de Y sobre X)
H1: β ≠ 0 (existe regresión lineal estadísticamente significativa de Y sobre X).
2.- Nivel de significación: P(e1) = α = 0.05
3.- Estadística de prueba: t = b/ Sb ~ t(n-2)
4.- Criterio de decisión: rechazar la hipótesis nula si, solo si :
t < -t (α/2), (n-2) ó t > t(α/2), (n-2)
t < -t (0.025), (8) ó t > t(0.025), (8)
t < - 2,306 ó t > 2,306
La región crítica se encuentra en ambas colas bajo la curva de t.

P
0.025 0.025

t
-2,306 0 2,306
R No rechazo R
5.- Cálculos: comenzaremos por calcular S2.
S2 = (Σ yi2 − a Σ yi − b Σ yixi)/(n-2) = [210 – (0.93)(42) – (0.5939)(280)]/8
= 0,581
Sb2 = S2 / Σ(xi − x )2 = 0,581 / 82,5 = 0,007042 ⇒ Sb = 0,0839
t = b / Sb = 0.5939 / 0.0839 = 7,0787
6.- Decisión: como 7,0787 > 2,306 ⇒ SE RECHAZA H0
7.- Conclusión: el rechazo de la hipótesis nula indica que existe regresión lineal significativa de Y sobre X;
por lo tanto podemos decir que el volumen de ventas de la compañía de seguros, depende
estadísticamente, en promedio, de la cantidad de años de experiencia en ventas de sus vendedores.
Entonces, la ecuación de regresión de la muestra puede ser considerada como un buen instrumento
de predicción, y la estimación realizada para el volumen de ventas dado un valor particular de la
cantidad de años de experiencia en ventas, es confiable.

También podría gustarte