0% encontró este documento útil (0 votos)
29 vistas62 páginas

Resumen Estadistica

Estadistica CA UNS

Cargado por

CamilaOberman
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas62 páginas

Resumen Estadistica

Estadistica CA UNS

Cargado por

CamilaOberman
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

UNIDAD 1: Estadística descriptiva

Estadística: Es una disciplina matemática.

• La Estadística como disciplina trata sobre el desarrollo y aplicación de métodos para: recopilar,
organizar, presentar, interpretar y analizar datos con el fin de tomar decisiones y resolver
problemas.

• Se divide en dos grandes ramas:

 Estadística descriptiva: Es la que describe, analiza y representa un conjunto de datos


utilizando métodos numéricos y gráficos que resumen y presentan la información contenida
en ellos.
 Estadística inferencial: Es el campo de la estadística que se ocupa de la formulación de
inferencias o conclusiones acerca de parámetros desconocidos y de interés de una población
perfectamente definida, basándose en la información que brinda una muestra extraída de la
población.

Conceptos estadísticos:

Los datos constituyen la materia prima del análisis estadístico. Estos pueden obtenerse por medio de
publicaciones o registros de datos de organismos estatales o privados (fuentes secundarias) o
mediante la aplicación por parte del investigador de una o varias técnicas de obtención de datos.

 Población: conjunto de individuos, objetos o eventos cuyas propiedades serán estudiadas.


La población es la colección completa de individuos u objetos de interés.
 Muestra: es un subconjunto de la población.
 Unidad de Observación o Unidad Observacional: El individuo u objeto sobre el que se
registra o mide una propiedad o característica de interés.
 Variable: La característica observable y de interés para cada unidad observacional.
 Dato: El valor particular que toma la variable para un individuo u objeto.
 Población estadística: conjunto de los valores de una variable particular definida sobre la
población. Para una misma población bajo estudio pueden existir más de una población
estadística de interés.
 Parámetros: Las medidas descriptivas numéricas que resumen el comportamiento de una
población.
 Estadísticos o estimadores: Las medidas descriptivas numéricas que resumen el
comportamiento de una muestra.

Pasos en la resolución de un problema estadístico:

Los pasos en la resolución de un problema estadístico son secuenciales; es decir, se tiene que
identificar primero la población de interés y planear como se reunirán los datos antes de poder
recopilarlos y analizarlos. Y todas estas operaciones tienen que preceder a la última meta, la
realización de inferencias acerca de la población basadas en la información contenida en la muestra.

Recolección de datos:

• Los datos son los resultados observados de la variable de interés.

• Las variables de interés pueden ser clasificadas en cualitativas o cuantitativas.

• Las variables cuantitativas pueden ser clasificadas en discretas y continuas


 Variables cualitativas o categóricas: Se trata de variables cuyos resultados son nombres o
identificadores. También pueden se resultados numéricos, pero en este caso las operaciones
aritméticas como sumar y obtener promedios no tienen ningún significado. Los resultados
numéricos se presentan en el caso de por ejemplo códigos de identificación o claves
numéricas.
 Variables cuantitativas o Numéricas: se trata de variables cuyos resultados son números que
pueden obtenerse por recuento o mediciones. En este caso las operaciones aritméticas
como sumar y obtener promedios tienen significado.
o Variables cuantitativas discretas: sus resultados habitualmente provienen de un
conteo.
o Variables cuantitativas continuas: sus resultados habitualmente provienen de una
medición.

Presentación de datos en tablas y gráficos:

• Una variable cualitativa: método tabular

• Una variable cualitativa: métodos gráficos

• Una variable cuantitativa discreta: método tabular

• Una variable cuantitativa discreta: método gráfico

• Una variable cuantitativa continua o muestra grande: método tabular

• Una variable cuantitativa continua o muestra grande: método gráfico

Distribución de frecuencias:

Frecuencia absoluta de una categoría o valor particular de la variable (fi ): es la cantidad de datos
que hay en el conjunto con esa categoría o valor.

Frecuencia relativa (fri): fi / n siendo n=el tamaño de la muestra=cantidad de datos disponibles la


frecuencia relativa representa la proporción de datos que hay en el conjunto con esa categoría o
valor.

Frecuencia porcentual(fri%): A la frecuencia relativa se la puede expresar en porcentaje


multiplicando la frecuencia relativa por cien (fri *100) y representa el porcentaje de datos que hay
en el conjunto con esta categoría o valor. Estas frecuencias se calculan para cada categoría o valor
de la variable.

Frecuencia acumulada de un valor particular de la variable (Fi): es la cantidad de datos que hay en
el conjunto cuyos valores son menores o iguales a ese valor particular.

Frecuencia acumulada relativa (Fri): frecuencia acumulada/n representa la proporción de datos que
hay en el conjunto cuyos valores son menores o iguales a ese valor particular.

Frecuencia acumulada porcentual (Fri %): es la frecuencia acumulada relativa multiplicada por 100.
Representa el porcentaje de datos que hay en el conjunto cuyos valores son menores o iguales a ese
valor particular. Estas frecuencias se calculan para cada valor de la variable.

Distribución de frecuencias para datos agrupados:


Cuando se dispone de muchos datos es conveniente agruparlos en clases o intervalos para una
mejor visualización de la información.

Como construir los intervalos:

Agrupamos los datos en clases o intervalos de modo que cada dato pueda ubicarse en una y solo una
clase. El número de clases depende del número de observaciones y de la dispersión de los datos. En
general una distribución con pocas o muchas clases brindará poca información. Si bien hay distintos
criterios, en general se recomiendan entre 5 y 15 clases, dependiendo de la cantidad de datos. Un
criterio para definir el número de clases es aplicar la raíz cuadrada a n.

Si es posible, las clases deben tener el mismo ancho y no traslaparse con el fin de mejorar la
información visual. Con la agrupación se pierde información ya que todos los datos pertenecientes a
un intervalo o clase está representada por el punto medio o marca de clase.

En la tabla de distribución de frecuencias, las frecuencias absolutas fi corresponden al número de


observaciones que contiene el intervalo.

Para llegar a estos intervalos primero hallamos la diferencia entre el valor máximo de los datos y el
valor mínimo de los datos, a eso le llamamos rango. Rango= Valor max- valor min.

Si al rango lo dividimos por la cantidad de clases o intervalos obtenemos la amplitud de clase. El


procedimiento consiste en construir clases, todas de igual amplitud para reducir la posibilidad de
malinterpretación por parte del usuario. Se acostumbra a redondear la amplitud de clase siempre a
su entero superior o a otro superior más conveniente.

La marca de clase se calcula sumando los extremos del intervalo y dividiendo esta suma por 2.

Resumen de datos numéricos:

Una vez organizados y presentados los datos empíricos el siguiente paso es calcular medidas
representativas que resuman información.

La Estadística nos proporciona medidas conocidas con el nombre es medidas descriptivas o de


resumen.

Las medidas descriptivas numéricas que resumen el comportamiento de una población se


denominan parámetros.

Las medidas descriptivas numéricas que resumen el comportamiento de una muestra se denominan
estadísticos o estimadores.

Medidas de tendencia central:

Una medida de tendencia central es un valor que indica el “centro” de un conjunto de datos y por lo
general es posible elegir algún valor promedio que describa todo el conjunto de datos.

Las medidas de centralización o promedios más usadas son:

 Media aritmética: Es el promedio aritmético común y se calcula sumando todas las


observaciones de un conjunto de datos y luego dividiendo ese total por el número total de
observaciones.
La media de una población, aunque desconocida, existe y es única, pero solo podría calcularse si
se tuvieran datos correspondientes a todos los individuos u objetos. Generalmente, como
hemos dicho solo disponemos de datos correspondientes a una muestra de la población en
estudio. Si se dispusiera de datos de una población finita entonces la media se calcula:

Como el cálculo de la media aritmética se basa en todas las observaciones, resulta muy afectada
cuando los datos contienen algunos valores extremos muy grandes o muy pequeños. Cuando
estos valores, llamados valores atípicos (outliers), se promedian con otros, afectan el valor de la
media a tal grado que no parece razonable que su valor describa el “centro” de los datos, es
decir la media aritmética no sería el mejor promedio para resumir la información. En tal caso
debemos recurrir a otro tipo de promedio.

 Mediana: Es la observación o dato que se encuentra en el centro de un conjunto de datos


ordenados en forma creciente o decreciente, es decir que la mediana divide a mi conjunto
de datos en dos partes iguales. Se podría simplificar la interpretación diciendo que el 50% de
los datos toman a lo sumo el valor de la mediana.
Si en número de datos es par, no existe un valor central único entonces la mediana se define
como la media de los dos elementos del centro. (A+B) /2

 Moda: Es la observación que aparece con más frecuencia en un conjunto de datos.


Puede ocurrir que un conjunto de datos no tenga o tenga más de una moda, en este caso se
dice que los datos son bimodales.
Método aproximado para el cálculo de la moda para datos agrupados: podemos tomar
como valor aproximado de moda a la marca de clase de la clase modal. La clase modal es la
clase de mayor frecuencia absoluta.
En el proceso de agrupamiento los valores de la muestra son aproximados por las marcas de
clase correspondiente. En conclusión, el agrupamiento siempre significa perdida de
información y en consecuencia se pueden crear problemas de variedad de grados de
exactitud que dependerán de los métodos empleados. Por lo tanto, si la muestra no es muy
grande debemos considerar la posibilidad de usar los datos originales no agrupados.

Cuartiles:

Además de las medidas de tendencia central, existen otras medidas útiles de posición “no central”
que se utilizan para resumir propiedades de grandes conjuntos de datos cuantitativos. Estas medidas
se denominan cuantiles. Algunos de los cuantiles más utilizados son los deciles que dividen a un
conjunto de datos ordenados en décimos, los percentiles que los dividen en centésimos y los
cuartiles que los dividen en cuartos. En este curso estudiaremos los cuartiles.

Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al
25%, de los valores más pequeños, del 75% restante, constituido por valores más grandes. El
segundo cuartil Q2 es la mediana la cual divide a mi conjunto de datos en dos partes iguales. El
tercer cuartil Q3 separa al 25%, de los valores más grandes, del 75% restante, constituido por valores
más pequeños.

Primer cuartil Q1: el 25% de los valores son menores o iguales que el primer cuartil Q1, y el 75% son
mayores que el primer cuartil Q1.

Segundo cuartil Q2 es la Mediana: el 50% de los valores son menores o iguales que la mediana y el
otro 50% son mayores.

Tercer cuartil Q3: El 75% de los valores son menores o iguales que el tercer cuartil Q3, y el 25% son
mayores que el tercer cuartil Q3.

Orden de los cuartiles: Se refiere a la posición que ocupan en un conjunto de datos ordenados.

Q1 es el valor correspondiente a la (n+1) /4 observación ordenada.

Q2 es el valor correspondiente a la 2 (n+1) /4 = (n+1) /2 observación ordenada.

Q3 es el valor correspondiente a la 3(n+1) /4 observación ordenada.

Medidas de dispersión:

 Rango: Es la medida de dispersión más sencilla.


R=Xmax-Xmin
El rango es de fácil cálculo, pero ignora la información que hay en la muestra entre las
observaciones más grande y más pequeña, es una medida útil para muestras chicas. Esta
medida se utiliza mucho en aplicaciones estadísticas al control de calidad, donde por lo
común se utilizan muestras de tamaño 4 ó 5 elementos para el control de procesos. En
general se desea tener una medida de variabilidad que dependa de todas las observaciones
de una muestra.
 RIC (rango intercuartílico): Se define como la diferencia entre el tercer y primer cuartil
RIC = Q3 – Q1
El rango intercuartil es menos sensible a los valores extremos de la muestra que el rango (R).
 Varianza:
 Desvío estándar:

 Coeficiente de variación: Es la razón de la desviación estándar a la media aritmética,


expresada como porcentaje

Es una medida de variación relativa que se expresa en porcentaje y es útil para comparar la
variabilidad de dos o más conjuntos de datos cuando:
• Los datos están expresados en distintas unidades.
• Los datos están en las mismas unidades, pero las medias muy distantes.

Importante: Cuando estemos comparando dos conjuntos de datos, el conjunto que presente
mayor coeficiente de variación será el más heterogéneo. Y por lo tanto el conjunto que
presente menor coeficiente de variación será el más homogéneo.
Forma de una distribución:

Para describir un conjunto de datos además de las medidas de tendencia central y de las medidas de
dispersión se puede estudiar la forma en que se distribuye el conjunto de datos estadísticos. Una
distribución de datos puede ser simétrica o no. Si la distribución de los datos no es simétrica, se la
denomina asimétrica o sesgada.

Cuando los datos están ligeramente sesgados, se prefiere la mediana como medida de centralización
y el RIC como medidas de dispersión.

Otra manera de apreciar la forma de una distribución es observar la agudeza del perfil de su
distribución de frecuencia. La curtosis es una medida que sirve para analizar el grado de
concentración que presentan los valores de una variable analizada alrededor de la zona central de la
distribución de frecuencias.
Box plot:

El diagrama de caja y bigote (Box Plot) ofrece una representación gráfica de los datos a través de
cinco números de resumen: Xmínimo, Q1, Mediana, Q3, Xmáximo.

Permite visualizar al mismo tiempo varias características importantes de un conjunto de datos, tales
como el centro, la dispersión, la asimetría.

Pasos para dibujar la caja o Box Plot:

1) Se dibuja una caja cuyos extremos se localizan en el primer y tercer cuartil (de esta forma, la caja
contiene al 50% de los valores del conjunto de datos).

2) En el punto donde se localiza la mediana se traza una línea vertical.

3) Se dibuja una línea (un bigote) que une el lado izquierdo de la caja (Q1) con la ubicación del
menor valor (X mínimo), representa el 25% inferior de los datos. De la misma manera se dibuja un
bigote que une el lado derecho de la caja (Q3) con la ubicación del valor mayor (X máximo),
representa el 25% superior de los datos.

Observación importante: con la forma de graficar que se presentó no se podrán detectar outliers o
valores atípicos.
Análisis descriptivo y representación de datos de dos variables (bivariados):

• Datos bivariados: estos datos constan de los valores de dos variables diferentes que se obtienen
de la misma unidad observacional de la población.

• Una tabulación cruzada es un resumen tabular de los datos de dos variables.

• En la tabulación cruzada se pueden emplear dos variables cualitativas o dos variables cuantitativas
o una variable cualitativa y una cuantitativa.

Observación importante: Cuando se utilizan variables cuantitativas continuas, primero es necesario


crear las clases para los valores de las variables.

En la tabla de clasificación cruzada (o de contingencia) se presenta la frecuencia para cada categoría


cruzada de las dos variables junto con los totales por fila y por columna denominados totales
marginales. La suma de los totales marginales es el gran total y es igual a n, tamaño de la muestra.

Diagrama de dispersión:

• En los problemas que intervienen dos variables cuantitativas, los datos de la muestra se
representan gráficamente en un diagrama de dispersión.

• Un diagrama de dispersión es una representación gráfica de la relación entre dos variables


cuantitativas.

• El diagrama de dispersión es la gráfica de todos los pares ordenados de datos de dos variables que
están en un sistema de ejes coordenados. Usualmente la variable X, se gráfica en el eje horizontal y
la variable Y en el eje vertical
Medidas de la asociación lineal entre dos variables cuantitativas:

A continuación, se presentan la covarianza y el coeficiente de correlación de Pearson como medidas


descriptivas que se utilizan para medir el grado de asociación lineal entre dos variables aleatorias
cuantitativas.

 Covarianza:

Si la Sxy (Covarianza (X,Y)) es positiva. Indica que hay una asociación lineal positiva entre X e
Y.
Si la Sxy (Covarianza (X,Y)) es negativa. Indica que hay una asociación lineal negativa entre X
e Y.
Si la Sxy (Covarianza (X,Y)) es cero. Indica que no hay una asociación lineal entre X e Y.

• El problema de la covariancia es que no tiene una medición estándar. Por ejemplo si


multiplicamos todos los valores de las variables por 10 tenemos: (20,10); (30,50); (60,30);
(80,20); (110,60); (120,10);
• Cov (X,Y)= Sxy =60. Esto no significa que la relación sea más fuerte, es la misma.
• Una medida de la relación lineal entre dos variables, a la cual no le afectan las unidades de
medición empleadas para X e Y , es el Coeficiente de Correlación Lineal de Pearson.

 Coeficiente de correlación lineal de Pearson(r):


Propiedades de r:
• Es una medida de asociación lineal o dependencia lineal y no tiene sentido utilizarlo para
relaciones no-lineales.
• Varía entre -1 y 1 y su signo depende del signo de la covariancia. Valores de r cercanos a -1
o a 1 indican una fuerte asociación.
• Cuando los puntos de un diagrama de dispersión se situación exactamente a lo largo de
una recta r=±1
• Si r = 1, (r = -1) existe relación lineal perfecta positiva (negativa).
• El valor r no se ve afectado por cambios en las unidades de medida de cada una de las
variables.
• Si X e Y son estadísticamente independientes r = 0; pero r = 0 no implica independencia,
solo decimos no hay asociación lineal.
• La correlación proporciona una medida de la asociación lineal y no necesariamente de la
causalidad.
• Que la correlación entre dos variables sea alta no significa que los cambios en una de las
variables ocasionen modificaciones en la otra.
• Por ejemplo se observaron 10 automóviles anotando los km recorridos (X) y el n° de
puertas (Y) de cada uno, el coeficiente de correlación dio 0.98, sin embargo, los fabricantes
saben que no hay una relación causa - efecto entre el n° de puertas y los km recorridos. La
relación se debe a la casualidad y no a la causalidad.

UNIDAD 2: Introducción a la teoría de la probabilidad

• La probabilidad es importante en la toma de decisiones porque proporciona una forma de medir,


expresar y analizar las incertidumbres asociadas con eventos futuros.

• Valor entre cero y uno, inclusive, que describe la posibilidad relativa de que ocurra un evento

• Un experimento es cualquier proceso o acción que genera observaciones y que puede ser
repetible.

Existen dos tipos de experimentos:

 Determinísticos: Aquellos que repetidos bajo las mismas condiciones dan igual resultado,
por lo tanto, son predecibles, Ej. Fenómenos físicos y químicos.

 Aleatorios: Aquellos que admiten dos o más resultados posibles, y si bien esos resultados se
conocen, no puede predecirse con exactitud cuál de ellos va a ocurrir. Es posible repetir el
experimento en las mismas condiciones.

• Los experimentos aleatorios son de interés para la estadística.

•Un experimento E es aleatorio si:


o Admiten dos o más resultados posibles.
o No se puede predecir con exactitud cuál de los resultados posibles ocurrirá.
o Es posible repetir el experimento en las mismas condiciones.

Espacio de resultados/ espacio muestral (): El conjunto de todos los resultados


posibles de un experimento aleatorio.
El espacio muestral puede ser finito o infinito. Si el espacio muestral es finito llamaremos
n al número total de resultados posibles.

Evento o Suceso: Cualquier subconjunto del espacio muestral. Los designamos con
letras mayúsculas.

Con la notación A o A c indicamos el evento no ocurre A.

Gráficamente:

• Sea E un experimento aleatorio y  el espacio muestral asociado, sean A y B dos


eventos, entonces:

o A  B es el evento ocurre A u ocurre B u ocurren ambos


o A  B es el evento ocurren A y B simultáneamente.
o Si A y B no pueden ocurrir simultáneamente se denominan eventos
incompatibles o mutuamente excluyentes.
Probabilidad clásica:

Sea  un espacio muestral con n resultados igualmente posibles y mutuamente excluyentes de un


experimento, entonces la probabilidad de un evento A se define como:

Se basa en la consideración de que los resultados del experimento son igualmente posibles.

Eventos mutuamente excluyentes: El hecho de que un evento se presente significa que ninguno de
los demás eventos puede ocurrir al mismo tiempo.

Eventos colectivamente exhaustivos: Por lo menos uno de los eventos debe ocurrir cuando se
realiza un experimento.

Si el conjunto de eventos es colectivamente exhaustivo y los eventos son mutuamente excluyentes,


la suma de las probabilidades es igual a uno.

Probabilidad empírica:

La definición clásica no se puede utilizar cuando el espacio de resultados no es finito o los resultados
no son igualmente posibles.

• Cuando nos preguntamos: ¿cuál es la probabilidad de que un consumidor compre un televisor de


pantalla grande? O ¿cuál es la probabilidad de obtener un as cuando lanzamos un dado cargado?, los
seis resultados posibles no son igualmente probables.

• La probabilidad se define también como el cociente de resultados favorables sobre el total de


resultados, pero se calcula en base a datos observados. Por lo tanto, se basa en la frecuencia relativa
de ocurrencia de un evento A en un gran número de ejecuciones de un experimento.

• La probabilidad de que un evento ocurra representa una fracción de los eventos similares que
sucedieron en el pasado.

• El enfoque empírico de la probabilidad se basa en la llamada ley de los grandes números.

• La clave para determinar probabilidades de forma empírica consiste en que una mayor cantidad de
observaciones proporcionarán un cálculo más preciso de la probabilidad.

Probabilidad subjetiva:

Si se cuenta con poca o ninguna experiencia o información con la cual sustentar la probabilidad, es
posible aproximarla en forma subjetiva. En esencia, esto significa que un individuo evalúa las
opiniones e información disponibles y luego calcula o asigna la probabilidad. Esta probabilidad se
denomina probabilidad subjetiva.
Propiedades de la probabilidad:

• La probabilidad de cualquier evento o suceso es un número entre 0 y 1.

• La probabilidad de un evento seguro es igual a 1. Probabilidad igual a 1 significa certeza.

• La probabilidad de un evento imposible es igual a 0.

• Si A es un evento P(A) indica la probabilidad de que A ocurra y P (A ) indica la probabilidad de que
A no ocurra entonces se verifica la siguiente propiedad:

• P (A) + P(A) = 1 de donde se deduce que:

• P (A) = 1 – P (A)

• P (A) = 1 – P (A)

Reglas básicas de probabilidad:

• Regla general de la adición (Regla de la suma): Dados dos eventos cualesquiera A y B de un


espacio muestral, la probabilidad de que ocurra A o B o ambos es: P (AB) = P(A) + P(B) – P(AB).

• Regla de la Probabilidad condicional: Dados dos eventos A y B nos interesa calcular la probabilidad
de uno de ellos sabiendo que el otro ha ocurrido.

Estas probabilidades se expresan con la siguiente notación:

• P(A/B): probabilidad de que ocurra A dado que B ocurrió

• P(B/A): probabilidad de que ocurra B dado que A ocurrió

Definición: Si A y B son dos eventos tales que P(A) 0 y P (B)  0 entonces:

• Regla de la multiplicación: A partir de la definición de probabilidad condicionada podemos


establecer la regla para calcular la probabilidad de que dos eventos A y B ocurran simultáneamente.

P (AB) = P (A) . P (B/A)

Sucesos independientes: Dos eventos A y B son independientes si la ocurrencia de uno de ellos no


afecta la probabilidad de ocurrencia del otro.

A y B son independientes si y sólo si: P(A/B)=P(A) y P(B/A)=P(B)

Si A y B son independientes entonces: P(A B)=P(A)*P(B)


Probabilidad total:

Regla de Bayes:

Sean A1, A2, …….An n causas posibles mutuamente excluyentes para que un evento B ocurra y este
ocurrió, entonces la probabilidad de que la causa haya sido Ai es:
Unidad 3: Variables aleatorias y Modelos discretos de probabilidad.

Variable aleatoria:

• Dado un experimento aleatorio E, el espacio muestral  es una descripción de los resultados


posibles.

• Una variable aleatoria proporciona un medio para describir los resultados experimentales
empleando valores numéricos.

• La variable que asocia un número a cada resultado del espacio muestral  se denomina variable
aleatoria.

• “Una variable aleatoria es una descripción numérica del resultado de un experimento”.

• Así como no se conoce con anticipación el resultado de un experimento aleatorio lo mismo ocurre
con el valor que tomará una variable aleatoria, el valor depende del azar.

• Las variables aleatorias se designan con letras mayúsculas, tal como X, y con una letra minúscula x
a un valor posible.

• El valor numérico de la variable aleatoria depende del resultado del experimento.

• Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que
asuma

•El conjunto de los posibles valores de la variable se denomina recorrido.

 Variable aleatoria discreta: A una variable aleatoria que asuma ya sea un numero finito de
valores o una sucesión infinita de vales tales como 0, 1, 2…., se le llama variable aleatoria
discreta.
• Al conjunto de los posibles valores que puede asumir la variable se denomina recorrido de
la variable.

• Antes de realizar el experimento no sabemos qué valor va a tomar la variable, pero


podemos evaluar la probabilidad de que tome un valor particular.

Distribución de probabilidad de una variable discreta:

• La distribución de probabilidad de una variable aleatoria X es el conjunto de valores


posibles de X, junto con la probabilidad asociada a cada uno de estos valores.

• Designamos con P(X = xi ) = pi a la probabilidad de que X tome el valor particular xi , la


distribución de probabilidad es el conjunto de pares (xi ; pi ).

Como a cada valor de X le corresponde un valor de probabilidad, entonces existe una


función fx (x) llamada función de probabilidad de X que satisface las siguientes propiedades:
1. fx (x) = P(X = x)
2. fx (x) 0 x
3.  fx (x) = 1
La función de probabilidad da la probabilidad de cada valor de la variable aleatoria.

Una distribución de probabilidad: es la enumeración de todos los resultados que asume la


variable con sus correspondientes probabilidades.

Una ventaja importante de definir una variable aleatoria y su correspondiente distribución


de probabilidad es que una vez que se conoce la distribución de probabilidad, es
relativamente fácil determinar la probabilidad de diversos eventos que pueden ser útiles
para tomar decisiones.

Función de distribución acumulada:

• La función de distribución de una variable aleatoria discreta X, designada con Fx (x) es:
Fx(x)=P(X≤x).

Esperanza matemática o valor esperado de una variable aleatoria discreta:

La esperanza matemática o valor esperado de una variable aleatoria: es el promedio


esperado o media aritmética esperada de sus valores posibles.

Así como calculamos la media aritmética como medida de centralización de valores


observados en una distribución de frecuencias, ahora definimos la media de la variable, pero
correspondiente a una distribución de probabilidad.

• Sea X una variable aleatoria discreta, la esperanza, valor esperado o media esperada de X
se nota E(X) o  y es:
 = E(X) =  xi pi

La interpretación del promedio o media aritmética esperada es el valor que se espera


obtener en promedio, si el experimento aleatorio que determina el valor de X es repetido
muchas veces en las mismas condiciones.

Propiedades de la esperanza:
Teniendo en cuenta algunas de las propiedades anteriores si definimos Y=aX+c siendo a y c
constantes y X una variable aleatoria, la esperanza de Y se resolvería de la siguiente forma:
E(Y)= E(aX+c)= E(aX)+E(c)=aE(X)+c

Varianza de una variable aleatoria discreta:

La varianza: es una medida de dispersión de los valores de la variable aleatoria con respecto
a la esperanza de dicha variable.

• En el caso de una variable aleatoria discreta la fórmula para calcular la varianza es la


siguiente:
V(X)= σ 2=  [ xi−E( X)]2 pi = E( x 2) – [ E(X )]2

Propiedades de la varianza:

Teniendo en cuenta algunas de las propiedades anteriores si definimos Y=aX+c siendo a y c


constantes y X una variable aleatoria la varianza de Y se resolvería de la siguiente forma:
V(Y)= V(aX+c)= V(aX)+V(c)=a 2V(X)

El desvío estándar (σ) es la raíz cuadrada de la varianza.

• La desviación estándar se mide en las mismas unidades que la variable aleatoria X y por
tanto suele preferirse para describir la variabilidad de una variable aleatoria.

Al igual que para muestras, podemos comparar la variabilidad de 2 o más variables


aleatorias mediante el coeficiente de variación:

Distribuciones de probabilidad Básicas (modelos discretos):

 distribución binomial:
• Algunos experimentos consisten en la observación de una serie de pruebas o ensayos
idénticos e independientes, los cuales pueden generar uno de dos resultados.

• Un experimento se denomina binomial si satisface las siguientes 4 condiciones:


1. El experimento consiste en una serie de n ensayos idénticos.
2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se le llama
éxito (E) y al otro fracaso (F).
3. La probabilidad de éxito P(E), que se denota: p, no cambia de un ensayo a otro. Por
ende la probabilidad de fracaso P(F), que se denota con:1-p, tampoco cambia de un
ensayo a otro.
4. Los ensayos son independientes.

• Si se presentan las propiedades 2,3 y4 se dice que los ensayos son generados por un
proceso de Bernoulli. Si además se presenta la propiedad 1, se trata de un experimento
Binomial.

Variable aleatoria binomial:

Dado un experimento binomial que consta de n ensayos o pruebas y en el cual P(E)=p,


se denomina v.a Binomial a la variable:

X:“numero de éxitos en n ensayos

Función de probabilidad binomial:

X~B(n,p) indica que la v.a X tiene distribución binomial con parámetros n y p

Esperanza y varianza de una variable aleatoria binomial:

Se X una v.a binomial basada en n ensayos y con probabilidad de éxito p, X~B(n,p).


Entonces:

• E(X)=n*p

• V(X)=n*p*q

 distribución de Poisson:
Un experimento aleatorio que consiste en contar ocurrencias o éxitos en un intervalo de
tiempo dado o en una región especifica se denomina experimento o proceso de Poisson. Se
observan eventos discretos en un medio continuo. El intervalo puede ser de cualquier
longitud: un día, una semana, un minuto, etc. y la región especifica puede ser un segmento
de línea, una superficie, una pieza, un volumen, etc.

• Un experimento se denomina Poisson si satisface las siguientes cuatro condiciones:


1. El experimento consiste en contar el número de veces que ocurre un determinado
suceso durante un intervalo de tiempo o espacio (área, volumen, peso, distancia o
cualquier otra unidad de medida dada)
2. Los sucesos que ocurren en un intervalo de tiempo o espacio son independientes de
los que ocurren en cualquier otro intervalo disjunto.
3. La probabilidad de que un suceso se presente es proporcional a la longitud del
intervalo.
4. La probabilidad de que dos o más sucesos se presenten en un intervalo muy
pequeño es tan pequeña que puede despreciarse.

Media y varianza de la distribución de Poisson:


Unidad 4: Toma de decisiones bajo riesgo

• En la actualidad el responsable de tomar una decisión se enfrenta a diario con muchas situaciones
en la que debe tomar una decisión entre varias alternativas posibles pero cuyos resultados
dependen de eventos futuros inciertos y que no pueden ser controlados por el decisor.

• El análisis de decisiones proporciona un marco de trabajo y una metodología para la toma de


decisiones cuando los resultados son inciertos.

• El análisis de decisiones es la técnica utilizada para ayudar a los administradores a escoger la mejor
secuencia de decisiones en problemas que poseen las siguientes características.

1. Existen uno o más puntos en el tiempo en el que deben tomar las decisiones.
2. En cada punto del tiempo en que se debe tomar una decisión, existe un número finito de
alternativas de decisión disponibles.
3. El futuro puede ser descrito mediante un número finito de estados o resultados posibles

• Decisión de nivel sencillo: decisión que debe tomarse en un solo punto en el tiempo.

Primer paso: identificar un número finito de alternativas de decisión

Segundo paso: identificar un número finito de estados de la naturaleza

Tercer paso: construir la matriz de pago, esta matriz muestra los resultados que se obtienen para
cada combinación alternativa-estado de la naturaleza.

• Decisiones de multinivel: conjunto de decisiones que deben tomarse en varios puntos secuenciales
en el tiempo.

o El análisis de decisiones proporciona un primer marco conceptual para resolver un problema.

o Se analiza cada alternativa o curso de acción frente a posibles situaciones del contexto de decisión,
evaluándose las consecuencias.
o Las posibles situaciones del contexto se denominan Estados de la Naturaleza, y la información
acerca de los mismos, varía desde un conocimiento total (certeza), hasta una ignorancia completa
(incertidumbre).

o La agrupación de los resultados o consecuencias de cada una de las alternativas en relación a los
estados de la naturaleza se denomina matriz de consecuencia o matriz de pagos.

Matriz de pagos, Tabla de resultados o Tabla de consecuencias:

• Cada alternativa se coloca en una fila.

• Cada estado de la naturaleza o situación del contexto en una columna con el valor de la
probabilidad Pj asociada al mismo en el caso de conocerse

• Simbólicamente la matriz de pagos se muestra de la siguiente manera:

Utilizaremos la notación Vij para denotar el resultado (consecuencia) asociado con la alternativa de
decisión i y el estado de naturaleza j.

Certidumbre, Riesgo, Incertidumbre y Conflicto:

o Frente a los Estados de la Naturaleza las decisiones se pueden tomar:

1. En condiciones de Certeza.

2. En condiciones de Riesgo.

3. En condiciones de Incertidumbre.

o Las estrategias competitivas o decisiones en condiciones de conflicto son las que se toman cuando
en lugar de enfrentarnos con estados naturales, lo hacemos con oponentes racionales, se conoce
como Teoría de Juegos.
Decisiones en un contexto de riesgo:

En muchas situaciones de toma de decisiones podemos obtener evaluaciones de probabilidad para


los estados de la naturaleza. Cuando estas probabilidades están disponibles, podemos utilizar el
método del valor esperado para identificar la mejor alternativa de decisión. Sea

N=número de estados de la naturaleza

P(sj )=probabilidad del estado de la naturaleza sj

Debido a que puede ocurrir uno y sólo uno de los N estados de la naturaleza, las probabilidades
deben satisfacer dos condiciones:

Valor esperado de la información perfecta (VEIP):

Valor Esperado de la Información Perfecta = (Valor Esperado CON Información Perfecta) – (Valor
Esperado SIN Información Perfecta)

𝐕𝐄𝐈𝐏 = 𝐕𝐄𝐜𝐈𝐏 − 𝐕𝐄𝐬𝐈𝐏

• VEIP=valor esperado de la información perfecta

• VEcIP= valor esperado con información perfecta sobre los estados de la naturaleza *

• VEsIP= valor esperado sin información perfecta sobre los estados de la naturaleza **

*- en un problema de maximización de ganancias, VECIP representa la ganancia máxima que se


espera obtener si se conociera con antelación el estado natural que ocurrirá.

-en un problema de minimización de costos, VECIP representa el costo mínimo que se espera
obtener si se conociera con antelación el estado natural que ocurrirá.

**Representa el valor esperado de la mejor decisión obtenido mediante la aplicación del Criterio del
Valor Esperado

▪ en un problema de maximización de ganancias, el VEIP representa el adicional que se espera ganar,


por encima de la ganancia esperada sin información perfecta (VEsIP), si se conociera hoy con certeza
el estado natural que ocurrirá.
▪ en un problema de minimización de costos, el VEIP representa en cuanto se reduciría el costo
esperado sin información perfecta (VEsIP), si se conociera hoy con certeza el estado natural que
ocurrirá.

▪ Es lo que estaría dispuesto a pagar para mejorar el conocimiento del evento futuro que ocurrirá

Arboles de decisión:

• Un árbol de decisión es un recurso gráfico para analizar decisiones bajo riesgo, es decir, problemas
en los que se han especificado las probabilidades de los estados de la naturaleza.

• Son diagramas que muestran los resultados alternativos y la interdependencia de opciones en un


proceso de decisión.

• Permiten desplegar visualmente un problema y organizar el trabajo de cálculos que deben


realizarse.

Grafica de un árbol de decisión:

1. Individualizar los puntos de decisión y las opciones existentes en cada punto (cursos de acción o
alternativas). Cada línea que salga del punto de decisión representa una alternativa de decisión
posible.

2. Individualizar los nodos de probabilidad. Cada línea que salga de un nodo de probabilidad
representa un evento aleatorio posible.
3. Estimar las probabilidades asociadas a cada estado de la naturaleza o evento aleatorio.

4. Estimar los resultados para cada nodo de decisión mediante el valor esperado analizando el árbol
de derecha a izquierda.

5. Resolver el problema obteniendo como solución la ruta que proporcione la decisión óptima según
el objetivo del mismo.

Para identificar la alternativa de decisión con el mejor valor esperado en un árbol de decisión
debemos analizar el árbol de derecha a izquierda:

1° calcular el valor esperado en cada nodo de probabilidad.

2° elegir la rama de decisión que lleva al nodo de probabilidad con el mayor valor esperado. La
alternativa de decisión que corresponde a esta rama es la decisión recomendada.

Análisis de sensibilidad:

• El análisis de sensibilidad puede utilizarse para determinar cómo los cambios en las probabilidades
para los estados de la naturaleza o los cambios en los resultados afectan la alternativa de decisión
recomendada.

• En muchos casos, las probabilidades para los estados de la naturaleza y los resultados se basan en
evaluaciones subjetivas. El análisis de sensibilidad ayuda al tomador de decisiones a entender cuáles
de estas entradas son cruciales para la elección de la mejor alternativa de decisión.

• En el caso particular de dos estados de la naturaleza se puede utilizar un procedimiento gráfico


para determinar cómo los cambios en las probabilidades de los estados de la naturaleza afectan a la
alternativa de decisión recomendada.

Análisis de decisiones con información muestral:

A partir del análisis de sensibilidad visto se mostró cómo la información de la probabilidad sobre los
estados de la naturaleza afecta a los cálculos del valor esperado y, por tanto, a la decisión
recomendada. Con frecuencia, los tomadores de decisiones hacen evaluaciones preliminares o de
probabilidad previa para los estados de la naturaleza que son los mejores valores de probabilidad
disponibles en ese momento. Sin embargo, es posible que para tomar la mejor decisión el tomador
de decisiones quiera buscar información adicional sobre los estados de la naturaleza.

Esta nueva información se puede utilizar para revisar o actualizar las probabilidades anteriores, de
modo que la decisión final se base en probabilidades más precisas para los estados de la naturaleza.
Con mayor frecuencia, la información adicional se obtiene por medio de experimentos diseñados
para proporcionar información muestral acerca de los estados de la naturaleza.

El muestreo de materias primas, las pruebas de productos y la investigación de mercado son


ejemplos de experimentos (o estudios) que permiten a la gerencia revisar o actualizar las
probabilidades de los estados de la naturaleza. Estas probabilidades revisadas se llaman
probabilidades a posteriori.
Estrategia de decisión:

• Una estrategia de decisión es una secuencia de decisiones y resultados fortuitos donde las
decisiones elegidas dependen de los resultados aún por determinar de los eventos fortuitos.

• El método utilizado para determinar la estrategia de decisión óptima se basa en avanzar en sentido
inverso por el árbol de decisión siguiendo estos pasos:

1. En los nodos fortuitos (nodos de probabilidad), calcule el valor esperado mediante la


multiplicación del resultado al final de cada rama por las probabilidades de rama
correspondientes.
2. En los nodos de decisión, seleccione la rama de decisión que conduzca al mejor valor
esperado, el cual se vuelve el valor esperado en el nodo de decisión.
Valor esperado de la información muestral:

𝐕𝐄𝐈𝐌 = 𝐕𝐄𝐜𝐈𝐌 – 𝐕𝐄𝐬𝐈𝐌

VEIM=valor esperado de la información muestral

VEcIM= valor esperado con información muestral sobre los estados de la naturaleza

VEsIM= valor esperado sin información muestral sobre los estados de la naturaleza

Este valor representa el adicional que se espera ganar, por encima del VEsIM

Eficiencia de la información muestral:

Unidad 5: Modelos continuos de probabilidad

Variables aleatorias continuas:

A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de
intervalos se le llama variable aleatoria continua.

Los resultados experimentales basados en escalas de medición tales como tiempo, peso, distancia y
temperatura pueden ser descritos por variables aleatorias continua.

Un modo de determinar si una variable aleatoria es discreta o continua es imaginar los valores de la
variable aleatoria como puntos sobre un segmento de recta. Elegir dos puntos que representen
valores de la variable aleatoria. Si todo el segmento de recta entre esos dos puntos representa
también valores posibles para la variable aleatoria, entonces la variable aleatoria es continua.

Una diferencia fundamental entre las variables aleatorias discretas y las variables aleatorias
continuas es cómo se calculan las probabilidades.
En las variables aleatorias discretas la función de probabilidad f(x) da la probabilidad de que la
variable aleatoria tome un valor determinado.

En las variables aleatorias continuas, la contraparte de la función de probabilidad es la función de


densidad de probabilidad, que también se denota f(x). La diferencia está en que la función de
densidad de probabilidad no da probabilidades directamente. Si no que el área bajo la curva de f(x)
que corresponde a un intervalo determinado proporciona la probabilidad de que la variable
aleatoria tome uno de los valores de ese intervalo.

De manera que cuando se calculan probabilidades de variables aleatorias continuas se calcula la


probabilidad de que la variable aleatoria tome alguno de los valores dentro de un intervalo.

Como en cualquier punto determinado el área bajo la gráfica de f(x) es cero, una de las
consecuencias de la definición de la probabilidad de una variable aleatoria continua es que la
probabilidad de cualquier valor determinado de la variable aleatoria es cero.

Es importante proporcionar un medio sencillo para describir la distribución de una v.a. X continua.
Supongamos que el rango es el intervalo a  X  b.

Desafortunadamente el método utilizado para describir la distribución de v.a. discretas (enumerar


cada valor de la variable con sus probabilidades correspondientes) es inapropiado cuando el rango
de X contiene un intervalo de números reales.

Sin embargo, es posible desarrollar una función que permita calcular probabilidades, análoga a la
función de probabilidad de una v.a. Discreta.

Definición: Una función f(x) es un función de densidad de probabilidad de una v.a. X continua, si para
cualquier intervalo [a,b] de números reales:

Esperanza matemática y varianza de una variable aleatoria x continua:


Modelos Continuos de Probabilidad Específicos:

• Entre los modelos continuos de probabilidad de gran uso en cualquier campo disciplinario se
encuentran:

1. el Modelo de Probabilidad Normal


2. el Modelo de Probabilidad Exponencial
3. el Modelo de Probabilidad Chi Cuadrado
4. el Modelo de Probabilidad t de Student.

Modelo de probabilidad normal:

La distribución de probabilidad más usada para describir variables aleatorias continuas es la


distribución de probabilidad normal.

Función:

Características:
• Toda la familia de distribuciones normales se diferencia por medio de dos parámetros: la media μ y
la desviación estándar σ.

• El punto más alto de una curva normal se encuentra sobre la media, la cual coincide con la
mediana y la moda.

• La media de una distribución normal puede tener cualquier valor: negativo, positivo o cero

•La distribución normal es simétrica, siendo la forma de la curva normal al lado izquierdo de la
media, la imagen especular de la forma al lado derecho de la media. Las colas de la curva normal se
extienden al infinito en ambas direcciones y en teoría jamás tocan el eje horizontal. Dado que es
simétrica, la distribución normal no es sesgada; su sesgo es cero.

• La desviación estándar determina qué tan plana y ancha es la curva normal. Desviaciones estándar
grandes corresponden a curvas más planas y más anchas, lo cual indica mayor variabilidad en los
datos.

•Las probabilidades correspondientes a la variable aleatoria normal se dan mediante áreas bajo la
curva normal. Toda el área bajo la curva de una distribución normal es 1. Como esta distribución es
simétrica, el área bajo la curva y a la izquierda de la media es 0.50 y el área bajo la curva y a la
derecha de la media es 0.50
Distribución normal estándar:

Una variable aleatoria que tiene una distribución normal con una media cero y desviación estándar
de uno tiene una distribución normal estándar. Para designar esta variable aleatoria normal se suele
usar la letra z.

Esta distribución tiene el mismo aspecto general que cualquier otra distribución normal, pero tiene
las propiedades especiales, μ = 0 y σ = 1.

• Dado que μ = 0 y σ = 1, la fórmula de la función de densidad de probabilidad normal estándar es


una versión más simple.

Como ocurre con otras variables aleatorias continuas, los cálculos de la probabilidad en cualquier
distribución normal se hacen calculando el área bajo la gráfica de la función de densidad de
probabilidad. Por tanto, para hallar la probabilidad de que una variable aleatoria normal esté dentro
de un determinado intervalo, se tiene que calcular el área que se encuentra bajo la curva normal y
sobre ese intervalo.

Para la distribución normal estándar ya se encuentran calculadas las áreas bajo la curva normal y se
cuenta con tablas que dan estas áreas y que se usan para calcular las probabilidades.

La razón por la cual la distribución normal estándar se ha visto de manera tan amplia es que todas
las distribuciones normales son calculadas mediante la distribución normal estándar.

Dada una variable aleatoria X con distribución normal con una media μ cualquiera y una desviación
estándar σ cualquiera, las preguntas sobre las probabilidades en esta distribución se responden
pasando primero a la distribución normal estándar. Luego utilizamos las tablas de probabilidad
normal estándar y los valores apropiados de z para hallar las probabilidades deseadas.

Si X es una variable aleatoria distribuida normalmente con parámetros μ y σ cualesquiera entonces


la variable aleatoria Z = (x-µ) / σ sigue la distribución Normal Estándar.
Modelo de probabilidad exponencial:

Como ocurre con cualquier distribución de probabilidad continua, el área bajo la curva
correspondiente a un intervalo da la probabilidad de que la variable aleatoria tome algún valor en
ese intervalo.

Esta fórmula aporta la probabilidad acumulada de obtener un valor de la variable aleatoria


exponencial que sea menor o igual que algún valor específico denotado por Xo.

La distribución exponencial tiene la propiedad de que la media de la distribución y la desviación


estándar de la distribución son iguales.

Relación entre la distribución de Poisson y la exponencial:

• La distribución de probabilidad exponencial (continua) está relacionada con la distribución


(discreta) de Poisson.

• Si la distribución de Poisson da una descripción del número de ocurrencias por intervalo, la


distribución exponencial aporta una descripción de la longitud de los intervalos entre las
ocurrencias.

Unidad 6: Muestreo y estimación de parámetros

• Existen ocasiones en las que no es posible o resulta poco práctico analizar a todos los elementos
de una población y por este motivo se selecciona una muestra, entendiendo por tal una parte
representativa de la población.

• Un método de muestreo es un procedimiento mediante el cual se selecciona un subconjunto de la


población que a los fines prácticos representa a la población entera.

• Cualquiera sea el método de muestreo, la característica medida en la muestra seguramente


diferirá del verdadero valor de la característica poblacional. El error que se debe sólo al muestreo, se
denomina error de muestreo, son errores accidentales o debidos al azar y no pueden eliminarse,
pueden ser disminuidos aumentando, cuando es posible, el tamaño de la muestra. Un método de
muestreo para ser útil debe proveer una idea del error de muestreo.

• Cuando se realizan experimentos (encuestas) existen otros errores, denominados errores


sistemáticos, que pueden eliminarse o están contenidos dentro de límites conocidos, como por
ejemplo cuestionarios mal confeccionados, instrumentos de medición mal calibrados, etc.
Tipos de muestreo:

• Los tipos de muestreo pueden dividirse en dos grandes grupos:

1. Métodos de muestreo probabilísticos: Son aquellas en las que se determina al azar los
individuos que constituirán la muestra. Estos métodos de muestreo aseguran la
representatividad de la muestra extraídas y son por tanto los más recomendables.

• Los cuatro tipos de muestreo probabilístico que se usan con más frecuencia son: el muestreo
aleatorio simple, el muestreo sistemático, el muestreo estratificado y el muestreo por
conglomerados.

2. Métodos de muestreo no probabilísticos.

Muestreo aleatorio simple:

El muestreo aleatorio simple selecciona muestras mediante métodos que permiten que cada posible
muestra tenga igual probabilidad de ser seleccionada y que cada elemento de la población total
tenga una oportunidad igual e independiente de ser incluido en la muestra.

La definición de muestreo aleatorio simple y del proceso de seleccionar una muestra aleatoria
simple dependen de si la población es finita o infinita.

Muestreo aleatorio simple (población finita):

muestra aleatoria simple de tamaño n de una población finita de tamaño N es una muestra
seleccionada de manera que cada posible muestra de tamaño n tenga la misma probabilidad de ser
seleccionada

Muestreo aleatorio simple (población infinita):

Una muestra aleatoria simple de una población infinita es una muestra seleccionada de manera que
se satisfagan las condiciones siguientes:

1. Cada uno de los elementos seleccionados proviene de la población.

2. Cada elemento se selecciona independientemente

Las poblaciones infinitas suelen asociarse con un proceso que opera continuamente a lo largo del
tiempo

Muestreo aleatorio sistemático:

Los elementos de la población se ordenan en alguna forma (por ejemplo alfabéticamente), se


selecciona al azar un punto de partida y después se elige para la muestra cada k-ésimo elemento de
la población.

Muestreo aleatorio estratificado proporcional

La población se divide en subgrupos llamados estratos y de cada uno de ellos se elige al azar una
determinada cantidad de unidades que integrarán la muestra.

Muestreo por conglomerados

Un conglomerado es una colección de elementos. A veces es menos costoso muestrear


conglomerados que elementos individuales de la población.
El muestreo por conglomerados reduce el costo de muestreo.

Las observaciones de los elementos de un conglomerado pueden tender a dar respuestas similares.

Por lo tanto será necesario seleccionar un número suficiente de conglomerados a fin de tener una
medida de la variación de las respuestas.

Muestras no probabilísticas o dirigidas:

1. Muestras de expertos: sujetos expertos en un tema. Adecuada para investigaciones de tipo


cualitativo o como paso previo al diseño de una encuesta.
2. Muestra de sujetos tipo o de estudio de casos: grupo de sujetos con características muy
específicas. Se utiliza para estudios exploratorios y cualitativos o como paso previo al diseño
de una encuesta. Muy utilizada en estudios sobre motivaciones y conductas del consumidor.
3. Muestras de sujetos voluntarios para pruebas de laboratorio: los sujetos deben ser
homogéneos en cuanto a diferentes características para que los resultados no obedezcan a
las diferencias individuales sino a las condiciones expuestas.

No permiten generalizar a la población ni evaluar margen de error en las conclusiones

En la muestra aleatoria simple:

• Las observaciones de una muestra se obtienen al observar la característica medible X de


manera independiente bajo las mismas condiciones “n” veces.

• Sea Xi la v.a que representa la i-ésima observación de la v.a X. Entonces X1, X2, …Xn
constituyen una muestra aleatoria donde los valores numéricos obtenidos son x1,x2,…, xn . Las
variables aleatorias que componen una muestra aleatoria son independientes, con la misma
distribución de probabilidad que la v.a X, debido a que cada observación se obtiene bajo las
mismas condiciones.

• El propósito principal de una muestra aleatoria es obtener información sobre los parámetros
no conocidos de la población. Un parámetro es una medida numérica descriptiva de la población
calculada con todos los elementos de la misma.

Estadístico:

• Cualquier función de las variables aleatorias que componen una muestra aleatoria se llama
estadístico.

• Una vez que se calcula sobre los datos de una muestra, representa una medida numérica
descriptiva de la muestra.

• Por lo tanto la variable aleatoria es un estadístico.

• Obsérvese que un estadístico es una v.a por ser función de variables aleatorias.
Distribución de la media muestral:

Teorema central del límite:

distribución de muestreo de la media muestral seguirá siendo normal, con media µ y desvío 𝜎 𝑛
• Si se muestrea una población que tiene una distribución de probabilidad desconocida la

si el tamaño de la muestra es grande (n≥30). Este es uno de los teoremas más útiles en
estadística, se lo conoce como teorema central del límite (TCL).
Distribución de la proporción muestral :

Inferencia estadística:

La inferencia estadística comprende los métodos utilizados para tomar decisiones u obtener
conclusiones sobre una población, basándose en la información de una muestra de la población.

La inferencia estadística puede dividirse en dos grandes áreas:

1. Estimación de parámetros
2. Pruebas de hipótesis
Ejemplo de interpretación de la tabla: la media muestral es un estimador puntual de la media
poblacional μ.

Propiedades de los estimadores puntuales:

• Antes de usar un estadístico muestral como estimador puntual, se verifica si el estimador


puntual tiene ciertas propiedades que corresponden a un buen estimador puntual. Las
propiedades que deben tener los buenos estimadores puntuales son: insesgadez, eficiencia y
consistencia.

• Como hay distintos estadísticos muestrales que se usan como estimadores puntuales de sus
correspondientes parámetros poblacionales, se usará la notación general siguiente:

 Insesgamiento:
 Eficiencia:

Con frecuencia sucede que un estimador no satisface una o más de las propiedades
estadísticas deseables en muestras pequeñas (insesgadez/eficiencia). Pero, a medida que el
tamaño de la muestra aumenta indefinidamente, el estimador posee diversas propiedades
estadísticas deseables. Estas propiedades se conocen como propiedades de muestra
grande, o propiedades asintóticas.

Insesgamiento asintótico:
 Consistencia:

La ley de los grandes números:


Estimación por parámetros:

Consiste en hallar un rango de valores alrededor del estimador puntual, que tenga una
probabilidad alta de contener al valor del parámetro desconocido. Es decir, encontrar un
intervalo de la forma (a;b), que con probabilidad 1-α contenga el valor del parámetro µ.
Tales intervalos se conocen como intervalos de confianza, sus extremos se conocen como
límites de confianza y la probabilidad de contener al valor verdadero es el nivel de
confianza.

Intervalos de Confianza para estimar la Media µ:

Si el nivel de confianza es, por ejemplo, 95 %, de 100 intervalos construidos se espera, en


concepto de promedio que 95 de ellos contengan al valor del parámetro que se busca y 5 no
lo contengan. En términos generales la estimación de un parámetro a través de un intervalo
de confianza simétrico (es decir que tiene al estimador como punto central) tiene la
siguiente forma:
• Observemos que la amplitud del intervalo depende directamente del nivel de confianza
que se fije y del tamaño de la muestra con la que se desee hacer la estimación.

• A mayor nivel de confianza, mayor amplitud, menor precisión.

• A mayor tamaño de muestra, menor amplitud, mayor precisión a igual confianza

Intervalos de Confianza para estimar la Media µ (Si  es desconocido y la variable X


~Normal):

Distribución t-student:
• La distribución t es una familia de distribuciones de probabilidad similares; cada
distribución t depende de un parámetro conocido como grados de libertad. La distribución t
para un grado de libertad es única, como lo es la distribución t para dos grados de libertad,
para tres grados de libertad, etc. A medida que el número de grados de libertad aumenta, la
diferencia entre la distribución t y la distribución normal estándar se va reduciendo

Diferencia entre la distribución t y la distribución normal estándar:


si la población no se distribuye normalmente y n<30 no podremos utilizar ninguno de los
intervalos anteriormente descriptos para estimar la media µ, en este caso se deberá emplear
el método de Bootstrap o un método no paramétrico.
Unidad 7: Prueba de hipótesis

Hipótesis estadística:

Es una suposición o enunciado que puede o no ser verdadera, relativa a una o más
poblaciones. Las hipótesis generalmente están expresadas en términos de parámetros
poblacionales.

Prueba de hipótesis:

Es un procedimiento o regla mediante el cual basándonos en una muestra rechazamos o no


la hipótesis nula formulada.

En una prueba de hipótesis intervienen dos hipótesis denotadas por H0 y H1:


 La hipótesis nula (H0) especifica el valor de un parámetro poblacional.
 La hipótesis alternativa (H1) da una suposición opuesta a aquella presentada en la
hipótesis nula.

En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y la hipótesis alternativa. Se
debe tener cuidado en estructurar las hipótesis apropiadamente de manera que la conclusión de la
prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar
las decisiones desea.

Para medir la diferencia entre los valores observados en la muestra y aquellos que se esperarían si
H0 fuera cierta se elige una expresión específica de acuerdo al parámetro involucrado en la hipótesis
y a la característica de los datos. Esta expresión se denomina estadístico de prueba o variable de
ensayo, es una cantidad calculada de la muestra y se usa cuando se va a tomar una decisión sobre la
hipótesis de interés.

• Para interpretar el valor del estadístico de prueba es necesario introducir un elemento más a la
prueba de hipótesis: la región de rechazo, que especifica los valores del estadístico para los cuales la
hipótesis nula es rechazada.

• La región de rechazo identifica los valores del estadístico que sostienen o sustentan la alternativa y
serían improbables, (raros) si la hipótesis nula fuera verdadera.

• El propósito de cualquier prueba de hipótesis es decidir si se rechaza la hipótesis nula o no se


rechaza la hipótesis nula.

• Ya que cualquier decisión estará basada sobre información parcial de una población, contenida en
una muestra, habrá siempre una posibilidad de una decisión incorrecta.
Si la hipótesis nula es rechazada y de hecho, la hipótesis nula es verdadera, se cometió un error, que
se llama Error de tipo I.

Un Error de tipo II ocurriría si la hipótesis nula fuera no rechazada cuando H0 es falsa.

Ya que nunca se puede eliminar la posibilidad de cometer un error de tipo I o un error de tipo II
cuando se usan muestras para hacer inferencias, se considerarán las posibilidades de cometer estos
errores.

• α= P (error de tipo I)=P (rechazar H0 si H0 es verdadera)

• 𝛽= P (error de tipo II)= P (No rechazar H0 si H0 es falsa)

• 1- 𝛽=Potencia de Prueba

• El experimentador es libre de elegir el valor de α, esto es, determinar cuán raro un suceso
observado debe ser para rechazar H0.

• Manteniendo pequeño α se evita aceptar la hipótesis de investigación (alternativa) si la hipótesis


nula es verdadera.

Enfoque del valor p para las pruebas de hipótesis:

Este enfoque también nos permite determinar si la hipótesis nula debe ser rechazada o no
rechazada. Para calcular el valor-p se usa el valor del estadístico de prueba. El método a seguir
depende de si se trata de una prueba de la cola inferior, de la cola superior o de dos colas

Por ejemplo, en una prueba de cola superior, el valor-p es la probabilidad de conseguir un valor del
estadístico de prueba tan grande o mayor que el obtenido con la muestra. Por ende, para calcular el
valor-p en una prueba de cola superior en el caso σ conocida (población normal), se halla el área
bajo la curva normal estándar a la derecha del estadístico de prueba. Una vez calculado el valor-p se
decide si es lo suficientemente pequeño para rechazar la hipótesis nula.

Con frecuencia se hace referencia al valor p como el nivel de significancia observado, que es el nivel
más bajo al que se puede rechazar H0 para un conjunto dado de datos. Se puede establecer una
regla general para determinar cuándo rechazar la hipótesis nula al usar el método del valor-p. Dado
un nivel de significancia α, la regla para el rechazo usando el método del valor-p es la siguiente:

RH0 si el valor p < α

No RH0 si el valor p > α

Pasos:

1. Dar la hipótesis nula y la hipótesis alternativa


2. Especificar el nivel de significación
3. Recabar los datos muestrales y calcular el valor del estadístico de prueba Método del valor p
4. Emplear el valor del estadístico de prueba para calcular el valor p
5. Rechazar H0 si el p<α

• Cuando la varianza poblacional es desconocida el estadístico de prueba utilizado tiene una


distribución t con n-1 grados de libertad, por lo que frente a esta situación en un problema de
prueba de hipótesis las hipótesis se plantean de forma similar al caso en que σ es conocido, pero el
estadístico de prueba sigue una distribución “t” de Student.
Es importante tener presente que cuando se tiene que contrastar una hipótesis estadística es
conveniente seguir un esquema, el cual debe incluir las siguientes etapas (si utilizo el método del
valor crítico):

1) Enunciado de la hipótesis nula y alternativa

2) Elección del nivel de significación (α)

3) Selección del estadístico de prueba.

4) Determinación de la regla de decisión.

5) Cálculo del estadístico.

6) Exposición de las conclusiones.

Prueba de Hipótesis para la media poblacional µ:


Prueba de hipótesis para la proporción poblacional p:

Prueba de hipótesis para contrastar la diferencia entre dos proporciones poblacionales:

Ahora se considerará la prueba de hipótesis acerca de la diferencia entre las proporciones de dos
poblaciones. Se presentará el caso en el que en H0 se supone que no hay diferencia entre las dos
proporciones poblacionales. Consideremos dos poblaciones 1 y 2 y la proporción de éxitos en cada
una de ellas: p1 y p2 Las hipótesis H0 y H1 , se plantean como sigue:

Para cualquiera de ellas el procedimiento consiste en seleccionar muestras grandes independientes


de tamaño n1 y n2 de las poblaciones 1 y 2 respectivamente y considerar las siguientes variables
aleatorias:
X1 :nº de éxitos en la muestra de tamaño n1.

X2 :nº de éxitos en la muestra de tamaño n2.

Prueba de hipótesis para contrastar la independencia entre dos variables categóricas:


• Muchas veces se desea determinar si existe alguna relación entre dos rasgos diferentes en los que
una población ha sido clasificada y en donde cada rasgo se encuentra subdividido en cierto número
de categorías mutuamente excluyentes.

Para responder a esta pregunta partiremos de la siguiente información: • Existe una sola población
de interés, con cada individuo de la población clasificado con respecto a dos factores o criterios
diferentes. Hay r categorías asociadas con el primer factor y c categorías asociadas con el segundo
factor. Se toma una sola muestra y el número de individuos pertenecientes a la categoría i del factor
1 y a la categoría j del factor 2 se anota en la celda en el renglón i, columna j (i = 1,...,r; j =1,...,c) de la
tabla siguiente tabla.

• La tabla que muestra los valores oij (número de individuos de la muestra que caen en la (i,j)-ésima
celda (renglón i, columna j) de la tabla) recibe el nombre de tabla de contingencia con dos criterios
de clasificación y se muestra a continuación:

• Prueba 2 para Independencia: investiga si las categorías de los dos factores ocurren de manera
independiente entre sí en la población.

o Sea n una muestra aleatoria de una población que se clasifica con respecto a dos factores
diferentes, y sea oij el número de individuos de que caen en la (i,j)-ésima celda (renglón i,
columna j) de la tabla. Sean, respectivamente, oi . y o. j los totales de fila y columna. Solo el
tamaño muestral n es fijo.
o Sea, además, pij = la proporción de individuos de la población que pertenecen a la categoría
i del factor 1 y a la categoría j del factor 2 = P(individuo seleccionado al azar caiga en la
categoría i del factor 1 y a la categoría j del factor 2)
o Entonces:
pi . = = P(un individuo seleccionado al azar caiga en la categoría i del factor 1)
p. j = = P(un individuo seleccionado al azar caiga en la categoría j del factor 2)
Que, para valores grandes de n, es en forma aproximada una variable aleatoria Chi-cuadrado
con grados de libertad.
La decisión de rechazar o no la hipótesis nula de independencia se basa en la comparación
de las frecuencias observadas y esperadas para cada una de las celdas. Si existe una
concordancia perfecta el estadístico tendrá un valor igual a cero mientras que si existe gran
discrepancia entre estas frecuencias, el estadístico tomará un valor muy grande. Luego para
un valor dado α, la región crítica es el extremo superior de una distribución Chi-cuadrado
con (r-1)x(c-1) grados de libertad. Si el valor de la prueba estadística (2 calculado) es mayor
que el valor crítico (2 de la tabla) se rechaza la hipótesis nula.

Contraste de bondad de ajuste (test para normalidad):


• Para determinar si las variables se ajustan a alguna de las distribuciones descriptas en
temas anteriores, es decir, si se ajustan a una distribución Normal, Poisson, Binomial, etc., es
necesario utilizar contrastes estadísticos, los cuales se denominan pruebas de bondad de
ajuste.
• Existen distintas pruebas de bondad de ajuste que se utilizan en función del tipo de datos y
la distribución teórica esperada.
Una clasificación de los ajustes más empleados es:
1. Muestras categorizadas:
▪ Test Chi- cuadrado
2. Muestras no categorizadas:
▪ Para todas las distribuciones: Prueba de Kolmogorov-smirnov.
▪ Solo Distribución Normal: Contraste de normalidad Shapiro -Wilk.

Test Chi-cuadrado

• Se puede aplicar tanto a distribuciones continuas como a distribuciones discretas o variables


cualitativas. Se basa en cuantificar las diferencias entre las frecuencias observadas en cada clase y las
esperadas, partiendo de la hipótesis nula de que los datos se ajustan a una distribución de
probabilidad dada, por ejemplo, Distribución Normal.

• La mayoría de los programas estadísticos calculan directamente el valor p del contraste o prueba.

• Si el valor p es menor que el nivel de significación elegido la hipótesis nula se rechaza.

Test de Kolmogorov-Smirnov

• Es la prueba adecuada para testear la normalidad de una muestra si el número de datos es grande
(n>30), aunque se puede usar tanto para muestras grandes como pequeñas. También se puede
utilizar para testear otras distribuciones como la Binomial o Poisson.

• Este test fue recalculado para una distribución Normal (LiLLiefors).

• Parte de la hipótesis nula de que los datos se ajustan a una distribución determinada.

• La hipótesis nula no se rechaza cuando el valor p del contraste es mayor que el nivel de
significancia elegido.

Test de Shapiro-Wilk

• Es la prueba más recomendable para testear normalidad de una muestra, sobre todo si se trabaja
con un numero pequeño de datos n<30.

• Solo se utiliza para testear la distribución Normal.

• Se basa en medir el ajuste de los datos a una recta probabilística Normal.

• Parte de la hipótesis nula de que los datos se ajustan a una distribución Normal.

• La hipótesis nula no se rechaza cuando el valor p del contraste es mayor que el nivel de
significancia elegido.

Unidad 8: Análisis de regresión lineal simple

El Análisis de Regresión tiene como objetivo estudiar la relación entre variables. Permite expresar
dicha relación en términos de una ecuación que conecta una variable de respuesta Y, con una o más
variables explicativas X1 ,X2 ,…,Xk .

Finalidad:

 Determinación explícita del funcional que relaciona las variables. (Predicción)


 Comprensión por parte del analista de las interrelaciones entre las variables que intervienen
en el análisis.

• A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto a
otras variables, esto no implica causalidad necesariamente. La misma viene dada por
consideraciones a priori o teóricas.

•A diferencia del análisis de correlación, en donde el principal objetivo es medir el grado de


asociación lineal entre dos variables, aquí estamos interesados en estimar o predecir el valor
promedio de una variable sobre la base de valores fijos de otras variables.

Regresión lineal simple: La relación lineal entre dos variables.


En el análisis de regresión se supone que la variable dependiente (Y) es aleatoria, es decir tiene una
distribución de probabilidad. La variable independiente toma valores fijos.

La variable Y, variable dependiente, se designa también como variable explicada o respuesta y la


variable X, variable independiente se define como variable explicatoria o regresor.

Curva de regresión poblacional:

Desde el punto de vista geométrico, una curva de regresión poblacional es simplemente el lugar
geométrico de las medias condicionales de la variable dependiente para los valores fijos de la
variable explicativa.

Concepto de función de regresión poblacional (FRP):

Es claro que cada media condicional E(Y/Xi) es función de Xi, donde Xi es un valor dado de X.

E(Y/Xi)=f(Xi) y f(Xi) denota alguna función de la variable explicativa X.

¿Qué forma toma la función f(Xi)?

En una situación real no tenemos la totalidad de la población para efectuar el análisis. La forma
funcional de la FRP es, una pregunta empírica, aunque en casos específicos la teoría puede tener
algo que decir. Por ejemplo, un economista podría plantear que el gasto de consumo está
relacionado linealmente con el ingreso.

Por tanto, como una primera aproximación podemos suponer que la FRP es una función lineal de Xi

β1 y β2 son parámetros no conocidos pero fijos que se denominan coeficientes de regresión.


• La primera ecuación es lineal (en este curso pensaremos en este caso).

• La segunda ecuación se puede trasformar en:

Log Y = log  +  log X

• La tercera ecuación se puede transformar en:

log Y =  +  X

Especificación estocástica de la FRP:

¿Qué podemos decir sobre la relación entre el gasto de consumo de una familia individual y un nivel
dado de ingresos? Se observa en la figura, que, dado el nivel de ingresos de Xi, el gasto de consumo
de una familia individual está agrupado alrededor del consumo promedio de todas las familias en
ese nivel de Xi, esto es, alrededor de su esperanza condicional. Por consiguiente, podemos expresar
la desviación de un Yi individual alrededor de su valor esperado de la siguiente manera:
Tiene la ventaja que muestra claramente otras variables además del ingreso, que afectan el gasto de
consumo y que un gasto de consumo de familias individuales no puede ser explicado en su totalidad
solamente por la variable incluida en el modelo de regresión.

Función de regresión muestral (FRM):

En la práctica lo que se tiene al alcance no es más que una muestra de valores de Y que
corresponden a algunos valores fijos de X. Por consiguiente, la labor ahora es estimar la FRP con
base en información muestral. Supóngase que no se conocía la población de la tabla 1 y que la única
información que se tenía era una muestra de valores de Y seleccionada aleatoriamente para valores
dados de X tal como se presenta en la tabla 2.

Las rectas de la figura se conocen como rectas de regresión muestral. En general, se podrían
obtener N FRM diferentes para N muestras diferentes y estas FRM no necesariamente son iguales.
Función de regresión simple: problema de estimación

La tarea consiste en estimar la función de regresión poblacional (FRP) con base en la función de
regresión muestral (FRM) en la forma más precisa posible.

Los dos métodos de estimación que suelen utilizarse son:

1. Los mínimos cuadrados ordinarios (MCO)


2. La máxima verosimilitud (MV).

El método de MCO es el que más se emplea en el análisis de regresión.


Método de mínimos cuadrados ordinarios (MCO):

Muestra que los residuos son simplemente las diferencias entre los valores observados y los
estimados de Y.

Ahora, dados n pares de observaciones de Y y X, se está interesado en determinar la FRM de tal


manera que esté lo más cerca posible a la Y observada.

Con este fin se puede adoptar el siguiente criterio: seleccionar la FRM de tal manera que la suma de
los residuos:

sea la menor posible. Este criterio, no es muy bueno porque a todos los residuos se les da la misma
importancia sin considerar qué tan cerca o qué tan dispersas estén las observaciones individuales de
la FRM. Debido a lo anterior, es muy posible que la suma algebraica de los residuos sea pequeña

(aun cero) a pesar de que las están bastante dispersas alrededor de FRM.
• Los estimadores obtenidos se conocen como estimadores de mínimos cuadrados, pues se derivan
del principio de mínimos cuadrados. Estos estimadores tienen propiedades numéricas por haber sido
obtenidos con el método de MCO: “Propiedades numéricas son las que se mantienen como
consecuencia del uso de mínimos cuadrados ordinarios, sin considerar la forma como se generaron
los datos”.

• Existen también las propiedades estadísticas de los estimadores MCO, es decir, propiedades “que
se mantienen sólo con ciertos supuestos sobre la forma como se generaron los datos”.

• Si deseamos estimar sólo β1 y β2, basta el método MCO presentado de la sección anterior.

• Por consiguiente, mientras no se especifique la forma como se crean o se generan Xi y 𝑢𝑖 no hay


manera de hacer alguna inferencia estadística sobre Yi , ni tampoco, sobre β1 y β2.

• Así, los supuestos sobre la(s) variable(s) Xi y el término de error son relevantes para lograr una
interpretación válida de los valores estimados de la regresión.

Supuestos del MCO:

1. Modelo de regresión lineal.


El modelo de regresión es lineal en los parámetros

2. Los valores de X son fijos en muestreo repetido.


Significa que el análisis de regresión es un análisis de regresión condicional, esto es,
condicionado a los valores dados del (los) regresor X
3. El valor medio de la perturbación ui es igual a cero.
4. Homocedasticidad o igual varianza de ui.
Dado el valor de X, la varianza de ui es la misma para todas las observaciones, es decir, las
varianzas condicionales de ui son idénticas.

5. No existe auto correlación entre las perturbaciones.


Dados dos valores cualquiera de X, Xi y Xj , la correlación entre dos ui y uj es cero.

6. La covarianza entre ui y Xi es cero o E(uiXi)=0


cov(ui, Xi ) = 0

7. El número de observaciones n debe ser mayor que el número de parámetros por estimar.

8. Variabilidad en los valores de X.

No todos los valores de X en una muestra dada deben ser iguales.


var( X )  0

9. No hay sesgo de especificación

Estimador puntual de la variancia poblacional σ 2 (Varianza de 𝑢𝑖):


• Error estándar de estimación mide alejamiento promedio de los puntos observados con respecto a
la recta y puede ser usado como medida de bondad de ajuste de los puntos a la recta. Si S es
pequeño los valores Y observados están "cerca" de los estimados por la recta. Si S fuera cero la
relación en la muestra seria exacta. Tiene el inconveniente que se mide en la misma unidad que Y, se
ve afectado por cambios de unidades.

Coeficiente de determinación muestral:

El supuesto de normalidad: El modelo clásico de regresión lineal normal


Intervalo de confianza para el coeficiente de regresión β2:

Prueba de significación de la regresión:

Estimación de la variancia poblacional σ 2:


Intervalo de confianza para el coeficiente de regresión β2:

Prueba de hipótesis para el coeficiente de regresión β2:

También podría gustarte