Resumen Estadistica
Resumen Estadistica
• La Estadística como disciplina trata sobre el desarrollo y aplicación de métodos para: recopilar,
organizar, presentar, interpretar y analizar datos con el fin de tomar decisiones y resolver
problemas.
Conceptos estadísticos:
Los datos constituyen la materia prima del análisis estadístico. Estos pueden obtenerse por medio de
publicaciones o registros de datos de organismos estatales o privados (fuentes secundarias) o
mediante la aplicación por parte del investigador de una o varias técnicas de obtención de datos.
Los pasos en la resolución de un problema estadístico son secuenciales; es decir, se tiene que
identificar primero la población de interés y planear como se reunirán los datos antes de poder
recopilarlos y analizarlos. Y todas estas operaciones tienen que preceder a la última meta, la
realización de inferencias acerca de la población basadas en la información contenida en la muestra.
Recolección de datos:
Distribución de frecuencias:
Frecuencia absoluta de una categoría o valor particular de la variable (fi ): es la cantidad de datos
que hay en el conjunto con esa categoría o valor.
Frecuencia acumulada de un valor particular de la variable (Fi): es la cantidad de datos que hay en
el conjunto cuyos valores son menores o iguales a ese valor particular.
Frecuencia acumulada relativa (Fri): frecuencia acumulada/n representa la proporción de datos que
hay en el conjunto cuyos valores son menores o iguales a ese valor particular.
Frecuencia acumulada porcentual (Fri %): es la frecuencia acumulada relativa multiplicada por 100.
Representa el porcentaje de datos que hay en el conjunto cuyos valores son menores o iguales a ese
valor particular. Estas frecuencias se calculan para cada valor de la variable.
Agrupamos los datos en clases o intervalos de modo que cada dato pueda ubicarse en una y solo una
clase. El número de clases depende del número de observaciones y de la dispersión de los datos. En
general una distribución con pocas o muchas clases brindará poca información. Si bien hay distintos
criterios, en general se recomiendan entre 5 y 15 clases, dependiendo de la cantidad de datos. Un
criterio para definir el número de clases es aplicar la raíz cuadrada a n.
Si es posible, las clases deben tener el mismo ancho y no traslaparse con el fin de mejorar la
información visual. Con la agrupación se pierde información ya que todos los datos pertenecientes a
un intervalo o clase está representada por el punto medio o marca de clase.
Para llegar a estos intervalos primero hallamos la diferencia entre el valor máximo de los datos y el
valor mínimo de los datos, a eso le llamamos rango. Rango= Valor max- valor min.
La marca de clase se calcula sumando los extremos del intervalo y dividiendo esta suma por 2.
Una vez organizados y presentados los datos empíricos el siguiente paso es calcular medidas
representativas que resuman información.
Las medidas descriptivas numéricas que resumen el comportamiento de una muestra se denominan
estadísticos o estimadores.
Una medida de tendencia central es un valor que indica el “centro” de un conjunto de datos y por lo
general es posible elegir algún valor promedio que describa todo el conjunto de datos.
Como el cálculo de la media aritmética se basa en todas las observaciones, resulta muy afectada
cuando los datos contienen algunos valores extremos muy grandes o muy pequeños. Cuando
estos valores, llamados valores atípicos (outliers), se promedian con otros, afectan el valor de la
media a tal grado que no parece razonable que su valor describa el “centro” de los datos, es
decir la media aritmética no sería el mejor promedio para resumir la información. En tal caso
debemos recurrir a otro tipo de promedio.
Cuartiles:
Además de las medidas de tendencia central, existen otras medidas útiles de posición “no central”
que se utilizan para resumir propiedades de grandes conjuntos de datos cuantitativos. Estas medidas
se denominan cuantiles. Algunos de los cuantiles más utilizados son los deciles que dividen a un
conjunto de datos ordenados en décimos, los percentiles que los dividen en centésimos y los
cuartiles que los dividen en cuartos. En este curso estudiaremos los cuartiles.
Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al
25%, de los valores más pequeños, del 75% restante, constituido por valores más grandes. El
segundo cuartil Q2 es la mediana la cual divide a mi conjunto de datos en dos partes iguales. El
tercer cuartil Q3 separa al 25%, de los valores más grandes, del 75% restante, constituido por valores
más pequeños.
Primer cuartil Q1: el 25% de los valores son menores o iguales que el primer cuartil Q1, y el 75% son
mayores que el primer cuartil Q1.
Segundo cuartil Q2 es la Mediana: el 50% de los valores son menores o iguales que la mediana y el
otro 50% son mayores.
Tercer cuartil Q3: El 75% de los valores son menores o iguales que el tercer cuartil Q3, y el 25% son
mayores que el tercer cuartil Q3.
Orden de los cuartiles: Se refiere a la posición que ocupan en un conjunto de datos ordenados.
Medidas de dispersión:
Es una medida de variación relativa que se expresa en porcentaje y es útil para comparar la
variabilidad de dos o más conjuntos de datos cuando:
• Los datos están expresados en distintas unidades.
• Los datos están en las mismas unidades, pero las medias muy distantes.
Importante: Cuando estemos comparando dos conjuntos de datos, el conjunto que presente
mayor coeficiente de variación será el más heterogéneo. Y por lo tanto el conjunto que
presente menor coeficiente de variación será el más homogéneo.
Forma de una distribución:
Para describir un conjunto de datos además de las medidas de tendencia central y de las medidas de
dispersión se puede estudiar la forma en que se distribuye el conjunto de datos estadísticos. Una
distribución de datos puede ser simétrica o no. Si la distribución de los datos no es simétrica, se la
denomina asimétrica o sesgada.
Cuando los datos están ligeramente sesgados, se prefiere la mediana como medida de centralización
y el RIC como medidas de dispersión.
Otra manera de apreciar la forma de una distribución es observar la agudeza del perfil de su
distribución de frecuencia. La curtosis es una medida que sirve para analizar el grado de
concentración que presentan los valores de una variable analizada alrededor de la zona central de la
distribución de frecuencias.
Box plot:
El diagrama de caja y bigote (Box Plot) ofrece una representación gráfica de los datos a través de
cinco números de resumen: Xmínimo, Q1, Mediana, Q3, Xmáximo.
Permite visualizar al mismo tiempo varias características importantes de un conjunto de datos, tales
como el centro, la dispersión, la asimetría.
1) Se dibuja una caja cuyos extremos se localizan en el primer y tercer cuartil (de esta forma, la caja
contiene al 50% de los valores del conjunto de datos).
3) Se dibuja una línea (un bigote) que une el lado izquierdo de la caja (Q1) con la ubicación del
menor valor (X mínimo), representa el 25% inferior de los datos. De la misma manera se dibuja un
bigote que une el lado derecho de la caja (Q3) con la ubicación del valor mayor (X máximo),
representa el 25% superior de los datos.
Observación importante: con la forma de graficar que se presentó no se podrán detectar outliers o
valores atípicos.
Análisis descriptivo y representación de datos de dos variables (bivariados):
• Datos bivariados: estos datos constan de los valores de dos variables diferentes que se obtienen
de la misma unidad observacional de la población.
• En la tabulación cruzada se pueden emplear dos variables cualitativas o dos variables cuantitativas
o una variable cualitativa y una cuantitativa.
Diagrama de dispersión:
• En los problemas que intervienen dos variables cuantitativas, los datos de la muestra se
representan gráficamente en un diagrama de dispersión.
• El diagrama de dispersión es la gráfica de todos los pares ordenados de datos de dos variables que
están en un sistema de ejes coordenados. Usualmente la variable X, se gráfica en el eje horizontal y
la variable Y en el eje vertical
Medidas de la asociación lineal entre dos variables cuantitativas:
Covarianza:
Si la Sxy (Covarianza (X,Y)) es positiva. Indica que hay una asociación lineal positiva entre X e
Y.
Si la Sxy (Covarianza (X,Y)) es negativa. Indica que hay una asociación lineal negativa entre X
e Y.
Si la Sxy (Covarianza (X,Y)) es cero. Indica que no hay una asociación lineal entre X e Y.
• Valor entre cero y uno, inclusive, que describe la posibilidad relativa de que ocurra un evento
• Un experimento es cualquier proceso o acción que genera observaciones y que puede ser
repetible.
Determinísticos: Aquellos que repetidos bajo las mismas condiciones dan igual resultado,
por lo tanto, son predecibles, Ej. Fenómenos físicos y químicos.
Aleatorios: Aquellos que admiten dos o más resultados posibles, y si bien esos resultados se
conocen, no puede predecirse con exactitud cuál de ellos va a ocurrir. Es posible repetir el
experimento en las mismas condiciones.
Evento o Suceso: Cualquier subconjunto del espacio muestral. Los designamos con
letras mayúsculas.
Gráficamente:
Se basa en la consideración de que los resultados del experimento son igualmente posibles.
Eventos mutuamente excluyentes: El hecho de que un evento se presente significa que ninguno de
los demás eventos puede ocurrir al mismo tiempo.
Eventos colectivamente exhaustivos: Por lo menos uno de los eventos debe ocurrir cuando se
realiza un experimento.
Probabilidad empírica:
La definición clásica no se puede utilizar cuando el espacio de resultados no es finito o los resultados
no son igualmente posibles.
• La probabilidad de que un evento ocurra representa una fracción de los eventos similares que
sucedieron en el pasado.
• La clave para determinar probabilidades de forma empírica consiste en que una mayor cantidad de
observaciones proporcionarán un cálculo más preciso de la probabilidad.
Probabilidad subjetiva:
Si se cuenta con poca o ninguna experiencia o información con la cual sustentar la probabilidad, es
posible aproximarla en forma subjetiva. En esencia, esto significa que un individuo evalúa las
opiniones e información disponibles y luego calcula o asigna la probabilidad. Esta probabilidad se
denomina probabilidad subjetiva.
Propiedades de la probabilidad:
• Si A es un evento P(A) indica la probabilidad de que A ocurra y P (A ) indica la probabilidad de que
A no ocurra entonces se verifica la siguiente propiedad:
• P (A) = 1 – P (A)
• P (A) = 1 – P (A)
• Regla de la Probabilidad condicional: Dados dos eventos A y B nos interesa calcular la probabilidad
de uno de ellos sabiendo que el otro ha ocurrido.
Regla de Bayes:
Sean A1, A2, …….An n causas posibles mutuamente excluyentes para que un evento B ocurra y este
ocurrió, entonces la probabilidad de que la causa haya sido Ai es:
Unidad 3: Variables aleatorias y Modelos discretos de probabilidad.
Variable aleatoria:
• Una variable aleatoria proporciona un medio para describir los resultados experimentales
empleando valores numéricos.
• La variable que asocia un número a cada resultado del espacio muestral se denomina variable
aleatoria.
• Así como no se conoce con anticipación el resultado de un experimento aleatorio lo mismo ocurre
con el valor que tomará una variable aleatoria, el valor depende del azar.
• Las variables aleatorias se designan con letras mayúsculas, tal como X, y con una letra minúscula x
a un valor posible.
• Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que
asuma
Variable aleatoria discreta: A una variable aleatoria que asuma ya sea un numero finito de
valores o una sucesión infinita de vales tales como 0, 1, 2…., se le llama variable aleatoria
discreta.
• Al conjunto de los posibles valores que puede asumir la variable se denomina recorrido de
la variable.
• La función de distribución de una variable aleatoria discreta X, designada con Fx (x) es:
Fx(x)=P(X≤x).
• Sea X una variable aleatoria discreta, la esperanza, valor esperado o media esperada de X
se nota E(X) o y es:
= E(X) = xi pi
Propiedades de la esperanza:
Teniendo en cuenta algunas de las propiedades anteriores si definimos Y=aX+c siendo a y c
constantes y X una variable aleatoria, la esperanza de Y se resolvería de la siguiente forma:
E(Y)= E(aX+c)= E(aX)+E(c)=aE(X)+c
La varianza: es una medida de dispersión de los valores de la variable aleatoria con respecto
a la esperanza de dicha variable.
Propiedades de la varianza:
• La desviación estándar se mide en las mismas unidades que la variable aleatoria X y por
tanto suele preferirse para describir la variabilidad de una variable aleatoria.
distribución binomial:
• Algunos experimentos consisten en la observación de una serie de pruebas o ensayos
idénticos e independientes, los cuales pueden generar uno de dos resultados.
• Si se presentan las propiedades 2,3 y4 se dice que los ensayos son generados por un
proceso de Bernoulli. Si además se presenta la propiedad 1, se trata de un experimento
Binomial.
• E(X)=n*p
• V(X)=n*p*q
distribución de Poisson:
Un experimento aleatorio que consiste en contar ocurrencias o éxitos en un intervalo de
tiempo dado o en una región especifica se denomina experimento o proceso de Poisson. Se
observan eventos discretos en un medio continuo. El intervalo puede ser de cualquier
longitud: un día, una semana, un minuto, etc. y la región especifica puede ser un segmento
de línea, una superficie, una pieza, un volumen, etc.
• En la actualidad el responsable de tomar una decisión se enfrenta a diario con muchas situaciones
en la que debe tomar una decisión entre varias alternativas posibles pero cuyos resultados
dependen de eventos futuros inciertos y que no pueden ser controlados por el decisor.
• El análisis de decisiones es la técnica utilizada para ayudar a los administradores a escoger la mejor
secuencia de decisiones en problemas que poseen las siguientes características.
1. Existen uno o más puntos en el tiempo en el que deben tomar las decisiones.
2. En cada punto del tiempo en que se debe tomar una decisión, existe un número finito de
alternativas de decisión disponibles.
3. El futuro puede ser descrito mediante un número finito de estados o resultados posibles
• Decisión de nivel sencillo: decisión que debe tomarse en un solo punto en el tiempo.
Tercer paso: construir la matriz de pago, esta matriz muestra los resultados que se obtienen para
cada combinación alternativa-estado de la naturaleza.
• Decisiones de multinivel: conjunto de decisiones que deben tomarse en varios puntos secuenciales
en el tiempo.
o Se analiza cada alternativa o curso de acción frente a posibles situaciones del contexto de decisión,
evaluándose las consecuencias.
o Las posibles situaciones del contexto se denominan Estados de la Naturaleza, y la información
acerca de los mismos, varía desde un conocimiento total (certeza), hasta una ignorancia completa
(incertidumbre).
o La agrupación de los resultados o consecuencias de cada una de las alternativas en relación a los
estados de la naturaleza se denomina matriz de consecuencia o matriz de pagos.
• Cada estado de la naturaleza o situación del contexto en una columna con el valor de la
probabilidad Pj asociada al mismo en el caso de conocerse
Utilizaremos la notación Vij para denotar el resultado (consecuencia) asociado con la alternativa de
decisión i y el estado de naturaleza j.
1. En condiciones de Certeza.
2. En condiciones de Riesgo.
3. En condiciones de Incertidumbre.
o Las estrategias competitivas o decisiones en condiciones de conflicto son las que se toman cuando
en lugar de enfrentarnos con estados naturales, lo hacemos con oponentes racionales, se conoce
como Teoría de Juegos.
Decisiones en un contexto de riesgo:
Debido a que puede ocurrir uno y sólo uno de los N estados de la naturaleza, las probabilidades
deben satisfacer dos condiciones:
Valor Esperado de la Información Perfecta = (Valor Esperado CON Información Perfecta) – (Valor
Esperado SIN Información Perfecta)
• VEcIP= valor esperado con información perfecta sobre los estados de la naturaleza *
• VEsIP= valor esperado sin información perfecta sobre los estados de la naturaleza **
-en un problema de minimización de costos, VECIP representa el costo mínimo que se espera
obtener si se conociera con antelación el estado natural que ocurrirá.
**Representa el valor esperado de la mejor decisión obtenido mediante la aplicación del Criterio del
Valor Esperado
▪ Es lo que estaría dispuesto a pagar para mejorar el conocimiento del evento futuro que ocurrirá
Arboles de decisión:
• Un árbol de decisión es un recurso gráfico para analizar decisiones bajo riesgo, es decir, problemas
en los que se han especificado las probabilidades de los estados de la naturaleza.
1. Individualizar los puntos de decisión y las opciones existentes en cada punto (cursos de acción o
alternativas). Cada línea que salga del punto de decisión representa una alternativa de decisión
posible.
2. Individualizar los nodos de probabilidad. Cada línea que salga de un nodo de probabilidad
representa un evento aleatorio posible.
3. Estimar las probabilidades asociadas a cada estado de la naturaleza o evento aleatorio.
4. Estimar los resultados para cada nodo de decisión mediante el valor esperado analizando el árbol
de derecha a izquierda.
5. Resolver el problema obteniendo como solución la ruta que proporcione la decisión óptima según
el objetivo del mismo.
Para identificar la alternativa de decisión con el mejor valor esperado en un árbol de decisión
debemos analizar el árbol de derecha a izquierda:
2° elegir la rama de decisión que lleva al nodo de probabilidad con el mayor valor esperado. La
alternativa de decisión que corresponde a esta rama es la decisión recomendada.
Análisis de sensibilidad:
• El análisis de sensibilidad puede utilizarse para determinar cómo los cambios en las probabilidades
para los estados de la naturaleza o los cambios en los resultados afectan la alternativa de decisión
recomendada.
• En muchos casos, las probabilidades para los estados de la naturaleza y los resultados se basan en
evaluaciones subjetivas. El análisis de sensibilidad ayuda al tomador de decisiones a entender cuáles
de estas entradas son cruciales para la elección de la mejor alternativa de decisión.
A partir del análisis de sensibilidad visto se mostró cómo la información de la probabilidad sobre los
estados de la naturaleza afecta a los cálculos del valor esperado y, por tanto, a la decisión
recomendada. Con frecuencia, los tomadores de decisiones hacen evaluaciones preliminares o de
probabilidad previa para los estados de la naturaleza que son los mejores valores de probabilidad
disponibles en ese momento. Sin embargo, es posible que para tomar la mejor decisión el tomador
de decisiones quiera buscar información adicional sobre los estados de la naturaleza.
Esta nueva información se puede utilizar para revisar o actualizar las probabilidades anteriores, de
modo que la decisión final se base en probabilidades más precisas para los estados de la naturaleza.
Con mayor frecuencia, la información adicional se obtiene por medio de experimentos diseñados
para proporcionar información muestral acerca de los estados de la naturaleza.
• Una estrategia de decisión es una secuencia de decisiones y resultados fortuitos donde las
decisiones elegidas dependen de los resultados aún por determinar de los eventos fortuitos.
• El método utilizado para determinar la estrategia de decisión óptima se basa en avanzar en sentido
inverso por el árbol de decisión siguiendo estos pasos:
VEcIM= valor esperado con información muestral sobre los estados de la naturaleza
VEsIM= valor esperado sin información muestral sobre los estados de la naturaleza
Este valor representa el adicional que se espera ganar, por encima del VEsIM
A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de
intervalos se le llama variable aleatoria continua.
Los resultados experimentales basados en escalas de medición tales como tiempo, peso, distancia y
temperatura pueden ser descritos por variables aleatorias continua.
Un modo de determinar si una variable aleatoria es discreta o continua es imaginar los valores de la
variable aleatoria como puntos sobre un segmento de recta. Elegir dos puntos que representen
valores de la variable aleatoria. Si todo el segmento de recta entre esos dos puntos representa
también valores posibles para la variable aleatoria, entonces la variable aleatoria es continua.
Una diferencia fundamental entre las variables aleatorias discretas y las variables aleatorias
continuas es cómo se calculan las probabilidades.
En las variables aleatorias discretas la función de probabilidad f(x) da la probabilidad de que la
variable aleatoria tome un valor determinado.
Como en cualquier punto determinado el área bajo la gráfica de f(x) es cero, una de las
consecuencias de la definición de la probabilidad de una variable aleatoria continua es que la
probabilidad de cualquier valor determinado de la variable aleatoria es cero.
Es importante proporcionar un medio sencillo para describir la distribución de una v.a. X continua.
Supongamos que el rango es el intervalo a X b.
Sin embargo, es posible desarrollar una función que permita calcular probabilidades, análoga a la
función de probabilidad de una v.a. Discreta.
Definición: Una función f(x) es un función de densidad de probabilidad de una v.a. X continua, si para
cualquier intervalo [a,b] de números reales:
• Entre los modelos continuos de probabilidad de gran uso en cualquier campo disciplinario se
encuentran:
Función:
Características:
• Toda la familia de distribuciones normales se diferencia por medio de dos parámetros: la media μ y
la desviación estándar σ.
• El punto más alto de una curva normal se encuentra sobre la media, la cual coincide con la
mediana y la moda.
• La media de una distribución normal puede tener cualquier valor: negativo, positivo o cero
•La distribución normal es simétrica, siendo la forma de la curva normal al lado izquierdo de la
media, la imagen especular de la forma al lado derecho de la media. Las colas de la curva normal se
extienden al infinito en ambas direcciones y en teoría jamás tocan el eje horizontal. Dado que es
simétrica, la distribución normal no es sesgada; su sesgo es cero.
• La desviación estándar determina qué tan plana y ancha es la curva normal. Desviaciones estándar
grandes corresponden a curvas más planas y más anchas, lo cual indica mayor variabilidad en los
datos.
•Las probabilidades correspondientes a la variable aleatoria normal se dan mediante áreas bajo la
curva normal. Toda el área bajo la curva de una distribución normal es 1. Como esta distribución es
simétrica, el área bajo la curva y a la izquierda de la media es 0.50 y el área bajo la curva y a la
derecha de la media es 0.50
Distribución normal estándar:
Una variable aleatoria que tiene una distribución normal con una media cero y desviación estándar
de uno tiene una distribución normal estándar. Para designar esta variable aleatoria normal se suele
usar la letra z.
Esta distribución tiene el mismo aspecto general que cualquier otra distribución normal, pero tiene
las propiedades especiales, μ = 0 y σ = 1.
Como ocurre con otras variables aleatorias continuas, los cálculos de la probabilidad en cualquier
distribución normal se hacen calculando el área bajo la gráfica de la función de densidad de
probabilidad. Por tanto, para hallar la probabilidad de que una variable aleatoria normal esté dentro
de un determinado intervalo, se tiene que calcular el área que se encuentra bajo la curva normal y
sobre ese intervalo.
Para la distribución normal estándar ya se encuentran calculadas las áreas bajo la curva normal y se
cuenta con tablas que dan estas áreas y que se usan para calcular las probabilidades.
La razón por la cual la distribución normal estándar se ha visto de manera tan amplia es que todas
las distribuciones normales son calculadas mediante la distribución normal estándar.
Dada una variable aleatoria X con distribución normal con una media μ cualquiera y una desviación
estándar σ cualquiera, las preguntas sobre las probabilidades en esta distribución se responden
pasando primero a la distribución normal estándar. Luego utilizamos las tablas de probabilidad
normal estándar y los valores apropiados de z para hallar las probabilidades deseadas.
Como ocurre con cualquier distribución de probabilidad continua, el área bajo la curva
correspondiente a un intervalo da la probabilidad de que la variable aleatoria tome algún valor en
ese intervalo.
• Existen ocasiones en las que no es posible o resulta poco práctico analizar a todos los elementos
de una población y por este motivo se selecciona una muestra, entendiendo por tal una parte
representativa de la población.
1. Métodos de muestreo probabilísticos: Son aquellas en las que se determina al azar los
individuos que constituirán la muestra. Estos métodos de muestreo aseguran la
representatividad de la muestra extraídas y son por tanto los más recomendables.
• Los cuatro tipos de muestreo probabilístico que se usan con más frecuencia son: el muestreo
aleatorio simple, el muestreo sistemático, el muestreo estratificado y el muestreo por
conglomerados.
El muestreo aleatorio simple selecciona muestras mediante métodos que permiten que cada posible
muestra tenga igual probabilidad de ser seleccionada y que cada elemento de la población total
tenga una oportunidad igual e independiente de ser incluido en la muestra.
La definición de muestreo aleatorio simple y del proceso de seleccionar una muestra aleatoria
simple dependen de si la población es finita o infinita.
muestra aleatoria simple de tamaño n de una población finita de tamaño N es una muestra
seleccionada de manera que cada posible muestra de tamaño n tenga la misma probabilidad de ser
seleccionada
Una muestra aleatoria simple de una población infinita es una muestra seleccionada de manera que
se satisfagan las condiciones siguientes:
Las poblaciones infinitas suelen asociarse con un proceso que opera continuamente a lo largo del
tiempo
La población se divide en subgrupos llamados estratos y de cada uno de ellos se elige al azar una
determinada cantidad de unidades que integrarán la muestra.
Las observaciones de los elementos de un conglomerado pueden tender a dar respuestas similares.
Por lo tanto será necesario seleccionar un número suficiente de conglomerados a fin de tener una
medida de la variación de las respuestas.
• Sea Xi la v.a que representa la i-ésima observación de la v.a X. Entonces X1, X2, …Xn
constituyen una muestra aleatoria donde los valores numéricos obtenidos son x1,x2,…, xn . Las
variables aleatorias que componen una muestra aleatoria son independientes, con la misma
distribución de probabilidad que la v.a X, debido a que cada observación se obtiene bajo las
mismas condiciones.
• El propósito principal de una muestra aleatoria es obtener información sobre los parámetros
no conocidos de la población. Un parámetro es una medida numérica descriptiva de la población
calculada con todos los elementos de la misma.
Estadístico:
• Cualquier función de las variables aleatorias que componen una muestra aleatoria se llama
estadístico.
• Una vez que se calcula sobre los datos de una muestra, representa una medida numérica
descriptiva de la muestra.
• Obsérvese que un estadístico es una v.a por ser función de variables aleatorias.
Distribución de la media muestral:
distribución de muestreo de la media muestral seguirá siendo normal, con media µ y desvío 𝜎 𝑛
• Si se muestrea una población que tiene una distribución de probabilidad desconocida la
si el tamaño de la muestra es grande (n≥30). Este es uno de los teoremas más útiles en
estadística, se lo conoce como teorema central del límite (TCL).
Distribución de la proporción muestral :
Inferencia estadística:
La inferencia estadística comprende los métodos utilizados para tomar decisiones u obtener
conclusiones sobre una población, basándose en la información de una muestra de la población.
1. Estimación de parámetros
2. Pruebas de hipótesis
Ejemplo de interpretación de la tabla: la media muestral es un estimador puntual de la media
poblacional μ.
• Como hay distintos estadísticos muestrales que se usan como estimadores puntuales de sus
correspondientes parámetros poblacionales, se usará la notación general siguiente:
Insesgamiento:
Eficiencia:
Con frecuencia sucede que un estimador no satisface una o más de las propiedades
estadísticas deseables en muestras pequeñas (insesgadez/eficiencia). Pero, a medida que el
tamaño de la muestra aumenta indefinidamente, el estimador posee diversas propiedades
estadísticas deseables. Estas propiedades se conocen como propiedades de muestra
grande, o propiedades asintóticas.
Insesgamiento asintótico:
Consistencia:
Consiste en hallar un rango de valores alrededor del estimador puntual, que tenga una
probabilidad alta de contener al valor del parámetro desconocido. Es decir, encontrar un
intervalo de la forma (a;b), que con probabilidad 1-α contenga el valor del parámetro µ.
Tales intervalos se conocen como intervalos de confianza, sus extremos se conocen como
límites de confianza y la probabilidad de contener al valor verdadero es el nivel de
confianza.
Distribución t-student:
• La distribución t es una familia de distribuciones de probabilidad similares; cada
distribución t depende de un parámetro conocido como grados de libertad. La distribución t
para un grado de libertad es única, como lo es la distribución t para dos grados de libertad,
para tres grados de libertad, etc. A medida que el número de grados de libertad aumenta, la
diferencia entre la distribución t y la distribución normal estándar se va reduciendo
Hipótesis estadística:
Es una suposición o enunciado que puede o no ser verdadera, relativa a una o más
poblaciones. Las hipótesis generalmente están expresadas en términos de parámetros
poblacionales.
Prueba de hipótesis:
En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y la hipótesis alternativa. Se
debe tener cuidado en estructurar las hipótesis apropiadamente de manera que la conclusión de la
prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar
las decisiones desea.
Para medir la diferencia entre los valores observados en la muestra y aquellos que se esperarían si
H0 fuera cierta se elige una expresión específica de acuerdo al parámetro involucrado en la hipótesis
y a la característica de los datos. Esta expresión se denomina estadístico de prueba o variable de
ensayo, es una cantidad calculada de la muestra y se usa cuando se va a tomar una decisión sobre la
hipótesis de interés.
• Para interpretar el valor del estadístico de prueba es necesario introducir un elemento más a la
prueba de hipótesis: la región de rechazo, que especifica los valores del estadístico para los cuales la
hipótesis nula es rechazada.
• La región de rechazo identifica los valores del estadístico que sostienen o sustentan la alternativa y
serían improbables, (raros) si la hipótesis nula fuera verdadera.
• Ya que cualquier decisión estará basada sobre información parcial de una población, contenida en
una muestra, habrá siempre una posibilidad de una decisión incorrecta.
Si la hipótesis nula es rechazada y de hecho, la hipótesis nula es verdadera, se cometió un error, que
se llama Error de tipo I.
Ya que nunca se puede eliminar la posibilidad de cometer un error de tipo I o un error de tipo II
cuando se usan muestras para hacer inferencias, se considerarán las posibilidades de cometer estos
errores.
• 1- 𝛽=Potencia de Prueba
• El experimentador es libre de elegir el valor de α, esto es, determinar cuán raro un suceso
observado debe ser para rechazar H0.
Este enfoque también nos permite determinar si la hipótesis nula debe ser rechazada o no
rechazada. Para calcular el valor-p se usa el valor del estadístico de prueba. El método a seguir
depende de si se trata de una prueba de la cola inferior, de la cola superior o de dos colas
Por ejemplo, en una prueba de cola superior, el valor-p es la probabilidad de conseguir un valor del
estadístico de prueba tan grande o mayor que el obtenido con la muestra. Por ende, para calcular el
valor-p en una prueba de cola superior en el caso σ conocida (población normal), se halla el área
bajo la curva normal estándar a la derecha del estadístico de prueba. Una vez calculado el valor-p se
decide si es lo suficientemente pequeño para rechazar la hipótesis nula.
Con frecuencia se hace referencia al valor p como el nivel de significancia observado, que es el nivel
más bajo al que se puede rechazar H0 para un conjunto dado de datos. Se puede establecer una
regla general para determinar cuándo rechazar la hipótesis nula al usar el método del valor-p. Dado
un nivel de significancia α, la regla para el rechazo usando el método del valor-p es la siguiente:
Pasos:
Ahora se considerará la prueba de hipótesis acerca de la diferencia entre las proporciones de dos
poblaciones. Se presentará el caso en el que en H0 se supone que no hay diferencia entre las dos
proporciones poblacionales. Consideremos dos poblaciones 1 y 2 y la proporción de éxitos en cada
una de ellas: p1 y p2 Las hipótesis H0 y H1 , se plantean como sigue:
Para responder a esta pregunta partiremos de la siguiente información: • Existe una sola población
de interés, con cada individuo de la población clasificado con respecto a dos factores o criterios
diferentes. Hay r categorías asociadas con el primer factor y c categorías asociadas con el segundo
factor. Se toma una sola muestra y el número de individuos pertenecientes a la categoría i del factor
1 y a la categoría j del factor 2 se anota en la celda en el renglón i, columna j (i = 1,...,r; j =1,...,c) de la
tabla siguiente tabla.
• La tabla que muestra los valores oij (número de individuos de la muestra que caen en la (i,j)-ésima
celda (renglón i, columna j) de la tabla) recibe el nombre de tabla de contingencia con dos criterios
de clasificación y se muestra a continuación:
• Prueba 2 para Independencia: investiga si las categorías de los dos factores ocurren de manera
independiente entre sí en la población.
o Sea n una muestra aleatoria de una población que se clasifica con respecto a dos factores
diferentes, y sea oij el número de individuos de que caen en la (i,j)-ésima celda (renglón i,
columna j) de la tabla. Sean, respectivamente, oi . y o. j los totales de fila y columna. Solo el
tamaño muestral n es fijo.
o Sea, además, pij = la proporción de individuos de la población que pertenecen a la categoría
i del factor 1 y a la categoría j del factor 2 = P(individuo seleccionado al azar caiga en la
categoría i del factor 1 y a la categoría j del factor 2)
o Entonces:
pi . = = P(un individuo seleccionado al azar caiga en la categoría i del factor 1)
p. j = = P(un individuo seleccionado al azar caiga en la categoría j del factor 2)
Que, para valores grandes de n, es en forma aproximada una variable aleatoria Chi-cuadrado
con grados de libertad.
La decisión de rechazar o no la hipótesis nula de independencia se basa en la comparación
de las frecuencias observadas y esperadas para cada una de las celdas. Si existe una
concordancia perfecta el estadístico tendrá un valor igual a cero mientras que si existe gran
discrepancia entre estas frecuencias, el estadístico tomará un valor muy grande. Luego para
un valor dado α, la región crítica es el extremo superior de una distribución Chi-cuadrado
con (r-1)x(c-1) grados de libertad. Si el valor de la prueba estadística (2 calculado) es mayor
que el valor crítico (2 de la tabla) se rechaza la hipótesis nula.
Test Chi-cuadrado
• La mayoría de los programas estadísticos calculan directamente el valor p del contraste o prueba.
Test de Kolmogorov-Smirnov
• Es la prueba adecuada para testear la normalidad de una muestra si el número de datos es grande
(n>30), aunque se puede usar tanto para muestras grandes como pequeñas. También se puede
utilizar para testear otras distribuciones como la Binomial o Poisson.
• Parte de la hipótesis nula de que los datos se ajustan a una distribución determinada.
• La hipótesis nula no se rechaza cuando el valor p del contraste es mayor que el nivel de
significancia elegido.
Test de Shapiro-Wilk
• Es la prueba más recomendable para testear normalidad de una muestra, sobre todo si se trabaja
con un numero pequeño de datos n<30.
• Parte de la hipótesis nula de que los datos se ajustan a una distribución Normal.
• La hipótesis nula no se rechaza cuando el valor p del contraste es mayor que el nivel de
significancia elegido.
El Análisis de Regresión tiene como objetivo estudiar la relación entre variables. Permite expresar
dicha relación en términos de una ecuación que conecta una variable de respuesta Y, con una o más
variables explicativas X1 ,X2 ,…,Xk .
Finalidad:
• A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto a
otras variables, esto no implica causalidad necesariamente. La misma viene dada por
consideraciones a priori o teóricas.
Desde el punto de vista geométrico, una curva de regresión poblacional es simplemente el lugar
geométrico de las medias condicionales de la variable dependiente para los valores fijos de la
variable explicativa.
Es claro que cada media condicional E(Y/Xi) es función de Xi, donde Xi es un valor dado de X.
En una situación real no tenemos la totalidad de la población para efectuar el análisis. La forma
funcional de la FRP es, una pregunta empírica, aunque en casos específicos la teoría puede tener
algo que decir. Por ejemplo, un economista podría plantear que el gasto de consumo está
relacionado linealmente con el ingreso.
Por tanto, como una primera aproximación podemos suponer que la FRP es una función lineal de Xi
log Y = + X
¿Qué podemos decir sobre la relación entre el gasto de consumo de una familia individual y un nivel
dado de ingresos? Se observa en la figura, que, dado el nivel de ingresos de Xi, el gasto de consumo
de una familia individual está agrupado alrededor del consumo promedio de todas las familias en
ese nivel de Xi, esto es, alrededor de su esperanza condicional. Por consiguiente, podemos expresar
la desviación de un Yi individual alrededor de su valor esperado de la siguiente manera:
Tiene la ventaja que muestra claramente otras variables además del ingreso, que afectan el gasto de
consumo y que un gasto de consumo de familias individuales no puede ser explicado en su totalidad
solamente por la variable incluida en el modelo de regresión.
En la práctica lo que se tiene al alcance no es más que una muestra de valores de Y que
corresponden a algunos valores fijos de X. Por consiguiente, la labor ahora es estimar la FRP con
base en información muestral. Supóngase que no se conocía la población de la tabla 1 y que la única
información que se tenía era una muestra de valores de Y seleccionada aleatoriamente para valores
dados de X tal como se presenta en la tabla 2.
Las rectas de la figura se conocen como rectas de regresión muestral. En general, se podrían
obtener N FRM diferentes para N muestras diferentes y estas FRM no necesariamente son iguales.
Función de regresión simple: problema de estimación
La tarea consiste en estimar la función de regresión poblacional (FRP) con base en la función de
regresión muestral (FRM) en la forma más precisa posible.
Muestra que los residuos son simplemente las diferencias entre los valores observados y los
estimados de Y.
Con este fin se puede adoptar el siguiente criterio: seleccionar la FRM de tal manera que la suma de
los residuos:
sea la menor posible. Este criterio, no es muy bueno porque a todos los residuos se les da la misma
importancia sin considerar qué tan cerca o qué tan dispersas estén las observaciones individuales de
la FRM. Debido a lo anterior, es muy posible que la suma algebraica de los residuos sea pequeña
(aun cero) a pesar de que las están bastante dispersas alrededor de FRM.
• Los estimadores obtenidos se conocen como estimadores de mínimos cuadrados, pues se derivan
del principio de mínimos cuadrados. Estos estimadores tienen propiedades numéricas por haber sido
obtenidos con el método de MCO: “Propiedades numéricas son las que se mantienen como
consecuencia del uso de mínimos cuadrados ordinarios, sin considerar la forma como se generaron
los datos”.
• Existen también las propiedades estadísticas de los estimadores MCO, es decir, propiedades “que
se mantienen sólo con ciertos supuestos sobre la forma como se generaron los datos”.
• Si deseamos estimar sólo β1 y β2, basta el método MCO presentado de la sección anterior.
• Así, los supuestos sobre la(s) variable(s) Xi y el término de error son relevantes para lograr una
interpretación válida de los valores estimados de la regresión.
7. El número de observaciones n debe ser mayor que el número de parámetros por estimar.