Estadistica Basica
Estadistica Basica
Términos comunes.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que
porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos la
edad de los habitantes en una ciudad, la población será el total de los habitantes de
dicha ciudad.
Muestra: Subconjunto de la población seleccionado de acuerdo con un criterio, y que
sea representativo de la población. Por ejemplo, elegir 30 personas por cada colonia
de la ciudad para saber sus edades, y este será representativo para la ciudad.
Individuo: cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un
individuo; si estudiamos la edad de cada habitante, cada habitante es un individuo.
Variable: Fenómeno que puede tomar diversos valores. Las variables pueden ser de
dos tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto,
ingresos anuales
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo:
número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá
ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por
ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Las variables también se pueden clasificar en:
Variables unidimensionales: sólo recogen información sobre una característica
(por ejemplo: edad de los alunmos de una clase).
Variables bidimensionales: recogen información sobre dos características de la
población (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen información sobre tres o más
características (por ejemplo: edad, altura y peso de los alumnos de una clase).
1
1.1.2 CONCEPTO Y CLASIFICACIÓN DE DATOS
DATOS
Características o números que son recolectados por observación. No son otra
cosa que el producto de las observaciones efectuadas en las personas y objetos
en los cuales se produce el fenómeno que queremos estudiar
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos,
cronológicos y geográficos
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es
de clase y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan
la materia de estadística I por su estado civil, observamos que pueden existir solteros,
casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes
magnitudes, decimos que son datos cuantitativos.
Ejemplo: Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a
sus notas, observamos que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o
períodos de tiempo, los datos son reconocidos como cronológicos.
Ejemplo: Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de
la UNESR en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se
dicen que son datos geográficos.
Ejemplo: El número de estudiantes de educación superior en las distintas regiones del
país
Gráfica de barras
Gráfica de pastel
3
Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de
eventos.
Frecuencia porcentual: se multiplica la frecuencia relativa por 100.
12 11 4 6 6 11 3 10 12 4
10 1 1 2 4 5 2 4 4 8
8 7 8 4 10 4 2 6 2 9
5 6 6 4 12 8 1 12 1 7
7 6 8 4 6 9 3 7 7 5
2) Ordenación de datos
1 2 4 4 5 6 7 8 9 11
1 2 4 4 5 6 7 8 10 12
1 2 4 4 6 6 7 8 10 12
1 3 4 4 6 6 7 8 10 12
2 3 4 5 6 7 8 9 11 12
Rango = 12-1 = 11
3) Tamaño de clase
No de clases = 1 + 3.332log (50) = 6
Tamaño de clase = 11/6 = 2
4) Límites de clase
5) Límites reales de clase
6) Marca de clase
Gráfica de barras: la gráfica de barras es una forma de gráfica que utiliza barras
para indicar la frecuencia de ocurrencia de las observaciones. Para construirla se
constituye el eje y por las frecuencias absolutas y el eje X por los límites inferior y
superior de cada clase, dejando un espacio entre barra y barra.
6
1.3 CALCULO DE LA MEDIA, MEDIANA Y MODA
Medidas de tendencia central:
La tendencia central se refiere al punto medio de una distribución. Las medidas de
tendencia central se conocen como medidas de posición.
Media
La media es el punto en una distribución de medidas, alrededor del cual las
desviaciones sumadas son iguales a cero. Es el valor promedio de una muestra o
población. La media es muy sensible a mediciones extremas que no estén
balanceadas en ambos lados. Se pueden calcular diversos tipos de media, siendo las
más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el
número de veces que se repite. La suma de todos estos productos se
divide por el total de datos de la muestra:
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética
o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés
anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo
sobre el de los años anteriores. En todo caso, la media aritmética es la medida de
posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la
serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media
aritmética como geométrica) se puede ver muy influido por valores extremos, que se
7
aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar
en gran medida el valor de la media, perdiendo ésta representatividad.
Mediana
Observación u observación potencial en un conjunto que divide el conjunto, de
modo que el mismo número de observaciones estén en cada uno de sus lados. Para
un número impar de valores, es el valor de en medio; para un número par es el
promedio de los dos medios. Para un conjunto con un número par de números, la
mediana será el promedio aritmético de los dos números medios.
Ejemplo:
Calcule la mediana para los siguientes datos.
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25.
La mediana es 21.
MODA
La moda es el valor de la observación que aparece con más frecuencia.
Ejemplo:
8
1.3 CÁLCULO DE VARIANZA, DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE
VARIACIÓN.
Medidas de dispersión: Estudia la distribución de los valores de la serie, analizando
si estos se encuentran más o menos concentrados, o más o menos dispersos
Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio
obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
Desviación estándar: Se calcula como raíz cuadrada de la varianza.
9
6 11 12.9 10.95 12.9 6 .12 12 % 11.9
5 5 71.70 856.82
total 50 1 100 % 319.50 2667.21
10
Probabilidades marginales: o probabilidades incondicionales = suma de
probabilidades.
Enfoques de la probabilidad
Probabilidad clásica se basa en la consideración de que los resultados de un
experimento son igualmente posibles.
Utilizando el punto de vista clásico,
Probabilidad de un evento = no. de resultados probables no. De resultados
posibles
Ejemplo
Considere el experimento de lanzar dos monedas al mismo tiempo.
El espacio muestral S = {HH, HT, TH, TT}
Considere el evento de una cara.
Probabilidad de una cara = 2/4 = 1/2.
Distribución muestral
El diagrama de árbol es muy útil para visualizar las probabilidades condicional y
conjunta y en particular para el análisis de decisiones administrativas que
involucran varias etapas.
EJEMPLO: una bolsa contiene 7 fichas rojas (R) y 5 azules (B), se escogen 2
fichas, una después de la otra sin reemplazo. Construya el diagrama de árbol
con esta información.
P(A|B).
11
Ejemplo
Aerolíneas Argentinas acaba de proporcionar la siguiente información de sus vuelos de
Buenos Aires a Rosario:
Llegada Frecuencia
Antes de tiempo 100
A tiempo 800
Demorado 75
Cancelado 25
Total 1000
Ejemplo
Si A es el evento de que un vuelo llegue antes de tiempo, entonces
P(A) = 100 /1000 = 0.1.
Si B es el evento de que un vuelo llegue demorado, entonces
P(B) = 75 /1000 = 0.075.
La probabilidad de que un vuelo llegue antes de tiempo o demorado es
P(A o B) = P(A) + P(B) = .1 + .075 = 0.175.
El valor de Z.
Z= Número de desviaciones estándar de x respecto a la media de esta distribución.
Z= x-m / s
13
Las variables aleatorias distribuidas en forma normal asumen muchas unidades
diferentes de medición, por lo que hablaremos de forma estándar y les daremos el
símbolo de Z.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables.
Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
El método otorga una probabilidad conocida de integrar la muestra a cada elemento
de la población, y dicha probabilidad no es nula para ningún elemento.
Los métodos de muestreo no probabilísticos no garantizan la representatividad de la
muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la
población.
(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten
resolver los problemas de representatividad aun en situaciones de muestreo no
probabilistico, por ejemplo los estudios de caso−control, donde los casos no son
seleccionados aleatoriamente de la población.)
Entre los métodos de muestreo probabilísticos más utilizados en investigación
encontramos:
14
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en
la población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la
población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10
individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si
empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
representación de los
dos sexos.
15
Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente
costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no
sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra
extraída sea representativa, ya que no todos los sujetos de la población tienen la
misma probabilidad de se elegidos.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando
que la muestra sea representativa.
Bola de nieve:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así
hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente
cuando se hacen estudios con poblaciones
16
CONCEPTO DE PRUEBA DE HIPÓTESIS
Afirmación acerca de los parámetros de la población.
Etapas Básicas en Pruebas de Hipótesis.
Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en
parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la
estadística muestral, así como la media (x), con el parámetro hipotético, se compara
con una supuesta media poblacional (). Después se acepta o se rechaza el valor
hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral
resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es
el valor hipotético del parámetro que se compra con el resultado muestral resulta muy
poco probable cuando la hipótesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado
muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o
mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la
estadística muestral (el estimador no segado del parámetro que se prueba) o una
versión transformada de esa estadística muestral. Por ejemplo, para probar el valor
hipotético de una media poblacional, se toma la media de una muestra aleatoria de
esa distribución normal, entonces es común que se transforme la media en un valor z
el cual, a su vez, sirve como estadística de prueba.
Definiciones
Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional.
Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales
proporcionan evidencia de que la hipótesis nula es falsa.
Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es
verdadera.
Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa.
Estadístico de prueba: valor obtenido a partir de la información muestral, se utiliza
para determinar si se rechaza o no la hipótesis.
Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la
hipótesis nula.
Valor p en la prueba de hipótesis
Valor p: es la probabilidad de observar un valor muestral tan extremo o más que el
valor observado, dado que la hipótesis nula es verdadera.
Si el valor p es menor que el nivel de significancia, H0 se rechaza.
Si el valor p es mayor que el nivel de significancia, H0 no se rechaza
17
5.2 METODO DE MINIMOS CUADRADOS
Modelo de minimos cuadrados ordinarios
El análisis de regresión trata de la dependencia de las variables explicativas, con el
objeto de estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente en términos de los valores conocidos o fijos de las variables explicativas.
Se trata de encontrar una método para hallar una recta que se ajuste de una manera
adecuada a la nube de puntos definida por todos los pares de valores muestrales
(Xi,Yi).
Este método de estimación se fundamenta en una serie de supuestos, los que hacen
posible que los
estimadores poblacionales que se obtienen a partir de una muestra, adquieran
propiedades que permitan señalar que los estimadores obtenidos sean los mejores.
Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer mínima la
suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar los
estimadores que hagan que esta suma sea lo más pequeña posible.
Los supuestos del método MCO son los que se presentan a continuación:
Supuesto 1
El modelo de regresión es lineal en los parámetros:
Yi = _ + _*Xi +_i
La linealidad de los parámetros se refiere a que los _´s son elevados solamente a la
primera potencia.
Supuesto 2
Los valores que toma el regresor X son considerados fijos en muestreo repetido. Esto
quiere decir que la variable X se considera no estocástica. Este supuesto implica que
el análisis de regresión es un análisis condicionado a los valores dados del (los)
regresores.
Supuesto 3
Dado el valor de X, el valor esperado del término aleatorio de perturbación _i es cero.
E ( _i/Xi ) = 0
Cada población de Y corresponde a un X dado, está distribuida alrededor de los
valores de su media con algunos valores de Y por encima y otros por debajo de ésta.
Las distancias por encima y por debajo de los valores medios son los errores, y la
ecuación antes señalada requiere que en promedio estos valores sean cero.
Supuesto 4
Homoscedasticidad. Dado el valor de X, la varianza de _i es la misma para todas las
observaciones.
Var (_i/Xi ) = E (_i − E(_i)/ Xi)2
= E (_i2/Xi )
=_
Esta ecuación señala que la varianza de las perturbaciones para cada Xi es algún
número positivo igual a _. Homoscedastidad significa igual dispersión, en otras
palabras significa que las poblaciones Y correspondientes a diversos valores de X
tienen la misma varianza. Por el contrario, se dice que existe heteroscedasticidad
cuando la varianza poblacional, ya no es la misma en cada muestra. El supuesto de
homoscedasticidad está indicando que todos los valores de Y correspondientes a
diversos valores de X son igualmente importantes.
Supuesto 5
Dados dos valores cualquiera de X, Xi y Xj ( i " j ), la correlación entre _i y _j cualquiera
( i " j ) es cero.
18
Cov ( _i, _j / Xi, Xj ) = E (_i − E(_i)/ Xi) (_j − E (_j/Xj ))
= E (_i/Xi ) (_j/Xj )
=0
Este supuesto indica que las perturbaciones no están correlacionadas. Esto significa
que los errores no siguen patrones sistemáticos. La implicancia del no cumplimiento
de este supuesto (existencia de auto correlación) implicaría que Yt no depende tan
sólo de Xt sino también de _t−1, puesto que _t−1 determina en cierta forma a _t.
Supuesto 6
La covarianza entre _i y Xi es cero, formalmente:
Cov (_i/Xi ) = E (_i − E(_i)) (Xi − E(Xi))
= E (_i (Xi − E(Xi)))
= E (_i Xi − E(Xi) E(_i))
= E (_i Xi)
=0
Este supuesto indica que la variable X y las perturbaciones no están correlacionadas.
Si X y _ estuvieran relacionadas, no podrían realizarse inferencias sobre el
comportamiento de la variable endógena ante cambios en las variables explicativas.
Supuesto 7
El número de observaciones debe ser mayor que el número de parámetros a estimar.
Supuesto 8
Debe existir variabilidad en los valores de X. No todos los valores de una muestra
dada deben ser
iguales. Técnicamente la varianza de X debe ser un número finito positivo. Si todos los
valores de X son idénticos entonces se hace imposible la estimación de los
parámetros.
Supuesto 9
El modelo de regresión debe ser correctamente especificado, esto indica que no existe
ningún en el modelo a estimar. La especificación incorrecta o la omisión de variables
importantes, harán muy cuestionable la validez de la interpretación de la regresión
estimada.
Supuesto 10
No hay relaciones perfectamente lineales entre las variables explicativas. No existe
multicolinealidad perfecta. Aunque todas las variables económicas muestran algún
grado de relación entre sí, ello no produce excesivas dificultades, excepto cuando se
llega a una situación de dependencia total, que es lo que se excluyó al afirmar que las
variables explicativas son linealmente dependientes.
19