ESTADISTICA
ESTADISTICA
ELEMENTO: cada una de las personas o cosas que integran dicha población (TAMAÑO)
CARÁCTER: Cualidades y/o propiedades de todo elemento, hay dos tipos y pueden ser:
Datos de corte transversal: datos que se observan en un instante temporal concreto, disponiendo
de un conjunto de valores de una variable para diferentes unidades en un momento dado. Se acude
en el cuadro a i (i=1, 2,..., n)
Datos de panel: una combinación de los dos anteriores, observaciones de una variable para
diferentes unidades en diversos momentos del tiempo. Se acude en el cuadro a ambos subindices, i=
referencia unidad, t= instante temporal
Se habla de “muestra” cuando solo se investiga una parte la población, y esta tiene que ser
totalmente representativa al conjunto de elementos que conforman la población, por ello se recurre
al azar.
Muestra por “subpoblación” es cuando se elige la muestra en función de que tenga unas
características específicas que se quieren estudiar y se diferencien del resto. (IPC, solo salen
productos de consumo más frecuentes)
Existes 2 tipos de distribuciones de frecuencias: no agrupadas (para variables discretas con pocos
valores) y agrupadas (para variables discretas con muchos valores o variables continuas).
1,2,1,3,4,1,1,1,1,1,2,2,2,3,2,2,2,4,...
Y ahora se sabe que las familias con 2 televisores son las más frecuentes, entre otras cosas.
Distribución de valores agrupados:
Pues se vuelven a ordenar de menor a mayor (tabulación) y ahora como las calificaciones son muy
distintas entre sí, no como los nº de televisores, pues es necesaria una presentación más resumida
En general, se necesita saber cuál será el nº de intervalos o clases en que dividiremos la tabla y cuál
será su amplitud: ai = Li – Li-1
Se recomienda agrupar los datos en un nº de intervalos que se mueva entre 5 y 20. Después de
elegir el nº de intervalos, el ancho de las clases dependerá del recorrido de la variable:
R = Lk – L0
Tenemos:
- DIAGRAMA DE BARRAS:
- GRÁFICO DE COLUMNAS:
REPRESENTACIÓN DE VALORES AGRUPADOS
- HISTOGRAMA: con distinta amplitud de clases que se calcula mediante la densidad (hi) = ni/ai
- POLIGONO DE FRECUENCIAS: es la unión con una linea de los puntos superiores del diagrama de
barras o los puntos medios superiores del histograma. Se denomina ojiva cuando se refiere a
frecuencias acumuladas:
VALORES NO AGRUPADOS:
VALORES AGRUPADOS:
- DIAGRAMA DE TALLO Y HOJA: si cogemos de ejemplo las notas de los examenes pues
teniamos:
Pues como todos tienen dos dígitos, cogemos el primero que va del 0 al 9, y los colocamos a la
izquierda en vertical, y los segundos dígitos de todos los números los ponemos en horizontal con sus
respectivos números:
- MEDIA ARITMETICA (X con barra arriba): con el ejemplo de los televisores primero se multiplica Xi
por ni, y la suma de todos sus dígitos se divide entre la suma de todo ni:
Y en el caso de las notas se calcula primero la media Xi y luego se realiza la media aritmetica:
- MEDIANA (Me): Se hace de dos formas para los agrupados y los sin agrupar:
- MODA (Mo): el valor que más se repite en las observaciones.
Cuando es sin agrupar, la moda Mo es igual al valor de Xi donde la ni se repite mas veces, en el
ejemplo de los televisores como el nº 2 de Xi se repite más veces (12 veces), pues la moda Mo es
igual a 2
Cuando es agrupado:
- CUANTILES:
Si por ejemplo me dicen un intervalo, por ejemplo, la nota 6,8, y tengo que buscar su percentil pues
se hace asi:
R = Xk – X1
RI = Q3 – Q1
-DESVIACIÓN MEDIANA (DMe): media ritmetica de la diferencia absoluta existente entre los valores
-VARIANZA (S^2):
Si se realiza la raíz cuadrada se obtiene la DESVIACIÓN TÍPICA (S):
CA = Xk / X1
Una distribución es simétrica cuando se parte por la mitad y sus dos partes coinciden, sino coinciden
se dice que son asimétricas. Observaciones se concentran en el centro de la distribución
(distribución simétrica), hacia los valores bajos de la variable (asimetría hacia la derecha) o hacia los
valores altos de la variable (asimetría a la izquierda).
La medida habitual de la Curtosis es el Coeficiente de Fisher (g2), que adopta la siguiente expresión:
3.4 CAMBIOS DE ORIGEN Y DE ESCALA
APÉNDICE A:
a1 = (Xi ni) / n
a2 = (X^2i ni) / n
X1 = X2 = ... = Xn-1 = 0 y Xn = X
X1 = X2 = ... = Xn = X / n
1. Elaboración de la tabla de frecuencias: por ejemplo una empresa donde Xi es el salario de los
trabajadores a percibir y ni es el nº de trabajadores que perciben dicho salario.
2. Creación de columnas: de masas parciales (Xi ni), de frecuencias absolutas acumuladas (Ni) y
de masas parciales acumuladas (Ui = X1 n1 + X2 n2 +...)
3. Creación de segundas columnas: de frecuencias acumuladas y masas acumuladas en
porcentajes de sus totales (Pi y Qi respectivamente)
Concentración máxima: cuando la linea dibujada coincide con el eje de la variable X. Entonces ahora,
todo se lo lleva un soslo individuo, a los distintos Pi les corresponden Qi= 0% salvo, el último Pi =
100% al que le corresponde Qi= 100%.
La Curva cuanto más próxima esté a la diagonal, menor es la concentración en la distribución y por
tanto el reparto es más igualitario.
4.2 INDICE DE GINI
Cuando en la Curva de Lorenz la curva coincida con la diagonal (reparto igualitario), entonces el
índice de Gini es igual a 0, indicando así la mínima concentración.
En caso contrario, cuando curva coincida con el eje de abscisas, el índice de Gini será 1, indicando la
máxima concentración.
EJEMPLO:
PARTE II: ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES
Una tabla de correlación es una tabla de doble entrada en la que se recoge información de dos
caracteres o variables. A estas se les llama distribuciones marginales.
En esta tabla estadística recoge el conjunto ordenado de pares de valores de las dos varibales junto
a sus respectivas frecuencias.
1. TABLA DE DOBLE ENTRADA: para variables discretas o continuas con muchos valores
distintos o muchas clases (relativas)
2. TABLA DE ENTRADA ÚNICA: para variables discretas o continuas con pocos valores distintos
o pocas clases.
- TABLA DE DOBLE ENTRADA: es la tabla de correlación y se designa Xi e Yj, para cada valor, y las
frecuencias de cada par de valores por nij.
Un ejemplo es añadir al ejemplo de los televisores por familia (Xi) el número de miembros que
componen cada familia (Yj), las respuestas ordenadas y tabla respectivas serían las siguientes:
- TABLA DE ENTRADA ÚNICA: se puede crear con el ejemplo anterior expresando la
distribución de frecuencias en una tabla única:
Para valores agrupados se usa el diagrama de dispersión o nube de puntos (solo frecuencias
unitarias):
5.3 DISTRIBUCIONES MARGINALES
Para obtener las frecuencias de X e Y por separado se realiza la distribución marginal, que es sumar
las filas y columnas correspondientes, donde nj es de Y e ni es de X:
Como se pueden sacar las distribuciones marginales para X e Y, también se puede realizar la MEDIA
ARITMETICA y la VARIANZA para ambos individualmente:
Pero la consideración conjunta es la COVARIANZA: es la media aritmética de los productos entre las
desviaciones de la variable X respecto a su media y las de la variable Y respecto a la suya:
Un valor de 0, es que las variables no guardan relación lineal entre si. Por el contrario, un valor
distinto de 0, supone la existencia de cierto grado de dependencia lineal entre las variables.
En el ejemplo de los televisores se calcularía con los siguientes pasos:
3. Productos cruzados (Xi – X barra horizontal arriba) x (Yj – Y barra horizontal) x nij:
4. Sacamos la covarianza:
Con este ejemplo y el resultado de la covarianza sabemos que las variables guardan relación lineal
entre sí, siendo esta directa.
Dos variables son independientes, no guardan relación entre sí, cuando se cumple:
Aquí la fij es de frecuencias (ni/n o nj/n), y con el ejemplo de los televisores tenemos la siguiente
tabla compuesta por esas frecuencias relativas:
- Relación entre momentos básicos: los momentos centrales de segundo orden pueden
expresarse en función de los “momentos respecto al origen”. Entonces si:
TEMA 6: REGRESIÓN Y CORRELACIÓN SIMPLE:
Lo importante de una tabla bidimensional es conocer la relación entre las dos variables implicadas.
Estas coincidencias pueden ser perfectas o exactas, o nulas o ausencia total de ligazón. En el primer
caso si se conoce el valor de la primera variable automáticamente se conoce la segunda
(dependencia estadística entre variables). En el segundo caso, son independientes y no se puede
determinar el comportamiento de una de ellas, dada la otra.
El valor también puede ser positivo, que indica relación directa, o negativo, que indica relación
inversa (si una variable aumenta la otra disminuye).
Ahora bien, para poder determinar el valor aproximado a tomar por la variable Y, conocido un valor
de X, hemos de acudir a:
- REGRESIÓN: se busca determinar una función (f) que refleje la relación existente entre las
variables X e Y:
Para realizar el proceso de regresión: 1, se precisa primero el mejor tipo de ecuación que represente
la relación entre las variables. 2, optar por el procedimiento a elegir que facilite los valores de los
coeficientes que concretan la ecuación matemática elegida.
Así se consigue la transformación de la dependencia estadística entre dos variables por una
dependencia de tipo funcional o exacta.
El tipo de ecuación idóneo es la línea recta (ecuación lineal). Y el método de ajuste o procedimiento
al que se suele recurrir es el método de los mínimos cuadrados. Y una vez hecha la línea de regresión
se calcula el grado de validez de la ecuación ajustada que informa sobre la intensidad de la
covariación existente entre las variables existentes.
6.2 REGRESIÓN LINEAL SIMPLE
Supongamos que nos interesa averiguar la relación para dos variables X e Y (consumo y renta), de las
que se tiene n observaciones:
La línea
adecuada para trazar en esa gráfica es una ecuación lineal de tipo:
Yi = a + bXi
Donde “a” es el origen y “b” la pendiente. En lugar de quedar exactamente como esto:
Se van a coger dos valores para la Y, dado un valor para la variable X: el que el corresponde en la
tabla o valor observado (Yi) y el que le corresponde por la ecuación o valor ajustado (Yi*). La
diferencia entre ambos se denomina residuo o error (ei):
- AJUSTE: para obtener los valores concretos de los parámetros acudimos al método de ajuste
de los mínimos-cuadrados. Bajo la condición:
El término independiente o “a” supone el valor que alcanza Y cuando X es 0. Y la pendiente o “b”
marca en cuánto se incrementa Y cuando X lo hace una unidad.
- MEDIDAS DE BONDAD DEL AJUSTE: Para saber el grado en que la línea de regresión puede
sustituir a las observaciones de las que se obtiene la precisión de ajuste y concluir si la
ecuación ajustada es válida o no, se calculan dos medidas.
1. VARIANZA RESIDUAL, o dispersión absoluta, es la desviación cuadrática entre la Y
observada y la Y ajustada.
Si da un resultado elevado, se dice que los valores de los residuos son elevados y por tanto la línea
de regresión se aleja mucho de los valores observados, y la covariación entre variables es baja. Si el
resultado es pequeño, se dice que hay covariación entre variables ya que la representación es alta.
El valor 0 debe tomarse como nula representatividad de la ecuación ajustada (covariación nula) y el
valor uno como expresión de un ajuste perfecto (covariación exacta). A partir de los valores 0,85 o
0,90 se concluye como covariación válida.
CUADRO RESUMEN PARA EJERCICIOS Y PARA SU CALCULO RESPECTIVO:
En las aplicaciones prácticas de la técnica de regresión a datos económicos pueden sugerirse otros
tipos de ecuaciones, a través de funciones no lineales.
Se puede actuar de dos formas, o bien ajustar la ecuación no lineal o bien buscar una forma de
convertirla en lineal, que es más preferible.
Este método es útil ya que muestra el cambio porcentual de Y ante un cambio porcentual de X.
Estos dos modelos sirven cuando se quiere analizar la tasa de cambio de la variable Y ante cambios
unitarios de X, o viceversa.
Si la variable Y que liga con las varibales X2, X3, X4, etc es de tipo lineal, es decir:
Y = b1 + b2 X2 + b3 X3 + b4 X4 + ...
Quedaría así:
Luego existe, la Yi observada y la Yi* ajustada, que la diferencia de ambos es el residuo o error (ei):
Con el ejemplo de los sueldos de unos empleados de una empresa según su antigüedad, daba de
resultado un R^2 = 0.88, es decir, el salario percibido por los trabajadores y su antigüedad tenía una
relación aceptable. Ahora se quiere añadir la variable de “sexo”, por las mujeres de la misma
empresa creen que ellas cobran menos y no específicamente por la antigüedad que lleva a cabo
cada uno dentro de la empresa.
Da como resultado el coeficiente de la variable ficticia 0,291 que indica que 291 euros son a favor de
los hombres, si diese un numero negativo sería a favor de las mujeres.
PARTE III: ANÁLSIS ESTDÍSTICO DE INFORMACIÓN CUALITATIVA:
Es el análisis del comportamiento de uno o varios caracteres cualitativos de los elementos de una
población. La tabla es llamada distribución de frecuencias del atributo (conjunto de modalidades
del atributo y sus respectivas frecuencias).
El recurso empleado en estos modelos para las medidas características es el por ciento respecto al
total.
Y en este caso se estudian las asociaciones entre distintos atributos o caracteres cualitativos
La distribución de frecuencias (tabla respectiva en este caso) existe para dos tipos:
Con el ejemplo de los exámenes, si se sustituye la nota por Suspenso (S), Notable (N), etc, quedaría
la siguiente tabla:
En este caso si es ordinal porque las calificaciones esconden detrás numeros ordenados (S = 1, A = 5,
etc).
La representación gráfica de estas tablas estadística son las siguientes:
En este caso, 0,47 x 0,40 de las f i y de fj no dan lo mismo que Fss = 0,40, entonces no se cumple la
condición de independencia.
Si no son independientes pues se calcula cuanta asociación hay entre ellos, bien mediante
coeficiente de contingencia de Pearson (cuando son nominales) o por correlación por rangos de
Spearman (cuando son ordinales).
8.4.1 COEFICIENTE DE CONTINGENCIA
La fórmula es:
Si el resultado se acerca a 0 es que hay independencia, y a medida que aumenta pues existe más
asociación entre los atributos.
La fórmula es:
Donde:
- Serie temporal: observaciones de una variable en distintos instantes del tiempo (días, semanas,
meses, trimestres, etc)
También puede darse una estadística de dos variables, una de las cuales es el tiempo:
Se representa con los ejes de coordenadas, donde el tiempo (t) suele ir en el eje de abscisas y la
variable Yt sobre el de ordenadas. Se puede realizar con el gráfico de puntos, un gráfico lineal, o bien
un gráfico de columnas o barras
Las fluctuaciones de las variables económicas a lo largo del tiempo dan como resultado cuatro
componentes básicos:
Cuando el esquema es multiplicativo se trabaja con logaritmos de cada componente, y no con los
datos originales de la variable. Y para el aditivo, si tenemos el “log” se usa el antilogaritmo para
saber los valores reales de la variable.
Se suele intentar conocer dos de los componentes enunciados: los movimientos de larga duración
tendencia-ciclo, llamado componente extra-estacional (T) y otro que cuantifique las variaciones
estacionales, los movimientos accidentales formas el residuo o error.
Para conocerlos mediante la representación gráfica, es simple con mirarlo para saber primero si se
trata de una tendencia plana (sin tendencia), lineal o curvilínea:
Y para saber si es multiplicativo o aditivo, basta con mirar los picos y valles, si las ondas se van
agrandando es multiplicativo, si se mantienen constantes aunque la tendencia esté subiendo
entonces es aditivo.
A veces no basta con mirar la representación gráfica para saber esto, y se requiere el gráfico
desviación típica - media: Se calcula la media y la desviación típica de la serie para cada año y se
representan los valores en los ejes de coordenadas con el diagrama de puntos, medias en el eje de
abscisas y desviación típica en eje de ordenadas.
Si el gráfico sigue una trayectoria plana entonces es aditivo (estacionalidad y tendencia son
independientes). Si el gráfico y los puntos tienden a alinearse a lo largo de una recta creciente,
entonces es multiplicativo.
Cuando se sabe el esquema de agregación, se determina la tendencia. Para su obtención hay dos
métodos: enfoque local (se usa una parte de la información se la serie temporal, se usa el método
de alisado, suavizando o alisando las irregularidades que presenta la serie temporal) o enfoque
global (se usa de forma conjunta toda la información, se usa el ajuste por mínimos cuadrados de las
funciones matemáticas de las tendencias: plana, lineal o parabólica. Aquí si es aditivo se usan los
datos originales, si es multiplicativo se usan los datos en logaritmos).
10.1 MÉTODOS DE LA MEDIA MOVIL
La media movil consiste en calcular sucesivas medias aritmeticas sobre intervalos de “p” valores de
la serie, es decir, la media mientras que el intervalo se va desplazando a lo largo de los datos
quedando:
Primero se tiene que saber a qué periodos (p) se van a hacer las medias y el instante temporal
asignado a cada media.
Con relación al periodo, tomaremos p=s (s = 12 o 4, según sea temporalmente mensual o trimestral
respectivamente).
Después, para elegir el instante temporal de las medias, en la “media móvil centrada” se considera el
instante central del intervalo usado en su obtención, se usa para detectar la tendencia de la serie. En
la “media móvil asimétrica” el valor de la media se asigna al punto final del intervalo, se usa para
series temporales para trayectoria plana, es decir:
POR EJEMPLO:
Si se desea calcular la media movil centrada en este caso, se usa un numero par (12 o 4), en este
caso p=4 porque cogemos los trimestres de 2002. Y se realiza la media movil de la siguiente manera:
Consiste en ajustar por mínimos cuadrados una ecuación matemática, una lineal o parábola de 2º
grado, bien sobre datos originales de la serie (aditivo) o sobre logaritmos (multiplicativo).
Se recomienda ajustar la ecuación a medias anuales de la serie temporal no al total de datos, en caso
de que sea escaso el nº de años entonces si conviene emplear toda la información.
Para la ecuación lineal, se calculan los momentos de la serie temporal, entendida como distribución
bidimensional:
Para la parábola, se iguala una nueva variable (Z) al término cuadrático t. Es decir, se plantea la
ecuación de regresión múltiple:
Ahora se sigue con la estacionalidad, para saber la evolución de la variable a c/p, y permitir un mejor
análisis de la tendencia.
Se realiza la media movil centradas, y luego se divide el respectivo PIB entre su media movil que
haya salido, y eso da el indice bruto de variación estacional “IBVE (Y/T)”. Luego se suman los
respectivos datos de cada trimestre y se divide entre el nº de peridodos que haya, en el ejemplo
siguiente en este caso n=5, y eso es el IVEt:
Cuando IVE sea superior a 1 = la serie es superior a la tendencia
Es lo mismo que antes solo que en lugar de dividir cada dato del año de sus respectivos trimestres
entre la media movil centrada respectiva, se resta, y eso seria la diferencias brutas de variación
estacional “DBVE (Y – T)”. Luego se hace la media para obtener la DVE como antes, diviendo cada
sumatorio de trimestres entre el nº de periodos, en este caso n=4, y luego cada media media de DVE
se le resta la media general de DVE para obtener el DVE de cada periodo que seria DVE (n):
Si el resultado de DVE es mayor a 0 = la serie es superior a la tendencia
11.3 DESESTACIONALIZACIÓN
La desestacionalización es “Dt” y se calcula dividiendo cada dato del ejercicio con su IVE, si es
multiplicativo, o bien restando o la diferencia entre cada dato del ejercicio con su respectivo DVE, si
es aditivo. Por ejemplo:
PARTE V: ANÁLISIS DE LOS CAMBIOS TEMPORALES EN VARIABLES:
El número índice cuantifica el cambio que se produce en una o en varias variables entre dos
instantes del tiempo, tomando como referencia el “periodo base”.
La representación gráfica con números índices es la misma que con nº normales: de puntos, de
barra, de columna y de linea
El cambio de base es actualizar el período base, y el enlace de números índices es unir dos series de
nº índices de distintas bases.
Al calcular cada Tasa de variación con el año base y el respectivo año que se quiera calcular,
podemos obtener o la tasa de variación de todos los periodos, desde el ultimo al primero, o bien
entre un año y otro con sus respectivas tasas divididas entre si -1:
Luego la tasa media acumulativa se calcula de la siguiente forma:
Se calcula la media aritmética de los índices simples, y se realiza también la media agregativa, que
es hacer la media aritmética, pero con los datos del sumatorio de las variables Y:
MEDIA ARIMÉTICA:
MEDIA AGREGATIVA:
Se le dan ponderaciones distintas a cada número índice (w1, w2, w3,...). Así se vuelve a calcular la
media aritmética y agregativa multiplicando la ponderación con su respectivo nº índice:
POR EJEMPLO: el ejemplo anterior se dice que son 3 marcas de coche, A, B y C, y se pide que se
calcule el índice complejo ponderado sabiendo que el 50% de ventas pertenecen al coche A, el 30 al
B y el resto al C, es decir, 20.
12.3 APLICACIONES DE LOS NÚMEROS ÍNDICES
Te dan precios (p) y sus respectivas cantidades (q) para calcular los números índices
Índice de Laspeyres (x100), se usa ponderando los precios o cantidades del instante base:
Índice de Paasche (x100), se usa como ponderación el precio o cantidad que corresponde al instante
para el que se calcula el índice:
Con el ejemplo anterior, nos dan los precios y sus respectivas cantidades vendidas de cada coche y
quedaría esto:
12.4 OPERACIONES CON NÚMEROS ÍNDICES
Si se quiere cambiar la base para calcular los índices, se calcula primero el enlace (k), en el que (h) es
el nuevo año al que se quiere pasar de base:
Y entonces por supuesto se debería de cambiar todos los datos del índice de Laspeyres, calculándolo
ahora respecto de base a 2004, porque si no los datos serían erróneos.
El análisis de la evolución temporal para unidades monetarias, se realiza sin tener en cuenta la
depreciación de la moneda. Asi que conviene expresar los valores denominados a “precios
corrientes” (valores nominales) en “precios constantes” (valores reales) esto es denominado como
DEFLACTACIÓN o ÍNDICE DEFLACTOR:
La “repercusión” es como afecta la variación de uno de los componentes del índice general que se
calcula. Y la “participación” es que parte de la variación producida en el índice general que se esta
usando es por la variación de X componente.
La repercusión absoluta (Ri) y la relativa (Rri) se calcula asi con el índice de Laspeyres:
Esta en IPC (índice de precios al consumo), IPCA (índice de precios al consumo amortizado), IPI
(ínidice de producción industrial), IPRI (índice de precios industriales), IBEX35 (índice de cotización
bursátil).
Se calcula mensualmente por el INE, por nivel geográfico o funcional, miendo la evolución del nivel
de precios de los beines y servicios de hogares españoles. Se usa el índice de Laspeyres para su
construcción (cada 5 años se renueva la base del índice).
El EUROSTAT calcula también el IPCUM para la Unión Monetaria (área euro) y el IPCUE para toda la
Unión Euopea.
- IPI: Con base de referncia a 2005 y usando Laspeyres, calcula el nivel de producción
industrial en España (excluye la construcción) y también para la producción de bienes de
equipo
- IPRI: índice Laspeyres, base 2005, mide el precio de los bienes de equipo de empresas, es un
deflactor perfecto para los bienes de capital (al igual que el IPC para los bienes de consumo)
- IBEX35: ejemplo de evolución de la economía española, recoge acciones de las 35 empresas
más relevantes. Índice de Laspeyres, con ponderaciones en función de la capitalización de
las empresas que al integran (Capit), y se aplica un coeficiente de ajuste (J) para no alterar el
valor del índice con el reparto de dividendos ampliación de capital, etc.
Las empresas de mayor peso son: Santander, Telefónica, BBVA, Iberdrola y Repsol.