0% encontró este documento útil (0 votos)
60 vistas61 páginas

ESTADISTICA

Este documento presenta conceptos básicos sobre estadística descriptiva, incluyendo definiciones de población, muestra, variables, distribuciones unidimensionales y medidas de tendencia central, dispersión y forma.

Cargado por

Lamya Asai
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
60 vistas61 páginas

ESTADISTICA

Este documento presenta conceptos básicos sobre estadística descriptiva, incluyendo definiciones de población, muestra, variables, distribuciones unidimensionales y medidas de tendencia central, dispersión y forma.

Cargado por

Lamya Asai
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 1: CONCEPTOS BASICOS

POBLACIÓN: Conjunto de personas o cosas a las que va dirigida la investigación

ELEMENTO: cada una de las personas o cosas que integran dicha población (TAMAÑO)

CARÁCTER: Cualidades y/o propiedades de todo elemento, hay dos tipos y pueden ser:

• CUANTITATIVO (VARIABLES): se expresan mediante números (valores) (por ejemplo - altura


o peso)
- Discreta: solo puede tomar valores enteros, como el nº de hijos por mujer (1, 2, 3,...)
- Continua: podrían darse infinitos valores, como la altura (1’78, 1’94,...)

• CUALITATIVO (ATRIBUTOS): se expresan mediante palabras (modalidades)


- Nominal: no se puede establecer orden entre las distintas modalidades, por ejemplo color
de piel (blanco, negro,...)
- Ordinal: se puede establecer orden entre las distintas modalidades, por ejemplo el nivel de
estudios (1= estudios primarios, 2= estudios secundarios,...)

1.1 OBSERVACIONES TEMPORALES Y TRANSVERSALES:


Serie temporal: Cuando los datos de una variable se observan instante a instante del tiempo (años,
trimestres,...). Se acude en el cuadro a t (t=1, 2,..., T)

Datos de corte transversal: datos que se observan en un instante temporal concreto, disponiendo
de un conjunto de valores de una variable para diferentes unidades en un momento dado. Se acude
en el cuadro a i (i=1, 2,..., n)

Datos de panel: una combinación de los dos anteriores, observaciones de una variable para
diferentes unidades en diversos momentos del tiempo. Se acude en el cuadro a ambos subindices, i=
referencia unidad, t= instante temporal

• Si en la tabla de datos de panel fijamos la unidad concreta objeto de observación,


tendremos una serie temporal. Si se fija el instante de observación, tendremos una serie
transversal. Por ejemplo:

TABLA PIB por Comunidad Autónoma y año (millones de euros)

COMUNIDAD 2001 2002 2003 2004


ANDALUCIA 74.944 77.138 79.443 81.795
ARAGÓN 16.908 17.399 17.832 18.301
ASTURIAS 12.172 12.369 12.590 12.848
BALEARES 12.358 12.481 12.609 12.824
Si solo nos hubiera interesado conocer los datos de Andalucia para los cuatro años tendriamos una
serie temporal. Si en todo caso, muestro interés por conocer para 2001 el PIB según cada
Comunidad sería una serie transversal.

1.2 POBLACIÓN Y MUESTRA. CENSO Y ENCUESTA:

Se puede realizar dos tipos de observaciones, la “observación exhaustiva” recoge a la población


entera, y la “observación parcial” solo recoge una parte de dicha población. Esta ultima se suele
realizar cuando la población de objeto de análisis es muy grande, el tiempo a emplear supere el que
se dispone para el estudio, el coste sea elevado o que suponga una destrucción del elemento
(ejemplo, duración de un lote de bombillas)

Se habla de “muestra” cuando solo se investiga una parte la población, y esta tiene que ser
totalmente representativa al conjunto de elementos que conforman la población, por ello se recurre
al azar.

Muestra por “subpoblación” es cuando se elige la muestra en función de que tenga unas
características específicas que se quieren estudiar y se diferencien del resto. (IPC, solo salen
productos de consumo más frecuentes)

• Censo: investigaciones exhaustivas (Censos de población de España)


• Encuesta: investigaciones parciales (EPA)

TEMA 2: DISTRIBUCIONES UNIDIMENSIONALES

Tabla estadística/Distribución de frecuencias: para presentar datos enormes de forma ordenada de


menor a mayor, junto a sus frecuencias respectivas

Existes 2 tipos de distribuciones de frecuencias: no agrupadas (para variables discretas con pocos
valores) y agrupadas (para variables discretas con muchos valores o variables continuas).

2.1 DISTRIBUCIÓN DE FRECUENCIAS

Distribución valores sin agrupar:

Por ejemplo, 28 familias y sus respectivas televisiones en casa (Xi)

1,2,1,3,4,1,1,1,1,1,2,2,2,3,2,2,2,4,...

Se ordenan de menor a mayor nº de televisores por familia y su correspondencia y quedaría esto:

Y ahora se sabe que las familias con 2 televisores son las más frecuentes, entre otras cosas.
Distribución de valores agrupados:

Supongamos que tenemos la nota de un examen de 30 alumnos:

Pues se vuelven a ordenar de menor a mayor (tabulación) y ahora como las calificaciones son muy
distintas entre sí, no como los nº de televisores, pues es necesaria una presentación más resumida

Y agrupamos los valores a una presentación de uso común (suspenso,aprobado,notable y


sobresaliente) y nos quedaría:

y la siguiente tabla sería la base de cualquier distribución agrupada:

En general, se necesita saber cuál será el nº de intervalos o clases en que dividiremos la tabla y cuál
será su amplitud: ai = Li – Li-1

Se recomienda agrupar los datos en un nº de intervalos que se mueva entre 5 y 20. Después de
elegir el nº de intervalos, el ancho de las clases dependerá del recorrido de la variable:

R = Lk – L0

EJEMPLO: Tenemos las calificaciones anteriores, el nº de datos es n=30, tomaremos un total de 5


clases. El recorrido de la variable es (9,3 = 9,5 – 0,2) y si redondeamos el recorrido de la variable
redondeado es entre 0 y 10. Ahora entonces tomamos una amplitud constante de 2 en los intervalos

y quedaría la siguiente solución:


2.2 FRECUENCIAS RELATIVAS Y ACUMULADAS

La frecuencia que sabemos de momento también es llamada frecuencia absoluta.

Tenemos:

- Frecuencia relativa: frecuencia absoluta entre nº de casos

- Frecuencia absoluta acumulada: frecuencia absoluta de un valor y de todas las anteriores

- Frecuencia relativa acumulada: frecuencia relativa de un valor y la de todas las anteriores

La tabla completa sería:

2.3 REPRESENTACIONES GRÁFICAS

REPRESENTACIÓN DE VALORES SIN AGRUPAR

- DIAGRAMA DE BARRAS:

- GRÁFICO DE COLUMNAS:
REPRESENTACIÓN DE VALORES AGRUPADOS

- HISTOGRAMA: con amplitud de las clases constante

- HISTOGRAMA: con distinta amplitud de clases que se calcula mediante la densidad (hi) = ni/ai

- POLIGONO DE FRECUENCIAS: es la unión con una linea de los puntos superiores del diagrama de
barras o los puntos medios superiores del histograma. Se denomina ojiva cuando se refiere a
frecuencias acumuladas:

VALORES NO AGRUPADOS:
VALORES AGRUPADOS:
- DIAGRAMA DE TALLO Y HOJA: si cogemos de ejemplo las notas de los examenes pues
teniamos:

Pues como todos tienen dos dígitos, cogemos el primero que va del 0 al 9, y los colocamos a la
izquierda en vertical, y los segundos dígitos de todos los números los ponemos en horizontal con sus
respectivos números:

TEMA 3: CARACTERÍSTICA DE LA DISTRIBUCIÓN DE FRECUENCIAS:

3.1 MEDIDAS DE POSICIÓN O PROMEDIOS:

3.1.1 MEDIDAS DE TENDENCIA CENTRAL:

- MEDIA ARITMETICA (X con barra arriba): con el ejemplo de los televisores primero se multiplica Xi
por ni, y la suma de todos sus dígitos se divide entre la suma de todo ni:
Y en el caso de las notas se calcula primero la media Xi y luego se realiza la media aritmetica:

- MEDIANA (Me): Se hace de dos formas para los agrupados y los sin agrupar:
- MODA (Mo): el valor que más se repite en las observaciones.

Cuando es sin agrupar, la moda Mo es igual al valor de Xi donde la ni se repite mas veces, en el
ejemplo de los televisores como el nº 2 de Xi se repite más veces (12 veces), pues la moda Mo es
igual a 2

Cuando es agrupado:

3.1.2 OTRAS MEDIDAS DE TENDENCIA CENTRAL

- MEDIA GEOMÉTRICA (G): se usan logaritmos, de Xi y de Xi por ni:

En el ejemplo de los televisores, aunque no tenga sentido:


- MEDIA ARMÓNICA (H): es el resultado de dividir la suma de ni entre la media de ni entre su
respectiva Xi, con el ejemplo de los televisores:

3.1.3 MEDIDAS DE POSICIÓN NO CENTRALES

- CUANTILES:
Si por ejemplo me dicen un intervalo, por ejemplo, la nota 6,8, y tengo que buscar su percentil pues
se hace asi:

3.2 MEDIDAS DE DISPERSIÓN

Existen dos tipos:

3.2.1 MEDIDAS DE DISPERSIÓN ABSOLUTA:

- RECORRIDO (R): es la diferencia entre el mayor valor de Xi y el menor:

R = Xk – X1

-RECORRIDO INTERCUARTÍLICO (RI): es la diferencia entre el quartil tercero y primero:

RI = Q3 – Q1

-DESVIACIÓN MEDIANA (DMe): media ritmetica de la diferencia absoluta existente entre los valores

de la variable y la mediana. Es decir:

-VARIANZA (S^2):
Si se realiza la raíz cuadrada se obtiene la DESVIACIÓN TÍPICA (S):

Con el ejemplo de las notas tenemos:

-TEOREMA DE CHEBYCHEV: nos dice que:

-DISTRIBUCIÓN NORMAL/CAMPANA DE GAUSS: nos dice que:

3.2.2 MEDIDAS DE DISPERSIÓN RELATIVAS

-COEFICIENTE DE APERTURA (CA): division o cociente entre el mayor valor de Xi y el menor:

CA = Xk / X1

-RECORRIDO SEMI-INTERCUARTÍLICO (R SI):

-VARIACIÓN MEDIANA (VMe): división entre Desviación mediana y la Mediana:


VMe = DMe / Me

-COEFICIENTE DE VARIACIÓN DE PEARSON (Cv): división o cociente entre la desviación típica y su


media:

Cv = S / X con barrita horizontal encima

3.3 MEDIDAS DE FORMA:

3.3.1 MEDIDAS DE ASIMETRÍA

Una distribución es simétrica cuando se parte por la mitad y sus dos partes coinciden, sino coinciden
se dice que son asimétricas. Observaciones se concentran en el centro de la distribución
(distribución simétrica), hacia los valores bajos de la variable (asimetría hacia la derecha) o hacia los
valores altos de la variable (asimetría a la izquierda).

-COEFICIENTE DE ASIMETRÍA DE PEARSON (Ap): división entre la diferencia de la Media con la


Mediana o la Moda, entre la Desviación típica:

-COEFICIENTE DE ASIMETRÍA DE FISHER (g1): es la siguiente fórmula:


3.3.2 MEDIDAS DE CURTOSIS

La medida habitual de la Curtosis es el Coeficiente de Fisher (g2), que adopta la siguiente expresión:
3.4 CAMBIOS DE ORIGEN Y DE ESCALA

Para cambiar el origen se hace: X*i = a + Xi

Para cambiar de escala se hace: X*i = b por Xi

Conjuntamente sería: X*i = a + b Xi

Entonces, para la media y la varianza tendriamos:

3.4.1 PUNTUACIONES TÍPICAS O ESTÁNDAR:

La tipificación o puntuación Z, mide el nº de desviaciones típicas que esa observación se separa de la


media del grupo de observaciones, se calcula así:
3.4.2 ESCALAS DERIVADAS

APÉNDICE A:

- Momentos respecto del origen (O = 0): Se representan por ar y se obtienen como:

a1 = (Xi ni) / n

a2 = (X^2i ni) / n

Y así sucesivamente con más números elevados...

- Momentos respecto a la media (O = X con barra horizontal): Se representa por mr y se


obtienen como:

m1= (Xi – X con barra horizontal arriba) ni / n

m2 = (Xi – X con barra horizontal arriba)^2 ni / n

Y así sucesivamente con más números elevados...

- Relación entre momentos: m2 = a2 - a^2 sub1


TEMA 4: MEDIDAS DE CONCENTRACIÓN:

1. Concentración máxima: cuando un individuo percibe el total a repartir (X), y el resto no


percibe anda:

X1 = X2 = ... = Xn-1 = 0 y Xn = X

2. Concentración mínima: cuando todo los individuos perciben la misma cantidad:

X1 = X2 = ... = Xn = X / n

4.1 CURVA DE LORENZ

Para crear la Curva de Lorenz deben seguirse los siguientes pasos:

1. Elaboración de la tabla de frecuencias: por ejemplo una empresa donde Xi es el salario de los
trabajadores a percibir y ni es el nº de trabajadores que perciben dicho salario.
2. Creación de columnas: de masas parciales (Xi ni), de frecuencias absolutas acumuladas (Ni) y
de masas parciales acumuladas (Ui = X1 n1 + X2 n2 +...)
3. Creación de segundas columnas: de frecuencias acumuladas y masas acumuladas en
porcentajes de sus totales (Pi y Qi respectivamente)

4. Dibujo de las coordenadas de Pi y Qi en ejes de abscisas y ordenadas respectivamente:

Concentración mínima: La curva es necesariamente creciente porque representa porcentajes


acumulados. En efecto, la coincidencia de la curva y la diagonal se da cuando a cada porcentaje de
individuos (Pi) les corresponde idéntico masa de porcentajes (Qi), es decir, percibben la misma
cantidad de salarios.

Concentración máxima: cuando la linea dibujada coincide con el eje de la variable X. Entonces ahora,
todo se lo lleva un soslo individuo, a los distintos Pi les corresponden Qi= 0% salvo, el último Pi =
100% al que le corresponde Qi= 100%.

La Curva cuanto más próxima esté a la diagonal, menor es la concentración en la distribución y por
tanto el reparto es más igualitario.
4.2 INDICE DE GINI

Cuando en la Curva de Lorenz la curva coincida con la diagonal (reparto igualitario), entonces el
índice de Gini es igual a 0, indicando así la mínima concentración.

En caso contrario, cuando curva coincida con el eje de abscisas, el índice de Gini será 1, indicando la
máxima concentración.

La fórmula del índice de Gini es:

Cuando la concentración es mínima:

EJEMPLO:
PARTE II: ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Una tabla de correlación es una tabla de doble entrada en la que se recoge información de dos
caracteres o variables. A estas se les llama distribuciones marginales.

TEMA 5: DISTRIBUCIONES BIDIMENSIONALES

En esta tabla estadística recoge el conjunto ordenado de pares de valores de las dos varibales junto
a sus respectivas frecuencias.

Existen dos formas de presentar las tablas de frecuencias bidimensionales:

1. TABLA DE DOBLE ENTRADA: para variables discretas o continuas con muchos valores
distintos o muchas clases (relativas)
2. TABLA DE ENTRADA ÚNICA: para variables discretas o continuas con pocos valores distintos
o pocas clases.

5.1 DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS

- TABLA DE DOBLE ENTRADA: es la tabla de correlación y se designa Xi e Yj, para cada valor, y las
frecuencias de cada par de valores por nij.

Un ejemplo es añadir al ejemplo de los televisores por familia (Xi) el número de miembros que
componen cada familia (Yj), las respuestas ordenadas y tabla respectivas serían las siguientes:
- TABLA DE ENTRADA ÚNICA: se puede crear con el ejemplo anterior expresando la
distribución de frecuencias en una tabla única:

Esta forma es habitual cuando X e Y no se repiten y la tabla


estadística recoge los valores que toman los dos caracteres en
los sucesivos elementos de la población.

5.2 REPRESENTACIONES GRÁFICAS

Se usan 3 ejes de coordenadas: un eje para X, otro para Y, y el


último para las frecuencias (estereograma). Para valores sin
agrupar se usa el gráfico levantado (no se usa en la práctica):

Para valores agrupados se usa el diagrama de dispersión o nube de puntos (solo frecuencias
unitarias):
5.3 DISTRIBUCIONES MARGINALES

Para obtener las frecuencias de X e Y por separado se realiza la distribución marginal, que es sumar
las filas y columnas correspondientes, donde nj es de Y e ni es de X:

En el ejemplo de los televisores y miembros de cada familia quedaría esto:

5.4 DISTRIBUCIONES CONDICIONALES

Otras distribuciones individuales son la distribución de una variable condicionada a un valor


particular de otra. Se expresa como:
Con el ejemplo de televisores quedaría primero la distribución conjunta:

Y la distribución condicionada por ejemplo de X para Yj = 2 y de Y para Xi = 3 sería:

5.5 MEDIDAS DE POSICIÓN Y DISPERSIÓN: COVARIANZA:

Como se pueden sacar las distribuciones marginales para X e Y, también se puede realizar la MEDIA
ARITMETICA y la VARIANZA para ambos individualmente:

Pero la consideración conjunta es la COVARIANZA: es la media aritmética de los productos entre las
desviaciones de la variable X respecto a su media y las de la variable Y respecto a la suya:

Un valor de 0, es que las variables no guardan relación lineal entre si. Por el contrario, un valor
distinto de 0, supone la existencia de cierto grado de dependencia lineal entre las variables.
En el ejemplo de los televisores se calcularía con los siguientes pasos:

1. Realizamos la “media” y la “varianza” de X e Y:

2. Construimos la tabla de frecuencias con desviaciones en sus medias:

3. Productos cruzados (Xi – X barra horizontal arriba) x (Yj – Y barra horizontal) x nij:

4. Sacamos la covarianza:

Con este ejemplo y el resultado de la covarianza sabemos que las variables guardan relación lineal
entre sí, siendo esta directa.

5.6 INDEPENDENCIA DE CARACTERES

Dos variables son independientes, no guardan relación entre sí, cuando se cumple:
Aquí la fij es de frecuencias (ni/n o nj/n), y con el ejemplo de los televisores tenemos la siguiente
tabla compuesta por esas frecuencias relativas:

Aquí está claro que no son independientes porque:

La covarianza obligatoriamente será 0 si las variables son independientes.

MOMENTOS EN LA DISTRIBUCIÓN BIDIMENSIONAL:

- Momentos respecto al origen (ars): se obtiene como:

Los más utilizados son:


- Momentos respecto a las medias (mrs): se obtiene como:

Los de mayor interés son:

- Relación entre momentos básicos: los momentos centrales de segundo orden pueden
expresarse en función de los “momentos respecto al origen”. Entonces si:
TEMA 6: REGRESIÓN Y CORRELACIÓN SIMPLE:

Lo importante de una tabla bidimensional es conocer la relación entre las dos variables implicadas.
Estas coincidencias pueden ser perfectas o exactas, o nulas o ausencia total de ligazón. En el primer
caso si se conoce el valor de la primera variable automáticamente se conoce la segunda
(dependencia estadística entre variables). En el segundo caso, son independientes y no se puede
determinar el comportamiento de una de ellas, dada la otra.

6.1 COVARIACIÓN: REGRESIÓN Y CORRELACIÓN

El grado de dependencia entre variables X e Y (covariación) se puede calcular mediante la


correlación o la regresión.

- CORRELACIÓN: define un número adimensional (sin unidades), llamado coeficiente de


correlación lineal (r) define mayor o menor covariación entre las dos variables y se calcula
asi:

El valor se encuentra entre 0 y 1.

El valor 1: indica covariación perfecta

El valor 0: indica covariación nula

El valor también puede ser positivo, que indica relación directa, o negativo, que indica relación
inversa (si una variable aumenta la otra disminuye).

Ahora bien, para poder determinar el valor aproximado a tomar por la variable Y, conocido un valor
de X, hemos de acudir a:

- REGRESIÓN: se busca determinar una función (f) que refleje la relación existente entre las
variables X e Y:

Y es la variable dependiente, variable respuesta

X es variable independiente, variable efecto o regresor

Para realizar el proceso de regresión: 1, se precisa primero el mejor tipo de ecuación que represente
la relación entre las variables. 2, optar por el procedimiento a elegir que facilite los valores de los
coeficientes que concretan la ecuación matemática elegida.

Así se consigue la transformación de la dependencia estadística entre dos variables por una
dependencia de tipo funcional o exacta.

El tipo de ecuación idóneo es la línea recta (ecuación lineal). Y el método de ajuste o procedimiento
al que se suele recurrir es el método de los mínimos cuadrados. Y una vez hecha la línea de regresión
se calcula el grado de validez de la ecuación ajustada que informa sobre la intensidad de la
covariación existente entre las variables existentes.
6.2 REGRESIÓN LINEAL SIMPLE

Supongamos que nos interesa averiguar la relación para dos variables X e Y (consumo y renta), de las
que se tiene n observaciones:

Si se representa graficamente con la dispersión de puntos quedaría:

La línea
adecuada para trazar en esa gráfica es una ecuación lineal de tipo:

Yi = a + bXi

Donde “a” es el origen y “b” la pendiente. En lugar de quedar exactamente como esto:

Se van a coger dos valores para la Y, dado un valor para la variable X: el que el corresponde en la
tabla o valor observado (Yi) y el que le corresponde por la ecuación o valor ajustado (Yi*). La
diferencia entre ambos se denomina residuo o error (ei):
- AJUSTE: para obtener los valores concretos de los parámetros acudimos al método de ajuste
de los mínimos-cuadrados. Bajo la condición:

ei^2; o lo que es lo mismo: (Yi – a - bXi)^2

“a” y “b” se calculan de forma que:

El término independiente o “a” supone el valor que alcanza Y cuando X es 0. Y la pendiente o “b”
marca en cuánto se incrementa Y cuando X lo hace una unidad.

- MEDIDAS DE BONDAD DEL AJUSTE: Para saber el grado en que la línea de regresión puede
sustituir a las observaciones de las que se obtiene la precisión de ajuste y concluir si la
ecuación ajustada es válida o no, se calculan dos medidas.
1. VARIANZA RESIDUAL, o dispersión absoluta, es la desviación cuadrática entre la Y
observada y la Y ajustada.
Si da un resultado elevado, se dice que los valores de los residuos son elevados y por tanto la línea
de regresión se aleja mucho de los valores observados, y la covariación entre variables es baja. Si el
resultado es pequeño, se dice que hay covariación entre variables ya que la representación es alta.

2. COEFICIENTE DE DETERMINACIÓN, o dispersión relativa, el más conveniente para


interpretar resultados, se define por:

Puede ser interpretado como la cantidad relativa o proporción de las


variaciones de la variable Y, explicadas por la ecuación de regresión.

También puede establecerse por:

El valor 0 debe tomarse como nula representatividad de la ecuación ajustada (covariación nula) y el
valor uno como expresión de un ajuste perfecto (covariación exacta). A partir de los valores 0,85 o
0,90 se concluye como covariación válida.
CUADRO RESUMEN PARA EJERCICIOS Y PARA SU CALCULO RESPECTIVO:

6.3 AJUSTE DE FUNCIONES NO LINEALES

En las aplicaciones prácticas de la técnica de regresión a datos económicos pueden sugerirse otros
tipos de ecuaciones, a través de funciones no lineales.

Se puede actuar de dos formas, o bien ajustar la ecuación no lineal o bien buscar una forma de
convertirla en lineal, que es más preferible.

Las funciones no lineales más frecuentes son:

- Función potencial: es la siguiente:


Y puede reescribirse de manera lineal usando logaritmos como:

Este método es útil ya que muestra el cambio porcentual de Y ante un cambio porcentual de X.

- Función exponencial y potencial-exponencial: son las siguientes:

Y también se pueden linealizar mediante logaritmos:

Estos dos modelos sirven cuando se quiere analizar la tasa de cambio de la variable Y ante cambios
unitarios de X, o viceversa.

Un caso especial: cuando la variable Y es temporal se expresa en función del tiempo:

Transformando por logaritmos la ecuación su pendiente mide la tasa de crecimiento constante de la


variable Y:

- FUNCIÓN HIPERBÓLICA: es la siguiente:

El modelo linealizado es:

- Función parabólica: es la siguiente:

Esto es que una relación no lineal entre 2 variables se convierte en


una relación lineal entre 3 variables (regresión lineal múltiple)

También se puede linealizar de otro modo quedando:


TEMA 7: REGRESIÓN MÚLTIPLE:
Las regresiones lineales estudiadas anteriormente tambien pueden ser múltiples, es decir que una
variable Y, variable a explicar o dependiente, es función de k-1 variables explicativas o
independientes, denominadas: X2, X3, X4, ..., Xk

Y = f (X2, X3, X4, ...)

7.1 REGRESIÓN LINEAL MÚLTIPLE

Si la variable Y que liga con las varibales X2, X3, X4, etc es de tipo lineal, es decir:

Y = b1 + b2 X2 + b3 X3 + b4 X4 + ...

B1 = la ordenada del origen

B2, b3, b4,... = las pendientes de la ecuación

Quedaría así:

Luego existe, la Yi observada y la Yi* ajustada, que la diferencia de ambos es el residuo o error (ei):

Aquí el cálculo del vector de coeficientes de regresión es:


El coeficiente de determinación múltiple sería:

Y la varianza residual sería:


EJEMPLO CON VENTAS Y PUBLICIDAD, EN EL QUE LA VARIABLE AÑADIDA ES EL IPC:
7.2 REGRESIÓN LINEAL CON VARIABLES FICTICIAS:

Con el ejemplo de los sueldos de unos empleados de una empresa según su antigüedad, daba de
resultado un R^2 = 0.88, es decir, el salario percibido por los trabajadores y su antigüedad tenía una
relación aceptable. Ahora se quiere añadir la variable de “sexo”, por las mujeres de la misma
empresa creen que ellas cobran menos y no específicamente por la antigüedad que lleva a cabo
cada uno dentro de la empresa.

Como el “sexo” es un carácter cualitativo y no cuantitativo, se crea la denominada, variable ficticia


(Di), cuyos valores admisibles son el 0 y el 1. Se asigna el valor 1 a una de las categorías y el valor 0 a
otra, por ejemplo:

EJEMPLO CON EJERCICIO:


Sabemos ahora que la ecuación ajustada es:

Y la anterior en comparación con la nueva:

Da como resultado el coeficiente de la variable ficticia 0,291 que indica que 291 euros son a favor de
los hombres, si diese un numero negativo sería a favor de las mujeres.
PARTE III: ANÁLSIS ESTDÍSTICO DE INFORMACIÓN CUALITATIVA:

Es el análisis del comportamiento de uno o varios caracteres cualitativos de los elementos de una
población. La tabla es llamada distribución de frecuencias del atributo (conjunto de modalidades
del atributo y sus respectivas frecuencias).

El recurso empleado en estos modelos para las medidas características es el por ciento respecto al
total.

La tabla de doble entrada aquí es denominada, tabla de contingencia

Y en este caso se estudian las asociaciones entre distintos atributos o caracteres cualitativos

TEMA 8: ESTADÍSTICA DE ATRIBUTOS

La distribución de frecuencias (tabla respectiva en este caso) existe para dos tipos:

1. Caracteres nominales: modalidades que no admiten ordenación (van en cualquier orden)


2. Caracteres ordinales: modalidades que admiten ordenación (ordenadas de menor a mayor)

8.1 ESTADÍSTICAS EN UN ATRIBUTO

La tabla sería la siguiente, incluyendo el atributo (Ai) y su respectiva frecuencia:

Con el ejemplo de los exámenes, si se sustituye la nota por Suspenso (S), Notable (N), etc, quedaría
la siguiente tabla:

En este caso si es ordinal porque las calificaciones esconden detrás numeros ordenados (S = 1, A = 5,
etc).
La representación gráfica de estas tablas estadística son las siguientes:

8.2 ESTADÍSTICA DE DOS ATRIBUTOS

La tabla de doble entrada sería la siguiente:


Si al ejemplo de las calificaciones le añadimos las calificaciones de distintas asignaturas (estadistica y
mates) nos quedaría la siguiente tabla:

8.3 INDEPENDENCIA DE ATRIBUTOS

Se sabe si los distintos atributos son independientes bien si:

En este caso, 0,47 x 0,40 de las f i y de fj no dan lo mismo que Fss = 0,40, entonces no se cumple la
condición de independencia.

8.4 ASOCIACIÓN ENTRE CARACTERES CUALITATIVOS

Si no son independientes pues se calcula cuanta asociación hay entre ellos, bien mediante
coeficiente de contingencia de Pearson (cuando son nominales) o por correlación por rangos de
Spearman (cuando son ordinales).
8.4.1 COEFICIENTE DE CONTINGENCIA

La fórmula es:

Y la X^2 y nij· se calcula así:

Si el resultado se acerca a 0 es que hay independencia, y a medida que aumenta pues existe más
asociación entre los atributos.

Con el ejemplo de las notas de estadística y mates:


8.4.2 COEFICIENTE DE CORRELACIÓN POR RANGOS

La fórmula es:

Donde:

Con el ejemplo de las notas sale:


PARTE IV: ANÁLISIS ESTADÍSTICO DE SERIES TEMPORALES

Tradicionalmente se ha considerado que en cualquier serie temporal se diferencia cuatro


componentes elementales: tendencia, ciclo, estación y residuo. Así, conocidos los componentes, es
posible extrapolarlos hacia el futuro y obtener predicciones sobre la variable representada en la
serie temporal.

Para lograr identificar estos cuatro componentes se recurre a procedimientos matemáticos-


estadísticos.

Se aíslan los componentes estacionales y de tendencia.

TEMA 9: INTRODUCCIÓN DE LAS SERIES TEMPORALES

9.1 CONCEPTO DE SERIE TEMPORAL

- Serie temporal: observaciones de una variable en distintos instantes del tiempo (días, semanas,
meses, trimestres, etc)

También puede darse una estadística de dos variables, una de las cuales es el tiempo:

9.2 REPRESENTACIONES GRÁFICAS

Se representa con los ejes de coordenadas, donde el tiempo (t) suele ir en el eje de abscisas y la
variable Yt sobre el de ordenadas. Se puede realizar con el gráfico de puntos, un gráfico lineal, o bien
un gráfico de columnas o barras

9.3 COMPONENETES INOBSERVADOS

Las fluctuaciones de las variables económicas a lo largo del tiempo dan como resultado cuatro
componentes básicos:

- Tendencia (T): trayectoria a l/p (25 a 30 años) que sigue la serie.


- Ciclo (C): fluctuaciones a medio plazo (5 a 8 años) de etapas de prosperidad y depresión, los
ciclos económicos.
- Estación (E): oscilaciones a c/p por causas climáticas o normas y usos sociales, suele ser de 1
año.
- Residuo (R): movimientos erráticos que no poseen carácter periódico reconocible.
Existen entonces dos hipótesis básicas:

- ADITIVA: es la suma de cada componente individual que da el resultado de la serie.

- MULTIPLICATIVA: es el producto de cada componente que da como resultado la serie.

Cuando el esquema es multiplicativo se trabaja con logaritmos de cada componente, y no con los
datos originales de la variable. Y para el aditivo, si tenemos el “log” se usa el antilogaritmo para
saber los valores reales de la variable.

Se suele intentar conocer dos de los componentes enunciados: los movimientos de larga duración
tendencia-ciclo, llamado componente extra-estacional (T) y otro que cuantifique las variaciones
estacionales, los movimientos accidentales formas el residuo o error.

El análisis sería entonces:

9.4 DETECCIÓN DE LOS COMPONENTES

El primer paso es conocer la presencia de los componentes enunciados (tendencia y estación) y el


esquema de agregación de los mismos (aditivo o multiplicativo).

Para conocerlos mediante la representación gráfica, es simple con mirarlo para saber primero si se
trata de una tendencia plana (sin tendencia), lineal o curvilínea:
Y para saber si es multiplicativo o aditivo, basta con mirar los picos y valles, si las ondas se van
agrandando es multiplicativo, si se mantienen constantes aunque la tendencia esté subiendo
entonces es aditivo.

A veces no basta con mirar la representación gráfica para saber esto, y se requiere el gráfico
desviación típica - media: Se calcula la media y la desviación típica de la serie para cada año y se
representan los valores en los ejes de coordenadas con el diagrama de puntos, medias en el eje de
abscisas y desviación típica en eje de ordenadas.

Si el gráfico sigue una trayectoria plana entonces es aditivo (estacionalidad y tendencia son
independientes). Si el gráfico y los puntos tienden a alinearse a lo largo de una recta creciente,
entonces es multiplicativo.

TEMA 10: ANÁLISIS DE LA TENDENCIA

Cuando se sabe el esquema de agregación, se determina la tendencia. Para su obtención hay dos
métodos: enfoque local (se usa una parte de la información se la serie temporal, se usa el método
de alisado, suavizando o alisando las irregularidades que presenta la serie temporal) o enfoque
global (se usa de forma conjunta toda la información, se usa el ajuste por mínimos cuadrados de las
funciones matemáticas de las tendencias: plana, lineal o parabólica. Aquí si es aditivo se usan los
datos originales, si es multiplicativo se usan los datos en logaritmos).
10.1 MÉTODOS DE LA MEDIA MOVIL

La media movil consiste en calcular sucesivas medias aritmeticas sobre intervalos de “p” valores de
la serie, es decir, la media mientras que el intervalo se va desplazando a lo largo de los datos
quedando:

Primero se tiene que saber a qué periodos (p) se van a hacer las medias y el instante temporal
asignado a cada media.

Con relación al periodo, tomaremos p=s (s = 12 o 4, según sea temporalmente mensual o trimestral
respectivamente).

Después, para elegir el instante temporal de las medias, en la “media móvil centrada” se considera el
instante central del intervalo usado en su obtención, se usa para detectar la tendencia de la serie. En
la “media móvil asimétrica” el valor de la media se asigna al punto final del intervalo, se usa para
series temporales para trayectoria plana, es decir:

POR EJEMPLO:
Si se desea calcular la media movil centrada en este caso, se usa un numero par (12 o 4), en este
caso p=4 porque cogemos los trimestres de 2002. Y se realiza la media movil de la siguiente manera:

10.2 MÉTODO DE AJUSTE MÍNIMO-CUADRÁTICO

Consiste en ajustar por mínimos cuadrados una ecuación matemática, una lineal o parábola de 2º
grado, bien sobre datos originales de la serie (aditivo) o sobre logaritmos (multiplicativo).

Se recomienda ajustar la ecuación a medias anuales de la serie temporal no al total de datos, en caso
de que sea escaso el nº de años entonces si conviene emplear toda la información.

Para la ecuación lineal, se calculan los momentos de la serie temporal, entendida como distribución
bidimensional:

Para la parábola, se iguala una nueva variable (Z) al término cuadrático t. Es decir, se plantea la
ecuación de regresión múltiple:

TEMA 11: ANÁLISIS DE LA ESTACIONALIDAD

Ahora se sigue con la estacionalidad, para saber la evolución de la variable a c/p, y permitir un mejor
análisis de la tendencia.

Se usa el método de la razón a la tendencia cuando es multiplicativo y el método de las diferencias


estacionales cuando es aditivo.

11.1 MÉTODO DE LA RAZÓN A LA TENDENCIA

Se realiza la media movil centradas, y luego se divide el respectivo PIB entre su media movil que
haya salido, y eso da el indice bruto de variación estacional “IBVE (Y/T)”. Luego se suman los
respectivos datos de cada trimestre y se divide entre el nº de peridodos que haya, en el ejemplo
siguiente en este caso n=5, y eso es el IVEt:
Cuando IVE sea superior a 1 = la serie es superior a la tendencia

Si es menor que 1 pues no lo es

11.2 MÉTODO DE LA DIFERENCIA A LA TENDENCIA

Es lo mismo que antes solo que en lugar de dividir cada dato del año de sus respectivos trimestres
entre la media movil centrada respectiva, se resta, y eso seria la diferencias brutas de variación
estacional “DBVE (Y – T)”. Luego se hace la media para obtener la DVE como antes, diviendo cada
sumatorio de trimestres entre el nº de periodos, en este caso n=4, y luego cada media media de DVE
se le resta la media general de DVE para obtener el DVE de cada periodo que seria DVE (n):
Si el resultado de DVE es mayor a 0 = la serie es superior a la tendencia

Si es menor que 0 pues lo contrario

11.3 DESESTACIONALIZACIÓN

La desestacionalización es “Dt” y se calcula dividiendo cada dato del ejercicio con su IVE, si es
multiplicativo, o bien restando o la diferencia entre cada dato del ejercicio con su respectivo DVE, si
es aditivo. Por ejemplo:
PARTE V: ANÁLISIS DE LOS CAMBIOS TEMPORALES EN VARIABLES:

El número índice cuantifica el cambio que se produce en una o en varias variables entre dos
instantes del tiempo, tomando como referencia el “periodo base”.

La representación gráfica con números índices es la misma que con nº normales: de puntos, de
barra, de columna y de linea

El cambio de base es actualizar el período base, y el enlace de números índices es unir dos series de
nº índices de distintas bases.

El IPC es el indicador de inflación más importante de España, estos eliminan la influencia de la


depreciación de la moneda respecto a los precios históricos de los bienes (deflactor series).

TEMA 12: NÚMEROS ÍNDICES:

12.1 CONCEPTO Y OBTENCIÓN

Teniendo una sola variable que analizar se habla de índice simple.

Al calcular cada Tasa de variación con el año base y el respectivo año que se quiera calcular,
podemos obtener o la tasa de variación de todos los periodos, desde el ultimo al primero, o bien
entre un año y otro con sus respectivas tasas divididas entre si -1:
Luego la tasa media acumulativa se calcula de la siguiente forma:

12.2 NÚMEROS ÍNDICES COMPLEJOS

Esto es un número índice de varias variables:

12.2.1 índices complejos sin ponderar:

Se calcula la media aritmética de los índices simples, y se realiza también la media agregativa, que
es hacer la media aritmética, pero con los datos del sumatorio de las variables Y:
MEDIA ARIMÉTICA:

MEDIA AGREGATIVA:

(No hace falta tener en cuenta los de en medio)

12.2.2 Números índices complejos ponderados:

Se le dan ponderaciones distintas a cada número índice (w1, w2, w3,...). Así se vuelve a calcular la
media aritmética y agregativa multiplicando la ponderación con su respectivo nº índice:

POR EJEMPLO: el ejemplo anterior se dice que son 3 marcas de coche, A, B y C, y se pide que se
calcule el índice complejo ponderado sabiendo que el 50% de ventas pertenecen al coche A, el 30 al
B y el resto al C, es decir, 20.
12.3 APLICACIONES DE LOS NÚMEROS ÍNDICES

Te dan precios (p) y sus respectivas cantidades (q) para calcular los números índices

Índice de Laspeyres (x100), se usa ponderando los precios o cantidades del instante base:

Índice de Paasche (x100), se usa como ponderación el precio o cantidad que corresponde al instante
para el que se calcula el índice:

Con el ejemplo anterior, nos dan los precios y sus respectivas cantidades vendidas de cada coche y
quedaría esto:
12.4 OPERACIONES CON NÚMEROS ÍNDICES

12.4.1 Enlace técnico y cambio de base:

Si se quiere cambiar la base para calcular los índices, se calcula primero el enlace (k), en el que (h) es
el nuevo año al que se quiere pasar de base:

Y entonces por supuesto se debería de cambiar todos los datos del índice de Laspeyres, calculándolo
ahora respecto de base a 2004, porque si no los datos serían erróneos.

12.4.2 Deflactación de series económicas:

El análisis de la evolución temporal para unidades monetarias, se realiza sin tener en cuenta la
depreciación de la moneda. Asi que conviene expresar los valores denominados a “precios
corrientes” (valores nominales) en “precios constantes” (valores reales) esto es denominado como
DEFLACTACIÓN o ÍNDICE DEFLACTOR:

o bien donde Pp es el índice de Paasche

O bien con el índice de Laspeyres


Dado el ejemplo de los coches pues se vuelve a calcular el índice de precio de Paasche o Laspeyres
según indique y se calcula el “valor nominal” multiplicando los precios normales con sus respectivas
cantidades, y por último se divide el valor nominal con su respectivo índice de Paasche o Laspeyres,
quedando:

12.4.3 Repercusión y participación:

La “repercusión” es como afecta la variación de uno de los componentes del índice general que se
calcula. Y la “participación” es que parte de la variación producida en el índice general que se esta
usando es por la variación de X componente.

La repercusión absoluta (Ri) y la relativa (Rri) se calcula asi con el índice de Laspeyres:

Y la participación (Pi) así:

Ponemos de ejemplo los coches:


12.5 USOS PARTICULARES. ÍNDICES ELABORADOS EN ESPAÑA

- Indicadores de coyuntura: facilitan el conocimiento de la evolución de la economía española a c/p.

Esta en IPC (índice de precios al consumo), IPCA (índice de precios al consumo amortizado), IPI
(ínidice de producción industrial), IPRI (índice de precios industriales), IBEX35 (índice de cotización
bursátil).

- IPC: con esto se conoce la inflación y también el incrementos de salarios, pensiones,


alquileres, etc se determinan según la variación del IPC.

Se calcula mensualmente por el INE, por nivel geográfico o funcional, miendo la evolución del nivel
de precios de los beines y servicios de hogares españoles. Se usa el índice de Laspeyres para su
construcción (cada 5 años se renueva la base del índice).

IPC subyacente: excluye productos agrarios no elaborados y variaciones de energía ligadas a


variaciones de precios de productos energéticos.

- IPCA: medida de comparación de la inflación entre la Unión Europea. Se publica


mensualmente, en este momento la base actual es 2015. Se usa el índice de Laspeyres y sige
la misma estructura del IPC.

El EUROSTAT calcula también el IPCUM para la Unión Monetaria (área euro) y el IPCUE para toda la
Unión Euopea.
- IPI: Con base de referncia a 2005 y usando Laspeyres, calcula el nivel de producción
industrial en España (excluye la construcción) y también para la producción de bienes de
equipo
- IPRI: índice Laspeyres, base 2005, mide el precio de los bienes de equipo de empresas, es un
deflactor perfecto para los bienes de capital (al igual que el IPC para los bienes de consumo)
- IBEX35: ejemplo de evolución de la economía española, recoge acciones de las 35 empresas
más relevantes. Índice de Laspeyres, con ponderaciones en función de la capitalización de
las empresas que al integran (Capit), y se aplica un coeficiente de ajuste (J) para no alterar el
valor del índice con el reparto de dividendos ampliación de capital, etc.

IBEX35t = IBEX35t-1 x (sumatorio) CAPITt / (sumatorio) CAPITt-1 +- AJUSTE (J)

Las empresas de mayor peso son: Santander, Telefónica, BBVA, Iberdrola y Repsol.

También podría gustarte