0% encontró este documento útil (0 votos)
49 vistas36 páginas

Libro Estadistica Basica

Estadística Básica

Cargado por

blancagarcasa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
49 vistas36 páginas

Libro Estadistica Basica

Estadística Básica

Cargado por

blancagarcasa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd

FUNDAMENTACIÓN ESTADISTICA PARA TECNÓLOGOS

PRESENTACIÓN

La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una
ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas
las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. se
nombran entre los más destacados clientes de ésta.
La ausencia de ésta conllevaría a un caos generalizado, dejando a los
administradores y ejecutivos sin información vital a la hora de tomar decisiones en
tiempos de incertidumbre.

La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las
probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

En este breve material se expone los conceptos, la historia, la división así como
algunos errores básicos cometidos al momento de analizar datos Estadísticos.

HISTORIA DE LA ESTADÍSTICA

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos


faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos
relativos a la población y la riqueza del país. De acuerdo al historiador griego
Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la
construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las
tierras con el objeto de verificar un nuevo reparto.

En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos


estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por
otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la
finalidad de conocer el número de la población.

También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos
efectuaron censos periódicamente con fines tributarios, sociales (división de tierras)
y militares (cálculo de recursos y hombres disponibles). La investigación histórica
revela que se realizaron 69 censos para calcular los impuestos, determinar los
derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política, quienes mejor


supieron emplear los recursos de la estadística. Cada cinco años realizaban un
censo de la población y sus funcionarios públicos tenían la obligación de anotar
nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del
ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento
de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad
del imperio.

Durante los mil años siguientes a la caída del imperio Romano se realizaron muy
pocas operaciones Estadísticas, con la notable excepción de las relaciones de
tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por
Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos
censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el
Domesday Book o libro del Gran Catastro para el año 1086, un documento de la
propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer
compendio estadístico de Inglaterra.

Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron


de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados
durante la Edad Media.

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás
Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes,
hicieron grandes operaciones al método científico, de tal forma que cuando se
crearon los Estados Nacionales y surgió como fuerza el comercio internacional
existía ya un método capaz de aplicarse a los datos económicos.

Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al


temor que Enrique VII tenía por la peste. Más o menos por la misma época, en
Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y
matrimonios. Durante un brote de peste que apareció a fines de la década de 1500,
el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa
costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de
Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán
John Graunt usó documentos que abarcaban treinta años y efectuó predicciones
sobre el número de personas que morirían de varias enfermedades y sobre las
proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de
Graunt, condensado en su obra Natural and Political Observations...Made upon the
Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las
Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de
los recursos nacionales, comprensiva de datos sobre organización política,
instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó
indicaciones más concretas de métodos de observación y análisis cuantitativo y
amplió los campos de la inferencia y la teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística
Demográfica como resultado de la especulación sobre si la población aumentaba,
decrecía o permanecía estática.

En los tiempos modernos tales métodos fueron resucitados por algunos reyes que
necesitaban conocer las riquezas monetarias y el potencial humano de sus
respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la
política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor
alemán que vivía en Breslau. Este investigador se propuso destruir la antigua
creencia popular de que en los años terminados en siete moría más gente que en
los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la
ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en
tales años no fallecían más personas que en los demás. Los procedimientos de
Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa
que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos
sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías
de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis
Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante
durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos
de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas
científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la


palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con
sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del
gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el
término latino status, que significa estado o situación; Esta etimología aumenta el
valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo
de las más variadas situaciones.

Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este
interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver
la aplicación del principio de promedios y de la variabilidad a los fenómenos
sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método
Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos


matemáticos fundamentales para la teoría Estadística; la teoría de los errores de
observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados
desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis
Gaston ideó el método conocido por Correlación, que tenía por objeto medir la
influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del
coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia
biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron
amplios estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior


desarrollo del cálculo de probabilidades, particularmente en la rama denominada
indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido
en la Física como resultado de las investigaciones atómicas y que este principio se
juzga aplicable tanto a las ciencias sociales como a las físicas.

Como dijera Huntsberger: "La palabra estadística a menudo nos trae a la mente
imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras
relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos
y así sucesivamente. Huntsberger tiene razón pues al instante de escuchar esta
palabra estas son las imágenes que llegan a nuestra cabeza.

La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una
ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas
las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. Se
nombran entre los más destacados clientes de ésta.

La ausencia de ésta conllevaría a un caos generalizado, dejando a los


administradores y ejecutivos sin información vital a la hora de tomar decisiones en
tiempos de incertidumbre.

La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las
probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

En este breve material se expone los conceptos, la historia, la división así como
algunos errores básicos cometidos al momento de analizar datos Estadísticos.

Definición de Estadística

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa


concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al
análisis de estos datos unos significados precisos o unas previsiones para el futuro.

La estadística, en general, es la ciencia que trata de la recopilación, organización


presentación, análisis e interpretación de datos numéricos con e fin de realizar una
toma de decisión más efectiva.

Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y


algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que
tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la
expresión cuantitativa del conocimiento dispuesta en forma adecuada para el
escrutinio y análisis.

La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La
ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales
para medir su intensidad, deducir las leyes que los rigen y hacer su predicción
próxima”.

Los estudiantes confunden comúnmente los demás términos asociados con las
Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra
tiene tres significados: la palabra estadística, en primer término se usa para referirse
a la información estadística; también se utiliza para referirse al conjunto de técnicas
y métodos que se utilizan para analizar la información estadística; y el término
estadístico, en singular y en masculino, se refiere a una medida derivada de una
muestra.

Utilidad e Importancia

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos,


para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo
trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el
cálculo de medidas descriptivas.

Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia,


contabilidad, control de calidad y en otras actividades; estudios de consumidores;
análisis de resultados en deportes; administradores de instituciones; en la
educación; organismos políticos; médicos; y por otras personas que intervienen en la
toma de decisiones.

Etapas de Desarrollo de la Estadística

La historia de la estadística está resumida en tres grandes etapas o fases. 1.-


Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad
política, la idea de inventariar de una forma más o menos regular la población y las
riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los
primeros esfuerzos administrativos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política: Las


ideas mercantilistas extrañan una intensificación de este tipo de investigación.

Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la


población: los intendentes del Reino envían a París sus memorias. Vauban, más
conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de
un impuesto sobre los ingresos, se señala como el verdadero precursor de los
sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la
historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase
puramente descriptiva. Sus tres principales representantes son Graunt, Petty y
Halley. El penúltimo es autor de la famosa Aritmética Política.

Chaptal, ministro del interior francés, publica en 1801 el primer censo general de
población, desarrolla los estudios industriales, de las producciones y los cambios,
haciéndose sistemáticos durantes las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades: El cálculo de


probabilidades se incorpora rápidamente como un instrumento de análisis
extremadamente poderoso para el estudio de los fenómenos económicos y sociales
y en general para el estudio de fenómenos “cuyas causas son demasiados
complejas para conocerlos totalmente y hacer posible su análisis”.

División de la Estadística

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la


Estadística Descriptiva y la Inferencial. Estadística Descriptiva: consiste sobre todo
en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier
actividad relacionada con los datos y está diseñada para resumir o describir los
mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que
vaya más allá de los datos, como tales.

Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca


de una parte de un conjunto numeroso de elementos y esto implica que su análisis
requiere de generalizaciones que van más allá de los datos. Como consecuencia, la
característica más importante del reciente crecimiento de la estadística ha sido un
cambio en el énfasis de los métodos que describen a métodos que sirven para hacer
generalizaciones. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.

Método Estadístico

El conjunto de los métodos que se utilizan para medir las características de la


información, para resumir los valores individuales, y para analizar los datos a fin de
extraerles el máximo de información, es lo que se llama métodos estadísticos. Los
métodos de análisis para la información cuantitativa se pueden dividir en los
siguientes seis pasos:

1. Definición del problema


2. Recopilación de la información existente
3. Obtención de información original
4. Clasificación
5. Presentación
6. Análisis.

Errores Estadísticos Comunes

Al momento de recopilar los datos que serán procesados se es susceptible de


cometer errores así como durante los cómputos de los mismos. No obstante, hay
otros errores que no tienen nada que ver con la digitación y que no son tan
fácilmente identificables.

Algunos de éstos errores son: Sesgo: Es imposible ser completamente objetivo o no


tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen
muchas maneras en que una perspectiva o estado mental pueda influir en la
recopilación y en el análisis de la información. En estos casos se dice que hay un
sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a
aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde
primero se toma una decisión y después se utiliza el análisis estadístico para
justificar la decisión ya tomada. Datos no comparables: el establecer comparaciones
es una de las partes más importantes del análisis estadístico, pero es
extremadamente importante que tales comparaciones se hagan entre datos que
sean comparables.

Proyección descuidada de tendencias: la proyección simplista de tendencias


pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del
análisis estadístico. Muestreo Incorrecto: en la mayoría de los estudios sucede que
el volumen de información disponible es tan inmenso que se hace necesario estudiar
muestras, para derivar conclusiones acerca de la población a que pertenece la
muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas
propiedades que la población de la cual fue extraída; pero si el muestreo se realiza
incorrectamente, entonces puede suceder que los resultados no signifiquen nada.

Capítulo II : CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS


2.2.2. Medidas de posición no central ( Cuantiles )

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor,
dividen a la distribución en partes, de tal manera que cada una de ellas contiene el
mismo número de frecuencias.

Los cuantiles más conocidos son:

a) Cuartiles ( Qi ) Son valores de la variable que dividen a la distribución en 4 partes,


cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente
forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el
segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil
que deja a su izquierda el 75% de los datos. (Q2 = Me) b) Deciles ( Di) Son los
valores de la variable que dividen a la distribución en las partes iguales, cada una de
las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Me ).

c) Centiles o Percentiles ( Pi ) Son los valores que dividen a la distribución en 100


partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total
habrá 99 percentiles. (Q2 = D5 = Me = P50) • Cálculo de los cuantiles en
distribuciones no agrupadas en intervalos - Se calculan a través de la siguiente
expresión: q rN , siendo : r = el orden del cuantil correspondiente q = el número de
intervalos con iguales frecuencias u observaciones ( q = 4, 10, ó 100 ).

N = número total de observaciones - La anterior expresión nos indica que valor de la


variable estudiada es el cuantil que nos piden, que se corresponderá con el primer
valor cuya frecuencia acumulada sea mayor o igual a q rN Ejemplo:
DISTRIBUCIONES NO AGRUPADAS:

Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90


percentil (P90) Mediana (Me)

Primer cuartil (C1)


Cuarto decil (D4) Nonagésimo percentil
(P90) Nonagésimo percentil (P90) .

• Cálculo de los cuantiles en distribuciones agrupadas en intervalos - Este cálculo se


resuelve de manera idéntica al de la mediana.

- El intervalo donde se encuentra el cuantil i-esimo, es el primero que una vez


ordenados los datos de menor a mayor, tenga como frecuencia acumulada ( Ni ) un
valor superior o igual a q rN .

2.3. Momentos potenciales

Los momentos son medidas obtenidas a partir de todos los datos de una variable
estadística y sus frecuencias absolutas. Estas medidas caracterizan a las
distribuciones de frecuencias de tal forma que si los momentos coinciden en dos
distribuciones, diremos que son iguales.

2.3.1. Momentos respecto al origen


Se define el momento de orden h respecto al origen de una variable estadística a la
expresión:

2.3.2. Momentos centrales o momentos con respecto a la media aritmética

2.4. Medidas de dispersión

Las medidas de dispersión tratan de medir el grado de dispersión que tiene una
variable estadística en torno a una medida de posición o tendencia central,
indicándonos lo representativa que es la medida de posición. A mayor dispersión
menor representatividad de la medida de posición y viceversa.

2.4.1 Medidas de dispersión absoluta

a) Recorrido ( Re ) Se define como la diferencia entre el máximo y el mínimo valor


de la variable:

b) Desviación absoluta media con respecto a la media ( de ) Nos indica las


desviaciones con respecto a la media con respecto a la media aritmética en valor
absoluto.

c) Varianza La varianza mide la mayor o menor dispersión de los valores de la


variable respecto a la media aritmética. Cuanto mayor sea la varianza mayor
dispersión existirá y por tanto menor representatividad tendrá la media aritmética.

La varianza se expresa en las mismas unidades que la variable analizada, pero


elevadas al cuadrado.

1ª) La varianza siempre es mayor o igual que cero y menor que infinito ( ) 0 2 = x S
2ª) Si a una variable X la sometemos a un cambio de origen “ a ” y un cambio de
escala “ b ”, la varianza de la nueva variable Y= a + bX, será:

2.4.2. Medidas de dispersión relativa

Nos permiten comparar la dispersión de distintas distribuciones.

a) Coeficiente de variación de Pearson ( CVx ) Indica la relación existente entre la


desviación típica de una muestra y su media. (VER TABLA EN FORMATO DOC).

Al dividir la desviación típica por la media se convierte en un valor excento de unidad


de medida. Si comparamos la dispersión en varios conjuntos de observaciones
tendrá menor dispersión aquella que tenga menor coeficiente de variación.

El principal inconveniente, es que al ser un coeficiente inversamente proporcional a


la media aritmética, cuando está tome valores cercanos a cero, el coeficiente
tenderá a infinito.

Ejemplo: Calcula la varianza, desviación típica y la dispersión relativa de esta


distribución.
Capítulo II : CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

2.5. Medidas de forma

• Asimetría
• Curtosis o apuntamiento

Hasta ahora, hemos estado analizando y estudiando la dispersión de una


distribución, pero parece evidente que necesitamos conocer más sobre el
comportamiento de una distribución. En esta parte, analizaremos las medidas de
forma, en el sentido de histograma o representación de datos, es decir, que
información nos aporta según la forma que tengan la disposición de datos

Las medidas de forma de una distribución se pueden clasificar en dos grandes


grupos o bloques: medidas de asimetría y medidas de curtosis.

2.5.1. Medidas de asimetría o sesgo : Coeficiente de asimetría de Fisher

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una


variable, según sea esta discreta o continua, por el valor de la media, esta vertical,
se transforma en eje de simetría, decimos que la distribución es simétrica. En caso
contrario, dicha distribución será asimétrica o diremos que presenta asimetría.

El coeficiente de asimetría más preciso es el de Fisher, que se define por:


Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o
positiva, a izquierdas o negativa, o simétrica, o sea:

2.5.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher

Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una
distribución; para determinarlo, emplearemos el coeficiente de curtosis de Fisher.
- Si existe simetría, entonces g1 = 0

2.6. Medidas de concentración

Las medidas de concentración tratan de poner de relieve el mayor o menor grado de


igualdad en el reparto del total de los valores de la variable, son por tanto
indicadores del grado de distribución de la variable

Para este fin, están concebidos los estudios sobre concentración

Denominamos concentración a la mayor o menor equidad en el reparto de la suma


total de los valores de la variable considerada (renta, salarios, etc.)

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los
dos extremos: 1.- Concentración máxima, cuando uno solo percibe el total y los
demás nada, en este caso, nos encontraremos ante un reparto no equitativo: x1 = x2
= x3 = ………… = xn-1 = 0 y xn.
2.- Concentración mínima, cuando el conjunto total de valores de la variable esta
repartido por igual, en este caso diremos que estamos ante un reparto equitativo x1
= x2 = x3 = ………… = xn-1 = xn .

De las diferentes medidas de concentración que existen nos vamos a centrar en dos:
Indice de Gini, Coeficiente, por tanto será un valor numérico.

Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.
Sea una distribución de rentas (xi, ni) de la que formaremos una tabla con las
siguientes columnas: 1.- Los productos xi ni, que nos indicarán la renta total
percibida por los ni rentistas de renta individual xi

2.- Las frecuencias absolutas acumuladas Ni .

3.- Los totales acumulados ui que se calculan de la siguiente forma: u1= x1 n1 u2 =


x1 n1 + x2 n2 u3 = x1 n1 + x2 n2 + x3 n3 u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4 un = x1
n1 + x2 n2 + x3 n3 + x4 n4 + …………. + xn nn .

4.- La columna total de frecuencias acumuladas relativas, que expresaremos en


tanto por ciento y que representaremos como pi y que vendrá dada por la siguiente
notación.
5.- La renta total de todos los rentistas que será un y que dada en tanto por ciento, la
cual representaremos como qi y que responderá a la siguiente notación:
Por tanto ya podemos confeccionar la tabla que será la siguiente:
Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta
diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su
diferencia seria cero.

Si esto lo representamos gráficamente obtendremos la curva de concentración o


curva de Lorenz .La manera de representarlo será, en el eje de las X, los valores pi
en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será un
cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores (0,0),
y (100,100), y quedará siempre por debajo de la diagonal.

La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la


diagonal, menor concentración habrá, o más homogeneidad en la distribución.
Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor
concentración.

Los extremos son Analíticamente calcularemos el índice de Gini el cual responde a


la siguiente ecuación
Observamos que hay poca concentración por encontrarse cerca del 0.

Curva de Lorenz

La curva la obtenemos cerca de la diagonal, que indica que hay poca concentración:

Capítulo IV : NÚMEROS ÍNDICES


Aplicación Existe un gran número de fenómenos económicos cuyo significado y
estudio alcanza distintos niveles de complejidad (son los que se conocen como
coyuntura económica, nivel de inflación, nivel de desarrollo, etc.)

Los números índice constituyen el instrumental más adecuado para estudiar la


evolución de una serie de magnitudes económicas que nos den respuesta a
cuestiones tales como: ¿Es la coyuntura económica positiva o negativa? ¿Es el nivel
de inflación el adecuado o no? etc.

Definición Un número índice puede definirse como una medida estadística que nos
proporciona la variación relativa de una magnitud (simple o compleja) a lo largo del
tiempo o el espacio.

Sea X una variable estadística cuya evolución se pretende estudiar.

Llamaremos:

• Periodo inicial o base, es aquel momento del tiempo sobre el que se va


comparando la evolución de la magnitud o variable estadística X0
• Periodo de comparación, es aquel momento del tiempo en el que el valor de la
magnitud Xt se compara con el del periodo base.
• La elaboración de números índices tiene sentido en variables de naturaleza
cuantitativa
• El índice, por estar definido por un cociente, es independiente de las unidades de
medida en las que venga expresada la variable, con lo que se puedan efectuar
agregaciones de distintos índices, construyéndose indicadores de evolución general
de fenómenos económicos

Los números índices se clasifican atendiendo a:

• La naturaleza de las magnitudes que miden Simples Complejas


• En el segundo caso, a la importancia relativa de cada componente Sin ponderar
Ponderados

2. Tipos de Indices

Números Indices Simples Estudian la evolución en el tiempo de una magnitud que


sólo tiene un componente (sin desagregación). Se emplean con gran difusión en el
mundo de la empresa a la hora de estudiar las producciones y ventas de los distintos
artículos que fabrican y lanzan al mercado. Números Indices Complejos Sin
Ponderar Estudian la evolución en el tiempo de una magnitud que tiene varios
componentes y a los cuales se asigna la misma importancia o peso relativo (siendo
esta última hipótesis nada realista)

Por su naturaleza son de poco uso en el mundo de la economía.

Números Indices Complejos Ponderados Estudian la evolución en el tiempo de una


magnitud que tiene varios componentes y a los cuales se asigna un determinado
coeficiente de ponderación wi. Son los que realmente se emplean en el análisis de la
evolución de fenómenos complejos de naturaleza económica (IPC, IPI, etc.)
Coeficiente de ponderación del componente i Propiedades que cumplen en general
los índices simples (pero no todos los complejos)

Identidad: si coinciden el periodo base y el de comparación, entonces:

Inversión: el producto de dos índices invertidos de dos periodos es:

Circular: la generalización de la inversión para varios periodos

Proporcionalidad: Si la magnitud varía en proporción

3. Indices de Precios

Estos índices miden la evolución de los precios a lo largo del tiempo

Los índices de precios se clasifican en: Simples Sauerbeck Números índice de


precios Sin ponderar Bradstreet-Dutot Complejos Ponderados Laspeyres Paasche
Edgeworth Fisher 3.1. Indices Simples de Precios

3.2. Indices

Complejos de Precios Sin Ponderar a) Indice media aritmética de índices simples o


de Sauerbeck Es la media aritmética de los índices de precios simples para cada
componente. PS Indice de Sauerbeck

b) Indice media agregativa simple o de Bradstreet-Dutot Es el cociente entre la


media aritmética simple de los N precios en el periodo t y en el 0.

PBD Indice de Bradstreet-Dutot

3.3. Indices Complejos de Precios Ponderados

Cada uno de los métodos apunta una forma distinta para establecer los coeficientes
de ponderación wi

a) Indice de precios de Laspeyres PL Utiliza como coeficientes de ponderación el


valor de las transacciones en el periodo base

Tiene la ventaja de que las ponderaciones del periodo se mantienen fijas para todos
los periodos pero por contra el inconveniente de que su representatividad disminuye
según nos alejamos.

b) Indice de precios de Paasche PP Utiliza como coeficientes de ponderación el


valor de las transacciones, con las cantidades del periodo de comparación y los
precios del periodo base. Las ponderaciones son por ello variables

Tiene la ventaja de que los pesos relativos de los distintos componentes se


actualizan cada periodo con el agravante de complejidad y costes derivados de este
cálculo.
c) Indice de precios de Edgeworth PE Utiliza como coeficientes de ponderación la
suma de los dos anteriores.

d) Indice de precios de Fisher PF Se define como la media geométrica de los índices


de Laspeyres y Paasche

4. Indices de Cantidades o Cuánticos

Los índices cuánticos miden la evolución de cantidades a lo largo del tiempo. Para
cualquier magnitud y por supuesto las cantidades, siempre se pueden elaborar
números índices simples, complejos sin ponderar y complejos ponderados
empleando las mismas consideraciones y la misma formulación que la vista para
índices de precios

Cada uno de los métodos apunta una forma distinta para establecer los coeficientes
de ponderación wi

Capítulo VII PROBABILIDAD

1. Introducción

• Se indicaba en el capítulo anterior que cuando un experimento aleatorio se repite


un gran número de veces, los posibles resultados tienden a presentarse un número
muy parecido de veces, lo cual indica que la frecuencia de aparición de cada
resultado tiende a estabilizarse

• El concepto o idea que generalmente se tiene del término probabilidad es adquirido


de forma intuitiva, siendo suficiente para manejarlo en la vida corriente

Nos interesa ahora la medida numérica de la posibilidad de que ocurra un suceso A


cuando se realiza el experimento aleatorio. A esta medida la llamaremos
probabilidad del suceso A y la representaremos por p(A)

La probabilidad es una medida sobre la escala 0 a 1 de tal forma que:

• Al suceso imposible le corresponde el valor 0


• Al suceso seguro le corresponde el valor 1
• El resto de sucesos tendrán una probabilidad comprendida entre 0 y 1 El concepto
de probabilidad no es único, pues se puede considerar desde distintos puntos de
vista:
• El punto de vista objetivo
• Definición clásica o a priori
• Definición frecuentista o a posteriori
• El punto de vista subjetivo

2. Definición Clásica de la Probabilidad


Sea un experimento aleatorio cuyo correspondiente espacio muestral E está
formado por un número n finito de posibles resultados distintos y con la misma
probabilidad de ocurrir {e1, e2, ... , en}

Si n1 resultados constituyen el subconjunto o suceso A1, n2 resultados constituyen


el subconjunto o suceso A2 y, en general, nk resultados constituyen el subconjunto o
suceso Ak de tal forma que:

es decir, que la probabilidad de cualquier suceso A es igual al cociente entre el


número de casos favorables que integran el suceso A Regla de Laplace para E
finitos y el número de casos posibles del espacio muestral E.

• Para que se pueda aplicar la regla de Laplace es necesario que todos los sucesos
elementales sean equiprobables, es decir:

• Siendo A=

La probabilidad verifica las siguientes condiciones:

• La probabilidad de cualquier suceso es siempre un número no negativo entre 0 y 1

• La probabilidad del suceso seguro E vale 1

• La probabilidad del suceso imposible es 0

• La probabilidad de la unión de varios sucesos incompatibles o excluyentes A1,


A1,..., Ar es igual a la suma de probabilidades de cada uno de ellos

Esta definición clásica de probabilidad fue una de las primeras que se dieron (1900)
y se atribuye a Laplace; también se conoce con el nombre de probabilidad a priori
pues, para calcularla, es necesario conocer, antes de realizar el experimento
aleatorio, el espacio muestral y el número de resultados o sucesos elementales que
entran a formar parte del suceso

La aplicación de la definición clásica de probabilidad puede presentar dificultades de


aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de
un experimento no son equiprobables. Ej: En un proceso de fabricación de piezas
puede haber algunas defectuosas y si queremos determinar la probabilidad de que
una pieza sea defectuosa no podemos utilizar la definición clásica pues
necesitaríamos conocer previamente el resultado del proceso de fabricación

Para resolver estos casos, se hace una extensión de la definición de probabilidad,


de manera que se pueda aplicar con menos restricciones, llegando así a la definición
frecuentista de probabilidad

3. Definición Frecuentista de la Probabilidad

La definición frecuentista consiste en definir la probabilidad como el límite cuando n


tiende a infinito de la proporción o frecuencia relativa del suceso.
Sea un experimento aleatorio cuyo espacio muestral es E Sea A cualquier suceso
perteneciente a E Si repetimos n veces el experimento en las mismas Condiciones,
la frecuencia relativa del suceso A será:

Cuando el número n de repeticiones se hace muy grande la frecuencia relativa


converge hacia un valor que llamaremos probabilidad del suceso A.

Es imposible llegar a este límite, ya que no podemos repetir el experimento un


número infinito de veces, pero si podemos repetirlo muchas veces y observar como
las frecuencias relativas tienden a estabilizarse

Esta definición frecuentista de la probabilidad se llama también probabilidad a


posteriori ya que sólo podemos dar la probabilidad de un suceso después de repetir
y observar un gran número de veces el experimento aleatorio correspondiente.
Algunos autores las llaman probabilidades teóricas

4. Definición Subjetiva de la Probabilidad

Tanto la definición clásica como la frecuentista se basan en las repeticiones del


experimento aleatorio; pero existen muchos experimentos que no se pueden repetir
bajo las mismas condiciones y por tanto no puede aplicarse la interpretación objetiva
de la probabilidad

En esos casos es necesario acudir a un punto de vista alternativo, que no dependa


de las repeticiones, sino que considere la probabilidad como un concepto subjetivo
que exprese el grado de creencia o confianza individual sobre la posibilidad de que
el suceso ocurra

Se trata por tanto de un juicio personal o individual y es posible por tanto que,
diferentes observadores tengan distintos grados de creencia sobre los posibles
resultados, igualmente válidos

5. Definición Axiomática de la Probabilidad

La definición axiomática de la probabilidad es quizás la más simple de todas las


definiciones y la menos controvertida ya que está basada en un conjunto de axiomas
que establecen los requisitos mínimos para dar una definición de probabilidad. La
ventaja de esta definición es que permite un desarrollo riguroso y matemático de la
probabilidad. Fue introducida por A. N. Kolmogorov y aceptada por estadísticos y
matemáticos en general

Definición

6. Teoremas Elementales o Consecuencias de los Axiomas

Los siguientes resultados se deducen directamente de los axiomas de probabilidad.

Teorema I

Teorema II
Teorema III

Teorema IV

Teorema V

Teorema VI

Teorema VII

Teorema VIII

7. Probabilidad Condicionada

Hasta ahora hemos introducido el concepto de probabilidad considerando que la


única información sobre el experimento era el espacio muestral. Sin embargo hay
situaciones en las que se incorpora información suplementaria respecto de un
suceso relacionado con el experimento aleatorio, cambiando su probabilidad de
ocurrencia

El hecho de introducir más información, como puede ser la ocurrencia de otro


suceso, conduce a que determinados sucesos no pueden haber ocurrido, variando el
espacio de resultados y cambiando sus probabilidades

Definición

gla de Multiplicación de Probabilidades o Probabilidad Compuesta Partiendo de la


definición de la probabilidad condicionada p(B/A) podemos escribir:

8. Teorema de la Probabilidad Compuesta o Producto

9. Teorema de la Probabilidad Total

10. Teorema de Bayes

11. Independencia de Sucesos

Capítulo VI VARIABLES ALEATORIAS

1. Introducción

Dentro de la estadística se pueden considerar dos ramas perfectamente


diferenciadas por sus objetivos y por los métodos que utilizan: Estadística
Descriptiva o Deductiva Inferencia Estadística o Estadística Inductiva

• Se utiliza cuando la observación de la población no es exhaustiva sino sólo de un


subconjunto de la misma de forma que, los resultados o conclusiones obtenidos de
la muestra, los generalizamos a la población
• La muestra se toma para obtener un conocimiento de la población pero nunca nos
proporciona información exacta, sino que incluye un cierto nivel de incertidumbre
• Sin embargo sí será posible, a partir de la muestra, hacer afirmaciones sobre la
naturaleza de esa incertidumbre que vendrá expresada en el lenguaje de la
probabilidad, siendo por ello un concepto muy necesario y muy importante en la
inferencia estadística
• Según V. Barnett (1982): -La estadística es la ciencia que estudia como debe
emplearse la información y como dar una guía de acción en situaciones prácticas
que envuelven incertidumbre-. Las “situaciones prácticas que envuelven
incertidumbre” son lo que nosostros llamaremos experimentos aleatorios

2. Fenómenos Aleatorios

Un experimento es cualquier situación u operación en la cual se pueden presentar


uno o varios resultados de un conjunto bien definido de posibles resultados

Los experimentos pueden ser de dos tipos según si, al repetirlo bajo idénticas
condiciones: Determinístico Se obtienen siempre los mismo resultados

Ej: medir con la misma regla e identicas condiciones la longitud de una barra
Aleatorio No se obtienen siempre los mismo resultados

Ej: el lanzamiento de una moneda observando la sucesión de caras y cruces que se


presentan Las siguientes son características de un experimento aleatorio:

• El experimento se puede repetir indefinidamente bajo idénticas condiciones


• Cualquier modificación a las condiciones iniciales de la repetición puede modificar
el resultado
• Se puede determinar el conjunto de posibles resultados pero no predecir un
resultado particular
• Si el experimento se repite gran número de veces entonces aparece algún modelo
de regularidad estadística en los resultados obtenidos

3. Espacio Muestral

Se denomina resultado básico o elemental, comportamiento individual o punto


muestral a cada uno de los posibles resultados de un experimento aleatorio. Los
resultados básicos elementales serán definidos de forma que no puedan ocurrir dos
simultáneamente pero si uno necesariamente

Se denomina conjunto universal, espacio muestral o espacio de comportamiento E al


conjunto de todos los resultados elementales del experimento aleatorio. Pueden ser
de varios tipos: Espacio Muestral Discreto Espacio muestral finito Espacio muestral
infinito numerable Tiene un número finito de elementos. Tiene un número infinito
numerable de elementos es decir, se puede establecer una aplicación biyectiva entre
EyN

Ejemplo: Experimento aleatorio consistente en lanzar un dado. El espacio muestral


es
Experimento aleatorio consistente en lanzar un dado hasta que sea obtenido el
número 1

Espacio Muestral Continuo Si el espacio muestral contiene un número infinito de


elementos, es decir, no se puede establecer una correspondencia biunívoca entre E
yN

Ejemplo: Experimento aleatorio consistente en tirar una bola perfecta sobre un suelo
perfecto y observar la posición que ocupará esa bola sobre la superficie. E={Toda la
superficie del suelo}

4. Sucesos

Un suceso S es un subconjunto del espacio muestral, es decir, un subconjunto de


resultados elementales del experimento aleatorio

Diremos que ocurre o se presenta el suceso cuando al realizarse el experimento


aleatorio, da lugar a uno de los resultados elementales pertenecientes al
subconjunto S que define el suceso Se pueden considerar cuatro tipos de sucesos
según el nº de elementos que entren a formar parte:

• Suceso elemental, suceso simple o punto muestral es cada uno de los resultados
posibles del experimento aleatorio luego los sucesos elementales son subconjuntos
de E con sólo un elemento
• Suceso compuesto es aquel que consta de dos o más sucesos elementales
• Suceso seguro, cierto o universal es aquel que consta de todos los sucesos
elementales del espacio muestral E, es decir, coincide con E. Se le denomina seguro
o cierto porque ocurre siempre
• Suceso imposible es aquel que no tiene ningún elemento del espacio muestral E y
por tanto no ocurrirá nunca. Se denota por Ø

5. Operaciones con sucesos

Con los sucesos se opera de manera similar a como se hace en los conjuntos y sus
operaciones se definen de manera análoga. Los sucesos a considerar serán los
correspondientes a un experimento aleatorio y por tanto serán subconjuntos del
espacio muestral E

Suceso Contenido en Otro Dados dos sucesos A y B de un experimento aleatorio:


Diremos que A está incluido en B si: Cada suceso elemental de A pertenece también
a B, es decir, siempre que ocurre el suceso A, también ocurre el suceso B

Diremos también que A implica B

AB.óAB

Igualdad de Sucesos Dados dos sucesos A y B de un experimento aleatorio:


Diremos que A y B son iguales si: Siempre que ocurre el suceso A también ocurre B
y al revés. Unión de Sucesos Dados dos sucesos A y B de un experimento aleatorio:
La unión de ambos sucesos A y B es: Otro suceso compuesto por los resultados o
sucesos elementales pertenecientes a A, a B, o a los dos a la vez A B .

otro suceso formado por los resultados o sucesos elementales que pertenecen al
menos a uno de los sucesos Ai.

Intersección de Sucesos Dados dos sucesos A y B de un experimento aleatorio: La


intersección de ambos sucesos A y B es: Otro suceso compuesto por los resultado o
sucesos elementales que pertenecen a A y a B, simultáneamente

En general, dados n sucesos A1, A2, A3,..., An, su intersección es otro suceso
formado por los resultados o sucesos elementales que pertenecen a todos los
sucesos Ai.

Sucesos Disjuntos, Incompatibles o Excluyentes Dados dos sucesos A y B de un


experimento aleatorio: Diremos que estos sucesos A y B son disjuntos,
incompatibles o mutuamente excluyentes cuando: No tienen ningún suceso
elemental en común o dicho de otra forma, si al verificarse A no se verifica B, ni al
revés.

Sistema Exhaustivo de Sucesos Dados n sucesos A1, A2, A3,..., An de un


experimento aleatorio: Diremos que estos forman una colección o sistema
exhaustivo de sucesos si la unión de todos ellos es igual al espacio muestral E

Diremos que estos forman un sistema completo de sucesos o una partición de E si,
además de la anterior, condición, se cumple que son disjuntos dos a dos, es decir,
son mutuamente excluyentes, disjuntos o incompatibles.

El conjunto de todos los sucesos elementales que constituyen un espacio muestral


forman una colección de sucesos mutuamente excluyente y exhaustivo ya que, de
todos ellos, sólo uno debe ocurrir y no pueden ocurrir dos simultáneamente

Suceso Complementario o Contrario Dado un suceso A de un experimento aleatorio:


A

Se define como suceso complementario o contrario de A a: Otro suceso que ocurre


cuando no ocurre el suceso A, o bien, es el suceso constituido por todos los sucesos
elementales del espacio muestral E que no pertenecen a A

Diferencia de Sucesos Dados dos sucesos A y B de un experimento aleatorio: Se


define como la diferencia de ambos sucesos A y B a: Otro suceso constituido por los
sucesos elementales que pertenecen a A, pero no a B

A B A B - = n Diferencia Simétrica de Sucesos Dados dos sucesos A y B de un


experimento aleatorio: Se define como diferencia simétrica de ambos sucesos A y B
a: Otro suceso constituido por los sucesos elementales que pertenecen a A, o a B,
pero que no simultáneamente a ambos

6. Propiedades de las Operaciones con Sucesos


Los sucesos asociados a un experimento aleatorio verifican las siguientes
propiedades:

7. Sucesión de Sucesos

Llamaremos sucesión de sucesos a una familia de sucesos A1, A2, A3,..., An en la


que éstos aparecen ordenados por el subíndice n.

Límites Inferior y Superior de una Sucesión de Sucesos

El límite inferior de la sucesión es un suceso formado por los resultados o sucesos


elementales que pertenecen a todos los sucesos de la sucesión excepto quizá a un
número finito de sucesos

El límite superior de la sucesión es un suceso formado por todos los resultados o


sucesos elementales que pertenecen a una infinidad de sucesos de la sucesión En
el supuesto que se verifique diremos que la sucesión es convergente y se expresa
como:

8. Algebra de Sucesos

Como se ha venido observando, los sucesos los consideramos como conjuntos,


siendo válido para éstos todo lo estudiado en la teoría de conjuntos. Para llegar a la
construcción axiomática del Cálculo de Probabilidades, necesitamos dar unas
estructuras algebraicas básicas construidas sobre los sucesos, de la misma manera
que se construyen sobre los conjuntos.

Colección de Conjuntos o Sucesos Es otro conjunto cuyos elementos son conjuntos


y lo llamaremos conjunto de las partes de E, es decir, A=P(E) es el conjunto formado
por todos los subconjuntos de E o por todos los sucesos contenidos en el espacio
muestral E

Algebra de Sucesos o Algebra de Boole Sea A=P(E) una colección de sucesos


donde se han definido las operaciones: - Unión de sucesos - Intersección de
sucesos - Complementario de un suceso y que ademá verifican las propiedades
definidas al exponer las operaciones con sucesos

Diremos que la colección de sucesos no vacia A tiene estructura de Algebra de


Boole si A es una clase cerrada frente a las operaciones de complementario, unión e
intersección de sucesos en número finito, es decir si se verifican las condiciones
siguientes:

Si hacemos la extensión al caso de un número infinito numerable de sucesos,


entonces aparece una nueva estructura algebraica que recibe el nombre de a-
Algebra o Campo de Borel, que es una generalización de la anterior

Cuando el espacio muestral E es finito, todos los subconjuntos de E se pueden


considerar como sucesos. Esto no ocurre cuando el espacio muestral es infinito (no
numerable), pues es difícil considerar el conjunto formado por todos los
subconjuntos posibles, existiendo subconjuntos que no pueden considerarse como
sucesos

En resumen, podemos decir que a partir del espacio muestral E, hemos llegado a
definir la colección de sucesos A=P(E) que tiene estructura de Algebra de Sucesos o
Algebra de Boole si el espacio muestral es finito o bien tiene la estructura de a-
Algebra si el espacio muestral es infinito

Al par (E, A) en donde E es el espacio muestral y A una a-Algebra sobre E, le


llamaremos espacio o conjunto medible, en el cual será posible establecer una
medida o probabilidad, como se verá después

9. Métodos de Enumeración o Conteo

Las siguientes son algunas técnicas útiles para contar el número de resultados o
sucesos de un experimento aleatorio

Tablas de Doble Entrada Es útil para relacionar dos pruebas, indicándonos los
resultados que integran el espacio muestral, pudiendo indicar sobre la tabla
determinados sucesos en los que estemos interesados. En general con m elementos
a1, a2, a3,..., am y n elementos b1, b2, b3,..., bn es posible formar m x n pares (ar ,
bs) tales que cada par tiene al menos algún elemento diferente de cada grupo

Principio de Multiplicación

Diagramas de árbol Este diagrama nos permite indicar de manera sencilla el


conjunto de posibles resultados en un experimento aleatorio siempre y cuando los
resultados del experimento puedan obtenerse en diferentes fases sucesivas

Ej: Experimento aleatorio consistente en lanzar al aire un dado y después 3 veces


consecutivas una moneda

Combinaciones, Variaciones y Permutaciones Combinaciones

Combinaciones con repetición Si en los subconjuntos anteriores se pueden repetir


los elementos

Llamaremos variaciones de m elementos tomados de n en n a los distintos


subconjuntos diferentes de n elementos que se pueden formar con los m elementos,
influyendo el orden en el que se toman

Capítulo V SERIES TEMPORALES

5.4 DETERMINACION DE LAS VARIACIONES ESTACIONALES

- Método de la razón a la media móvil para determinar la componente estacional en


una serie temporal

1º) Se determina la tendencia por el método de las medias centradas en los períodos
(Yt) ( estamos aplicando cuatro observaciones para el cálculo de la media aritmética)
2º) Cómo este método se basa en la hipótesis multiplicativa, si dividimos la serie
observada Yt, por su correspondiente media móvil centrada, eliminamos de forma
conjunta las componentes del largo plazo ( tendencia y ciclo ), pero la serie seguirá
manteniendo el efecto de la componente estacional.

3º) Para eliminar el efecto de la componente estacional, calcularemos las medias


aritméticas a nivel de cada estación (cuatrimestre). Estas medias representan de
forma aislada la importancia de la componente estacional.

4º) Calcularemos los índices de variación estacional, para lo que previamente


calcularemos la media aritmética anual de las medias estacionales ( M1, M2, M3, M4
) , que será la base de los índices de variación estacional. Existirán tantos índices
como estaciones o medias estacionales tengan las observaciones

5º) Una vez obtenidos los índices de variación estacional puede desestacionalizarse
la serie observada, dividiendo cada valor de la correspondiente estación por su
correspondiente índice.

- Método de la Tendencia por Ajuste Mínimo-Cuadrático El objetivo sigue siendo


aislar la componente estacional de la serie por eliminación sucesiva de todos los
demás. La diferencia con el método anterior es que, en este caso, las componentes
a l/p (tendencia-ciclo) las obtenemos mediante un ajuste mínimocuadrático de las
medias aritméticas anuales yt calculándose bajo la hipótesis aditiva

Sigue los siguientes pasos:

• Se calculan las medias anuales de los datos observados y :

i las observaciones son trimestrales estas medias se obtienen con 4 datos, si son
mensuales con 12 datos, etc. para el caso de que el periodo de repetición sea el año

• Se ajusta una recta por mínimos cuadrados y a b t t = + que nos representa, como
sabemos, la tendencia, siendo el coeficiente angular de la recta el incremento medio
anual de la tendencia, que influirá de forma distinta al pasar de una estación a otra

• Se calculan, con los datos observados, las medias estacionales (M1, M2, M3, ...)
con objeto de eliminar la componente accidental. Estas medias son brutas pues
siguen incluyendo los componentes a l/p (tendencia-ciclo) que deben someterse a
una corrección

• Empleando el incremento medio anual dado por el coeficiente, se obtienen las


medias estacionales corregidas de las componentes a largo plazo (M’1, M’2, M’3, ...)
bajo el esquema aditivo:

• Los índices de variación estacional se obtienen con la misma sistemática del


método anterior: con las medias estacionales corregidas se obtiene la media
aritmética anual M’A que sirve de base para calcular los índices:

• Obtenidos estos índices, podemos desestacionalizar la serie como en el método


anterior.
5.4. DETERMINACIÓN DE LAS VARIACIONES CÍCLICAS

Cuando hemos definido esta componente se ha dicho que recoge las oscilaciones
periódicas de larga duración. El problema es que estos movimientos no suelen ser
regulares como los estacionales y su determinación encierra dificultades de forma
que como se ha apuntado en los casos prácticos se suelen tratar conjuntamente con
la tendencia llamando componente extraestacional al efecto (TxC) si estamos en el
marco multiplicativo o (T+C) si es el aditivo

A pesar de estas dificultades se puede tratar de aislar el ciclo bajo la hipótesis


multiplicativa dejándola como residuo con la eliminación de la tendencia y la
variación estacional

Pasos a seguir: - Estimar la tendencia

- Calcular los índices de variación estacional

- Se desestacionaliza la serie observada

- Se elimina la tendencia dividiendo cada valor desestacionalizado por la serie de


tendencia

Expresando el proceso en forma de cociente sería:

El proceso finalizaría intentando eliminar la componente accidental A y determinando


el periodo de los ciclos que nos llevaría a un tratamiento de análisis armónico que
superaría el nivel descriptivo que estamos dado al tratamiento clásico de las Series
temporales

Capítulo IV : NÚMEROS ÍNDICES

7. Indice de Precios de Consumo (IPC)

• FICHA TÉCNICA
• Tipo de encuesta: continua de periodicidad mensual
• Período base: 2001
• Periodo de referencia de las ponderaciones: desde el 2º trimestre de 1999 hasta el
1º de 2001
• Muestra de municipios: 141 para alimentación y 97 para el resto
• Número de artículos: 484
• Número de observaciones: aproximadamente 200.000 precios mensuales
• Clasificación funcional: 12 grupos, 37 subgrupos, 80 clases y 117 subclases; 57
rúbricas y 37 grupos especiales
• Método general de cálculo: Laspeyres encadenado
• Método de recogida: agentes entrevistadores en establecimientos y recogida
centralizada para artículos especiales .
Características principales INDICE DE PRECIO DE CONSUMO (I.P.C.) El Indice de
Precios de Consumo es una medida estadística de la evolución del conjunto de
precios de los bienes y servicios que consume la población residente en viviendas
familiares en España.

El Indice de Precios de Consumo Armonizado es un indicador estadístico cuyo


objetivo es proporcionar una medida común de la inflación que permita realizar
comparaciones entre los países de la Unión Europea. Este indicador de cada país
cubre las parcelas que superan el uno por mil del total de gasto de la cesta de la
compra nacional.

Hacia un indicador más moderno y dinámico Desde enero de 1993 ha estado


vigente en España el Índice de Precios de Consumo (IPC) Base 92. La cesta de la
compra, a partir de la cual se calcula el IPC, se obtiene básicamente del consumo de
las familias en un momento determinado y debe actualizarse cada cierto tiempo. En
este caso no sólo se renueva la cesta sino que se introducen novedades en la forma
de calcular el IPC por lo que no estamos ante un «cambio de base» sino ante un
«cambio de sistema», Sistema de Indices de Precios Base 2001, que entra en vigor
con la publicación del IPC de enero de 2002.

Se ha conseguido un indicador más dinámico, ya que se podrán actualizar las


ponderaciones más frecuentemente y se adaptará mejor a la evolución del mercado.
Además, se podrán incluir nuevos productos en la cesta de la compra en el
momento en que su consumo comience a ser significativo.

El nuevo Sistema también será técnicamente más moderno, ya que permitirá la


inclusión inmediata de mejoras en la metodología que ofrezcan los distintos foros
académicos y de organismos nacionales e internacionales, especialmente las
decisiones que favorezcan la armonización de los IPC de los países de la Unión
Europea.

A partir del 22 de febrero de 2002, el INE ha llevado a cabo la implantación definitiva


del nuevo sistema de Índices de Precios de Consumo Base 2001.

El nuevo Sistema se ha llevado a efecto en dos fases, a lo largo de dos años. En la


primera (hasta 01-2001) se introdujeron algunas mejoras, que se han completado en
01-2002. Se ha conseguido un indicador más dinámico, ya que se podrán actualizar
las ponderaciones más frecuentemente y se adaptará mejor a la evolución del
mercado. Además, se podrán incluir nuevos productos en la cesta de la compra en
el momento en que su consumo comience a ser significativo.

Introducción El Índice de Precios de Consumo (IPC) requiere para su elaboración la


selección de una muestra de bienes y servicios representativa de los distintos
comportamientos de consumo de la población, así como la estructura de
ponderaciones que defina la importancia de cada uno de estos productos. Como en
la mayoría de los países, el IPC español obtiene esta información de la Encuesta de
Presupuestos Familiares (EPF), que fue realizada por última vez en el periodo
comprendido entre abril de 1990 y marzo de 1991; esta encuesta es la que se utilizó
para llevar a cabo el anterior cambio de base del IPC.

Desde entonces, el comportamiento de los consumidores ha cambiado


considerablemente, ya sea porque variaron los gustos o las modas, su capacidad de
compra, o porque han aparecido nuevos productos en el mercado hacia los que se
desvía el gasto. Todos estos cambios deben reflejarse en la composición del IPC y
en su estructura de ponderaciones; es por ello por lo que se hace preciso realizar un
cambio de base que permita una mejor adaptación de este indicador a la realidad
económica actual.

A partir del 2º trimestre de 1997 se implantó la nueva Encuesta Continua de


Presupuestos Familiares (ECPF), con el fin de sustituir a la que se venía realizando
de forma trimestral y a la Encuesta Básica que se hacía en periodos de entre ocho y
nueve años, que era la utilizada para los distintos cambios de base del IPC.

Esta nueva encuesta permite disponer de información sobre el gasto de las familias
de forma más detallada que su predecesora y con una periodicidad mayor que la
Encuesta Básica. Esto hace que el nuevo Sistema del IPC, cuyas líneas generales
se presentan en este documento, parta de un planteamiento conceptual diferente a
todos los Sistemas anteriores.

Por un lado, destaca su dinamismo, ya que se podrán actualizar las ponderaciones


en periodos cortos de tiempo, lo que sin duda redundará en una mejor y más rápida
adaptación a la evolución del mercado. Además, esta adaptación a la evolución del
mercado y al comportamiento de los consumidores se conseguirá también con la
posibilidad de incluir nuevos productos en el momento en que su consumo comience
a ser significativo.

Por otro lado, el nuevo Sistema será técnicamente más moderno, ya que permitirá la
inclusión inmediata de mejoras en la metodología que ofrezcan los distintos foros
académicos y de organismos nacionales e internacionales. En este sentido, se
valorarán especialmente las decisiones provenientes del Grupo de Trabajo para la
armonización de los IPC de la Unión Europea (UE).

Con este propósito, se creará un proceso de actualización continua de la estructura


de consumo, basado en un flujo continuo de información entre el IPC y la ECPF,
como fuente fundamental de información.

Características más importantes Período base El período base es aquél para el que
la media aritmética de los índices mensuales se hace igual a 100. El año 2001 es el
periodo base del nuevo Sistema, esto quiere decir que todos los índices que se
calculen estarán referidos a este año. Período de referencia de las ponderaciones
Es el período al que están referidas las ponderaciones que sirven de estructura del
Sistema; dado que éstas se obtienen de la ECPF, el período de referencia del IPC
es el período durante el cual se desarrolla esta encuesta.

El actual cambio de Sistema se ha realizado con la información proveniente de la


ECPF, que proporciona la información básica sobre gastos de las familias en bienes
y servicios de consumo. Así, el periodo de referencia del nuevo Sistema es el
comprendido entre el 2º trimestre de 1999 y el 1º trimestre de 2001.

Para el cálculo de las ponderaciones se ha dado más importancia a la información


correspondiente a los trimestres más cercanos al momento de la actualización.
Muestra Para obtener indicadores significativos para todos los niveles de
desagregación funcional y geográfica para los que se publica el IPC, se ha
estructurado el proceso de selección de la muestra en tres grandes apartados, cada
uno de los cuales tiene como objetivo la selección de los diferentes componentes de
la misma. Estos son los siguientes :

• Selección de municipios
• Selección de zonas comerciales y establecimientos
• Determinación del número de observaciones

Para la selección de municipios, como en bases anteriores, se han utilizado criterios


poblacionales, y se ha tenido en cuenta la situación de las principales zonas
comerciales en cada una de las provincias. La muestra de municipios ha aumentado
respecto a la base 92, pasando de 130 a 141 (para alimentación) y de 70 a 97 ( para
resto).

Por otro lado, se ha prestado especial atención a los distintos tipos de


establecimiento existente, así como a la recogida de precios de los artículos
perecederos en municipios no capitales. Con todo ello, se ha aumentado el número
de precios procesados respecto a la base anterior, pasando ahora a ser
aproximadamente 180.000 precios mensuales.

Campo de consumo Es el conjunto de los bienes y servicios que los hogares


destinan al consumo; no se consideran, pues, los gastos en bienes de inversión ni
los autoconsumos, autosuministros ni alquileres imputados. En la ECPF los bienes y
servicios han sido clasificados según la clasificación internacional de consumo
COICOP (en inglés, Classification Of Individual Consumption by Purpose). Así, cada
parcela de consumo de la ECPF debe estar representada por uno o más artículos en
el IPC, de forma que la evolución de sus precios represente la de todos los
elementos que integran dicha parcela.

Cesta de la compra Es el conjunto de bienes y servicios seleccionados en el IPC


cuya evolución de precios representan la de todos aquellos que componen la
parcela COICOP a la que pertenece.

El proceso para determinar la composición de la cesta de la compra y su estructura


de ponderaciones utiliza como fuente fundamental de información la ECPF; así, en
función de la importancia de cada parcela se han seleccionado uno o más artículos
para el IPC. El número total de artículos que componen la nueva cesta de la compra
es 484.

Para cada uno de los artículos se elabora su descripción o especificación con el fin
de facilitar su identificación por parte del encuestador y permitir la correcta recogida
de los precios. Estas especificaciones tienen en cuenta las particularidades propias
de cada región.

Clasificación funcional El IPC base 2001 se adapta completamente a la clasificación


internacional de consumo COICOP.
Así, la estructura funcional del IPC constará de 12 grupos, 37 subgrupos, 80 clases y
117 subclases. Además, se mantienen las 57 rúbricas existentes y se amplía el
número de grupos especiales.

Método general de cálculo Hasta ahora, todos los sistemas españoles anteriores
utilizaron lo que se denomina un índice tipo Laspeyres con base fija, al igual que
otros muchos países de la Unión Europea. La ventaja fundamental de un índice de
este tipo es que permite la comparabilidad de una misma estructura de artículos y
ponderaciones a lo largo del tiempo que esté en vigor el Sistema; sin embargo, tiene
un inconveniente y es que la estructura de ponderaciones pierde vigencia a medida
que pasa el tiempo y evolucionan las pautas de consumo de los consumidores.

El nuevo Sistema utilizará la fórmula de "Laspeyres encadenado", que consiste en


referir los precios del periodo corriente a los precios del año inmediatamente
anterior; además, con una periodicidad que no superará los dos años se actualizarán
las ponderaciones de las parcelas con información proveniente de la ECPF.

La utilización de las ponderaciones provenientes de la ECPF para calcular los


índices encadenados evita la auto-ponderación de las parcelas del IPC por medio
del nivel de los índices, es decir, las parcelas no irán ganando peso en la cesta de la
compra a medida que vaya alcanzando mayor magnitud su índice.

Por otro lado, la actualización anual de ponderaciones tiene las siguientes ventajas:

• El IPC se adapta a los cambios del mercado y de los hábitos de consumo en un


plazo muy breve de tiempo;
• Se puede detectar la aparición de nuevos bienes o servicios en el mercado para su
inclusión en el IPC, así como la desaparición de los que se consideren poco
significativos

Básicamente, el proceso de cálculo es el mismo que el de un Laspeyres: se calculan


medias ponderadas de los índices de los artículos que componen cada una de las
agregaciones funcionales para las cuales se obtienen índices, y se compraran con
los calculados el mes anterior. En este caso las ponderaciones utilizadas no
permanecen fijas durante todo el período de vigencia del sistema. Otra novedad
importante en el nuevo Sistema es la utilización de la media geométrica para el
cálculo de los precios medios provinciales de todos los artículos de la cesta de la
compra, que intervienen en la elaboración del índice mensual.

Cambios de calidad El tratamiento de los cambios de calidad es uno de los temas


que más afectan a cualquier índice de precios.

Un cambio de calidad ocurre cuando cambia alguna de las características de la


variedad para la que se recoge el precio y se considera que este cambio implica un
cambio en la utilidad que le reporta al consumidor.

Para la correcta medición de la evolución de los precios es preciso estimar en qué


medida la variación observada del precio es debida al cambio en la calidad del
producto y qué parte de esta variación es achacable al precio, independientemente
de su calidad.
Los métodos más utilizados en el IPC son la consulta a expertos, que consiste en
solicitar a los propios fabricantes o vendedores la información para poder estimar el
cambio de calidad; los precios de las opciones, que analiza los elementos
componentes del antiguo producto y del nuevo para establecer el coste de las
diferencias entre ambos; y el precio de solapamiento, basado en suponer que el
valor de la diferencia de calidad entre el producto que desaparece y el nuevo es la
diferencia de precio entre ellos en el periodo de solapamiento, es decir, en el periodo
que estén en vigencia los precios de ambos.

El nuevo Sistema introduce una novedad en los métodos de ajustes de calidad que
se vienen utilizando hasta ahora en el IPC, y es la utilización de la regresión
hedónica para realizar ajustes de calidad en determinados grupos de productos,
como los electrodomésticos. Dicho método se utiliza como complemento a los
citados anteriormente.

Durante el año 2002 se continuarán los estudios que permitirán determinar la


viabilidad de aplicar este nuevo método de ajuste de calidad a otros artículos de la
cesta de la compra, en función de la información disponible.

Inclusión de las ofertas y rebajas Uno de los cambios más importantes que se
producirán en el IPC con la entrada en vigor del nuevo Sistema, base 2001, es la
inclusión de los precios rebajados. El IPC, base 1992, no contemplaba la recogida
de estos precios por lo que su inclusión en el nuevo Sistema producirá una ruptura
en la serie de este indicador, que no es posible solucionar totalmente con el método
de los enlaces legales, utilizado cada vez que se lleva a cabo un cambio de base.

No obstante el INE facilitará los datos correspondientes a las tasas de variación a


largo plazo, para evitar la falta comparación por la ruptura de la serie.

Enlace de series Como en los anteriores cambios de base el INE publicará las series
enlazadas, así como los coeficientes de enlace que permiten su cálculo, en aquellos
casos en los que sea posible dar continuidad a la serie. En los casos en los que no
exista una equivalencia exacta se indicará oportunamente.

El coeficiente de enlace legal se calcula como el cociente entre el índice del mes de
diciembre de 2001 en base 2001 y en base 92. Es por este coeficiente por el que se
multiplican los índices en base 92 y se obtienen los índices en base 2001.

Periodicidad del cambio de Sistema Debido a la disponibilidad de datos anuales


sobre ponderaciones provenientes de la Encuesta Continua de Presupuestos
Familiares, una de las modificaciones más importantes en este nuevo proceso de
cambio de sistema es la actualización continua de ponderaciones.

Una vez establecido el nuevo Sistema de IPC, el proceso constará de dos partes:

A) Adaptación continua del IPC

Consistirá en la revisión anual de las ponderaciones para determinados niveles de


desagregación geográfica y funcional; en ella se estudiarán cada año la
conveniencia o no de ampliar la composición de la cobertura de productos así como
la posibilidad de modificar alguno de los tratamientos empleados en el cálculo del
índice

B) Revisión estructural del IPC

Cada cinco años se realizará un completo cambio de base; por tanto, las
operaciones a realizar consistirán en determinar la composición de la cesta de la
compra, las ponderaciones para los niveles más desagregados y la selección de la
muestra. También vendrá acompañada de una revisión mucho más profunda de
todos los aspectos metodológicos que definen el IPC.

De esta forma, se conseguirá un indicador más dinámico y que se adapte de forma


más rápida a los movimientos del mercado y a la aparición de innovaciones
metodológicas

Además, se cumplirá con las exigencias de la UE a través de Eurostat.

Se establece a partir de ahora un marco de actuación totalmente distinto al existente


hasta el momento, al no tratarse de un mero cambio de base y sí de un proceso
mucho más amplio.

Ponderaciones El IPC es un índice de precios de Laspeyres (luego complejo y


ponderado). Según la metodología del INE, la ponderación del artículo, wi, se
obtiene como cociente del gasto realizado en las parcelas representadas por dicho
artículo (durante el periodo de referencias de la EPF 1990/1991) y el gasto total
realizado en ese mismo periodo.

Las ponderaciones permanecen fijas a lo largo del periodo de vigencia del sistema
de indices de precios al consumo. Un mismo artículo puede tener ponderaciones
diferentes en las distintas agrupaciones geográficas.

Enlaces de series Hasta 1976, el IPC elaborado por el INE se denominaba Indice de
Coste de la Vida.

Con este nombre se creó y se mantuvo en sus diferentes revisiones:

• Desde 1939 a 1960 (base 1936)


• Desde 1961 a 1968 (base 1958)
• Desde 1969 a 1976 (base 1968)

Con el nombre de Indice de Precios al Consumo (IPC):

• Desde 1977 a 1985 (base 1976)


• Desde 1985 a 1992 (base 1983)
• Desde 1993 hasta nuestros días (base 1992) La citada Metodología del INE (1992)
propone los siguientes coeficientes de enlace de series:

Capítulo III: DISTRIBUCIONES BIDIMENSIONALES

3.1. Introducción
Estudiaremos dos características de un mismo elemento de la población (altura y
peso, dos asignaturas, longitud y latitud).
De forma general, si se estudian sobre una misma población y se miden por las
mismas unidades estadísticas una variable X y una variable Y, se obtienen series
estadísticas de las variables X e Y.
Considerando simultáneamente las dos series, se suele decir que estamos ante una
variable estadística bidimensional.

3.2. Tabulación de variables estadísticas bidimensionales

Vamos a considerar 2 tipos de tabulaciones:


1º) Para variables cuantitativas, que reciben el nombre de tabla de correlación.
2º) Para variables cualitativas, que reciben el nombre de tabla de contingencia.

[Link] de correlación

Sea una población estudiada simultaneamente según dos caracteres X e Y; que


representaremos genéricamente como (xi; yj ; nij), donde xi; yj, son dos valores
cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-
ésimo de Y.

Una forma de disponer estos resultados es la conocida como tabla de doble entrada
o tabla de correlación, la cual podemos representar como sigue: Tipos de
distribuciones Cuando se estudian conjuntamente dos variables, surgen tres tipo de
distribuciones: Distribuciones conjuntas, distribuciones marginales y distribuciones
condicionadas.

a) Distribución conjunta - La frecuencia absoluta conjunta, viene determinada por el


número de veces que aparece el par ordenado ( xi , yj ), y se representa por “ nij ”.

- La frecuencia relativa conjunta, del par ( xi , yj ) es el cociente entre la frecuencia


absoluta conjunta y el número total de observaciones. Se trata de “ fij ”.

Se cumplen las siguientes relaciones entre las frecuencias de distribución conjunta:


1ª) La suma de las frecuencias absolutas conjuntas, extendida a todos los pares es
igual.

2ª) La suma de todas las frecuencias relativas conjuntas extendida a todos los pares
es igual a la unidad.

b) Distribuciones marginales Cuando trabajamos con más de una variable y


queremos calcular las distribuciones de frecuencias de cada una de manera
independiente, nos encontramos con las distribuciones marginales.

- Frecuencia absoluta marginal: el valor ni. Representa el número de veces que


aparece el valor xi de X, sin tener en cuenta cual es el valor de la variable Y. A ni. se
le denomina frecuencia absoluta marginal del valor xi de X, de forma que:
Frecuencia relativa marginal La frecuencia relativa marginal de xi de X, viene dada
por:

La frecuencia relativa marginal de yj de Y, viene dada por:

- Se cumplen las siguientes relaciones entre las frecuencias de distribución


marginales: 1ª) La suma de frecuencias absolutas marginales de la variable X, es
igual al número de observaciones que componen la muestra 2ª) La suma de las
frecuencias relativas marginales de la variable X, es igual a 1

3ª) Las dos propiedades anteriores se cumplen también para la variable Y

c) Distribuciones condicionadas Consideremos a los n.j individuos de la población


que representan la modalidad yj de la variable Y, y obsérvese la columna j-esima de
la tabla. Sus n.j elementos constituyen una población, que es un subconjunto de la
población total.

El razonamiento es análogo cuando condicionamos la variable Y a un determinado


valor de X, es decir Y /xi

¿ Cuál es la distribución de la retribución, pero únicamente de los empleados con


una antigüedad de 5 años?, es decir ¿ cual es la distribución condicionada de la
variable X condicionada a que Y sea igual a 5? Covarianza La covarianza mide la
forma en que varía conjuntamente dos variables X e Y En el estudio conjunto de dos
variables, lo que nos interesa principalmente es saber si existe algún tipo de relación
entre ellas. Veremos ahora una medida descriptiva que sirve para medir o cuantificar
esta relación:

Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las
variables tienen el mismo sentido Si Sxy = 0 las variables están incorreladas, es
decir no hay relación lineal, pero podría existir otro tipo de relación.

Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las
variables tienen sentido opuesto.

Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los
siguientes casos:

- La covarianza no es un parámetro acotado, y puede tomar cualquier valor real, por


lo que su magnitud no es importante; lo significativo es el signo que adopte la
misma.

Al tener la covarianza entre ambas variables signo positivo, podemos deducir que
existe una relación directa o positiva entre ambas variables, es decir, cuando
aumenta la “ edad ” del insecto también aumenta su tamaño

[Link] de contingencia

Cuando tenemos la información de 2 variables de tipo cualitativo o de una variable


cualitativa y otra cuantitativa, se dispone de una tabla de contingencia. Nos
limitaremos al caso de 2 variables. Es una tabla de doble entrada en la que en las
filas se ubican las modalidades de una de las variables ( atributos ) y en las
columnas las del otro; en las celdas resultantes del cruce de las filas y las columnas
se incluye el número de elementos de la distribución que presentan ambas
modalidades

Si se tiene información de N elementos acerca de las variables A y B de tal forma


que presentan “ r ” y “ s ” modalidades respectivamente, la tabla de contingencia
sería de la forma:

tabla de contingencia r x s nij= número de elementos de la distribución que


presentan la modalidad i –ésima del atributo A y la modalidad j – esima del atributo B

ni.= ni1+ ni2+ … + nis --.. número de elementos de la distribución con la i – ésima
modalidad del atributo A

Como a las variables cualitativas no se les puede someter a operaciones de sumas,


restas y divisiones, al venir expresadas en escalas nominales u ordinales no tiene
sentido hablar de medias marginales, condicionadas, varianzas, etc; si podríamos
calcular la moda en el caso de que se empleara una escala nominal y de la mediana
si utilizamos escalas ordinales.

3.3. Dependencia e independencia

[Link]

Cuando no se da ningún tipo de relación entre 2 variables o atributos, diremos que


son independientes
Dos variables X e Y, son independientes entre si, cuando una de ellas no influye en
la distribución de la otra condicionada por el valor que adopte la primera. Por el
contrario existirá dependencia cuando los valores de una distribución condicionan a
los de la otra

Dada dos variables estadísticas X e Y, la condición necesaria y suficiente para que


sean independientes es:

Propiedades:

1ª) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son


idénticas a la distribución marginal de X
2ª) Si X es independiente de Y, Y es independiente de X
3ª) Si X e Y son 2 variables estadísticamente independientes, su covarianza es cero.
La recíproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables
puede tomar valor cero, y no ser independientes

[Link] funcional
( existe una relación matemática exacta entre ambas variables ) El carácter X
depende del carácter Y, si a cada modalidad yj de Y corresponde una única
modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij
vale cero salvo para un valor de i correspondiente a una columna j tal que nij = n.j
Cada columna de la tabla de frecuencias tendrá, por consiguiente, un único término
distinto de cero. Si a cada modalidad xi de X corresponde una única modalidad
posible de Y, será Y dependiente de X. La dependencia de X respecto de Y no
implica que Y dependa de X

Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el


mismo número de modalidades ( debe ser n=m) y en cada fila como en cada
columna de la tabla debe haber uno y solo un término diferente de cero

Sea X el salario de un empleado e Y la antigüedad del mismo en la empresa

Dependencia funcional recíproca: X depende de Y e Y depende de X

Y depende de X pero X no depende de Y

[Link] estadística
( existe una relación aproximada )
Existen caracteres que ni son independientes, ni se da entre ellos una relación de
dependencia funcional, pero si se percibe una cierta relación de dependencia entre
ambos; se trata de una dependencia estadística

Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia


estadística se conoce como el problema de “ regresión ”, y el análisis del grado de
dependencia que existe entre las variables se conoce como el problema de
correlación

[Link]ón y correlación lineal simple [Link]ón a la regresión lineal


simple
Cuando se estudian dos características simultáneamente sobre una muestra, se
puede considerar que una de ellas influye sobre la otra de alguna manera. El
objetivo principal de la regresión es descubrir el modo en que se relacionan

Por ejemplo, en una tabla de pesos y alturas de 10 personas se puede suponer que
la variable “Altura” influye sobre la variable “Peso” en el sentido de que pesos
grandes vienen explicados por valores grandes de altura (en general). De las dos
variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X
VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos
VARIABLE DEPENDIENTE o EXPLICADA.

En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber
qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide
menos le supondremos menor altura y a una persona de poca altura le supondremos
un peso más bajo. Es decir, se puede admitir que cada variable influye sobre la otra
de forma natural y por igual. Un ejemplo más claro donde distinguir entre variable
explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su
tiempo de estudio (en horas) y su nota de examen.

En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y
una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin
embargo, a la hora de determinar qué variable explica a la otra, está claro que el
“tiempo de estudio” explica la “nota de examen” y no al contrario, pues el alumno
primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota
que ya no decide arbitrariamente. Por tanto, X = Tiempo de estudio (variable
explicativa o independiente) Y = Nota de examen (variable explicada o dependiente)
El problema de encontrar una relación funcional entre dos variables es muy
complejo, ya que existen infinidad de funciones de formas distintas. El caso más
sencillo de relación entre dos variables es la relación LINEAL, es decir que Y = a + b
X

(es la ecuación de una recta) donde a y b son números, que es el caso al que nos
vamos a limitar.

Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre


variables NO es EXACTA (basta con que un dato de las X tenga dos datos distintos
de Y asociados, como en el ejemplo de las Alturas y Pesos, que a 180 cm. de altura
le correspondía un individuo de 82 kg. y otro de 78 kg.).

• Diagrama de dispersión o nube de puntos En un problema de este tipo, se


observan los valores ( xi,yj ) y se representan en un sistema de ejes coordenados,
obteniendo un conjunto de puntos sobre el plano, llamado “ diagrama de dispersión
o nube de puntos ”.

En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea


recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro,
cualquier recta deja a muchos puntos alejados de ella. Así pues, el hacer un análisis
de regresión lineal sólo estaría justificado en el ejemplo de la izquierda.

Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por
todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE
REGRESIÓN DE Y SOBRE X es aquella que minimiza un cierto error, considerando
a X como variable explicativa o independiente y a Y como la explicada o
dependiente.

• Recta de mínimos cuadrados o recta de regresión de Y sobre X (y* = a + b x) Sea y


= a + b x una recta arbitraria. Para cada dato de X, es decir, para cada xi de la tabla
tenemos emparejado un dato de Y llamada yi, pero también tenemos el valor de
sustituir la xi en la ecuación de la recta, al que llamaremos y* i.

Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al
elegir y*.

Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta
que minimice la suma de los cuadrados de todos esos errores, que es la misma que
la que minimiza la varianza de los errores.
Usando técnicas de derivación se llega a que, de todas las rectas y = a + b x, con a
y b números arbitrarios, aquella que minimiza el error elegido es aquella que
cumple .

Así pues, sustituyendo en y = a + b x, la ecuación de la recta de regresión de Y


sobre X es .

y recolocando los términos se puede escribir de la forma .

• Recta de regresión de X sobre Y Si se hubiese tomado Y como variable


independiente o explicativa, y X como dependiente o explicada, la recta de regresión
que se necesita es la que minimiza errores de la X. Se llama RECTA DE
REGRESIÓN DE X SOBRE Y y se calcula fácilmente permutando los puestos de x e
y, obteniéndose.

Sabiendo que :

PROPIEDADES:

- Ambas rectas de regresión pasan por el punto ( y x, )


- La pendiente de la recta de regresión de Y sobre X es “ b “ y la de X sobre Y es “ b
´ “. Dado que las varianzas son positivas por definición, el signo de las pendientes
será el mismo que el de la covarianza, y así, las rectas serán ambas crecientes o
decrecientes, dependiendo de si la covarianza es positiva o negativa,
respectivamente, es decir b y b´ tendrán el mismo signo.
- Los términos de las rectas a y a´ constituyen los orígenes de las rectas, es decir,
son los valores que adoptan respectivamente y* ó x* cuando x o y toman el valor
cero en sus correspondientes rectas de regresión.
- Las rectas de regresión las emplearemos para realizar predicciones acerca de los
valores que adoptaran las variables.
- Puede darse el caso, de no existencia de correlación lineal entre las variables, lo
cual no implica que no existan otro tipo de relaciones entre las variables estudiadas:
relación exponecial, relación parabólica, etc.

[Link]ón lineal simple ( r ó R )

Para ver si existe relación lineal entre dos variables X e Y, emplearemos un


parámetro que nos mida la fuerza de asociación lineal entre ambas variables. La
medida de asociación lineal mas frecuentemente utilizada entre dos variables es “ r ”
o coeficiente de correlación lineal de Pearson; este parámetro se mide en términos
de covarianza de X e Y.

Si R = 1, existe una correlación positiva perfecta entre X e Y


• Si R = -1, existe una correlación negativa perfecta entre X e Y
• Si R = 0, no existe correlación lineal, pudiendo existir otro tipo de relación
• Si 0 1 p p R - , existe correlación negativa y dependencia inversa, mayor cuanto
más se aproxime a - 1
• Si 1 0 p p R , existe correlación positiva, y dependencia directa, mayor cuanto más
se aproxime a 1
- Varianza residual y varianza explicada por la regresión. Coeficiente de
determinación lineal (R2 ) Si tenemos dos variables X e Y relacionadas linealmente,
parte de la variabilidad de la variable Y, vendrá explicada por variaciones de X
( variabilidad explicada por el modelo) , mientras que el resto responderá a
variaciones de fenómenos relacionados con la variable Y o con el azar ( variabilidad
no explicada por el modelo).

Por tanto nos conviene disponer de una medida que indique el porcentaje de la
variabilidad de la variable explicada que se debe a la variabilidad de la variable
explicativa. Esta medida es el coeficiente de determinación lineal (R2 ) , y si su valor
es alto nos indicará que el ajuste lineal efectuado es bueno.

En la regresión lineal de Y sobre X, la varianza de la variable Y, puede


descomponerse en la suma de 2 varianzas:

Es una medida de la bondad del ajuste lineal efectuado. Si lo expresamos en


porcentaje, dicho coeficiente nos indica el % de la varianza de la variable explicada (
Y) que se ha conseguido explicar mediante la regresión lineal.

Si R2 = 1, existe dependencia funcional; la totalidad de la variabilidad de Y es


explicada por la regresión.

Si R2 = 0, dependencia nula; la variable explicativa no aporta información válida para


la estimación de la variable explicada.

Si R2 75 . 0 = , se acepta el modelo ajustado • Relación existente entre los


coeficientes de determinación y correlación lineal: 2 R R ± = El signo del coeficiente
de correlación lineal será el mismo que el de la covarianza.

También podría gustarte