0% encontró este documento útil (0 votos)
131 vistas93 páginas

Importancia de la Estadística en Decisiones Empresariales

Este documento presenta los conceptos básicos de la estadística. Explica la importancia de la estadística para la toma de decisiones gerenciales y la resolución de problemas. También define los términos clave como población, muestra, estadística descriptiva e inferencial. Finalmente, destaca las diferentes ramas y aplicaciones de la estadística.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
131 vistas93 páginas

Importancia de la Estadística en Decisiones Empresariales

Este documento presenta los conceptos básicos de la estadística. Explica la importancia de la estadística para la toma de decisiones gerenciales y la resolución de problemas. También define los términos clave como población, muestra, estadística descriptiva e inferencial. Finalmente, destaca las diferentes ramas y aplicaciones de la estadística.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

CAPITULO 1

INTRODUCCIÓN
OBJETIVOS DEL CAPÍTULO
 Mostrar la importancia y aplicación de la estadística.
 Presentar los conceptos iniciales de la estadística.
1.1. ANÁLISIS CUANTITATIVO PARA LA TOMA DE DECISIONES.

El análisis cuantitativo para la toma de decisiones es un proceso por medio del cual
la Gerencia, al enfrentarse a un problema, selecciona un curso de acción específico
ó “solución” de un conjunto de alternativas. Puesto que por lo general hay
incertidumbre (probabilidad) con respecto al futuro, no es posible estar seguro de
las consecuencias de la decisión que se tome, y tampoco se puede asegurar que la
decisión que se elija produzca los mejores resultados. Además, el problema puede
ser muy complejo, ya sea porque existen muchas alternativas o cursos de acción
por considerar ó porque un gran número de factores deben tomarse en cuenta.

El Gerente de una empresa quiere escoger la acción más efectiva para alcanzar las
metas de la organización. Al juzgar la eficiencia de las distintas decisiones posibles,
hay que utilizar algún criterio o medida del rendimiento.

Solución de problemas. Una vez identificado y definido el problema, el proceso de


resolución involucra:

Establecer Criterio
Que se usará para evaluar
Soluciones alternativas.

Seleccionar la(s)
Alternativa(s) más adecuada(s).

Poner en práctica la(s)


alternativa(s)
seleccionada(s).
(La decisión)

Evaluar los resultados, y determinar si se


ha llegado a una solución satisfactoria.
1.2. ¿POR QUÉ SE REQUIERE SABER ESTADÍSTICA?

 En el nuevo milenio, el problema de las organizaciones no es tanto la


consecución de la información, sino administrar y analizar la información
de que dispone con el fin de obtener conclusiones que ayuden a la toma de
decisiones.

 La Estadística es un soporte para la investigación y la toma de decisiones.

 Es la evidencia del éxito de sus trabajos de investigación.

 No es posible concebir el estudio de una rama del saber humano sin


considerar el aporte de la estadística como herramienta indispensable para
su formación.

 Elemento fundamental de la cultura general de la persona.

 En los últimos años el número de empresas especializadas en el análisis de


datos ha crecido de una manera espectacular. No son pocas las
consultoras que cada vez hacen más uso de los análisis estadísticos para
ayudar a las empresas en la toma de decisiones. La proliferación de
nuevas empresas se explica por la emergencia de un mercado que requiere
soluciones a problemas relacionados con la producción y la logística, la
comercialización, la gestión financiera, los recursos humanos y a formación.

 Cada día es más frecuente que el análisis estadístico se incorpore como


una herramienta más en aplicaciones informáticas.

 Proporciona interpretaciones de los resultados obtenidos. ¡Nada más fácil


que realizar un análisis estadístico!

 Las técnicas cuantitativas y la estadística son básicas tanto en las etapas


de planificación como en las de los procesos de diagnosis, proyección,
seguimiento y evaluación de acciones en el ámbito de la empresa.

 Tiene aplicación en cualquier campo, sin importar que tan sencillo o


complicado sea. Cuanto más complicado sea, más ayuda nos presta para
resolver la situación.
3

1.3. PENSAMIENTO ESTADÍSTICO

Dado que en los negocios, las empresas se plantean metas y objetivos para
identificar áreas de oportunidad y mejora, el pensamiento estadístico debe usarse
como un medio para lograr la meta planteada.
El pensamiento estadístico es la forma en que la información se ve, se
procesa y se convierte en pasos de acción. Es una filosofía de pensamiento,
no una forma de realizar cálculos matemáticos. El pensamiento estadístico utiliza
el concepto de que toda actividad consiste en un conjunto de pasos
interconectados que deben complementarse y completarse para lograr una meta
planteada, donde se debe investigar cada paso para identificar áreas de
oportunidad y mejora a fin de lograr el éxito personal o profesional. La
identificación y minimización de la variación en cada uno de los pasos llevarán al
logro de la meta planteada.

El avance de la tecnología hace posible innovar el entrenamiento estadístico a los


directivos para incrementar su utilización y que de esta manera se reporten
estudios de calidad con mayor validez para las empresas.
A la definición y avance del concepto de pensamiento estadístico han
contribuido varios especialistas, como Snee quien lo definió como un conjunto de
principios y valores que permiten identificar los procesos, caracterizarlos,
cuantificarlos, controlar y reducir su variación para implantar acciones de mejora
(Snee, 1993).
El pensamiento estadístico está basado en la teoría en administración del Dr. W.
Edwards Deming, porque en su libro, The New Economics publicado en 1994
desarrolló el Sistema de Conocimiento Profundo, el cual contiene la esencia de
los principios del pensamiento estadístico y consta de cuatro partes:

1. La apreciación de un sistema.
2. El conocimiento sobre la variación.
3. La teoría del conocimiento.
4. La psicología.
Finalmente, se resalta la importancia de encontrar el valor y los beneficios de
utilizar las Nuevas Tecnologías de Información y Comunicación para un
pensamiento estadístico en diferentes ámbitos de la vida profesional y de la
empresa.
En la ASQC (1996b) se plantea primero que el pensamiento estadístico es una
filosofía, o sea es una forma de pensar, o un proceso de pensamiento, en lugar de
4

cálculos que a algunos confunden. Ésta es la diferencia clave entre el


pensamiento estadístico y las técnicas estadísticas.

1.4. DEFINICIÓN DE ESTADÍSTICA.

Es un conjunto de teorías y métodos que han sido desarrollados para tratar la


recolección, organización, presentación, análisis e interpretación de una gran masa
de datos con el fin de extraer conclusiones útiles que ayuden a la toma de
decisiones.

Métodos Estadísticos.

Son aquellos que señalan la presencia de causas especiales, ayudan a comprender


los procesos, a controlarlos y luego a mejorarlos.

Finalidad de la estadística.

Disminuir el grado de incertidumbre, conocer la realidad de un fenómeno, determinar


los cambios y las causas que lo originan, para hacer estimaciones sobre el
comportamiento futuro.

CONCEPTOS DE POBLACIÓN Y MUESTRA:

Población Objetivo.

Es la totalidad de los elementos acerca de los cuales se desea alguna información.

Toda medida que se calcule para describir una característica de la totalidad de la


población se llama PARÁMETRO, donde un parámetro se considera su verdadero
valor.
Las poblaciones pueden ser finitas o infinitas.

Muestra.

Es un subconjunto de la población a la cual se le estudian una o varias


características comunes.
Toda medida que se calcule para describir una característica de una muestra recibe
el nombre de ESTADÍSTICA.

Existen técnicas apropiadas para determinar el tamaño de la muestra y formas de


seleccionar la muestra, dependiendo de la naturaleza del estudio.

Uno de los propósitos fundamentales de los métodos estadísticos es utilizar las


estadísticas muestrales para estimar los parámetros poblacionales.
5

RAMAS DE LA ESTADISTICA:

La estadística se puede dividir en 2 categorías, la “estadística descriptiva” y la


“estadística inferencial”

 Estadística Descriptiva O Deductiva.

Es aquella que tiene por objeto describir y analizar las características de una
población o de una muestra, deduciendo de ésta descripción conclusiones sobre su
estructura y composición.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.

 Estadística Inferencial o Inductiva.

Consiste en obtener conclusiones de una población a partir de la información que se


obtiene de una muestra de esa población.
La inferencia estadística se refiere a los procedimientos mediante los cuales se
pueden hacer generalizaciones.
6

Estadística Clásica y Análisis Bayesiano de Decisiones.

La estadística clásica hace referencia al análisis de datos muestrales con el


objetivo de hacer inferencias excluyendo todo tipo de juicio u opinión personal.
El análisis Bayesiano de decisiones incorpora el uso de juicios de los
administradores en el análisis estadístico y también pone énfasis en las posibles
ganancias o perdidas económicas asociadas con decisiones alternativas.

Ejemplo. Por medio del enfoque clásico de la inferencia estadística, podría


determinarse el nivel incierto de ventas de un producto nuevo solamente sobre la
base de estudios de mercado llevados a cabo en un conjunto de lugares
seleccionados de acuerdo con el requerimiento del muestreo científico.
Con el enfoque Bayesiano se obtendría y utilizaría la opinión de los administradores
que han tenido experiencia con productos similares como base para estimar un
volumen de ventas.
La estimación subjetiva se podría combinar con la información objetiva de datos
muestrales para obtener una estimación combinada de los volúmenes de venta.
7

CAPITULO 2
ANÁLISIS DE DATOS

OBJETIVOS DEL CAPÍTULO


 Presentar una visión global sobre la importancia de los datos.
 Determinar las fuentes y tipos de datos.

2.1. DATOS.
Antes de aplicar cualquier técnica de análisis es preciso realizar un análisis previo
de los datos de que se dispone.
Algunas definiciones de datos:

 Son medidas y/o números recopilados a partir de la observación.


 Los datos son la materia prima de que se nutren los programas para
producir resultados.
 Los datos son observaciones codificadas.

Es importante observar que el objeto utilizado para el análisis estadístico son los
datos y las observaciones científicas por sí mismas.
Para el investigador, los datos constituyen el recurso básico para cualquier trabajo
estadístico. Por ello, la recolección correcta de éstos es importante.
Para que sean de utilidad los datos estadísticos tienen que tener dos
características básicas:
1) Deben ser pertinentes: deben guardar una relación con el tema en cuestión.
2) Deben ser insesgados: no deben tener deformaciones provenientes de
prejuicios o de errores de los instrumentos empleados.

2.2. FUENTES DE DATOS

Existen varias fuentes mediante los cuales se pueden obtener datos.


Tales fuentes pueden ser:
 Por Internet.
 Obtención de datos publicados por entidades públicas o privadas.
 Mediante el diseño de una encuesta.
 Mediante la experimentación.
 Mediante la observación.
 Mediante cualquier medio de comunicación.

2.3. TIPOS DE DATOS:

 DATOS CATEGÓRICOS.
8

Son aquellos originados por variables categóricas.

Variables categóricas: Son aquellas que producen respuestas categóricas


como sí ó no, pasa ó no pasa, conforme ó no
conforme.
Ejemplos: Orden jerárquico dentro de una organización, la Calidad, la
metodología entre otros.

 DATOS NUMÉRICOS.
Son aquellos originados por variables numéricas.

Variables numéricas: Son aquellas que producen respuestas numéricas.


Ejemplos: El ingreso, el salario, la rentabilidad, la resistencia entre otros.

Los datos numéricos son de dos tipos:

 DISCRETOS.
Son aquellos que resultan de un proceso de conteo. Ejemplo: ¿Cuántos
libros de estadística tiene usted en su biblioteca? 0, 1, 2,3....

 CONTINUOS.
Son aquellos que resultan de un proceso de medición.
Una variable continua es aquella que toma cualquier valor dentro de
cierto intervalo (a < X < b). Ej. Ingresos, salarios, Rentabilidad de un
titulo valor, resistencia entre otros.

2.4. INTRODUCCIÓN AL MUESTREO

MUESTREO: Es un procedimiento para conocer algunas características de la


población con base en una muestra extraída de ella.
El objetivo de un diseño de muestreo es proporcionar indicaciones para la
selección de una muestra que sea representativa de la población.

VENTAJAS DE UTILIZAR MUESTRAS

Cuando la población ha sido definida, es el momento de tomar una muestra de


ella. El análisis de todos los elementos del universo se denomina censo, y el
análisis de sólo una parte se denomina muestreo.

 La economía que supone usar una muestra en lugar de un censo,


sobretodo si el ámbito de estudio es muy grande.
9

 La mayor rapidez de recogida de datos y elaboración de los resultados,


sobretodo cuando se trabaja con temas y poblaciones dinámicas y
cambiantes.

 Una muestra ofrece mejor calidad y precisión de los datos que un


censo(porque se puede prestar una mayor atención a la recolección de
éstos)
El objetivo de la teoría del muestreo es obtener estimados muestralmente fiables.

CASOS EN QUE EL CENSO ES PREFERIBLE AL MUESTREO


1. Un tamaño de población reducida.
2. Cuando la varianza de la característica que se está midiendo es muy grande.
3. Cuando los costos del error sean altos (error muestral + error no muestral).

ERROR: Siempre existirán diferencias, unas veces pequeñas y otras veces


grandes entre la información obtenida a través de un estudio de investigación y la
verdadera informació[Link] es lo que en investigación se conoce como error.
Este error total proviene de dos fuentes: Error Muestral + Error No Muestral.
ERROR MUESTRAL: Este comprende las diferencias ente los resultados de la
muestra y el verdadero valor de la población.

ERROR NO MUESTRAL: Son todos aquellos errores susceptibles de ocurrir a lo


largo del proceso investigativo y diferentes a lo que aquí se ha llamado ERROR
MUESTRAL.
Mencionemos algunos:
 Error por mala identificación del problema ó diferenciación pobre del problema.
 Errores por incapacidad para identificar la información específica requerida.
 Imperfecciones en el diseño del cuestionario.
 Error en la especificación del marco muestral donde el MARCO MUESTRAL es
un listado de las unidades muestrales ó listado de todos los elementos de la
población.
 El encuestado responde sobre algo que no sabe.
 El encuestado intencionalmente suministra información incorrecta.
 El encuestado suministra información imprecisa, debido a fallas de memoria.
10

 Sesgos generados por el encuestador al influir su tono de voz, explicaciones ó


apariencia personal en el encuestado.
 Sesgos generados por el encuestador al registrar incorrectamente las
respuestas de los encuestados.
 Sesgos generados por el encuestador al desviarse de las instrucciones que se
le han dado.
 Errores generados durante la codificación, tabulación, edición, etc.
 Errores en la interpretación de los datos.

ETAPAS DEL PROCESO DE MUESTREO

 Definir claramente la población.


 Especificar el marco muestral.
 Especificar el método de MUESTREO (diseño): Muestreo probabilistico y
muestreo no probabilistico.
 Determinar el tamaño de la muestra.
 Especificar el plan de muestreo. En éste se definen los procedimientos
operacionales para la selección de las unidades muestrales.
 Seleccionar la muestra.

MÉTODOS DE MUESTREO
De acuerdo al conocimiento o no que se tenga de la población el muestreo puede
ser:
Muestreo Probabilísitico y No Probabilísitico.

PROBABILISTICOS NO PROBABILISTICOS
Muestreo aleatorio simple Muestreo por conveniencia
Muestreo estratificado Muestreo según criterio (juicio)
Muestreo por conglomerados Muestreo por cuotas
Muestreo polietápico
Muestreo por áreas
Muestreo Sistemático
11

MUESTREO PROBABILISTICO
Método con el cual es posible determinar la probabilidad que tiene cada elemento
de la población de ser escogido en la muestra. Cuando las muestras son
aleatorias, se pueden hacer generalizaciones acerca de la población bajo estudio.

MUESTREO NO PROBABILÍSTICO
Método con el cual no es posible establecer de una manera exacta la probabilidad
de que un elemento de la población participe en la muestra.
Tiene su aplicación en los estudios exploratorios.
Cuando las muestras se seleccionen de manera NO ALEATORIA, sólo es posible
hacer afirmaciones de tipo descriptivo sobre la muestra.
Los procedimientos NO ALEATORIOS de muestreo nunca deben usarse cuando
el objetivo del muestreo es hacer inferencias.

MUESTREOS PROBABILÍSTICOS

 MUESTREO ALEATORIO SIMPLE. (M.A.S.).


El M.A.S. es un método de selección de n unidades, sacadas de una población
homogénea (respecto a la característica de interés) de tamaño N de tal manera

que cada uno de los elementos de la población tenga igual oportunidad de caer en
la muestra. Se requiere tener un listado de la población.
En el M.A.S. la muestra es sacada al azar unidad por unidad.
La muestra puede ser seleccionada utilizando muestreo con reemplazo o sin
reemplazo.
El muestreo sin reemplazo es aquel en el que un elemento que ha sido sacado no
es remplazado, ya que esto daría lugar a que el mismo elemento entrara en la
muestra más de una vez.
El muestreo con reemplazo es un caso contrario. Se selecciona el elemento y
después de ser inspeccionado regresa a la población teniendo la posibilidad de
volver a salir.
12

CÓMO SELECCIONAR UNA MUESTRA ALEATORIA.


La mejor manera de seleccionar una muestra aleatoria, es utilizar una tabla de
números aleatorios que se construye combinando los números enteros de cero
(0) al nueve (9) que no tienen un patrón de ocurrencia .Igualmente Se pueden
seleccionar a través del Excel.

Procedimiento:
1. Enumerar los elementos de la población según el tamaño de ésta.
Ejemplos:
 Si la población es de N=1000, enumeramos como sigue: 001, 002,
003,...., 000 donde 001 representa el primer elemento, 002 el segundo,
003 el tercero,..., y el 000 representa el elemento 1 000.
 Si la población es de N=347, enumeramos como sigue: 001, 002, 003,...,
347, y se procede en forma similar.
2. De la tabla de números aleatorios se elige un punto arbitrario de partida y
siguiendo la secuencia se van determinando los elementos de la muestra.
Si un número aleatorio ocurre dos veces se omite la segunda ocurrencia y se
selecciona otro número aleatorio para reemplazarlo.
3. Determinar el valor de los elementos de la muestra.

 MUESTREO ESTRATIFICADO ALEATORIO (M.E.A.)

El M.E.A. se utiliza cuando la población es heterogénea (respecto a la


característica de interés) y se tiene un listado de ella.
Procedimiento: La población de N unidades es dividida en subpoblaciones o
estratos internamente homogéneas: N1, N2, N3,..Nk .Estas subpoblaciones son
excluyentes y al reunirlas forman la totalidad de la población.
Se requiere que sean conocidos y especificados los valores de N h (tamaño de los
estratos), con h = 1, 2,..., k.
Una vez determinados los estratos, se saca una muestra de cada una de ellos en
forma independiente y que representaremos por n 1, n2, n3,..., nk.
Si se toma una muestra simple aleatoria de cada estrato, el procedimiento
completo es conocido como “MUESTREO ESTRATIFICADO ALEATORIO”.
13

 MUESTREO POR CONGLOMERADOS.


El muestreo por conglomerados se utiliza:
 Cuando no existe una lista de todos los elementos de la población, o sería
muy costoso obtenerla.
 La población es grande y está dispersa en una región muy extensa.
El procedimiento en el muestreo por conglomerados consiste en dividir la
población en M grupos denominados conglomerados.
Después de dividir la población en conglomerados y tener un listado de ellos, se
seleccionan al azar algunos de ellos utilizando M.A.S. y posteriormente llevar a
cabo un censo completo en cada uno de los conglomerados seleccionados.
En el muestreo aleatorio estratificado las unidades muestrales son los elementos
individuales de la población, mientras que en el muestreo por conglomerados las
unidades muestrales son conglomerados de elementos.
El tamaño de muestra, cuando se utiliza muestreo por conglomerados equivale a
escoger el número m de conglomerados de elementos de una población de M
conglomerados.
Se puede incrementar la información obtenida de la población seleccionando un
mayor número de conglomerados de menor tamaño. La excepción a esta regla
es el caso en que la población consiste en muchos grupos homogéneos
pequeños. Los conglomerados deben de ser heterogéneos dentro de sí.
 MUESTREO SISTEMÁTICO.
Este método facilita la selección de la muestra puesto que es más fácil de ejecutar
y menos costoso que el M.A.S.
Suponga que N unidades en la población se enumeran de 1 a N en algún orden.
Para seleccionar una muestra de n unidades se procede de la siguiente manera:
N
 Determinar el intervalo muestral dado por k .
n
Por ejemplo; si se tiene una comunidad de 10.000 miembros y de éstos se
10.000
selecciona 200, el intervalo muestral sería k   50 .
200
 Se escoge un número al azar entre 01 a 50 y si éste número es por ejemplo
igual a 12, la muestra estaría constituida por los miembros: 12, 62, 112,...
No es recomendable cuando los datos tienen un comportamiento cíclico y cuando
no se conoce el tamaño de la población.
14

MUESTREOS NO PROBABILÍSTICOS.

 MUESTREO POR CONVENIENCIA.


Es aquel con el cual se selecciona las unidades muestrales de acuerdo a la
conveniencia o accesibilidad del investigador.
Este muestreo se puede utilizar en los casos en que se desea obtener información
de la población de manera rápida y económica. Las muestras por conveniencia se
pueden utilizar en las etapas exploratorias de la investigación como base para
generar hipótesis y para estudios concluyentes en los cuales el investigador desea
aceptar el riesgo de que los resultados del estudio tengan grandes inexactitudes.
Este método es muy común en las entrevistas callejeras como solicitar la opinión
de las personas que transitan en un centro comercial, realizar entrevistas con
personas de la calle para un canal de televisión, utilizar grupos de estudiantes o
grupos religiosos para realizar un experimento, etc. En cada caso la unidad o
elemento de muestreo se selecciona o se ha seleccionado con base en su fácil
disponibilidad. En todo los casos no se específica claramente la población de la
cual se ha tomado la muestra real. Aún más, se desconoce la probabilidad exacta
de que estas personas sean seleccionadas.
Este método de muestreo no se recomienda para estudios concluyentes,
descriptivos, ni experimentales.
 MUESTREO SEGÚN CRITERIO (Juicio)

Con éste método la selección de los elementos de la muestra se realiza de


acuerdo con el juicio y criterio del investigador.
Por ejemplo, en una investigación sobre las ventas diarias de todos los
supermercados de una ciudad, el investigador, a juicio, selecciona primero
aquellos supermercados que son más representativos.

 MUESTREO POR CUOTAS.

Las muestras por cuotas son un tipo especial de muestras a propósito.


En este caso el investigador da pasos concretos con el fin de obtener una muestra
que es similar a la población en algunas características de “control”, anteriormente
especificadas.
El investigador determina el número de entrevistados, y los entrevistadores eligen
a sus entrevistados libremente, con base en sus conocimientos y experiencia.
15

2.5. NIVELES Y ESCALAS DE MEDICIÓN.

Las escalas de medición o sea, los diferentes procedimientos que podemos usar
para medir los datos, según se trate de variables categóricas o numéricas son:

Para variables 1. Escala nominal


categóricas
2. Escala ordinal

Para variables 3. Escala de intervalos iguales


numéricas
4. Escala de cocientes o
razones

En una escala nominal no interesa ni el orden en que colocamos las


categorías, ni la distancia que hay entre ellas. Ejemplo si la variable
profesión fuera: Médico, odontólogo, veterinario, psicólogo, ingeniero,
arquitecto. Si la variable hubiese sido “prestigio de una profesión” aquí sí
hubiera importado el orden, pues hay profesiones más prestigiosas y menos
prestigiosas. Tampoco la escala nominal informa sobre las distancias entre
las categorías: subjetivamente podemos pensar que la “distancia” entre un
médico y un odontólogo no es la misma que hay entre un ingeniero y un
arquitecto, pero esta información no nos es suministrada por la escala
nominal.
La escala ordinal me informa si un individuo tiene mayor o menor prestigio
ocupacional que otro; es decir interesa el orden, pero no me dice “cuánto”
en forma objetiva. Esto último es importante porque “subjetivamente” uno
podría pensar que un ejecutivo tiene tres veces más prestigio que un
zapatero, pero este criterio no sería compartido por otras personas, y una
escala ha de ser la misma para todos.
Las escalas cuantitativas son aún más informativas. A los requisitos de
homogeneidad, diferenciabilidad y orden se agrega uno nuevo: los
intervalos deben ser regulares, y más específicamente iguales. Las
siguientes tres escalas representan todas ellas intervalos iguales, o sea que
los intervalos o distancias entre los puntos están determinados según un
cierto criterio matemático:
16

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5

1 2 4 8 16

En la primera vemos que los intervalos son iguales, pues la distancia que
hay de 1 a 2 es igual a la distancia que hay entre 2 y 3, etc., todo lo cual,
dicho matemáticamente, equivale a afirmar que 1-2 = 2-3, etc. Por la misma
razón en la segunda escala las distancias también son iguales aunque
hayamos tomado intervalos mayores. En la tercera ya parecería que los
intervalos no son iguales pues van aumentando cada vez más hacia la
derecha, pero si consideramos que se trata de una escala logarítmica (y no
lineal como las dos anteriores), veremos que también sus intervalos son
iguales según la siguiente serie de igualdades, donde en vez de restar,
dividimos:
1 2 4 8
------ = ------ = ------ = ------ = etc.
2 4 8 16

Esta misma serie, expresada logarítmicamente, es log1-log2 = log2-log4,


etc., o sea que en vez de restar números como en la escala lineal restamos
logaritmos, pero igualmente sigue cumpliéndose la condición de igualdad de
intervalos.
Toda escala que tenga intervalos iguales se llama escala métrica.

Estas escalas métricas, típicas de los niveles cuantitativos de medición,


siguen conservando las características de diferenciabilidad (o identidad), y
orden de la escala ordinal, pero se agregan otras nuevas: no sólo me dice
que los pesos 35 Kg. y 70 Kg. son distintos (identidad), y no sólo me dice
que 70 es un peso mayor que 35 (orden), sino que además me agrega
nueva información al decirme: (a) que 70 Kg. es cuantitativamente tan
distinto de 35 Kg. como 35 Kg. lo es de 0 Kg.; y (b) que 70 Kg. es dos veces
más pesado que 35 Kg., o sea, me informa acerca de cuánto más pesado es
un objeto que otro.
17

Las escalas de intervalos iguales sólo nos pueden dar la información (a),
mientras que la escala de cocientes o razones, además, nos suministra
la información (b), con lo cual esta última resulta ser más precisa o con
mayor contenido informativo.
En Las escalas de intervalos iguales el punto cero es arbitrario, y no
refleja en ningún momento ausencia de la magnitud que estamos
midiendo,
Ejemplos: la temperatura de cero en una ciudad.

El lapso transcurrido entre 1998-1999 es igual al que transcurrió entre


2000-2001.
La escala de razón se diferencia de las escalas de intervalos iguales
únicamente por poseer un punto cero propio como origen; es decir que el
valor cero de esta escala significa ausencia de la magnitud que estamos
midiendo.
Ejemplo:

En una encuesta realizada en un barrio de esta localidad se observó que hay


familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble de
hijos que aquellas que tienen 3 hijos.
2.6. TRATAMIENTO DE LOS DATOS.

Una vez que se recolectan los datos, se les debe dar una presentación tabular y
diagramático para su análisis e interpretación. El proceso de recolección,
organización, codificación y presentación es importante para la toma de decisiones.
18

CAPITULO 3.
PRESENTACIÓN DE DATOS NUMÉRICOS.

OBJETIVOS DEL CAPÍTULO


 Mostrar cómo organizar, resumir y presentar datos numéricos.
 Presentar tablas y gráficas utilizadas para datos numéricos.

3.1. INTRODUCCIÓN.

Grandes series de datos numéricos puede organizarse y presentarse de manera


eficaz en forma de tablas y gráficas para facilitar el análisis e interpretación de los
mismos, parte fundamental en el proceso de la toma de decisiones.

3.2. ORGANIZACIÓN DE DATOS NUMÉRICOS: DIAGRAMA DE TALLO Y


HOJAS.

Cuando se recolecta una serie de datos, generalmente, las observaciones


numéricas no se disponen en ningún orden o secuencia en particular.
Al crecer el número de observaciones, se hace muy difícil determinar las principales
características de un conjunto de datos y por consiguiente se necesitan métodos
para organizar las observaciones de tal manera que entendamos mejor la
información que transmite la serie de datos.
Los métodos más comúnmente utilizados para lograr esto son: la clasificación
ordenada y el diagrama de tallo y hojas.

 Clasificación Ordenada.
Consiste en ordenar los datos sin procesar desde el valor más pequeño hasta el
más grande y así facilitar la evaluación de sus principales características.
Los datos ordenados, reciben el nombre de arreglo ordenado.

 Diagrama de Tallo y Hojas.


Un diagrama de tallo y hojas es una modalidad de organización y presentación de
medidas en un formato de gráfica de barras jerárquicamente ordenado. Se trata
de una técnica común en el análisis exploratorio de datos. Como su nombre lo
indica, el análisis exploratorio de datos es un conjunto de técnicas de análisis
preliminar de datos para la detección de patrones y relaciones.
Un diagrama de tallo y hojas separa las entradas de datos en “tallos” y “hojas”.
Esta técnica sólo es aplicable y significativa si el primer dígito de la medición, o
quizá los dos primeros, sirve efectivamente de base para la separación de los
datos en grupos.
19

Cuando únicamente se usa el primer dígito para agrupar las medidas, el primer
dígito es el tallo, mientras que cada una de las medidas con valor a partir de ese
primer dígito pasa a ser una hoja.
Cada renglón es una posición de tallo y cada dígito de la derecha es una hoja.

El procedimiento para realizarla es primero empezar con los tallos, es decir la


columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha
de la línea vertical, en el tronco correspondiente. Además, si se desean tener los
datos ordenados, algunos lo prefieren, se pueden ordenar las hojas en cada
renglón.
Ejemplo 1.
En un examen de matemáticas fueron obtenidas las siguientes calificaciones (0 a
100):

78 93 61 100 70 83 88 74 97 72

66 73 76 81 83 64 91 70 77 86

Elaborar el diagrama de tallo y hojas.


Solución:
En cada uno de los datos se separan las decenas de las unidades, es decir, el
número 78 se verá como 7 | 8 De esta manera las decenas se pondrán en una
columna, en forma vertical, y las unidades a su derecha:

6 1 6 4
7 80 4 2 3 6 0 7
8 38 1 3 6
9 3 7 1
10 0

El primer renglón que dice 6 | 1 6 4 quiere decir que entre la lista de datos se
encuentran los valores 61, 66 y 64.

Si se desean tener los datos ordenados, el diagrama sería:

6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
20

Ejemplo 2.

Suponga que Xi, es el valor de una acción (miles de $) en la bolsa de valores.


Construya el diagrama de tallo y hojas. Analice.

8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
11.0 4.9 3.9 4.9 4.4 4.9 4.9 7.4 8.0 3.6
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9

Solución en computador:

El diagrama de tallo y hojas ofrece una impresión visual de la forma, de la dispersión


o variabilidad y de la tendencia central.

3.3. TABULACIÓN DE DATOS NUMÉRICOS.

Usando los datos sin procesar, la clasificación ordenada o el diagrama de tallos y


hojas, el analista debe construir las tablas y diagramas apropiados que amplíen el
informe.
Tal presentación de los datos en forma tabular puede hacerse por medio de una
distribución de frecuencia o tabla de frecuencias.

Distribución de Frecuencias es un método para organizar y resumir los


datos por medio de tablas.
21

Forma General de la tabla de Frecuencias.

Consiste en incluir los datos en una tabla donde la variable se organiza de menor a
mayor con sus correspondientes frecuencias1.

Xi ni Ni hi Hi
X1 n1 N1=n1 h1 H1=h1
X2 n2 N2=n1+n2 h2 H2=h1+h2
X3 n3 N3=n1+n2+n3 h3 H3=h1+h2+h3
• • • • •
• • • • •
• • • • •
Xn nn Nn=n hn Hn=1.0
n 1.0

Frecuencia Absoluta (ni): Es el número de veces que se repite cada valor de la


variable.

Frecuencia Absoluta Acumulada (Ni): Consiste en ir acumulando las frecuencias


absolutas.

Frecuencia Relativa (hi): Es resultado de dividir cada frecuencia absoluta entre el


número total de observaciones (n).

Frecuencia Relativa Acumulada (Hi): Consiste en ir acumulando las frecuencias


relativas.

PROPIEDADES:

1. La última frecuencia absoluta acumulada es igual a la frecuencia total (n).


2. La última frecuencia relativa acumulada es igual a la suma de las frecuencias
relativas.

1
. En adelante, la doble barra (║) en cada cuadro nos indica que a la izquierda están los datos

y a la derecha los cálculos correspondientes.


22

3. Las frecuencias absolutas y las frecuencias absolutas acumuladas son números


enteros.
4. Las frecuencias relativas y las frecuencias relativas acumuladas se interpretan
siempre en términos de porcentaje.

Al crecer el número de observaciones se hace necesario condensar los


datos para poder realizar la tabla apropiada agrupando por intervalos.

Para construir dicha tabla, agrupando por intervalos, se realizan los siguientes
pasos:
 Ordeno los valores de la variable de menor a mayor.

 Determino el rango, al mayor valor de la variable le resto el menor valor de la


variable (Xn - X1).

 Determino el rango ampliado. Ra = R + C, C=Kte y pequeña.

 Determino la amplitud del intervalo. Si deseo que los intervalos tengan igual
amplitud (a), entonces
a = (Ra /S), donde S=Nº de intervalos deseados, dependiendo de el
número de datos.
El número de intervalos en los que se agrupa la información es una
decisión que debe tomar el analista: la regla es que mientras más
intervalos se utilicen menos información se pierde, pero puede que menos
representativa e informativa sea la tabla.
Otra posibilidad es la de construir, siempre que sea posible, intervalos de amplitud
constante, sugiriendo sobre el número S de intervalos a considerar el propuesto
por Sturges

S = 1 + 3'322 log 10 n

 Contabilizar el número de observaciones en cada intervalo.

Ejercicio 1.

En encuesta realizada a 100 personas, una de las preguntas que se hizo fue
¿A cuantas revistas esta usted suscrito?
Las respuestas originaron una tabla de frecuencias donde la variable es numérica
discreta.
23

Revistas ni Ni hi Hi
0 20 20 0.20 0.20
1 15 35 0.15 0.35
2 10 45 0.10 0.45
3 25 70 0.25 0.70
4 17 87 0.17 0.87
5 13 100 0.13 1.00
100 1.00

La presentación gráfica de una variable numérica discreta se realiza por medio de


un DIAGRAMA DE BARRAS.

Ejemplo con las frecuencias absolutas:

25

20
p
e
r 15
s
o
n 10

a
s
5

0 1 2 3 4 5

revistas

DIAGRAMAS DE BARRAS DOBLES

En algunos casos es conveniente para propósitos comparativos representar


mediante un mismo gráfico dos características.

Ejercicio 2.
Considere el número de hombres y mujeres empleados por una entidad oficial
durante los primeros cuatro meses.
24

MES HOMBRES MUJERES


ENERO 55 45
FEBRERO 60 40
MARZO 45 55
ABRIL 70 30

BARRAS VERTICALES

Ejercicio 3.
Suponga que Xi, es el valor de una acción en la bolsa de valores y ni, es el número
de acciones vendidas.
25

Valor Acciones Valor Acciones Valor Acciones


Acciones vendidas Acciones vendidas Acciones vendidas
5.10 38 5.18 26 5.26 17
5.11 22 5.19 30 5.27 19
5.12 23 5.20 27 5.28 24
5.13 19 5.21 28 5.29 25
5.14 21 5.22 31 5.30 18
5.15 23 5.23 33 TOTAL 520
5.16 24 5.24 29
5.17 25 5.25 18

Construir la tabla de frecuencia, agrupando en 6 intervalos y ampliando por igual en


una cantidad c=0.04

Solución:
R = 5.30 - 5.10 = 0.20
Ra= 0.20 + 0.04 = 0.24
a = (0.24 / 6) = 0.04
Valor Acciones Acciones Marcas
Acciones vendidas Acumulada hi Hi Clase
5.08 - 5.12 60 60 0.115 0.115 5.10
5.12 - 5.16 86 146 0.165 0.281 5.14
5.16 - 5.20 105 251 0.202 0.483 5.18
5.20 - 5.24 119 370 0.229 0.712 5.22
5.24 - 5.28 83 453 0.160 0.871 5.26
5.28 - 5.32 67 520 0.129 1.000 5.30
520 1.000

h1 = 0.115 quiere decir, que el 11.5% de las acciones tienen un valor entre $ 5.08
Y menos de $ 5.12.
H2 = 0.281 quiere decir, que el 28.1% de las acciones tienen un valor inferior a
$ 5.16.

MARCAS DE CLASE.
Es el punto medio de los intervalos de clase; es un valor representativo de ese
intervalo.
Li  Ls 
Marca de clase = , en cada intervalo.
2

Los diagramas más comúnmente conocidos, cuando la variable ha sido agrupada


en intervalos, son los siguientes:
26

HISTOGRAMA DE FRECUENCIA.

Es un gráfico que se construye con las frecuencias absolutas o relativas. Se


construye situando en el eje de las abscisas los intervalos, y sobre ellos tomándolos
como base, se construyen sendos rectángulos, hasta una altura donde se encuentre
con la correspondiente frecuencia absoluta ó relativa.

POLÍGONO DE FRECUENCIA.

Gráfico que se construye con las marcas de clase en el eje de las abscisas(X), y las
frecuencias absolutas o relativas en el eje de las ordenadas (Y).
27

FRECUENCIAS RELATIVAS

24

20
%
16
a
c
ci 12
o
n
8
e
s
4

5. 5.14 5.18 5.22 5.26 5.3


1
precios

FRECUENCIAS ABSOLUTAS

120

100

A
c 80
c
i 60
o
n
e 40

s
20

5. 5.14 5.18 5.22 5.26 5.3


1
precios
28

OJIVA O POLÍGONO DE FRECUENCIA ABSOLUTA ACUMULADA Y


POLÍGONO DE FRECUENCIA RELATIVA ACUMULADA.

La ojiva “menos de” se construye situando en el eje X el límite superior de cada


intervalo y en el eje Y las frecuencias absolutas acumuladas o las frecuencias
relativas acumuladas, cuando la variable está en intervalos.
El punto de cruce de las dos ojivas "menos de" e "igual ó mayor que" es la mediana.

EJEMPLO CON FRECUENCIA ABSOLUTA ACUMULADA

a 600
c
c
i 500
o
n
e 400
s
300
a
c
u
200
m
u
l
100
a
d
a
0
s
5.12 5.16 5.20 5.24 5.28 5.32

precios
29

CAPITULO 4.
PRESENTACIÓN DE DATOS CATEGÓRICOS.

OBJETIVOS DEL CAPÍTULO


 Mostrar cómo organizar y resumir datos categóricos.
 Presentar tablas y gráficas para datos categóricos

4.1. INTRODUCCIÓN.

Si las observaciones en la serie de datos son resultados de una variable categórica,


la presentación se desarrolla por medio de una tabla resumen y diversidad de
diagramas.

4.2. TABLA DE FRECUENCIA.

Se construye con los valores de la variable categórica y las frecuencias absolutas y


relativas.

Ejemplo.
Al ser consultadas 100 personas sobre su ocupación se obtuvieron datos que
originaron la siguiente tabla resumen:

Clasificación Número de Porcentaje de


Laboral Empleados Empleados
Sin Empleo 23 23.0
Tiempo Parcial 17 17.0
Tiempo Completo 60 60.0
Total 100 100.0

4.3. GRAFICACIÓN DE DATOS CATEGÓRICOS: DIAGRAMAS DE BARRAS,


PASTEL y PARETO
DIAGRAMA DE BARRAS En la gráfica de barras, cada categoría se describe
mediante una barra, cuya longitud representa la frecuencia o porcentaje de
observaciones que caen en una categoría. Para construir una gráfica de barras se
hacen las siguientes sugerencias:
1. Las barras deben construirse horizontalmente.
30

2. Todas las barras deben tener el mismo ancho.


3. Los espacios entre las barras deben variar entre la mitad del ancho de una
barra hasta el ancho de una barra.
4. Las escalas y guías son auxiliares útiles en la lectura de una gráfica y
deben incluirse.

DIAGRAMA HORIZONTAL

sin empleo

t. parcial

t. completo

0 10 20 30 40 50 60
personas

DIAGRAMA DE PASTEL
Son utilizados en aquellos casos donde nos interesa no sólo mostrar el número de
veces que se da una característica o atributo de manera tabular sino más bien de
manera gráfica, de tal manera que se pueda visualizar mejor la proporción en
que aparece esa característica respecto del total.

Gráfico circular en que los 360 grados se equivalen al 100%

Muestran la cantidad de datos que pertenecen a cada categoría como una parte
proporcional de un círculo.
31

Ejemplo 1.
Tabla de clasificación laboral.

DIAGRAMA DE PASTEL

Ejemplo 2.
Calificación del bienestar universitario.
Con el fin de obtener una medición del servicio en una universidad desde el punto
de vista del estudiante se diseñó una encuesta de opinión. La encuesta fue de
carácter voluntario, y se diseñó para ser diligenciada una única vez por cada
estudiante.
Una de las preguntas de la encuesta fue:
Califique de 1 a 5 su nivel de satisfacción con el proceso como excelente (5),
bueno (4), regular (3), deficiente (2) y malo (1).
La calificación del servicio tuvo un promedio total de 3.94 sobre 5 entre todos los
4781 estudiantes que respondieron la encuesta. El promedio, según el año de
ingreso de los estudiantes, se comportó como se muestra en la siguiente tabla.
32

Calificación por año de ingreso del estudiante


Año 1995 1996 1997 1998 1999 2000 2001 2002 2003 Total
# estudiantes 78 70 230 533 648 726 833 1053 610 4781
Promedio 4,27 4,04 4,24 4,12 3,99 4,06 3,84 3,73 3,93 3,94

Si se observa en términos generales, la calificación más alta la dieron los


estudiantes más antiguos, mientras que la más baja la dieron estudiantes
"recientes”.
Al calificar el servicio como excelente (5), bueno (4), regular (3), deficiente (2) y
malo (1), el diagrama circular fue:

DIAGRAMA DE PARETO

Es un diagrama especial de barras verticales en las que las respuestas


categorizadas se grafican en el orden de rango descendiente de sus frecuencias y
se combina con un polígono acumulado en la misma escala.
Los problemas de calidad se presentan como pérdidas. Es muy importante
determinar el patrón de la distribución de la pérdida. La mayoría de las pérdidas se
deben a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un
número muy pequeño de causas.
33

Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi
todas las pérdidas, concentrándonos en esas causas particulares y dejando de lado
por el momento otros muchos defectos triviales. El uso del diagrama de Pareto
permite solucionar este tipo de problemas con eficiencia.

Los diagramas de Pareto expresan, por lo general, 80/20: el 80% de todos los
problemas son debidos al 20% de las causas.

Ejemplo.

El supervisor de una factoría diseña una tabla para registrar el tipo de defecto en un
producto manufacturado.

Tipo de Número de Total Composición Porcentaje


Defecto Defectos Acumulado Porcentual Acumulado
Tensión 104 104 52 52
Rayado 42 146 21 73
Burbuja 20 166 10 83
Otros 14 180 7 90
Fractura 10 190 5 95
Mancha 6 196 3 98
Rajadura 4 200 2 100
Total 200 - 100 -
34

4.4. TABULACIÓN DE DATOS CATEGÓRICOS BIVARIADOS


TABLA DE CONTINGENCIA.

Es útil cuando se desea examinar cómo se relacionan dos variables categóricas


simultáneamente. Su presentación se realiza mediante una tabla de clasificación
cruzada de los resultados denominada tabla de contingencia.
Se podría establecer si hay relación entre el Sexo del entrevistado y su opinión
con respecto a una ley del Gobierno.
Se podrían comparar los estudiantes (por programa) según el tipo de colegio de
donde proceden

Ejemplo.

Consultados 20 profesionales sobre su ocupación actual se obtuvieron los datos


dados en la tabla siguiente. Hacer un análisis y sacar conclusiones.

PROFESION OCUPACION PROFESION OCUPACION


economista empleado economista desempleado
administrador subempleado administrador subempleado
contador desempleado contador empleado
administrador empleado administrador empleado
ingeniero empleado ingeniero subempleado
contador subempleado contador desempleado
economista subempleado economista empleado
ingeniero desempleado contador empleado
ingeniero subempleado ingeniero empleado
administrador desempleado economista subempleado

Por Excel, se obtiene la tabla de contingencias siguiente:

Ocupación
Profesión desempleado empleado subempleado Total general
administrador 1 2 2 5
contador 2 2 1 5
economista 1 2 2 5
ingeniero 1 2 2 5
Total general 5 8 7 20
35

CAPITULO 5

MEDIDAS DESCRIPTIVAS

OBJETIVOS DEL CAPÍTULO


 Desarrollar las medidas de posición central, medidas de posición no central,
medidas de dispersión y medidas de forma.
 Determinar cuando aplicar cada una de tales medidas.

5.1. INTRODUCCIÓN.
Si se dispone de varias series estadísticas, es importante hacer un estudio y
comparación entre ellas .En tal caso, además de la presentación tabular y gráfica,
es necesario obtener indicadores de cada una de las características que nos
proporcionen información sobre los valores de cada serie y así hacer un análisis
más significativo.
Se obtendrán medidas descriptivas a partir de una muestra de n datos
denominadas estadísticas y no de toda la población.

5.2. MEDIDAS DE POSICIÓN CENTRAL

Las medidas de posición central nos facilitan información sobre la serie de


datos que estamos analizando. Estas medidas permiten conocer diversas
características de la serie.
LA MEDIA. Se pueden calcular diversos tipos de media, siendo las más
utilizadas:
 MEDIA ARITMÉTICA.

Es un promedio que representa el valor central de una distribución de frecuencia.


Si la serie es simple (cada valor de la variable se repite sólo una vez), para calcular
la media aritmética, se suman los n datos y luego se divide por el total (n).
36

Ejemplo.
Se obtienen datos sobre las notas correspondientes a seis estudiantes de un curso.
Determine la media aritmética.

Nota (Xi)
4.0
3.0 18.9
2.5 X   3.15
2.7 6
3.6
3.1

Si se tiene una serie de frecuencia (cada valor de la variable se repite más de una
vez), la media aritmética, denominada media aritmética ponderada, se calcula
multiplicando cada valor por el número de veces que se repite. La suma de todos
estos productos se divide por el total de datos de la muestra.

(X1 * n1) + (X2 * n2) + (X3 * n3) +...+ (Xn * nn)


X = --------------------------------------------------------------------------
n

n
 Xi * ni
X  i 1
n
Ejemplo.
Se obtienen datos sobre las notas correspondientes a 17 estudiantes de un
curso .Determine la media aritmética.

Notas (Xi) ni Xini


4.0 4 16.0
3.0 4 12.0
2.5 3 7.5 53.9
2.7 3 8.1 X   316
.
3.6 2 7.2 17
3.1 1 3.1
17 53.9
37

Calculo de La Media aritmética Cuando La Variable ha sido agrupada en


Intervalos.

 (Marcasdeclase)n i
X  i 1

Ejemplo:
Precio Acciones ni M de C MdeC* ni
5.08 - 5.12 60 5.10 306.00
5.12 - 5.16 86 5.14 442.04
5.16 - 5.20 105 5.18 543.90
5.20 - 5.24 119 5.22 621.18
5.24 - 5.28 83 5.26 436.58
5.28 - 5.32 67 5.30 355.10
520 2704.80

2704.80
X 
520
 5.20

Propiedades de La Media Aritmética.

1. mK   K , donde K es una constante.


2. mKX   Km X   KX , donde X es una variable.
3. m X  K   m X   K  X  K
n
4.  ( Xi  X )  0 → Si la serie es simple
i0
n
5.  ( Xi  X )ni  0 → Si es una Serie de frecuencia
i0

La media aritmética de una serie de datos, es más representativa cuanta mayor


concentración presenten al rededor suyo los valores promediados.
38

 MEDIA GEOMÉTRICA: Se eleva cada valor al número de veces que


se ha repetido. Se multiplican todo estos resultados y al producto
final se le calcula la raíz "n" (siendo "n" el total de datos de la
muestra).
La Media Geométrica denotada por “G” responde a la siguiente
expresión:

G n
x1n1 x2n2 x3n3 ...... xknk
La Media Geométrica también se puede representar como:
1
G  ( x 1n1 x 2n2 x 3n3 ....... x knk ) n
Se pueden utilizar los logaritmos:

1 n lg xi
lg G  (n1 lg x1  n2 lg x2  n3 lg x3  ......  nk lg xk )   i
n n
ni lg xi
G = antilogaritmo  n
La media geométrica es la media aritmética de los logaritmos de los valores de la
variable. El problema se presenta cuando algún valor es 0 ó negativo.
Sólo es relevante la media geométrica si todos los números son positivos. Si uno
de ellos es 0, entonces el resultado es 0.

Ejemplo:
Hallar la Media Geométrica de la siguiente distribución:

xi ni
100 10
120 5
125 4
140 3
n = 22

Solución:
39

lg G 
 n i lg x i
n

Es necesario ampliar la tabla así:

Xi ni Log xi ni Log xi
100 10 Log 100 = 2 20
120 5 Log 120 = 2.079 10,396
125 4 Log 125 = 2.097 8,387
140 3 Log 140 = 2.146 6,438
n = 22 45.221

lg G 
 n i lg x i 
45,221
 2,056
n 22

G = antiLog. 2,0555 = 113,632


Observaciones:
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de
interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores. En todo caso, la media
aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los
valores de la serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la
media aritmética como geométrica) se puede ver muy influido por valores
extremos, que se aparten en exceso del resto de la serie. Estos valores
anómalos podrían condicionar en gran medida el valor de la media,
perdiendo ésta representatividad.

LA MEDIANA.
La mediana es el valor central de la variable ordenada, es decir, supuesta la
muestra ordenada en orden creciente o decreciente, la me es el valor que divide
en dos partes la muestra.
40

Para calcular la mediana debemos tener en cuenta si la variable es discreta o


continua.

Cálculo de la mediana en el caso discreto:

Se tiene en cuenta el tamaño de la muestra(n).


Cuando n es impar.
Se ordenan los datos con respecto a la variable de menor a mayor y la mediana es
el valor central de la variable.
Cuando n es par.
Se ordenan los datos con respecto a la variable de menor a mayor y la mediana es
el promedio de los 2 valores centrales de la variable.

Ejemplo1.

Xi Xi me = 4
1 1 Quiere decir que un 50% de los datos está por
debajo de 4.
7 2
5 3
6 4
4 5
2 6
3 7

Ejemplo2.

Xi Xi
4 4
6 6
9 7 7 8
7
10
8
9 m  2  75
e .
8 10
41

Ejemplo 3. Si se tiene una serie de frecuencias:

Xi ni Xi ni
1 4 1 4
5 2 2 5
4 3 3 1 me = 2
3 1 4 3
2 5 5 2
n =15 n = 15

Ejemplo 4.

Xi ni Xi ni
4 3 2 3
5 2 3 4 4+4
3 4 4 3 me = --------- = 4
2 3 5 2 2
6 4 6 4
n =16 n = 16

Ejemplo 5.

1,4,6,7,8,9,12,16,20, 24,25,27 ; N=12 1,4,6,7,8,9,12,16,20, 24,25,27,30;


N=13

Términos Centrales el 6º y 7º que Término Central el 7º que corresponde al 12


corresponden a los valores 9 y 12

Me = (9+12)/2=10.5 Me=12

Cálculo de la mediana en el caso continúo:

Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de


la siguiente forma:
 Determinamos el intervalo que contiene la mediana.

Es el correspondiente a la primera Ni > (n/2).


42

 Posteriormente se aplica la fórmula:

(n / 2)  ( Ni  1)
me  Li  *a
ni
Donde:
Li : Límite inferior del intervalo que contiene la mediana.
ni : Frecuencia absoluta del intervalo que contiene la mediana.
Ni-1 : Frecuencia absoluta acumulada anterior a la del intervalo que contiene la
mediana
a : Amplitud del intervalo que contiene la mediana.

Ejemplo1.

Valor Acciones Acciones


Acciones vendidas acumuladas Ni
5.08-5.12 60 60
5.12-5.16 86 146
5.16-5.20 105 251
5.20-5.24 119 370
5.24-5.28 83 453
5.28-5.32 67 520
520

n 520
Clase Mediana =   260
2 2

Intervalo donde se encuentra la me es (5.20 - 5.24).


260  251
me  5.20  * 0.04  5.20
119
El 50% de las acciones vendidas tienen un valor menor de $ 5.20.
43

Ejemplo2.

Suponga que los pesos de un grupo de 50 personas se distribuyen de la siguiente


forma:

Li-1 Li ni Ni Como el tamaño de la muestra es n=50, buscamos el


intervalo en el que la Frecuencia acumulada es mayor que
45 55 6 6 50/2=25, que en este caso

55 65 10 16 es el (65-75).
Luego la Mediana será:
65 75 19 35

25  16
me  65  *10  69.74
75 85 11 46

85 95 4 50 19
Ventajas de La Mediana.
 La mediana no es afectada por los valores extremos.
 Se puede utilizar para datos categóricos cuando n es impar y si hay un orden
jerárquico.

LA MODA

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que


más se repite, es la única medida de centralización que tiene sentido estudiar en
una variable categórica, pues no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más
valores de la variable que tengan la misma frecuencia siendo esta máxima. En
cuyo caso tendremos una distribución bimodal o polimodal según el caso.
Cálculo de la moda en el caso continúo:

Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de


la siguiente forma:
 Determinamos el intervalo que contiene la moda.
Es el que presente mayor frecuencia absoluta
 Posteriormente se aplica la fórmula:

nr  n r  1
Mo  Li  *a
2 nr  nr  1  n r  1
nr: frecuencia absoluta del intervalo que contiene la Mo
44

Ejemplo: Suponga que los pesos de un grupo de 50 personas se distribuyen de la


siguiente forma:

Li-1 Li ni Ni El intervalo que tiene mayor frecuencia absoluta es (65-75)

45 55 6 6

55 65 10 16

19  10
65 75 19 35
Mo  65  *10  70.29
75 85 11 46 2 *19  11  10
85 95 4 50

Ventajas de La Moda.

- No es afectada por los valores extremos.


- Se puede utilizar para datos categóricos.

5.3. MEDIDAS DE LOCALIZACIÓN: CUARTILES, DECILES Y PERCENTILES.

Las medidas de localización dividen la distribución en partes iguales, sirven para


clasificar a un individuo o elemento dentro de una determinada población o
muestra.
CUARTILES

Medida de localización que divide la población o muestra en cuatro partes iguales.


 Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.
 Q2= Valor de la variable que deja a la izquierda el 50% de la distribución
= mediana.

 Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.


Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.

Caso I: Variable cuantitativa discreta:


 Se ordenan los valores de la variable de menor a mayor.
45

 El Qr es el valor de la variable correspondiente a la primera Ni > nr / 4


r = 1, 2,3

Caso II: Variable cuantitativa continúa:


Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de
la siguiente forma:
 Determinamos el intervalo que contiene el Qr.
Es el correspondiente a la primera Ni > nr / 4 , r = 1, 2,3

 Posteriormente se aplica la fórmula:

(nr / 4)  ( Ni  1)
Qr  Li  *a
ni

DECILES.

Medida de localización que divide la población o muestra en diez partes iguales.


Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.

Caso I: Variable cuantitativa discreta:

 Se ordenan los valores de la variable de menor a mayor.


 El Dr es el valor de la variable correspondiente a la primera Ni > nr / 10
r=1, 2,3,…9
Caso II: Variable cuantitativa continua:
Si la variable es continua, vendrá en intervalos, por lo que se calcula de la
siguiente forma:

 Determinamos el intervalo que contiene el Dr.


Es el correspondiente a la primera Ni > nr / 10 , r=1, 2,3,…9

 Posteriormente se aplica la fórmula:


46

(nr / 10)  ( Ni  1)
Dr  Li  *a
ni
PERCENTILES.
Medida de localización que divide la población o muestra en cien partes iguales.
Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.
Caso I: Variable cuantitativa discreta:

- Se ordenan los valores de la variable de menor a mayor.


- El Pr es el valor de la variable correspondiente a la primera Ni > nr / 100
r=1, 2,3,…99
Caso II: Variable cuantitativa continua:
Si la variable es continua, vendrá en intervalos, por lo que se calcula de la
siguiente forma:
 Determinamos el intervalo que contiene el Pr.
Es el correspondiente a la primera Ni > nr / 100 , r=1, 2,3,…99

 Posteriormente se aplica la fórmula:

( nr / 100)  ( Ni  1)
Pr  Li  *a
ni

Ejemplo 1.

Considerar el salario diario de 6 personas en miles de pesos.


Determinar:

a. El tercer cuartil. b. El decil quinto. c. El percentil cincuenta.


47

Solución:
a.
Xi Ni Q3: (n*3)/4 = (6*3)/4 = 4.5; primera Ni >4.5=5
3 1 Luego Q3 = 14
5 2 El 75% de los trabajadores ganan menos de $
9 3 14000 diarios.
11 4 b.
14 5 D5: (n*5)/10 = (6*5)/10 = 3; primera Ni >3=4
16 6 Luego D5 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.
c.
P50: (n*50)/100 = (6*50)/100 = 3; primera Ni >3=4
Luego P50 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.

Ejemplo 2.

Considerar el salario diario de 15 personas en miles de pesos.

Determinar:

a. La mediana. b. El cuartil segundo. c. El decil quinto. d. El percentil cincuenta.

Solución: a. me = 6
Xi ni Ni
4 3 3 b. Q2 : (15*2)/4 = 7.5 ; primera Ni >7.5=9
5 4 7 Luego Q2 = 6
6 2 9
7 5 14 c. D5 : (15*5)/10 = 7.5 ; primera Ni >7.5=9
9 1 15 Luego D5 = 6
n = 15
d. P50 : (15*50)/100 = 7.5 ; primera Ni >7.5=9
Luego P50 = 6

Me = Q2 = D5 = P50
48

Ejemplo 3.

Suponga que los pesos de un grupo de 50 personas se distribuyen de la siguiente


forma:

Li Ls ni Ni
45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Calcular: Q1, Q3, D3, y P45


Solución:

Q1: (n*1)/4 = (50*1)/4 = 12.5; primera Ni >12.5=16


Luego el intervalo que contiene el Q1 es (55-65)

(12.5)  6
Q1  55  *10  61.5
10
Q3: (n*3)/4 = (50*3)/4 = 37.5; primera Ni >37.5=46

Luego el intervalo que contiene el Q3 es (75-85)

(37.5)  (35)
Q3  75  *10  77.27
11
D3: (n*3)/10 = (50*3)/10 = 15; primera Ni >15=16
Luego el intervalo que contiene el D3 es (55-65)
49

(15)  (6)
D3  55  *10  64
10

P45: (n*45)/100 = (50*45)/100 = 22.5; primera Ni >22.5=35


El intervalo que contiene el P45 es (65-75)

(22.5)  (16)
P45  65  *10  68.421
19
5.4. MEDIDAS DE DISPERSIÓN O VARIABILIDAD

De todas las medidas de posición estudiadas, es la media aritmética, la más


utilizada en la práctica. Pero no siempre su empleo es correcto, por causa de su
posible falta de representatividad, debido a la excesiva dispersión de los valores de
la variable a su alrededor.
Será más representativa la media aritmética de una variable, cuanta mayor
concentración presenten alrededor suyo los valores promedios.

Resulta necesario para completar la información que pueda deducirse de la media


aritmética y para evitar falsas conclusiones e interpretaciones acompañar este
promedio con un coeficiente que nos mida el grado de dispersión de la distribución
de la variable.

Las medidas de dispersión indican el grado de dispersión o de variabilidad de los


valores de la variable con respecto a una medida de posición. También me indican
el error que se comete o se va a cometer al tomar una determinada medida de
posición.

 AMPLITUD O RANGO

Se obtiene restando el valor mas bajo del más alto en un conjunto de


observaciones. La amplitud tiene la ventaja de que es fácil de calcular y sus
unidades son las mismas que las de la variable que se mide. La amplitud no
toma en consideración el número de observaciones de la muestra
estadística, sino solamente la observación del valor máximo y la del valor
50

mínimo. Sería deseable utilizar también los valores intermedios del conjunto
de observaciones.

R = Xn - X1

 RANGO INTERCUARTIL.

Es el valor correspondiente al cuartil tercero menos el cuartil primero.

RIC = Q3 - Q1

 DESVIACIÓN MEDIA

Esta medida es más acorde que la de amplitud, ya que involucra a todos los
valores del conjunto de observaciones corrigiendo la desviación. Una medida
como ésta tiene la ventaja de que utiliza cada observación y corrige la
variación en el número de observaciones al hacer la división final. Y por
último también se expresa en las mismas unidades que las observaciones
mismas.

 LA VARIANZA.

Se define como la media aritmética de los cuadrados de las diferencias de los


valores de la variable con respecto a su media.

Cálculo de la varianza muestral

En una Serie Simple:


51

 ( Xi  X ) 2

s 2
 i 1
n 1

En una Serie de Frecuencia:

 ( Xi  X ) n 2
i

s 2
 i 1
n 1
Ejemplo 1. Considere una variable cuyos datos son: 5, 4,[Link] la varianza.

Xi (Xi - X )² X =5
5 0
4 1 s² = (2/2) = 1
6 1
2

Ejemplo 2. Considere las notas de 5 estudiantes. Determine la varianza.

Xi
4
ni
2
Xini
8
(Xi - X )²ni
0.08
 Xini 19
5 1 5 1.44 X    3.8
n 5
 4   0.7
3 2 6 1.28
5 19 2.80
s 2
 2.8

Otra Fórmula de cálculo de la varianza:


52

(X  X ) ni
2
i

s 2
 i 1

n 1
n

(X i
2
 X 2  2 XiX )ni
s 2
 i 1

n 1
n

X i
2
ni  nX 2  2nX 2
s 2
 i 1

n 1
n

X i
2
ni  nX 2
s 2
 i 1

n 1
Propiedades de La Varianza.

1. V (K) = 0 K: ES UNA CONSTANTE


2. V (KX) = K² V(X) = K² s²x X : ES UNA VARIABLE
3. V(X ± K) = V(X)
Calculo de La Varianza cuando La Variable esta Agrupada en intervalos

En éste caso se toma como Xi las marcas de clase y se procede de igual forma.

La fórmula para calcular la varianza tiene una desventaja, y es que sus unidades
no son las mismas que las de las observaciones, ya que son unidades cuadradas.

Esta dificultad se soluciona, tomando la raíz cuadrada .Esto da lugar a otra


medida:

 DESVIACIÓN E STANDARD O TÍPICA.

Es la raíz cuadrada de la varianza.


53

Si la serie es simple:

Entonces en este caso la unidad es la misma que la del conjunto de


observaciones de la muestra estadística.

Ejemplo:

Considerando el ejercicio anterior, calcular la desviación típica.

s = 0.7 = 0.836

Mientras más pequeña sea la desviación estándar más representativa será la media
aritmética.

 COEFICIENTE DE VARIACIÓN O DISPERSION RELATIVA.

Mide el error con respecto a la media, pero en términos de porcentaje.


s
C.V    *100
X
Ejemplo.
X 4
Xi (Xi- X )²  
S2  2  1
2
4 0
3 1 S 1
5 1
2  
C.V .  1 * 100  25%
4

5.5 MEDIDAS DE FORMA.

Una propiedad importante de una serie de datos es su forma, o sea la manera en


que los datos se distribuyen. Las medidas de forma permiten conocer que forma
tiene la curva que representa la serie de datos de la muestra.

En concreto, podemos estudiar las siguientes características de la curva:


54

a) Concentración: mide si los valores de la variable están más o menos


uniformemente repartidos a lo largo de la muestra.
b) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al
centro de la misma (centro de simetría) los segmentos de curva que quedan a
derecha e izquierda son similares.
c) Curtosis: mide si los valores de la distribución están más o menos
concentrados alrededor de los valores medios de la muestra.
a) Concentración

Para medir el nivel de concentración de una distribución de frecuencia se pueden


utilizar distintos indicadores, entre ellos el Índice de Gini.

Este índice se calcula aplicando la siguiente fórmula:

Σ (pi - qi)
IG = ----------------------------

Σ pi

(i toma valores entre 1 y n-1)

En donde pi mide el porcentaje de individuos de la muestra que presentan un


valor igual o inferior al de XI. Cada pi es la frecuencia relativa acumulada (Hi).

n1 + n2 + n3 + ... + ni

pi = ---------------------------- x 100

Mientras que qi se calcula aplicando la siguiente fórmula:

(X1*n1) + (X2*n2) + ... + (Xi*ni)

qi = -------------------------------------------- x 100

(X1*n1) + (X2*n2) + ... + (Xn*nn)

El Índice Gini (IG) puede tomar valores entre 0 y 1:


55

IG = 0: concentración mínima. La muestra está uniformemente repartida a lo largo


de todo su rango.
IG = 1: concentración máxima. Un sólo valor de la muestra acumula el 100% de
los resultados.
Ejemplo 1: Calcular el Índice Gini de una serie de datos con los sueldos de los
empleados de una empresa (millones de pesos).
Empleados (Frecuencias
Sueldos Frecuencias relativas
absolutas)
(Millones) Simple Acumulada Simple Acumulada
x x x x x
3,5 10 10 25,0% 25,0%
4,5 12 22 30,0% 55,0%
6,0 8 30 20,0% 75,0%
8,0 5 35 12,5% 87,5%
10,0 3 38 7,5% 95,0%
15,0 1 39 2,5% 97,5%
25.0 1 40 2,5% 100,0%
Calculo de los valores que se requieren para aplicar la fórmula del Índice de Gini:
Hi=
Xi ni Ni Xi * ni Σ(Xi * ni) qi pi - qi
pi
x x x x x x x x
3,5 10 10 25,0 35,0 35,0 (35/257)*100=13,6 11.4

4,5 12 22 55,0 54,0 89,0 (89/257)*100 =34,6 20.4


6,0 8 30 75,0 48,0 147,0 (147/257)*100=57,2 17.8
8,0 5 35 87,5 40,0 187,0 (187/257)*100=72,8 14.7
10,0 3 38 95,0 30,0 217,0 (217/257)*100=84,4 10.6
15,0 1 39 97,5 15,0 232,0 232/257)*100=90,3 7.2
25,0 1 40 100,0 25,0 257,0 (257/257)*100=100,0 0
x x x x x x x x
Σ pi (entre 1 y n-1) = 435,0 x Σ (pi - qi) (entre 1 y n-1 ) = 82.1

Por lo tanto:

IG = 82.1 / 435,0 = 0,19


56

Un Índice Gini de 0,19 indica que la muestra está bastante uniformemente


repartida, es decir, su nivel de concentración no es excesivamente alto.
Ejemplo 2: Analizar nuevamente la muestra anterior, pero considerando que hay
más personal de la empresa que cobra el sueldo máximo, lo que conlleva mayor
concentración de renta en unas pocas personas.
Empleados (Frecuencias
Sueldos Frecuencias relativas
absolutas)
(Millones) Simple Acumulada Simple Acumulada
x x x x x
3,5 10 10 25,0% 25,0%
4,5 10 20 25,0% 50,0%
6,0 8 28 20,0% 70,0%
8,0 5 33 12,5% 82,5%
10,0 3 36 7,5% 90,0%
15,0 0 36 0,0% 90,0%
25.0 4 40 10,0% 100,0%
En este caso obtendríamos los siguientes datos:

Xi ni Ni Hi= pi Xi * ni Σ Xi * ni qi pi - qi
x x x x x x x x
3,5 10 10 25,0 35 35 11,7 13,3

4,5 10 20 50,0 45 80 26,8 23,2


6,0 8 28
70,0 48 128 43,0 27.0
8,0 5 33
82,5 40 168 56,4 26,1
10,0 3 36
90,0 30 198 66,4 23,6
15,0 0 36
90,0 0 198 66,4 23,6
25,0 4 40
100,0 100 298 100,0 0,00
x x x x x x x x
Σ pi (entre 1 y n-1) = 407,5 x Σ (pi - qi) (entre 1 y n-1 ) = 136,8
El Índice Gini sería:

IG = 136,8 / 407,5 = 0,34


57

El Índice Gini se ha elevado considerablemente, reflejando la mayor concentración


de rentas que hemos comentado.

b) Asimetría Para describir la forma sólo necesitamos comparar la media y la


mediana. Si estas dos mediciones son iguales, por lo general podemos considerar
que los datos son simétricos. Si la media excede a la mediana, los datos pueden
describirse de sesgo positivo o sesgado a la derecha. Si la media es menor que la
mediana, estos datos pueden llamarse de sesgos negativos o sesgados a la
izquierda.
El Coeficiente de Asimetría índica la forma en que los datos se distribuyen. Nos
dice si la distribución es simétrica o no.



3 X  Me 
Coeficiente de asimetria Muestral s
 Si es igual a cero indica que los datos se distribuyen en forma simétrica
(Media igual a la Mediana).
 Si es mayor que cero se dice los datos se distribuyen en forma asimétrica
positiva o sesgada a la derecha. (Media mayor a Mediana).
 Si es menor que cero se dice que los datos se distribuyen en forma asimétrica
negativa o sesgada a la izquierda. (Media menor a Mediana).

c) Curtosis

El Coeficiente de Curtosis analiza el grado de concentración que presentan los


valores alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
58

Distribución mesocúrtica: presenta un grado de concentración medio alrededor


de los valores centrales de la variable (el mismo que presenta una distribución
normal).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor
de los valores centrales de la variable.

g
Teniendo en cuenta que 2 vale 3 para una distribución normal tipificada se
acostumbra calcular el Coeficiente de Curtosis con la fórmula:

(1 / n) ( X i  X ) 4 ni
g2  4
3
S
Los resultados pueden ser los siguientes:

g2 = 0 para la curva normal tipificada (distribución mesocúrtica).

g2 > 0 en las curvas leptocúrticas (distribución leptocúrtica).

g2 < 0 en las curvas platocúrticas (distribución platicúrtica).

Ejemplo: Calcular el Coefiente de Curtosis de la serie de datos referidos a la


estatura de un grupo de alumnos:
59

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
x x x x x

1,20 1 1 3,3% 3,3%


1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

La media de esta muestra es 1,253

(1/30) * 0,00004967

- 3 = -1,39
g2 = ---------------------------------------

((1/30) * (0,03046667))^2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que


quiere decir que se trata de una distribución platicúrtica, es decir, con una
reducida concentración alrededor de los valores centrales de la distribución.

5.6. ANALISIS EXPLORATORIO DE DATOS

Uno de los enfoques del análisis exploratorio de datos es presentar un resumen de


los cinco números y construir un diagrama de caja y sesgos.

RESUMEN DE LOS CINCO NÚMEROS.

El resumen de cinco números consiste en


60

X min Q 1 Mediana Q 3
X max

DIAGRAMA DE CAJA Y SESGOS

Permite tener una idea visual de la distribución de los datos. O sea, determinar si
hay simetría, ver el grado de variabilidad existente y finalmente detectar
“outliers”.
Es una representación gráfica de los datos mediante el resumen de los cinco
números.

Gráfico 1

Distribución Simétrica

Distribución Sesgada a la Izquierda Distribución Sesgada a la Derecha

La caja contiene el 50% de las observaciones en medio de la distribución. El 25%


inferior y el 25% superior representado por las líneas punteadas.

Los gráficos de caja muestran los valores atípicos de la variable. Llamaremos


valores atípicos de la variable a aquellos que están tan apartados del cuerpo
principal de los datos que bien pueden representar los efectos de causas extrañas,
como algún error de medición o registro. Su eliminación no se justifica, ya que el
propósito del gráfico de caja consiste en brindarnos un mayor conocimiento de la
forma en que se distribuyen los datos.

Tukey (citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de
los [Link] esto calcula 4 barreras, dos interiores y dos exteriores:

Barrera interior inferior=Primer cuartil – 1,5 RIC


Barrera interior superior=Tercer cuartil + 1,5 RIC
Barrera exterior inferior=Primer cuartil – 3 RIC
Barrera exterior superior=Tercer cuartil + 3 RIC
61

Si se consideran los valores de la variable comprendidos entre las dos barreras


interiores, el valor mínimo de la variable y el valor máximo son los extremos
de los bigotes.

Si existen valores de la variable comprendidos entre las barreras interiores y

exteriores se consideran valores atípicos y se indican con *


Si existieren valores fuera de las barreras exteriores se consideran valores todavía

más atípicos y se indican con ·


Por otra parte, este tipo de gráfico nos proporciona información con respecto a la
simetría o asimetría de la distribución. Se utilizan los siguientes criterios: si la
mediana está en el centro de la caja o cerca de él, constituye un indicio de
simetría de los datos, si la mediana está considerablemente más cerca del primer
cuartil indica que los datos son positivamente asimétricos y si está más cerca del
tercer cuartil, señala que los datos son negativamente asimétricos. Asimismo, la
longitud relativa de los bigotes se puede emplear como un indicio de su asimetría.
Ejemplo.

Suponga que el rendimiento de las inversiones de 21 compañías al término de un


año en cierto ramo de la industria es:

-24,6 2,6 2,4 2,7 3,8 5,6 5,9

6,7 7,0 7,2 7,5 8,0 8,2 8,5

8,6 8,8 9,0 9,2 9,7 10,0 20,5

Trace un diagrama de caja para estos datos, señalando valores atípicos.


Solución

En base a los datos obtenemos que:


Mediana: 7,5

Cuartil 1: 5,6
62

Cuartil 3: 8,8
RIC: 3,2
Las barreras son:
Barrera exterior inferior=Q1 - 3.0 RIC=5,6 - 3.0 (3,2)=-4,0
Barrera exterior superior=Q3 + 3.0 RIC=8,8 + 3.0 (3,2)=18,4
Barrera interior inferior=Q1 - 1.5 RIC=5,6 - 1.5 (3,2)=0,8

Barrera interior superior=Q3 + 1.5 RIC=8,8 + 1.5 (3,2)=13,6


La prueba de las barreras identifica dos valores atípicos importantes, -24,6 y 20,5
y un posible valor atípico, -2,6. (Una gráfica de los datos indica que los valores
atípicos importantes son obviamente valores extremos y que el valor dudoso
queda posiblemente excluido).
El gráfico de caja para este problema es el siguiente:

Gráfico 2

Rendimiento de Inversiones

-25 -20 -15 -10 -5 0 5 10 15 20 25


RELACIÓN GRÁFICA ENTRE LAS MEDIDAS DE POSICIÓN CENTRAL,
rendimiento

Los diagramas de caja son de gran utilidad en las comparaciones gráficas de


conjuntos de datos, ya que tienen impacto visual y son fáciles de entender.
63

RELACIÓN GRÁFICA ENTRE LAS MEDIDAS DE POSICIÓN CENTRAL,


LAS MEDIDAS DE LOCALIZACIÓN Y DIAGRAMAS DE CAJA Y SESGOS
Ejercicio

El precio de un interruptor magentotérmico en 10 comercios de electricidad de una


ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda,
mediana, diagrama de barras y el diagrama de caja.
SOLUCIÓN:

[El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido]
64

CAPITULO 6.
MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES NUMÉRICAS

OBJETIVOS DEL CAPÍTULO


 Determinar si las dos variables están relacionadas, es decir si los valores
de una variable tienden a ser más altos o más bajos para valores más altos
o más bajos de la otra variable.

 Valorar el nivel de concordancia entre los valores de las dos variables.


6.1. DEFINICIÓN Y REPRESENTACIÓN GRÁFICA

Las estadísticas de dos variables resultan de observar conjuntamente dos


caracteres de los elementos que componen un colectivo ó una muestra.
Las parejas de valores observados se dispondrán en dos columnas, una para los
valores de X y otra para los valores de Y.

Cuando las parejas de valores (X, Y) presentan repeticiones o frecuencias se


acostumbra disponer los resultados en una tabla de doble entrada constituida de
la siguiente manera:

Yj
Xi y1 • • • yj • • • ys TOTAL

x1 n11 • • • n1j • • • n1s n1•


• • • • • • •
• • • • • • •
• • • • • • •
xi ni1 • • • nij • • • nis ni•
• • • • • • •
• • • • • • •
• • • • • • •
xr nr1 • • • nrj • • • nrs nr•
TOTAL n•1 • • • n•j • • • n•s n
65

nij : Número de elementos en la muestra con las características Xi y Yj.

ni• =  nij : Número de elementos en la muestra con la característica Xi.


j

n•j =  nij : Número de elementos en la muestra con la característica Yj.


i

Los valores de las variables X y Y que aparecen en la tabla de doble entrada


pueden ser singulares o por intervalos.

Tal como se puede ver, en cada casilla se recoge el número de veces que se
presenta conjuntamente cada par de valores (x, y).
Al analizar una distribución bidimensional, uno puede centrar su estudio en el
comportamiento de una de las variables, con independencia de como se comporta
la otra. Estaríamos así en el análisis de una distribución marginal.

Luego de cada distribución bidimensional se pueden deducir dos distribuciones


marginales: una correspondiente a la variable X, y otra correspondiente a la
variable Y.

Distribución marginal de X
X ni.
x1 n1.
x2 n2.
..... ...
x r-1 n r-1.
xr n r.

Distribución marginal de Y
Y n.j
y1 n.1
y2 n.2
..... ...
ys-1 n.s-1
ys n.s
66

Ejemplo: Al considerar el peso y la estatura de los alumnos de una clase se


obtuvieron los siguientes resultados:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso


1 1,25 32 11 1,25 31 21 1,25 33
2 1,28 33 12 1,28 35 22 1,28 32
3 1,27 31 13 1,27 34 23 1,27 34
4 1,21 34 14 1,21 33 24 1,21 34
5 1,22 32 15 1,22 33 25 1,22 35
6 1,29 31 16 1,29 31 26 1,29 31
7 1,30 34 17 1,30 35 27 1,30 34
8 1,24 32 18 1,24 32 28 1,24 33
9 1,27 32 19 1,27 31 29 1,27 35
10 1,29 35 20 1,29 33 30 1,29 34

Esta información se puede representar de un modo más organizado en la


siguiente tabla de doble entrada:

Estatura / Peso 31 Kg 32 kg 33 kg 34 kg 35 kg
1,21 cm 0 0 1 2 0
1,22 cm 0 1 1 0 1
1,23 cm 0 0 0 0 0
1,24 cm 0 2 1 0 0
1,25 cm 1 1 1 0 0
1,26 cm 0 0 0 0 0
1,27 cm 2 1 0 2 1
1,28 cm 0 1 1 0 1
1,29 cm 3 0 1 1 1
1,30 cm 0 0 0 2 1

Las variables marginales se comportan como variables unidimensionales, por lo


que pueden ser representadas en tablas de frecuencias.
67

La distribución marginal de la variable X (estatura) está dada por:

Variable Frecuencias absolutas Frecuencias relativas


(Estatura) Simple Acumulada Simple Acumulada
1,21 3 3 10,0% 10,0%
1,22 3 6 10,0% 20,0%
1,23 0 6 0,0% 20,0%
1,24 3 9 10,0% 30,0%
1,25 3 12 10,0% 40,0%
1,26 0 12 0,0% 40,0%
1,27 6 18 20,0% 60,0%
1,28 3 21 10,0% 70,0%
1,29 6 27 20,0% 90,0%
1,30 3 30 10,0% 100,0%

La distribución marginal de la variable Y (peso) está dada por:

variable Frecuencias absolutas Frecuencias relativas


(Peso) Simple Acumulada Simple Acumulada
31 6 6 20,0% 20,0%
32 6 12 20,0% 40,0%
33 6 18 20,0% 60,0%
34 7 25 23,3% 83,3%
35 5 30 16,6% 100,0%

Cuando las parejas de valores (X, Y) no presentan repeticiones se acostumbra


disponer los resultados en un diagrama de dispersión ó nube de puntos,
tomándose los valores de la variable X en el eje de las abscisas y los de la
variable Y en el eje de las ordenadas y señalándose la confluencia en el plano
con un punto.
Ejemplo: AL ser consideradas las ventas (millones de $) y el número de
comerciales se tiene el diagrama de dispersión dado en el gráfico siguiente:
68

Semana Comerciales Ventas

1 2 50

2 5 57

3 1 41

4 3 54

5 4 54

6 1 38

7 5 63

8 3 48

9 4 59

10 2 46

6.2. COVARIANZA Y CORRELACIÓN

En ocasiones, quien toma las decisiones, le interesa saber la relación entre dos
variables. En tales condiciones se hace necesario conocer los conceptos de
covarianza y correlación como medidas de relación entre las dos variables.

LA COVARIANZA.

Es una medida estadística del grado en que dos variables varían juntas. Por
ejemplo: medir el grado de relación entre los rendimientos de un título valor y los
rendimientos del mercado.
69

Covarianza de la muestra

Para una muestra de n pares de valores (x1, y1), (x2, y2),…, (xn, yn), la covarianza
de la muestra se define como:

 x  x y  y 
n

t t t t

s  t 1
xy
n 1
Resolviendo la sumatoria y simplificando, se obtiene otra manera de hallar la
covarianza, dada por:

 xt y  n x y t

s 
xy n 1
Interpretación:

Un valor positivo de Sxy significa que ambas variables se mueven en la misma


dirección, y un valor negativo de Sxy significa que las variables se mueven en
direcciones contrarias.

NOTA: El inconveniente de la covarianza, como medida de asociación es su


dependencia de las unidades. Habrá que definir una nueva medida, que no está
afectada por los cambios en las unidades de medida. Esta medida será el
coeficiente de correlación lineal rxy.

CORRELACIÓN

Mide el grado de correlación lineal entre las variables. Nos muestra efectivamente
qué relación existe entre las variables.

Coeficiente de Correlación Lineal Muestral.


70


S xy
r xy
SS
x y
Donde;
rxy : Coeficiente de correlación lineal muestral.
Sxy : covarianza de la muestra
Sx : desviación estándar muestral de X
Sy : desviación estándar muestral de Y

Interpretación:
Si rxy tiende a 1, quiere decir que existe correlación lineal alta y directa entre las
variables.
Si rxy tiende a -1, quiere decir que existe correlación lineal alta e inversa entre las
variables.
Si rxy = 0, quiere decir que no existe correlación lineal entre las variables.

Nota: Cuando las variables X e Y son independientes, Sxy =0, y por tanto rxy =0.
No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen
covarianza cero, no podemos decir que son independientes. Sabemos que
linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser
independientes.

EJEMPLO: Consultadas 10 personas sobre su ingreso y gasto semanal (en miles


de $ ambas variables) se tiene:

ingreso(X) gasto(Y) X*Y X2 (X- X ) (X- X )2 (Y- Y ) (Y- Y )2 (X- X ) (Y- Y )


80 70 5600 6400 -90 8100 -41 1681 3690
100 65 6500 10000 -70 4900 -46 2116 3220
120 90 10800 14400 -50 2500 -21 441 1050
140 95 13300 19600 -30 900 -16 256 480
160 110 17600 25600 -10 100 -1 1 10
180 115 20700 32400 10 100 4 16 40
200 120 24000 40000 30 900 9 81 270
220 140 30800 48400 50 2500 29 841 1450
240 155 37200 57600 70 4900 44 1936 3080
260 150 39000 67600 90 8100 39 1521 3510
∑ 1700 1110 205500 322000 0 33000 0 8890 16800
TABLA 1
S2Y=8890/9 Sx,y =16800/9=1866,66
X =1700/10=170
71

S2X=33000/9=3666,66 S2Y=987,77

SX = 3666.66 =60.55 SY =31,42 r = 1866,66/(60,55*31,42)=0,98

SXY =1866,66  Indica que las variables ingreso y gasto se mueven en la misma
dirección (al crecer el ingreso, crece el gasto).
r = 0,98  Indica que existe correlación lineal alta y directa entre el ingreso y el
gasto.
72

CAPITULO 7.

REGRESIÓN LINEAL SIMPLE

OBJETIVOS DEL CAPÍTULO


 Desarrollar el ajuste del modelo de regresión lineal simple.

 Predecir el valor de una variable dado un valor determinado de la otra


variable.

 Determinar el coeficiente de determinación y el error estándar de la


estimación.

7.1. INTRODUCCIÓN.

En muchas ocasiones las decisiones se basan en la relación entre dos o más


variables.
Ejemplos.
Se puede tener interés:

En la relación entre las ventas y la publicidad con el objeto de predecir las ventas
según la inversión en publicidad.
En la relación entre los rendimientos de un título valor y los rendimientos del
mercado con el objeto de predecir los rendimientos de dicho título.
En medir la relación entre las tasas de variación en el salario nominal y la tasa de
desempleo.
En medir la relación entre la demanda de un bien con relación al precio.
En medir la relación entre la demanda monetaria con relación a las tasas de
interés.

Para medir las anteriores relaciones se deben de considerar dos aspectos


importantes: El análisis de regresión y el análisis de correlación.

 Análisis de Regresión.

El análisis de regresión trata de la dependencia de una variable, la variable


dependiente o explicada, en función de otra, la variable independiente o
explicativa, con el objeto de estimar o predecir el valor medio de la variable
dependiente conocidos o fijados los valores de la variable independiente.
73

 Análisis de Correlación.

Determina la fuerza ó el grado de asociación lineal entre dos variables. En el


estudio de la correlación, la designación de la variable dependiente e
independiente es una elección puramente personal.

7.2. MODELO DE REGRESIÓN LINEAL SIMPLE


Es una ecuación que muestra cómo se relaciona la variable dependiente Y con la
variable independiente X.

Si la relación es lineal, la ecuación sería:

yt = 1+2 xt+ut

Donde: ut se llama "Termino de error o término de perturbación estocástico.

ut explica la variabilidad en Y que no se puede explicar con la relación Lineal


entre Y y X.
1 y 2se llaman coeficientes de regresión poblacional o parámetros del
modelo.

Se acostumbra utilizar el subíndice t cuando los datos están a través del tiempo y
el subíndice i cuando los datos son de corte transversal.

ECUACIÓN DE REGRESIÓN ESTIMADA

Como los valores de los parámetros del modelo no se conocen, en la práctica, se


deben estimar utilizando los datos de la muestra. Se calculan estadísticos de la
muestra (denotados por a y b) como estimados de los parámetros 1 y 2
74

respectivamente. Al sustituir los valores de los parámetros 1 y 2 por los


estimados a y b, obtenemos la ecuación de regresión estimada dada por:

ŷt = a + b xt

Donde: ŷ es el valor estimado de y para determinado valor de x.


La gráfica se llama línea de regresión estimada.

METODO DE LOS MÍNIMOS CUADRADOS

Consiste en minimizar la suma de los cuadrados de la diferencia entre los y y


Los ŷ.

Min Σ (y- ŷ) = Min Σ (y- a-bx)


2 2

Derivando parcialmente con respecto a a e igualando dicha derivada a cero se


obtiene:

 y  n a  b x
t t 

Derivando parcialmente con respecto a b e igualando dicha derivada a cero se


obtiene:

x y a x  b x
2
t t t 

 y  reciben el nombre de ECUACIONES NORMALES.


Se tiene un sistema de dos ecuaciones con dos incógnitas que al resolverlas
por determinantes (u otro método) se obtienen las fórmulas para a y b.
75

n y t


x t x y t t
b
n x t

x x
2
t t

n  x y  ( x ) y 
b
t t

n  x   x 
t t
2 2
t t

Otra manera de hallar b es dividir la covarianza (X, Y) por la varianza de la


variable X.
S xy
b= 2
Sx
Otra forma, sería conociendo el coeficiente de correlación lineal(r) así:
Sy
b= r
Sx
b mide el cambio en el valor medio de Y por cambio de una unidad en X.
Dividiendo la ecuación  por n se tiene:

Y  a b X , luego a Y b X

EJEMPLO: Utilizando los datos e información de la tabla 1 se tiene el siguiente


diagrama de dispersión:
76

Diagrama de dispersión

Observando el diagrama de dispersión se detecta que el modelo a ajustar es


lineal.

ŷt = a + b xt

S xy 1866.66
b = 2 = 3666.66 =0.509
Sx
a Y b X = 111-0.509*170=24.47

ŷt = 24.47 + 0.509 xt

a=24.47  Es el intercepto de la línea e indica que, el gasto promedio es de


24470$ Semanales cuando el ingreso es cero.
b= 0.509  Es la pendiente de la línea e indica que, un incremento de 1000$ en
el ingreso Conlleva, en promedio, a un incremento en el gasto de
509$.
77

Recta de regresión de Y sobre X [ y = a + b x+u]

En cada par de valores (X, Y) consideramos


que al valor observado Xi le corresponde un
valor observado o experimental Yj y otro
teórico que sería el que le correspondiera
en la recta como función. A la distancia entre
estos dos valores, teórico y experimental, la
denotamos:

7.2. COEFICIENTE DE DETERMINACIÓN

Una vez ajustada la recta de regresión a la nube de puntos o´diagrama de


dispersión, es importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
de determinación, definido como sigue.

Puede demostrarse la relación:


Suma total de cuadrados (STC)=Suma explicada de cuadrados (SEC) + Suma de
residuales cuadrado (SRC).
Donde:

STC = ∑ ( yt  y )2

SEC = ∑ (ŷt  y )2

SRC = ∑ ( y t - ŷt)2
El coeficiente de determinación, denotado por r2, se define como:

SEC
r2 = STC

0 < r2 < 1.
78

2
El r indica: Qué proporción ó qué % de la variabilidad de la variable dependiente
(Y) es explicado por la variable independiente(X).
Otra forma:

2
2

S xy
r xy 2 2
S S x y
EJEMPLO. Utilizando los datos e información de la tabla 1 y la ecuación de
regresión estimada, determinar el coeficiente de determinación.

ŷt (ŷt  y )2 (Yt- ŷt)2


65,19 2098,5561 23,1361
75,37 1269,4969 107,5369
85,55 647,7025 19,8025
95,73 233,1729 0,5329
105,91 25,9081 16,7281
116,09 25,9081 1,1881
126,27 233,1729 39,3129
136,45 647,7025 12,6025
146,63 1269,4969 70,0569
156,81 2098,5561 46,3761
∑1110 8549,673 337,273

SEC 8549.673
r2 = STC
= = 0.96
8890

Otra forma:
Conocido el coeficiente de correlación lineal se eleva al cuadrado.

r2=0,98^2=0,96  Indica que el 96% de la variabilidad en el gasto es explicado


por el ingreso.
79

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación


lineal que hay entre ambas variables es el coeficiente de correlación lineal.
El coeficiente de correlación lineal muestral (o coeficiente de correlación de

S
r xy 
xy
Pearson) es definido por:
SS x y

r = ±1 indica una relación lineal exacta positiva (creciente) o negativa


(decreciente),
r = 0 indica la no existencia de relación lineal, pero no indica independencia de las
variables ya que puede existir una relación no lineal.
Valores intermedios de r indican la existencia de una relación lineal, más fuerte
cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se


exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 1. Existe una dependencia funcional lineal, las observaciones están
sobre la recta de regresión. r = r2 = 1, recta de regresión: ŷ = x.
80

Figura 2. La relación lineal entre las variables es muy pequeña y no parece que
exista otro tipo de relación entre ellas, la nube de puntos indica que las variables
son “casi” independientes.

r = 0.192, r2 = 0.037, recta de regresión: ŷ = 6'317 + 0'086x.


81

Figura 3. Existe una dependencia funcional entre las observaciones pero no de


tipo lineal, por tanto la correlación es muy pequeña .Es de tipo parabólico.

r = 0'391, r2 = 0'153, recta de regresión: ŷ = 32'534 - 1'889x.


82

Figura 4. La nube de datos se ajusta razonablemente a una recta con pendiente


positiva.

r = 0'641, r2 = 0'410, recta de regresión: ŷ = -3' 963 + 1'749x.

Figura 5. Existe una fuerte dependencia lineal negativa entre las dos variables y
la correlación es muy alta (próxima a 1).

r = 0'924, r2 = 0'846, recta de regresión: ŷ = -2'528 - 2'267x


83

7.4. ERROR ESTÁNDAR DE LA ESTIMACIÓN

Una vez se tiene la ecuación de regresión estimada, se observa tanto gráfica


como analíticamente, que se dan unas diferencias entre los distintos valores
estimados ( ŷ), y los correspondientes valores observados (Y).
Una medida de dicha variación es dada por el error estándar de estimación:
SRC
Se = n2
Se: Mide la dispersión media entre el ŷ y el Y.
EJEMPLO. Utilizando los datos e información de la tabla 1, determinar el error
estándar de la estimación.

337.273
Se =  6.493
10  2
Se = 6.493  Indica que la dispersión media entre el consumo observado y el
consumo estimado es de 6493$

7.5. ANALISIS DE RESIDUALES

 Evaluación de la regresión ajustada.


Una de las utilidades del análisis de los residuos, definidos como la diferencia
entre los valores observados de la variable dependiente (Y) y los valores
84

estimados (ŷ), es saber si el modelo lineal ajustado es el adecuado. Para ello, se


utiliza el gráfico de los residuales ( et) versus la variable independiente( X), y si no
se presenta ningún patrón sistemático (línea recta, parábola, exponencial,
potencial, entre otros) se dice que el modelo ajustado es el adecuado para los
datos.
EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los et, en el


gráfico siguiente no se observa ningún patrón, indicando que la regresión lineal
ajustada es adecuada.

RESIDUALES VS. X
9

1
et

-3

-7

-11
80 110 140 170 200 230 260
X

 Supuesto de normalidad de los residuales

Para probar si los residuales cumplen con el supuesto de normalidad, se puede


hacer la distribución de frecuencia de los residuales con su correspondiente
histograma de frecuencia relativa .Si se presenta simetría en el histograma se
podría asumir normalidad de los residuales.
EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los residuales,


en el gráfico siguiente, no se observa simetría, indicando que posiblemente los
residuales no presenten comportamiento normal, violándose así el supuesto.
85

Lim. Lím. frec. Frec. Frec. Frec.


Clase inferior superior [Link] C absoluta relativa abs. acum. [Link].
1 -12,0 -7,2 -9,6 1 0,1000 1 0,1000
2 -7,2 -2,4 -4,8 2 0,2000 3 0,3000
3 -2,4 2,4 0,0 2 0,2000 5 0,5000
4 2,4 7,2 4,8 4 0,4000 9 0,9000
5 7,2 12,0 9,6 1 0,1000 10 1,0000

Media = 0,0 Desviación estándar = 6,12166

HISTOGRAMA DE LOS RESIDUALES


40

30
Porcentage

20

10

0
-12 -8 -4 0 4 8 12
et

 Supuesto de la homocedasticidad de los residuales


Que quiere decir igual dispersión ó igual varianza de los residuales.
Para verificar si se cumple tal supuesto se pueden graficar los residuales versus
ŷ[Link] se presenta ningún patrón sistemático, se cumple el supuesto de la
homocedasticidad.
86

EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los ŷ y los


residuales, en el gráfico siguiente, no se observa ningún patrón sistemático
indicando cumplimiento del supuesto de la homocedasticidad.

residuales versus Yt estimado


9

1
et

-3

-7

-11
65 85 105 125 145 165
Yt estimado

 Supuesto de la no autocorrelación ó independencia de los residuales


Quiere decir que el residuo de una observación es independiente del residuo
de otra observación.
Para evaluar si se cumple el supuesto se pueden graficar los residuales versus
[Link] no se presenta patrón sistemático, se cumple el supuesto de
independencia.

EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los residuales y


datos quincenales, en el gráfico siguiente, no se observa ningún patrón
sistemático indicando cumplimiento del supuesto.
87

RESIDUALES VERSUS TIEMPO


9

1
et

-3

-7

-11
0 2 4 6 8 10
Quincena

REGRESIÓN PARABOLICA O CURVA CUADRÁTICA

Recordemos que la ecuación de mejor ajuste corresponde aquella que presenta


los Coeficientes de determinación y Correlación más próximo a la unidad, bajo
este criterio, se dan casos donde la serie de Información obtenida no se puede
explicar por ninguno de las medidas de regresión vistas hasta el momento; ante
esta situación y asumiendo que la serie tiene una curva parabólica cuyo
comportamiento se describe matemáticamente por una ecuación de segundo
grado (parábola).

La regresión se expresa así:

Y = A + BX + CX2

Donde:
Y = Valores de la variable dependiente
A, B, C = constantes numéricas
X = Valores de la variable independiente.
Los valores "A", "B" y "C" se encuentran resolviendo el siguiente sistema de tres
ecuaciones con tres incógnitas.
88

La representación gráfica es parábola cóncava hacia arriba (como el gráfico


siguiente) ó cóncava hacia abajo.

EJEMPLO: Se tienen los siguientes datos. Ajustar el modelo adecuado.

X Y
1 10
2 5
3 4
4 8
5 15
89

Observando el diagrama de dispersión ó nube de puntos vemos que el modelo a


ajustar es el modelo parabólico Y = A + BX + CX2

X2 X3 X4
X Y 2
X*Y X *Y
1 10 1 1 1 10 10
2 5 4 8 16 10 20
3 4 9 27 81 12 36
4 8 16 64 256 32 128
5 15 25 125 625 75 375
SUMA 15 42 55 225 979 139 569

Remplazando los valores de la tabla anterior en las ecuaciones y resolviendo el


sistema se encuentra el modelo dado por:

Ŷ= 19-11.12857X+2.07142X2

REGRESIÓN EXPONENCIAL

Otro tipo de Función que tiene aplicación en el análisis de regresión, es la función


exponencial que esta por la expresión:

Y = ABX
La regresión exponencial es una función no lineal pero puede ser linealizada
aplicando logaritmos a ambos miembros. Resultado de ello se tiene la relación
siguiente:

Log Y = Log A + (Log B) X


La ecuación exponencial logarítmica puede resolverse también a través de
ecuaciones normales:

EJEMPLO: Se tienen los siguientes datos. Ajustar el modelo adecuado.


90

X Y
1 1
2 4
3 8
4 16

Observando el diagrama de dispersión ó nube de puntos vemos que el modelo a


ajustar es el modelo exponencial Y = ABX que linealizado queda
Log Y = Log A + (Log B) X

x y Log Y X*Log Y X2
1 1 0 0 1
2 4 0,602059991 1,204119983 4
3 8 0,903089987 2,709269961 9
4 16 1,204119983 4,816479931 16
SUMA 10 29 2,709269961 8,729869874 30

2,709269961= 4 LOG A + 10 LOG B


8,7298698740= 10 LOG A + 30 LOG B

Log B = 4 * 8.729869874 10 * 2.709269961 0.39


4 * 30  (10)^2
2.709269961 10
Log A =  0.39( ) =-0.29768
4 4
91

Log ŷ = -0.29768 + 0.39 X

Coeficiente de correlación lineal =0.98


Coefificiente de determinación =0.96
Error estándar de estimación =0.116

EJERCICIO. Estimar Y para un valor de X=5

Solución:
Log ŷ = -0.29768 + 0.39*5

Log ŷ = 1.65232

Ŷ= antilog (1.65232)
Ŷ= 44.9

REGRESIÓN POTENCIAL

Teniendo los datos observados, podemos graficar la nube de puntos y apreciar si


los puntos se aproximan a alguna función, en el caso de la función potencial se
puede recurrir a la siguiente relación:

Y =AXB
Para Linealizar esta función se aplica logaritmos a ambos miembros, mediante
este procedimiento se obtiene una ecuación logarítmica lineal:

Log Y = Log A + B Log X

La ecuación logarítmica puede resolverse también a través de las siguientes


ecuaciones normales:

∑ Log Y = n Log A + B ∑ Log X


∑ Log X Log Y= Log A ∑ Log X + B ∑ (Log X)2

Resolviendo las ecuaciones normales se tiene


92

n LOG X * LOG Y - ( LOG X)( LOG Y)


n  (LOG X)^2 - (  LOG X )^2
B=

Log A= LOG(Y) - B LOG (X )

Ejemplo de la regresión potencial


Los siguientes datos Históricos, corresponden a la demanda (unidades) de un
determinado producto para los años 1998 a2003.
Como la demanda está a través del tiempo (es decir, es una serie de tiempo)
Se hace: 1998=1,1999=2,…

Por el método no lineal de regresión potencial se tiene las siguientes relaciones y


construimos la siguiente tabla:

año X Y LOGX LOGY X2 (LOGX)2 LOX*LOGY


1998 1 20000 0 4,301029996 1 0 0
1999 2 35000 0,301029996 4,544068044 4 0,090619058 1,367900784
2000 3 45000 0,477121255 4,653212514 9 0,227644692 2,220146593
2001 4 40000 0,602059991 4,602059991 16 0,362476233 2,770716198
2002 5 55000 0,698970004 4,740362689 25 0,488559067 3,31337133
2003 6 55000 0,77815125 4,740362689 36 0,605519368 3,688719154
SUMA 21 250000 2,857332496 27,58109592 91 1,774818419 13,36085406

6 *13.3608  2.8573* 27.58109 1.3574


B=   0.5463
6 *1.7748  (2.8573)^2 2.4847

Log A= 27.58109  0.5462* 2.85733  4.5968  0.5462* 0.47622  4.3367


6 6

Log ŷ = 4.3367 + 0.5463 Log X


Pronosticar la demanda para 2004.

Log ŷ = 4.3367 + 0.5463 Log 7


Log ŷ = 4.3367 + 0.5463 *0.845098
93

Log ŷ =4.798377

Ŷ=ANTILOG (4.798377)
Ŷ=62860 UNIDADES

También podría gustarte