0% encontró este documento útil (0 votos)

131 vistas93 páginas

Importancia de la Estadística en Decisiones Empresariales

Este documento presenta los conceptos básicos de la estadística. Explica la importancia de la estadística para la toma de decisiones gerenciales y la resolución de problemas. También define los términos clave como población, muestra, estadística descriptiva e inferencial. Finalmente, destaca las diferentes ramas y aplicaciones de la estadística.

Cargado por

MAYRA ANGELICA VILLANUEVA QUISPE

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

131 vistas93 páginas

Importancia de la Estadística en Decisiones Empresariales

Cargado por

MAYRA ANGELICA VILLANUEVA QUISPE

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

CAPITULO 1

INTRODUCCIÓN
OBJETIVOS DEL CAPÍTULO
 Mostrar la importancia y aplicación de la estadística.
 Presentar los conceptos iniciales de la estadística.
1.1. ANÁLISIS CUANTITATIVO PARA LA TOMA DE DECISIONES.

El análisis cuantitativo para la toma de decisiones es un proceso por medio del cual
la Gerencia, al enfrentarse a un problema, selecciona un curso de acción específico
ó “solución” de un conjunto de alternativas. Puesto que por lo general hay
incertidumbre (probabilidad) con respecto al futuro, no es posible estar seguro de
las consecuencias de la decisión que se tome, y tampoco se puede asegurar que la
decisión que se elija produzca los mejores resultados. Además, el problema puede
ser muy complejo, ya sea porque existen muchas alternativas o cursos de acción
por considerar ó porque un gran número de factores deben tomarse en cuenta.

El Gerente de una empresa quiere escoger la acción más efectiva para alcanzar las
metas de la organización. Al juzgar la eficiencia de las distintas decisiones posibles,
hay que utilizar algún criterio o medida del rendimiento.

Solución de problemas. Una vez identificado y definido el problema, el proceso de

resolución involucra:

Establecer Criterio
Que se usará para evaluar
Soluciones alternativas.

Seleccionar la(s)
Alternativa(s) más adecuada(s).

Poner en práctica la(s)

alternativa(s)
seleccionada(s).
(La decisión)

Evaluar los resultados, y determinar si se

ha llegado a una solución satisfactoria.
1.2. ¿POR QUÉ SE REQUIERE SABER ESTADÍSTICA?

 En el nuevo milenio, el problema de las organizaciones no es tanto la

consecución de la información, sino administrar y analizar la información
de que dispone con el fin de obtener conclusiones que ayuden a la toma de
decisiones.

 La Estadística es un soporte para la investigación y la toma de decisiones.

 Es la evidencia del éxito de sus trabajos de investigación.

 No es posible concebir el estudio de una rama del saber humano sin

considerar el aporte de la estadística como herramienta indispensable para
su formación.

 Elemento fundamental de la cultura general de la persona.

 En los últimos años el número de empresas especializadas en el análisis de

datos ha crecido de una manera espectacular. No son pocas las
consultoras que cada vez hacen más uso de los análisis estadísticos para
ayudar a las empresas en la toma de decisiones. La proliferación de
nuevas empresas se explica por la emergencia de un mercado que requiere
soluciones a problemas relacionados con la producción y la logística, la
comercialización, la gestión financiera, los recursos humanos y a formación.

 Cada día es más frecuente que el análisis estadístico se incorpore como

una herramienta más en aplicaciones informáticas.

 Proporciona interpretaciones de los resultados obtenidos. ¡Nada más fácil

que realizar un análisis estadístico!

 Las técnicas cuantitativas y la estadística son básicas tanto en las etapas

de planificación como en las de los procesos de diagnosis, proyección,
seguimiento y evaluación de acciones en el ámbito de la empresa.

 Tiene aplicación en cualquier campo, sin importar que tan sencillo o

complicado sea. Cuanto más complicado sea, más ayuda nos presta para
resolver la situación.
3

1.3. PENSAMIENTO ESTADÍSTICO

Dado que en los negocios, las empresas se plantean metas y objetivos para
identificar áreas de oportunidad y mejora, el pensamiento estadístico debe usarse
como un medio para lograr la meta planteada.
El pensamiento estadístico es la forma en que la información se ve, se
procesa y se convierte en pasos de acción. Es una filosofía de pensamiento,
no una forma de realizar cálculos matemáticos. El pensamiento estadístico utiliza
el concepto de que toda actividad consiste en un conjunto de pasos
interconectados que deben complementarse y completarse para lograr una meta
planteada, donde se debe investigar cada paso para identificar áreas de
oportunidad y mejora a fin de lograr el éxito personal o profesional. La
identificación y minimización de la variación en cada uno de los pasos llevarán al
logro de la meta planteada.

El avance de la tecnología hace posible innovar el entrenamiento estadístico a los

directivos para incrementar su utilización y que de esta manera se reporten
estudios de calidad con mayor validez para las empresas.
A la definición y avance del concepto de pensamiento estadístico han
contribuido varios especialistas, como Snee quien lo definió como un conjunto de
principios y valores que permiten identificar los procesos, caracterizarlos,
cuantificarlos, controlar y reducir su variación para implantar acciones de mejora
(Snee, 1993).
El pensamiento estadístico está basado en la teoría en administración del Dr. W.
Edwards Deming, porque en su libro, The New Economics publicado en 1994
desarrolló el Sistema de Conocimiento Profundo, el cual contiene la esencia de
los principios del pensamiento estadístico y consta de cuatro partes:

1. La apreciación de un sistema.
2. El conocimiento sobre la variación.
3. La teoría del conocimiento.
4. La psicología.
Finalmente, se resalta la importancia de encontrar el valor y los beneficios de
utilizar las Nuevas Tecnologías de Información y Comunicación para un
pensamiento estadístico en diferentes ámbitos de la vida profesional y de la
empresa.
En la ASQC (1996b) se plantea primero que el pensamiento estadístico es una
filosofía, o sea es una forma de pensar, o un proceso de pensamiento, en lugar de
4

cálculos que a algunos confunden. Ésta es la diferencia clave entre el

pensamiento estadístico y las técnicas estadísticas.

1.4. DEFINICIÓN DE ESTADÍSTICA.

Es un conjunto de teorías y métodos que han sido desarrollados para tratar la

recolección, organización, presentación, análisis e interpretación de una gran masa
de datos con el fin de extraer conclusiones útiles que ayuden a la toma de
decisiones.

Métodos Estadísticos.

Son aquellos que señalan la presencia de causas especiales, ayudan a comprender

los procesos, a controlarlos y luego a mejorarlos.

Finalidad de la estadística.

Disminuir el grado de incertidumbre, conocer la realidad de un fenómeno, determinar

los cambios y las causas que lo originan, para hacer estimaciones sobre el
comportamiento futuro.

CONCEPTOS DE POBLACIÓN Y MUESTRA:

Población Objetivo.

Es la totalidad de los elementos acerca de los cuales se desea alguna información.

Toda medida que se calcule para describir una característica de la totalidad de la

población se llama PARÁMETRO, donde un parámetro se considera su verdadero
valor.
Las poblaciones pueden ser finitas o infinitas.

Muestra.

Es un subconjunto de la población a la cual se le estudian una o varias

características comunes.
Toda medida que se calcule para describir una característica de una muestra recibe
el nombre de ESTADÍSTICA.

Existen técnicas apropiadas para determinar el tamaño de la muestra y formas de

seleccionar la muestra, dependiendo de la naturaleza del estudio.

Uno de los propósitos fundamentales de los métodos estadísticos es utilizar las

estadísticas muestrales para estimar los parámetros poblacionales.
5

RAMAS DE LA ESTADISTICA:

La estadística se puede dividir en 2 categorías, la “estadística descriptiva” y la

“estadística inferencial”

 Estadística Descriptiva O Deductiva.

Es aquella que tiene por objeto describir y analizar las características de una
población o de una muestra, deduciendo de ésta descripción conclusiones sobre su
estructura y composición.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.

 Estadística Inferencial o Inductiva.

Consiste en obtener conclusiones de una población a partir de la información que se

obtiene de una muestra de esa población.
La inferencia estadística se refiere a los procedimientos mediante los cuales se
pueden hacer generalizaciones.
6

Estadística Clásica y Análisis Bayesiano de Decisiones.

La estadística clásica hace referencia al análisis de datos muestrales con el

objetivo de hacer inferencias excluyendo todo tipo de juicio u opinión personal.
El análisis Bayesiano de decisiones incorpora el uso de juicios de los
administradores en el análisis estadístico y también pone énfasis en las posibles
ganancias o perdidas económicas asociadas con decisiones alternativas.

Ejemplo. Por medio del enfoque clásico de la inferencia estadística, podría

determinarse el nivel incierto de ventas de un producto nuevo solamente sobre la
base de estudios de mercado llevados a cabo en un conjunto de lugares
seleccionados de acuerdo con el requerimiento del muestreo científico.
Con el enfoque Bayesiano se obtendría y utilizaría la opinión de los administradores
que han tenido experiencia con productos similares como base para estimar un
volumen de ventas.
La estimación subjetiva se podría combinar con la información objetiva de datos
muestrales para obtener una estimación combinada de los volúmenes de venta.
7

CAPITULO 2
ANÁLISIS DE DATOS

OBJETIVOS DEL CAPÍTULO

 Presentar una visión global sobre la importancia de los datos.
 Determinar las fuentes y tipos de datos.

2.1. DATOS.
Antes de aplicar cualquier técnica de análisis es preciso realizar un análisis previo
de los datos de que se dispone.
Algunas definiciones de datos:

 Son medidas y/o números recopilados a partir de la observación.

 Los datos son la materia prima de que se nutren los programas para
producir resultados.
 Los datos son observaciones codificadas.

Es importante observar que el objeto utilizado para el análisis estadístico son los
datos y las observaciones científicas por sí mismas.
Para el investigador, los datos constituyen el recurso básico para cualquier trabajo
estadístico. Por ello, la recolección correcta de éstos es importante.
Para que sean de utilidad los datos estadísticos tienen que tener dos
características básicas:
1) Deben ser pertinentes: deben guardar una relación con el tema en cuestión.
2) Deben ser insesgados: no deben tener deformaciones provenientes de
prejuicios o de errores de los instrumentos empleados.

2.2. FUENTES DE DATOS

Existen varias fuentes mediante los cuales se pueden obtener datos.

Tales fuentes pueden ser:
 Por Internet.
 Obtención de datos publicados por entidades públicas o privadas.
 Mediante el diseño de una encuesta.
 Mediante la experimentación.
 Mediante la observación.
 Mediante cualquier medio de comunicación.

2.3. TIPOS DE DATOS:

 DATOS CATEGÓRICOS.
8

Son aquellos originados por variables categóricas.

Variables categóricas: Son aquellas que producen respuestas categóricas

como sí ó no, pasa ó no pasa, conforme ó no
conforme.
Ejemplos: Orden jerárquico dentro de una organización, la Calidad, la
metodología entre otros.

 DATOS NUMÉRICOS.
Son aquellos originados por variables numéricas.

Variables numéricas: Son aquellas que producen respuestas numéricas.

Ejemplos: El ingreso, el salario, la rentabilidad, la resistencia entre otros.

Los datos numéricos son de dos tipos:

 DISCRETOS.
Son aquellos que resultan de un proceso de conteo. Ejemplo: ¿Cuántos
libros de estadística tiene usted en su biblioteca? 0, 1, 2,3....

 CONTINUOS.
Son aquellos que resultan de un proceso de medición.
Una variable continua es aquella que toma cualquier valor dentro de
cierto intervalo (a < X < b). Ej. Ingresos, salarios, Rentabilidad de un
titulo valor, resistencia entre otros.

2.4. INTRODUCCIÓN AL MUESTREO

MUESTREO: Es un procedimiento para conocer algunas características de la

población con base en una muestra extraída de ella.
El objetivo de un diseño de muestreo es proporcionar indicaciones para la
selección de una muestra que sea representativa de la población.

VENTAJAS DE UTILIZAR MUESTRAS

Cuando la población ha sido definida, es el momento de tomar una muestra de

ella. El análisis de todos los elementos del universo se denomina censo, y el
análisis de sólo una parte se denomina muestreo.

 La economía que supone usar una muestra en lugar de un censo,

sobretodo si el ámbito de estudio es muy grande.
9

 La mayor rapidez de recogida de datos y elaboración de los resultados,

sobretodo cuando se trabaja con temas y poblaciones dinámicas y
cambiantes.

 Una muestra ofrece mejor calidad y precisión de los datos que un

censo(porque se puede prestar una mayor atención a la recolección de
éstos)
El objetivo de la teoría del muestreo es obtener estimados muestralmente fiables.

CASOS EN QUE EL CENSO ES PREFERIBLE AL MUESTREO

1. Un tamaño de población reducida.
2. Cuando la varianza de la característica que se está midiendo es muy grande.
3. Cuando los costos del error sean altos (error muestral + error no muestral).

ERROR: Siempre existirán diferencias, unas veces pequeñas y otras veces

grandes entre la información obtenida a través de un estudio de investigación y la
verdadera informació[Link] es lo que en investigación se conoce como error.
Este error total proviene de dos fuentes: Error Muestral + Error No Muestral.
ERROR MUESTRAL: Este comprende las diferencias ente los resultados de la
muestra y el verdadero valor de la población.

ERROR NO MUESTRAL: Son todos aquellos errores susceptibles de ocurrir a lo

largo del proceso investigativo y diferentes a lo que aquí se ha llamado ERROR
MUESTRAL.
Mencionemos algunos:
 Error por mala identificación del problema ó diferenciación pobre del problema.
 Errores por incapacidad para identificar la información específica requerida.
 Imperfecciones en el diseño del cuestionario.
 Error en la especificación del marco muestral donde el MARCO MUESTRAL es
un listado de las unidades muestrales ó listado de todos los elementos de la
población.
 El encuestado responde sobre algo que no sabe.
 El encuestado intencionalmente suministra información incorrecta.
 El encuestado suministra información imprecisa, debido a fallas de memoria.
10

 Sesgos generados por el encuestador al influir su tono de voz, explicaciones ó

apariencia personal en el encuestado.
 Sesgos generados por el encuestador al registrar incorrectamente las
respuestas de los encuestados.
 Sesgos generados por el encuestador al desviarse de las instrucciones que se
le han dado.
 Errores generados durante la codificación, tabulación, edición, etc.
 Errores en la interpretación de los datos.

ETAPAS DEL PROCESO DE MUESTREO

 Definir claramente la población.

 Especificar el marco muestral.
 Especificar el método de MUESTREO (diseño): Muestreo probabilistico y
muestreo no probabilistico.
 Determinar el tamaño de la muestra.
 Especificar el plan de muestreo. En éste se definen los procedimientos
operacionales para la selección de las unidades muestrales.
 Seleccionar la muestra.

MÉTODOS DE MUESTREO
De acuerdo al conocimiento o no que se tenga de la población el muestreo puede
ser:
Muestreo Probabilísitico y No Probabilísitico.

PROBABILISTICOS NO PROBABILISTICOS
Muestreo aleatorio simple Muestreo por conveniencia
Muestreo estratificado Muestreo según criterio (juicio)
Muestreo por conglomerados Muestreo por cuotas
Muestreo polietápico
Muestreo por áreas
Muestreo Sistemático
11

MUESTREO PROBABILISTICO
Método con el cual es posible determinar la probabilidad que tiene cada elemento
de la población de ser escogido en la muestra. Cuando las muestras son
aleatorias, se pueden hacer generalizaciones acerca de la población bajo estudio.

MUESTREO NO PROBABILÍSTICO
Método con el cual no es posible establecer de una manera exacta la probabilidad
de que un elemento de la población participe en la muestra.
Tiene su aplicación en los estudios exploratorios.
Cuando las muestras se seleccionen de manera NO ALEATORIA, sólo es posible
hacer afirmaciones de tipo descriptivo sobre la muestra.
Los procedimientos NO ALEATORIOS de muestreo nunca deben usarse cuando
el objetivo del muestreo es hacer inferencias.

MUESTREOS PROBABILÍSTICOS

 MUESTREO ALEATORIO SIMPLE. (M.A.S.).

El M.A.S. es un método de selección de n unidades, sacadas de una población
homogénea (respecto a la característica de interés) de tamaño N de tal manera

que cada uno de los elementos de la población tenga igual oportunidad de caer en
la muestra. Se requiere tener un listado de la población.
En el M.A.S. la muestra es sacada al azar unidad por unidad.
La muestra puede ser seleccionada utilizando muestreo con reemplazo o sin
reemplazo.
El muestreo sin reemplazo es aquel en el que un elemento que ha sido sacado no
es remplazado, ya que esto daría lugar a que el mismo elemento entrara en la
muestra más de una vez.
El muestreo con reemplazo es un caso contrario. Se selecciona el elemento y
después de ser inspeccionado regresa a la población teniendo la posibilidad de
volver a salir.
12

CÓMO SELECCIONAR UNA MUESTRA ALEATORIA.

La mejor manera de seleccionar una muestra aleatoria, es utilizar una tabla de
números aleatorios que se construye combinando los números enteros de cero
(0) al nueve (9) que no tienen un patrón de ocurrencia .Igualmente Se pueden
seleccionar a través del Excel.

Procedimiento:
1. Enumerar los elementos de la población según el tamaño de ésta.
Ejemplos:
 Si la población es de N=1000, enumeramos como sigue: 001, 002,
003,...., 000 donde 001 representa el primer elemento, 002 el segundo,
003 el tercero,..., y el 000 representa el elemento 1 000.
 Si la población es de N=347, enumeramos como sigue: 001, 002, 003,...,
347, y se procede en forma similar.
2. De la tabla de números aleatorios se elige un punto arbitrario de partida y
siguiendo la secuencia se van determinando los elementos de la muestra.
Si un número aleatorio ocurre dos veces se omite la segunda ocurrencia y se
selecciona otro número aleatorio para reemplazarlo.
3. Determinar el valor de los elementos de la muestra.

 MUESTREO ESTRATIFICADO ALEATORIO (M.E.A.)

El M.E.A. se utiliza cuando la población es heterogénea (respecto a la

característica de interés) y se tiene un listado de ella.
Procedimiento: La población de N unidades es dividida en subpoblaciones o
estratos internamente homogéneas: N1, N2, N3,..Nk .Estas subpoblaciones son
excluyentes y al reunirlas forman la totalidad de la población.
Se requiere que sean conocidos y especificados los valores de N h (tamaño de los
estratos), con h = 1, 2,..., k.
Una vez determinados los estratos, se saca una muestra de cada una de ellos en
forma independiente y que representaremos por n 1, n2, n3,..., nk.
Si se toma una muestra simple aleatoria de cada estrato, el procedimiento
completo es conocido como “MUESTREO ESTRATIFICADO ALEATORIO”.
13

 MUESTREO POR CONGLOMERADOS.

El muestreo por conglomerados se utiliza:
 Cuando no existe una lista de todos los elementos de la población, o sería
muy costoso obtenerla.
 La población es grande y está dispersa en una región muy extensa.
El procedimiento en el muestreo por conglomerados consiste en dividir la
población en M grupos denominados conglomerados.
Después de dividir la población en conglomerados y tener un listado de ellos, se
seleccionan al azar algunos de ellos utilizando M.A.S. y posteriormente llevar a
cabo un censo completo en cada uno de los conglomerados seleccionados.
En el muestreo aleatorio estratificado las unidades muestrales son los elementos
individuales de la población, mientras que en el muestreo por conglomerados las
unidades muestrales son conglomerados de elementos.
El tamaño de muestra, cuando se utiliza muestreo por conglomerados equivale a
escoger el número m de conglomerados de elementos de una población de M
conglomerados.
Se puede incrementar la información obtenida de la población seleccionando un
mayor número de conglomerados de menor tamaño. La excepción a esta regla
es el caso en que la población consiste en muchos grupos homogéneos
pequeños. Los conglomerados deben de ser heterogéneos dentro de sí.
 MUESTREO SISTEMÁTICO.
Este método facilita la selección de la muestra puesto que es más fácil de ejecutar
y menos costoso que el M.A.S.
Suponga que N unidades en la población se enumeran de 1 a N en algún orden.
Para seleccionar una muestra de n unidades se procede de la siguiente manera:
N
 Determinar el intervalo muestral dado por k .
n
Por ejemplo; si se tiene una comunidad de 10.000 miembros y de éstos se
10.000
selecciona 200, el intervalo muestral sería k   50 .
200
 Se escoge un número al azar entre 01 a 50 y si éste número es por ejemplo
igual a 12, la muestra estaría constituida por los miembros: 12, 62, 112,...
No es recomendable cuando los datos tienen un comportamiento cíclico y cuando
no se conoce el tamaño de la población.
14

MUESTREOS NO PROBABILÍSTICOS.

 MUESTREO POR CONVENIENCIA.

Es aquel con el cual se selecciona las unidades muestrales de acuerdo a la
conveniencia o accesibilidad del investigador.
Este muestreo se puede utilizar en los casos en que se desea obtener información
de la población de manera rápida y económica. Las muestras por conveniencia se
pueden utilizar en las etapas exploratorias de la investigación como base para
generar hipótesis y para estudios concluyentes en los cuales el investigador desea
aceptar el riesgo de que los resultados del estudio tengan grandes inexactitudes.
Este método es muy común en las entrevistas callejeras como solicitar la opinión
de las personas que transitan en un centro comercial, realizar entrevistas con
personas de la calle para un canal de televisión, utilizar grupos de estudiantes o
grupos religiosos para realizar un experimento, etc. En cada caso la unidad o
elemento de muestreo se selecciona o se ha seleccionado con base en su fácil
disponibilidad. En todo los casos no se específica claramente la población de la
cual se ha tomado la muestra real. Aún más, se desconoce la probabilidad exacta
de que estas personas sean seleccionadas.
Este método de muestreo no se recomienda para estudios concluyentes,
descriptivos, ni experimentales.
 MUESTREO SEGÚN CRITERIO (Juicio)

Con éste método la selección de los elementos de la muestra se realiza de

acuerdo con el juicio y criterio del investigador.
Por ejemplo, en una investigación sobre las ventas diarias de todos los
supermercados de una ciudad, el investigador, a juicio, selecciona primero
aquellos supermercados que son más representativos.

 MUESTREO POR CUOTAS.

Las muestras por cuotas son un tipo especial de muestras a propósito.

En este caso el investigador da pasos concretos con el fin de obtener una muestra
que es similar a la población en algunas características de “control”, anteriormente
especificadas.
El investigador determina el número de entrevistados, y los entrevistadores eligen
a sus entrevistados libremente, con base en sus conocimientos y experiencia.
15

2.5. NIVELES Y ESCALAS DE MEDICIÓN.

Las escalas de medición o sea, los diferentes procedimientos que podemos usar
para medir los datos, según se trate de variables categóricas o numéricas son:

Para variables 1. Escala nominal

categóricas
2. Escala ordinal

Para variables 3. Escala de intervalos iguales

numéricas
4. Escala de cocientes o
razones

En una escala nominal no interesa ni el orden en que colocamos las

categorías, ni la distancia que hay entre ellas. Ejemplo si la variable
profesión fuera: Médico, odontólogo, veterinario, psicólogo, ingeniero,
arquitecto. Si la variable hubiese sido “prestigio de una profesión” aquí sí
hubiera importado el orden, pues hay profesiones más prestigiosas y menos
prestigiosas. Tampoco la escala nominal informa sobre las distancias entre
las categorías: subjetivamente podemos pensar que la “distancia” entre un
médico y un odontólogo no es la misma que hay entre un ingeniero y un
arquitecto, pero esta información no nos es suministrada por la escala
nominal.
La escala ordinal me informa si un individuo tiene mayor o menor prestigio
ocupacional que otro; es decir interesa el orden, pero no me dice “cuánto”
en forma objetiva. Esto último es importante porque “subjetivamente” uno
podría pensar que un ejecutivo tiene tres veces más prestigio que un
zapatero, pero este criterio no sería compartido por otras personas, y una
escala ha de ser la misma para todos.
Las escalas cuantitativas son aún más informativas. A los requisitos de
homogeneidad, diferenciabilidad y orden se agrega uno nuevo: los
intervalos deben ser regulares, y más específicamente iguales. Las
siguientes tres escalas representan todas ellas intervalos iguales, o sea que
los intervalos o distancias entre los puntos están determinados según un
cierto criterio matemático:
16

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5

1 2 4 8 16

En la primera vemos que los intervalos son iguales, pues la distancia que
hay de 1 a 2 es igual a la distancia que hay entre 2 y 3, etc., todo lo cual,
dicho matemáticamente, equivale a afirmar que 1-2 = 2-3, etc. Por la misma
razón en la segunda escala las distancias también son iguales aunque
hayamos tomado intervalos mayores. En la tercera ya parecería que los
intervalos no son iguales pues van aumentando cada vez más hacia la
derecha, pero si consideramos que se trata de una escala logarítmica (y no
lineal como las dos anteriores), veremos que también sus intervalos son
iguales según la siguiente serie de igualdades, donde en vez de restar,
dividimos:
1 2 4 8
------ = ------ = ------ = ------ = etc.
2 4 8 16

Esta misma serie, expresada logarítmicamente, es log1-log2 = log2-log4,

etc., o sea que en vez de restar números como en la escala lineal restamos
logaritmos, pero igualmente sigue cumpliéndose la condición de igualdad de
intervalos.
Toda escala que tenga intervalos iguales se llama escala métrica.

Estas escalas métricas, típicas de los niveles cuantitativos de medición,

siguen conservando las características de diferenciabilidad (o identidad), y
orden de la escala ordinal, pero se agregan otras nuevas: no sólo me dice
que los pesos 35 Kg. y 70 Kg. son distintos (identidad), y no sólo me dice
que 70 es un peso mayor que 35 (orden), sino que además me agrega
nueva información al decirme: (a) que 70 Kg. es cuantitativamente tan
distinto de 35 Kg. como 35 Kg. lo es de 0 Kg.; y (b) que 70 Kg. es dos veces
más pesado que 35 Kg., o sea, me informa acerca de cuánto más pesado es
un objeto que otro.
17

Las escalas de intervalos iguales sólo nos pueden dar la información (a),
mientras que la escala de cocientes o razones, además, nos suministra
la información (b), con lo cual esta última resulta ser más precisa o con
mayor contenido informativo.
En Las escalas de intervalos iguales el punto cero es arbitrario, y no
refleja en ningún momento ausencia de la magnitud que estamos
midiendo,
Ejemplos: la temperatura de cero en una ciudad.

El lapso transcurrido entre 1998-1999 es igual al que transcurrió entre

2000-2001.
La escala de razón se diferencia de las escalas de intervalos iguales
únicamente por poseer un punto cero propio como origen; es decir que el
valor cero de esta escala significa ausencia de la magnitud que estamos
midiendo.
Ejemplo:

En una encuesta realizada en un barrio de esta localidad se observó que hay

familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble de
hijos que aquellas que tienen 3 hijos.
2.6. TRATAMIENTO DE LOS DATOS.

Una vez que se recolectan los datos, se les debe dar una presentación tabular y
diagramático para su análisis e interpretación. El proceso de recolección,
organización, codificación y presentación es importante para la toma de decisiones.
18

CAPITULO 3.
PRESENTACIÓN DE DATOS NUMÉRICOS.

OBJETIVOS DEL CAPÍTULO

 Mostrar cómo organizar, resumir y presentar datos numéricos.
 Presentar tablas y gráficas utilizadas para datos numéricos.

3.1. INTRODUCCIÓN.

Grandes series de datos numéricos puede organizarse y presentarse de manera

eficaz en forma de tablas y gráficas para facilitar el análisis e interpretación de los
mismos, parte fundamental en el proceso de la toma de decisiones.

3.2. ORGANIZACIÓN DE DATOS NUMÉRICOS: DIAGRAMA DE TALLO Y

HOJAS.

Cuando se recolecta una serie de datos, generalmente, las observaciones

numéricas no se disponen en ningún orden o secuencia en particular.
Al crecer el número de observaciones, se hace muy difícil determinar las principales
características de un conjunto de datos y por consiguiente se necesitan métodos
para organizar las observaciones de tal manera que entendamos mejor la
información que transmite la serie de datos.
Los métodos más comúnmente utilizados para lograr esto son: la clasificación
ordenada y el diagrama de tallo y hojas.

 Clasificación Ordenada.
Consiste en ordenar los datos sin procesar desde el valor más pequeño hasta el
más grande y así facilitar la evaluación de sus principales características.
Los datos ordenados, reciben el nombre de arreglo ordenado.

 Diagrama de Tallo y Hojas.

Un diagrama de tallo y hojas es una modalidad de organización y presentación de
medidas en un formato de gráfica de barras jerárquicamente ordenado. Se trata
de una técnica común en el análisis exploratorio de datos. Como su nombre lo
indica, el análisis exploratorio de datos es un conjunto de técnicas de análisis
preliminar de datos para la detección de patrones y relaciones.
Un diagrama de tallo y hojas separa las entradas de datos en “tallos” y “hojas”.
Esta técnica sólo es aplicable y significativa si el primer dígito de la medición, o
quizá los dos primeros, sirve efectivamente de base para la separación de los
datos en grupos.
19

Cuando únicamente se usa el primer dígito para agrupar las medidas, el primer
dígito es el tallo, mientras que cada una de las medidas con valor a partir de ese
primer dígito pasa a ser una hoja.
Cada renglón es una posición de tallo y cada dígito de la derecha es una hoja.

El procedimiento para realizarla es primero empezar con los tallos, es decir la

columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha
de la línea vertical, en el tronco correspondiente. Además, si se desean tener los
datos ordenados, algunos lo prefieren, se pueden ordenar las hojas en cada
renglón.
Ejemplo 1.
En un examen de matemáticas fueron obtenidas las siguientes calificaciones (0 a
100):

78 93 61 100 70 83 88 74 97 72

66 73 76 81 83 64 91 70 77 86

Elaborar el diagrama de tallo y hojas.

Solución:
En cada uno de los datos se separan las decenas de las unidades, es decir, el
número 78 se verá como 7 | 8 De esta manera las decenas se pondrán en una
columna, en forma vertical, y las unidades a su derecha:

6 1 6 4
7 80 4 2 3 6 0 7
8 38 1 3 6
9 3 7 1
10 0

El primer renglón que dice 6 | 1 6 4 quiere decir que entre la lista de datos se
encuentran los valores 61, 66 y 64.

Si se desean tener los datos ordenados, el diagrama sería:

6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
20

Ejemplo 2.

Suponga que Xi, es el valor de una acción (miles de $) en la bolsa de valores.

Construya el diagrama de tallo y hojas. Analice.

8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
11.0 4.9 3.9 4.9 4.4 4.9 4.9 7.4 8.0 3.6
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9

Solución en computador:

El diagrama de tallo y hojas ofrece una impresión visual de la forma, de la dispersión

o variabilidad y de la tendencia central.

3.3. TABULACIÓN DE DATOS NUMÉRICOS.

Usando los datos sin procesar, la clasificación ordenada o el diagrama de tallos y

hojas, el analista debe construir las tablas y diagramas apropiados que amplíen el
informe.
Tal presentación de los datos en forma tabular puede hacerse por medio de una
distribución de frecuencia o tabla de frecuencias.

Distribución de Frecuencias es un método para organizar y resumir los

datos por medio de tablas.
21

Forma General de la tabla de Frecuencias.

Consiste en incluir los datos en una tabla donde la variable se organiza de menor a
mayor con sus correspondientes frecuencias1.

Xi ni Ni hi Hi
X1 n1 N1=n1 h1 H1=h1
X2 n2 N2=n1+n2 h2 H2=h1+h2
X3 n3 N3=n1+n2+n3 h3 H3=h1+h2+h3
• • • • •
• • • • •
• • • • •
Xn nn Nn=n hn Hn=1.0
n 1.0

Frecuencia Absoluta (ni): Es el número de veces que se repite cada valor de la

variable.

Frecuencia Absoluta Acumulada (Ni): Consiste en ir acumulando las frecuencias

absolutas.

Frecuencia Relativa (hi): Es resultado de dividir cada frecuencia absoluta entre el

número total de observaciones (n).

Frecuencia Relativa Acumulada (Hi): Consiste en ir acumulando las frecuencias

relativas.

PROPIEDADES:

1. La última frecuencia absoluta acumulada es igual a la frecuencia total (n).

2. La última frecuencia relativa acumulada es igual a la suma de las frecuencias
relativas.

1
. En adelante, la doble barra (║) en cada cuadro nos indica que a la izquierda están los datos

y a la derecha los cálculos correspondientes.

3. Las frecuencias absolutas y las frecuencias absolutas acumuladas son números

enteros.
4. Las frecuencias relativas y las frecuencias relativas acumuladas se interpretan
siempre en términos de porcentaje.

Al crecer el número de observaciones se hace necesario condensar los

datos para poder realizar la tabla apropiada agrupando por intervalos.

Para construir dicha tabla, agrupando por intervalos, se realizan los siguientes
pasos:
 Ordeno los valores de la variable de menor a mayor.

 Determino el rango, al mayor valor de la variable le resto el menor valor de la

variable (Xn - X1).

 Determino el rango ampliado. Ra = R + C, C=Kte y pequeña.

 Determino la amplitud del intervalo. Si deseo que los intervalos tengan igual
amplitud (a), entonces
a = (Ra /S), donde S=Nº de intervalos deseados, dependiendo de el
número de datos.
El número de intervalos en los que se agrupa la información es una
decisión que debe tomar el analista: la regla es que mientras más
intervalos se utilicen menos información se pierde, pero puede que menos
representativa e informativa sea la tabla.
Otra posibilidad es la de construir, siempre que sea posible, intervalos de amplitud
constante, sugiriendo sobre el número S de intervalos a considerar el propuesto
por Sturges

S = 1 + 3'322 log 10 n

 Contabilizar el número de observaciones en cada intervalo.

Ejercicio 1.

En encuesta realizada a 100 personas, una de las preguntas que se hizo fue
¿A cuantas revistas esta usted suscrito?
Las respuestas originaron una tabla de frecuencias donde la variable es numérica
discreta.
23

Revistas ni Ni hi Hi
0 20 20 0.20 0.20
1 15 35 0.15 0.35
2 10 45 0.10 0.45
3 25 70 0.25 0.70
4 17 87 0.17 0.87
5 13 100 0.13 1.00
100 1.00

La presentación gráfica de una variable numérica discreta se realiza por medio de

un DIAGRAMA DE BARRAS.

Ejemplo con las frecuencias absolutas:

20
p
e
r 15
s
o
n 10

a
s
5

0 1 2 3 4 5

revistas

DIAGRAMAS DE BARRAS DOBLES

En algunos casos es conveniente para propósitos comparativos representar

mediante un mismo gráfico dos características.

Ejercicio 2.
Considere el número de hombres y mujeres empleados por una entidad oficial
durante los primeros cuatro meses.
24

MES HOMBRES MUJERES

ENERO 55 45
FEBRERO 60 40
MARZO 45 55
ABRIL 70 30

BARRAS VERTICALES

Ejercicio 3.
Suponga que Xi, es el valor de una acción en la bolsa de valores y ni, es el número
de acciones vendidas.
25

Valor Acciones Valor Acciones Valor Acciones

Acciones vendidas Acciones vendidas Acciones vendidas
5.10 38 5.18 26 5.26 17
5.11 22 5.19 30 5.27 19
5.12 23 5.20 27 5.28 24
5.13 19 5.21 28 5.29 25
5.14 21 5.22 31 5.30 18
5.15 23 5.23 33 TOTAL 520
5.16 24 5.24 29
5.17 25 5.25 18

Construir la tabla de frecuencia, agrupando en 6 intervalos y ampliando por igual en

una cantidad c=0.04

Solución:
R = 5.30 - 5.10 = 0.20
Ra= 0.20 + 0.04 = 0.24
a = (0.24 / 6) = 0.04
Valor Acciones Acciones Marcas
Acciones vendidas Acumulada hi Hi Clase
5.08 - 5.12 60 60 0.115 0.115 5.10
5.12 - 5.16 86 146 0.165 0.281 5.14
5.16 - 5.20 105 251 0.202 0.483 5.18
5.20 - 5.24 119 370 0.229 0.712 5.22
5.24 - 5.28 83 453 0.160 0.871 5.26
5.28 - 5.32 67 520 0.129 1.000 5.30
520 1.000

h1 = 0.115 quiere decir, que el 11.5% de las acciones tienen un valor entre $ 5.08
Y menos de $ 5.12.
H2 = 0.281 quiere decir, que el 28.1% de las acciones tienen un valor inferior a
$ 5.16.

MARCAS DE CLASE.
Es el punto medio de los intervalos de clase; es un valor representativo de ese
intervalo.
Li  Ls 
Marca de clase = , en cada intervalo.
2

Los diagramas más comúnmente conocidos, cuando la variable ha sido agrupada

en intervalos, son los siguientes:
26

HISTOGRAMA DE FRECUENCIA.

Es un gráfico que se construye con las frecuencias absolutas o relativas. Se

construye situando en el eje de las abscisas los intervalos, y sobre ellos tomándolos
como base, se construyen sendos rectángulos, hasta una altura donde se encuentre
con la correspondiente frecuencia absoluta ó relativa.

POLÍGONO DE FRECUENCIA.

Gráfico que se construye con las marcas de clase en el eje de las abscisas(X), y las
frecuencias absolutas o relativas en el eje de las ordenadas (Y).
27

FRECUENCIAS RELATIVAS

20
%
16
a
c
ci 12
o
n
8
e
s
4

5. 5.14 5.18 5.22 5.26 5.3

1
precios

FRECUENCIAS ABSOLUTAS

120

100

A
c 80
c
i 60
o
n
e 40

s
20

5. 5.14 5.18 5.22 5.26 5.3

1
precios
28

OJIVA O POLÍGONO DE FRECUENCIA ABSOLUTA ACUMULADA Y

POLÍGONO DE FRECUENCIA RELATIVA ACUMULADA.

La ojiva “menos de” se construye situando en el eje X el límite superior de cada

intervalo y en el eje Y las frecuencias absolutas acumuladas o las frecuencias
relativas acumuladas, cuando la variable está en intervalos.
El punto de cruce de las dos ojivas "menos de" e "igual ó mayor que" es la mediana.

EJEMPLO CON FRECUENCIA ABSOLUTA ACUMULADA

a 600
c
c
i 500
o
n
e 400
s
300
a
c
u
200
m
u
l
100
a
d
a
0
s
5.12 5.16 5.20 5.24 5.28 5.32

precios
29

CAPITULO 4.
PRESENTACIÓN DE DATOS CATEGÓRICOS.

OBJETIVOS DEL CAPÍTULO

 Mostrar cómo organizar y resumir datos categóricos.
 Presentar tablas y gráficas para datos categóricos

4.1. INTRODUCCIÓN.

Si las observaciones en la serie de datos son resultados de una variable categórica,

la presentación se desarrolla por medio de una tabla resumen y diversidad de
diagramas.

4.2. TABLA DE FRECUENCIA.

Se construye con los valores de la variable categórica y las frecuencias absolutas y

relativas.

Ejemplo.
Al ser consultadas 100 personas sobre su ocupación se obtuvieron datos que
originaron la siguiente tabla resumen:

Clasificación Número de Porcentaje de

Laboral Empleados Empleados
Sin Empleo 23 23.0
Tiempo Parcial 17 17.0
Tiempo Completo 60 60.0
Total 100 100.0

4.3. GRAFICACIÓN DE DATOS CATEGÓRICOS: DIAGRAMAS DE BARRAS,

PASTEL y PARETO
DIAGRAMA DE BARRAS En la gráfica de barras, cada categoría se describe
mediante una barra, cuya longitud representa la frecuencia o porcentaje de
observaciones que caen en una categoría. Para construir una gráfica de barras se
hacen las siguientes sugerencias:
1. Las barras deben construirse horizontalmente.
30

2. Todas las barras deben tener el mismo ancho.

3. Los espacios entre las barras deben variar entre la mitad del ancho de una
barra hasta el ancho de una barra.
4. Las escalas y guías son auxiliares útiles en la lectura de una gráfica y
deben incluirse.

DIAGRAMA HORIZONTAL

sin empleo

t. parcial

t. completo

0 10 20 30 40 50 60
personas

DIAGRAMA DE PASTEL
Son utilizados en aquellos casos donde nos interesa no sólo mostrar el número de
veces que se da una característica o atributo de manera tabular sino más bien de
manera gráfica, de tal manera que se pueda visualizar mejor la proporción en
que aparece esa característica respecto del total.

Gráfico circular en que los 360 grados se equivalen al 100%

Muestran la cantidad de datos que pertenecen a cada categoría como una parte
proporcional de un círculo.
31

Ejemplo 1.
Tabla de clasificación laboral.

DIAGRAMA DE PASTEL

Ejemplo 2.
Calificación del bienestar universitario.
Con el fin de obtener una medición del servicio en una universidad desde el punto
de vista del estudiante se diseñó una encuesta de opinión. La encuesta fue de
carácter voluntario, y se diseñó para ser diligenciada una única vez por cada
estudiante.
Una de las preguntas de la encuesta fue:
Califique de 1 a 5 su nivel de satisfacción con el proceso como excelente (5),
bueno (4), regular (3), deficiente (2) y malo (1).
La calificación del servicio tuvo un promedio total de 3.94 sobre 5 entre todos los
4781 estudiantes que respondieron la encuesta. El promedio, según el año de
ingreso de los estudiantes, se comportó como se muestra en la siguiente tabla.
32

Calificación por año de ingreso del estudiante

Año 1995 1996 1997 1998 1999 2000 2001 2002 2003 Total
# estudiantes 78 70 230 533 648 726 833 1053 610 4781
Promedio 4,27 4,04 4,24 4,12 3,99 4,06 3,84 3,73 3,93 3,94

Si se observa en términos generales, la calificación más alta la dieron los

estudiantes más antiguos, mientras que la más baja la dieron estudiantes
"recientes”.
Al calificar el servicio como excelente (5), bueno (4), regular (3), deficiente (2) y
malo (1), el diagrama circular fue:

DIAGRAMA DE PARETO

Es un diagrama especial de barras verticales en las que las respuestas

categorizadas se grafican en el orden de rango descendiente de sus frecuencias y
se combina con un polígono acumulado en la misma escala.
Los problemas de calidad se presentan como pérdidas. Es muy importante
determinar el patrón de la distribución de la pérdida. La mayoría de las pérdidas se
deben a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un
número muy pequeño de causas.
33

Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi
todas las pérdidas, concentrándonos en esas causas particulares y dejando de lado
por el momento otros muchos defectos triviales. El uso del diagrama de Pareto
permite solucionar este tipo de problemas con eficiencia.

Los diagramas de Pareto expresan, por lo general, 80/20: el 80% de todos los
problemas son debidos al 20% de las causas.

Ejemplo.

El supervisor de una factoría diseña una tabla para registrar el tipo de defecto en un
producto manufacturado.

Tipo de Número de Total Composición Porcentaje

Defecto Defectos Acumulado Porcentual Acumulado
Tensión 104 104 52 52
Rayado 42 146 21 73
Burbuja 20 166 10 83
Otros 14 180 7 90
Fractura 10 190 5 95
Mancha 6 196 3 98
Rajadura 4 200 2 100
Total 200 - 100 -
34

4.4. TABULACIÓN DE DATOS CATEGÓRICOS BIVARIADOS

TABLA DE CONTINGENCIA.

Es útil cuando se desea examinar cómo se relacionan dos variables categóricas

simultáneamente. Su presentación se realiza mediante una tabla de clasificación
cruzada de los resultados denominada tabla de contingencia.
Se podría establecer si hay relación entre el Sexo del entrevistado y su opinión
con respecto a una ley del Gobierno.
Se podrían comparar los estudiantes (por programa) según el tipo de colegio de
donde proceden

Ejemplo.

Consultados 20 profesionales sobre su ocupación actual se obtuvieron los datos

dados en la tabla siguiente. Hacer un análisis y sacar conclusiones.

PROFESION OCUPACION PROFESION OCUPACION

economista empleado economista desempleado
administrador subempleado administrador subempleado
contador desempleado contador empleado
administrador empleado administrador empleado
ingeniero empleado ingeniero subempleado
contador subempleado contador desempleado
economista subempleado economista empleado
ingeniero desempleado contador empleado
ingeniero subempleado ingeniero empleado
administrador desempleado economista subempleado

Por Excel, se obtiene la tabla de contingencias siguiente:

Ocupación
Profesión desempleado empleado subempleado Total general
administrador 1 2 2 5
contador 2 2 1 5
economista 1 2 2 5
ingeniero 1 2 2 5
Total general 5 8 7 20
35

CAPITULO 5

MEDIDAS DESCRIPTIVAS

OBJETIVOS DEL CAPÍTULO

 Desarrollar las medidas de posición central, medidas de posición no central,
medidas de dispersión y medidas de forma.
 Determinar cuando aplicar cada una de tales medidas.

5.1. INTRODUCCIÓN.
Si se dispone de varias series estadísticas, es importante hacer un estudio y
comparación entre ellas .En tal caso, además de la presentación tabular y gráfica,
es necesario obtener indicadores de cada una de las características que nos
proporcionen información sobre los valores de cada serie y así hacer un análisis
más significativo.
Se obtendrán medidas descriptivas a partir de una muestra de n datos
denominadas estadísticas y no de toda la población.

5.2. MEDIDAS DE POSICIÓN CENTRAL

Las medidas de posición central nos facilitan información sobre la serie de

datos que estamos analizando. Estas medidas permiten conocer diversas
características de la serie.
LA MEDIA. Se pueden calcular diversos tipos de media, siendo las más
utilizadas:
 MEDIA ARITMÉTICA.

Es un promedio que representa el valor central de una distribución de frecuencia.

Si la serie es simple (cada valor de la variable se repite sólo una vez), para calcular
la media aritmética, se suman los n datos y luego se divide por el total (n).
36

Ejemplo.
Se obtienen datos sobre las notas correspondientes a seis estudiantes de un curso.
Determine la media aritmética.

Nota (Xi)
4.0
3.0 18.9
2.5 X   3.15
2.7 6
3.6
3.1

Si se tiene una serie de frecuencia (cada valor de la variable se repite más de una
vez), la media aritmética, denominada media aritmética ponderada, se calcula
multiplicando cada valor por el número de veces que se repite. La suma de todos
estos productos se divide por el total de datos de la muestra.

(X1 * n1) + (X2 * n2) + (X3 * n3) +...+ (Xn * nn)

X = --------------------------------------------------------------------------
n

n
 Xi * ni
X  i 1
n
Ejemplo.
Se obtienen datos sobre las notas correspondientes a 17 estudiantes de un
curso .Determine la media aritmética.

Notas (Xi) ni Xini

4.0 4 16.0
3.0 4 12.0
2.5 3 7.5 53.9
2.7 3 8.1 X   316
.
3.6 2 7.2 17
3.1 1 3.1
17 53.9
37

Calculo de La Media aritmética Cuando La Variable ha sido agrupada en

Intervalos.

 (Marcasdeclase)n i
X  i 1

Ejemplo:
Precio Acciones ni M de C MdeC* ni
5.08 - 5.12 60 5.10 306.00
5.12 - 5.16 86 5.14 442.04
5.16 - 5.20 105 5.18 543.90
5.20 - 5.24 119 5.22 621.18
5.24 - 5.28 83 5.26 436.58
5.28 - 5.32 67 5.30 355.10
520 2704.80

2704.80
X 
520
 5.20

Propiedades de La Media Aritmética.

1. mK   K , donde K es una constante.

2. mKX   Km X   KX , donde X es una variable.
3. m X  K   m X   K  X  K
n
4.  ( Xi  X )  0 → Si la serie es simple
i0
n
5.  ( Xi  X )ni  0 → Si es una Serie de frecuencia
i0

La media aritmética de una serie de datos, es más representativa cuanta mayor

concentración presenten al rededor suyo los valores promediados.
38

 MEDIA GEOMÉTRICA: Se eleva cada valor al número de veces que

se ha repetido. Se multiplican todo estos resultados y al producto
final se le calcula la raíz "n" (siendo "n" el total de datos de la
muestra).
La Media Geométrica denotada por “G” responde a la siguiente
expresión:

G n
x1n1 x2n2 x3n3 ...... xknk
La Media Geométrica también se puede representar como:
1
G  ( x 1n1 x 2n2 x 3n3 ....... x knk ) n
Se pueden utilizar los logaritmos:

1 n lg xi
lg G  (n1 lg x1  n2 lg x2  n3 lg x3  ......  nk lg xk )   i
n n
ni lg xi
G = antilogaritmo  n
La media geométrica es la media aritmética de los logaritmos de los valores de la
variable. El problema se presenta cuando algún valor es 0 ó negativo.
Sólo es relevante la media geométrica si todos los números son positivos. Si uno
de ellos es 0, entonces el resultado es 0.

Ejemplo:
Hallar la Media Geométrica de la siguiente distribución:

xi ni
100 10
120 5
125 4
140 3
n = 22

Solución:
39

lg G 
 n i lg x i
n

Es necesario ampliar la tabla así:

Xi ni Log xi ni Log xi
100 10 Log 100 = 2 20
120 5 Log 120 = 2.079 10,396
125 4 Log 125 = 2.097 8,387
140 3 Log 140 = 2.146 6,438
n = 22 45.221

lg G 
 n i lg x i 
45,221
 2,056
n 22

G = antiLog. 2,0555 = 113,632

Observaciones:
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de
interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores. En todo caso, la media
aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los
valores de la serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la
media aritmética como geométrica) se puede ver muy influido por valores
extremos, que se aparten en exceso del resto de la serie. Estos valores
anómalos podrían condicionar en gran medida el valor de la media,
perdiendo ésta representatividad.

LA MEDIANA.
La mediana es el valor central de la variable ordenada, es decir, supuesta la
muestra ordenada en orden creciente o decreciente, la me es el valor que divide
en dos partes la muestra.
40

Para calcular la mediana debemos tener en cuenta si la variable es discreta o

continua.

Cálculo de la mediana en el caso discreto:

Se tiene en cuenta el tamaño de la muestra(n).

Cuando n es impar.
Se ordenan los datos con respecto a la variable de menor a mayor y la mediana es
el valor central de la variable.
Cuando n es par.
Se ordenan los datos con respecto a la variable de menor a mayor y la mediana es
el promedio de los 2 valores centrales de la variable.

Ejemplo1.

Xi Xi me = 4
1 1 Quiere decir que un 50% de los datos está por
debajo de 4.
7 2
5 3
6 4
4 5
2 6
3 7

Ejemplo2.

Xi Xi
4 4
6 6
9 7 7 8
7
10
8
9 m  2  75
e .
8 10
41

Ejemplo 3. Si se tiene una serie de frecuencias:

Xi ni Xi ni
1 4 1 4
5 2 2 5
4 3 3 1 me = 2
3 1 4 3
2 5 5 2
n =15 n = 15

Ejemplo 4.

Xi ni Xi ni
4 3 2 3
5 2 3 4 4+4
3 4 4 3 me = --------- = 4
2 3 5 2 2
6 4 6 4
n =16 n = 16

Ejemplo 5.

1,4,6,7,8,9,12,16,20, 24,25,27 ; N=12 1,4,6,7,8,9,12,16,20, 24,25,27,30;

N=13

Términos Centrales el 6º y 7º que Término Central el 7º que corresponde al 12

corresponden a los valores 9 y 12

Me = (9+12)/2=10.5 Me=12

Cálculo de la mediana en el caso continúo:

Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de

la siguiente forma:
 Determinamos el intervalo que contiene la mediana.

Es el correspondiente a la primera Ni > (n/2).

 Posteriormente se aplica la fórmula:

(n / 2)  ( Ni  1)
me  Li  *a
ni
Donde:
Li : Límite inferior del intervalo que contiene la mediana.
ni : Frecuencia absoluta del intervalo que contiene la mediana.
Ni-1 : Frecuencia absoluta acumulada anterior a la del intervalo que contiene la
mediana
a : Amplitud del intervalo que contiene la mediana.

Ejemplo1.

Valor Acciones Acciones

Acciones vendidas acumuladas Ni
5.08-5.12 60 60
5.12-5.16 86 146
5.16-5.20 105 251
5.20-5.24 119 370
5.24-5.28 83 453
5.28-5.32 67 520
520

n 520
Clase Mediana =   260
2 2

Intervalo donde se encuentra la me es (5.20 - 5.24).

260  251
me  5.20  * 0.04  5.20
119
El 50% de las acciones vendidas tienen un valor menor de $ 5.20.
43

Ejemplo2.

Suponga que los pesos de un grupo de 50 personas se distribuyen de la siguiente

forma:

Li-1 Li ni Ni Como el tamaño de la muestra es n=50, buscamos el

intervalo en el que la Frecuencia acumulada es mayor que
45 55 6 6 50/2=25, que en este caso

55 65 10 16 es el (65-75).
Luego la Mediana será:
65 75 19 35

25  16
me  65  *10  69.74
75 85 11 46

85 95 4 50 19
Ventajas de La Mediana.
 La mediana no es afectada por los valores extremos.
 Se puede utilizar para datos categóricos cuando n es impar y si hay un orden
jerárquico.

LA MODA

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que

más se repite, es la única medida de centralización que tiene sentido estudiar en
una variable categórica, pues no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más
valores de la variable que tengan la misma frecuencia siendo esta máxima. En
cuyo caso tendremos una distribución bimodal o polimodal según el caso.
Cálculo de la moda en el caso continúo:

Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de

la siguiente forma:
 Determinamos el intervalo que contiene la moda.
Es el que presente mayor frecuencia absoluta
 Posteriormente se aplica la fórmula:

nr  n r  1
Mo  Li  *a
2 nr  nr  1  n r  1
nr: frecuencia absoluta del intervalo que contiene la Mo
44

Ejemplo: Suponga que los pesos de un grupo de 50 personas se distribuyen de la

siguiente forma:

Li-1 Li ni Ni El intervalo que tiene mayor frecuencia absoluta es (65-75)

45 55 6 6

55 65 10 16

19  10
65 75 19 35
Mo  65  *10  70.29
75 85 11 46 2 *19  11  10
85 95 4 50

Ventajas de La Moda.

- No es afectada por los valores extremos.

- Se puede utilizar para datos categóricos.

5.3. MEDIDAS DE LOCALIZACIÓN: CUARTILES, DECILES Y PERCENTILES.

Las medidas de localización dividen la distribución en partes iguales, sirven para

clasificar a un individuo o elemento dentro de una determinada población o
muestra.
CUARTILES

Medida de localización que divide la población o muestra en cuatro partes iguales.

 Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.
 Q2= Valor de la variable que deja a la izquierda el 50% de la distribución
= mediana.

 Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.

Caso I: Variable cuantitativa discreta:

 Se ordenan los valores de la variable de menor a mayor.
45

 El Qr es el valor de la variable correspondiente a la primera Ni > nr / 4

r = 1, 2,3

Caso II: Variable cuantitativa continúa:

Si la variable es continua, la variable vendrá en intervalos, por lo que se calcula de
la siguiente forma:
 Determinamos el intervalo que contiene el Qr.
Es el correspondiente a la primera Ni > nr / 4 , r = 1, 2,3

 Posteriormente se aplica la fórmula:

(nr / 4)  ( Ni  1)
Qr  Li  *a
ni

DECILES.

Medida de localización que divide la población o muestra en diez partes iguales.

Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.

Caso I: Variable cuantitativa discreta:

 Se ordenan los valores de la variable de menor a mayor.

 El Dr es el valor de la variable correspondiente a la primera Ni > nr / 10
r=1, 2,3,…9
Caso II: Variable cuantitativa continua:
Si la variable es continua, vendrá en intervalos, por lo que se calcula de la
siguiente forma:

 Determinamos el intervalo que contiene el Dr.

Es el correspondiente a la primera Ni > nr / 10 , r=1, 2,3,…9

 Posteriormente se aplica la fórmula:

(nr / 10)  ( Ni  1)
Dr  Li  *a
ni
PERCENTILES.
Medida de localización que divide la población o muestra en cien partes iguales.
Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos,
depende del tipo de variable.
Caso I: Variable cuantitativa discreta:

- Se ordenan los valores de la variable de menor a mayor.

- El Pr es el valor de la variable correspondiente a la primera Ni > nr / 100
r=1, 2,3,…99
Caso II: Variable cuantitativa continua:
Si la variable es continua, vendrá en intervalos, por lo que se calcula de la
siguiente forma:
 Determinamos el intervalo que contiene el Pr.
Es el correspondiente a la primera Ni > nr / 100 , r=1, 2,3,…99

 Posteriormente se aplica la fórmula:

( nr / 100)  ( Ni  1)
Pr  Li  *a
ni

Ejemplo 1.

Considerar el salario diario de 6 personas en miles de pesos.

Determinar:

a. El tercer cuartil. b. El decil quinto. c. El percentil cincuenta.

Solución:
a.
Xi Ni Q3: (n*3)/4 = (6*3)/4 = 4.5; primera Ni >4.5=5
3 1 Luego Q3 = 14
5 2 El 75% de los trabajadores ganan menos de $
9 3 14000 diarios.
11 4 b.
14 5 D5: (n*5)/10 = (6*5)/10 = 3; primera Ni >3=4
16 6 Luego D5 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.
c.
P50: (n*50)/100 = (6*50)/100 = 3; primera Ni >3=4
Luego P50 = 11
El 50% de los trabajadores ganan menos de
$11000 diarios.

Ejemplo 2.

Considerar el salario diario de 15 personas en miles de pesos.

Determinar:

a. La mediana. b. El cuartil segundo. c. El decil quinto. d. El percentil cincuenta.

Solución: a. me = 6
Xi ni Ni
4 3 3 b. Q2 : (15*2)/4 = 7.5 ; primera Ni >7.5=9
5 4 7 Luego Q2 = 6
6 2 9
7 5 14 c. D5 : (15*5)/10 = 7.5 ; primera Ni >7.5=9
9 1 15 Luego D5 = 6
n = 15
d. P50 : (15*50)/100 = 7.5 ; primera Ni >7.5=9
Luego P50 = 6

Me = Q2 = D5 = P50
48

Ejemplo 3.

Suponga que los pesos de un grupo de 50 personas se distribuyen de la siguiente

forma:

Li Ls ni Ni
45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Calcular: Q1, Q3, D3, y P45

Solución:

Q1: (n1)/4 = (501)/4 = 12.5; primera Ni >12.5=16

Luego el intervalo que contiene el Q1 es (55-65)

(12.5)  6
Q1  55  *10  61.5
10
Q3: (n*3)/4 = (50*3)/4 = 37.5; primera Ni >37.5=46

Luego el intervalo que contiene el Q3 es (75-85)

(37.5)  (35)
Q3  75  *10  77.27
11
D3: (n*3)/10 = (50*3)/10 = 15; primera Ni >15=16
Luego el intervalo que contiene el D3 es (55-65)
49

(15)  (6)
D3  55  *10  64
10

P45: (n45)/100 = (5045)/100 = 22.5; primera Ni >22.5=35

El intervalo que contiene el P45 es (65-75)

(22.5)  (16)
P45  65  *10  68.421
19
5.4. MEDIDAS DE DISPERSIÓN O VARIABILIDAD

De todas las medidas de posición estudiadas, es la media aritmética, la más

utilizada en la práctica. Pero no siempre su empleo es correcto, por causa de su
posible falta de representatividad, debido a la excesiva dispersión de los valores de
la variable a su alrededor.
Será más representativa la media aritmética de una variable, cuanta mayor
concentración presenten alrededor suyo los valores promedios.

Resulta necesario para completar la información que pueda deducirse de la media

aritmética y para evitar falsas conclusiones e interpretaciones acompañar este
promedio con un coeficiente que nos mida el grado de dispersión de la distribución
de la variable.

Las medidas de dispersión indican el grado de dispersión o de variabilidad de los

valores de la variable con respecto a una medida de posición. También me indican
el error que se comete o se va a cometer al tomar una determinada medida de
posición.

 AMPLITUD O RANGO

Se obtiene restando el valor mas bajo del más alto en un conjunto de

observaciones. La amplitud tiene la ventaja de que es fácil de calcular y sus
unidades son las mismas que las de la variable que se mide. La amplitud no
toma en consideración el número de observaciones de la muestra
estadística, sino solamente la observación del valor máximo y la del valor
50

mínimo. Sería deseable utilizar también los valores intermedios del conjunto
de observaciones.

R = Xn - X1

 RANGO INTERCUARTIL.

Es el valor correspondiente al cuartil tercero menos el cuartil primero.

RIC = Q3 - Q1

 DESVIACIÓN MEDIA

Esta medida es más acorde que la de amplitud, ya que involucra a todos los
valores del conjunto de observaciones corrigiendo la desviación. Una medida
como ésta tiene la ventaja de que utiliza cada observación y corrige la
variación en el número de observaciones al hacer la división final. Y por
último también se expresa en las mismas unidades que las observaciones
mismas.

 LA VARIANZA.

Se define como la media aritmética de los cuadrados de las diferencias de los

valores de la variable con respecto a su media.

Cálculo de la varianza muestral

En una Serie Simple:

 ( Xi  X ) 2

s 2
 i 1
n 1

En una Serie de Frecuencia:

 ( Xi  X ) n 2
i

s 2
 i 1
n 1
Ejemplo 1. Considere una variable cuyos datos son: 5, 4,[Link] la varianza.

Xi (Xi - X )² X =5
5 0
4 1 s² = (2/2) = 1
6 1
2

Ejemplo 2. Considere las notas de 5 estudiantes. Determine la varianza.

Xi
4
ni
2
Xini
8
(Xi - X )²ni
0.08
 Xini 19
5 1 5 1.44 X    3.8
n 5
 4   0.7
3 2 6 1.28
5 19 2.80
s 2
 2.8

Otra Fórmula de cálculo de la varianza:

(X  X ) ni
2
i

s 2
 i 1

n 1
n

(X i
2
 X 2  2 XiX )ni
s 2
 i 1

n 1
n

X i
2
ni  nX 2  2nX 2
s 2
 i 1

n 1
n

X i
2
ni  nX 2
s 2
 i 1

n 1
Propiedades de La Varianza.

1. V (K) = 0 K: ES UNA CONSTANTE

2. V (KX) = K² V(X) = K² s²x X : ES UNA VARIABLE
3. V(X ± K) = V(X)
Calculo de La Varianza cuando La Variable esta Agrupada en intervalos

En éste caso se toma como Xi las marcas de clase y se procede de igual forma.

La fórmula para calcular la varianza tiene una desventaja, y es que sus unidades
no son las mismas que las de las observaciones, ya que son unidades cuadradas.

Esta dificultad se soluciona, tomando la raíz cuadrada .Esto da lugar a otra

medida:

 DESVIACIÓN E STANDARD O TÍPICA.

Es la raíz cuadrada de la varianza.

Si la serie es simple:

Entonces en este caso la unidad es la misma que la del conjunto de

observaciones de la muestra estadística.

Ejemplo:

Considerando el ejercicio anterior, calcular la desviación típica.

s = 0.7 = 0.836

Mientras más pequeña sea la desviación estándar más representativa será la media
aritmética.

 COEFICIENTE DE VARIACIÓN O DISPERSION RELATIVA.

Mide el error con respecto a la media, pero en términos de porcentaje.

s
C.V    *100
X
Ejemplo.
X 4
Xi (Xi- X )²  
S2  2  1
2
4 0
3 1 S 1
5 1
2  
C.V .  1 * 100  25%
4

5.5 MEDIDAS DE FORMA.

Una propiedad importante de una serie de datos es su forma, o sea la manera en

que los datos se distribuyen. Las medidas de forma permiten conocer que forma
tiene la curva que representa la serie de datos de la muestra.

En concreto, podemos estudiar las siguientes características de la curva:

a) Concentración: mide si los valores de la variable están más o menos

uniformemente repartidos a lo largo de la muestra.
b) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al
centro de la misma (centro de simetría) los segmentos de curva que quedan a
derecha e izquierda son similares.
c) Curtosis: mide si los valores de la distribución están más o menos
concentrados alrededor de los valores medios de la muestra.
a) Concentración

Para medir el nivel de concentración de una distribución de frecuencia se pueden

utilizar distintos indicadores, entre ellos el Índice de Gini.

Este índice se calcula aplicando la siguiente fórmula:

Σ (pi - qi)
IG = ----------------------------

Σ pi

(i toma valores entre 1 y n-1)

En donde pi mide el porcentaje de individuos de la muestra que presentan un

valor igual o inferior al de XI. Cada pi es la frecuencia relativa acumulada (Hi).

n1 + n2 + n3 + ... + ni

pi = ---------------------------- x 100

Mientras que qi se calcula aplicando la siguiente fórmula:

(X1n1) + (X2n2) + ... + (Xi*ni)

qi = -------------------------------------------- x 100

(X1n1) + (X2n2) + ... + (Xn*nn)

El Índice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0: concentración mínima. La muestra está uniformemente repartida a lo largo

de todo su rango.
IG = 1: concentración máxima. Un sólo valor de la muestra acumula el 100% de
los resultados.
Ejemplo 1: Calcular el Índice Gini de una serie de datos con los sueldos de los
empleados de una empresa (millones de pesos).
Empleados (Frecuencias
Sueldos Frecuencias relativas
absolutas)
(Millones) Simple Acumulada Simple Acumulada
x x x x x
3,5 10 10 25,0% 25,0%
4,5 12 22 30,0% 55,0%
6,0 8 30 20,0% 75,0%
8,0 5 35 12,5% 87,5%
10,0 3 38 7,5% 95,0%
15,0 1 39 2,5% 97,5%
25.0 1 40 2,5% 100,0%
Calculo de los valores que se requieren para aplicar la fórmula del Índice de Gini:
Hi=
Xi ni Ni Xi * ni Σ(Xi * ni) qi pi - qi
pi
x x x x x x x x
3,5 10 10 25,0 35,0 35,0 (35/257)*100=13,6 11.4

4,5 12 22 55,0 54,0 89,0 (89/257)*100 =34,6 20.4

6,0 8 30 75,0 48,0 147,0 (147/257)*100=57,2 17.8
8,0 5 35 87,5 40,0 187,0 (187/257)*100=72,8 14.7
10,0 3 38 95,0 30,0 217,0 (217/257)*100=84,4 10.6
15,0 1 39 97,5 15,0 232,0 232/257)*100=90,3 7.2
25,0 1 40 100,0 25,0 257,0 (257/257)*100=100,0 0
x x x x x x x x
Σ pi (entre 1 y n-1) = 435,0 x Σ (pi - qi) (entre 1 y n-1 ) = 82.1

Por lo tanto:

IG = 82.1 / 435,0 = 0,19

Un Índice Gini de 0,19 indica que la muestra está bastante uniformemente

repartida, es decir, su nivel de concentración no es excesivamente alto.
Ejemplo 2: Analizar nuevamente la muestra anterior, pero considerando que hay
más personal de la empresa que cobra el sueldo máximo, lo que conlleva mayor
concentración de renta en unas pocas personas.
Empleados (Frecuencias
Sueldos Frecuencias relativas
absolutas)
(Millones) Simple Acumulada Simple Acumulada
x x x x x
3,5 10 10 25,0% 25,0%
4,5 10 20 25,0% 50,0%
6,0 8 28 20,0% 70,0%
8,0 5 33 12,5% 82,5%
10,0 3 36 7,5% 90,0%
15,0 0 36 0,0% 90,0%
25.0 4 40 10,0% 100,0%
En este caso obtendríamos los siguientes datos:

Xi ni Ni Hi= pi Xi * ni Σ Xi * ni qi pi - qi
x x x x x x x x
3,5 10 10 25,0 35 35 11,7 13,3

4,5 10 20 50,0 45 80 26,8 23,2

6,0 8 28
70,0 48 128 43,0 27.0
8,0 5 33
82,5 40 168 56,4 26,1
10,0 3 36
90,0 30 198 66,4 23,6
15,0 0 36
90,0 0 198 66,4 23,6
25,0 4 40
100,0 100 298 100,0 0,00
x x x x x x x x
Σ pi (entre 1 y n-1) = 407,5 x Σ (pi - qi) (entre 1 y n-1 ) = 136,8
El Índice Gini sería:

IG = 136,8 / 407,5 = 0,34

El Índice Gini se ha elevado considerablemente, reflejando la mayor concentración

de rentas que hemos comentado.

b) Asimetría Para describir la forma sólo necesitamos comparar la media y la

mediana. Si estas dos mediciones son iguales, por lo general podemos considerar
que los datos son simétricos. Si la media excede a la mediana, los datos pueden
describirse de sesgo positivo o sesgado a la derecha. Si la media es menor que la
mediana, estos datos pueden llamarse de sesgos negativos o sesgados a la
izquierda.
El Coeficiente de Asimetría índica la forma en que los datos se distribuyen. Nos
dice si la distribución es simétrica o no.



3 X  Me 
Coeficiente de asimetria Muestral s
 Si es igual a cero indica que los datos se distribuyen en forma simétrica
(Media igual a la Mediana).
 Si es mayor que cero se dice los datos se distribuyen en forma asimétrica
positiva o sesgada a la derecha. (Media mayor a Mediana).
 Si es menor que cero se dice que los datos se distribuyen en forma asimétrica
negativa o sesgada a la izquierda. (Media menor a Mediana).

c) Curtosis

El Coeficiente de Curtosis analiza el grado de concentración que presentan los

valores alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
58

Distribución mesocúrtica: presenta un grado de concentración medio alrededor

de los valores centrales de la variable (el mismo que presenta una distribución
normal).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor
de los valores centrales de la variable.

g
Teniendo en cuenta que 2 vale 3 para una distribución normal tipificada se
acostumbra calcular el Coeficiente de Curtosis con la fórmula:

(1 / n) ( X i  X ) 4 ni
g2  4
3
S
Los resultados pueden ser los siguientes:

g2 = 0 para la curva normal tipificada (distribución mesocúrtica).

g2 > 0 en las curvas leptocúrticas (distribución leptocúrtica).

g2 < 0 en las curvas platocúrticas (distribución platicúrtica).

Ejemplo: Calcular el Coefiente de Curtosis de la serie de datos referidos a la

estatura de un grupo de alumnos:
59

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada
x x x x x

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

La media de esta muestra es 1,253

(1/30) * 0,00004967

- 3 = -1,39
g2 = ---------------------------------------

((1/30) * (0,03046667))^2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que

quiere decir que se trata de una distribución platicúrtica, es decir, con una
reducida concentración alrededor de los valores centrales de la distribución.

5.6. ANALISIS EXPLORATORIO DE DATOS

Uno de los enfoques del análisis exploratorio de datos es presentar un resumen de

los cinco números y construir un diagrama de caja y sesgos.

RESUMEN DE LOS CINCO NÚMEROS.

El resumen de cinco números consiste en

X min Q 1 Mediana Q 3
X max

DIAGRAMA DE CAJA Y SESGOS

Permite tener una idea visual de la distribución de los datos. O sea, determinar si
hay simetría, ver el grado de variabilidad existente y finalmente detectar
“outliers”.
Es una representación gráfica de los datos mediante el resumen de los cinco
números.

Gráfico 1

Distribución Simétrica

Distribución Sesgada a la Izquierda Distribución Sesgada a la Derecha

La caja contiene el 50% de las observaciones en medio de la distribución. El 25%

inferior y el 25% superior representado por las líneas punteadas.

Los gráficos de caja muestran los valores atípicos de la variable. Llamaremos

valores atípicos de la variable a aquellos que están tan apartados del cuerpo
principal de los datos que bien pueden representar los efectos de causas extrañas,
como algún error de medición o registro. Su eliminación no se justifica, ya que el
propósito del gráfico de caja consiste en brindarnos un mayor conocimiento de la
forma en que se distribuyen los datos.

Tukey (citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de
los [Link] esto calcula 4 barreras, dos interiores y dos exteriores:

Barrera interior inferior=Primer cuartil – 1,5 RIC

Barrera interior superior=Tercer cuartil + 1,5 RIC
Barrera exterior inferior=Primer cuartil – 3 RIC
Barrera exterior superior=Tercer cuartil + 3 RIC
61

Si se consideran los valores de la variable comprendidos entre las dos barreras

interiores, el valor mínimo de la variable y el valor máximo son los extremos
de los bigotes.

Si existen valores de la variable comprendidos entre las barreras interiores y

exteriores se consideran valores atípicos y se indican con *

Si existieren valores fuera de las barreras exteriores se consideran valores todavía

más atípicos y se indican con ·

Por otra parte, este tipo de gráfico nos proporciona información con respecto a la
simetría o asimetría de la distribución. Se utilizan los siguientes criterios: si la
mediana está en el centro de la caja o cerca de él, constituye un indicio de
simetría de los datos, si la mediana está considerablemente más cerca del primer
cuartil indica que los datos son positivamente asimétricos y si está más cerca del
tercer cuartil, señala que los datos son negativamente asimétricos. Asimismo, la
longitud relativa de los bigotes se puede emplear como un indicio de su asimetría.
Ejemplo.

Suponga que el rendimiento de las inversiones de 21 compañías al término de un

año en cierto ramo de la industria es:

-24,6 2,6 2,4 2,7 3,8 5,6 5,9

6,7 7,0 7,2 7,5 8,0 8,2 8,5

8,6 8,8 9,0 9,2 9,7 10,0 20,5

Trace un diagrama de caja para estos datos, señalando valores atípicos.

Solución

En base a los datos obtenemos que:

Mediana: 7,5

Cuartil 1: 5,6
62

Cuartil 3: 8,8
RIC: 3,2
Las barreras son:
Barrera exterior inferior=Q1 - 3.0 RIC=5,6 - 3.0 (3,2)=-4,0
Barrera exterior superior=Q3 + 3.0 RIC=8,8 + 3.0 (3,2)=18,4
Barrera interior inferior=Q1 - 1.5 RIC=5,6 - 1.5 (3,2)=0,8

Barrera interior superior=Q3 + 1.5 RIC=8,8 + 1.5 (3,2)=13,6

La prueba de las barreras identifica dos valores atípicos importantes, -24,6 y 20,5
y un posible valor atípico, -2,6. (Una gráfica de los datos indica que los valores
atípicos importantes son obviamente valores extremos y que el valor dudoso
queda posiblemente excluido).
El gráfico de caja para este problema es el siguiente:

Gráfico 2

Rendimiento de Inversiones

-25 -20 -15 -10 -5 0 5 10 15 20 25

RELACIÓN GRÁFICA ENTRE LAS MEDIDAS DE POSICIÓN CENTRAL,
rendimiento

Los diagramas de caja son de gran utilidad en las comparaciones gráficas de

conjuntos de datos, ya que tienen impacto visual y son fáciles de entender.
63

RELACIÓN GRÁFICA ENTRE LAS MEDIDAS DE POSICIÓN CENTRAL,

LAS MEDIDAS DE LOCALIZACIÓN Y DIAGRAMAS DE CAJA Y SESGOS
Ejercicio

El precio de un interruptor magentotérmico en 10 comercios de electricidad de una

ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda,
mediana, diagrama de barras y el diagrama de caja.
SOLUCIÓN:

[El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido]
64

CAPITULO 6.
MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES NUMÉRICAS

OBJETIVOS DEL CAPÍTULO

 Determinar si las dos variables están relacionadas, es decir si los valores
de una variable tienden a ser más altos o más bajos para valores más altos
o más bajos de la otra variable.

 Valorar el nivel de concordancia entre los valores de las dos variables.

6.1. DEFINICIÓN Y REPRESENTACIÓN GRÁFICA

Las estadísticas de dos variables resultan de observar conjuntamente dos

caracteres de los elementos que componen un colectivo ó una muestra.
Las parejas de valores observados se dispondrán en dos columnas, una para los
valores de X y otra para los valores de Y.

Cuando las parejas de valores (X, Y) presentan repeticiones o frecuencias se

acostumbra disponer los resultados en una tabla de doble entrada constituida de
la siguiente manera:

Yj
Xi y1 • • • yj • • • ys TOTAL

x1 n11 • • • n1j • • • n1s n1•

• • • • • • •
• • • • • • •
• • • • • • •
xi ni1 • • • nij • • • nis ni•
• • • • • • •
• • • • • • •
• • • • • • •
xr nr1 • • • nrj • • • nrs nr•
TOTAL n•1 • • • n•j • • • n•s n
65

nij : Número de elementos en la muestra con las características Xi y Yj.

ni• =  nij : Número de elementos en la muestra con la característica Xi.

n•j =  nij : Número de elementos en la muestra con la característica Yj.

Los valores de las variables X y Y que aparecen en la tabla de doble entrada

pueden ser singulares o por intervalos.

Tal como se puede ver, en cada casilla se recoge el número de veces que se
presenta conjuntamente cada par de valores (x, y).
Al analizar una distribución bidimensional, uno puede centrar su estudio en el
comportamiento de una de las variables, con independencia de como se comporta
la otra. Estaríamos así en el análisis de una distribución marginal.

Luego de cada distribución bidimensional se pueden deducir dos distribuciones

marginales: una correspondiente a la variable X, y otra correspondiente a la
variable Y.

Distribución marginal de X
X ni.
x1 n1.
x2 n2.
..... ...
x r-1 n r-1.
xr n r.

Distribución marginal de Y
Y n.j
y1 n.1
y2 n.2
..... ...
ys-1 n.s-1
ys n.s
66

Ejemplo: Al considerar el peso y la estatura de los alumnos de una clase se

obtuvieron los siguientes resultados:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

1 1,25 32 11 1,25 31 21 1,25 33
2 1,28 33 12 1,28 35 22 1,28 32
3 1,27 31 13 1,27 34 23 1,27 34
4 1,21 34 14 1,21 33 24 1,21 34
5 1,22 32 15 1,22 33 25 1,22 35
6 1,29 31 16 1,29 31 26 1,29 31
7 1,30 34 17 1,30 35 27 1,30 34
8 1,24 32 18 1,24 32 28 1,24 33
9 1,27 32 19 1,27 31 29 1,27 35
10 1,29 35 20 1,29 33 30 1,29 34

Esta información se puede representar de un modo más organizado en la

siguiente tabla de doble entrada:

Estatura / Peso 31 Kg 32 kg 33 kg 34 kg 35 kg
1,21 cm 0 0 1 2 0
1,22 cm 0 1 1 0 1
1,23 cm 0 0 0 0 0
1,24 cm 0 2 1 0 0
1,25 cm 1 1 1 0 0
1,26 cm 0 0 0 0 0
1,27 cm 2 1 0 2 1
1,28 cm 0 1 1 0 1
1,29 cm 3 0 1 1 1
1,30 cm 0 0 0 2 1

Las variables marginales se comportan como variables unidimensionales, por lo

que pueden ser representadas en tablas de frecuencias.
67

La distribución marginal de la variable X (estatura) está dada por:

Variable Frecuencias absolutas Frecuencias relativas

(Estatura) Simple Acumulada Simple Acumulada
1,21 3 3 10,0% 10,0%
1,22 3 6 10,0% 20,0%
1,23 0 6 0,0% 20,0%
1,24 3 9 10,0% 30,0%
1,25 3 12 10,0% 40,0%
1,26 0 12 0,0% 40,0%
1,27 6 18 20,0% 60,0%
1,28 3 21 10,0% 70,0%
1,29 6 27 20,0% 90,0%
1,30 3 30 10,0% 100,0%

La distribución marginal de la variable Y (peso) está dada por:

variable Frecuencias absolutas Frecuencias relativas

(Peso) Simple Acumulada Simple Acumulada
31 6 6 20,0% 20,0%
32 6 12 20,0% 40,0%
33 6 18 20,0% 60,0%
34 7 25 23,3% 83,3%
35 5 30 16,6% 100,0%

Cuando las parejas de valores (X, Y) no presentan repeticiones se acostumbra

disponer los resultados en un diagrama de dispersión ó nube de puntos,
tomándose los valores de la variable X en el eje de las abscisas y los de la
variable Y en el eje de las ordenadas y señalándose la confluencia en el plano
con un punto.
Ejemplo: AL ser consideradas las ventas (millones de $) y el número de
comerciales se tiene el diagrama de dispersión dado en el gráfico siguiente:
68

Semana Comerciales Ventas

1 2 50

2 5 57

3 1 41

4 3 54

5 4 54

6 1 38

7 5 63

8 3 48

9 4 59

10 2 46

6.2. COVARIANZA Y CORRELACIÓN

En ocasiones, quien toma las decisiones, le interesa saber la relación entre dos
variables. En tales condiciones se hace necesario conocer los conceptos de
covarianza y correlación como medidas de relación entre las dos variables.

LA COVARIANZA.

Es una medida estadística del grado en que dos variables varían juntas. Por
ejemplo: medir el grado de relación entre los rendimientos de un título valor y los
rendimientos del mercado.
69

Covarianza de la muestra

Para una muestra de n pares de valores (x1, y1), (x2, y2),…, (xn, yn), la covarianza
de la muestra se define como:

 x  x y  y 
n

t t t t

s  t 1
xy
n 1
Resolviendo la sumatoria y simplificando, se obtiene otra manera de hallar la
covarianza, dada por:

 xt y  n x y t

s 
xy n 1
Interpretación:

Un valor positivo de Sxy significa que ambas variables se mueven en la misma

dirección, y un valor negativo de Sxy significa que las variables se mueven en
direcciones contrarias.

NOTA: El inconveniente de la covarianza, como medida de asociación es su

dependencia de las unidades. Habrá que definir una nueva medida, que no está
afectada por los cambios en las unidades de medida. Esta medida será el
coeficiente de correlación lineal rxy.

CORRELACIÓN

Mide el grado de correlación lineal entre las variables. Nos muestra efectivamente
qué relación existe entre las variables.

Coeficiente de Correlación Lineal Muestral.


S xy
r xy
SS
x y
Donde;
rxy : Coeficiente de correlación lineal muestral.
Sxy : covarianza de la muestra
Sx : desviación estándar muestral de X
Sy : desviación estándar muestral de Y

Interpretación:
Si rxy tiende a 1, quiere decir que existe correlación lineal alta y directa entre las
variables.
Si rxy tiende a -1, quiere decir que existe correlación lineal alta e inversa entre las
variables.
Si rxy = 0, quiere decir que no existe correlación lineal entre las variables.

Nota: Cuando las variables X e Y son independientes, Sxy =0, y por tanto rxy =0.
No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen
covarianza cero, no podemos decir que son independientes. Sabemos que
linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser
independientes.

EJEMPLO: Consultadas 10 personas sobre su ingreso y gasto semanal (en miles

de $ ambas variables) se tiene:

ingreso(X) gasto(Y) X*Y X2 (X- X ) (X- X )2 (Y- Y ) (Y- Y )2 (X- X ) (Y- Y )

80 70 5600 6400 -90 8100 -41 1681 3690
100 65 6500 10000 -70 4900 -46 2116 3220
120 90 10800 14400 -50 2500 -21 441 1050
140 95 13300 19600 -30 900 -16 256 480
160 110 17600 25600 -10 100 -1 1 10
180 115 20700 32400 10 100 4 16 40
200 120 24000 40000 30 900 9 81 270
220 140 30800 48400 50 2500 29 841 1450
240 155 37200 57600 70 4900 44 1936 3080
260 150 39000 67600 90 8100 39 1521 3510
∑ 1700 1110 205500 322000 0 33000 0 8890 16800
TABLA 1
S2Y=8890/9 Sx,y =16800/9=1866,66
X =1700/10=170
71

S2X=33000/9=3666,66 S2Y=987,77

SX = 3666.66 =60.55 SY =31,42 r = 1866,66/(60,55*31,42)=0,98

SXY =1866,66  Indica que las variables ingreso y gasto se mueven en la misma
dirección (al crecer el ingreso, crece el gasto).
r = 0,98  Indica que existe correlación lineal alta y directa entre el ingreso y el
gasto.
72

CAPITULO 7.

REGRESIÓN LINEAL SIMPLE

OBJETIVOS DEL CAPÍTULO

 Desarrollar el ajuste del modelo de regresión lineal simple.

 Predecir el valor de una variable dado un valor determinado de la otra

variable.

 Determinar el coeficiente de determinación y el error estándar de la

estimación.

7.1. INTRODUCCIÓN.

En muchas ocasiones las decisiones se basan en la relación entre dos o más

variables.
Ejemplos.
Se puede tener interés:

En la relación entre las ventas y la publicidad con el objeto de predecir las ventas
según la inversión en publicidad.
En la relación entre los rendimientos de un título valor y los rendimientos del
mercado con el objeto de predecir los rendimientos de dicho título.
En medir la relación entre las tasas de variación en el salario nominal y la tasa de
desempleo.
En medir la relación entre la demanda de un bien con relación al precio.
En medir la relación entre la demanda monetaria con relación a las tasas de
interés.

Para medir las anteriores relaciones se deben de considerar dos aspectos

importantes: El análisis de regresión y el análisis de correlación.

 Análisis de Regresión.

El análisis de regresión trata de la dependencia de una variable, la variable

dependiente o explicada, en función de otra, la variable independiente o
explicativa, con el objeto de estimar o predecir el valor medio de la variable
dependiente conocidos o fijados los valores de la variable independiente.
73

 Análisis de Correlación.

Determina la fuerza ó el grado de asociación lineal entre dos variables. En el

estudio de la correlación, la designación de la variable dependiente e
independiente es una elección puramente personal.

7.2. MODELO DE REGRESIÓN LINEAL SIMPLE

Es una ecuación que muestra cómo se relaciona la variable dependiente Y con la
variable independiente X.

Si la relación es lineal, la ecuación sería:

yt = 1+2 xt+ut

Donde: ut se llama "Termino de error o término de perturbación estocástico.

ut explica la variabilidad en Y que no se puede explicar con la relación Lineal

entre Y y X.
1 y 2se llaman coeficientes de regresión poblacional o parámetros del
modelo.

Se acostumbra utilizar el subíndice t cuando los datos están a través del tiempo y
el subíndice i cuando los datos son de corte transversal.

ECUACIÓN DE REGRESIÓN ESTIMADA

Como los valores de los parámetros del modelo no se conocen, en la práctica, se

deben estimar utilizando los datos de la muestra. Se calculan estadísticos de la
muestra (denotados por a y b) como estimados de los parámetros 1 y 2
74

respectivamente. Al sustituir los valores de los parámetros 1 y 2 por los

estimados a y b, obtenemos la ecuación de regresión estimada dada por:

ŷt = a + b xt

Donde: ŷ es el valor estimado de y para determinado valor de x.

La gráfica se llama línea de regresión estimada.

METODO DE LOS MÍNIMOS CUADRADOS

Consiste en minimizar la suma de los cuadrados de la diferencia entre los y y

Los ŷ.

Min Σ (y- ŷ) = Min Σ (y- a-bx)

2 2

Derivando parcialmente con respecto a a e igualando dicha derivada a cero se

obtiene:

 y  n a  b x
t t 

Derivando parcialmente con respecto a b e igualando dicha derivada a cero se

obtiene:

x y a x  b x
2
t t t 

 y  reciben el nombre de ECUACIONES NORMALES.

Se tiene un sistema de dos ecuaciones con dos incógnitas que al resolverlas
por determinantes (u otro método) se obtienen las fórmulas para a y b.
75

n y t


x t x y t t
b
n x t

x x
2
t t

n  x y  ( x ) y 
b
t t

n  x   x 
t t
2 2
t t

Otra manera de hallar b es dividir la covarianza (X, Y) por la varianza de la

variable X.
S xy
b= 2
Sx
Otra forma, sería conociendo el coeficiente de correlación lineal(r) así:
Sy
b= r
Sx
b mide el cambio en el valor medio de Y por cambio de una unidad en X.
Dividiendo la ecuación  por n se tiene:

Y  a b X , luego a Y b X

EJEMPLO: Utilizando los datos e información de la tabla 1 se tiene el siguiente

diagrama de dispersión:
76

Diagrama de dispersión

Observando el diagrama de dispersión se detecta que el modelo a ajustar es

lineal.

ŷt = a + b xt

S xy 1866.66
b = 2 = 3666.66 =0.509
Sx
a Y b X = 111-0.509*170=24.47

ŷt = 24.47 + 0.509 xt

a=24.47  Es el intercepto de la línea e indica que, el gasto promedio es de

24470$ Semanales cuando el ingreso es cero.
b= 0.509  Es la pendiente de la línea e indica que, un incremento de 1000$ en
el ingreso Conlleva, en promedio, a un incremento en el gasto de
509$.
77

Recta de regresión de Y sobre X [ y = a + b x+u]

En cada par de valores (X, Y) consideramos

que al valor observado Xi le corresponde un
valor observado o experimental Yj y otro
teórico que sería el que le correspondiera
en la recta como función. A la distancia entre
estos dos valores, teórico y experimental, la
denotamos:

7.2. COEFICIENTE DE DETERMINACIÓN

Una vez ajustada la recta de regresión a la nube de puntos o´diagrama de

dispersión, es importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
de determinación, definido como sigue.

Puede demostrarse la relación:

Suma total de cuadrados (STC)=Suma explicada de cuadrados (SEC) + Suma de
residuales cuadrado (SRC).
Donde:

STC = ∑ ( yt  y )2

SEC = ∑ (ŷt  y )2

SRC = ∑ ( y t - ŷt)2
El coeficiente de determinación, denotado por r2, se define como:

SEC
r2 = STC

0 < r2 < 1.
78

2
El r indica: Qué proporción ó qué % de la variabilidad de la variable dependiente
(Y) es explicado por la variable independiente(X).
Otra forma:

2
2

S xy
r xy 2 2
S S x y
EJEMPLO. Utilizando los datos e información de la tabla 1 y la ecuación de
regresión estimada, determinar el coeficiente de determinación.

ŷt (ŷt  y )2 (Yt- ŷt)2

65,19 2098,5561 23,1361
75,37 1269,4969 107,5369
85,55 647,7025 19,8025
95,73 233,1729 0,5329
105,91 25,9081 16,7281
116,09 25,9081 1,1881
126,27 233,1729 39,3129
136,45 647,7025 12,6025
146,63 1269,4969 70,0569
156,81 2098,5561 46,3761
∑1110 8549,673 337,273

SEC 8549.673
r2 = STC
= = 0.96
8890

Otra forma:
Conocido el coeficiente de correlación lineal se eleva al cuadrado.

r2=0,98^2=0,96  Indica que el 96% de la variabilidad en el gasto es explicado

por el ingreso.
79

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación

lineal que hay entre ambas variables es el coeficiente de correlación lineal.
El coeficiente de correlación lineal muestral (o coeficiente de correlación de

S
r xy 
xy
Pearson) es definido por:
SS x y

r = ±1 indica una relación lineal exacta positiva (creciente) o negativa

(decreciente),
r = 0 indica la no existencia de relación lineal, pero no indica independencia de las
variables ya que puede existir una relación no lineal.
Valores intermedios de r indican la existencia de una relación lineal, más fuerte
cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se

exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 1. Existe una dependencia funcional lineal, las observaciones están
sobre la recta de regresión. r = r2 = 1, recta de regresión: ŷ = x.
80

Figura 2. La relación lineal entre las variables es muy pequeña y no parece que
exista otro tipo de relación entre ellas, la nube de puntos indica que las variables
son “casi” independientes.

r = 0.192, r2 = 0.037, recta de regresión: ŷ = 6'317 + 0'086x.

Figura 3. Existe una dependencia funcional entre las observaciones pero no de

tipo lineal, por tanto la correlación es muy pequeña .Es de tipo parabólico.

r = 0'391, r2 = 0'153, recta de regresión: ŷ = 32'534 - 1'889x.

Figura 4. La nube de datos se ajusta razonablemente a una recta con pendiente

positiva.

r = 0'641, r2 = 0'410, recta de regresión: ŷ = -3' 963 + 1'749x.

Figura 5. Existe una fuerte dependencia lineal negativa entre las dos variables y
la correlación es muy alta (próxima a 1).

r = 0'924, r2 = 0'846, recta de regresión: ŷ = -2'528 - 2'267x

7.4. ERROR ESTÁNDAR DE LA ESTIMACIÓN

Una vez se tiene la ecuación de regresión estimada, se observa tanto gráfica

como analíticamente, que se dan unas diferencias entre los distintos valores
estimados ( ŷ), y los correspondientes valores observados (Y).
Una medida de dicha variación es dada por el error estándar de estimación:
SRC
Se = n2
Se: Mide la dispersión media entre el ŷ y el Y.
EJEMPLO. Utilizando los datos e información de la tabla 1, determinar el error
estándar de la estimación.

337.273
Se =  6.493
10  2
Se = 6.493  Indica que la dispersión media entre el consumo observado y el
consumo estimado es de 6493$

7.5. ANALISIS DE RESIDUALES

 Evaluación de la regresión ajustada.

Una de las utilidades del análisis de los residuos, definidos como la diferencia
entre los valores observados de la variable dependiente (Y) y los valores
84

estimados (ŷ), es saber si el modelo lineal ajustado es el adecuado. Para ello, se

utiliza el gráfico de los residuales ( et) versus la variable independiente( X), y si no
se presenta ningún patrón sistemático (línea recta, parábola, exponencial,
potencial, entre otros) se dice que el modelo ajustado es el adecuado para los
datos.
EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los et, en el

gráfico siguiente no se observa ningún patrón, indicando que la regresión lineal
ajustada es adecuada.

RESIDUALES VS. X
9

1
et

-3

-7

-11
80 110 140 170 200 230 260
X

 Supuesto de normalidad de los residuales

Para probar si los residuales cumplen con el supuesto de normalidad, se puede

hacer la distribución de frecuencia de los residuales con su correspondiente
histograma de frecuencia relativa .Si se presenta simetría en el histograma se
podría asumir normalidad de los residuales.
EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los residuales,

en el gráfico siguiente, no se observa simetría, indicando que posiblemente los
residuales no presenten comportamiento normal, violándose así el supuesto.
85

Lim. Lím. frec. Frec. Frec. Frec.

Clase inferior superior [Link] C absoluta relativa abs. acum. [Link].
1 -12,0 -7,2 -9,6 1 0,1000 1 0,1000
2 -7,2 -2,4 -4,8 2 0,2000 3 0,3000
3 -2,4 2,4 0,0 2 0,2000 5 0,5000
4 2,4 7,2 4,8 4 0,4000 9 0,9000
5 7,2 12,0 9,6 1 0,1000 10 1,0000

Media = 0,0 Desviación estándar = 6,12166

HISTOGRAMA DE LOS RESIDUALES

30
Porcentage

0
-12 -8 -4 0 4 8 12
et

 Supuesto de la homocedasticidad de los residuales

Que quiere decir igual dispersión ó igual varianza de los residuales.
Para verificar si se cumple tal supuesto se pueden graficar los residuales versus
ŷ[Link] se presenta ningún patrón sistemático, se cumple el supuesto de la
homocedasticidad.
86

EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los ŷ y los

residuales, en el gráfico siguiente, no se observa ningún patrón sistemático
indicando cumplimiento del supuesto de la homocedasticidad.

residuales versus Yt estimado

1
et

-3

-7

-11
65 85 105 125 145 165
Yt estimado

 Supuesto de la no autocorrelación ó independencia de los residuales

Quiere decir que el residuo de una observación es independiente del residuo
de otra observación.
Para evaluar si se cumple el supuesto se pueden graficar los residuales versus
[Link] no se presenta patrón sistemático, se cumple el supuesto de
independencia.

EJEMPLO.

Considerando los datos de la tabla 1 e información posterior sobre los residuales y

datos quincenales, en el gráfico siguiente, no se observa ningún patrón
sistemático indicando cumplimiento del supuesto.
87

RESIDUALES VERSUS TIEMPO

1
et

-3

-7

-11
0 2 4 6 8 10
Quincena

REGRESIÓN PARABOLICA O CURVA CUADRÁTICA

Recordemos que la ecuación de mejor ajuste corresponde aquella que presenta

los Coeficientes de determinación y Correlación más próximo a la unidad, bajo
este criterio, se dan casos donde la serie de Información obtenida no se puede
explicar por ninguno de las medidas de regresión vistas hasta el momento; ante
esta situación y asumiendo que la serie tiene una curva parabólica cuyo
comportamiento se describe matemáticamente por una ecuación de segundo
grado (parábola).

La regresión se expresa así:

Y = A + BX + CX2

Donde:
Y = Valores de la variable dependiente
A, B, C = constantes numéricas
X = Valores de la variable independiente.
Los valores "A", "B" y "C" se encuentran resolviendo el siguiente sistema de tres
ecuaciones con tres incógnitas.
88

La representación gráfica es parábola cóncava hacia arriba (como el gráfico

siguiente) ó cóncava hacia abajo.

EJEMPLO: Se tienen los siguientes datos. Ajustar el modelo adecuado.

X Y
1 10
2 5
3 4
4 8
5 15
89

Observando el diagrama de dispersión ó nube de puntos vemos que el modelo a

ajustar es el modelo parabólico Y = A + BX + CX2

X2 X3 X4
X Y 2
X*Y X *Y
1 10 1 1 1 10 10
2 5 4 8 16 10 20
3 4 9 27 81 12 36
4 8 16 64 256 32 128
5 15 25 125 625 75 375
SUMA 15 42 55 225 979 139 569

Remplazando los valores de la tabla anterior en las ecuaciones y resolviendo el

sistema se encuentra el modelo dado por:

Ŷ= 19-11.12857X+2.07142X2

REGRESIÓN EXPONENCIAL

Otro tipo de Función que tiene aplicación en el análisis de regresión, es la función

exponencial que esta por la expresión:

Y = ABX
La regresión exponencial es una función no lineal pero puede ser linealizada
aplicando logaritmos a ambos miembros. Resultado de ello se tiene la relación
siguiente:

Log Y = Log A + (Log B) X

La ecuación exponencial logarítmica puede resolverse también a través de
ecuaciones normales:

EJEMPLO: Se tienen los siguientes datos. Ajustar el modelo adecuado.

X Y
1 1
2 4
3 8
4 16

Observando el diagrama de dispersión ó nube de puntos vemos que el modelo a

ajustar es el modelo exponencial Y = ABX que linealizado queda
Log Y = Log A + (Log B) X

x y Log Y X*Log Y X2
1 1 0 0 1
2 4 0,602059991 1,204119983 4
3 8 0,903089987 2,709269961 9
4 16 1,204119983 4,816479931 16
SUMA 10 29 2,709269961 8,729869874 30

2,709269961= 4 LOG A + 10 LOG B

8,7298698740= 10 LOG A + 30 LOG B

Log B = 4 * 8.729869874 10 * 2.709269961 0.39

4 * 30  (10)^2
2.709269961 10
Log A =  0.39( ) =-0.29768
4 4
91

Log ŷ = -0.29768 + 0.39 X

Coeficiente de correlación lineal =0.98

Coefificiente de determinación =0.96
Error estándar de estimación =0.116

EJERCICIO. Estimar Y para un valor de X=5

Solución:
Log ŷ = -0.29768 + 0.39*5

Log ŷ = 1.65232

Ŷ= antilog (1.65232)
Ŷ= 44.9

REGRESIÓN POTENCIAL

Teniendo los datos observados, podemos graficar la nube de puntos y apreciar si

los puntos se aproximan a alguna función, en el caso de la función potencial se
puede recurrir a la siguiente relación:

Y =AXB
Para Linealizar esta función se aplica logaritmos a ambos miembros, mediante
este procedimiento se obtiene una ecuación logarítmica lineal:

Log Y = Log A + B Log X

La ecuación logarítmica puede resolverse también a través de las siguientes

ecuaciones normales:

∑ Log Y = n Log A + B ∑ Log X

∑ Log X Log Y= Log A ∑ Log X + B ∑ (Log X)2

Resolviendo las ecuaciones normales se tiene

n LOG X * LOG Y - ( LOG X)( LOG Y)

n  (LOG X)^2 - (  LOG X )^2
B=

Log A= LOG(Y) - B LOG (X )

Ejemplo de la regresión potencial

Los siguientes datos Históricos, corresponden a la demanda (unidades) de un
determinado producto para los años 1998 a2003.
Como la demanda está a través del tiempo (es decir, es una serie de tiempo)
Se hace: 1998=1,1999=2,…

Por el método no lineal de regresión potencial se tiene las siguientes relaciones y

construimos la siguiente tabla:

año X Y LOGX LOGY X2 (LOGX)2 LOX*LOGY

1998 1 20000 0 4,301029996 1 0 0
1999 2 35000 0,301029996 4,544068044 4 0,090619058 1,367900784
2000 3 45000 0,477121255 4,653212514 9 0,227644692 2,220146593
2001 4 40000 0,602059991 4,602059991 16 0,362476233 2,770716198
2002 5 55000 0,698970004 4,740362689 25 0,488559067 3,31337133
2003 6 55000 0,77815125 4,740362689 36 0,605519368 3,688719154
SUMA 21 250000 2,857332496 27,58109592 91 1,774818419 13,36085406

6 13.3608  2.8573 27.58109 1.3574

B=   0.5463
6 *1.7748  (2.8573)^2 2.4847

Log A= 27.58109  0.5462* 2.85733  4.5968  0.5462* 0.47622  4.3367

6 6

Log ŷ = 4.3367 + 0.5463 Log X

Pronosticar la demanda para 2004.

Log ŷ = 4.3367 + 0.5463 Log 7

Log ŷ = 4.3367 + 0.5463 *0.845098
93

Log ŷ =4.798377

Ŷ=ANTILOG (4.798377)
Ŷ=62860 UNIDADES

También podría gustarte

Estadísticas para Decisiones Efectivas
Aún no hay calificaciones
Estadísticas para Decisiones Efectivas
13 páginas
Estadística: Métodos y Aplicaciones
Aún no hay calificaciones
Estadística: Métodos y Aplicaciones
56 páginas
Criterios Estadísticos en Decisiones
Aún no hay calificaciones
Criterios Estadísticos en Decisiones
2 páginas
Estadistica Descriptiva
Aún no hay calificaciones
Estadistica Descriptiva
56 páginas
Actividad 1.2. - Lec - Funciones - y - Aplicaciones
Aún no hay calificaciones
Actividad 1.2. - Lec - Funciones - y - Aplicaciones
10 páginas
Estadistica Investigacion
Aún no hay calificaciones
Estadistica Investigacion
10 páginas
Protocolo Unidad 3 Individual
Aún no hay calificaciones
Protocolo Unidad 3 Individual
3 páginas
Teoria Primer Parcial - Cap 0 y 1
Aún no hay calificaciones
Teoria Primer Parcial - Cap 0 y 1
12 páginas
Aplicaciones de La Estadistica en Al Administracion
100% (2)
Aplicaciones de La Estadistica en Al Administracion
3 páginas
Importancia y Aplicaciones de la Estadística
Aún no hay calificaciones
Importancia y Aplicaciones de la Estadística
5 páginas
Conceptos Clave de Estadística Aplicada
Aún no hay calificaciones
Conceptos Clave de Estadística Aplicada
36 páginas
Estadistica Descriptiva
100% (1)
Estadistica Descriptiva
50 páginas
Uso de Tablas y Gráficos en Estadística
Aún no hay calificaciones
Uso de Tablas y Gráficos en Estadística
50 páginas
Estadistica para Gerentes PDF 18-1-18
Aún no hay calificaciones
Estadistica para Gerentes PDF 18-1-18
208 páginas
Estadística Esencial para Gerentes
Aún no hay calificaciones
Estadística Esencial para Gerentes
209 páginas
Importancia de la Estadística en Empresas
Aún no hay calificaciones
Importancia de la Estadística en Empresas
6 páginas
Definicion de Estadistica
Aún no hay calificaciones
Definicion de Estadistica
3 páginas
Estadística para Negocios Manual Profesor Manuel Upp
Aún no hay calificaciones
Estadística para Negocios Manual Profesor Manuel Upp
63 páginas
Conceptos de Inferencia Estadística
Aún no hay calificaciones
Conceptos de Inferencia Estadística
6 páginas
Informe de Estadistica Unesr
Aún no hay calificaciones
Informe de Estadistica Unesr
6 páginas
Estadistica Unidad 1
Aún no hay calificaciones
Estadistica Unidad 1
64 páginas
"La Estadística para La Toma de Decisiones en Las Pymes": 2018 - ISSN: 1696-8360
Aún no hay calificaciones
"La Estadística para La Toma de Decisiones en Las Pymes": 2018 - ISSN: 1696-8360
14 páginas
Tarea
Aún no hay calificaciones
Tarea
11 páginas
Importancia y Clasificación de la Estadística
Aún no hay calificaciones
Importancia y Clasificación de la Estadística
16 páginas
Resumen
Aún no hay calificaciones
Resumen
6 páginas
Conceptos y Clasificación de Estadística
Aún no hay calificaciones
Conceptos y Clasificación de Estadística
10 páginas
Importancia de la Estadística en Administración
Aún no hay calificaciones
Importancia de la Estadística en Administración
5 páginas
Cómo La Información Estadística Puede Ayudar A Mejorar Los Indicadores de Productividad
Aún no hay calificaciones
Cómo La Información Estadística Puede Ayudar A Mejorar Los Indicadores de Productividad
6 páginas
Unidad 1 - Introducción A La Estadística
Aún no hay calificaciones
Unidad 1 - Introducción A La Estadística
14 páginas
Tema 1 Semestre 1
Aún no hay calificaciones
Tema 1 Semestre 1
14 páginas
Estadística I
0% (1)
Estadística I
115 páginas
Conceptos Básicos de Estadística
Aún no hay calificaciones
Conceptos Básicos de Estadística
21 páginas
Resumen Estadística Social
Aún no hay calificaciones
Resumen Estadística Social
8 páginas
Lectura y Taller Sobre La Estadistica
Aún no hay calificaciones
Lectura y Taller Sobre La Estadistica
5 páginas
Introducción a Estadística y Probabilidad
Aún no hay calificaciones
Introducción a Estadística y Probabilidad
8 páginas
01 Terminologia Tablas Graficos
Aún no hay calificaciones
01 Terminologia Tablas Graficos
54 páginas
La Importancia de La Estadística en La Administración
100% (1)
La Importancia de La Estadística en La Administración
3 páginas
Capitulo 1 Introducción
Aún no hay calificaciones
Capitulo 1 Introducción
14 páginas
Toma de Decisiones Empresarial
Aún no hay calificaciones
Toma de Decisiones Empresarial
22 páginas
Conceptos Basicos de Estadistica
Aún no hay calificaciones
Conceptos Basicos de Estadistica
10 páginas
Grupo 2-Estadísticas en La Toma de Decisiones
Aún no hay calificaciones
Grupo 2-Estadísticas en La Toma de Decisiones
14 páginas
Estadistica Aplicada A Los Negocios Actualizado
Aún no hay calificaciones
Estadistica Aplicada A Los Negocios Actualizado
31 páginas
Manual de Estadística para Negocios V.2024
Aún no hay calificaciones
Manual de Estadística para Negocios V.2024
92 páginas
Resumen
Aún no hay calificaciones
Resumen
8 páginas
U1. Estadística
Aún no hay calificaciones
U1. Estadística
20 páginas
ENSAYO1. Estadistica
Aún no hay calificaciones
ENSAYO1. Estadistica
3 páginas
Estadisticas II Investigacion
Aún no hay calificaciones
Estadisticas II Investigacion
11 páginas
Estadística: Clave para la Gestión Empresarial
Aún no hay calificaciones
Estadística: Clave para la Gestión Empresarial
3 páginas
Protocolo Colaborativo Estadistica Unidad Uno
Aún no hay calificaciones
Protocolo Colaborativo Estadistica Unidad Uno
4 páginas
Ensayo de Estadistica Inferencial
33% (3)
Ensayo de Estadistica Inferencial
2 páginas
Conceptos Basicos de La Estadistica
Aún no hay calificaciones
Conceptos Basicos de La Estadistica
6 páginas
Eesz S1a1
Aún no hay calificaciones
Eesz S1a1
19 páginas
Trabajo de Investigacion Estadistica Aplicada
Aún no hay calificaciones
Trabajo de Investigacion Estadistica Aplicada
15 páginas
Importancia de La Estadistica en Administracion
Aún no hay calificaciones
Importancia de La Estadistica en Administracion
5 páginas
Capacitación en Estadística para Servidores Públicos
Aún no hay calificaciones
Capacitación en Estadística para Servidores Públicos
89 páginas
Estadistica Descriptiva
Aún no hay calificaciones
Estadistica Descriptiva
109 páginas
Cartilla Estadistica Un° 1 - Tade
Aún no hay calificaciones
Cartilla Estadistica Un° 1 - Tade
30 páginas
Introducción a la Estadística Empresarial
Aún no hay calificaciones
Introducción a la Estadística Empresarial
301 páginas
2.3.3.1 Create A Network Device Inventory in Python
Aún no hay calificaciones
2.3.3.1 Create A Network Device Inventory in Python
4 páginas
Potencia Mecánica: Ejercicios y Análisis
Aún no hay calificaciones
Potencia Mecánica: Ejercicios y Análisis
5 páginas
Catalogo Tecnico INDUSCABOS 1
Aún no hay calificaciones
Catalogo Tecnico INDUSCABOS 1
40 páginas
Bizhub C454 - Maintenance
Aún no hay calificaciones
Bizhub C454 - Maintenance
132 páginas
Presentacion Ley de Ampere
Aún no hay calificaciones
Presentacion Ley de Ampere
9 páginas
Modelo Atómico de Sommerfeld
50% (2)
Modelo Atómico de Sommerfeld
7 páginas
Restauraciones Estetica Clase III
50% (10)
Restauraciones Estetica Clase III
40 páginas
DOSIER
Aún no hay calificaciones
DOSIER
35 páginas
Jacobus Henricus Van't Hoff-Biografia
Aún no hay calificaciones
Jacobus Henricus Van't Hoff-Biografia
6 páginas
Caracteristicas, Tipos y Teorias Del Conocimiento
Aún no hay calificaciones
Caracteristicas, Tipos y Teorias Del Conocimiento
3 páginas
Validación Escala Rosenberg Buenos Aires
Aún no hay calificaciones
Validación Escala Rosenberg Buenos Aires
17 páginas
Origen Fruto
Aún no hay calificaciones
Origen Fruto
7 páginas
5.3 Ciclones e Hidrociclones
Aún no hay calificaciones
5.3 Ciclones e Hidrociclones
29 páginas
Guía de Números Enteros
Aún no hay calificaciones
Guía de Números Enteros
6 páginas
Calculo Diferencial en Varias Variables PDF
Aún no hay calificaciones
Calculo Diferencial en Varias Variables PDF
148 páginas
In Me Rsion en Python
Aún no hay calificaciones
In Me Rsion en Python
459 páginas
Aplicaciones del Principio de Pascal
Aún no hay calificaciones
Aplicaciones del Principio de Pascal
20 páginas
Experimento de Oscilaciones en Física
Aún no hay calificaciones
Experimento de Oscilaciones en Física
9 páginas
Evolución de la Dinamita y sus Usos
Aún no hay calificaciones
Evolución de la Dinamita y sus Usos
2 páginas
Molecularidad y Velocidad de Reacción
Aún no hay calificaciones
Molecularidad y Velocidad de Reacción
28 páginas
Contador Digital con IC 555 y 7490
Aún no hay calificaciones
Contador Digital con IC 555 y 7490
7 páginas
Capacitores: Conceptos y Dieléctricos
Aún no hay calificaciones
Capacitores: Conceptos y Dieléctricos
3 páginas
Introducción a Lenguajes de Programación
Aún no hay calificaciones
Introducción a Lenguajes de Programación
28 páginas
Estrategias de Asignación y Handoff
Aún no hay calificaciones
Estrategias de Asignación y Handoff
26 páginas
Carga Eléctrica y Convención Franklin
100% (1)
Carga Eléctrica y Convención Franklin
2 páginas
Fase 2 - Erika Triana
Aún no hay calificaciones
Fase 2 - Erika Triana
7 páginas
Actividad 1
Aún no hay calificaciones
Actividad 1
4 páginas
Diagrama Unifilar SIN Enero2010
Aún no hay calificaciones
Diagrama Unifilar SIN Enero2010
1 página
Práctica de Resistencias y Cálculos
Aún no hay calificaciones
Práctica de Resistencias y Cálculos
6 páginas
Curso Python
Aún no hay calificaciones
Curso Python
25 páginas