APUNTES DE CLASE – 18 de Marzo de 2016- Versión preliminar
Facultad de Ingeniería – Universidad Nacional de Jujuy
ESTADISTICA - Introducción
La ESTADÍSTICA actual es el resultado de la unión de dos disciplinas que evolucionaron independientemente hasta
confluir en el siglo XIX: la primera es el cálculo de las probabilidades, que nace en el siglo XVII como teoría
matemática de los juegos de azar; la segunda es la Estadística (o ciencia del estado, del latín Status) que estudia la
descripción de datos, y tiene raíces más antiguas. La integración de ambas líneas de pensamiento da lugar a una
ciencia que estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos
matemáticos.
La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales. Un modelo
matemático es una abstracción simplificada de una realidad más compleja y siempre existirá cierta discrepancia
entre lo observado y lo previsto por el modelo. La Estadística proporciona una metodología para evaluar y juzgar
estas discrepancias entre la realidad y la teoría. Por lo tanto su estudio es básico para todos aquellos que deseen
trabajar en ciencia aplicada (sea ésta Tecnología, Economía o Sociología) que requiera el análisis de datos y el
diseño de experimentos. La Estadística es la "tecnología" del método científico experimental (Mood 1972).
Además de su papel instrumental, el estudio de la Estadística es importante para entender las posibilidades y
limitaciones de la investigación experimental, para diferenciar las conclusiones que pueden obtenerse de los datos
de las que carecen de base empírica y, en definitiva, para desarrollar un pensamiento crítico y antidogmático ante la
realidad.
Muchos ciudadanos ven a la Estadística con una gran desconfianza: para unos es la ciencia en la que las
diferencias individuales quedan ocultas a través de las medias (que se traduce en el dicho popular: “La estadística
es la ciencia que explica como si tú te comes dos pollos y yo ninguno, nos hemos comido uno cada uno por término
medio" y en la famosa frase de Bernard Show: " si un hombre tiene la cabeza en un horno y los pies en una nevera,
su cuerpo está a una temperatura media ideal"); para otros es la ciencia mediante la cual con gráficos, tasa de
variación y porcentajes, se manipula la opinión desde la publicidad, la tecnología o la economía. Vivimos en la era
de la Estadística y cada aspecto de la actividad humana es medido e interpretado en términos estadísticos.
El único antídoto para esta posible manipulación y para participar efectivamente en la argumentación pública
basada en cifras y datos, consustancial a la vida democrática, es un conocimiento básico de los métodos
estadísticos. En este sentido, una formación en los conceptos estadísticos básicos es necesaria para cualquier
ciudadano.
UN POCO DE HISTORIA
Históricamente se puede ubicar el crecimiento y desarrollo de la estadística moderna gracias a dos fenómenos
separados: las necesidades de los gobiernos de recopilar información sobre sus ciudadanos y el desarrollo de las
matemáticas en la teoría de la probabilidad.
A lo largo de toda la historia registrada se han recopilado datos. En las civilizaciones egipcia, griega y romana, se
obtenía información primordialmente con el propósito de cobrar impuestos y reclutar soldados. En la Edad Media,
era frecuente que las instituciones eclesiásticas llevaran registros acerca ce nacimientos, muertes y
matrimonios. En Estados Unidos se mantenían diversos registros durante los tiempos coloniales y a principios de
1790, la Constitución Federal de ese país implantó el levantamiento de un censo cada 10 años. En la actualidad
esos datos se utilizan con diversos propósitos, incluyendo la distribución de curules en el Congreso y al asignación
de fondos federales. En Argentina se realizan los censos cada 10 años, el último se realizó en el año 2001.
¿QUE ES LA ESTADÍSTICA MODERNA?
El contenido de la Estadística Moderna incluye la recopilación, presentación y caracterización de la
información a fin de que auxilie tanto en el análisis de los datos como en el proceso de toma de decisiones.
La rama de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos es la
estadística descriptiva.
CARACTERÍSTICAS DE LOS DATOS
La estadística es la ciencia del razonamiento a partir de datos, luego una forma natural de iniciar nuestro
estudio es examinando que se entiende por el término “dato”.
Una unidad de observación es aquella sobre la cual se efectúan mediciones o se intenta clasificar en categorías.
Ejemplos: personas, familias, viviendas, plantas, animales, tornillos, etc.
En el proceso de observación se registra, para cada unidad de observación alguna característica y esta observación
constituye un DATO.
1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Nota: Los experimentadores llaman ”unidades experimentales” a los objetos medidos, los estadísticos unidades de
observación. Usaremos ambos términos en igual sentido.
Ejemplo: Supongamos que nos interesa realizar un estudio sobre los ingresos ($) familiares en la provincia de
Jujuy, es decir el objetivo de nuestro estudio es obtener información sobre el ingreso total anual de todas las
familias de la provincia de Jujuy. (El último censo del 2010 registró 174.763 unidades familiares para la provincia
de Jujuy). En este caso cada familia es una unidad de observación y el ingreso total de una familia constituye un
dato.
Una población consiste en la totalidad de observaciones (datos) en las cuales se está interesado.
En nuestro ejemplo la población estará formada por los ingresos de la totalidad de familias de nuestra provincia.
Nuestra población será finita y estará formada hoy por 174.763 datos.
En general el fenómeno de interés se caracteriza por un conjunto de datos cuya obtención es o bien físicamente
imposible o requeriría un gasto importante en tiempo y/o en dinero. Es decir
1) El estudio puede implicar la destrucción del elemento, como es el caso de ensayos destructivos: por
ejemplo, estudiar la vida media de una partida de focos, o la tensión de rotura de cables.
2) Los elementos pueden existir conceptualmente (en nuestra mente), pero no en la realidad. Por ejemplo
la población de piezas defectuosas que producirá una máquina.
3) Puede ser inviable económicamente estudiar todos los elementos.
En estas ocasiones seleccionaremos para análisis una porción de la población a la que llamaremos muestra.
En ocasiones se utilizan las palabras población y muestra” para representar los objetos o personas (unidades de
observación) que se someten a medición. Luego, es importante distinguir entre los objetos medidos y las
mediciones.
Reiterando, las palabras población y muestra tienen dos significados, se pueden referir al conjunto de objetos
(unidades de observación) sobre el cual se hacen las mediciones o se puede referir a las mediciones. En una
situación específica el significado que se dé a estos términos será obvio por el contexto en que se empleen.
Por ejemplo podemos leer en los periódicos que tal encuesta está basada en una muestra de 1823 personas. En
este caso, es claro que las unidades experimentales que forman parte de la muestra son personas. Probablemente
cada persona se entreviste con respecto a un tema particular y la respuesta de esta persona representa un dato. La
colección de datos correspondientes a las personas representa una muestra de datos.
La mayor parte del tiempo al hablar de población nos referiremos a las mediciones hechas sobre las
unidades experimentales. Si ocasionalmente usamos el término para referirnos a una colección de
unidades de observación, el contexto de la discusión aclarará el significado.
Una tarea importante para el investigador es definir cuidadosa y completamente la población antes de
recolectar la muestra. La definición debe contener una especificación de las mediciones que se van a
considerar y debe acompañarse con una descripción de las unidades de observación que serán incluidas,
ya que estas dos componentes están interrelacionadas.
Un parámetro es una medida que se calcula para describir una característica de una población completa.
Un estadístico es una medida que se calcula para describir una característica de la muestra, a partir de solo de la
muestra.
Aunque los métodos de estadística descriptiva son importantes para presentar y caracterizar la información, lo que
ha conducido a la amplia aplicación de la estadística en todos los campos de la investigación moderna ha sido el
desarrollo de los métodos de inferencia estadística como resultado de la teoría de la probabilidad.
INFERENCIA ESTADÍSTICA
El ímpetu inicial para el planteamiento de las matemáticas de la teoría de la probabilidad provino de la investigación
de los juegos de azar durante el Renacimiento. Se pueden localizar los fundamentos de la probabilidad hacia la
mitad del siglo XVII, en la correspondencia intercambiada entre el matemático Pascal y el jugador Chevalier de
Mere. Estos desarrollos y otros elaborados por matemáticos como Bernoulli, De Moivre y Gauss fueron los
precursores de la materia de la inferencia estadística. Sin embargo no ha sido hasta principios del siglo XX que
estadísticos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey iniciaron el desarrollo de los métodos de
inferencia estadística, los cuales tienen una muy amplia aplicación en diversidad de campos en la actualidad.
Se puede definir la INFERENCIA ESTADÍSTICA como los métodos que hacen posible la estimación de una
característica de una población, o la toma de una decisión con respecto a una población, con base
únicamente en resultados muestrales.
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
La necesidad de los métodos de Inferencia Estadística proviene de la necesidad del muestreo. Al volverse muy
grande una población, por lo general resulta demasiado costoso, lento y complicado obtener información de la
población completa. Las decisiones con respecto a las características de la población se deben basar en la
información contenida en una muestra de esa población. La teoría de la probabilidad proporciona el vínculo,
determinando la probabilidad de que los resultados provenientes de la muestra reflejen los resultados que se
obtendrían de la población.
Se pueden observar con claridad estas ideas en el ejemplo de una encuesta política. Si el encuestador desea
estimar el porcentaje de votos que un candidato obtendrá en una elección específica, no entrevistaría a cada uno
de los millares (o inclusive millones) de votantes. Más bien, seleccionaría una muestra de los votantes. Con base en
la muestra, obtendría conclusiones acerca de la población total de votantes. A estas conclusiones se les asociaría
un planteamiento de probabilidad que especifique la esperanza o la confianza que se tiene de que los resultados de
la muestra reflejen la verdadera conducta de los votantes de toda la población.
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
DESCRIPCION DE DATOS
Descripción estadística de una variable
Tipos de datos
El máximo principio fundamental en estadística es el de la “variabilidad”. En efecto, si el mundo fuera
perfectamente predecible y no mostrara variabilidad, no habría razón de estudiar estadística. Por ello nosotros
también descubriremos la noción de variables y consideraremos diferentes clasificaciones de las variables.
También exploraremos la noción de distribución de un conjunto de datos de una variable particular.
Una variable es cualquier característica que varíe de una unidad experimental a otra en el conjunto de
unidades experimentales (o de observación) de interés.
Dado un conjunto de datos de una variable X, la estadística descriptiva estudia procedimientos para sintetizar la
información que contienen. Los tipos de variables que consideraremos son:
a) Variables cualitativas, categóricas o atributos: no toman valores numéricos y describen cualidades.
Están definidas por las clases o categoría en que se dividen. (Los datos son atributos, características o
propiedades categóricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase
indicando la presencia o ausencia de una característica o propiedad). Por ejemplo clasificar una pieza
como aceptable o defectuosa, clasificar a las personas según el sexo: femenino o masculino, clasificar
a las personas por la nacionalidad, categoría de alumno de la UNJu: activo pleno, activo simple o pasi-
vo, etc. A las dos primeras variables se las denomina dicotómicas pues solo tienen dos categorías ex-
cluyentes.
b) Variables numéricas o cuantitativas: Toman valores numéricos (edad, altura, precio de un producto,
ingresos anuales, etc.).
Las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas
y continuas.
Una variable es discreta si su conjunto de valores posibles es finito o se puede enumerar en una suce-
sión infinita (una en la que hay un primer número, un segundo número, etc.). Corresponden en general
a contar el número de veces que ocurre un suceso. Por ejemplo cantidad de envases defectuosos pro-
ducidos por día en una fábrica, cantidad de hijos por familia en una comunidad determinada, cantidad
de alumnos activos plenos de la Facultad de Ingeniería de la UNJu, etc.
Una variable es continua si toma valores en intervalo de la recta real, corresponden a medir magnitu-
des continuas (tiempo, longitud, etc.). Por ejemplo el peso (en gramos) de los recién nacidos en el Hos-
pital San Roque en el mes de enero de 2016.
Las variables numéricas discretas producen datos numéricos que, por lo general, surgen de un proceso de
conteo; en tanto que las variables numéricas continuas toman valores numéricos que surgen de un proceso de
medición.
Escalas de Medición
En su sentido más amplio, los datos recopilados “se miden” de alguna manera. Por ejemplo hasta los datos
cuantitativos discretos pueden considerarse como producto de un proceso de “medición mediante conteo”
Los cuatro niveles de medición ampliamente reconocidos son del más débil al más fuerte: escala nominal,
escala ordinal, escala de intervalo y escala de razón.
Los datos que se obtienen para una variable cualitativa se miden en una escala ya sea nominal u ordinal.
Escala Nominal: Si los datos observados se clasifican en distintas categorías que no implican orden se tiene
un nivel de medición nominal. Por ejemplo en el caso de la variable sexo, si una persona es hombre, no puede
ser mujer. No hay cantidad de género, solo la condición de ser hombre o mujer
Otros ejemplos son ocupación, religión, color de cabello, partido político de una persona.
No existe orden entre las categorías lo cual no significa que no se puedan identificar.
Los números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la presencia
o ausencia del atributo o característica bajo investigación.
La escala nominal es la forma más débil de medición.
Escala Ordinal: Si los datos que se observan se clasifican en categorías distintas en las que existe algún
orden, se obtiene un nivel de medición ordinal. Las variables pueden ser ordenadas o clasificadas con escalas
ordinales en relación a la cantidad del atributo poseído. Cada categoría puede ser comparada con otra en
términos de una relación de “mayor que” o “menor que”. Ejemplo: Nivel de educación alcanzado por un
determinado grupo de personas: la persona que tiene 6to grado está “más capacitada” que la que tiene 2do
grado. La categoría de los hoteles se mide por estrellas, desde 1 estrella hasta 5 estrellas. El Hotel que tiene 3
4CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
estrellas tiene “menos categoría que” el que tiene 4 estrellas. La escala ordinal es una forma un tanto más
fuerte de medición, porque dice que una observación que se clasifica en una categoría posee “más” la
propiedad que se mide que alguna otra observación que se registra en otra categoría.
Por lo general se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de
intervalo o de razón, que constituyen los niveles más elevados de medición porque permiten discernir no sólo
cuál de los valores es el mayor, sino por cuánto.
Escalas de Intervalo y de razón: Las escalas de intervalo y de razón proporcionan el nivel más alto de medida
de precisión, permitiendo realizar casi todas las operaciones matemáticas. Estas dos escalas tienen unidades
constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la
escala son iguales. La única diferencia real entre las escalas de intervalo y las de razón es que las de intervalo
tienen un punto cero arbitrario, mientras que las escalas de razón tienen un punto cero absoluto.
Las escalas de intervalo más familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un
punto cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemos
registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no es posible decir que un valor
cualquiera situado en un intervalo de la escala es un múltiplo de cualquier otro punto de la escala. Por ejemplo,
si un día se registra 30°C, no se puede decir que sea dos veces más caluroso que un día con 15°C, porque
sabemos que 30°C en una escala diferente como Fahrenheit, equivale a 86°F. De la misma forma, 15°C en
Fahrenheit corresponden a 59°F. Aunque 30°C es dos veces 15°C, no se puede afirmar que el calor de 86°F
sea dos veces el calor de 59°F porque usando diferentes escalas el calor no es dos veces mayor, esto es, 59°F
× 2 ≠ 86°F. Recuerden que la relación entre ambas escalas es °F = (9/5)°C + 32.
Las escalas de razón representan la forma superior de medidas de precisión dado que poseen las ventajas de
todas las escalas inferiores más un punto de cero absoluto. Con las medidas de escala de razón se permiten
todas las operaciones matemáticas. Ejemplo: cuando la temperatura se mide a partir de un cero absoluto, como
en la escala Kelvin, la temperatura está dada en una escala de razón, puesto que, si se duplica la temperatura,
en realidad se duplica la velocidad promedio de las moléculas que componen la sustancia. Otro ejemplo es el
peso que tenemos en las balanzas comunes utilizan estas escalas, dado que tienen un punto de cero absoluto y
que pueden ser expresados en términos de múltiplos cuando se relaciona un punto con otro de la escala; por
ejemplo 100 kilos es dos veces más pesado que 50 kilos.
ORGANIZACIÓN Y RESUMEN DE DATOS
ORGANIZACIÓN Y RESUMEN DE DATOS CATEGÓRICOS
En un estudio del mercado laboral de nuestro país, nos interesa saber las distintas categorías ocupacionales de
los habitantes que trabajan. Podemos obtener información en el INDEC (Instituto Nacional de Estadísticas y
Censos de la República Argentina) respecto al último censo realizado en el año 2010.
La presentación de datos cualitativos suele hacerse indicando las clases o atributos o categorías consideradas
y sus respectivas frecuencias de aparición como indica la TABLA 1.
Tabla 1
CATEGORÍA OCUPACIONAL Número de habitantes
Trabajador familiar 561.078
Patrón 1.190.944
Trabajador por cuenta propia 3.346.107
Obrero o empleado 12.947.286
Total de población ocupada 18.045.415
La variable es la “categoría ocupacional en el año 2010 de cada argentino de 14 o más años”. El trabajo lo
hacemos sobre la variable “categoría ocupacional” y no sobre la persona, pues sobre cada persona hay
infinidad de datos: edad, sexo, nivel de educación, provincia en la que reside, etc.
Las personas son las portadoras de los datos mientras que la categoría ocupacional respectivas constituyen los
datos. La estadística no estudia los portadores sino los datos.
En la primera columna de la tabla 1 están las categorías consideradas por el INDEC. En la segunda columna se
registra el número de personas que se clasifican en cada categoría, es decir su frecuencia (o frecuencia
absoluta).
Además de las frecuencias absolutas, se pueden calcular las frecuencias relativas. La frecuencia relativa de una
categoría es la proporción de veces que ocurre dicha categoría y se calcula como el cociente entre la frecuencia
absoluta correspondiente a esa categoría dividida por el número total de observaciones N. La suma total de las
frecuencias relativas es igual a 1.
5CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Simbolizaremos la frecuencia absoluta correspondiente a la categoría i con fi , luego la frecuencia relativa se
calculará como fi / N.
Las frecuencias relativas se expresan como porcentajes al multiplicarlas por 100.
En el ejemplo se tiene:
Tabla 2: Clasificación de la Población de la Argentina de 14 años o más ocupada por categoría
ocupacional. Año 2010
CATEGORÍA OCUPACIONAL Número de Proporción de Porcentaje de
habitantes habitantes habitantes
Trabajador familiar 561.078 0,031 3,8%
Patrón 1.190.944 0,066 6,2%
Trabajador por cuenta propia 3.346.107 0,185 21,3%
Obrero o empleado 12.947.286 0,717 68,6%
Total de población ocupada 18.045.415 1,000 100,0%
FUENTE: [Link] Nacional de Población, Hogares y Vivienda 2010.
La tabla que recoge las categorías de la variable con sus frecuencias respectivas se denomina Distribución de
frecuencias de la variable.
Resumiendo, se presenta en la Tabla 3 la distribución de frecuencias de una variable cualitativa X
Tabla 3
Categorías o atributos Frecuencias Frecuencias relativas Frecuencias relativas (en %)
A1 f1 f1 /N 100 f1 /N %
A2 f2 f2/N 100 f2/N %
A3 f3 f3/N 100 f3/N %
… … … …
Ak fk fk/N 100 fk/N %
N 1 100%
A1, A2, … , Ak, son las categorías
f1, f2, …, fk son las frecuencias absolutas
N el tamaño del lote de datos (que puede ser una población o una muestra) es la cantidad de observaciones.
K es el número de categorías.
Los subíndices “i” en las categorías Ai solo identifican las categorías, no las ordenan.
Las frecuencias eventualmente pueden ser 0. No pueden ser negativas ni fraccionarias.
REPRESENTACIONES GRÁFICAS
EL GRÁFICO DE BARRAS
Las Distribuciones de Frecuencias de Datos Categóricos pueden representarse gráficamente por medio de un
Gráfico de Barras.
Un gráfico de barras es fácil de construir y puede ser interpretado fácilmente por personas que no tienen una
mente orientada hacia las gráficas.
El gráfico presenta las posibles categorías y sus frecuencias de aparición
6CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Figura 1
Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2010.
Pueden notarse varios aspectos en los gráficos de barras:
Las magnitudes de las frecuencias se muestran mediante las longitudes de las diferentes barras, las que
se han trazado con referencia a una escala horizontal.
Se deben incluir las escalas y algunas indicaciones, ya que ayudan a la lectura de las gráficas. Los valores
de la escala se muestran en la parte superior y también en la parte inferior. Se pueden unir o no me-
diante líneas constituyendo una retícula.
Las barras se identifican mediante títulos en el talón de la gráfica. El talón debe mantenerse tan pequeño
como sea posible, con el objeto de dejar espacio para la superficie de trazado de la gráfica.
Las barras difieren solamente en longitud y no en ancho.
Se ha dejado un espacio entre las barras para que sea fácil identificarla mediante su título.
Las barras han sido ordenadas por magnitud para facilitar el análisis. El orden puede ser creciente o
decreciente. Si se incluye una categoría "todas las demás" u "otras", generalmente se la muestra en la
barra más baja, aún cuando la posición más baja pueda no ser la apropiada, de acuerdo con la ordenación
por magnitudes, esto resulta apropiado, puesto que este tipo de categorías casi siempre es una recopila-
ción de clases relativamente poco importantes.
El título y las notas de pié de página o sobre las fuentes, cuando sean necesarias, forman parte del gráfico.
Para respuestas categóricas las barras se diseñan en forma horizontal (para respuestas numéricas, en
forma vertical).
Importancia de la línea cero:
Una gráfica que ha sido diseñada para mostrar magnitudes absolutas debe tener absolutamente definida la
línea cero y una escala ininterrumpida. Es decir debe iniciarse en cero y continuar sin ninguna interrupción. Esto
es cierto no solamente para las gráficas de barras sino también para cualquier otro tipo de gráficas en las
cuales deben compararse magnitudes absolutas.
La impresión percibida si se comienza por algún valor mayor que cero cambia totalmente la información
contenida en el lote de datos
7CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
FIGURA 2
EL GRÁFICO DE TORTAS
Para dibujar gráficos de torta se puede utilizar un compás o un transportador para dibujar el círculo y definir los
sectores convenientes. Como el círculo tiene 360° se puede utilizar el transportador para dividir la torta en
rebanadas en base a los porcentajes deseados.
Por ejemplo, en la Figura 3, el 18 % de los argentinos que trabajaban en 2010 son “trabajadores por cuenta
propia”. Por ello, se calcula el 18% de 360°; para ello se multiplica 360° × 0,18 = 64,8° y se marcan los
aproximadamente 65°resultantes con el transportador. Después se conectan los puntos correspondientes con el
centro, formando una rebanada que incluye el 18% del área. Siguiendo este procedimiento se puede construir la
gráfica completa.
FIGURA 3
Se presenta también la gráfica de tortas correspondiente a los resultados del Censo 2001.
8CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Población de 14 años o más ocupada, por categoría ocupacional.
Año 2001
Trabajador familiar
Total de población ocupada: 10.913.187
4%
personas Patrón
6%
Trabajador por
cuenta propia
21%
Obrero o
empleado
69%
Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2001.
EL GRÁFICO DE PUNTOS
Cuando se construya el gráfico de puntos se sugiere lo siguiente.
1. Las líneas de puntos se deben acomodar en forma horizontal, tal como se observa en la figura 4,
adyacentes a las diversas categorías de la variable que se estudia.
2. El espacio entre las líneas punteadas (es decir, entre categorías) debe ser igual.
3. Se deben incluir las escalas horizontales con el conteo de la frecuencia en la parte baja del cuadro; o, por
otra parte, se deben incluir en la parte superior de los porcentajes. Los ejes se deben identificar en forma
clara.
4. La gráfica debe tener Título. Si son necesarias, las notas de pié de página y las fuentes deben aparecer en
la gráfica, junto con cualquier “clave” necesaria para su interpretación.
Figura 4
9CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
El propósito de las tres gráficas es mostrar los datos en forma precisa y clara. Estas figuras pretenden mostrar la misma
información respecto a las categorías de empleo de los trabajadores argentinos de 14 o más años.
En particular algunas investigaciones recientes sobre percepción de gráficos, sugieren que la gráfica de puntos
presenta la información de la mejor manera, en tanto que la gráfica de torta es el tipo más deficiente. No
obstante, la selección de una gráfica específica sigue siendo una actividad muy subjetiva y, con frecuencia,
depende de las preferencias estéticas del investigador.
ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS NO AGRUPADOS
Todo lo planteado hasta aquí se aplica para presentar datos cuantitativos discretos cuando el número de
valores posibles es pequeño (menos de 10)
Ejercicio realizado en clase: Siendo de interés conocer el número de hermanos que componen las familias de
los alumnos que cursan Probabilidad y Estadística, en distintos años, se les pidió a los alumnos que anotaran
en el pizarrón el número de hijos que habían tenido sus respectivas madres, esto es el número de hermanos en
cada una de sus familias.
Los resultados que a continuación se indican corresponden al año 2007:
N° de Hijos N° de familias
1 /////
2 /////////////////
3 ///////////////
4 /////////////////////
5 //////////////
6 //
7 ///
8 //
Esta información también puede ser resumida en una tabla de frecuencias
Tabla 4: DISTRIBUCIÓN DEL N° DE HIJOS DE LAS FAMILIAS DE LOS ALUMNOS QUE CURSARON
ESTADÍSTICA EN LA FACULTAD DE INGENIERÍA DE LA UNJU EN EL AÑO 2007
N° de Hijos N° de Proporción de Porcentaje de Porcentaje
familias familias familias acumulado
1 5 0,06 6% 6%
2 17 0,22 22% 28%
3 14 0,18 18% 46%
4 21 0,27 27% 73%
5 13 0,17 17% 90%
6 2 0,03 3% 93%
7 3 0,04 4% 97%
8 2 0,03 3% 100%
N= 77 1,00 100%
Fuente: Encuesta realizada en clase de teoría del 04/04/07
Una tabla de frecuencias para variables numéricas es una tabla que asocia cada valor de la variable, con la
cantidad de veces que se observa dicho valor (frecuencia absoluta). También se incorporan las frecuencias
relativas y las relativas porcentuales siguiendo el procedimiento especificado anteriormente. Otra frecuencia
importante para describir un conjunto es la frecuencia acumulada.
La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (absolutas o
relativas) de los valores menores o iguales que el valor que se está considerando. Por ejemplo, en la tabla 4
se lee - en la línea resaltada - que el 73% de las familias tienen un número de hijos “menor o igual” a 4.
Se presenta una gráfica de barras verticales entre las que no se ha dejado espacio entre las barras. Posterior-
mente se verá la utilidad de obrar así.
10CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Figura 5
FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu
El gráfico que se presenta a continuación se conoce como gráfico de bastones. La frecuencia se representa de
esta manera pues entre dos valores sucesivos de la variable, no existen valores intermedios.
Figura 6
FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu
El gráfico permite rápidamente vizualizar donde se concentran los datos y como se dispersan.
Puede concluirse que la mayoría de las familias, el 67%, tienen de 2 a 5 hijos. Hay pocas familias con muchos
hijos, el 10%, y solo el 6% con un hijo. El número más frecuente de hijos es 4, hay 21 familias con 4 hijos.
ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS AGRUPADOS
Distribución de Frecuencias para DATOS AGRUPADOS
Cuando el número de valores posibles de una variable DISCRETA sea grande o cuando la variable sea
CONTINUA conviene agrupar los datos en clases o categorías. Para ello se acomodan los datos en grupos de
clases, es decir categorías, dividiendo en forma conveniente las observaciones. A este arreglo de datos en
forma de tabla se le denomina “Distribución de frecuencias”, al igual que para datos categóricos y numéricos
discretos (cuando el número de valores posibles es pequeño).
Una Distribución de Frecuencias para Datos Agrupados es una tabla resumen en la que se disponen los
datos divididos en grupos ordenados numéricamente que se denominan clases o categorías.
Cuando se agrupan datos, o se los condensa en tablas de Distribución de Frecuencias, es más manejable y
significativo el proceso de análisis e interpretación de datos. En esa forma resumida es muy sencillo aproximar
las principales características de los datos y de esta manera se compensa el hecho de que al agrupar los datos
se pierde alguna información inicial referente a las observaciones individuales.
Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente:
11CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Seleccionar el número adecuado de clases para cada tabla.
Obtener un intervalo de clase apropiado para cada clase.
Seleccionar los límites de las clases que definen los intervalos, de manera que cada observación se
clasifique sin ambigüedad en una sola clase.
Son muchas las formas de seleccionar los límites de las clases. Cada paquete estadístico usa para ello su
propio algoritmo, el cual difiere de un paquete a otro. Si se usan varios paquetes para graficar un conjunto de
datos dado con su técnica por defecto, los histogramas pueden variar levemente en el número de clases
seleccionadas y en los valores de los límites de las clases. La forma general del histograma sería la misma en
todos ellos.
Amplitud de los intervalos
Si los intervalos de clase son de la misma longitud, ¿Cómo elegir la amplitud h de los intervalos de
clase?
Hay una vieja fórmula para ello; si N es el tamaño del lote, se trata de hallar el número de intervalos k
que satisfaga la relación
( k - 1)
N ~ 2
De esta expresión resulta k ~ 1 + 3,322 log N Fórmula de Sturges (1)
Redondeando al valor más próximo obtenemos un valor de k.
La respuesta que se obtiene con la Regla de Sturges no es definitiva y se debe considerar únicamente como
una guía. El número de intervalos de clase especificado por la regla deberá incrementarse o disminuirse por
conveniencia y para lograr una presentación más clara. Es decir, no hay reglas invariables en relación con el
número de clases o la elección de las clases. Entre 5 y 20 clases son satisfactorias para la mayor parte de
conjuntos de datos. En general, mientras más grande sea el número de observaciones en un conjunto de datos,
se deben usar más clases.
Hay también una regla empírica para determinar el número de intervalos de clase
Número de observaciones en un conjunto de datos Número de Clases
Menos de 25 5o6
25 – 50 7 –14
Más de 50 15 - 20
Generalmente, este procedimiento deja una amplitud que no es conveniente para su uso y nuevamente se debe
utilizar el sentido común para elegir la amplitud -normalmente cercana a la que se obtiene con la ecuación (1)-
que sea más conveniente-.
Una vez determinado el número de clases, determinamos la amplitud h de cada clase, simbólicamente
xMÁXIMO XMÍNIMO
h = RANGO / k , esto es h (2)
k
RANGO: es la distancia entre el valor máximo y el valor mínimo.
Límites de las Clases - Marcas de clases
Otro problema más es la selección de los límites de las clases. Los cálculos a partir de una distribución de
frecuencias, a menudo hacen uso del punto medio de cada clase para representar todos los elementos
contenidos en la misma. El punto medio de una clase es el valor intermedio entre los dos límites de la clase y se
conoce como “marca de clase”. Así pues, el punto medio queda determinado por los dos límites de la clase.
Con el objeto de efectuar los cálculos que discutiremos en el próximo tema con tanta precisión como sea
posible, generalmente se sugiere que los límites de clase se seleccionen en forma tal que el punto medio de
cada clase sea aproximadamente igual al promedio aritmético de los elementos que caen dentro de esa clase.
En la mayoría de los casos esa condición se satisfará muy bien aún cuando se dé poca atención a este principio
al establecer los límites.
Al establecer los límites de la clase debemos tener cuidado de no caer en ambigüedades. Por ejemplo en el
caso de rentas, los límites $30-$40, $40-$50 no son claros, debido a que no podemos estar seguros en cual de
las dos clases se incluye $40. Los límites $30-$39, $40-$49 son claros, previsto que los datos se expresen
solamente en pesos. Cuando éste es el caso, el punto medio de la primera clase sería [(30 + 39)/2] = $34,50. Y
así sucesivamente.
Si los datos se expresan hasta los centavos, los límites anteriores no resultarán claros. Sin embargo, si se
establecen los límites en la forma de $30,00-$39,99, $40,00-$49,99, no habrá duda de saber en que clase cae
12CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
cada elemento. En este caso, el punto medio de la primera clase es [(30,00 + 39,99)/2] = $34,995, o para
cualquier propósito $35, y así sucesivamente.
Los límites $30-menos de $40, $40-menos de $50 son claros; sin embargo, sin información adicional no es
posible determinar los puntos medios con precisión. Si no se proporciona información adicional, el punto medio
de la primera clase se considera como [(30 + 40)/2] = $35, y así sucesivamente.
Intervalos de Clase
Definimos cada clase o categoría mediante un intervalo de clase expresado en la forma
xi - h/2 , xi + h/2
El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clase
y es el valor numérico representativo de los datos de la clase.
x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase.
Una manera de determinar la clase definida por x i sería:
Desde xi - h/2 inclusive, hasta menos de xi+ h/2,
esto es, el intervalo [x i - h / 2 , x i + h / 2)
Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2 v j < x i + h/2 .
Como vemos, en cada intervalo de clase se incluye al límite inferior.
Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la
siguiente manera:
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68
1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37
1,75 1,69
Se desea obtener conclusiones sobre la distribución de los datos.
En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges
k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k 7 clases
Teniendo en cuenta que x máximo = 2,55 y el xmínimo = 0,72, tomamos la amplitud de cada intervalo h, usando la
2,55 0,72
ecuación (2) : h 0,261 0,30
7
La distribución de frecuencias para el ejemplo se presenta en la Tabla 5.
Tabla 5: Distribución de frecuencias del contenido de nicotina en 40 cigarrillos
Contenido de Marca de Clase N° de Proporción de Porcentaje de
Nicotina (en mg) cigarrillos cigarrillos cigarrillos
[0,60 , 0,90) 0,75 2 0,050 5,0%
[0,90 , 1,20) 1,05 1 0,025 2,5%
[1,20 , 1,50) 1,35 4 0,100 10,0%
[1,50 , 1,80) 1,65 15 0,375 37,5%
[1,80 , 2,10) 1,95 11 0,275 27,5%
[2,10 , 2,40) 2,25 5 0,125 12,5%
[2,40 , 2,70) 2,55 2 0,050 5,0%
N= 40 1,000 100,0%
Se clasificaron las observaciones en cada una de las clases y se determinaron así las frecuencias absolutas.
Las frecuencias relativas nos da la proporción de observaciones en cada clase.
Nota: Otra alternativa al definir los límites de las clases para garantizar que ningún dato caiga en un límite de
clase, es definir los límites de manera tal que incluyan un decimal más que los datos.
La información que proporciona una distribución de frecuencias para este tipo de agrupamiento de datos es más
fácil de entender si se presenta en forma gráfica mediante un diagrama que se llama Histograma y es debido a
Karl Pearson.
HISTOGRAMA
Un histograma es un conjunto de rectángulos cada uno de los cuales representa un intervalo de agrupación o
clase. La base de cada rectángulo coincide con el intervalo de clase, y la altura se determina de manera que su
área sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada
clase.
13CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
La variable de interés se grafica sobre el eje horizontal, el eje vertical representa el número, proporción o
porcentaje de observaciones para cada intervalo de clase, dependiendo de si el histograma específico es,
respectivamente, un histograma de frecuencias, un histograma de frecuencias relativas o un histograma
porcentual.
Se presenta un histograma de frecuencia asociado a la distribución de frecuencias de la Tabla 5.
Figura 7
Histograma de los contenidos de nicotina en 40 cigarrillos
16
15
14
12
11
10
6
Nº de cigarrillos
5
4
4
2
2 2
1
0
,6 - ,9 ,9 - 1,2 1,2 - 1,5 1,5 - 1,8 1,8 - 2,1 2,1 - 2,4 2,4 - 2,7
contenido nicotina (mg)
De la tabla y el histograma puede concluirse que los contenidos de nicotina de los 40 cigarrillos se concentran
entre los 1,5 miligramos y 2,1 miligramos, más precisamente el 65% de las observaciones centrales, toman
valores de 1,5 mg hasta menos de 2,1 mg. Solo dos cigarrillos (un 5%) tienen un contenido de nicotina superior
a 2,4 mg.
Los histogramas pueden proporcionar mucha información respecto a la estructura de los datos.
La Figura 8 presenta varios casos típicos.
Figura 8(a)
El histograma (a) presenta una distribución asimétrica que es típica de los datos económicos, y en general de
mediciones de renta, población, consumo de electricidad,tamaño de empresas, etc
Figura 8(b)
14CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
El Histograma (b) muestra una distribución simétrica que aparece en muchos procesos de fabricación al estudiar la
distribución de una característica medible.
Figura 8(c) Figura 8(d)
El histograma (c) aparece al mezclar elementos de varias poblaciones, cada uno de ellos con una distribución
tipo (b), lo que produce una distribución con gran variabilidad. En el límite, si las distribuciones individuales
están muy separadas, podemos encontrarnos una situación como la descrita por el histograma (d) donde se
apuntan más claramente ambas distribuciones (por ejemplo resistencia de piezas de distintos materiales en
cuanto a dureza).
Figura 8(e)
El caso (e) presenta una distribución truncada, que
aparecerá, por ejemplo, al someter a piezas a un
control de calidad que tiene límite de
especificaciones A y B
Figura 8(f)
Finalmente la distribución (f) es muy asimétrica y
surge al estudiar tiempos entre averías, entre
llegadas, entre accidentes, etc.
Sin embargo, cuando se comparan dos o más conjuntos de datos, no es posible construir los diversos histogramas
en la misma gráfica, porque la superposición de los rectángulos dificulta su interpretación. Para estos casos en
necesario construir polígonos porcentuales o de frecuencias relativas.
POLÍGONOS
Al igual que con los histogramas, cuando se elaboran polígonos se grafica sobre el eje horizontal la variable de
interés, en tanto que el eje vertical representa o simboliza el número, proporción o porcentaje de observaciones de
cada intervalo de clase.
El polígono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y
después conectando la secuencia de sus respectivos porcentajes de clase.
En la siguiente Figura 9 se muestra el polígono porcentual de los contenidos de nicotina de 40 cigarrillos.
15CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
Construcción de polígonos
Se debe tener presente que el polígono es una FIGURA 9
representación de la forma de una distribución particular.
Como el área bajo la distribución porcentual (la totalidad
de la curva) debe ser del 100%, es necesario conectar
los puntos medios primero y último con el eje horizontal,
para abarcar el área total de la distribución observada.
En la figura 9 se logra esto conectando el primer punto
medio observado con el punto medio de una clase
“ficticiamente precedente” 0,45 mg que tiene 0,0% de
observaciones y conectando el último punto medio
observado con el punto medio de una clase
“ficticiamente siguiente” 2,85 mg que tiene 0,0% de
observaciones.
Se ilustra el procedimiento para construir el polígono de
frecuencia de la Figura 9.
Nótese también que cuando se construyen polígonos o histogramas, el eje vertical debe mostrar el cero verdadero
u “origen” para no distorsionar o representar equivocadamente el tipo de datos. Sin embargo, no es necesario que
el eje horizontal especifique el punto cero de la variable de interés. Por razones de estética el rango de la variable
debe constituir la principal porción de la gráfica y, cuando no se incluye el cero, resulta apropiado incluir “fracturas”
en el eje.
Como los puntos medios consecutivos se conectan mediante segmentos de recta, en ocasiones la apariencia del
polígono es “irregular”. Si se acercaran más los límites exactos de clase de las distribución de frecuencia ( y, de esta
manera se aumentara el número de clases de la distribución) se “suavizaría” la irregularidad de las líneas.
CURVAS DE FRECUENCIA SUAVIZADAS
Los datos recogidos pueden considerarse usualmente como pertenecientes a una muestra de una población
grande. Ya que son posibles muchas observaciones sobre esa población, es teóricamente posible (para datos
continuos) escoger intervalos de clase muy pequeños y tener todavía números razonables de observaciones en
cada clase. Así que cabe esperar que el polígono de frecuencias o el polígono de frecuencias relativas para una
gran población tenga tantos pequeños segmentos que aparezca como casi una curva continua a las que nos
referiremos como “curva de frecuencia o curva de frecuencias relativas” respectivamente.
Es razonable esperar que dichas curvas teóricas provengan de suavizar los polígonos de frecuencias o los
polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño
de la muestra. Por esta razón una curva de frecuencia se cita a veces como un “polígono de frecuencias
suavizado”
Por ejemplo si el histograma de la Figura 8-a basara
en una muestra suficientemente grande podría
suavizarse el polígono de frecuencia y se obtendría el
siguiente gráfico.
Figura 10 : Polígono de Frecuencias Suavizado de
las Rentas Familiares
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS
Otros métodos útiles de presentación de datos que facilitan el análisis y la interpretación, son las tablas de
distribuciones acumuladas y las gráficas de polígonos acumulados. Ambas se pueden elaborar a partir de la tabla
de distribución de frecuencias relativas o de frecuencias relativas porcentuales.
Una tabla de distribución porcentual acumulada se construye “añadiendo” un intervalo de clase extra al final
Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del “menor
que”, determinando el porcentaje de las observaciones que son inferiores a cada uno de los límites inferiores.
Tabla 6: Distribución Porcentual de los contenidos de nicotina para 40 cigarrillos
Contenido de Porcentaje de cigarrillos Porcentaje de cigarrillos con contenido de nicotina
Nicotina (en mg) "menor que" el límite inferior del intervalo de clase.
[0,60 , 0,90) 5,0% 0,0%
[0,90 , 1,20) 2,5% 5,0%
[1,20 , 1,50) 10,0% 7,5%
[1,50 , 1,80) 37,5% 17,5%
[1,80 , 2,10) 27,5% 55,0%
[2,10 , 2,40) 12,5% 82,5%
[2,40 , 2,70) 5,0% 95,0%
[2,70 ,3,00) 0,0% 100,0%
Así se observa que el 0,0% de los cigarrillos tienen un contenido de nicotina inferior a 0,60 mg, el 5% son inferiores
a 0,90 mg, y así sucesivamente, hasta que el total (100,0%) de los cigarrillos tienen un contenido de nicotina inferior
a 2,70 mg.
POLÍGONO PORCENTUAL ACUMULADO
Para construir un polígono porcentual acumulado (al que también se denomina OJIVA) se observa que,
nuevamente la variable de interés se grafica sobre el eje horizontal, en tanto que los porcentajes acumulados de la
columna “menor que”) se grafican sobre el eje vertical. En cada uno de los límites inferiores se traza el valor del
porcentaje correspondiente (acumulado), a partir de la lista que aparece en la distribución porcentual acumulada.
Después se conectan esos puntos con segmentos de línea recta.
A continuación se presenta la tabla 7 que permite construir en forma simple el polígono porcentual acumulado
(ojiva) para los datos de la nicotina que se presenta en la Figura 11.
Tabla 7
Contenido de Nicotina (en mg) Porcentaje de cigarrillos
Menor que 0,6 mg 0,0%
Menor que 0,9 mg 5,0%
Menor que 1,2 mg 7,5%
Menor que 1,5 mg 17,5%
Menor que 1,8 mg 55,0%
Menor que 2,1 mg 82,5%
Menor que 2,4 mg 95,0%
Menor que 2,7 mg 100,0%
FIGURA 11: Ojiva del contenido de nicotina de 40 cigarrillos
1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO
Ejemplo: En un estudio de ruptura por torsión durante el tejido de tela, se probaron 100 muestras de hilo. Se
determinó el número de ciclos de tensión a la ruptura para cada muestra de hilo y se realizó con dichos datos un
histograma con clases de la misma amplitud. Se presenta también un diagrama de puntos de los 100 datos
obtenidos.
FIGURA 12: Gráfico de puntos del número de ciclos de tensión a la ruptura para 100 muestras de hilo
Es posible que los intervalos de clase de igual amplitud no sea una elección atinada si un conjunto de datos se
“extiende” a un lado u otro. En la figura 12 se ilustra un diagrama de puntos de tal conjunto de datos. Con una
cantidad pequeña de clases de igual amplitud se obtienen casi todas las observaciones que caen en solo algunas
clases. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede
apreciarse en la Figura 13.
FIGURA 13
Una segunda elección es usar algunos intervalos más anchos cerca de observaciones extremas e intervalos más
reducidos en la región de alta concentración.
Para construir un histograma para datos continuos, con intervalos de clase de ancho desiguales, después de
determinar las frecuencias y las frecuencias relativas, se calcula la altura del rectángulo con la fórmula:
frecuencia relativa de la clase
Altura del rectángulo (3)
ancho del intervalo de clase
Las alturas de los rectángulos que resultan se denominan densidades, y la escala vertical es la escala de
densidad. Esto también funciona cuando los intervalos de clase tienen el mismo ancho.
También se utiliza para datos discretos.
La siguiente tabla presenta la distribución de frecuencias para intervalos de clase de distinto ancho.
Tabla 8: Distribución de frecuencias del N° de ciclos de tensión a la ruptura para 100 muestras de hilo
Intervalos de clase Frecuencia Frecuencia relativa Densidad
[0 , 50) 8 0,08 0,0016
[50, 100) 13 0,13 0,0026
[100, 150) 11 0,11 0,0022
[150 , 200) 21 0,21 0,0042
[200 , 300) 26 0,26 0,0026
[300 , 400) 12 0,12 0,0012
[400 , 500) 4 0,04 0,0004
[500 , 600) 3 0,03 0,0003
[600 , 900) 2 0,02 0,0001
N= 100 1
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
El histograma de densidad está dado por la Figura 14
FIGURA 14
Cuando los anchos de clase son distintos, el hecho de no usar una escala de densidad, da como resultado una
figura con áreas distorsionadas.
Para anchos de clase iguales, el divisor es el mismo en cada cálculo de densidad, y las operaciones aritméticas
adicionales solo dan como resultado una nueva escala del eje vertical (es decir, el histograma de frecuencias
relativas y el de densidad tienen la misma apariencia). Un histograma de densidades tiene una propiedad
interesante. Al multiplicar por el ancho de clase ambos lados de la fórmula de la densidad, se obtiene
Frecuencia relativa = (ancho de clase) (densidad)
= (ancho del rectángulo) (altura del rectángulo)
= Área del rectángulo
Es decir, el área de cada rectángulo es la frecuencia relativa de la clase correspondiente. Además, puesto que la
suma de las frecuencias relativas debe ser 1 (salvo en caso de redondeo) el área total de los rectángulos en un
histograma de densidad es igual a 1. Siempre es posible trazar un histograma de manera que el área sea igual a la
frecuencia relativa (esto también es válido para un histograma de datos discretos, solo se usa la escala de
densidad).
Bibliografía
“Probabilidad y Estadística para Ingenieros” Walpole, Myers y Myers. Sexta Edición. Ed. Prentice Hall. 1999.
“Probabilidad y Estadística para Ingeniería y Ciencias” William Mendenhall y Terry Sincih. Cuarta Edición 1997.
“Estadística Básica en Administración. Conceptos y Aplicaciones” Berenson y Levine. Prentice-Hall. Cuarta
Edición 1992.
“Probabilidad y Estadística para Ingeniería y Ciencias” Jay Devore. Sexta edición. 2005
“Estadística” Murray Spiegel. Serie Shaum
“Estadística Modelos y Métodos. 1. Fundamentos” Daniel Peña Sánchez de Rivera- Alianza Editorial. 1986
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO