0% encontró este documento útil (0 votos)
193 vistas34 páginas

Estadística Descriptiva

Apuntes para resolver problemas de estadistica descriptiva como media, percentiles, cuartiles, deciles, moda, desviacion estandar , etc.....
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
193 vistas34 páginas

Estadística Descriptiva

Apuntes para resolver problemas de estadistica descriptiva como media, percentiles, cuartiles, deciles, moda, desviacion estandar , etc.....
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd

Lic.

Vicente Snchez y Ramrez


Estadstica Descriptiva

1. ESTADSTICA DESCRIPTIVA

1.1 Introduccin.

La palabra Statistik proviene de la palabra italiana statista que significa estadista.


Los primeros que introdujeron el trmino de estadstica a Inglaterra fue el Dr. E.A.W.
Zimmerman. Su uso fue popularizado por Sir John Sinclair en su obra Statistical
Account of Scotland 1791-1799 (Informe estadstico sobre Escocia 1791-1799).

Estadstica la podemos definir como la ciencia que se encarga de recolectar,


organizar, analizar e interpretar datos numricos con el propsito de auxiliar en una
toma de decisiones ms efectiva.

La estadstica se divide en dos ramas descriptiva e inferencial; la estadstica


descriptiva se encarga de recolectar, organizar, analizar, resumir y presentar datos de
manera conveniente, til y comprensible. La estadstica inferencial realiza inferencias
a partir de los estimadores de la muestra sobre los parmetros de la poblacin.

La definicin anterior nos presenta nuevos conceptos tales como: poblacin,


muestra, estimador y parmetro, para entenderla mejor definamos cada uno de
stos. Poblacin es un conjunto de elementos con una caracterstica comn
observable, muestra subconjunto de la poblacin, donde cada uno de los elementos
que la componen tuvo la misma probabilidad de salir elegido, parmetro es una
caracterstica numrica que identifica a una poblacin dada y estimador o
estadstico es un valor obtenido de la muestra que permite hacer predicciones sobre
los parmetros de una poblacin,

En dnde se aplica la estadstica? Sera prolijo describir todas las actividades


donde entra en juego la estadstica como herramienta de investigacin, creo que
sera ms fcil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento cientfico se van encontrando nuevas aplicaciones de
le ciencia estadstica. Sin embargo, y a manera de ilustracin mencionaremos
algunos de los usos de la estadstica en alguno de sus campos.

Establecimiento de normas de calidad de productos agrcolas e industriales.


Encuestas de opinin.
Estudios de mercado.
Necesidades de los servicios de las ciudades.
Contaminacin ambiental.
Inventarios agrcolas, ganaderos, forestales e industriales.
Estimacin de cosechas.
Control estadstico de procesos.
Prevalencia o incidencia de alguna plaga o enfermedad.
Mejoras de calidad de los equipos.
Disminucin de costos de produccin.
Reduccin de niveles de contaminacin en procesos industriales, etc.

1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

El tema contempla el estudio de: medidas de tendencia central, de dispersin y de


posicin tanto para datos agrupado como no agrupados; representaciones grficas, y
empleo del software Minitab y Excel en el anlisis de estadstica descriptiva.

1.2 Medidas de tendencia central en datos no agrupados.

Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si stos son ordenados de
menor a mayor.

1.2.1 Media aritmtica.

Si las observaciones de una muestra aleatoria de tamao n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n

_ x x ... x n x i
x 1 2 i 1

n n
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = nmero de observaciones.

Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los aos de edad de cada uno de ellos.

x1 x2 x3 x4 x5 x6
19 23 21 24 20 18

_
19 23 21 24 20 18 125
x 20.83
6 6

Lo que significa que la edad promedio de los alumnos es de 20.8 aos.

La media aritmtica es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.

La media aritmtica es muy sensible a las mediciones extremas, cuando estas


medidas no estn equilibradas en ambos lados de la misma, por ejemplo.

x1 x2 x3 x4 x5
9 11 20 19 150

2
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

_
209
x 41.8
5

Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atpico que aparece en los datos es
correcto (150), una observacin atpica es un valor que es inusual en relacin con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la informacin es la mediana.

La media aritmtica se puede comparar con el punto de apoyo en el juego de sube


baja, por ejemplo, sea una muestra de seis nios donde la variable aleatoria son los
aos de edad de cada uno de ellos. Puede observarse que seis es el valor que
equilibra a los datos.

x1 x2 x3 x4 x5 x6
4 2 6 2 7 15

2
2 4 7 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 0 0 0 0 0 0 0

As como hay la media de la muestra tambin existe la media poblacional y se


denota por la letra griega (miu) y se define por:

X i
i 1
N

Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la poblacin.

Puede observarse que para definir los parmetros de la poblacin se utilizan letras
maysculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minsculas o nmeros.

1.2.2 Mediana ( M ).

Es la medida de tendencia central que divide la muestra en dos mitades iguales, o


sea, es el estadstico que se ubica exactamente a la mitad de los datos, el 50% de la
informacin se encuentra a la izquierda y el otro 50% a la derecha.

3
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces la mediana
queda definida por:

a. Si el nmero de observaciones es impar, la mediana es el valor de en medio.


b. Si el nmero de observaciones es par, la mediana es el promedio de las dos
observaciones de en medio.

Ejemplo. Sea la variable en estudio el nmero de hijos en siete familias.

9 5 8 2 0 1 5 n es impar

Primero ordenamos los datos de menor a mayor y posteriormente obtenemos la


mediana.

x1 x2 x3 x4 x5 x6 x7
0 1 2 5 5 8 9

Mediana = 5 hijos por familia.

Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen cinco hijos o ms.

Si obtenemos la media x 4.28 y la mediana M = 5, ambas cantidades brindan una


medida razonable de tendencia central (porque se ubican al centro de los datos).

La mediana tiene la ventaja sobre la media aritmtica porque no se afecta


considerablemente por valores atpicos, por ejemplo:

23 17 36 01 49 33 2520

Ordenando los valores tenemos:

01 17 23 33 36 49 2520

Aqu la mediana es M = 33 y la media aritmtica es x 382.7 , queda claro que la


media no nos dice mucho de la tendencia central de la mayor parte de los datos
cuando alguno de ellos se sale del rango de valores, cuando esto sucede es
recomendable utilizar para el anlisis a la mediana en lugar de la media aritmtica.

Veamos otro ejemplo donde n es par.

4 3 7 9 5 3

Ordenado:
x1 x2 x3 x4 x5 x6
3 3 4 5 7 9
4
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

45
M 4.5
2

1.2.3 Moda ( Mo ).

De todas las medidas de tendencia central, la moda es la ms fcil de determinar ya


que se obtiene por inspeccin visual y no por cmputo, o sea es la observacin que
ocurre con mayor frecuencia.

Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
91 87 99 86 91 79 93 82 91 86

Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificacin 91 puntos.

Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribucin bimodal, ejemplo:

1 7 3 6 3 2 4 6

Aqu la moda puede ser 3 y 6. Cuando se tenga ms de una moda se dice que se
trata de una distribucin multimodal.

1.2.4 Media ponderada.

La frmula matemtica que simboliza a esta medida de tendencia central es:

_ w x i i
xw i 1
n

w
i 1
i

Donde:
xi = valor de la variable aleatoria.
wi = nmero de observaciones de la variable aleatoria.

Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 14.70, 13.90,
12.95 y 13.80 pesos por litro, si carg 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. Cul es el costo promedio por litro?

xi = precio de la gasolina.
Wi = nmero de litros en cada gasolinera.

5
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

_
1514.70 2013.90 1512.95 1013.80 830.75
xw 13.846
60 60

Lo que significa que el costo promedio por litro de gasolina es de $ 13.85 pesos.

1.2.5 Comparacin de la media, mediana y moda.

Considrese la negociacin de un contrato colectivo de trabajo en el que el punto


ms importante a discutir es el incremento salarial, en donde participa el lder
sindical, la parte patronal y la Junta de Conciliacin y Arbitraje, para la negociacin
de dicho punto se obtuvo una muestra con los siguientes sueldos:

5,400 10,800 10,800 17,700 22,400 27,600

La parte patronal decide no dar el incremento salarial, en funcin de que el sueldo


promedio de los empleados es alto, siendo este de:
_
94700
x 15783.33
6

El lder sindical argumenta que esto es falso ya que la muestra es muy pequea y
adems estn mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 17,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que ms
se repite, o sea la moda, la cual es Mo = 10,800.

Un honesto tribunal recomendara como medida de discusin para el incremento


salarial a la mediana, que es la medida de tendencia central ms acertada para este
tipo de casos.
10800 17700
M 14250
2

Como puede apreciarse, las medidas de tendencia central son utilizadas en funcin
del comportamiento de los datos, en este ejemplo se observa un valor atpico
(27,600) por lo que la medida de tendencia central ms recomendable para el
anlisis es la mediana.

1.3 Medidas de dispersin en datos no agrupados.

Es por todo conocido que un nmero por s mismo carece de significado, solo lo
adquiere cuando se compara con otros nmeros o estadsticos.

Si conocemos la media de una distribucin de una variable dada, podemos


determinar cuando una calificacin es mayor menor que dicha media pero cunto
es mayor o cunto es menor?

Para describir una distribucin en forma ms completa es necesario una informacin


adicional que acompae a la media, la mediana o la moda.
6
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Esta informacin adicional debe de indicar el grado de dispersin de los valores de la


variable aleatoria alrededor de su promedio, para comprenderlo mejor veamos el
siguiente ejemplo numrico.

Considere la resistencia al rompimiento en libras por pulgada cuadrada (psi) de doce


botellas de vidrio de un litro, tomadas de dos lotes de produccin.

Muestra 1 230 250 245 258 265 240


Muestra 2 190 228 305 240 265 260

La media de ambas muestras es igual a 248 psi, sin embargo la dispersin de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente grfico.

x x x x x x
* * * ** * Muestra 1 = *

180 200 220 240 260 280 300 320 Muestra 2 = x

x = 248

En base a la dispersin de los datos de cada lote de la grfica anterior, queda


demostrado que las medidas de tendencia central no proporcionan suficiente
informacin para describir adecuadamente la distribucin de una poblacin, para que
esto suceda deben ser acompaadas de una medida de dispersin, siendo por lo
general la varianza.

1.3.1 Rango.

Es una medida de variabilidad que indica la distancia en la escala de calificaciones.


Es la ms sencilla y directa en las medidas de dispersin, se obtiene restando al dato
mayor el dato menor y sumndole uno.

El rango es poco usado por su notoria inestabilidad, si existe en la distribucin alguna


calificacin extrema, la dispersin de las calificaciones parecera ms grande. Si
hiciramos caso omiso de esa distribucin extrema, podramos encontrar que la
distribucin es por el contrario ms compacta Ejemplo:

4 1 3 9 8 11 13 7 29

Rango = (29 - 1) + 1 = 29

Si quitamos el 29 el nuevo rango ser: (13 - 1) + 1 = 13 lo que nos indica que los
datos estn ms compactos.

7
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Dentro de los mayores defectos que tiene el rango son:

a) No permite hacer una interpretacin precisa de una calificacin dentro de la


distribucin.

b) No puede hacerse intervenir en ninguna de las relaciones matemticas,


importantes en la inferencia estadstica.

Su interpretacin ser: entre ms grande sea el rango mayor ser la dispersin de


las calificaciones.

1.3.2 Desviacin media (D. M.).

Consiste en restar a cada una de las calificaciones su media y sta diferencia se


suma pero en valor absoluto, dividindose posteriormente entre n.

Ejemplo.

x1 x2 x3 x4 x5
8 10 5 4 3
_
30
La media aritmtica es x 6
5

xi x = 2 4 -1 -2 -3
5

x
i 1
i x 12

12
Por lo tanto la desviacin media ser igual a D.M . 2.4
5
Su interpretacin ser: tanto mayor sea la desviacin media, tanto mayor es la
dispersin de las calificaciones.

La desviacin media por s sola tiene muy poco uso, si la estudiamos es debido a:

a) Est estrechamente relacionada con la varianza y la desviacin estndar.

b) La desviacin media es en cierta forma base para estimar errores en la prediccin.

Dentro de sus mayores defectos estn los mismos que los del rango.

1.3.3 Varianza y desviacin estndar.

La medida de dispersin ms utilizada dentro del anlisis estadstico es conocida


como varianza. S x1, x2,...,xn son las observaciones de una muestra de tamao n, el
algoritmo matemtico que define la varianza es:

8
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

x x
n
2
i
S2 i 1

n 1
Dicha frmula aplicando las leyes del lgebra podemos redefinirla como:

2
n
n
x i
xi
2

S
2 i 1
i 1
n 1 n n 1

Para ver como la varianza de la muestra mide la dispersin de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.

x x x x x x

180 200 220 240 260 280 300 320

x = 248

La grfica muestra las desviaciones de xi x , si sumamos estas desviaciones dar


como resultado cero, para evitar esto cambiamos las desviaciones negativas a no
negativas elevndolas al cuadrado, en consecuencia si las desviaciones son
pequeas, hay una relativamente pequea variabilidad en los datos, pero si las
desviaciones son grandes, la variabilidad es relativamente grande, por lo que la
varianza penalizar mucho las desviaciones grandes.

La varianza nos sirve para medir la variabilidad de los datos en una poblacin, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se estn
estudiando.

Ejemplo, obtengamos la varianza para la muestra uno y dos del rompimiento en


libras por pulgada cuadrada de los dos lotes de botellas.

Muestra 1 Muestra 2
n1 = 6 n2 = 6
x1 = 1,488 x2 = 1,488
x 2
1= x 2
=
2

369,814 376,534
x1 = 248 x2 = 248

9
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

369,814 1488 2 376,534 1488 2


158 psi 1,502 psi
2 2 2 2
S1 S2
6 1 6 6 1 6 1 6 6 1

Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos estn ms apiladitos alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son ms
homogneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.

Debido a que S2 se expresa en el cuadrado de las unidades originales, no es fcil


interpretarlas, para resolver este problema de dimensionalidad, trabajamos con la
raz cuadrada (positiva) de la varianza la cual llamaremos desviacin estndar; esto
brinda una medida de dispersin expresada en las mismas unidades de la variable
con la que estamos trabajando.

Las desviaciones estndar de las muestras uno y dos de la resistencia al


rompimiento de las botellas son:

2 2
S1 S1 158 12.57 psi S 2 S 2 1,502 38.75 psi

La interpretacin de la varianza y de la desviacin estndar ser: entre ms cercanos


se encuentren estos valores del cero, puede significar que los datos estn ms
agrupados alrededor de su promedio (existe poca variabilidad). Pero aqu se
recomienda tener cuidado cuando se trabaje con valores pequeos, ya que el
resultado de S2 y S puede ser engaoso, en este caso se recomienda la utilizacin
del coeficiente de variacin para su interpretacin, el cual veremos a continuacin.

De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la poblacin, la cual se denota con la letra griega 2, su clculo es:

2
N N
N
X Xi Xi
2 2
i

2 i 1
i 1 i 1 2
N N N

1.3.4 Coeficiente de variacin.

Existe otra medida de dispersin que se conoce como coeficiente de variacin su


forma ms frecuente de encontrarlo es:

S
CV (100)
x

La interpretacin del coeficiente de variacin es similar al de la varianza, con la


ventaja de que ste varia por lo general de 0 a 100%, entre ms pequeo sea,
significa que la poblacin es ms homognea, o sea que la varianza es ms

10
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

pequea. Y entre ms cercano est el CV al 100% significa que la poblacin es ms


heterognea.

En los ejemplos que nos ocupan los coeficientes de variacin son:

12.57 38.75
CV1 (100) 5.1% CV2 (100) 15.6%
248 248

Puede observarse que hay menor variabilidad en cuanto a resistencia se refiere en la


muestra uno, por lo que podemos decir que este lote tiene ms calidad.

El coeficiente de variacin adems de indicarnos si una varianza es chica o grande,


nos sirve tambin para comparar poblaciones en donde se analiza diferente
variable, por ejemplo considere las siguientes dos poblaciones:

1. Un tirador realiza tres disparos a un 2. El lanzamiento de tres cohetes a la


blanco y se mide la desviacin en mm. luna que tiene que alunizar en un
de donde peg el disparo al blanco, determinado lugar, la desviacin en Km.
siendo estos: son:

Disparo Desviacin Lanzamientos Desviacin


1 5 mm. 1 11 Km.
2 3 mm. 2 23 Km.
3 7 mm. 3 17 Km.

Calculemos ahora la media, varianza y desviacin estndar para ambas poblaciones.

1 = 5 mm. 2 = 17 Km.
21 = 2.67 mm2. 22 = 24 Km2.
1 = 1.63 mm. 2 = 4.9 Km.

Hasta aqu podramos suponer que la poblacin uno parece tener menor variabilidad
en sus datos que la poblacin dos.

Obtengamos ahora los coeficientes de variacin.

1.63 4.9
CV1 100 32.6% CV2 100 28.8%
5 17

Aqu podemos afirmar que la variabilidad de la poblacin uno es ligeramente mayor


que la de la poblacin dos, o sea hay un mayor alejamiento de los disparos con
relacin a su media en comparacin con la poblacin dos. Aun cuando solo en un
3.8% la poblacin uno es ms variable que la poblacin dos.

11
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

1.3.5 Percentiles

Un percentil es un valor x, donde por lo menos p por ciento de las observaciones


tienen un valor menor o igual a este valor x, y donde (100 p) por ciento de las
observaciones tienen un valor mayor o igual a x.

Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y x n el valor ms grande. Entonces un percentil
puede calcularse de la siguiente manera:

i n( p ) Donde p es el percentil buscado.

Si el valor de i no es entero redondearlo al primer entero mayor que i, el cual indicar


la posicin del percentil p.

Si el valor de i es entero, el percentil p es el promedio de los valores en las


posiciones i e i + 1.

Ejemplo. Sea la variable en estudio el nmero de hijos en seis familias.

5 8 2 0 1 5

Primero ordenamos los datos de menor a mayor.

x1 x2 x3 x4 x5 x6
0 1 2 5 5 8

El decil 25 o primer cuartil ser i 6(0.25) 1.5 . Como i no es entero se redondea a


2. Por lo tanto el percentil 25 es el valor que ocupa la posicin dos, o sea uno.

El percentil 50, segundo cuartil o mediana es i 6(0.50) 3 . Como i es entero el


percentil 50 es el promedio de los valores que estn en las posiciones 3 y 4 o sea
(2+5)/2 = 3.5.

El percentil 75 o tercer cuartil es i 6(0.75) 4.5 . Como i no es entero se redondea


a cinco, por lo que el tercer cuartil es el penltimo nmero o sea cinco.

1.4 Organizacin de poblaciones (datos agrupados).

1.4.1 Distribucin de frecuencias.

Cuando se tiene un gran nmero de datos lo ms conveniente es organizarlos y


presentarlos de tal manera que facilite su interpretacin.

Una de las primeras formas de organizarlos es mediante la presentacin de una


tabla de frecuencias, lo cual nos permite saber fcilmente que porcentaje de la
poblacin presenta las caractersticas que nos interesan.
12
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Para ilustrar el mtodo, tomemos como ejemplo la resistencia al rompimiento en


libras por pulgada cuadrada (psi) de 72 botellas de vidrio no retornable de refresco
de un litro.

265 197 343 280 265 200 221 265 261


205 286 317 242 254 235 176 262 248
263 274 242 260 281 246 248 271 260
307 243 258 321 294 328 263 245 274
220 231 276 228 223 296 231 301 337
268 267 300 250 260 276 334 280 250
260 281 208 299 308 264 280 274 278
234 265 187 258 235 269 265 253 254

Como es obvio estas cantidades no tienen ni pies ni cabeza a menos que las
organicemos de un modo sistemtico. Las razones para ordenarlos en una tabla de
frecuencias son:

a) Es antieconmico e imprctico tratar con un nmero de casos distribuidos en


muchos puntajes.

b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.

Como factor negativo tenemos, al agrupar los puntajes se pierde inevitablemente


parte de la informacin. Esto se puede medio resolver, agrupando los datos en la
forma ms correcta de acuerdo a la experiencia que se tenga con la informacin. De
aqu la pregunta obligada cuntos intervalos se deben de utilizar en una tabla de
frecuencias? La respuesta es difcil...

Algunos autores que estudian el comportamiento indican que pueden ser de 10 a


20 intervalos de clase. Otros dedicados a trabajos agrcolas citan de 5 a 25
intervalos. Autores que escriben sobre ingeniera indican de 5 a 20 intervalos de
clase y los que investigan sobre administracin recomiendan de 5 a 15.

Como puede observarse no existe una regla definida para determinar el nmero de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.

La primera es la regla de Sturgess, la cual obtiene el nmero de intervalos de la


siguiente manera k = 1 + 3.3 (Log. n), donde n es el total de observaciones. La
segunda es la obtenida en la prctica que a menudo funciona bien, y es tomar como
nmero de intervalos (k) la raz cuadrada del nmero de observaciones,
ajustando este valor entre 5 y 15, cinco o seis intervalos bastan para resumirlos.
Estas dos alternativas ms la experiencia del investigador en el manejo de la variable
a estudiar, lo llevar a determinar el nmero adecuado de intervalos de clase.
13
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

El empleo de estas dos formas para la obtencin del nmero de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los clculos
desde el principio.

Para iniciar con nuestro ejemplo, tenemos el caso prctico donde n = 72, por lo tanto
el nmero de intervalos a tomar ser k = 72 = 8.48 8.

Los pasos a seguir para la elaboracin de la tabla de frecuencia son:

1. Obtencin del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.

Rango = (343 - 176) + 1 = 168

Nota. Cuando los valores de la variable que se est analizando sean menores que
uno, o sean muy parecidos entre s, se recomienda no sumarle uno al rango.

2. Obtencin del tamao del intervalo de clase. Para esto se divide el rango entre el
nmero de intervalos, si el resultado es fraccionario redondee al nmero entero
ms cercano.

168 8 = 21

3. Clculo de los intervalos de clase:

1er intervalo. Lmite inferior = dato menor = 176

Lmite superior = dato menor + (tamao del intervalo - 1)


= 176 + 20 = 196

2o intervalo. Lmite inferior = entero consecutivo al lmite superior del


primer intervalo = 197.
Lmite superior = lmite inferior del segundo intervalo +
(Tamao del intervalo - 1)
= 197 + 20 = 217.

Para los dems intervalos se sigue el mismo procedimiento.

176 196 260 280


197 217 281 301
218 238 302 322
239 259 323 343

4. Obtencin de las frecuencias de la clase. A cada intervalo se le asigna el


nmero de datos que caen en cada uno de ellos.

14
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!

Nota. Si algunas de las frecuencias de clase son muy bajas o incluso ceros, se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los
clculos desde el principio.

5. Obtencin de los lmites reales de clase. En cada intervalo de clase se le resta


media unidad al lmite inferior y se le suma media unidad al lmite superior, para
evitar que un dato caiga en ms de un intervalo.

Nota. Si los datos son pequeos, con decimales o el lmite inferior del primer
intervalo inicia con cero, no obtenga los lmites reales de clase.

6. Clculo del punto medio o marca de clase. Se obtiene de sumar los lmites
reales de cada intervalo y dividirlos entre dos.

7. Obtencin de la frecuencia relativa de clase. Se obtiene de dividir la frecuencia


de cada intervalo entre la suma de todas las frecuencias.

8. Obtencin de la frecuencia acumulada. A la frecuencia del primer intervalo se le


suma la frecuencia del segundo, a esta suma acumulada se le suma la frecuencia
del tercer intervalo y as sucesivamente.

9. Obtencin de la frecuencia relativa acumulada. Es similar al punto ocho pero con


la frecuencia relativa.

RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO

Intervalo Frecuencia Marca de clase Frecuencia Frecuencia Frecuencia


de de clase ( o punto medio relativa acumulada relativa
clase Fi ) ( Xi ) acumulada
175.5 - 196.5 2 186 0.03 2 0.03
196.5 - 217.5 4 207 0.06 6 0.09
217.5 - 238.5 9 228 0.12 15 0.21
238.5 - 259.5 14 249 0.19 29 0.40
259.5 - 280.5 27 270 0.37 56 0.77
15
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

280.5 - 301.5 8 291 0.11 64 0.88


301.5 - 322.5 4 312 0.06 68 0.94
322.5 - 343.5 4 333 0.06 72 1.00

Total 72 1.00

Con los valores de esta tabla ya podemos obtener informacin que anteriormente no
podamos, tales como:

Cuntas botellas tienen una resistencia menor a 217.5 psi? R= 4 + 2 = 6

Qu porcentaje de las botellas tienen resistencia mayor a 301.5 psi?


R= (4 + 4) / 72 = 0.111 11.1%

Cuntas botellas tienen una resistencia entre 238.5 y 280.5? R = 14 botellas.

Si se toma una botella al azar, cul es la probabilidad de que su resistencia sea


mayor a 280.5 psi? R = 16 / 72 = 0.222.

Suponiendo que en la bodega de donde se tomo la muestra hay 500,000 botellas


cuntas de ellas tendrn una resistencia mayor a 259.5 psi? R = Segn la muestra
el 59.72 %. Por lo tanto 500,000 x 0.5972 es igual a 298,600.

1.4.2 Medidas de tendencia central en datos agrupados.

La medida de tendencia central ms utilizada es la media aritmtica, la cual se


define como:
k

x f i i
x i 1
n
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = nmero de observaciones.
i = 1,2..., k intervalos.

En el ejemplo que nos ocupa la media aritmtica es:

186(2) 207(4) 333(4) 18936


x 263.00
72 72

Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.

Moda. El algoritmo matemtico que la define es:

16
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

d1
Mo L w Donde:
d1 d 2 L = lmite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamao del intervalo de clase.

En nuestro ejemplo lo primero que debemos saber es en qu intervalo se


encuentra la moda, recordemos que sta se localiza en el intervalo que tiene la
mayor frecuencia, o sea el quinto intervalo.

En el ejemplo que estamos analizando su estimacin ser:

13
Mo 259.5 21 268.03
13 19

Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
Tambin podramos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.

Mediana. Su clculo lo obtenemos por:

n 1
2 S
M L w
f

Donde: L = lmite inferior del intervalo donde se encuentra la mediana.


n = nmero de observaciones.
S = suma acumulada de las frecuencias, hasta antes del intervalo donde se
encuentra la mediana.
f = frecuencia del intervalo en donde se localiza la mediana.
w = tamao de intervalo de clase.

Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. sta se localiza exactamente
a la mitad de los datos, en nuestro caso est en el quinto intervalo, ya que ah se
encuentra del 41 al 77% de la informacin, su estimador se obtiene por:

72 1
2 29
M 259.5 21 265.33
27

Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o ms.

17
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

1.4.3 Medidas de dispersin en datos agrupados.

La varianza y desviacin estndar son las medidas de dispersin ms empleadas


en estadstica inferencial. La frmula matemtica que defina a la varianza de la
muestra es:

2
k k k
x i x fi
2
x i
2
fi xi f i


2 i 1 i 1 i 1
S
n 1 n 1 n n 1

En el ejemplo que venimos analizando la varianza de la muestra ser:

186 2 (2) 207 2 (4) 3332 (4) 186(2) 207(4) 333(4) 2


S2
72 1 72(72 1)

5055138 189362
S2 1055.92
71 5112

Y la desviacin estndar se define por:

S S 2 1055.92 32.49

El coeficiente de variacin en base a los estimadores obtenidos es:

S 100 32.49100
C.V . 12.35%
x 263

La interpretacin de S2 y S podemos obtenerla mediante el clculo del CV que por lo


general vara del 0 al 100%. En nuestro caso es de 12.35%, lo que nos indica que
hay poca variacin, o sea que la resistencia en psi de las botellas no se encuentran
tan dispersa alrededor del promedio (263), o lo que es lo mismo, la varianza es
chica.

1.4.4 Medidas de posicin en datos agrupados.

Otras medidas importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemtico para su clculo se expresa de la siguiente
manera:

d
Di L w
f

Donde:
L = lmite inferior del intervalo donde se encuentra el percentil buscado.

18
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

d = diferencia (sin considerar signo) que se necesita para alcanzar el rango


del percentil buscado, tomado de la columna de frecuencias
acumuladas.
f = frecuencia de clase del intervalo donde se encuentra el percentil.
w = tamao del intervalo de clase.

Ejemplo. Qu valor representa el 10% de la resistencia de las botellas? El dcimo


percentil (D10) es la observacin con rango (%) (n) + 0.5, que en nuestro caso es
(0.10) (72) + 0.5 = 7.7, o sea que el dcimo percentil est entre la observacin que
ocupa el sptimo y el octavo lugar en la tabla de frecuencias.

Lo primero que debe hacerse es localizar el intervalo donde se encuentra el percentil


D10, para ello utilizamos la columna de frecuencia relativa acumulada, en ella
podemos observar que en el tercer intervalo se encuentra del 10 al 21% de los datos.

En la columna de frecuencia acumulada localizamos el intervalo donde puede


encontrarse el rango del percentil, en nuestro caso 7.7 se ubica en el tercer
intervalo, ya que ah esta del sptimo al quinceavo dato. El valor de d se obtiene por
la diferencia de 7.7 menos 6 que es 1.7

Por lo tanto la estimacin del percentil diez o el primer decil se obtiene por:

1.7
D10 217.5 21 221.47
9

Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.

Ejemplo. Qu valor representa el primer cuartil?

Su rango es 0.25 72 0.5 18.5 la estimacin del primer cuartil es:

3.5
D25 238.5 (21) 243.75
14

Ejemplo. Obtengamos el segundo cuartil.

El rango del segundo cuartil es: 0.5 72 0.5 36.5 su valor estimado ser:

7.5
D50 259.5 (21) 265.33
27

Cuyo valor debe ser idntico al obtenido en la mediana, lo cual sirve para verificar si
su clculo fue bien realizado.

Ejemplo. Cul ser el valor en resistencia que representa el percentil 75?


19
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

25.5
0.75 72 0.5 54.5 D75 259.5 ( 21) 279.33
27

Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.

1.5 Representaciones grficas.

1.5.1 Histograma.

La informacin de la tabla de frecuencias puede ser trasladada a un grfico, como un


histograma, un polgono de frecuencias o un polgono de frecuencias acumuladas los
cuales permiten lograr una apreciacin ms fcil de la informacin.

Qu es un histograma? Es una grfica de barras adyacentes, que muestra en el


eje horizontal las marcas de clase y en el eje vertical las frecuencias de clase, donde
la altura de cada rectngulo es proporcional a la frecuencia de clase que representa.

Por qu son utilizados los histogramas?

a) Para resumir datos y describir la historia respecto a un proceso.

b) Es mejor que tratar de obtener informacin de una lista de nmeros.

c) A menudo la forma del histograma puede proveer pistas acerca de un proceso,


para saber si est bajo control o fuera de control.

d) Nos indica grficamente si los datos se distribuyen de manera normal (tienen


forma de campana).

A continuacin se presenta el histograma, donde la base de cada rectngulo


representa el punto medio o marca de clase, y la altura est dada por la frecuencia
de la clase o nmero de observaciones que cae dentro de cada intervalo.

Con el fin de evitar que un grfico sea mal interpretado, se recomienda la realizacin
de grficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centmetros de longitud, el eje y debe
medir 15 cm.

La grfica siguiente presenta el histograma de nuestros datos, en l podemos


apreciar que a la mitad de la grfica se encuentra ms o menos el 263, que es la
resistencia promedio de las botellas (media aritmtica). As mismo podemos apreciar
que la mayor parte de la resistencia de las botellas est en 270 (moda), y de igual
manera la mediana tiene un valor un poco menor a 270.

Si unimos los centros de la parte superior de cada rectngulo obtenemos una nueva
grfica que se llama polgono de frecuencias, podemos ver que la figura que tiene
20
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

el histograma y la que tendra el polgono es el de una campana, lo anterior nos


indica que los datos se distribuyen de manera normal.

El histograma visto como histograma no nos dice mucho, para ver su aplicacin
tomemos como ejemplo una mquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus lmites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, ste puede
presentar las siguientes figuras:

EN CONTROL Y ES CAPAZ

Modelo ideal, los


datos quedan dentro
de los lmites.

21
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

EN CONTROL CON CAPACIDAD SI SE ENFOCA ADECUADAMENTE

Histograma fuera de lmites, hay


que corregirlo. (La mquina est
dando de menos y de ms).

EN CONTROL NO CAPAZ

1.5.2 Polgono de frecuencias acumuladas.

Otro tipo de grfico es el polgono de frecuencias acumuladas, que nos presenta


de una manera eficiente la distribucin de frecuencias acumuladas. Este se
construye graficando sobre el eje de las x los lmites de clase y sobre el eje de las y
su frecuencia acumulada; los puntos as determinados se unen mediante segmentos
de recta.

RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO

22
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

F F
r r
e e
c c
u u
e e
n n
c c
i i
a a

175.5 196.5 217.5 238.5 259.5 280.5 301.5 322.5 343.5

La interpretacin para este grfico es: en la parte izquierda se leen los datos de la
muestra, as para cualquier punto considerado en el eje y (ordenada) nos
proporciona un nmero de elementos que son menores o iguales al eje de la x
(abscisa); as podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.

Si vemos el eje derecho del grfico encontramos la frecuencia relativa acumulada, y


obtiene la misma interpretacin pero ahora de manera generalizada para toda la
poblacin. Ah podemos ver que el 77% de las botellas tienen una resistencia menor
o igual 280.5 psi. O lo que es lo mismo el 23% de las botellas tienen una resistencia
mayor a 280.5 psi.

Con las frecuencias relativas acumuladas de este polgono como variable


dependiente y los lmites de clase como variable independiente, se puede calcular
una ecuacin que se ajuste a los puntos del modelo, la cual nos sirve para hacer
predicciones. La grfica sugiere que se puede ajustar una ecuacin de primer grado
de la forma y = a + bx a los valores observados.

As la ecuacin que mejor describe la relacin entre los lmites de clase y la


frecuencia relativa acumulada es: y 1.354 7.607 x , con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en funcin de los valores
de x, dentro del rango 175.5 a 343.5.

1.5.3 Grfica de caja.

Una grfica de caja es una representacin grfica, que por lo general nos describe
de manera simultnea varias caractersticas de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersin, la desviacin de la simetra
y valores que caen inusualmente lejos del grueso de los datos.

Es utilizada para describir visualmente la distribucin de los datos, permitiendo


detectar rpidamente cualquier sesgo de ellos. As mismo nos sirve para ver si hay
algunos valores atpicos en el conjunto de valores.

Un valor atpico puede surgir por: trasponerse dgitos cuando se registra una
medicin, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

pieza de equipo o por otras causas. Estos valores atpicos pueden traer como
consecuencia la obtencin de estimadores con cierto sesgo.

Pasos para la elaboracin de una grfica de caja:

1. Obtenga la mediana, primer cuartil ( D25 ) y tercer cuartil ( D75 ).

2. Obtenga el rango intercuartlico RIC D75 D25

3. Obtencin de los lmites inferior y superior:

Lmite inferior = D25 - 1.5 (RIC)


Lmite superior = D75 + 1.5 (RIC)

4. Trace una lnea horizontal representando la escala de medicin.

5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en D25 y D75 .

6. Trace una recta vertical a travs de la caja en la ubicacin de la mediana.

La grfica de caja proporciona el rango del conjunto de los datos empleando


bigotes (lneas que se extienden desde cada extremo de la caja), para indicar el
valor ms pequeo y el ms grande (excluyendo los valores atpicos) en la caja.

Los datos que queden fuera de los lmites inferior y superior se consideran valores
atpicos y se marcan en la grfica con un asterisco y los valores atpicos extremos se
marcan con un crculo.

Si la mediana est cerca de la mitad de la caja, la distribucin es regularmente


simtrica (tiene forma de campana), o sea que los datos se distribuyen normalmente.

Si la mediana est a la izquierda del centro, la distribucin est sesgada a la


derecha.

Si la mediana est a la derecha del centro, la distribucin est sesgada a la


izquierda.

Para mostrar como se realiza una grfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.

Mediana = D50 265.33


Primer cuartil = D25 243.75
Tercer cuartil = D75 279.33
Rango intercuartlico RIC = 279.33 243.75 = 35.58
Lmite inferior = 243.75 - 1.5 (35.58) = 190.13
24
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Lmite superior = 279.33 + 1.5 (35.58) = 332.70

La grfica de caja que se muestra se obtuvo con el software Minitab, el cual la


presenta de manera vertical pero la interpretacin es la misma. Los valores atpicos
aparecen marcados con un asterisco (*) y fueron 176, 187, 337 y 343. Mientras que
los valores menor y mayor dentro de los bordes internos son 197 y 334. Estos son
los valores que forman los bigotes (ver cuadro de datos en la pgina 13).

Grfica de caja de C2
360

320

280
C2

240

200

La grfica nos indica que la distribucin de las resistencias de las botellas es


bastante simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y
derecho como las longitudes de las cajas izquierda y derecha alrededor de la
mediana son aproximadamente iguales. As mismo observamos que hay dos valores
atpicos en cada extremo de los datos, lo cual nos lleva a investigar el por qu de
ellos.

Apndice 1.1 Uso de Minitab en estadstica descriptiva.

1. Obtencin de medidas de tendencia central, de dispersin, de posicin y


grficas en datos no agrupados.

Para ilustrar la manera de como Minitab es utilizado para obtener medidas de


tendencia central, de dispersin, de posicin y grficas en datos no agrupados, se
muestra el siguiente ejemplo.

1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de


clculo, como se indica a continuacin.

C1

25
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

1 8
2 4
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16

2. Seleccione el men Estadsticas.

3. Elegir Estadsticas bsicas.

4. Hacer clic en Mostrar Estadsticas descriptivas.

5. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.


Ingresar C1 en el cuadro Variables.
Hacer clic en Estadsticas.

6. Cuando aparezca el cuadro de dilogo Estadsticas Descriptivas-Estadsticas.


Hacer clic en las medidas de tendencia central, de dispersin o de posicin que
desee.
Hacer clic en Aceptar.
Hacer clic en Grficas.

7. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas-


grficas.
Hacer clic en las grficas que desee.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

1.1 Obtencin de un percentil en particular.

Ejemplo. Sea una muestra de la resistencia al rompimiento en libras por pulgada


cuadrada (psi) de diez botellas de vidrio de un litro, tomados de un lote de
produccin, del cual deseamos obtener el percentil 75.

230 250 245 258 265 240 255 248 252 260

Concentre los valores de la variable aleatoria que desea analizar en la hoja de


clculo de Minitab, como se indica a continuacin.

C1
26
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

1 230
2 250
3 245
4 258
5 265
6 240
7 255
8 248
9 252
10 260

1. Seleccione el men Calc.

2. Hacer clic en Calculadora.

3. Cuando aparezca el cuadro de dilogo Calculadora.


Ingresar P75 en el cuadro Almacenar resultados en variable.
Hacer clic en del cuadro Todas las funciones.
Localizar el men Estadsticas y dar clic.
Localizar el men Percentil y dar clic.
Hacer clic en el cuadro Seleccionar.
En el cuadro de Expresin, borrar nmero y poner C1 y borrar probabilidad y
poner 0.75
Hacer clic en Aceptar.

Minitab en el primer rengln de la columna C2 pondr 258.5 que es el percentil 75 o


tercer cuartil.

2. Obtencin de intervalos de clase, tabla de frecuencias e histograma en datos


agrupados.

Para ilustrar la manera de como Minitab es utilizado para elaborar los intervalos de
clase, la tabla de frecuencias y el histograma correspondiente con datos agrupados,
utilizaremos el ejemplo de la resistencia en psi. de las 72 las botellas de vidrio.

2.1 Intervalos de clase.

1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de


clculo, como se indica a continuacin.

C1
1 265
2 205
3 263
4 307
. .
. .
27
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

. .
69 337
70 250
71 278
72 254

2. Seleccione el men Estadsticas.

3. Elegir Estadsticas bsicas.

4. Hacer clic en Mostrar Estadsticas descriptivas.

5. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.


Ingresar C1 en el cuadro Variables.
Hacer clic en Estadsticas.

6. Cuando aparezca el cuadro de dilogo Estadsticas Descriptivas-Estadsticas.


Hacer clic en: mnimo, mximo y rango.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

Minitab le proporciona lo siguiente: Mnimo 176, mximo 343 y rango 167. Ahora
empleando la regla de Sturges o la regla prctica, obtenga de manera manual el
nmero de intervalos y el tamao de ellos de la siguiente manera.

El nmero de intervalos por la regla prctica k 72 8.48 que es semejante a 8 y


el tamao del intervalo ser 167 / 8 = 20.88 que es semejante a 21.

El lmite inferior del primer intervalo es el mnimo valor encontrado en los datos que
es 176 y el lmite superior del primer intervalo ser 176 + (tamao del intervalo 1), o
sea 176 + 20 = 196.

El lmite inferior del segundo intervalo, es el entero consecutivo al lmite superior del
primer intervalo o sea 197 y el lmite superior del 2 intervalo es 197 + (tamao del
intervalo 1), o sea 197 + 20 = 217. Y as sucesivamente para los otros seis
intervalos. Por lo que los intervalos de clase son:

176 196
197 217
218 238
239 259
260 280
281 301
302 322
323 343

Observe que el mximo valor 343 va a quedar en el ltimo intervalo de clase.

2.2 Obtencin de la tabla de frecuencias.


28
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Con los datos concentrados en la hoja de clculo, como aparecen en el punto 1


anterior, procedemos de la siguiente manera:

1. Seleccione el men Datos.

2. Elegir Codificar.

3. Hacer clic en Numrico a numrico.

4. Cuando aparezca el cuadro de dilogo Cdigo-numrico a numrico.


Ingresar C1 en el cuadro Codificar datos en columnas.
Capturar C2 en el cuadro Guardar datos codificados en columnas.
Capturar 176:196 en el primer rengln de Valores originales.
Capturar 1 en el primer rengln de Nuevo.
Capturar 197:217 en el segundo rengln de Valores originales.
Capturar 2 en el segundo rengln de Nuevo.
Capturar 218:238 en el tercer rengln de Valores originales.
Capturar 3 en el tercer rengln de Nuevo.
Capturar 239:259 en el cuarto rengln de Valores originales.
Capturar 4 en el cuarto rengln de Nuevo.
Capturar 260:280 en el quinto rengln de Valores originales.
Capturar 5 en el quinto rengln de Nuevo.
Capturar 281:301 en el sexto rengln de Valores originales.
Capturar 6 en el sexto rengln de Nuevo.
Capturar 302:322 en el sptimo rengln de Valores originales.
Capturar 7 en el sptimo rengln de Nuevo.
Capturar 323:343 en el octavo rengln de Valores originales.
Capturar 8 en el octavo rengln de Nuevo.
Hacer clic en Aceptar.

Minitab le muestra en la columna C2 de la hoja de clculo el intervalo en que se


encuentra cada una de las variables.

5. Seleccione el men Estadsticas.

6. Elegir Tablas.

7. Hacer clic en Cuenta de variables individuales.

8. Cuando aparezca el cuadro de dilogo Cuenta de variables individuales.


Ingresar C2 en el cuadro Variables.
Hacer clic en Conteos, Porcentajes, Conteos acumulados y Porcentajes
acumulados.
Hacer clic en Aceptar.

Minitab le muestra para cada nmero de intervalo: frecuencia de clase, frecuencia


acumulada, frecuencia relativa y frecuencia relativa acumulada, las cuales puede
concentrar en su tabla de frecuencias. No olvidar de poner en la tabla, los intervalos
de clase y los puntos medios o marcas de clase.
29
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

2.3 Elaboracin del histograma de los datos.

Continuando con el ejemplo de la resistencia de las botellas en psi.

1. Seleccione el men Grfica.

2. Hacer clic Histograma.

3. Cuando aparezca el cuadro de dilogo Histograma.


Hacer clic en Simple.
Hacer clic en Aceptar.

4. Cuando aparezca el cuadro de dilogo Histograma simple.


Ingresar C2 en el cuadro Variables de grficas.
Hacer clic en Etiquetas.

5. Cuando aparezca el cuadro de dilogo Histograma etiquetas.


Capturar RESISTENCIA DE LAS BOTELLAS EN psi. En el cuadro de Ttulo.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

3. Obtencin de un diagrama de caja.

Para ilustrar la forma de cmo Minitab es utilizado para obtener un diagrama de caja,
tomemos el ejemplo de la resistencia al rompimiento en psi. de 72 botellas de vidrio
no retornable (pgina 13). Para generar los estimadores correspondientes siga los
pasos siguientes:

1. Concentre la resistencia de las botellas en la columna C1 de la hoja de clculo de


Minitab, como se muestra a continuacin.

C1
1 265
2 205
3 263
4 307
5 220
6 268
7 260
8 234
9 197
. .
. .
. .
71 278
72 254

30
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

2. Seleccione el men Estadsticas.


Elegir Estadsticas bsicas.
Hacer clic en Mostrar estadsticas descriptivas.

3. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.


Ingresar C1 en el cuadro de Variables.
Hacer clic en Aceptar.

Hasta aqu Minitab le presenta: tamao de muestra, media, error estndar de la


media, desviacin estndar, valor mnimo, primer cuartil, mediana, tercer cuartil y
valor mximo. Para generar el diagrama de caja realice lo siguiente:

4. Seleccione el men Grfica.


Elegir Grfica de caja.

5. Cuando aparezca el cuadro de dilogo Grficas de caja.


Elegir Simple.
Hacer clic en Aceptar.

6. Cuando aparezca el cuadro de dilogo Grfica de caja - Una Y, Simple.


Ingresar C1 en el cuadro de Variables de grficas.
Hacer clic en Aceptar.

4. Obtencin de una grfica de puntos.

Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas


de vidrio, empleados en el ejemplo de diagrama de caja.

1. capturar los 72 datos como lo indica el punto 1 del ejemplo anterior.

2. Seleccionar el men Grficas.

3. Cuando aparezca el cuadro de dilogo Grfica de puntos.


Seleccione Simple.
Hacer clic en Aceptar.

4. Cuando aparezca el cuadro de dilogo Grfica de puntos-Una Y, Simple.


Ingrese C1 en el cuadro Variables de grfica.
Hacer clic en Aceptar.

5. Obtencin de un diagrama de tallo y hojas.

Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas


de vidrio, empleados en el ejemplo de diagrama de caja.

1. capturar los 72 datos como lo indica el punto 1 del ejemplo de diagrama de caja.

2. Seleccione el men Grficas.


31
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Seleccionar Tallo y Hoja.

3. Cuando aparezca el cuadro de dilogo Tallo y Hoja.


Ingrese C1 en el cuadro Variables de Grficas.
Hacer clic en Aceptar.

Apndice 1.2 Uso de Excel en estadstica descriptiva.

1. Obtencin de las frecuencias de clase en datos no agrupados

Para ilustrar la forma de cmo Excel es utilizado para obtener una distribucin de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (pgina 13).

1. Concentre la resistencia de las botellas, los intervalos de confianza y los lmites


superiores en la hoja de clculo, como se indica el cuadro de la hoja siguiente.

2. Seleccione las celdas E2:E9

A B C D E
1 Resistencia Resistencia Limite Frecuencia
Superior
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
73 254

4. Hacer clic en Insertar funcin (fx )

5. Cuando aparezca el cuadro de dilogo Insertar funcin.


En la ventana O seleccionar una categora seleccione Estadsticas.
En la ventana Seleccionar una funcin seleccione Frecuencia.
Hacer clic en Aceptar.

6. Cuando aparezca el cuadro de dilogo Argumentos de funcin.


En el cuadro de Datos seleccione las celdas A2:A73
En el cuadro de Grupos seleccione las celdas D2:D9
Pulsar las teclas SHIFT y CTRL al mismo tiempo (maysculas) as como ENTER

32
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

Los valores de las frecuencias de clase aparecern en las celdas E2:E9 de la


siguiente manera: 2, 4, 9, 14, 27, 8, 4, 4.

2. Elaboracin de un histograma.

Para ilustrar el empleo de Excel como herramienta en la elaboracin de un


histograma, tomemos el ejemplo de la resistencia al rompimiento de las botellas de
vidrio (pgina 15).

1. Concentre las frecuencias de clase y los puntos medios en la hoja de clculo,


como aparece indicado en el cuadro siguiente.

2. En la barra de herramientas seleccione el men colgante Insertar

3. En la barra de herramientas seleccione el men Columna.

4. Hacer clic en Columna 2D.

A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333

5. Hacer clic derecho dentro del cuadro que aparece en blanco en la pantalla.
Hacer clic en Seleccionar datos.

6. Cuando aparezca el cuadro de dilogo Seleccionar origen de datos.


Haga clic en el Agregar.
Digitar RESISTENCIA DE LAS BOTELLAS EN psi en el cuadro Nombre de la
serie.
En el cuadro Valores de la serie borrar ={1}.
Seleccionar A1:A8 (frecuencias de clase).
Hacer clic en Aceptar.

7. Cuando aparezca el cuadro de dilogo Seleccionar origen de datos.


En el cuadro etiqueta del eje horizontal (categora).
Seleccionar Editar.
Seleccionar B1:B8 (marcas de clase).
Hacer clic en Aceptar.
Hacer clic en Aceptar.

33
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

8. En la barra de herramientas en Diseo de grfico.


Dar clic en ms ( ) y seleccionar la grfica nmero ocho.
Digitar Marcas de clase en la parte horizontal Ttulo de eje.
Digitar Frecuencias de clase en la parte vertical Ttulo de eje.

En los cuadros de dilogo, Excel tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.

34

También podría gustarte