ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
UNIDAD N° 1: ESTADÍSTICA
La enseñanza de la estadística nos ha llevado a comprender que esta disciplina no debe
estudiarse aislada sino ligada constantemente a los procesos científicos completos de la
investigación. No se logra comprender la necesidad de saber estadística y de manejar
adecuadamente sus técnicas cuando se dan cuenta de que es imprescindible para cualquier tipo
de investigación que quieren emprender.
Los invito a ver un video sobre la historia de la estadística.
https://www.youtube.com/watch?v=KZ4KSyF0Ryo&ab_channel=CanalUSB
Definición de estadística:
La estadística es la ciencia de recolectar, organizar, analizar e interpretar información. En otras
palabras, la estadística brinda herramientas para analizar la información. Es la disciplina dedicada
a proporcionar información a partir de datos obtenidos por la observación o experimentación de
fenómenos, en los que su ocurrencia está influida por factores de variación y para estudiarlos se
necesita de técnicas basadas en las leyes del azar. Es la disciplina de la matemática más utilizada
en otras ciencias, por ejemplo, ciencias sociales, de la naturaleza medicina, comunicación,
política, economía, informática, demografía, entre otras. Su interdisciplinaridad constituye la
importancia de su estudio.
1
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
División de la estadística:
Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y
gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para
resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada
que vaya más allá de los datos, como tales.
Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte
de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones
que van más allá de los datos. Como consecuencia, la característica más importante del reciente
crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a
métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una
población partiendo de una muestra tomada.
Conceptos importantes
Para poder entender los procedimientos del análisis estadístico es importante dar las siguientes
definiciones:
a. Población: es el conjunto completo de individuos, objetos o datos que el investigador está
interesado en estudiar. La población es el grupo más grande de individuos del cual se pueden
tomar datos.
b. Muestra: Es un sub-conjunto de la población. Generalmente es imposible estudiar todos los
individuos de una población por lo cual no se la analiza completa, sino que se toma una parte
representativa de esta. A dicha parte se la llama muestra. La misma tiene que cumplir con una
serie de requisitos para que al analizarla se pueda inferir las características de la población a partir
de los datos de la muestra. Uno de los puntos a tener en cuenta es la aleatoriedad, esto quiere
decir que todos los individuos de la población tienen que tener exactamente la misma
probabilidad de ser elegidos. Si esto no se cumple se puede llegar a tomar decisiones incorrectas.
c. Unidad experimental o unidad de estudio: corresponde a cada uno de los objetos o individuos
bajo estudio sobre los cuales se hacen las mediciones.
d. Variables estadísticas: es cada una de las características o cualidades que poseen los individuos
de la población sobre la que se realiza el estudio estadístico y sobre la que es posible su medición.
Se clasifican de la siguiente manera:
Variables cualitativas: Son aquellas que expresan atributos o cualidades de los individuos.
2
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
- Variable cualitativa ordinal: Es aquella que presenta valores no numéricos, pero existe un
orden.
Ejemplos: Las medallas conseguidas en una competencia (los valores serían: oro, plata, bronce);
Grado de satisfacción laboral en una compañía (los valores serían: muy satisfecho, satisfecho,
regular, insatisfecho, muy insatisfecho).
- Variable cualitativa nominal: Es aquella que presenta valores no numéricos, y no existe un
orden. Clasifica a los elementos en diferentes categorías.
Ejemplos: El estado civil (los valores serían: soltero, casado, divorciado, viudo); El lugar de
nacimiento de tus amigos (los valores serían: Lima, Santiago, Buenos Aires, Zagreb, entre otras
ciudades).
Variables cuantitativas: Son aquellas que se expresan mediante un número.
- Variable cuantitativa discreta: Es aquella que puede asumir un número contable de valores.
Las unidades se expresan en valores enteros.
Ejemplos: El número de hijos en las familias (pueden ser 0, 1, 2, 3, 4, …). Otro ejemplo sería el número
de alumnos en un aula.
- Variable cuantitativa continua: Aquí la variable puede adquirir cualquier valor dentro de un
intervalo de valores determinado. Es aquella que puede asumir un número incontable de
valores. Las unidades se expresan en valores reales.
Ejemplos: estatura de los habitantes; ancho de las puertas producidas en una fábrica.
Tabulación de datos y gráficos
Tabla de distribución de frecuencia: es aquella que permite presentar en forma ordenada los
distintos valores de la variable en estudio y su correspondiente frecuencia. (Cabe aclarar que
representaremos al número total de datos con la letra “n”).
Tipos de Frecuencia:
Frecuencia absoluta (fi): es la cantidad de veces que se repite un determinado valor de
la variable.
Frecuencia absoluta acumulada (Fi): indica cuantos elementos de la lista de datos son
menores o iguales a un valor dado. Es la suma de la frecuencia absoluta desde la primera
fila hasta la elegida.
Frecuencia relativa (fr): es el cociente entre la frecuencia absoluta y el número total de
datos, en símbolos seria: 𝑓𝑖
𝑓𝑟 =
𝑛
3
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
Frecuencia relativa acumulada (Fr): es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. O bien podría decirse que es la suma de
la frecuencia relativa desde la primera fila hasta la elegida.
Variable cualitativa: Las tablas de frecuencias para datos categóricos asocian cada categoría
de la variable con el número de veces que se repite la misma. En ella representamos en columnas:
los valores que adopta la variable y las frecuencias.
Ejemplo: en la puerta de una escuela de idiomas se realizó una encuesta para averiguar el idioma
que estudian las personas que concurren a las clases.
IDIOMA F fr fr %
Inglés 70 70:250= 0,28 28
Francés 50
Alemán 30
Portugués 45
Italiano 55
TOTAL 250
La información recabada puede representarse en gráficos. Según Weimer una gráfica es una
forma ilustrada de representar y resumir información. Estas representaciones tienen como
objetivo:
1. Hacer más visibles los datos
2. Sintetizar y sistematizar los datos
3. Aclarar y complementar las tablas de frecuencia. Es importante antes de graficar conocer el
tipo de variable que se está evaluando ya que a partir de ella es que se define el tipo de gráfico.
- Diagrama de barras: Se utiliza para
Idiomas que estudian
representar las frecuencias absolutas,
80
relativas o porcentuales de las variables 70
60
cualitativas. Las características de este 50
gráfico es que el mismo muestra 40
30
comparativamente en función del 20
tamaño de las barras las relaciones 10
0
entre las categorías o niveles de una Inglés Francés Alemán Portugués Italiano
variable. Estos diagramas pueden ser simples y el mismo se puede usar para representar
más de una variable.
4
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
- Diagrama de sectores o torta: Se utiliza para representar variables categóricas
generalmente nominales. Para poder construirlo se debe tener en cuenta la frecuencia de
c/u de las categorías para sacar el ángulo en grados. Para esto tenemos que tener en
cuenta que la torta tiene una circunferencia de 360º por lo cual el ángulo de cada
categoría queda definido como: X = (f*360)/f . Para la representación se necesita
transportador, o usar un procesador de datos.
Idioma que estudian
22
28
18
20
12
Inglés Francés Alemán Portugués Italiano
- Pictograma: Consisten en el empleo de dibujos que representan individualmente una
cantidad para mostrar la totalidad del concepto que se está tratando se repite tantas
veces como sea necesario. Para la presentación profesional no se recomienda su uso. Un
pictograma es un signo icónico dibujado y no lingüístico que representa figurativamente,
de forma más o menos realista, un objeto real o significado Es un tipo de representación
que se utiliza para variables cualitativas, y que consiste en representar los datos con
dibujos alusivos a la estadística estudiada. Los pictogramas son muy expresivos, pero poco
precisos.
-
Tablas de frecuencias para dos variables
Se describe a una tabla de contingencia, como aquella que resume de manera simultánea
dos variables de interés de escala nominal.
5
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
La tabla contempla el agregado de los conteos o frecuencias en la intercepción de las filas
y columnas correspondientes.
Las frecuencias pueden ser absolutas, relativas o porcentuales, dependiendo del estudio.
Ejemplo:
Gráficos para dos variables:
6
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
Variables cuantitativas:
- Datos discretos
Ejemplo: Con el propósito de conocer la cantidad de hijos por matrimonio de un pequeño
poblado, se eligió una muestra de 36 familias y se obtuvieron los siguientes datos:
N° Total de datos: 36 entonces en este ejemplo n = 36
Ahora construimos la tabla de frecuencias de la siguiente manera:
Número de veces que se 𝑓𝑖
Número de (Se sugiere redondear a los centésimos)
repite el valor “Xi” de hijos 𝑛
hijos
𝑿𝒊 𝒇𝒊 𝑭𝒊 𝒇𝒓 𝑭𝒓
(Frecuencia (Frecuencia (Frecuencia (Frecuencia
absoluta) absoluta relativa) relativa
acumulada) acumulada)
0 3 3 3
(36) = 0,08 0,08
+ +
1 8 8
(36) = 0,22 0,30
+
2 10
3 7
4 4
5 4
Totales n = 36
Para las variables discretas se tienen representaciones similares a las presentadas para las variables
cualitativas, diagrama de barras y el gráfico de escalera que representa las frecuencias
acumuladas. Los gráficos para el ejemplo citado anteriormente se presentan a continuación.
7
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
CANTIDAD DE HIJOS POR
MATRIMONIIO
12
10
8
6
4
2
0
1 2 3 4 5 6
Datos continuos
Para agrupar los datos hay que construir una tabla de distribución de frecuencias, pero en este
caso, a diferencia de una variable cuantitativa discreta no podemos crear tantas categorías
como valores adopta la variable dado que tendría una excesiva cantidad de clases con una
frecuencia única. Es por esto que se debe agrupar a los datos en lo que se denomina “INTERVALOS
DE CLASE”. Para la construcción de los mismos primero debemos determinar en cuantos intervalos
se pueden agrupar a los datos.
Construcción de una distribución de frecuencias
1º) Definir el número de intervalos K. Existen diferentes fórmulas matemáticas de las cuales
aplicaremos: K= √n; siendo n= tamaño de la muestra que se está analizando. Es conveniente que
el número de intervalos no sea menor a 5 ni mayor a 15. Convenientemente se redondeará al
número entero siguiente al determinado. Por ejemplo; si tenemos un n=30 entonces su raíz es 5,47
por lo cual el número de intervalos debiera ser 6.
2º) Una vez determinado el número de intervalos se procede a determinar el rango de los datos:
R= Máximo - Mínimo
3º) La amplitud de los intervalos se determina: ∆= 𝑅/𝑘, conviene trabajar con un número
redondeado hacia arriba preferentemente Todos los intervalos deben tener el mismo tamaño.
Puede ocurrir según sea la distribución de los datos que algún intervalo no contiene datos,
igualmente el mismo debe permanecer en la tabla.
Armado de la tabla:
Intervalos Mc o pm fi Fr fi% Fi Fr Fi%
[ , ) (Li+Ls)/2 fi/n fir*100
8
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
Mc o pm: marca de clase o punto medio, representa el promedio entre los límites de los
intervalos de clase. La tabla puede tener una columna adicional que corresponde a los conteos.
ALGO IMPORTANTE: cuando se agrupan los datos en intervalos de clase, la variable no necesariamente tiene que
ser cuantitativa continua, puede ser discreta cuando el número de valores que adopta la tabla es tan grande que
quedarían más de 15 filas de la tabla por lo cual no cumpliría con la función de resumir la información.
Para desarrollarlo vemos el siguiente ejemplo: En un experimento industrial se desea estudiar la
capacidad de una máquina para producir piezas dentro de especificaciones, se han medido 50
tornillos registrándose su longitud (en mm), con los siguientes resultados.
Aquí tenemos 50 datos por lo cual el número de intervalos serían; k = √n =√50 = 7.07 tomaremos
como regla siempre redondear a mayor para uniformar la forma de trabajo. En este caso se
construirían 8 intervalos. Para saber la amplitud de los intervalos primero debemos determinar el
Rango: Rango = máximo – mínimo = 15,3 – 6,3 =9 Δ= R/k = 9/8 = 1,125 la amplitud del intervalo sería
1,2 (se redondea a mas)
Se construyen las dos últimas columnas porque las mismas se utilizarán más adelante para la
parte de estadísticas descriptivas.
9
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
Histograma
Es la representación gráfica de la
distribución de frecuencias de una
variable cuantitativa continua
clasificada en escala de intervalo. Este
tipo de gráfico también se construye
sobre un gráfico X-Y donde en el eje de
las ordenadas o X se ponen los intervalos
de clase, los cuales tiene que ser todos
similares en su tamaño, y sobre el eje de las Y o abscisas se pone las frecuencias (no
acumuladas).
Polígono de frecuencias
Se construye sobre el histograma y se representa uniendo los puntos medios de los intervalos
(llamados marcas de clase). Para construir este gráfico se necesita adicionar en el histograma un
intervalo anterior y posterior al primero y último respectivamente para poder finalizar el gráfico.
Ojiva
Corresponde al gráfico de las
frecuencias acumuladas Este gráfico
posteriormente servirá para definir
medidas de posición.
10
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
Diagrama de tallo y hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras
restantes (que formará el tallo). Esta representación de los datos es semejante a la de un
histograma, pero además de ser fáciles de elaborar, presentan más información que estos.
Ejemplo: Edad de 20 personas
Estos gráficos se pueden utilizar para comparar dos distribuciones:
11
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
ACTIVIDADES
1) Clasifica las siguientes variables
a) El curso favorito de los alumnos de una escuela.
b) Diámetro de una esfera.
c) Cantidad de clientes atendidos en un restaurante en un día.
d) Lugar que ocupa un nadador en una competencia.
e) Volumen de agua dentro de una lavadora de 200 litros de capacidad máxima.
f) Número de pétalos que tiene una flor.
g) Tiempo requerido para responder las llamadas en un call center.
h) Candidato al cuál apoyan los votantes en las elecciones presidenciales de Perú.
i) Número de páginas de una serie de libros de estadística.
j) Tiempo de vuelo de los aviones que van de Lima a Santiago.
k) Marcas de autos que se venden en tu país.
l) Grado de satisfacción laboral en una empresa.
2) En una ciudad de Estados Unidos se quiso TIPO DE TRANSPORTE f
analizar la movilidad con que sus habitantes se SUBTE 54
manejan. Luego de un análisis se obtuvo la COLECTIVO 21
siguiente información: TREN 15
AUTO 11
a) Defina las variables en estudio y clasifíquela. MOTO 4
b) Determine la frecuencia relativa y porcentual OTROS 7
de los datos. TOTAL 112
c) Construya un gráfico circular. ¿Cuál es su conclusión?
3) La siguiente tabla muestra el número de pacientes según el tipo de operación realizada
en un hospital durante el último año. Observa y luego responde:
Tipo de operación Cantidad de pacientes
Toráxica 98
Huesos 35
Ojos, oídos, nariz 42
General 150
Abdominal 55
Urológicas 35
TOTAL 415
a) Defina de qué tipo de variable se trata y cuál es la escala o nivel de medición
correspondiente.
b) Construya una tabla de frecuencias.
c) Calcule las frecuencias absolutas y las frecuencias relativas expresadas en porcentajes.
d) Calcule las frecuencias relativas acumuladas expresadas en porcentajes.
12
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
4) En la tabla que se presenta a continuación se muestra la distribución de frecuencias del
Nivel de Estudios máximo alcanzado por padres y madres de alumnos de una escuela del
conurbano.
Nivel educativo alcanzado MADRE PADRE
PRIMARIA 12 11
SECUNDARIA 8 5
TÉCNICO 1 3
UNIVERSITARIO 2 4
TOTAL 23 23
a) Defina las variables en estudio y clasifíquela.
b) Determine la frecuencia relativa y porcentual de las madres.
c) Construya un gráfico de barras con los datos de los padres. ¿Cuál es su conclusión?
d) Construya un gráfico de barras múltiples con los datos de madres y padres. ¿Cuál es su
conclusión?
5) Las edades de 50 bailarinas que se presentaron para un concurso de selección para una
comedia musical fueron:
21 19 22 19 18 20 23 19 19 20
19 20 21 22 21 20 22 20 21 20
21 19 21 21 19 19 20 19 19 19
20 20 19 21 21 22 19 19 21 19
18 21 19 18 22 21 24 20 24 17
a) Defina la variable y clasifique.
b) Confeccionar la tabla de frecuencias completa.
c) Responder:
a) ¿Cuántas bailarinas tienen menos de 21 años?
b) ¿Qué porcentaje de bailarinas tienen más de 22 años?
6) A partir del siguiente gráfico, realiza la tabla de frecuencias completa.
13
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
7) Se ha consultado a 40 jóvenes que asisten a un bar sobre la cantidad de bebidas con
alcohol que consumen. Las respuestas aparecen en la siguiente tabla:
a) Define y clasifica la variable en estudio.
b) Realiza un diagrama de bastones.
c) Calcula la tabla de frecuencias completa.
d) Concluya acerca de cómo es la distribución de los datos.
8) Se ha encuestado a un grupo de personas acerca de la cantidad de veces que asisten al
gimnasio durante la semana y los resultados fueron:
0 2 3 6 0 3
3 4 6 4 3 7
1 6 1 3 1 3
2 3 3 2 7 5
a) Responde: ¿A cuántas personas se entrevistó?
b) Con los datos construye una tabla de frecuencias.
c) Representa gráficamente.
d) ¿Cuántas personas van al gimnasio dos veces por semana?
e) ¿Qué porcentaje de personas no realiza actividad física?
f) ¿Qué porcentaje de personas concurre al gimnasio al menos tres veces por semana?
9) Los siguientes datos corresponden al peso de 80 personas observadas:
60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63; 69; 80; 59; 66; 70; 67; 78;
75; 64; 71; 81; 62; 64; 69; 68; 72; 83; 56; 65; 74; 67; 54; 65; 65; 69; 61; 67; 73; 57; 62; 67; 68; 63; 67;
71; 68; 76; 61; 62; 63; 76; 61; 67; 67; 64; 72; 64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66;
a) Identifique y clasifique la variable en estudio.
b) Determina el número y amplitud de los intervalos
c) Construya la tabla de frecuencias completa.
d) Construya el histograma, el polígono de frecuencias y la ojiva.
14
ESTADÍSTICA
TÉCNICO SUPERIOR EN DESARROLLO DE SOFTWARE
DOCENTE: PAIRONE VERÓNICA
10) Dada las siguientes notas de 50 alumnos:
a) Identifique y clasifique la variable en estudio.
b) Determina el número y amplitud de los intervalos
c) Construya la tabla de frecuencias completa.
d) Construya el histograma, el polígono de frecuencias y la ojiva.
e) Realiza un diagrama de tallos y hojas.
15