0% encontró este documento útil (0 votos)
51 vistas46 páginas

Capítulo 1

probabilidad y estadística
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
51 vistas46 páginas

Capítulo 1

probabilidad y estadística
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Cuaderno de Probabilidad y Estadística

Facultad de Ciencias Exactas, Ingeniería y Agrimensura

Universidad Nacional de Rosario


Copyright © 2021

U NIVERSIDAD NACIONAL DE ROSARIO

BOOK - WEBSITE . COM

Licensed under the Creative Commons Attribution-NonCommercial 3.0 Unported License (the “Licen-
se”). You may not use this file except in compliance with the License. You may obtain a copy of the
License at [Link] Unless required by applicable
law or agreed to in writing, software distributed under the License is distributed on an “AS IS ” BASIS ,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND , either express or implied. See the License
for the specific language governing permissions and limitations under the License.

First printing, March 2021


Índice general

1 La Estadística en la resolución de problemas de Ingeniería . . . . 1


1.1 Introducción 1
1.2 Los procesos y la variabilidad 2
1.3 Problemas en un marco de variabilidad e incertidumbre 4
1.4 Problemas para trabajar 6
1.5 El ciclo para la resolución de problemas de naturaleza estadística 8
1.5.1 Etapa de planteo o formulación del problema (P) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.2 Etapa de Planificación del Estudio Estadístico (P) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.3 Etapa de Recolección de los Datos (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.4 Etapa de Análisis de los Datos (A) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.5 Etapa de Conclusiones (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Síntesis 27
1.7 Actividades propuestas 28
1.8 Estadística con R 32
1.8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.8.2 Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.8.3 Entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.8.4 Trabajando con paquetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.8.5 Importación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2 Estudio de la variabilidad en un conjunto de datos . . . . . . . . . . . . 39


2.1 Introducción 39
2.2 Organización de los datos 40
2.2.1 Distribuciones de frecuencias para variables cualitativas o categóricas. Representa-
ción tabular y gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.2 Distribuciones de frecuencias para variables cuantitativas discretas. Representación
tabular y gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.3 Distribuciones de frecuencias para variables cuantitativas continuas. Representación
tabular y gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2.4 Otras formas de representar las distribuciones de frecuencias para variables cuantita-
tivas (discretas o continuas) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3 Medidas de resumen de un conjunto de datos 61
2.3.1 Medidas de localización o posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.2 Medidas de dispersión o variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.3.3 Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.3.4 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2.3.5 Cuestiones relativas a medidas de posición y de dispersión . . . . . . . . . . . . . . . . . . . . 86
2.3.6 Un gráfico útil para presentar varias medidas de resumen: el Diagrama de Caja y
Bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.3.7 Otras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.4 Síntesis 98
2.5 Actividades propuestas 102
2.6 Estadística con R 115
2.6.1 Análisis descriptivo de variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.6.2 Análisis descriptivo de variables cuantitativas discretas . . . . . . . . . . . . . . . . . . . . . . . 119
2.6.3 Análisis descriptivo de variables cuantitativas continuas . . . . . . . . . . . . . . . . . . . . . . 123
2.6.4 Otros gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.6.5 Medidas de resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

3 Distribuciones de probabilidad para variables aleatorias . . . . 133


3.1 Introducción 133
3.2 Variable aleatoria y su distribución de probabilidad 134
3.2.1 Variable aleatoria continua. Función de densidad de probabilidad . . . . . . . . . . . 134
3.2.2 Variable aleatoria discreta. Función de probabilidad puntual . . . . . . . . . . . . . . . . . 137
3.2.3 Función de distribución acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3.3 Medidas de resumen de una distribución de probabilidad 143
3.3.1 Medidas de localización o de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3.3.2 Medidas de dispersión o variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.3.3 Cuestiones relativas a la media y el desvío estándar . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.4 Síntesis 146
3.5 Actividades propuestas 148
3.6 Estadística con R 154
3.6.1 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.6.2 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

4 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.1 Introducción 161
4.2 Algunas definiciones preliminares 162
4.3 La probabilidad de un suceso 166
4.3.1 ¿Cómo se pueden asignar probabilidades? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.3.2 Probabilidad. Definición axiomática. Algunas consecuencias . . . . . . . . . . . . . . . . . 169
4.4 Probabilidad condicional. Independencia entre sucesos 171
4.5 Teoremas de la Probabilidad Total y de Bayes 175
4.6 Síntesis 176
4.7 Actividades propuestas 177
4.8 Apéndice 182
4.8.1 Probabilidad. Definición axiomática. Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . 182
4.8.2 Construcción de un diagrama de árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4.8.3 Teorema de la Probabilidad Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

5 Distribuciones de probabilidad de uso fecuente . . . . . . . . . . . . . . 187


5.1 Introducción 187
5.2 Variables aleatorias continuas 187
5.2.1 Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
5.2.2 Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
5.2.3 Distribución Triangular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.4 Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.2.5 Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.3 Variables aleatorias discretas 209
5.3.1 Distribución Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
5.3.2 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
5.3.3 Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
5.3.4 Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
5.3.5 Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
5.4 Síntesis 220
5.5 Actividades propuestas 220
5.6 Estadística en R 220
5.6.1 Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
5.6.2 Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
5.6.3 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
5.6.4 Otras distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

6 Funciones de un vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229


6.1 Introducción 229
6.2 Vector aleatorio y su comportamiento en probabilidad 230
6.2.1 Sobre la relación entre las variables del vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
6.3 Variables que se pueden definir como funciones de las variables de un vector
233
6.3.1 Determinación de los valores de E(G) y V(G) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
6.3.2 Determinación de la distribución de probabilidad de la nueva variable, función de las
variables del vector aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
6.4 Síntesis 257
6.5 Actividades propuestas 258
6.6 Apéndice 263
6.6.1 Distribuciones de probabilidad conjunta, marginales y condicionales . . . . . . . . . . 263
6.6.2 Variables relacionadas y variables independientes. Covariancia y correlación . . 271
6.6.3 Expresiones para la esperanza y la variancia de una combinación lineal de variables
aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
—————————————————————————————
1. La Estadística en la resolución de
problemas de Ingeniería

1.1 Introducción

Quienes ejercen profesionalmente la Ingeniería son responsables del diseño y de la producción de la


mayoría de los productos que se utilizan en la actualidad, desde simples tornillos hasta vehículos y
maquinarias de gran porte. También se ocupan del diseño, la gestión y la puesta en marcha de sus
procesos productivos. Están involucrados en la generación y en la distribución de la energía, así como
en el uso eficiente de la misma; tienen injerencia en el desarrollo de nuevos materiales y equipos. Hay
trabajo de Ingeniería en el diseño, la construcción y el mantenimiento de obras de infraestructura
(caminos, puentes, rutas, etc.), así como de viviendas familiares y edificios para usos variados o de
equipos de medición y diagnóstico que se utilizan con diferentes fines, entre ellos la mejora de la
salud de las personas. Quienes trabajan en Ingeniería son, además, responsables del avance en las
comunicaciones y en la informática.

En cualquiera de los procesos en los que intervienen profesionales en Ingeniería se presentan fuentes
de variabilidad que afectan el comportamiento de características de interés, ya sean del proceso en sí o
de alguna de sus salidas. Esta variabilidad provoca incertidumbre, por lo que no se pueden predecir
con exactitud los valores de estas características en una unidad en particular.

La mayoría de las veces el trabajo de Ingeniería está envuelto en una nube de variabilidad e
incertidumbre, en medio de la cual, se deben tomar decisiones con riesgos mínimos. Para la resolución
de los problemas que surjan en este marco, que en adelante se denominan problemas de naturaleza
estadística, la Estadística aporta no solo conceptos y procedimientos para su resolución sino también
y más importante, una forma de pensar, denominada pensamiento estadístico. Este pensamiento
implica la comprensión de por qué y cómo se llevan a cabo las investigaciones estadísticas y de
las principales ideas que subyacen en ellas, entre las que pueden mencionarse la omnipresencia
de la variabilidad, la necesidad de los datos, el uso de los métodos estadísticos apropiados para la
obtención y el análisis de los mismos, la naturaleza del muestreo, el diseño de experimentos, la
comprensión y el uso de modelos para la toma de decisiones.
2 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

En la resolución de este tipo de problemas se debe seguir un ciclo o serie de etapas más o menos
complejas según el caso, para arribar a conclusiones satisfactorias y mejorar finalmente los procesos.
Muchos autores han desarrollado este ciclo de resolución y lo han denominado de diferentes maneras.
En este texto se considera el Ciclo PPDAC (Planteo del Problema, Planificación del Estudio Estadístico,
Recolección de Datos, Análisis de los Datos, Elaboración de Conclusiones) propuesto por Wild y
Pfannkuch en 1999 [1].

En este primer capítulo se presenta el Ciclo PPDAC y cada una de sus etapas, con especial énfasis en
la primera y la segunda. Además se proponen problemas del campo ingenieril que se irán resolviendo
a lo largo de todo el libro.

Los objetivos de este capítulo son:

Presentar las etapas del proceso de resolución de problemas de naturaleza estadística y aplicarlas
a los problemas propuestos.
Presentar los conceptos y procedimientos estadísticos básicos de cada etapa, los cuales se irán
profundizando en capítulos posteriores.
Presentar con detalle los conceptos y procedimientos estadísticos asociados a la etapa de Planteo
del Problema y de Planificación del Estudio Estadístico.

1.2 Los procesos y la variabilidad

El término “proceso” presenta muchos significados, según el contexto o área de aplicación que
corresponda. En general, se lo puede definir como un conjunto de fases sucesivas de un fenómeno
natural o de una operación artificial o también, como una secuencia de pasos (etapas), ordenados con
cierta lógica, para obtener un resultado.

De estas definiciones se desprende que en todo proceso hay un estado inicial (Entrada) y uno final
(Salida) y que entre ambos se produce alguna transformación o cambio (Figura 1.1.)

Entrada Etapa 1 Etapa 2 ··· Etapa k Salida

Figura 1.1. El esquema de un proceso

Considere, a modo de ejemplo, un proceso de producción industrial que puede definirse como un
conjunto de actividades orientadas a la transformación de recursos o factores productivos en bienes.
Esto incluye a una gran variedad de procesos, como por ejemplo la producción de harinas o quesos,
automóviles, sustancias químicas o acero (Figura 1.2.) hasta la generación de energía o la prestación
de servicios de internet, entre otros. En todos ellos se desarrolla un conjunto definido de etapas que
culminan con la obtención del producto de interés. Si existe control sobre el proceso, se intenta que
cada vez que este se ejecute, siempre se trabaje de la misma manera; se busca, además, que los
productos o servicios satisfagan requerimientos o especificaciones impuestos por algún cliente. Sin
embargo, la evidencia indica que estos varían entre sí, en relación a diferentes características (peso,
diámetro, viscosidad, dureza, sabor, resistencia a la corrosión, tiempo de reparto, etc.) e incluso, suelen
presentarse algunos que no cumplen con lo pretendido (producción defectuosa o no conforme).
3

Figura 1.2. El proceso de fabricación de acero

¿Por qué se presenta variabilidad en los procesos industriales? En todos ellos actúan numerosos factores
que se comportan de manera variable: los operarios no siempre trabajan de la misma manera, la calidad
de la materia prima varía, las máquinas no siempre operan a la misma velocidad, las condiciones
medioambientales cambian, etc. Además, estos factores pueden variar en un momento dado y también
a través del tiempo. Si se piensa en un proceso industrial, los diferentes factores que lo afectan se
pueden agrupar en seis categorías que se presentan en la Figura 1.3.

Figura 1.3. Factores de variabilidad (agrupados en categorías) para cualquier proceso de producción industrial
4 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

El esquema presentado en la Figura 1.3. se denomina “Diagrama de Espina de Pescado” o “Diagrama


de Causa/Efecto” y fue desarrollado por el japonés Kaoru Ishikawa (1915 – 1989), uno de los líderes
mundiales en el área Calidad. Este diagrama pone de manifiesto el sistema de causas o factores que
producen variabilidad en las características de interés de un proceso. Además, es válido no solo
para los procesos de producción de bienes sino para cualquier proceso en el que puedan identificarse
factores causales y características, observables en el proceso mismo o en alguna de sus salidas. Puede
afirmarse entonces que las mediciones, el diseño de equipos o sistemas, la administración de recursos
humanos, la gestión de compras, el mantenimiento de maquinarias y el diseño de carreteras, entre
otros, constituyen también procesos. Según de qué proceso se trate, puede ser que algunas de las
categorías consideradas en la Figura 1.3. estén presentes, que el número de factores sea pequeño o muy
grande, que el “producto” sea un servicio o cualquier otra salida, y por último, que interese estudiar la
influencia de los factores a través del tiempo.

En síntesis, el concepto de “proceso” incluye la “variabilidad”, la cual se manifiesta en una o


varias características del producto o servicio (o de cualquier otra salida) o del proceso mismo.
Esta variabilidad genera incertidumbre ya que no se pueden predecir con exactitud los valores que
asumirán esas características para una salida en particular.

1.3 Problemas en un marco de variabilidad e incertidumbre: el rol de


la Estadística

Las personas especializadas en Ingeniería trabajan en distintos procesos de áreas diversas (industria,
construcción, logística, comunicaciones, producción de energía, gestión de recursos, etc.). En estos se
presentan habitualmente situaciones, como por ejemplo:

Devoluciones de pedidos por parte de los clientes.


Diseño de un puente.
Posibilidad de añadir un nuevo cliente.
Evaluación de la calidad de una ruta.
Evaluación del comportamiento de un sistema de medición.
Evaluación de las fallas de un sistema de distribución de energía eléctrica.
Medición de magnitudes.
Comparación de diseños de dispositivos mecánicos para máquinas sembradoras.

En estas situaciones pueden surgir problemas o preguntas a responder. Por ejemplo: “¿cuáles son los
motivos de devolución más frecuentes en el último mes?”, “¿los motivos de las devoluciones de los
clientes difieren según la zona?”, “¿cuál es la proporción de piezas que cumplen con las especificaciones
definidas por el nuevo cliente en relación a la longitud?”, “¿es frecuente que el caudal del río supere
cierto valor en cualquier época del año?”, “¿la ruta fue construida con el espesor adecuado?”, etc.

El primer paso para resolver el problema consiste en plantearlo en forma precisa, lo que implica definir
entre otras cosas, la/las característica/s de interés (el motivo de las devoluciones, las dimensiones de
las piezas que son de interés para el nuevo cliente, el caudal del río, los resultados de las mediciones,
el espesor de la ruta, etc.) y el conjunto de unidades para el cual se quieren obtener conclusiones.

Observe que el problema o pregunta a responder puede estar asociado a un momento dado del proceso
5

o al comportamiento del mismo a través del tiempo. En el primer caso, el tiempo no constituye un
factor de interés, como por ejemplo en el estudio de los motivos de las devoluciones de los clientes
habituales en el último mes.

En el segundo caso, en cambio, el tiempo constituye un factor principal e interesa estudiar cómo se
comporta el proceso a través de él. Puede ocurrir que ese comportamiento sea estable o no:

El proceso se comporta de manera estable a través del tiempo si actúan siempre las mismas
causas y lo hacen de la misma manera: la variabilidad en la o las características en estudio
se denomina variabilidad natural. En ese caso, las frecuencias con las que se presentan los
distintos valores tienden a repetirse y el “modelo” o “distribución” pone de manifiesto el patrón
de variabilidad de dicha característica.
El proceso no se comporta de manera estable si algunos factores actúan ocasional y fortuitamente
en el proceso: la variabilidad se denomina variabilidad asignable. En este caso, el modelo se va
modificando, por lo que esta variabilidad debe ser identificada y preferentemente eliminada.

Por ejemplo, en el caso del posible nuevo cliente, se requiere conocer el conjunto de valores que asume
la característica de interés, para saber si se puede cumplir, actualmente y en el futuro, con lo que éste
pretende. Para esto, el proceso de producción debe comportarse de manera estable a través del tiempo.
En el caso del diseño del puente, entre otras cosas se requieren datos históricos del caudal del río para
definir un modelo del comportamiento que permita, por ejemplo, hacer predicciones del mismo para
distintos períodos del año. No se puede estabilizar ese proceso natural pero es importante conocer la
variabilidad del caudal a través del tiempo y evaluarla para tomar decisiones.

En este texto, se abordan problemas en los cuales no se va a estudiar el comportamiento de las


características de interés a través del tiempo, ya sea porque no interesa o porque dicho comportamiento
se supone estable. Para la resolución de estos problemas se requiere el estudio del comportamiento de
alguna característica (modelo o distribución) y entonces es necesario llevar adelante una investigación
empírica para obtener la información pertinente. ¿Qué significa información pertinente? Quienes
trabajan en Ingeniería tratan en forma constante con datos durante su vida profesional pero estos no
se convierten en información por sí solos. No se trata de tener grandes cantidades de datos que no
respondan a ninguna pregunta de interés, ni de llenar planillas, registros y reportes porque sí. Mientras
los datos pueden definirse como resultados, numéricos o no, asociados a un hecho, la información, que
incluye datos, debe entenderse como la respuesta a preguntas previamente planteadas.

Ahora bien, ¿qué datos tomar para obtener la información necesaria?, ¿cuántos?, ¿cómo tomarlos y
registrarlos adecuadamente?, ¿qué análisis realizar para arribar a conclusiones satisfactorias?
La Estadística cumple un rol fundamental en la resolución de este tipo de problemas desde el
planteo mismo de la pregunta inicial y proporciona métodos para obtener, organizar y analizar datos
que se convierten luego en información de utilidad, así como herramientas para la toma de decisiones
en presencia de variabilidad e incertidumbre.

Además de los métodos y procedimientos aportados por la Estadística, el pensamiento estadístico


aporta la manera de razonar y comprender las etapas que deben seguirse en la resolución del
problema, entre las que se destacan la construcción y obtención de los datos necesarios, su análisis y
la adecuada conexión entre las conclusiones estadísticas y el contexto en el cual estas se aplican.
6 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

1.4 Problemas para trabajar

A continuación se enuncian problemas con los que se trabajará a lo largo del libro.

Problema 1: Una empresa metalúrgica de la provincia de Santa Fe fabrica diferentes tipos de


barras de acero que luego se utilizan en la construcción y en otras industrias.
Una empresa automotriz de la zona requiere uno de los tipos de barras y está dispuesta a comprarlas siempre
y cuando sus longitudes se encuentren dentro del intervalo 250 +/- 0,6 mm.
En la gerencia de la empresa metalúrgica están interesados en convertirse en proveedores de esta empresa
para lo cual necesitan estudiar si la producción cumple los requerimientos impuestos en relación a las
longitudes.

Problema 2: En una empresa distribuidora de placas de madera de gran tamaño de uso para la
industria de la construcción, se preparan lotes de 80 unidades para sus clientes. La empresa tiene un sistema
láser que detecta defectos de cada placa y lleva un registro del número de defectos de todas las placas de
cada lote.
Uno de los clientes es estricto en relación al número total de defectos (poros, rayaduras, etc.) presentes en la
superficie de las placas y exige que el número promedio1 de defectos por placa en cada lote sea menor a 1,2
unidades. Al momento de recibir el pedido por parte de este cliente, en la distribuidora cuentan con un lote
ya preparado y desean saber si pueden enviárselo o no.

Problema 3: Se diseñó un servidor neumático para bases de siembra mecánica. Este servidor es
un sistema concebido para su incorporación a las sembradoras con dosificadores mecánicos de semillas, que
funcionan con placas perforadas para la selección y posterior traslado de los granos al tubo encauzador.
A la base de dosificación y transporte mecánico de la sembradora, se le reemplazan los componentes
originales de selección de semillas por un servidor neumático de aspiración. Así las semillas se depositan en
las ranuras y luego se siembran a distancias más o menos fijas.
Para probar si este dispositivo hace más efectiva la siembra de granos de maíz, se diseñó un experimento que
consistió en sembrar maíz en un campo y evaluar la distancia entre los granos. También se observó si en un
mismo punto se encuentran dos o más semillas (es decir, si la distancia entre dos semillas es nula). En ese
caso, solo una semilla germina y las demás se desperdician, por lo que es deseable que esto ocurra muy
pocas veces.
Se conoce que, sin ese servidor neumático, la distancia promedio entre granos de maíz es de 49 cm, la
desviación estándar 1 es 2 cm y la proporción de veces que coinciden dos o más semillas en un mismo punto
es 0,10.

1 El promedio, la desviación estándar y otras medidas se desarrollarán en el Capítulo 2.


7

Problema 4: En una empresa dedicada a la comercialización de productos por Internet, están


preocupados por el incremento en las devoluciones, lo cual aumenta sus costos operativos y hace que su
reputación como vendedores disminuya notoriamente. La Gerencia propone determinar el motivo principal
de cada una de estas devoluciones, para detectar las causas más frecuentes e implementar luego acciones
para mejorar el servicio y no seguir perdiendo clientes. En la Gerencia sospechan que una de las posibles
causas podría ser el retraso en la entrega por problemas en el transporte y consideran que si esta causa
representa más del 30 % de las devoluciones, se justifica la contratación de una nueva empresa prestadora.
Respecto de las causas restantes, las mejoras se implementarán de acuerdo a lo que se encuentre en el
estudio.

Problema 5: Una empresa distribuidora de la energía de Santa Fe desea evaluar la ocurrencia


mensual de fallas en una de las subestaciones, ubicada en el sur de la provincia. Interesan solo las fallas
debidas propiamente al proceso de distribución que generen interrupciones en el servicio eléctrico mayores
a 1 minuto.

Problema 6: Un comitente desea conocer ciertas características de un tramo de ruta de 5 km ya


construido. Concretamente quiere establecer si la ruta cumple con las exigencias de calidad en cuanto a
espesor y resistencia. Se pretende que como máximo en el 5 % de los puntos la resistencia a la compresión
sea menor que 30 MPa y que el espesor sea igual a 22 cm. También se quiere analizar la homogeneidad de la
ruta, tanto en relación al espesor como en relación a la resistencia a la compresión, en los distintos sectores
de ese tramo durante los 5 km.

Problema 7: Se pretende realizar un estudio específico con el objeto de dividir un campo. Entre
las varias tareas a realizar, un topógrafo debe determinar la distancia en metros entre dos puntos. Para ello
va a utilizar un distanciómetro.
Antes de utilizar el equipo mencionado y con el fin de evaluar la calidad de las mediciones que este realiza,
el topógrafo observa los resultados de un estudio llevado a cabo previamente. El informe de dicho estudio
revela que el distanciómetro se puede considerar exacto y preciso 2 .

Problema 8: Una empresa se especializa en realizar ensayos de vida en dispositivos electrónicos.


Para un dispositivo en particular llevó adelante un estudio por más de 5000 horas y registró la ocurrencia de
fallas así como el tiempo transcurrido entre cada una.
Un usuario está interesado en utilizar estos dispositivos para construir circuitos especiales y por seguridad
los reemplazaría ante la ocurrencia de una falla. Este usuario pretende que la mayoría de ellos fallen después
de las 150 horas y realiza una consulta en la empresa especializada para ver si esto es razonable.

Para los problemas planteados, ¿cómo se llevará adelante el ciclo de resolución?


2 La exactitud y la precisión de un método de medición se desarrollarán en capítulos posteriores.
8 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

1.5 El ciclo para la resolución de problemas de naturaleza estadística

La resolución de problemas en los que están involucradas la variabilidad y la incertidumbre que ésta
genera, constituye en sí misma un proceso que se inicia con una adecuada formulación o planteo del
problema a resolver y culmina con la obtención de conclusiones que deben relacionarse al contexto.
Las etapas del proceso pueden resumirse, por ejemplo, en el Ciclo Investigativo PPDAC, propuesto
por Wild y Pfannkuch (1999), aunque muchos autores lo mencionan sin darle ese nombre específico.
Las etapas se esquematizan en la Figura 1.4.

Figura 1.4. El ciclo PPDAC para la resolución de problemas.

A continuación, se enuncian los principales conceptos estadísticos asociados al ciclo PPDAC y se


describen las acciones que generalmente se llevan a cabo para cada etapa.

1.5.1 Etapa de planteo o formulación del problema (P)

El planteo adecuado de la pregunta que debe ser respondida es fundamental para el desarrollo de las
restantes etapas y para resolver el problema, ya que no tiene valor una buena respuesta si la pregunta
fue mal formulada. Se requiere entonces definir la población objeto de estudio y las unidades que la
componen; así como las variables que se medirán y los parámetros de interés.
9

1. Conceptos estadísticos asociados

La población es el conjunto de todos los elementos, es decir, el universo respecto del cual se quiere
obtener conclusiones o tomar decisiones. A cada uno de los elementos que componen la población
se lo denomina unidad elemental.

Según la cantidad de elementos o unidades que la componen, una población puede clasificarse en
finita o infinita. En el caso de poblaciones finitas, el total de unidades elementales, o tamaño de la
población, se simboliza con N.

En ocasión de definir la población, es muy importante determinar claramente los criterios de inclusión,
es decir, el conjunto de condiciones que deben cumplir las unidades para formar parte de ella. Entre
estos criterios deben estar cuestiones relativas al espacio y al tiempo.

Problema 1 (pág. 6): La totalidad de las barras de acero producidas por la empresa constituye
la población y cada una de las barras, una unidad elemental.
El tamaño de esta población se considera infinito ya que incluye todas las barras producidas y que seguirán
produciéndose mientras el proceso mantenga las mismas condiciones.

! En todos los procesos de producción, mientras se mantengan iguales condiciones, se considerará


que se generan infinitas unidades elementales.

¿Cómo se considera al espacio en la definición de las unidades que componen a una población? Estas
unidades deben estar asociadas a un espacio determinado, a un sector de la empresa en la cual se
producen, a una localidad, etc.

Problema 1 (pág. 6): Suponga que la empresa produce las barras en tres plantas de carac-
terísticas similares, ubicadas en diferentes localidades de la provincia de Santa Fe. En ese caso, para
definir adecuadamente a la población hay que revisar el objetivo. Pueden darse, por ejemplo, las siguientes
situaciones:
Si interesa conocer el comportamiento de las barras producidas en las tres plantas, la población está
integrada por la totalidad de barras producidas por la empresa.
Si interesa conocer el comportamiento de las barras producidas solo en la planta ubicada en Venado
Tuerto, la población está integrada únicamente por las barras producidas por la empresa en dicha
planta.
Una situación análoga a la mencionada en relación a diferentes plantas, podría plantearse si hubiera barras
producidas por diferentes turnos, por diferentes máquinas, etc.

¿Cómo se considera al tiempo en la definición de las unidades que componen a una población? Estas
unidades deben estar asociadas a un determinado período (en el que fueron producidas, comercializadas,
etc.)
10 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Problema 1 (pág. 6): Si la población está compuesta por la totalidad de las barras, se entiende
que se trata de las barras que se vienen produciendo (y de las que se seguirán produciendo si el proceso
continúa con un comportamiento estable).
Pero, considere la siguiente situación:
A partir del 1 de marzo del corriente año se introdujeron modificaciones importantes en el proceso de
producción en las tres plantas e interesa conocer el comportamiento de las barras producidas luego de la
implementación de dichas modificaciones. Entonces, la población está formada por la totalidad de barras
producidas en las tres plantas a partir del primer día de marzo del corriente año.

Un criterio de inclusión de alguna manera define criterios de exclusión, es decir, condiciones tales que,
si las unidades las cumplen, impiden que estas formen parte de la población de interés.

Problema 1 (pág. 6): Si solo interesan las barras producidas en la planta de Venado Tuerto, se
tiene que el criterio de inclusión es haber sido fabricada en dicha planta y el criterio de exclusión, haber
sido fabricada en cualquiera de las otras dos. En este caso, solo se explicita el criterio de inclusión y los
de exclusión se definen implícitamente; pero podría ocurrir lo contrario. Suponga que hubo problemas en
la planta ubicada en Gálvez y por el momento no interesa estudiar barras producidas en dicha planta. La
población está compuesta entonces por las barras producidas en la empresa, excepto en la planta de Gálvez.

! Observe la importancia de definir a la población de acuerdo al objetivo planteado, respetando los


criterios de exclusión/inclusión.

Una variable es cualquier característica que puede tomar diferentes valores (números o categorías)
en las unidades elementales.

Las variables se clasifican, según los valores que pueden asumir, en cuantitativas o cualitativas.

Las variables cualitativas o categóricas clasifican a las unidades elementales en categorías o


niveles. Por ejemplo, “el tipo de defecto en botellas”, “la condición de defectuosa o no de piezas
plásticas”, “la calificación de variedades de miel” y “la preferencia del consumidor en relación a
una familia de productos”.
Las variables cuantitativas le asignan a cada unidad elemental un número. Estas, a su vez, se
pueden clasificar en discretas y continuas.
• Para las variables discretas, el conjunto de valores posibles es finito o infinito numerable y
se asocia, generalmente, al conjunto N0 . Son variables discretas “el número de poros en la
superficie de placas metálicas”, “el número de piezas defectuosas en cajas de 20 unidades”
y “la cantidad de llamadas que ingresan a un conmutador en períodos de 10 minutos”.
• Para las variables continuas, el conjunto de valores posibles es un intervalo o conjunto de
intervalos de números reales. Son variables continuas “la longitud de piezas metálicas”, “el
volumen de lluvia caído en un mes”, “la dureza de barras” y “la temperatura de salida de
un polímero”.
11

Las variables pueden medirse utilizando diferentes escalas o niveles de medición, que se describen a
continuación:

Nominal: los valores que puede asumir la variable son diferentes entre sí pero no hay razón para
ordenarlos, es decir, para pensar que uno es de menor o mayor jerarquía que otro.
Ordinal: los valores que puede asumir la variable son diferentes entre sí y además, se pueden
ordenar según alguna jerarquía; pero no se pueden evaluar las diferencias entre uno y otro.
De intervalo: los valores que puede asumir la variable son diferentes entre sí, se pueden ordenar
según alguna jerarquía y además se pueden hacer diferencias entre ellos; pero no cocientes ya
que el valor “0” no indica ausencia de dicha característica.
De razón: los valores que puede asumir la variable son diferentes entre sí, se pueden ordenar y
además se pueden hacer diferencias y cocientes entre ellos, ya que el valor “0” sí indica ausencia
de la característica.

En la Tabla 1.1. se resumen las operaciones que pueden realizarse con los datos obtenidos, según la
escala de medición de la variable.

Tabla 1.1. Operaciones que pueden llevarse a cabo según el nivel de medición de la variable
Nivel de Obtener Obtener
Diferenciar Ordenar
medición diferencias cocientes
Nominal X
Ordinal X X
De intervalo X X X
De razón X X X X

Como se deduce de la cantidad de operaciones asociadas a cada nivel de medición y se observa en la


Tabla 1.1., los niveles están ordenados de manera creciente y cada uno de ellos contempla operaciones
de los anteriores.

Problema 1 (pág. 6): Para la variable “longitud” (en mm), por ejemplo, podrían darse las
siguientes situaciones, luego de medirla:
Se registra el valor de la longitud de barras de acero, en mm. Entonces la variable es cuantitativa y se
mide en escala de razón (ya que el valor 0 no es un valor arbitrario).
Se registra si la barra es pequeña (mide menos de 240 mm), mediana (mide entre 240 y 260 mm) o
grande (mide más de 260 mm). En ese caso la variable se considera cualitativa o categórica y el nivel
de medición es ordinal.
Se registra si la barra, según su longitud, cumple o no cumple con las especificaciones definidas por
cierto cliente y en ese caso la variable se considera cualitativa y el nivel de medición es nominal.

Para las variables categóricas o cualitativas solo pueden considerarse los dos primeros niveles de
medición; mientras que para las variables cuantitativas pueden considerarse todos los niveles de
medición, aunque los dos últimos son más informativos, en el sentido que pueden realizarse más
operaciones con los datos recolectados. Las variables originalmente cuantitativas, medidas en escala
nominal u ordinal, en la práctica se consideran cualitativas.
12 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

! Cuando se trata de variables cualitativas o categóricas, los valores que asume la variable son en
realidad modalidades, categorías o niveles diferentes y no se expresan numéricamente. Puede
ocurrir que a estas categorías se les asignan números (códigos) para facilitar la carga de los datos
en alguna planilla; pero esto no convierte a la variable en cuantitativa.

Problema 4 (pág. 7): En este problema se registra el motivo principal de devolución para
un conjunto de devoluciones de pedidos realizados por Internet. Las categorías para esa variable son: (1)
Errores en la facturación, (2) Pedido equivocado, (3) Precio final no coincidente con el que figura en la
página, (4) Producto dañado, (5) Producto mal embalado, (6) Producto vencido o en mal estado y (7) Retraso
en la entrega por problemas del transporte. En la planilla de datos se registra, para cada devolución, un
número entre 1 y 7, según el motivo principal de la misma; pero este hecho no convierte a la variable en
cuantitativa; sigue siendo cualitativa, medida en escala nominal.

! La mayoría de las variables cuantitativas que se analizan en este texto están medidas en escala de
razón. Interesa diferenciar si son discretas o continuas.

Problema 1 (pág. 6): En este problema, la característica de interés es la longitud de las barras
de acero, variable cuantitativa continua, medida en escala de razón, por cuanto el valor “0” no es arbitrario.
Para la misma población de barras, podrían haberse observado otras variables. En la Tabla 1.2. se mencionan
y clasifican algunas variables posibles.

Tabla 1.2. Clasificación de posibles variables a medir en barras de acero


Variable Clasificación Valores posibles (*) Nivel de medición
Cumplimiento de
Cualitativa Sí, No Nominal
la especificación
o
Al carbono, al silicio,
Tipo de acero categórica Nominal
al manganeso, etc.
Nivel de calidad Bajo, Medio, Alto Ordinal
Nº de imperfecciones Cuantitativa discreta 0, 1, 2, 3, ... De razón
Peso (0, +∞) De razón
Cuantitativa
Temperatura máxima
continua (0, +∞) De intervalo
que soporta
Longitud (0, +∞) De razón

(*) No se deben confundir la cantidad de unidades elementales o tamaño de la población con la cantidad de niveles o
valores que puede asumir la variable. Por ejemplo, la primera variable solo asume dos valores diferentes; mientras que
la población en estudio está compuesta por infinitas barras, que representan las unidades elementales.

Las variables se simbolizan con letras mayúsculas (generalmente, las últimas del abecedario); mientras
que los valores posibles se simbolizan con letras minúsculas. Por ejemplo, para la población de
barras del Problema 1, la variable de interés es Y : longitud de cada barra (en mm). Una de las barras
analizadas en el estudio presentó una longitud de 253 mm, es decir y = 253 mm.
13

Haciendo una síntesis de lo visto hasta ahora, se puede decir que si la pregunta es “¿quiénes son los
objetos bajo estudio?, surge en primer lugar el concepto de unidad elemental y luego el de población,
como la totalidad de las unidades elementales, asociadas a un objetivo. Y si la pregunta es ¿qué
características interesa estudiar en dichas unidades?, surge el concepto de variable.

La población estadística es el conjunto de todos los valores (números o categorías) que asume la
variable de interés cuando se mide en cada unidad de la población.

En la definición de población estadística se consideran conjuntamente los conceptos de población y


variable vistos anteriormente.

Problema 1 (pág. 6): Para la población de barras de este problema, si la variable de interés
es su longitud (Y), la población estadística es el conjunto de las longitudes de dichas barras. Pero si la
variable de interés es el cumplimiento de las especificaciones (Z), la población estadística es el conjunto de
las condiciones (en relación al cumplimiento de las especificaciones) de dichas barras. Es decir que al definir
distintas variables para una misma población (en este caso, el conjunto de todas las barras producidas por
ese proceso), surgen diferentes poblaciones estadísticas, las cuales pueden ser univariadas o multivariadas,
según la cantidad de variables que interese estudiar simultáneamente. En la Figura 1.5. se presentan una
población estadística univariada y otra bivariada, asociadas a las barras, a modo de ejemplo.

Figura 1.5. Poblaciones estadísticas asociadas a la población de barras del Problema 1.

Cualquier medida que resuma información de la población se denomina parámetro.


14 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Generalmente, los parámetros se simbolizan con letras griegas. Por ejemplo, la proporción poblacional
se simboliza con la letra π, el promedio poblacional se simboliza con la letra µ y la desviación estándar
poblacional se simboliza con σ .

Problema 1 (pág. 6): Todas las barras de acero producidas por la empresa constituyen la
población y una medida que resume información de dicha población es la proporción de barras con
longitudes entre 249,4 y 250,6 mm (π). También puede interesar la longitud promedio (µ) y la desviación
estándar de la longitud (σ ).

Con lo visto hasta ahora, se puede resolver la Actividad 1, Sección 1.7.

2. Tareas que se realizan en la etapa de Planteo del Problema

El primer paso para la resolución de un problema estadístico es plantearlo correctamente. Esto implica
formular adecuadamente el objetivo del estudio y definir, de acuerdo a dicho objetivo:

la población;
la unidad de elemental;
la/s variable/s;
la población estadística y
los parámetros de interés.

Observe que, en esta primera etapa, tanto el problema como los objetivos se refieren a una población
determinada que debe ser definida claramente, con los criterios de inclusión y/o exclusión que co-
rrespondan. Definidas la población y las variables de interés, así como los parámetros, el planteo del
problema puede reescribirse en función de estos elementos. Es decir, que se realiza una traducción o
modelado de la situación problemática y de los objetivos en términos estadísticos.

El objetivo puede involucrar:

el conocimiento del comportamiento de una característica en la población (modelo o distribu-


ción);
el conocimiento de alguna medida que resuma información acerca de la población estadística en
estudio (parámetro).

El conocimiento del modelo o de algún parámetro puede servir para la toma de decisiones sobre el
proceso, si esto es lo que se busca.

Problema 1 (pág. 6): El objetivo es conocer si la producción de barras de acero cumple con las
especificaciones fijadas por la empresa automotriz en relación a su longitud. Se define:
Población: la totalidad de las barras de acero producidas por la empresa (población infinita).
15

Unidad elemental: cada barra.


Variable: longitud (en mm) (variable cuantitativa continua, medida en escala de razón). Observe que,
si bien se mide en primer lugar la longitud de cada barra, luego cada una se clasifica según cumpla o
no con las especificaciones, de modo que finalmente se trabaja con una variable cualitativa, medida
en escala nominal.
Población estadística: las longitudes de las infinitas barras de acero producidas por la empresa (y
registradas luego según cumplan o no cumplan con las especificaciones).
Parámetro de interés: la proporción (π) de barras que cumplen con las especificaciones, es decir, la
proporción de barras con longitudes entre 249,4 y 250,6 mm.
Dadas estas definiciones, las preguntas a responder son:
1. ¿Es posible que las barras producidas en el proceso cumplan con los requerimientos de la empresa
automotriz en relación a su longitud?
2. ¿Cuánto vale la proporción (π) de barras con longitudes entre 249,4 y 250,6 mm?
El objetivo, en términos estadísticos, es conocer la proporción de barras que cumplen con las especificaciones.

Problema 2 (pág. 6): El objetivo es saber si se puede enviar al cliente el lote de 80 placas de
madera que está disponible en la distribuidora. Se define:
Población: todas las placas de madera que contiene el lote (población finita, N = 80).
Unidad elemental: cada placa.
Variable: Nro. de defectos (poros, rayaduras, etc.) en la superficie (variable cuantitativa discreta,
medida en escala de razón).
Población estadística: las cantidades de defectos de cada una de las placas del lote.
Parámetro de interés: el número promedio de defectos por placa (µ).
Dadas estas definiciones, las preguntas a responder son:
1. ¿Es posible enviar el lote disponible al cliente?
2. ¿El número promedio de defectos por placa (µ) es menor a 1,2?
El objetivo, en términos estadisticos, es conocer ese valor promedio y decidir si enviar el lote o no.

Problema 3 (pág. 6): El objetivo es evaluar si el servidor neumático mejora el proceso de


siembra de semillas de maíz (respecto a la siembra tradicional que no lo utiliza). Ahora bien, ¿qué quiere
decir “mejora”? Se define:
Población: los infinitos pares de semillas de maíz sembradas en forma sucesiva con la ayuda del servi-
dor neumático (se trata de una población conceptual porque se está llevando a cabo un experimento y
no se sabe si finalmente se adoptará este servidor).
Unidad elemental: cada par de semillas sembradas en forma sucesiva.
Variable: distancia entre cada par de semillas sucesivas (en cm) (variable cuantitativa continua,
medida en escala de razón). A partir de esta variable también se registra una variable cualitativa que
indica si la distancia es nula o no.
Población estadística: las infinitas distancias entre los pares de semillas sembradas.
Parámetro de interés: distancia promedio (µ); proporción de pares de semillas para los cuales la
distancia a es nula (π); desviación estándar de las distancias (σ ).
Suponga que el dispositivo mejora el proceso de siembra si se mantiene la distancia promedio entre semillas,
16 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

que es de 49 cm; pero se reducen la desviación estándar de las distancias y la proporción de pares de semillas
con distancia nula (comparadas con la información que se tiene de estas medidas cuando el dispositivo no se
usa). Dadas estas definiciones, las preguntas a responder son:
1. Con el dispositivo neumático, ¿se mejora el proceso de siembra?
2. La proporción de veces que la distancia entre semillas consecutivas es nula, ¿es menor a 0,10?
3. ¿La distancia promedio sigue siendo 49 cm? ¿La desviación estándar es menor que 2 cm?
El objetivo, en términos estadísticos, es conocer los valores de la proporción, del promedio y del desvío
estándar y decidir sobre el dispositivo neumático

Con lo visto hasta ahora, se puede resolver la Actividad 2, Sección 1.7.

1.5.2 Etapa de Planificación del Estudio Estadístico (P)

Para responder cualquiera de las preguntas que se planteen se necesitan datos y, por lo tanto, se
debe decidir cómo llevar adelante el estudio estadístico para obtenerlos (observacional o experimental,
poblacional o muestral, transversal o longitudinal) y cómo analizar estos datos posteriormente para
obtener las conclusiones o respuestas (herramientas de análisis descriptivo y/o inferencial). Esto remite
a cuestiones relativas a la Planificación del Estudio Estadístico.

Si el estudio es poblacional, solo se necesita planificar cómo obtener los datos de la población en
estudio y cómo llevar adelante el análisis descriptivo de los mismos para pasar a las conclusiones. En
cambio, si se planifica un estudio por muestreo, se debe decidir cómo obtener los datos de la muestra,
cómo realizar el análisis descriptivo de los mismo y qué herramientas de análisis inferencial utilizar
para obtener las conclusiones sobre la población en estudio.

En esta etapa hay muchas cuestiones a considerar, pero todas deben llevar a que el diseño de la
investigación sea el más apropiado para la obtención de conclusiones en relación al problema planteado.

1. Conceptos estadísticos asociados

Estudios observacionales vs. estudios experimentales

Se denomina observación al resultado de observar cierta característica en una unidad elemental.

Note que el término “observar” no depende únicamente del sentido de la vista: la observación puede
obtenerse también a partir de una medición o de alguna pregunta sobre la característica de interés.

Un estudio observacional es un estudio en el cual se observan las unidades elementales y se registra


el valor de alguna característica de interés, sin realizar modificaciones en la población o proceso,
excepto las necesarias para obtener los datos requeridos. En este tipo de estudio no se intenta
manipular ni modificar las unidades.

En todo estudio observacional, muestral o poblacional, las unidades elementales se denominan


unidades observacionales.
17

Un estudio experimental o experimento propiamente dicho, es un estudio en el cual se hacen


deliberadamente cambios en los niveles de algunas variables (factores) y se observa si estos se
asocian con cambios en algunas características de interés (variables de respuesta). En todo estudio
experimental, las unidades elementales se denominan unidades experimentales.

Los experimentos constituyen la mejor manera de valorar el efecto de uno o más factores sobre alguna
variable de interés ya que, para analizar la respuesta a un cambio se trata de controlar todos los factores
que presumiblemente influyen sobre ese cambio.

Estudios exhaustivos vs. estudios por muestreo

De acuerdo a la cantidad de datos, los estudios observacionales pueden ser muestrales o poblacionales,
según se estudie a un subconjunto o a toda la población (censo). Los experimentos siempre se realizan
con un número relativamente pequeño de unidades, que se consideran la muestra en estudio. En ese
tipo de estudios, la población está compuesta por las infinitas unidades en las que se podría probar
el efecto de los factores de interés; y por lo tanto no tiene existencia física, se trata de una población
conceptual.

En un censo se estudian todas las unidades de una población (estudio exhaustivo).

En un estudio por muestreo se analiza a un subconjunto de unidades de una población.

Los estudios poblacionales no siempre son posibles de llevar a cabo, ya sea porque la población es
infinita o porque los ensayos que deben hacerse para medir la característica en estudio son destructivos
o muy costosos. También puede ser que el proceso sea muy lento y se demore mucho tiempo en obtener
todas las observaciones.

Acerca de las muestras

Una muestra es un subconjunto de elementos de la población bajo estudio. Su tamaño o cantidad de


elementos en este texto se simboliza con n.

Existen diferentes maneras de seleccionar una muestra; pero es fundamental tener presente que solo a
partir de muestras aleatorias o probabilísticas se pueden extender los resultados a toda la población
de manera válida.

¿Qué es una muestra aleatoria o probabilística? La idea básica de una muestra de este tipo es que cada
unidad de la población tenga una posibilidad o chance conocida de ser seleccionada para la muestra.
Dentro de las muestras aleatorias existen diferentes métodos de muestreo (simple al azar, sistemático,
por conglomerados, estratificado, multietápico) que se aplican según las características de la población
que se desee muestrear. En este texto, se considerará solamente el muestreo simple al azar, que se
definirá específicamente en el Capítulo 7.
18 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Además del método, es también importante elegir adecuadamente el tamaño de la muestra ya que
ambos influyen en la calidad de las conclusiones que se obtendrán.

En las muestras por conveniencia, en cambio, las unidades se incorporan porque se consiguen
fácilmente, por voluntad del participante, etc. Estas muestras pueden resultar sesgadas y no representar
adecuadamente el patrón de variabilidad de la población en estudio.

Estudios según el rol del factor tiempo

Hay estudios en los cuales interesa conocer el comportamiento de las variables a lo largo del tiempo
(en diferentes períodos de tiempo). En cambio, hay otros estudios en los cuales interesa conocer
el comportamiento de las variables en un único período de tiempo (en ese caso puede ser que las
observaciones se realicen en un mismo momento o en distintos momentos, pero suponiendo que el
tiempo transcurrido entre ellos no constituye un factor importante para el objetivo del estudio).

En la Etapa de Planificación del Estudio Estadístico también se deben definir, en la medida de lo


posible, los análisis que se llevarán a cabo una vez recolectados los datos. En cualquiera de los casos
en los que se trabaje con un subconjunto de unidades de la población (ya sean estudios observacionales
o experimentales), en la etapa de Análisis de los Datos se requerirá la aplicación de herramientas
inferenciales para generalizar los resultados a toda la población, a la que siempre remiten los objetivos
del estudio..

2. Tareas que se realizan en la etapa de Planificación del Estudio Estadístico

En esta etapa, lo primero que se debe decidir es el tipo de estudio que se llevará a cabo:

¿Será un estudio observacional o experimental?


Si se decide que sea observacional, ¿se trabajará con toda la población o se tomará una muestra?
Si se decide tomar una muestra, ¿de qué tipo y tamaño será?
Si se decide llevar a cabo un experimento, ¿cómo se diseñará dicho experimento?, ¿con cuántas
unidades se experimentará?

Además de seleccionar el tipo de estudio, hay muchas más preguntas a contestar en esta etapa. A
continuación se presentan algunas de ellas:

¿Cómo se van a medir las variables de interés? ¿Con qué métodos o instrumentos?
¿Qué análisis se llevarán a cabo? ¿Será suficiente con el análisis descriptivo? ¿Se requerirán
herramientas de inferencia estadística? ¿Cuáles?
¿Qué riesgos máximos se admiten en el caso de tener que inferir las conclusiones de la muestra a
la población?

Las dos primeras preguntas son comunes a todos los estudios; mientras que la última es propia de los
estudios en los que se trabaja con una muestra. Esto incluye a los estudios experimentales, en los que
nunca se realizan relevamientos exhaustivos.
19

Problema 1 (pág. 6): Como la población (todas las barras del proceso) es un conjunto infinito se
debe decidir cuántas barras se extraerán del proceso (n), cuándo y cómo se registrará su longitud. En este
caso caben algunas consideraciones:
¿Será lo mismo extraer 30 o 100 barras, para inferir las conclusiones?
¿Cómo se elegirán las barras que van a constituir la muestra? ¿Se tomarán de cualquier turno de
trabajo?, ¿de cualquier día de la semana?
¿Cómo se analizarán los datos?
Cualquiera sea la opción elegida, solo se podrán obtener medidas de resumen de la muestra (estadísticos)
y luego habrá que elaborar conclusiones para toda la población. Entonces, ¿con qué riesgo de error se
obtendrán dichas conclusiones?

Problema 2 (pág. 6): En este caso se cuenta con un sistema de medición automático y por lo
tanto puede llevarse a cabo un estudio exhaustivo o censo para todo el lote. Con la información que se
obtenga pueden calcularse los parámetros de interés y concluir.

Problema 3 (pág. 6): Dado que se trata de un experimento y la población no tiene existencia
física, se deben decidir cuántas semillas de maíz se van a sembrar utilizando el servidor neumático. Es
importante definir también cómo se van a medir las distancias entre semillas y en qué casos se va a registrar
“distancia nula”. Una vez obtenidos los valores se puede calcular la distancia promedio de la muestra, la
desviación estándar y la proporción de distancias nulas, que son medidas muestrales (estadísticos). Luego
habrá que elaborar conclusiones para toda la población de modo que se debe decidir con qué riesgo de
error se obtendrán las mismas (herramientas de inferencia estadística).

! Es muy importante tener en cuenta que los datos solamente son útiles si su obtención se realizó a
partir de una Planificación adecuada del Estudio Estadístico.

Con lo visto hasta ahora, se pueden resolver las Actividades 3 y 4, Sección 1.7.

1.5.3 Etapa de Recolección de los Datos (D)

Planificado el estudio estadístico, la tercera etapa consiste en la recolección de los datos y en el volcado
de los mismos en una planilla de registro. Es muy importante tomar todas las precauciones para
obtener datos de calidad, ya que ellos constituyen la materia prima fundamental para la obtención de
conclusiones adecuadas. Datos de mala calidad o datos “basura”, producen malas conclusiones, por
más que se apliquen herramientas de análisis muy sofisticadas.

1. Conceptos estadísticos asociados

Planilla de registro: es el instrumento en el cual se vuelcan los datos recabados para cada unidad
elemental a medida que se obtienen.
20 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Una planilla de registro es de gran ayuda en la etapa de recolección de los datos ya que en ella constan
todas las características que van a observarse en las unidades. Puede definirse en soporte papel o digital.
En cualquier caso es deseable que se incluyan instrucciones que orienten el trabajo de las personas a
cargo de la recolección de datos, y en el caso de soporte digital, es deseable además que se incluyan
controles que eviten posibles errores (por ejemplo, tener programada una señal de error si se ingresa un
valor fuera del rango de valores definidos para alguna variable). En la Figura 1.6. se presentan algunas
planillas de registro a modo de ejemplo.

(a) Planilla para el control de defectos en placas de madera (Problema 2). (b) Planilla para la localización
de defectos en una placa de ma-
dera (Problema 2).

Figura 1.6. Ejemplos de planillas de registro y localización utilizadas en formato papel.

La trazabilidad es la posibilidad de identificar, rastrear y recuperar las unidades de las cuales se


extrajeron los datos, a través de códigos especialmente elaborados. También permite identificar
características de interés en dichas unidades (en qué horario fue producida, con qué máquina o lote
de materia prima, con qué equipo se realizó la medición, etc.)

Garantizar la trazabilidad de los datos es de gran utilidad, especialmente cuando aparecen datos
erróneos, dudosos o atípicos, ya que permite recuperar las unidades elementales de las cuales se
extrajeron y eventualmente repetir las mediciones. Los códigos que identifiquen a las unidades deben
registrarse en la planilla.

Planilla de volcado: Es el instrumento en el cual se vuelca la información contenida en todas las


planillas de registro.

La planilla de volcado se define en formato digital y se completa una vez finalizada la etapa de
recolección de los datos. Es recomendable que tenga la siguiente estructura:
21

1 x1 y1 ··· ··· ··· z1


2 x2 y2 ··· ··· ··· z2
··· ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ···
n (o N) xn yn ··· ··· ··· zn

En la primera columna de la planilla de volcado se ubican los individuos o unidades elementales


analizadas. Cada fila contiene información de un individuo, de modo que la cantidad de filas coincide
con el tamaño de la población (N) o de la muestra (n), según corresponda.

En las columnas restantes se ubican los valores de las variables estudiadas. El número de variables
consideradas en el estudio se simboliza con “p”, y cada una de ellas se corresponde con una columna.

2. Tareas que se realizan en la etapa de Recolección de Datos

En esta etapa se recolectan los datos, es decir, se seleccionan las unidades elementales a estudiar y
en cada una de ellas se observan las variables de interés. Entre las precauciones que deben tenerse en
cuenta, pueden mencionarse:

elaborar instructivos y entrenar a las personas que vayan a realizar las mediciones o a recabar los
datos a través de observaciones, encuestas, etc.;
hacer una prueba piloto de los métodos de recolección de los datos, por si aparecen cuestiones
dudosas, situaciones no previstas, etc.;
chequear los métodos de medición;
diseñar una planilla de registro apropiada;
supervisar la tarea de recolección de los datos, así como la tarea de carga de los mismos en
planillas electrónicas;
garantizar, cuando sea posible, la trazabilidad de los datos;
volcar toda la información obtenida en las planillas de registro, en una planilla de volcado en la
que se presenten todos los individuos y variables analizados.

1.5.4 Etapa de Análisis de los Datos (A)

A partir de la información contenida en la planilla de volcado, debe hacerse un tratamiento primario


de los datos, es decir, validarlos, recodificarlos si es necesario, chequear su calidad, etc. Pasado este
tratamiento, se lleva a cabo el análisis descriptivo y, si corresponde, el análisis inferencial, con
riesgos asociados.

1. Conceptos estadísticos asociados

Tratamiento primario: es el análisis que se hace sobre los datos para chequear su calidad, previa al
análisis descriptivo o inferencial.

En el tratamiento primario se pueden detectar datos faltantes, datos que no se corresponden con los
22 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

valores posibles de la variable, códigos mal ingresados, etc. Si la trazabilidad está garantizada, se
pueden recuperar las unidades correspondientes y corregir los errores observados. También se pueden
utilizar técnicas de imputación en caso de haber datos faltantes.

Análisis descriptivo de los datos: consiste en la aplicación de herramientas (tablas, gráficos,


indicadores) para resumir y/o presentar un conjunto de datos, sean estos de una muestra o de una
población finita.

Si el estudio es exhaustivo (censo), las herramientas de análisis descriptivo permiten obtener conclusio-
nes definitivas 3 y dar respuesta al problema planteado, ya que se cuenta con información de todas
las unidades de la población y se pueden obtener los valores de los parámetros de interés. En cambio,
en el caso de estudios observacionales por muestreo o de estudios experimentales, las conclusiones
obtenidas deben inferirse a la población a través de herramientas de análisis inferencial.

Análisis inferencial de los datos: consiste en la aplicación de herramientas (intervalos de confianza,


pruebas de hipótesis) que permiten extender las conclusiones de una muestra hacia la población, con
riesgos controlados. Estas herramientas se apoyan en la Teoría de la Probabilidad.

Se denomina estadístico a cualquier medida que resuma información de una muestra (por ejemplo,
el promedio de una muestra, la proporción muestral de unidades con cierta característica, el valor
más frecuente en la muestra, etc.). Se usa diferente notación para estadísticos y parámetros.

2. Tareas que se realizan en la etapa de Análisis de Datos

Una vez recolectados los datos y chequeada su calidad, se aplican herramientas de análisis descriptivo,
es decir, se construyen tablas y gráficos y se obtienen indicadores o medidas de resumen (estadísticos
o parámetros, según corresponda).

Si se pudo estudiar a toda la población, con este análisis es suficiente para obtener las conclusio-
nes y dar respuesta al problema.
Si se estudió a un subconjunto de la población, se deben aplicar además herramientas de análisis
inferencial para generalizar las conclusiones obtenidas a toda la población, corriendo cierto
riesgo de obtener conclusiones erróneas.

Problema 1 (pág. 6): Para este problema, relativo a las barras metálicas, una vez decidido el
tamaño de la muestra y extraídas las barras, se registran sus longitudes. Con ellas se realiza un análisis
descriptivo y finalmente se obtiene la proporción de barras que satisfacen las especificaciones. Esta medida
es un estadístico, ya que se obtiene a partir de una muestra y entonces, deberán aplicarse herramientas
inferenciales para dar respuesta al objetivo en estudio, con algún riesgo de error.

3 El
término “definitivas” aplicado a las conclusiones obtenidas del análisis descriptivo en el caso de estudios poblacio-
nales indica que no hace falta aplicar herramientas inferenciales.
23

Problema 2 (pág. 6): Para este problema, relativo al lote de placas de madera, una vez registrados
los valores de las cantidades de defectos en la superficie de las 80 placas del lote, se realiza un análisis
descriptivo de la información obtenida y se procede a calcular el número promedio de defectos por placa
(µ). No hace falta aplicar herramientas inferenciales puesto que ya se calcula de manera exacta el valor
del parámetro.

Problema 3 (pág. 6): Para este problema, una vez decidido cuántas semillas se van a sembrar,
se lleva a cabo el experimento, es decir, se modifica la máquina sembradora con el nuevo dispositivo, se
siembran los surcos y luego se evalúan las distancias entre ellas. Después de hacer un análisis descriptivo
se obtienen los estadísticos correspondientes y se aplican herramientas inferenciales para dar respuesta al
objetivo en estudio, con algún riesgo de error.

Con lo visto hasta ahora, se puede resolver la Actividad 5, Sección 1.7.

1.5.5 Etapa de Conclusiones (C)

1. Conceptos estadísticos asociados


En esta etapa se da finalmente respuesta al problema planteado, a partir de los resultados obtenidos en
la etapa anterior. Es posible que estas conclusiones estén sujetas a error.
Conclusión estadística es la interpretación de los resultados de las herramientas estadísticas aplica-
das.

Conclusión en contexto es la vinculación de la conclusión estadística con la situación en la que se


planteó el problema, para dar respuesta al objetivo del estudio.

La validez externa de un estudio se refiere a la posibilidad de generalizar las conclusiones del


mismo a la población definida en el planteo del problema y también a otras poblaciones que se
consideren similares.

Considerar la validez externa de las conclusiones lleva implícitas dos cuestiones importantes:

En primer lugar, la necesidad de tener claramente definida a la población de referencia a la hora


de elaborar las conclusiones.
En segundo lugar, la posibilidad de considerar las características de esta población y pensar en
otras poblaciones con características similares. En este caso, se debe pensar: “lo que se encontró
en este estudio, ¿a qué otras poblaciones se puede generalizar?”

Problema 1 (pág. 6): Si solo se estudiaron barras de acero producidas en la planta de Venado
Tuerto, las conclusiones que se obtengan se pueden generalizar a la producción de dicha planta y no a la
24 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

producción de toda la empresa, a menos que se conozca por experiencia que en el resto de las plantas se
trabaja de manera similar (máquinas similares, mismos proveedores de materia prima, etc.) y se pueda
pensar que se producen barras de características similares.

2. Tareas que se realizan en la etapa de Conclusiones

Una vez analizados los datos con las herramientas correspondientes, deben obtenerse las conclusiones
y dar una respuesta al problema. Como se mencionara para la etapa de Análisis de Datos, si se trata de
un estudio poblacional, alcanza con el análisis descriptivo y el cálculo de los parámetros de interés. Si
se trata de un estudio observacional por muestreo o de un experimento, además del análisis descriptivo
y del cálculo de los estadísticos correspondientes, se deben aplicar herramientas inferenciales que
permitan generalizar las conclusiones a la población bajo estudio. Estas conclusiones pueden ser
erróneas, ya que no se trabaja con la totalidad de las observaciones (errores propios del muestreo) pero
los riesgos de que esto ocurra están controlados por quien lleva a cabo la investigación, que los define
en la etapa de Planificación. Existe otro tipo de errores (errores ajenos al muestreo) que se presentan
tanto en los estudios poblacionales como en los muestrales, como por ejemplo, un dato mal tomado,
una variable mal medida o mal registrada en la planilla, un cálculo mal hecho, etc. Para estos errores
no se pueden cuantificar los riesgos, pero se debe trabajar para evitarlos.

En esta etapa es importante:

Interpretar los resultados de las herramientas aplicadas en términos estadísticos, comprendiendo


exactamente el alcance y las limitaciones de las mismas.
Interpretar dichos resultados en el contexto del problema, dando respuesta al objetivo planteado.
Considerar la validez externa de las conclusiones.

Con lo visto hasta ahora, se pueden resolver las Actividades 6, 7, 8 y 9, Sección 1.7.

En la Figura 1.7. se destacan los principales conceptos estadísticos asociados a cada una de las etapas
del ciclo de resolución de problemas. En la Tabla 1.3. se resumen las etapas seguidas para los Problemas
1 y 2.
25

Figura 1.7. Etapas del Ciclo PPDAC para estudios poblacionales y muestrales (o experimentales). Conceptos
estadísticos asociados a cada una.
26 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Tabla 1.3. Etapas del Ciclo PPDAC para los Problemas 1 y 2.


Problema 1 - Estudio Problema 2 - Estudio
Etapa observacional muestral observacional poblacional
(no interesa el factor tiempo) (no interesa el factor tiempo)
Las barras de acero, ¿cumplen con los
¿Se puede enviar el lote disponible al
requerimientos de la empresa automotriz
cliente?
en relación a su longitud?
P: ¿El número promedio de defectos por
¿Cuánto vale la proporción de barras
Planteo del placa, en el lote disponible, es menor
que satisfacen las especificaciones en
problema a 1,2?
relación a la longitud?
Población: todas las barras de acero
producidas por la empresa (población
infinita).
Unidad elemental: cada barra Población: la totalidad de placas de
Variable: longitud (en mm), luego madera del lote (población finita N = 80).
considerada como una variable medida en Unidad elemental: cada placa de madera.
escala nominal con categorías “Cumple” / Variable: nro. de defectos por placa.
”No Cumple”. Población estadística: las cantidades de
Población estadística: las longitudes de defectos de las 80 placas de madera del
las “infinitas” barras de acero producidas lote.
por la empresa (luego, la condición de Parámetro de interés: el nro. promedio de
cumple / no cumple para las barras de defectos por placa (µ).
acero). Objetivo en términos estadísticos:
Parámetro de interés: la proporción de Conocer si µ < 1,2 defectos por placa.
barras que cumplen (π).
Objetivo en términos estadísticos:
Conocer el valor de π.
Planificar el método de medición, decidir
P: En este caso es un estudio que va a utilizar
cómo se van a analizar los valores que se
Planificación información previamente recolectada
registren, el programa computacional a
del estudio puesto que las placas ya están medidas.
utilizar, etc.
estadístico Se debe decidir cómo se van a analizar los
Y también decidir el tamaño de la
(Algunas valores registrados, el programa
muestra y la forma de extracción y definir
tareas) computacional a utilizar, etc.
cotas para los errores y riesgos tolerados.
D: Extracción de las n barras, registro de las Registro de las 80 cantidades de defectos,
Recolección n longitudes, control de errores en la control de errores en la toma y en la
de los datos toma y en la carga de los datos. carga de los datos.
Análisis descriptivo de las observaciones
que componen la muestra.
Cálculo de algún estadístico que dé
A: buena información acerca del parámetro Análisis descriptivo de la población
Análisis de en estudio (π). estadística obtenida. Cálculo del valor
los datos Análisis inferencial: A partir de la teoría del parámetro en estudio (µ)
de la probabilidad, utilizar técnicas de
inferencia para obtener posibles valores
del parámetro con un error controlado.
Obtención de las conclusiones
estadísticas sobre el parámetro π. Obtención de las conclusiones estadísticas
Obtención de conclusiones en contexto: sobre el parámetro µ: ¿Es menor a 1,2
C:
de acuerdo al posible valor del parámetro, o no?
Conclusiones
decidir si se pueden comercializar esas Obtención de conclusiones en contexto:
barras, si se justifica llevar a cabo ¿Se envía o no se envía el lote?
modificaciones en el proceso, etc.
27

1.6 Síntesis

Un problema de naturaleza estadística se caracteriza por la presencia de variabilidad e incertidumbre.


En su resolución deben seguirse distintas etapas (Planteo del Problema, Planificación del Estudio
Estadístico, Recolección de los Datos, Análisis de los Datos, Elaboración de las Conclusiones), cada
una de las cuales tiene su complejidad e importancia.

Para la resolución de problemas es importante tener la mente abierta, usar la imaginación, la lógica y
sobre todo la crítica en cada paso y con cada uno de los conceptos y procedimientos utilizados, sean
estadísticos o de la Teoría de la Probabilidad.

Se destacan algunos puntos:

El planteo del problema debe estar bien delimitado y el objetivo debe ser claro.
La planificación debe ser completa para facilitar la recolección de los datos y el análisis de los
mismos. Se deben considerar en esta etapa los riesgos de error en las conclusiones.
La recolección de los datos debe ser supervisada para garantizar su calidad y minimizar la
presencia de errores no deseados.
El análisis de los datos debe hacerse con herramientas adecuadas que garanticen la obtención de
la información pertinente.
Las conclusiones estadísticas deben asociarse al contexto para dar respuesta al objetivo planteado.
28 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

1.7 Actividades propuestas

1. En la tabla siguiente se presentan algunas variables y para cada una, el conjunto de valores
posibles.

Escala
Posibles Cuantitativa
Variable Cualitativa de medición
valores Discreta Continua Nominal Ordinal De intervalo De razón
Tiempo activo de
reparación de cierto
(0 ; ∞) X X
tipo de equipo en un
taller (en minutos)
Resistencia de piezas Alta, Media
metálicas (en unidades) o Baja (*)
Intención de voto en
Candidato A, B, . . .
una elección
Tipo de defecto
Rayadura, poro, . . .
observado en piezas
Temperatura del
proceso de producción [0 ; ∞)
(en grados C)
Cumple, no cumple
Peso de componentes
con ciertas
plásticos (en gramos)
especificaciones (*)
Número de unidades
vendidas diariamente 0, 1, 2,...
de cierto producto
Calidad de conexiones Baja, Intermedia,
eléctricas Buena, Muy Buena
Resistencia de una
trama probada con un (0 ; ∞)
nuevo tipo de fibra (en deniers)
Espesor del asfalto en
(0 ; ∞)
una ruta (en cm)
N° de piezas
defectuosas en una caja 0, 1, . . . , 20
de 20 unidades
(*) En primer lugar se mide la resistencia o el peso y luego las piezas se clasifican.

Para cada una de las variables de la tabla:


a) Indique de qué tipo es y en qué escala está medida (señale con una “x” según corresponda).
b) Defina:
1) Una población para la cual pueda ser de interés registrarla.
2) Un parámetro de interés.

2. Dé dos ejemplos de procesos, y en cada uno de ellos:


a) Identifique una característica de interés, asociada a una salida (producto, servicio u otra).
b) Enuncie los factores que puedan estar influenciando en la variabilidad de dicha característi-
ca. Construya un Diagrama de “espina de pescado”.
c) Plantee un problema que se pueda presentar y, en relación al mismo, defina un objetivo de
estudio. Luego:
1) Defina población, unidad elemental, variable y parámetros de interés.
2) ¿De qué tipo es la población? Mencione posibles criterios de inclusión/exclusión.
3) Clasifique a la variable de interés. Mencione la escala de medición.
4) Reescriba el objetivo en términos estadísticos.
29

3. Para los siguientes enunciados:


De los registros de la Sección Alumnado de la FCEIA se obtuvo que los alumnos de carreras
de Ingeniería que completaron el formulario SUR en 2021, aprobaron, en promedio, 4
materias en ese año.
Se analizaron las 250 piezas que componen un lote de exportación y se obtuvo que el 2 %
de las mismas no cumple las especificaciones del cliente.
Defina un objetivo para el cual el grupo mencionado corresponda a una muestra y uno para el
cual constituya la población en estudio.

4. Para cada una de las situaciones enunciadas:


a) Identifique la/s variable/s en estudio y clasifíquela/s.
b) 1) Plantee o identifique (según corresponda), algún objetivo para el cual resulte relevante
estudiar el comportamiento de dicha/s característica/s en una población.
2) ¿El objetivo planteado involucra parámetros? ¿Cuál/es?
c) 1) Identifique la unidad de observación y la población. ¿Es finita o infinita?
2) Identifique la/s población/es estadística/s en estudio.
d) Respecto al tipo de estudio:
1) ¿El estudio es observacional o experimental?
2) Si el estudio es observacional, ¿considera posible/conveniente llevar adelante un
estudio poblacional?
3) ¿En el estudio, interesa conocer el comportamiento de las variables a través del tiempo?

Situación 1: Para un control de calidad habitual en una empresa que fabrica barras de acero, se
seleccionan 50 barras al azar y se clasifica a cada una en “buena” (B) o “defectuosa” (D) según
que cumpla o no con una especificación dada.
Situación 2: Una fábrica produce piezas de acero, a las cuales luego les aplica un cierto recubri-
miento y pretende que la dureza de las piezas recubiertas supere el valor A en el 98 % de los
casos. Se llevó a cabo un estudio en el cual se evaluó la dureza de 15 piezas seleccionadas al
azar. Para obtener la dureza de cada una, se diseñó una prueba en la cual cada pieza fue golpeada
hasta su rotura.
Situación 3: En una empresa que fabrica pinturas conocen que el número promedio de poros
por metro cuadrado de superficie es 3,2. En la empresa están considerando la posibilidad de
adicionar un aditivo para reducir el número de poros por metro cuadrado. Para comprobar si
el aditivo es satisfactorio, se van a pintar 10 paneles de 1 metro cuadrado de superficie con la
pintura con el aditivo y luego de 2 horas (tiempo de secado) se registrará el número de poros en
cada panel.
Situación 4: Una empresa de logística ha recibido últimamente un informe por parte de sus
repartidores en el que estos especifican haber tenido quejas de los clientes respecto a las entregas.
Se decide hacer un estudio para establecer el motivo principal de las mismas, revisando las
quejas recibidas en el último mes y registrando esa información.
Situación 5: Históricamente, una industria metalúrgica vende alrededor de 12000 kg mensuales
de acero inoxidable a otras empresas minoristas. La gerencia cree que últimamente se han
perdido ventas por lo que revisa las facturas de los últimos 12 meses y registra la cantidad
vendida de este tipo de acero en cada uno de ellos.
30 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Situación 6: Para la construcción de un puente, una de las variables importantes es la altura del
río en determinado punto. Se buscan registros históricos diarios de la altura en dicho punto, para
decidir en base a ello, algunas características del puente.

5. Indique si en las siguientes expresiones relacionadas con las situaciones de la Actividad 4 se


involucran parámetros o estadísticos.
Situación 1: En el último control se observó que el 98 % de las piezas resultaron buenas.
Situación 3: En el estudio se observó que en los paneles estudiados, el número promedio de
poros por metro cuadrado con el aditivo resultó un 5 % menor que el valor correspondiente a
paneles pintados sin aditivo.
Situación 4: Se obtuvo que más del 60 % de las quejas analizadas han sido por daños en el
embalaje.
Situación 5: De los registros se obtuvo que la venta promedio mensual (para los meses registra-
dos) de acero fue de 11000 kg.

6. Seleccione una de las situaciones de la Actividad 4.


a) Comente cómo llevaría adelante la recolección de los datos. Especifique claramente si el
estudio será muestral o poblacional y posibles conclusiones según criterios establecidos.
b) Comente sobre la validez externa de las conclusiones.

7. En una empresa alimenticia interesa evaluar, en un momento dado, la calidad del proceso de
producción de la nueva línea de galletitas horneadas en un momento dado. Formule el problema
en términos estadísticos, defina posibles objetivos, variable/s y parámetro/s de interés.

8. Para los Problemas 4 y 5 (Sección 1.4) realice un esquema semejante al presentado en la Tabla
1.3. con las etapas del ciclo PPDAC.

9. Reflexione y responda:
a) ¿Qué características tienen los problemas de naturaleza estadística que los distinguen de
otro tipo de problemas?
b) ¿Qué información brinda el conocimiento del “modelo del comportamiento” de una variable
X?
c) ¿Qué importancia tiene definir con claridad el objetivo del estudio y la población asociada?
d) Dé algún ejemplo de alguna variable cuantitativa que finalmente se mida en un nivel ordinal
o nominal.
e) ¿Qué condiciones debe cumplir la población para poder hacer un estudio poblacional?
Comente.
f ) ¿Por qué cree que son tan frecuentes los estudios muestrales?
g) ¿Qué diferencia un estudio observacional de uno experimental?
h) ¿Puede un estudio experimental ser poblacional? Comente.
i) ¿Qué condiciones impondría a la extracción de una muestra si quisiera luego realizar una
inferencia estadística?
j) ¿Qué importancia tiene garantizar la calidad de los datos? ¿Cómo lo haría?
k) ¿Cómo reconoce si un grupo de datos corresponde a una población o a una muestra?
31

l) ¿Por qué se llama “conclusiones preliminares” a las obtenidas del análisis de una muestra?
m) ¿Por qué no se puede tomar una decisión solo con el cálculo de un estadístico?
n) ¿Qué importancia tiene la validez externa en la elaboración de las conclusiones?
32 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

1.8 Estadística con R

1.8.1 Introducción

R es un entorno y lenguaje de programación con un enfoque al análisis estadístico [2]. Sus comienzos
se remontan a los años 1993-1996 y fue creado por Ross Ihaka and Robert Gentleman (Auckland
University, Nueva Zelanda), basándose en el lenguaje S creado por John Chambers en 1976 para Bell
Labs (parte de AT&T, desarrolladores de C).

R se distribuye gratuitamente bajo los terminos de la GNU General Public Licence [3] y se encuentra
disponible en cualquier plataforma de sistema (Windows, OS X, Linux). El mantenimiento y desarrollo
de R es realizado por el R Development Core Team [2], un equipo de especialistas en ciencias
computacionales y estadística provenientes de diferentes instituciones y lugares alrededor del mundo.
La versión de R mantenida por este equipo es conocida como base y como su nombre indica, es
sobre aquella que se crean otras implementaciones de R, así como los paquetes que expanden su
funcionalidad. Esto se realiza en forma colaborativa, por la cual quien lo desee puede publicar paquetes,
es decir, conjuntos de funciones programadas con la misión de realizar una tarea específica. Algunas
características de R son:
Manejo y almacenamiento efectivo de los datos.
Un conjunto de operadores para la realización de cálculos con matrices.
Una gran colección de herramientas para el análisis de datos.
Utilidades gráficas para la visualización de datos.
Un lenguaje de programación bien desarrollado que incluye saltos
condicionales, bucles, funciones recursivas, utilidades para la entrada
y salida de datos, etc.
El lenguaje de programación R se integra bien con otros lenguajes de programación como C, C++
o Fortran para tareas de análisis de datos computacionalmente intensivas (alto consumo de recursos
como CPU y RAM). Además, puede integrarse con distintas bases de datos y existen bibliotecas que
facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.
Habitualmente, R se utiliza mediante RStudio [4], un entorno
de desarrollo integrado. RStudio es un programa para manejar
R y utilizarlo de manera más cómoda en algunos aspectos.
Se trata de una máscara para visualizar el software que tiene
como principales ventajas el orden y la visualización de los
procesos que son llevados a cabo con R, todo de manera
simultánea.

1.8.2 Instalación

Para instalar R hay que dirigirse a la colección de paquetes en CRAN (del inglés, Comprehensive
R Archive Network) [5]. CRAN es un repositorio global donde se puede acceder al software y a los
paquetes que la comunidad produce. La instalación comienza entrando en [Link]
org/ donde se debe seleccionar el link correcto de descarga, dependiendo del sistema operativo.
33

A continuación, se podrá instalar RStudio. Para ello, se debe ingresar a [Link]


products/rstudio/ y seguir los pasos para instalar Rstudio Desktop, de acuerdo al sistema operativo
de la computadora donde se utilizará.

Tanto para R como para RStudio, se descargarán archivos instaladores que se deberán ejecutar,
siguiendo los pasos, para su instalación completa.

1.8.3 Entorno

Cuando se ingresa a RStudio por primera vez, se observa una pantalla dividida en tres paneles, como
se muestra en la Figura 1.8.:

Figura 1.8. Pantalla de RStudio con tres paneles iniciales.

Consola: Es la ventana que se comunica con el motor de R. A través de ella se envían las
instrucciones o sentencias a R y se visualizan los resultados. Es el cerebro de R y se encuentra a
la izquierda.
Environment (ambiente): Muestra todos los objetos que R tiene en la memoria, como conjuntos
de datos, modelos, resultados, etc. Se muestra en una pestaña del panel que está arriba, a la
derecha.
History (historial): Lista todas las instrucciones que R ha corrido. Se muestra en otra pestaña
del panel que está arriba, a la derecha.
Connections (conexiones): Muestra todas las conexiones activas a bases de datos remotas,
establecidas por ejemplo mediante servidores SQL (esta pestaña puede no aparecer, dependiendo
de la versión del programa que esté instalada).
Panel inferior derecho: Panel con las pestañas Files, Plots, Packages, Help y Viewer. Aquí se
pueden observar los archivos de trabajo, los gráficos generados, el listado de paquetes disponibles,
ayuda sobre distintas funciones, entre otras funcionalidades.
34 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

Si bien en la Consola se pueden escribir y ejecutar instrucciones o sentencias, una alternativa es escribir
todas las instrucciones en un lugar separado y luego correrlas en la consola cuando se pretende que R
las ejecute.

Al guardar dichas instrucciones en un archivo, se crea un script (un archivo de código o sentencias), que
almacena todas las instrucciones utilizadas para realizar el análisis de datos en un archivo permanente,
reproducible, comentado, compartible y multi-plataforma. RStudio provee para este fin un editor de
texto incorporado. Para iniciar un nuevo script, se debe utilizar el botón indicado con un ícono + en la
parte izquierda superior. En la Figura 1.9. se muestra la pantalla con el panel de script incluido:

Figura 1.9. Pantalla de RStudio con panel para script.

Es importante recordar guardar el script generado si se quiere usar posteriormente. Para ello, se guarda
como cualquier archivo, en una carpeta a elección (File -> Save, o directamente Ctrl+S) con un
nombre que resulte informativo. Los archivos así creados reciben la extensión .R.

Para correr el script, se seleccionan todas las líneas que se pretende que R analice y ejecute. Luego,
se hace click en el botón Run, o directamente Ctrl+Enter. Sin tener líneas del Script seleccionadas,
se puede correr solamente la línea en la que actualmente está posando el cursor, haciendo también
Ctrl+Enter.

1.8.4 Trabajando con paquetes

1. Instalación de paquetes

Al instalar R se incluyen múltiples funciones básicas que pueden servir para la importación de datos,
la realización de transformaciones, el ajuste y evaluación de modelos estadísticos, las representaciones
gráficas, etc. Sin embargo, la enorme potencia de R deriva de su capacidad de incorporar en cualquier
momento nuevas funciones capaces de realizar nuevas tareas específicas.
35

Un paquete (package) es una colección de funciones, datos y código R que se almacenan en una carpeta
conforme a una estructura bien definida, fácilmente accesible para R.

Al instalar R se incorporan por defecto numerosos paquetes. Se puede ver una lista de los paquetes que
actualmente están instalados en un ordenador ejecutando library() o bien ingresando en la pestaña
Packages en el panel inferior derecho.

2. Uso de paquetes

Es importante distinguir entre tener un paquete instalado en el ordenador y tenerlo cargado en memoria.
Tenerlo instalado en el ordenador significa simplemente que en algún momento se ha bajado de internet
y se ha copiado en algún directorio en que R lo puede localizar. Tenerlo cargado en memoria significa
que, durante la actual sesión de trabajo, R ha leído el contenido del paquete y ha incorporado las
funciones que contiene a su espacio de trabajo, de tal forma que tales funciones pueden ya ser invocadas
y ejecutadas.

Si se observa el listado de paquetes en la pestaña Packages se ve que en el listado de paquetes que


presenta Rstudio, hay algunos que están tildados y otros que no. Solo los paquetes tildados están
actualmente cargados en memoria. El resto está simplemente guardado en algún directorio, sin que sus
funciones estén aún disponibles para ser ejecutadas desde R. Se puede ver un listado completo de los
paquetes actualmente cargados en memoria mediante la ejecución de search().

Para poder utilizar un paquete específico en R, el mismo debe estar instalado, ya sea porque se incluye
junto con la instalación del software o porque se realiza manualmente. Hay dos formas principales de
hacer esto:

Usar el comando [Link]() e introducir el nombre del paquete a instalar entre


comillas, por ejemplo [Link]("ggplot2").
Dentro de la pestaña Packages, hacer click en el botón Install. Se abre una ventana asisten-
te, que permite indicar el nombre del paquete que se desea instalar, habitualmente desde el
repositorio CRAN. Finalmente, se pulsa Install y comienza la descarga.

En ambos casos, R se conecta a alguno de los repositorios de CRAN en internet, descarga el archivo
que contiene el paquete, lo descomprime y lo instala en el directorio de paquetes por defecto.

Para activar o utilizar un paquete, se debe ejecutar el comando library() e introducir el nombre del
paquete a utilizar entre comillas, por ejemplo library("ggplot2"). También se puede ir a la pestaña
Packages de RStudio, buscar el paquete a emplear y hacer click en el cuadro que se encuentra a la
izquierda del nombre. Es recomendable utilizar la primera opción y dejar las sentencias library()
escritas en el script si se va a realizar el mismo análisis posteriormente.

Todos los paquetes incluyen obligatoriamente manuales de ayuda con las instrucciones para utilizar sus
funciones (se ven en la pestaña Help). Algunos, además, vienen con viñetas, que son tutoriales donde
los autores muestran las funcionalidades de sus paquetes de forma amigable y detallada, con ejemplos.
Es posible explorar las viñetas de un paquete con la función browseVignettes() e introducir el
nombre del paquete de interés entre comillas, por ejemplo, browseVignettes("ggplot2").
36 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

1.8.5 Importación de datos

En principio, es importante destacar que, para el trabajo con R, es importante seguir los principios de
datos ordenados [6], un conjunto de reglas claras para organizar datos de manera consistente, de modo
que permitan su fácil lectura y análisis.

El principio fundamental de los datos ordenados es tener una única unidad por fila y una única variable
por columna (conocido también como formato largo), de modo que cada celda (cruce entre fila y
columna) contenga un solo valor, tal como se ejemplifica en la Figura 1.10.

Figura 1.10. Ejemplo de conjunto de datos ordenados.

Si bien existen formas de generar conjuntos de datos utilizando RStudio, generalmente los mismos
se encuentran en formatos de archivos asociados a otros software, como puede ser Microsoft Excel u
otros softwares estadísticos como SPSS, SAS o Stata, entre otros. R permite la importación de diversos
formatos de archivos.

1. Importar datos desde Excel

El paquete readxl [7] forma parte del paquete tidyverse [8], creado por Hadley Wickham (cien-
tífico jefe en RStudio) y su equipo. Permite leer con R archivos que se encuentran en formato
.xls o .xlsx. Como primer paso, es necesario instalarlo. Para ello, basta con ejecutar la sentencia
[Link]("readxl").

Una vez que el paquete se encuentra instalado, solo será necesario ejecutar library("readxl") para
hacerlo disponible para importar datos.

Por otra parte, es necesario conocer la ruta del archivo de Excel. La ruta, o path en inglés, es la dirección
o ubicación donde está el archivo en la computadora. Si se ejecuta la sentencia [Link]() se abre
una ventana que permite buscar el archivo de interés. Al pulsar Open, se obtiene la ruta correspondiente
en la consola de trabajo. Luego:

Si el archivo de Excel contiene una sola hoja, se ejecuta datos <- read_excel() con la ruta
del archivo entre comillas, por ejemplo:
37

datos <- read_excel("C:/Usuario/Juan/Tarea/[Link]")


La primera palabra indica el nombre que tendrá el conjunto de datos importados dentro de R. La
flecha invertida indica que, bajo ese nombre, se guardará el archivo que se indica a continuación.
Si el archivo de Excel contiene varias hojas, es necesario indicar cuál de ellas utilizar, agregando
la opción sheet= con el nombre de la hoja entre comillas, por ejemplo:
datos <- read_excel("C:/Usuario/Juan/Tarea/[Link]", sheet="Hoja1")
En los casos anteriores, se supone que los datos se encuentran en la primera celda (A1) del
archivo. En caso de no ser así, es posible indicar el rango de celdas a importar. Si los datos se
encuentran, por ejemplo, en las columnas C, D y E y en las filas 7 a 13 de la Hoja 2 del archivo,
entonces:
datos <- read_excel("C:/Usuario/Juan/Tarea/[Link]",
sheet="Hoja2", range="C7:E13")

Una vez importado, el conjunto de datos (dataset) figura en la pestaña Environment junto con todas
las otras cosas que están en la memoria de R en ese momento. Si se hace click sobre el dataset en ese
panel, se abrirá una ventana mostrándolo. Lo mismo se consigue con la función View("datos").

Un siguiente paso razonable es asegurarse que los datos que R acaba de leer realmente son los deseados.
Algunas cosas que se pueden chequear:

Cantidad de filas.
Cantidad y nombres correctos para las variables.
El tipo de variables es correcto (por ejemplo, R reconoció variables numéricas como tales y no
como caracteres).
Variables cualitativas tienen el número correcto de categorías o niveles.

Los datos cargados se pueden explorar con algunas funciones básicas de R:

names("datos") da los nombres asignados a cada columna (variable).


head("datos") devuelve las primeras seis líneas del dataset.
tail("datos") devuelve las últimas seis líneas del dataset.
dim("datos") devuelve el número de filas y columnas.
str("datos") describe toda la estructura del dataset, combinando toda la información anterior.
summary("datos") es una función que se puede aplicar sobre distintos tipos de objetos. Cuando
se la usa sobre un dataset, muestra un pequeño resumen de cada variable.

Cabe destacar que las funciones anteriormente mencionadas utilizan como ejemplo un dataset denomi-
nado datos, pero dicho nombre, que aparece entre comillas, debe adaptarse al del conjunto de datos
que se quiere explorar.

2. Importar datos en texto plano

Un archivo de texto plano, es un archivo informático que contiene únicamente texto formado solo por
caracteres que son legibles por humanos, careciendo de cualquier tipo de formato tipográfico (negritas,
subrayado, tipo de letra). Esta simplicidad permite que una gran variedad de programas pueda leer y
editar ese contenido. Las distintas columnas (variables) deben indicarse con algún tipo de separador,
por ejemplo, una coma o un espacio. Lo más frecuente es encontrar archivos en formato delimitado
38 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería

por tabulaciones (.txt) o por coma (.csv, comma separated values).

Para leer archivos de este tipo, es recomendable instalar y utilizar el paquete readr [9]. Una vez
cargado, provee distintas opciones:

read_csv(): Para leer archivos con coma como separador.


read_csv2(): Para leer archivos con punto y coma como separador.
read_tsv(): Para leer archivos con tabulador como separador.
read_delim(,sep = "-"): Para leer archivos con separador distintos como puede ser un guión
medio.

Luego de la opción adecuada, se indica entre paréntesis y con comillas la ruta del archivo a leer. Por
ejemplo, si el archivo se encuentra en formato .csv separado por coma, se ejecuta:

datos <- read_csv("C:/Usuario/Juan/Tarea/[Link]")

También podría gustarte