Capítulo 1
Capítulo 1
Licensed under the Creative Commons Attribution-NonCommercial 3.0 Unported License (the “Licen-
se”). You may not use this file except in compliance with the License. You may obtain a copy of the
License at [Link] Unless required by applicable
law or agreed to in writing, software distributed under the License is distributed on an “AS IS ” BASIS ,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND , either express or implied. See the License
for the specific language governing permissions and limitations under the License.
4 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.1 Introducción 161
4.2 Algunas definiciones preliminares 162
4.3 La probabilidad de un suceso 166
4.3.1 ¿Cómo se pueden asignar probabilidades? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.3.2 Probabilidad. Definición axiomática. Algunas consecuencias . . . . . . . . . . . . . . . . . 169
4.4 Probabilidad condicional. Independencia entre sucesos 171
4.5 Teoremas de la Probabilidad Total y de Bayes 175
4.6 Síntesis 176
4.7 Actividades propuestas 177
4.8 Apéndice 182
4.8.1 Probabilidad. Definición axiomática. Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . 182
4.8.2 Construcción de un diagrama de árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4.8.3 Teorema de la Probabilidad Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
1.1 Introducción
En cualquiera de los procesos en los que intervienen profesionales en Ingeniería se presentan fuentes
de variabilidad que afectan el comportamiento de características de interés, ya sean del proceso en sí o
de alguna de sus salidas. Esta variabilidad provoca incertidumbre, por lo que no se pueden predecir
con exactitud los valores de estas características en una unidad en particular.
La mayoría de las veces el trabajo de Ingeniería está envuelto en una nube de variabilidad e
incertidumbre, en medio de la cual, se deben tomar decisiones con riesgos mínimos. Para la resolución
de los problemas que surjan en este marco, que en adelante se denominan problemas de naturaleza
estadística, la Estadística aporta no solo conceptos y procedimientos para su resolución sino también
y más importante, una forma de pensar, denominada pensamiento estadístico. Este pensamiento
implica la comprensión de por qué y cómo se llevan a cabo las investigaciones estadísticas y de
las principales ideas que subyacen en ellas, entre las que pueden mencionarse la omnipresencia
de la variabilidad, la necesidad de los datos, el uso de los métodos estadísticos apropiados para la
obtención y el análisis de los mismos, la naturaleza del muestreo, el diseño de experimentos, la
comprensión y el uso de modelos para la toma de decisiones.
2 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
En la resolución de este tipo de problemas se debe seguir un ciclo o serie de etapas más o menos
complejas según el caso, para arribar a conclusiones satisfactorias y mejorar finalmente los procesos.
Muchos autores han desarrollado este ciclo de resolución y lo han denominado de diferentes maneras.
En este texto se considera el Ciclo PPDAC (Planteo del Problema, Planificación del Estudio Estadístico,
Recolección de Datos, Análisis de los Datos, Elaboración de Conclusiones) propuesto por Wild y
Pfannkuch en 1999 [1].
En este primer capítulo se presenta el Ciclo PPDAC y cada una de sus etapas, con especial énfasis en
la primera y la segunda. Además se proponen problemas del campo ingenieril que se irán resolviendo
a lo largo de todo el libro.
Presentar las etapas del proceso de resolución de problemas de naturaleza estadística y aplicarlas
a los problemas propuestos.
Presentar los conceptos y procedimientos estadísticos básicos de cada etapa, los cuales se irán
profundizando en capítulos posteriores.
Presentar con detalle los conceptos y procedimientos estadísticos asociados a la etapa de Planteo
del Problema y de Planificación del Estudio Estadístico.
El término “proceso” presenta muchos significados, según el contexto o área de aplicación que
corresponda. En general, se lo puede definir como un conjunto de fases sucesivas de un fenómeno
natural o de una operación artificial o también, como una secuencia de pasos (etapas), ordenados con
cierta lógica, para obtener un resultado.
De estas definiciones se desprende que en todo proceso hay un estado inicial (Entrada) y uno final
(Salida) y que entre ambos se produce alguna transformación o cambio (Figura 1.1.)
Considere, a modo de ejemplo, un proceso de producción industrial que puede definirse como un
conjunto de actividades orientadas a la transformación de recursos o factores productivos en bienes.
Esto incluye a una gran variedad de procesos, como por ejemplo la producción de harinas o quesos,
automóviles, sustancias químicas o acero (Figura 1.2.) hasta la generación de energía o la prestación
de servicios de internet, entre otros. En todos ellos se desarrolla un conjunto definido de etapas que
culminan con la obtención del producto de interés. Si existe control sobre el proceso, se intenta que
cada vez que este se ejecute, siempre se trabaje de la misma manera; se busca, además, que los
productos o servicios satisfagan requerimientos o especificaciones impuestos por algún cliente. Sin
embargo, la evidencia indica que estos varían entre sí, en relación a diferentes características (peso,
diámetro, viscosidad, dureza, sabor, resistencia a la corrosión, tiempo de reparto, etc.) e incluso, suelen
presentarse algunos que no cumplen con lo pretendido (producción defectuosa o no conforme).
3
¿Por qué se presenta variabilidad en los procesos industriales? En todos ellos actúan numerosos factores
que se comportan de manera variable: los operarios no siempre trabajan de la misma manera, la calidad
de la materia prima varía, las máquinas no siempre operan a la misma velocidad, las condiciones
medioambientales cambian, etc. Además, estos factores pueden variar en un momento dado y también
a través del tiempo. Si se piensa en un proceso industrial, los diferentes factores que lo afectan se
pueden agrupar en seis categorías que se presentan en la Figura 1.3.
Figura 1.3. Factores de variabilidad (agrupados en categorías) para cualquier proceso de producción industrial
4 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Las personas especializadas en Ingeniería trabajan en distintos procesos de áreas diversas (industria,
construcción, logística, comunicaciones, producción de energía, gestión de recursos, etc.). En estos se
presentan habitualmente situaciones, como por ejemplo:
En estas situaciones pueden surgir problemas o preguntas a responder. Por ejemplo: “¿cuáles son los
motivos de devolución más frecuentes en el último mes?”, “¿los motivos de las devoluciones de los
clientes difieren según la zona?”, “¿cuál es la proporción de piezas que cumplen con las especificaciones
definidas por el nuevo cliente en relación a la longitud?”, “¿es frecuente que el caudal del río supere
cierto valor en cualquier época del año?”, “¿la ruta fue construida con el espesor adecuado?”, etc.
El primer paso para resolver el problema consiste en plantearlo en forma precisa, lo que implica definir
entre otras cosas, la/las característica/s de interés (el motivo de las devoluciones, las dimensiones de
las piezas que son de interés para el nuevo cliente, el caudal del río, los resultados de las mediciones,
el espesor de la ruta, etc.) y el conjunto de unidades para el cual se quieren obtener conclusiones.
Observe que el problema o pregunta a responder puede estar asociado a un momento dado del proceso
5
o al comportamiento del mismo a través del tiempo. En el primer caso, el tiempo no constituye un
factor de interés, como por ejemplo en el estudio de los motivos de las devoluciones de los clientes
habituales en el último mes.
En el segundo caso, en cambio, el tiempo constituye un factor principal e interesa estudiar cómo se
comporta el proceso a través de él. Puede ocurrir que ese comportamiento sea estable o no:
El proceso se comporta de manera estable a través del tiempo si actúan siempre las mismas
causas y lo hacen de la misma manera: la variabilidad en la o las características en estudio
se denomina variabilidad natural. En ese caso, las frecuencias con las que se presentan los
distintos valores tienden a repetirse y el “modelo” o “distribución” pone de manifiesto el patrón
de variabilidad de dicha característica.
El proceso no se comporta de manera estable si algunos factores actúan ocasional y fortuitamente
en el proceso: la variabilidad se denomina variabilidad asignable. En este caso, el modelo se va
modificando, por lo que esta variabilidad debe ser identificada y preferentemente eliminada.
Por ejemplo, en el caso del posible nuevo cliente, se requiere conocer el conjunto de valores que asume
la característica de interés, para saber si se puede cumplir, actualmente y en el futuro, con lo que éste
pretende. Para esto, el proceso de producción debe comportarse de manera estable a través del tiempo.
En el caso del diseño del puente, entre otras cosas se requieren datos históricos del caudal del río para
definir un modelo del comportamiento que permita, por ejemplo, hacer predicciones del mismo para
distintos períodos del año. No se puede estabilizar ese proceso natural pero es importante conocer la
variabilidad del caudal a través del tiempo y evaluarla para tomar decisiones.
Ahora bien, ¿qué datos tomar para obtener la información necesaria?, ¿cuántos?, ¿cómo tomarlos y
registrarlos adecuadamente?, ¿qué análisis realizar para arribar a conclusiones satisfactorias?
La Estadística cumple un rol fundamental en la resolución de este tipo de problemas desde el
planteo mismo de la pregunta inicial y proporciona métodos para obtener, organizar y analizar datos
que se convierten luego en información de utilidad, así como herramientas para la toma de decisiones
en presencia de variabilidad e incertidumbre.
A continuación se enuncian problemas con los que se trabajará a lo largo del libro.
Problema 2: En una empresa distribuidora de placas de madera de gran tamaño de uso para la
industria de la construcción, se preparan lotes de 80 unidades para sus clientes. La empresa tiene un sistema
láser que detecta defectos de cada placa y lleva un registro del número de defectos de todas las placas de
cada lote.
Uno de los clientes es estricto en relación al número total de defectos (poros, rayaduras, etc.) presentes en la
superficie de las placas y exige que el número promedio1 de defectos por placa en cada lote sea menor a 1,2
unidades. Al momento de recibir el pedido por parte de este cliente, en la distribuidora cuentan con un lote
ya preparado y desean saber si pueden enviárselo o no.
Problema 3: Se diseñó un servidor neumático para bases de siembra mecánica. Este servidor es
un sistema concebido para su incorporación a las sembradoras con dosificadores mecánicos de semillas, que
funcionan con placas perforadas para la selección y posterior traslado de los granos al tubo encauzador.
A la base de dosificación y transporte mecánico de la sembradora, se le reemplazan los componentes
originales de selección de semillas por un servidor neumático de aspiración. Así las semillas se depositan en
las ranuras y luego se siembran a distancias más o menos fijas.
Para probar si este dispositivo hace más efectiva la siembra de granos de maíz, se diseñó un experimento que
consistió en sembrar maíz en un campo y evaluar la distancia entre los granos. También se observó si en un
mismo punto se encuentran dos o más semillas (es decir, si la distancia entre dos semillas es nula). En ese
caso, solo una semilla germina y las demás se desperdician, por lo que es deseable que esto ocurra muy
pocas veces.
Se conoce que, sin ese servidor neumático, la distancia promedio entre granos de maíz es de 49 cm, la
desviación estándar 1 es 2 cm y la proporción de veces que coinciden dos o más semillas en un mismo punto
es 0,10.
Problema 7: Se pretende realizar un estudio específico con el objeto de dividir un campo. Entre
las varias tareas a realizar, un topógrafo debe determinar la distancia en metros entre dos puntos. Para ello
va a utilizar un distanciómetro.
Antes de utilizar el equipo mencionado y con el fin de evaluar la calidad de las mediciones que este realiza,
el topógrafo observa los resultados de un estudio llevado a cabo previamente. El informe de dicho estudio
revela que el distanciómetro se puede considerar exacto y preciso 2 .
La resolución de problemas en los que están involucradas la variabilidad y la incertidumbre que ésta
genera, constituye en sí misma un proceso que se inicia con una adecuada formulación o planteo del
problema a resolver y culmina con la obtención de conclusiones que deben relacionarse al contexto.
Las etapas del proceso pueden resumirse, por ejemplo, en el Ciclo Investigativo PPDAC, propuesto
por Wild y Pfannkuch (1999), aunque muchos autores lo mencionan sin darle ese nombre específico.
Las etapas se esquematizan en la Figura 1.4.
El planteo adecuado de la pregunta que debe ser respondida es fundamental para el desarrollo de las
restantes etapas y para resolver el problema, ya que no tiene valor una buena respuesta si la pregunta
fue mal formulada. Se requiere entonces definir la población objeto de estudio y las unidades que la
componen; así como las variables que se medirán y los parámetros de interés.
9
La población es el conjunto de todos los elementos, es decir, el universo respecto del cual se quiere
obtener conclusiones o tomar decisiones. A cada uno de los elementos que componen la población
se lo denomina unidad elemental.
Según la cantidad de elementos o unidades que la componen, una población puede clasificarse en
finita o infinita. En el caso de poblaciones finitas, el total de unidades elementales, o tamaño de la
población, se simboliza con N.
En ocasión de definir la población, es muy importante determinar claramente los criterios de inclusión,
es decir, el conjunto de condiciones que deben cumplir las unidades para formar parte de ella. Entre
estos criterios deben estar cuestiones relativas al espacio y al tiempo.
Problema 1 (pág. 6): La totalidad de las barras de acero producidas por la empresa constituye
la población y cada una de las barras, una unidad elemental.
El tamaño de esta población se considera infinito ya que incluye todas las barras producidas y que seguirán
produciéndose mientras el proceso mantenga las mismas condiciones.
¿Cómo se considera al espacio en la definición de las unidades que componen a una población? Estas
unidades deben estar asociadas a un espacio determinado, a un sector de la empresa en la cual se
producen, a una localidad, etc.
Problema 1 (pág. 6): Suponga que la empresa produce las barras en tres plantas de carac-
terísticas similares, ubicadas en diferentes localidades de la provincia de Santa Fe. En ese caso, para
definir adecuadamente a la población hay que revisar el objetivo. Pueden darse, por ejemplo, las siguientes
situaciones:
Si interesa conocer el comportamiento de las barras producidas en las tres plantas, la población está
integrada por la totalidad de barras producidas por la empresa.
Si interesa conocer el comportamiento de las barras producidas solo en la planta ubicada en Venado
Tuerto, la población está integrada únicamente por las barras producidas por la empresa en dicha
planta.
Una situación análoga a la mencionada en relación a diferentes plantas, podría plantearse si hubiera barras
producidas por diferentes turnos, por diferentes máquinas, etc.
¿Cómo se considera al tiempo en la definición de las unidades que componen a una población? Estas
unidades deben estar asociadas a un determinado período (en el que fueron producidas, comercializadas,
etc.)
10 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Problema 1 (pág. 6): Si la población está compuesta por la totalidad de las barras, se entiende
que se trata de las barras que se vienen produciendo (y de las que se seguirán produciendo si el proceso
continúa con un comportamiento estable).
Pero, considere la siguiente situación:
A partir del 1 de marzo del corriente año se introdujeron modificaciones importantes en el proceso de
producción en las tres plantas e interesa conocer el comportamiento de las barras producidas luego de la
implementación de dichas modificaciones. Entonces, la población está formada por la totalidad de barras
producidas en las tres plantas a partir del primer día de marzo del corriente año.
Un criterio de inclusión de alguna manera define criterios de exclusión, es decir, condiciones tales que,
si las unidades las cumplen, impiden que estas formen parte de la población de interés.
Problema 1 (pág. 6): Si solo interesan las barras producidas en la planta de Venado Tuerto, se
tiene que el criterio de inclusión es haber sido fabricada en dicha planta y el criterio de exclusión, haber
sido fabricada en cualquiera de las otras dos. En este caso, solo se explicita el criterio de inclusión y los
de exclusión se definen implícitamente; pero podría ocurrir lo contrario. Suponga que hubo problemas en
la planta ubicada en Gálvez y por el momento no interesa estudiar barras producidas en dicha planta. La
población está compuesta entonces por las barras producidas en la empresa, excepto en la planta de Gálvez.
Una variable es cualquier característica que puede tomar diferentes valores (números o categorías)
en las unidades elementales.
Las variables se clasifican, según los valores que pueden asumir, en cuantitativas o cualitativas.
Las variables pueden medirse utilizando diferentes escalas o niveles de medición, que se describen a
continuación:
Nominal: los valores que puede asumir la variable son diferentes entre sí pero no hay razón para
ordenarlos, es decir, para pensar que uno es de menor o mayor jerarquía que otro.
Ordinal: los valores que puede asumir la variable son diferentes entre sí y además, se pueden
ordenar según alguna jerarquía; pero no se pueden evaluar las diferencias entre uno y otro.
De intervalo: los valores que puede asumir la variable son diferentes entre sí, se pueden ordenar
según alguna jerarquía y además se pueden hacer diferencias entre ellos; pero no cocientes ya
que el valor “0” no indica ausencia de dicha característica.
De razón: los valores que puede asumir la variable son diferentes entre sí, se pueden ordenar y
además se pueden hacer diferencias y cocientes entre ellos, ya que el valor “0” sí indica ausencia
de la característica.
En la Tabla 1.1. se resumen las operaciones que pueden realizarse con los datos obtenidos, según la
escala de medición de la variable.
Tabla 1.1. Operaciones que pueden llevarse a cabo según el nivel de medición de la variable
Nivel de Obtener Obtener
Diferenciar Ordenar
medición diferencias cocientes
Nominal X
Ordinal X X
De intervalo X X X
De razón X X X X
Problema 1 (pág. 6): Para la variable “longitud” (en mm), por ejemplo, podrían darse las
siguientes situaciones, luego de medirla:
Se registra el valor de la longitud de barras de acero, en mm. Entonces la variable es cuantitativa y se
mide en escala de razón (ya que el valor 0 no es un valor arbitrario).
Se registra si la barra es pequeña (mide menos de 240 mm), mediana (mide entre 240 y 260 mm) o
grande (mide más de 260 mm). En ese caso la variable se considera cualitativa o categórica y el nivel
de medición es ordinal.
Se registra si la barra, según su longitud, cumple o no cumple con las especificaciones definidas por
cierto cliente y en ese caso la variable se considera cualitativa y el nivel de medición es nominal.
Para las variables categóricas o cualitativas solo pueden considerarse los dos primeros niveles de
medición; mientras que para las variables cuantitativas pueden considerarse todos los niveles de
medición, aunque los dos últimos son más informativos, en el sentido que pueden realizarse más
operaciones con los datos recolectados. Las variables originalmente cuantitativas, medidas en escala
nominal u ordinal, en la práctica se consideran cualitativas.
12 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
! Cuando se trata de variables cualitativas o categóricas, los valores que asume la variable son en
realidad modalidades, categorías o niveles diferentes y no se expresan numéricamente. Puede
ocurrir que a estas categorías se les asignan números (códigos) para facilitar la carga de los datos
en alguna planilla; pero esto no convierte a la variable en cuantitativa.
Problema 4 (pág. 7): En este problema se registra el motivo principal de devolución para
un conjunto de devoluciones de pedidos realizados por Internet. Las categorías para esa variable son: (1)
Errores en la facturación, (2) Pedido equivocado, (3) Precio final no coincidente con el que figura en la
página, (4) Producto dañado, (5) Producto mal embalado, (6) Producto vencido o en mal estado y (7) Retraso
en la entrega por problemas del transporte. En la planilla de datos se registra, para cada devolución, un
número entre 1 y 7, según el motivo principal de la misma; pero este hecho no convierte a la variable en
cuantitativa; sigue siendo cualitativa, medida en escala nominal.
! La mayoría de las variables cuantitativas que se analizan en este texto están medidas en escala de
razón. Interesa diferenciar si son discretas o continuas.
Problema 1 (pág. 6): En este problema, la característica de interés es la longitud de las barras
de acero, variable cuantitativa continua, medida en escala de razón, por cuanto el valor “0” no es arbitrario.
Para la misma población de barras, podrían haberse observado otras variables. En la Tabla 1.2. se mencionan
y clasifican algunas variables posibles.
(*) No se deben confundir la cantidad de unidades elementales o tamaño de la población con la cantidad de niveles o
valores que puede asumir la variable. Por ejemplo, la primera variable solo asume dos valores diferentes; mientras que
la población en estudio está compuesta por infinitas barras, que representan las unidades elementales.
Las variables se simbolizan con letras mayúsculas (generalmente, las últimas del abecedario); mientras
que los valores posibles se simbolizan con letras minúsculas. Por ejemplo, para la población de
barras del Problema 1, la variable de interés es Y : longitud de cada barra (en mm). Una de las barras
analizadas en el estudio presentó una longitud de 253 mm, es decir y = 253 mm.
13
Haciendo una síntesis de lo visto hasta ahora, se puede decir que si la pregunta es “¿quiénes son los
objetos bajo estudio?, surge en primer lugar el concepto de unidad elemental y luego el de población,
como la totalidad de las unidades elementales, asociadas a un objetivo. Y si la pregunta es ¿qué
características interesa estudiar en dichas unidades?, surge el concepto de variable.
La población estadística es el conjunto de todos los valores (números o categorías) que asume la
variable de interés cuando se mide en cada unidad de la población.
Problema 1 (pág. 6): Para la población de barras de este problema, si la variable de interés
es su longitud (Y), la población estadística es el conjunto de las longitudes de dichas barras. Pero si la
variable de interés es el cumplimiento de las especificaciones (Z), la población estadística es el conjunto de
las condiciones (en relación al cumplimiento de las especificaciones) de dichas barras. Es decir que al definir
distintas variables para una misma población (en este caso, el conjunto de todas las barras producidas por
ese proceso), surgen diferentes poblaciones estadísticas, las cuales pueden ser univariadas o multivariadas,
según la cantidad de variables que interese estudiar simultáneamente. En la Figura 1.5. se presentan una
población estadística univariada y otra bivariada, asociadas a las barras, a modo de ejemplo.
Generalmente, los parámetros se simbolizan con letras griegas. Por ejemplo, la proporción poblacional
se simboliza con la letra π, el promedio poblacional se simboliza con la letra µ y la desviación estándar
poblacional se simboliza con σ .
Problema 1 (pág. 6): Todas las barras de acero producidas por la empresa constituyen la
población y una medida que resume información de dicha población es la proporción de barras con
longitudes entre 249,4 y 250,6 mm (π). También puede interesar la longitud promedio (µ) y la desviación
estándar de la longitud (σ ).
El primer paso para la resolución de un problema estadístico es plantearlo correctamente. Esto implica
formular adecuadamente el objetivo del estudio y definir, de acuerdo a dicho objetivo:
la población;
la unidad de elemental;
la/s variable/s;
la población estadística y
los parámetros de interés.
Observe que, en esta primera etapa, tanto el problema como los objetivos se refieren a una población
determinada que debe ser definida claramente, con los criterios de inclusión y/o exclusión que co-
rrespondan. Definidas la población y las variables de interés, así como los parámetros, el planteo del
problema puede reescribirse en función de estos elementos. Es decir, que se realiza una traducción o
modelado de la situación problemática y de los objetivos en términos estadísticos.
El conocimiento del modelo o de algún parámetro puede servir para la toma de decisiones sobre el
proceso, si esto es lo que se busca.
Problema 1 (pág. 6): El objetivo es conocer si la producción de barras de acero cumple con las
especificaciones fijadas por la empresa automotriz en relación a su longitud. Se define:
Población: la totalidad de las barras de acero producidas por la empresa (población infinita).
15
Problema 2 (pág. 6): El objetivo es saber si se puede enviar al cliente el lote de 80 placas de
madera que está disponible en la distribuidora. Se define:
Población: todas las placas de madera que contiene el lote (población finita, N = 80).
Unidad elemental: cada placa.
Variable: Nro. de defectos (poros, rayaduras, etc.) en la superficie (variable cuantitativa discreta,
medida en escala de razón).
Población estadística: las cantidades de defectos de cada una de las placas del lote.
Parámetro de interés: el número promedio de defectos por placa (µ).
Dadas estas definiciones, las preguntas a responder son:
1. ¿Es posible enviar el lote disponible al cliente?
2. ¿El número promedio de defectos por placa (µ) es menor a 1,2?
El objetivo, en términos estadisticos, es conocer ese valor promedio y decidir si enviar el lote o no.
que es de 49 cm; pero se reducen la desviación estándar de las distancias y la proporción de pares de semillas
con distancia nula (comparadas con la información que se tiene de estas medidas cuando el dispositivo no se
usa). Dadas estas definiciones, las preguntas a responder son:
1. Con el dispositivo neumático, ¿se mejora el proceso de siembra?
2. La proporción de veces que la distancia entre semillas consecutivas es nula, ¿es menor a 0,10?
3. ¿La distancia promedio sigue siendo 49 cm? ¿La desviación estándar es menor que 2 cm?
El objetivo, en términos estadísticos, es conocer los valores de la proporción, del promedio y del desvío
estándar y decidir sobre el dispositivo neumático
Para responder cualquiera de las preguntas que se planteen se necesitan datos y, por lo tanto, se
debe decidir cómo llevar adelante el estudio estadístico para obtenerlos (observacional o experimental,
poblacional o muestral, transversal o longitudinal) y cómo analizar estos datos posteriormente para
obtener las conclusiones o respuestas (herramientas de análisis descriptivo y/o inferencial). Esto remite
a cuestiones relativas a la Planificación del Estudio Estadístico.
Si el estudio es poblacional, solo se necesita planificar cómo obtener los datos de la población en
estudio y cómo llevar adelante el análisis descriptivo de los mismos para pasar a las conclusiones. En
cambio, si se planifica un estudio por muestreo, se debe decidir cómo obtener los datos de la muestra,
cómo realizar el análisis descriptivo de los mismo y qué herramientas de análisis inferencial utilizar
para obtener las conclusiones sobre la población en estudio.
En esta etapa hay muchas cuestiones a considerar, pero todas deben llevar a que el diseño de la
investigación sea el más apropiado para la obtención de conclusiones en relación al problema planteado.
Note que el término “observar” no depende únicamente del sentido de la vista: la observación puede
obtenerse también a partir de una medición o de alguna pregunta sobre la característica de interés.
Los experimentos constituyen la mejor manera de valorar el efecto de uno o más factores sobre alguna
variable de interés ya que, para analizar la respuesta a un cambio se trata de controlar todos los factores
que presumiblemente influyen sobre ese cambio.
De acuerdo a la cantidad de datos, los estudios observacionales pueden ser muestrales o poblacionales,
según se estudie a un subconjunto o a toda la población (censo). Los experimentos siempre se realizan
con un número relativamente pequeño de unidades, que se consideran la muestra en estudio. En ese
tipo de estudios, la población está compuesta por las infinitas unidades en las que se podría probar
el efecto de los factores de interés; y por lo tanto no tiene existencia física, se trata de una población
conceptual.
Los estudios poblacionales no siempre son posibles de llevar a cabo, ya sea porque la población es
infinita o porque los ensayos que deben hacerse para medir la característica en estudio son destructivos
o muy costosos. También puede ser que el proceso sea muy lento y se demore mucho tiempo en obtener
todas las observaciones.
Existen diferentes maneras de seleccionar una muestra; pero es fundamental tener presente que solo a
partir de muestras aleatorias o probabilísticas se pueden extender los resultados a toda la población
de manera válida.
¿Qué es una muestra aleatoria o probabilística? La idea básica de una muestra de este tipo es que cada
unidad de la población tenga una posibilidad o chance conocida de ser seleccionada para la muestra.
Dentro de las muestras aleatorias existen diferentes métodos de muestreo (simple al azar, sistemático,
por conglomerados, estratificado, multietápico) que se aplican según las características de la población
que se desee muestrear. En este texto, se considerará solamente el muestreo simple al azar, que se
definirá específicamente en el Capítulo 7.
18 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Además del método, es también importante elegir adecuadamente el tamaño de la muestra ya que
ambos influyen en la calidad de las conclusiones que se obtendrán.
En las muestras por conveniencia, en cambio, las unidades se incorporan porque se consiguen
fácilmente, por voluntad del participante, etc. Estas muestras pueden resultar sesgadas y no representar
adecuadamente el patrón de variabilidad de la población en estudio.
Hay estudios en los cuales interesa conocer el comportamiento de las variables a lo largo del tiempo
(en diferentes períodos de tiempo). En cambio, hay otros estudios en los cuales interesa conocer
el comportamiento de las variables en un único período de tiempo (en ese caso puede ser que las
observaciones se realicen en un mismo momento o en distintos momentos, pero suponiendo que el
tiempo transcurrido entre ellos no constituye un factor importante para el objetivo del estudio).
En esta etapa, lo primero que se debe decidir es el tipo de estudio que se llevará a cabo:
Además de seleccionar el tipo de estudio, hay muchas más preguntas a contestar en esta etapa. A
continuación se presentan algunas de ellas:
¿Cómo se van a medir las variables de interés? ¿Con qué métodos o instrumentos?
¿Qué análisis se llevarán a cabo? ¿Será suficiente con el análisis descriptivo? ¿Se requerirán
herramientas de inferencia estadística? ¿Cuáles?
¿Qué riesgos máximos se admiten en el caso de tener que inferir las conclusiones de la muestra a
la población?
Las dos primeras preguntas son comunes a todos los estudios; mientras que la última es propia de los
estudios en los que se trabaja con una muestra. Esto incluye a los estudios experimentales, en los que
nunca se realizan relevamientos exhaustivos.
19
Problema 1 (pág. 6): Como la población (todas las barras del proceso) es un conjunto infinito se
debe decidir cuántas barras se extraerán del proceso (n), cuándo y cómo se registrará su longitud. En este
caso caben algunas consideraciones:
¿Será lo mismo extraer 30 o 100 barras, para inferir las conclusiones?
¿Cómo se elegirán las barras que van a constituir la muestra? ¿Se tomarán de cualquier turno de
trabajo?, ¿de cualquier día de la semana?
¿Cómo se analizarán los datos?
Cualquiera sea la opción elegida, solo se podrán obtener medidas de resumen de la muestra (estadísticos)
y luego habrá que elaborar conclusiones para toda la población. Entonces, ¿con qué riesgo de error se
obtendrán dichas conclusiones?
Problema 2 (pág. 6): En este caso se cuenta con un sistema de medición automático y por lo
tanto puede llevarse a cabo un estudio exhaustivo o censo para todo el lote. Con la información que se
obtenga pueden calcularse los parámetros de interés y concluir.
Problema 3 (pág. 6): Dado que se trata de un experimento y la población no tiene existencia
física, se deben decidir cuántas semillas de maíz se van a sembrar utilizando el servidor neumático. Es
importante definir también cómo se van a medir las distancias entre semillas y en qué casos se va a registrar
“distancia nula”. Una vez obtenidos los valores se puede calcular la distancia promedio de la muestra, la
desviación estándar y la proporción de distancias nulas, que son medidas muestrales (estadísticos). Luego
habrá que elaborar conclusiones para toda la población de modo que se debe decidir con qué riesgo de
error se obtendrán las mismas (herramientas de inferencia estadística).
! Es muy importante tener en cuenta que los datos solamente son útiles si su obtención se realizó a
partir de una Planificación adecuada del Estudio Estadístico.
Con lo visto hasta ahora, se pueden resolver las Actividades 3 y 4, Sección 1.7.
Planificado el estudio estadístico, la tercera etapa consiste en la recolección de los datos y en el volcado
de los mismos en una planilla de registro. Es muy importante tomar todas las precauciones para
obtener datos de calidad, ya que ellos constituyen la materia prima fundamental para la obtención de
conclusiones adecuadas. Datos de mala calidad o datos “basura”, producen malas conclusiones, por
más que se apliquen herramientas de análisis muy sofisticadas.
Planilla de registro: es el instrumento en el cual se vuelcan los datos recabados para cada unidad
elemental a medida que se obtienen.
20 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Una planilla de registro es de gran ayuda en la etapa de recolección de los datos ya que en ella constan
todas las características que van a observarse en las unidades. Puede definirse en soporte papel o digital.
En cualquier caso es deseable que se incluyan instrucciones que orienten el trabajo de las personas a
cargo de la recolección de datos, y en el caso de soporte digital, es deseable además que se incluyan
controles que eviten posibles errores (por ejemplo, tener programada una señal de error si se ingresa un
valor fuera del rango de valores definidos para alguna variable). En la Figura 1.6. se presentan algunas
planillas de registro a modo de ejemplo.
(a) Planilla para el control de defectos en placas de madera (Problema 2). (b) Planilla para la localización
de defectos en una placa de ma-
dera (Problema 2).
Garantizar la trazabilidad de los datos es de gran utilidad, especialmente cuando aparecen datos
erróneos, dudosos o atípicos, ya que permite recuperar las unidades elementales de las cuales se
extrajeron y eventualmente repetir las mediciones. Los códigos que identifiquen a las unidades deben
registrarse en la planilla.
La planilla de volcado se define en formato digital y se completa una vez finalizada la etapa de
recolección de los datos. Es recomendable que tenga la siguiente estructura:
21
En las columnas restantes se ubican los valores de las variables estudiadas. El número de variables
consideradas en el estudio se simboliza con “p”, y cada una de ellas se corresponde con una columna.
En esta etapa se recolectan los datos, es decir, se seleccionan las unidades elementales a estudiar y
en cada una de ellas se observan las variables de interés. Entre las precauciones que deben tenerse en
cuenta, pueden mencionarse:
elaborar instructivos y entrenar a las personas que vayan a realizar las mediciones o a recabar los
datos a través de observaciones, encuestas, etc.;
hacer una prueba piloto de los métodos de recolección de los datos, por si aparecen cuestiones
dudosas, situaciones no previstas, etc.;
chequear los métodos de medición;
diseñar una planilla de registro apropiada;
supervisar la tarea de recolección de los datos, así como la tarea de carga de los mismos en
planillas electrónicas;
garantizar, cuando sea posible, la trazabilidad de los datos;
volcar toda la información obtenida en las planillas de registro, en una planilla de volcado en la
que se presenten todos los individuos y variables analizados.
Tratamiento primario: es el análisis que se hace sobre los datos para chequear su calidad, previa al
análisis descriptivo o inferencial.
En el tratamiento primario se pueden detectar datos faltantes, datos que no se corresponden con los
22 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
valores posibles de la variable, códigos mal ingresados, etc. Si la trazabilidad está garantizada, se
pueden recuperar las unidades correspondientes y corregir los errores observados. También se pueden
utilizar técnicas de imputación en caso de haber datos faltantes.
Si el estudio es exhaustivo (censo), las herramientas de análisis descriptivo permiten obtener conclusio-
nes definitivas 3 y dar respuesta al problema planteado, ya que se cuenta con información de todas
las unidades de la población y se pueden obtener los valores de los parámetros de interés. En cambio,
en el caso de estudios observacionales por muestreo o de estudios experimentales, las conclusiones
obtenidas deben inferirse a la población a través de herramientas de análisis inferencial.
Se denomina estadístico a cualquier medida que resuma información de una muestra (por ejemplo,
el promedio de una muestra, la proporción muestral de unidades con cierta característica, el valor
más frecuente en la muestra, etc.). Se usa diferente notación para estadísticos y parámetros.
Una vez recolectados los datos y chequeada su calidad, se aplican herramientas de análisis descriptivo,
es decir, se construyen tablas y gráficos y se obtienen indicadores o medidas de resumen (estadísticos
o parámetros, según corresponda).
Si se pudo estudiar a toda la población, con este análisis es suficiente para obtener las conclusio-
nes y dar respuesta al problema.
Si se estudió a un subconjunto de la población, se deben aplicar además herramientas de análisis
inferencial para generalizar las conclusiones obtenidas a toda la población, corriendo cierto
riesgo de obtener conclusiones erróneas.
Problema 1 (pág. 6): Para este problema, relativo a las barras metálicas, una vez decidido el
tamaño de la muestra y extraídas las barras, se registran sus longitudes. Con ellas se realiza un análisis
descriptivo y finalmente se obtiene la proporción de barras que satisfacen las especificaciones. Esta medida
es un estadístico, ya que se obtiene a partir de una muestra y entonces, deberán aplicarse herramientas
inferenciales para dar respuesta al objetivo en estudio, con algún riesgo de error.
3 El
término “definitivas” aplicado a las conclusiones obtenidas del análisis descriptivo en el caso de estudios poblacio-
nales indica que no hace falta aplicar herramientas inferenciales.
23
Problema 2 (pág. 6): Para este problema, relativo al lote de placas de madera, una vez registrados
los valores de las cantidades de defectos en la superficie de las 80 placas del lote, se realiza un análisis
descriptivo de la información obtenida y se procede a calcular el número promedio de defectos por placa
(µ). No hace falta aplicar herramientas inferenciales puesto que ya se calcula de manera exacta el valor
del parámetro.
Problema 3 (pág. 6): Para este problema, una vez decidido cuántas semillas se van a sembrar,
se lleva a cabo el experimento, es decir, se modifica la máquina sembradora con el nuevo dispositivo, se
siembran los surcos y luego se evalúan las distancias entre ellas. Después de hacer un análisis descriptivo
se obtienen los estadísticos correspondientes y se aplican herramientas inferenciales para dar respuesta al
objetivo en estudio, con algún riesgo de error.
Considerar la validez externa de las conclusiones lleva implícitas dos cuestiones importantes:
Problema 1 (pág. 6): Si solo se estudiaron barras de acero producidas en la planta de Venado
Tuerto, las conclusiones que se obtengan se pueden generalizar a la producción de dicha planta y no a la
24 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
producción de toda la empresa, a menos que se conozca por experiencia que en el resto de las plantas se
trabaja de manera similar (máquinas similares, mismos proveedores de materia prima, etc.) y se pueda
pensar que se producen barras de características similares.
Una vez analizados los datos con las herramientas correspondientes, deben obtenerse las conclusiones
y dar una respuesta al problema. Como se mencionara para la etapa de Análisis de Datos, si se trata de
un estudio poblacional, alcanza con el análisis descriptivo y el cálculo de los parámetros de interés. Si
se trata de un estudio observacional por muestreo o de un experimento, además del análisis descriptivo
y del cálculo de los estadísticos correspondientes, se deben aplicar herramientas inferenciales que
permitan generalizar las conclusiones a la población bajo estudio. Estas conclusiones pueden ser
erróneas, ya que no se trabaja con la totalidad de las observaciones (errores propios del muestreo) pero
los riesgos de que esto ocurra están controlados por quien lleva a cabo la investigación, que los define
en la etapa de Planificación. Existe otro tipo de errores (errores ajenos al muestreo) que se presentan
tanto en los estudios poblacionales como en los muestrales, como por ejemplo, un dato mal tomado,
una variable mal medida o mal registrada en la planilla, un cálculo mal hecho, etc. Para estos errores
no se pueden cuantificar los riesgos, pero se debe trabajar para evitarlos.
Con lo visto hasta ahora, se pueden resolver las Actividades 6, 7, 8 y 9, Sección 1.7.
En la Figura 1.7. se destacan los principales conceptos estadísticos asociados a cada una de las etapas
del ciclo de resolución de problemas. En la Tabla 1.3. se resumen las etapas seguidas para los Problemas
1 y 2.
25
Figura 1.7. Etapas del Ciclo PPDAC para estudios poblacionales y muestrales (o experimentales). Conceptos
estadísticos asociados a cada una.
26 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
1.6 Síntesis
Para la resolución de problemas es importante tener la mente abierta, usar la imaginación, la lógica y
sobre todo la crítica en cada paso y con cada uno de los conceptos y procedimientos utilizados, sean
estadísticos o de la Teoría de la Probabilidad.
El planteo del problema debe estar bien delimitado y el objetivo debe ser claro.
La planificación debe ser completa para facilitar la recolección de los datos y el análisis de los
mismos. Se deben considerar en esta etapa los riesgos de error en las conclusiones.
La recolección de los datos debe ser supervisada para garantizar su calidad y minimizar la
presencia de errores no deseados.
El análisis de los datos debe hacerse con herramientas adecuadas que garanticen la obtención de
la información pertinente.
Las conclusiones estadísticas deben asociarse al contexto para dar respuesta al objetivo planteado.
28 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
1. En la tabla siguiente se presentan algunas variables y para cada una, el conjunto de valores
posibles.
Escala
Posibles Cuantitativa
Variable Cualitativa de medición
valores Discreta Continua Nominal Ordinal De intervalo De razón
Tiempo activo de
reparación de cierto
(0 ; ∞) X X
tipo de equipo en un
taller (en minutos)
Resistencia de piezas Alta, Media
metálicas (en unidades) o Baja (*)
Intención de voto en
Candidato A, B, . . .
una elección
Tipo de defecto
Rayadura, poro, . . .
observado en piezas
Temperatura del
proceso de producción [0 ; ∞)
(en grados C)
Cumple, no cumple
Peso de componentes
con ciertas
plásticos (en gramos)
especificaciones (*)
Número de unidades
vendidas diariamente 0, 1, 2,...
de cierto producto
Calidad de conexiones Baja, Intermedia,
eléctricas Buena, Muy Buena
Resistencia de una
trama probada con un (0 ; ∞)
nuevo tipo de fibra (en deniers)
Espesor del asfalto en
(0 ; ∞)
una ruta (en cm)
N° de piezas
defectuosas en una caja 0, 1, . . . , 20
de 20 unidades
(*) En primer lugar se mide la resistencia o el peso y luego las piezas se clasifican.
Situación 1: Para un control de calidad habitual en una empresa que fabrica barras de acero, se
seleccionan 50 barras al azar y se clasifica a cada una en “buena” (B) o “defectuosa” (D) según
que cumpla o no con una especificación dada.
Situación 2: Una fábrica produce piezas de acero, a las cuales luego les aplica un cierto recubri-
miento y pretende que la dureza de las piezas recubiertas supere el valor A en el 98 % de los
casos. Se llevó a cabo un estudio en el cual se evaluó la dureza de 15 piezas seleccionadas al
azar. Para obtener la dureza de cada una, se diseñó una prueba en la cual cada pieza fue golpeada
hasta su rotura.
Situación 3: En una empresa que fabrica pinturas conocen que el número promedio de poros
por metro cuadrado de superficie es 3,2. En la empresa están considerando la posibilidad de
adicionar un aditivo para reducir el número de poros por metro cuadrado. Para comprobar si
el aditivo es satisfactorio, se van a pintar 10 paneles de 1 metro cuadrado de superficie con la
pintura con el aditivo y luego de 2 horas (tiempo de secado) se registrará el número de poros en
cada panel.
Situación 4: Una empresa de logística ha recibido últimamente un informe por parte de sus
repartidores en el que estos especifican haber tenido quejas de los clientes respecto a las entregas.
Se decide hacer un estudio para establecer el motivo principal de las mismas, revisando las
quejas recibidas en el último mes y registrando esa información.
Situación 5: Históricamente, una industria metalúrgica vende alrededor de 12000 kg mensuales
de acero inoxidable a otras empresas minoristas. La gerencia cree que últimamente se han
perdido ventas por lo que revisa las facturas de los últimos 12 meses y registra la cantidad
vendida de este tipo de acero en cada uno de ellos.
30 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Situación 6: Para la construcción de un puente, una de las variables importantes es la altura del
río en determinado punto. Se buscan registros históricos diarios de la altura en dicho punto, para
decidir en base a ello, algunas características del puente.
7. En una empresa alimenticia interesa evaluar, en un momento dado, la calidad del proceso de
producción de la nueva línea de galletitas horneadas en un momento dado. Formule el problema
en términos estadísticos, defina posibles objetivos, variable/s y parámetro/s de interés.
8. Para los Problemas 4 y 5 (Sección 1.4) realice un esquema semejante al presentado en la Tabla
1.3. con las etapas del ciclo PPDAC.
9. Reflexione y responda:
a) ¿Qué características tienen los problemas de naturaleza estadística que los distinguen de
otro tipo de problemas?
b) ¿Qué información brinda el conocimiento del “modelo del comportamiento” de una variable
X?
c) ¿Qué importancia tiene definir con claridad el objetivo del estudio y la población asociada?
d) Dé algún ejemplo de alguna variable cuantitativa que finalmente se mida en un nivel ordinal
o nominal.
e) ¿Qué condiciones debe cumplir la población para poder hacer un estudio poblacional?
Comente.
f ) ¿Por qué cree que son tan frecuentes los estudios muestrales?
g) ¿Qué diferencia un estudio observacional de uno experimental?
h) ¿Puede un estudio experimental ser poblacional? Comente.
i) ¿Qué condiciones impondría a la extracción de una muestra si quisiera luego realizar una
inferencia estadística?
j) ¿Qué importancia tiene garantizar la calidad de los datos? ¿Cómo lo haría?
k) ¿Cómo reconoce si un grupo de datos corresponde a una población o a una muestra?
31
l) ¿Por qué se llama “conclusiones preliminares” a las obtenidas del análisis de una muestra?
m) ¿Por qué no se puede tomar una decisión solo con el cálculo de un estadístico?
n) ¿Qué importancia tiene la validez externa en la elaboración de las conclusiones?
32 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
1.8.1 Introducción
R es un entorno y lenguaje de programación con un enfoque al análisis estadístico [2]. Sus comienzos
se remontan a los años 1993-1996 y fue creado por Ross Ihaka and Robert Gentleman (Auckland
University, Nueva Zelanda), basándose en el lenguaje S creado por John Chambers en 1976 para Bell
Labs (parte de AT&T, desarrolladores de C).
R se distribuye gratuitamente bajo los terminos de la GNU General Public Licence [3] y se encuentra
disponible en cualquier plataforma de sistema (Windows, OS X, Linux). El mantenimiento y desarrollo
de R es realizado por el R Development Core Team [2], un equipo de especialistas en ciencias
computacionales y estadística provenientes de diferentes instituciones y lugares alrededor del mundo.
La versión de R mantenida por este equipo es conocida como base y como su nombre indica, es
sobre aquella que se crean otras implementaciones de R, así como los paquetes que expanden su
funcionalidad. Esto se realiza en forma colaborativa, por la cual quien lo desee puede publicar paquetes,
es decir, conjuntos de funciones programadas con la misión de realizar una tarea específica. Algunas
características de R son:
Manejo y almacenamiento efectivo de los datos.
Un conjunto de operadores para la realización de cálculos con matrices.
Una gran colección de herramientas para el análisis de datos.
Utilidades gráficas para la visualización de datos.
Un lenguaje de programación bien desarrollado que incluye saltos
condicionales, bucles, funciones recursivas, utilidades para la entrada
y salida de datos, etc.
El lenguaje de programación R se integra bien con otros lenguajes de programación como C, C++
o Fortran para tareas de análisis de datos computacionalmente intensivas (alto consumo de recursos
como CPU y RAM). Además, puede integrarse con distintas bases de datos y existen bibliotecas que
facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.
Habitualmente, R se utiliza mediante RStudio [4], un entorno
de desarrollo integrado. RStudio es un programa para manejar
R y utilizarlo de manera más cómoda en algunos aspectos.
Se trata de una máscara para visualizar el software que tiene
como principales ventajas el orden y la visualización de los
procesos que son llevados a cabo con R, todo de manera
simultánea.
1.8.2 Instalación
Para instalar R hay que dirigirse a la colección de paquetes en CRAN (del inglés, Comprehensive
R Archive Network) [5]. CRAN es un repositorio global donde se puede acceder al software y a los
paquetes que la comunidad produce. La instalación comienza entrando en [Link]
org/ donde se debe seleccionar el link correcto de descarga, dependiendo del sistema operativo.
33
Tanto para R como para RStudio, se descargarán archivos instaladores que se deberán ejecutar,
siguiendo los pasos, para su instalación completa.
1.8.3 Entorno
Cuando se ingresa a RStudio por primera vez, se observa una pantalla dividida en tres paneles, como
se muestra en la Figura 1.8.:
Consola: Es la ventana que se comunica con el motor de R. A través de ella se envían las
instrucciones o sentencias a R y se visualizan los resultados. Es el cerebro de R y se encuentra a
la izquierda.
Environment (ambiente): Muestra todos los objetos que R tiene en la memoria, como conjuntos
de datos, modelos, resultados, etc. Se muestra en una pestaña del panel que está arriba, a la
derecha.
History (historial): Lista todas las instrucciones que R ha corrido. Se muestra en otra pestaña
del panel que está arriba, a la derecha.
Connections (conexiones): Muestra todas las conexiones activas a bases de datos remotas,
establecidas por ejemplo mediante servidores SQL (esta pestaña puede no aparecer, dependiendo
de la versión del programa que esté instalada).
Panel inferior derecho: Panel con las pestañas Files, Plots, Packages, Help y Viewer. Aquí se
pueden observar los archivos de trabajo, los gráficos generados, el listado de paquetes disponibles,
ayuda sobre distintas funciones, entre otras funcionalidades.
34 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Si bien en la Consola se pueden escribir y ejecutar instrucciones o sentencias, una alternativa es escribir
todas las instrucciones en un lugar separado y luego correrlas en la consola cuando se pretende que R
las ejecute.
Al guardar dichas instrucciones en un archivo, se crea un script (un archivo de código o sentencias), que
almacena todas las instrucciones utilizadas para realizar el análisis de datos en un archivo permanente,
reproducible, comentado, compartible y multi-plataforma. RStudio provee para este fin un editor de
texto incorporado. Para iniciar un nuevo script, se debe utilizar el botón indicado con un ícono + en la
parte izquierda superior. En la Figura 1.9. se muestra la pantalla con el panel de script incluido:
Es importante recordar guardar el script generado si se quiere usar posteriormente. Para ello, se guarda
como cualquier archivo, en una carpeta a elección (File -> Save, o directamente Ctrl+S) con un
nombre que resulte informativo. Los archivos así creados reciben la extensión .R.
Para correr el script, se seleccionan todas las líneas que se pretende que R analice y ejecute. Luego,
se hace click en el botón Run, o directamente Ctrl+Enter. Sin tener líneas del Script seleccionadas,
se puede correr solamente la línea en la que actualmente está posando el cursor, haciendo también
Ctrl+Enter.
1. Instalación de paquetes
Al instalar R se incluyen múltiples funciones básicas que pueden servir para la importación de datos,
la realización de transformaciones, el ajuste y evaluación de modelos estadísticos, las representaciones
gráficas, etc. Sin embargo, la enorme potencia de R deriva de su capacidad de incorporar en cualquier
momento nuevas funciones capaces de realizar nuevas tareas específicas.
35
Un paquete (package) es una colección de funciones, datos y código R que se almacenan en una carpeta
conforme a una estructura bien definida, fácilmente accesible para R.
Al instalar R se incorporan por defecto numerosos paquetes. Se puede ver una lista de los paquetes que
actualmente están instalados en un ordenador ejecutando library() o bien ingresando en la pestaña
Packages en el panel inferior derecho.
2. Uso de paquetes
Es importante distinguir entre tener un paquete instalado en el ordenador y tenerlo cargado en memoria.
Tenerlo instalado en el ordenador significa simplemente que en algún momento se ha bajado de internet
y se ha copiado en algún directorio en que R lo puede localizar. Tenerlo cargado en memoria significa
que, durante la actual sesión de trabajo, R ha leído el contenido del paquete y ha incorporado las
funciones que contiene a su espacio de trabajo, de tal forma que tales funciones pueden ya ser invocadas
y ejecutadas.
Para poder utilizar un paquete específico en R, el mismo debe estar instalado, ya sea porque se incluye
junto con la instalación del software o porque se realiza manualmente. Hay dos formas principales de
hacer esto:
En ambos casos, R se conecta a alguno de los repositorios de CRAN en internet, descarga el archivo
que contiene el paquete, lo descomprime y lo instala en el directorio de paquetes por defecto.
Para activar o utilizar un paquete, se debe ejecutar el comando library() e introducir el nombre del
paquete a utilizar entre comillas, por ejemplo library("ggplot2"). También se puede ir a la pestaña
Packages de RStudio, buscar el paquete a emplear y hacer click en el cuadro que se encuentra a la
izquierda del nombre. Es recomendable utilizar la primera opción y dejar las sentencias library()
escritas en el script si se va a realizar el mismo análisis posteriormente.
Todos los paquetes incluyen obligatoriamente manuales de ayuda con las instrucciones para utilizar sus
funciones (se ven en la pestaña Help). Algunos, además, vienen con viñetas, que son tutoriales donde
los autores muestran las funcionalidades de sus paquetes de forma amigable y detallada, con ejemplos.
Es posible explorar las viñetas de un paquete con la función browseVignettes() e introducir el
nombre del paquete de interés entre comillas, por ejemplo, browseVignettes("ggplot2").
36 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
En principio, es importante destacar que, para el trabajo con R, es importante seguir los principios de
datos ordenados [6], un conjunto de reglas claras para organizar datos de manera consistente, de modo
que permitan su fácil lectura y análisis.
El principio fundamental de los datos ordenados es tener una única unidad por fila y una única variable
por columna (conocido también como formato largo), de modo que cada celda (cruce entre fila y
columna) contenga un solo valor, tal como se ejemplifica en la Figura 1.10.
Si bien existen formas de generar conjuntos de datos utilizando RStudio, generalmente los mismos
se encuentran en formatos de archivos asociados a otros software, como puede ser Microsoft Excel u
otros softwares estadísticos como SPSS, SAS o Stata, entre otros. R permite la importación de diversos
formatos de archivos.
El paquete readxl [7] forma parte del paquete tidyverse [8], creado por Hadley Wickham (cien-
tífico jefe en RStudio) y su equipo. Permite leer con R archivos que se encuentran en formato
.xls o .xlsx. Como primer paso, es necesario instalarlo. Para ello, basta con ejecutar la sentencia
[Link]("readxl").
Una vez que el paquete se encuentra instalado, solo será necesario ejecutar library("readxl") para
hacerlo disponible para importar datos.
Por otra parte, es necesario conocer la ruta del archivo de Excel. La ruta, o path en inglés, es la dirección
o ubicación donde está el archivo en la computadora. Si se ejecuta la sentencia [Link]() se abre
una ventana que permite buscar el archivo de interés. Al pulsar Open, se obtiene la ruta correspondiente
en la consola de trabajo. Luego:
Si el archivo de Excel contiene una sola hoja, se ejecuta datos <- read_excel() con la ruta
del archivo entre comillas, por ejemplo:
37
Una vez importado, el conjunto de datos (dataset) figura en la pestaña Environment junto con todas
las otras cosas que están en la memoria de R en ese momento. Si se hace click sobre el dataset en ese
panel, se abrirá una ventana mostrándolo. Lo mismo se consigue con la función View("datos").
Un siguiente paso razonable es asegurarse que los datos que R acaba de leer realmente son los deseados.
Algunas cosas que se pueden chequear:
Cantidad de filas.
Cantidad y nombres correctos para las variables.
El tipo de variables es correcto (por ejemplo, R reconoció variables numéricas como tales y no
como caracteres).
Variables cualitativas tienen el número correcto de categorías o niveles.
Cabe destacar que las funciones anteriormente mencionadas utilizan como ejemplo un dataset denomi-
nado datos, pero dicho nombre, que aparece entre comillas, debe adaptarse al del conjunto de datos
que se quiere explorar.
Un archivo de texto plano, es un archivo informático que contiene únicamente texto formado solo por
caracteres que son legibles por humanos, careciendo de cualquier tipo de formato tipográfico (negritas,
subrayado, tipo de letra). Esta simplicidad permite que una gran variedad de programas pueda leer y
editar ese contenido. Las distintas columnas (variables) deben indicarse con algún tipo de separador,
por ejemplo, una coma o un espacio. Lo más frecuente es encontrar archivos en formato delimitado
38 Capítulo 1. La Estadística en la resolución de problemas de Ingeniería
Para leer archivos de este tipo, es recomendable instalar y utilizar el paquete readr [9]. Una vez
cargado, provee distintas opciones:
Luego de la opción adecuada, se indica entre paréntesis y con comillas la ruta del archivo a leer. Por
ejemplo, si el archivo se encuentra en formato .csv separado por coma, se ejecuta: