ESTADÍSTICA
La estadística estudia los métodos científicos para recoger, clasificar,
organizar, resumir, hallar regularidades y analizar datos, así como
para sacar conclusiones válidas y tomar decisiones basadas en tal
análisis.
Estadística descriptiva: Describe, analiza y representa un grupo de
datos utilizando métodos numéricos y gráficos que resumen y
presentan la información contenida en ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y
a partir de datos muestrales, obtiene conclusiones generales que
permiten tomar decisiones respecto a las poblaciones en base a las
muestras.
HISTORIA DE LA ESTADÍSTICA
Los comienzos de la estadística pueden ser hallados en el antiguo
Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo,
prolijos datos relativos a la población y la riqueza del país, con el objetivo de
preparar la construcción de las pirámides.
La Biblia da referencias, en el libro de los Números, de los datos
estadísticos obtenidos en el antiguo Israel en dos recuentos de la población
Hebrea. El rey David por otra parte, ordenó a Joab, general del ejército, hacer
un censo de Israel con la finalidad de conocer el número de la población.
También los chinos efectuaron censos hace más de cuarenta siglos. Los
griegos efectuaron censos periódicamente con fines tributarios, sociales
(división de tierras) y militares (cálculo de recursos y hombres disponibles).
La investigación histórica revela que se realizaron 69 censos para calcular los
impuestos, determinar los derechos de voto y ponderar la potencia guerrera.
Fueron los romanos, maestros de la organización política, quienes mejor
supieron emplear los recursos de la estadística. Cada cinco años realizaban un
~1~
censo de población y sus funcionarios públicos tenían la obligación de anotar
nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos
del ganado y de las riquezas contenidas en las tierras conquistadas. Para el
nacimiento de Cristo sucedía uno de estos empadronamientos de la población
bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se
realizaron muy pocas operaciones estadísticas, con la notable excepción de las
relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el
Breve en el 758 y por Carlomagno en el 762 DC.
Durante el siglo IX se realizaron en Francia algunos censos parciales de
siervos. En Inglaterra, para el año 1086, Guillermo el Conquistador recopiló el
Domesday Book o libro del Gran Catastro, un documento donde se detallaba
la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el
primer compendio estadístico de Inglaterra.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones
debido al temor que Enrique VII tenía por la peste. Más o menos por la misma
época, en Francia la ley exigió a los clérigos registrar los bautismos,
fallecimientos y matrimonios.
En 1662, el capitán John Graunt usó documentos que abarcaban treinta
años y efectuó predicciones sobre el número de personas que morían de varias
enfermedades y sobre las proporciones de nacimiento de varones y mujeres
que cabría esperar. Fue un esfuerzo innovador en el análisis estadístico.
Los eruditos del siglo XVII demostraron especial interés por la
Estadística Demográfica como resultado de la especulación sobre si la
población aumentaba, decrecía o permanecía estancada.
El primer empleo de los datos estadísticos para fines ajenos a la política
tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán
que vivía en Breslau. Este investigador se propuso destruir la antigua creencia
popular de que en los años terminados en siete moría más gente que en los
restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de
la ciudad. Después de revisar miles de partidas de defunción pudo demostrar
que en tales años no fallecían más personas que en los demás. Los
procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley,
descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la
vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que
hoy utilizan todas las compañías de seguros.
~2~
Durante el siglo XVII y principios del XVIII, matemáticos como
Bernoulli, Francis Maseres, lagrage y Laplace desarrollaron la teoría de las
probabilidades. No obstante durante cierto tiempo, la teoría de las
probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII
no comenzó a aplicarse a los grandes problemas científicos. Godofredo
Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra
estadística, que se extrajo del término italiano statista (estadista). Creía que los
datos de la nueva ciencia sería el aliado más eficaz del gobernante consciente.
En el período del 1800 al 1820 se desarrollaron dos conceptos
matemáticos fundamentales para la teoría Estadística; la teoría de los errores
de observación, aportada por Laplace y Gauss; y la teoría de los mínimos
cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo
XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía
por objeto medir la influencia relativa de los factores sobre las variables. De
aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson
y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H.
Hooker y g: Udny Yule, que efectuaron amplios estudios sobre la medida de
las relaciones.
Los progresos más recientes en el campo de la estadística se refieren al
ulterior desarrollo del cálculo de probabilidades, particularmente en la rama
denominada indeterminismo o relatividad, se ha demostrado que el
determinismo fue reconocido en la Física como resultado de las
investigaciones atómicas y que este principio se juzga aplicable tanto a las
ciencias sociales como a la Físicas.
~3~
DEFINICIONES
Establecemos a continuación algunas definiciones de conceptos básicos
y fundamentales como son: elemento, población, muestra, variables, ect., a las
cuales haremos referencia continuamente a lo largo del desarrollo de la
materia:
Individuos o Elementos: Personas u objetos que contienen cierta información
que se desea estudiar.
Población: Conjunto de individuos o elementos que cumplen ciertas
propiedades comunes.
“Una población es un conjunto de todos los elementos que estamos
estudiando, acerca de los cuales intentamos sacar conclusiones”. Levin &
Rubin (1996)
Es a menudo imposible o poco práctico observar la totalidad de los individuos,
sobre todo si estos son muchos. En lugar de examinar el grupo entero llamado
población o universo, se examina una pequeña parte del grupo denominada
muestra.
Muestra: Subconjunto representativo de una población.
“Una muestra es una colección de algunos elementos de la población, pero
no de todos”. Levin & Rubin (1996)
Variable: Es cada una de las características o cualidades en estudio que
poseen los individuos de una población.
Parámetro: Función definida sobre los valores numéricos de características
medibles de una población.
Estadístico: Función definida sobre los valores numéricos de una muestra.
En relación al tamaño de la población, ésta puede ser:
Finita: Es la que tiene un número limitado de observaciones, como es el casa
de número de personas que llegan al servicio de urgencia de un hospital en un
día.
Infinita: Posee un número ilimitado de observaciones, como por ejemplo si
estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces
obtenidas en el lanzamiento repetido de una moneda al aire.
~4~
Las muestras pueden ser:
Aleatorias: Cuando todos los individuos tienen la misma posibilidades de ser
elegidos para la investigación.
Sesgada: Cuando es tendenciosa y no representa bien a la población.
A las variables las clasificamos del siguiente modo:
Variables Cualitativas: Son aquellas que no son medibles numéricamente.
Este tipo de variable se incluye en una o más categorías en estudio exhaustivas
y mutuamente excluyentes. Pueden ser nominales (ej: sexo, grupo sanguíneo,
etc.) u ordinales (indican un orden y también se suelen llamar cuasi-
cuantitativas, como por ejemplo el puesto conseguido en una prueba
deportiva: 1°, 2°, 3°, …, o las medallas de una prueba deportiva: oro, plata,
bronce, etc.). También se las denomina atributo.
Variables Cuantitativas o Numéricas: Son aquellas que toman valores
numéricos, para las cuales toman sentido las operaciones aritméticas. Pueden
ser:
-Discretas: Sólo pueden tomar valores aislados (se pueden contar), como por
ejemplo, número de hijos, número de libros leídos en las últimas vacaciones,
etc.
-Continuas: Cuando pueden asumir cualquier valor de un intervalo (son
medibles). Ejemplos: altura de un grupo de personas, diámetro de un conjunto
de arandelas, etc.
TABLAS ESTADÍSTICA
Cuando deseamos estudiar estadísticamente una determinada situación,
se hace necesario realizar una recolección de datos, que por lo general se
obtienen en forma desordenada, por lo que se hace necesario ordenarlos para
facilitar su análisis e interpretación. Una herramienta muy útil para ordenar los
datos es la tabla estadística, en la que figura la distribución de frecuencias.
Analizaremos las distribuciones de frecuencias teniendo en cuenta el tipo
de variable en estudio.
~5~
Distribución de frecuencias de una variable cualitativa:
A continuación definiremos los distintos tipos de frecuencias que deben
tenerse en cuenta, para lo cual consideraremos una población estadística de n
individuos descriptos según una determinada variable y cuyos valores
obtenidos han sido agrupados en un número k de clases, que denotamos
mediante
Para cada una de las clases con I= 1, …, k, introduciremos las siguientes
definiciones:
-Frecuencia absoluta de la clase es el número de observaciones que
posee dicha clase.
Es lógico que debe cumplirse que:
-Frecuencia relativa de la clase , se simboliza y es el cociente entre las
frecuencias absolutas de dicha clase y el número total de observaciones, es
decir
Observemos que debe verificarse que:
-Frecuencia relativa porcentual de la clase , se simboliza y es la
frecuencia relativa expresada como porcentaje, o sea:
~6~
Naturalmente se verifica que:
En el caso de una variable cualitativa, la forma general de la tabla de
distribución de frecuencias es la siguiente:
Ejemplo:
Se les pregunta a los alumnos de un 3° año acerca de la terminalidad que
eligen para terminar sus estudios secundarios. Las opciones son informática
(I), Electrónica (E), Construcciones (C), Química (Q) y Mecánica (M). Las
respuestas obtenidas son:
~7~
Completar la tabla de distribución de frecuencias correspondiente es:
Distribución de frecuencias de una variable cualitativa discreta:
Además de las frecuencias anteriormente definidas, la tabla de la
distribución de frecuencias de esta variable contiene las frecuencias
acumuladas. Ellas son:
-Frecuencia absoluta acumulada , correspondiente a una clase se
calcula sobre variables cuantitativas o cuasi-cuantitativas, y es el número de
observaciones que obtienen ese valor o un valor menor, es decir:
~8~
-Frecuencia relativa acumulada , correspondiente a una clase se
calcula sobre variables cuantitativas o cuasi-cuantitativas, siendo la frecuencia
relativa correspondiente a ese valor o uno menor, o sea:
-Frecuencia relativa porcentual acumulada Se define de modo
análogo a , o sea:
Ejemplo:
La siguiente lista corresponde al número de estrellas de los hoteles de
una ciudad:
~9~
La tabla de distribución de frecuencias correspondiente es:
Distribución de frecuencias de una variable cuantitativa
continua:
En este caso los datos se encuentran agrupados en intervalos llamados
“intervalos de clase”. Debemos determinar el número de intervalos de clase
teniendo en cuenta que:
- Debemos tratar que el número de intervalos de clase sea mayor o igual
a cinco y menor o igual a veinte.
- Si no existe una forma establecida, para calcular el números de
intervalos de clase se suele aplicar la siguiente fórmula:
- Los intervalos pueden ser cerrados o semicerrados, esto depende de
las necesidades de orden práctico.
- Salvo que se indique lo contrario, todos los intervalos serán de igual
amplitud.
- Cada valor obtenido de la variable debe pertenecer a un solo intervalo
de clase.
La tabla de distribución de frecuencias que se utiliza es similar a la de
variable cuantitativa discreta.
Ejemplo:
Los datos que se muestran a continuación muestran la cantidad de litros
de nafta vendida en una estación de servicio a 40 clientes.
~ 10 ~
En primer lugar calculemos el número de intervalos que tendrá la tabla
de distribución de frecuencias.
N° de intervalos de clase N° de intervalos de clase = 6.
Debemos ahora calcular la amplitud de cada intervalo. Para ello
calcularemos primero el recorrido (R) de la variable, que es la diferencia
entre el máximo y mínimo valor observado.
En este caso
La amplitud “h” de cada intervalo es el cociente entre R y el número de
intervalos, o sea:
Por lo tanto h = . Conviene redondear este valor.
Armamos la tabla de frecuencias.
Ci Ii Cómputos de nj fj fj% Nj Fj Fj%
frecuencias
1
2
3
4
5
6
Observaciones:
Un cuadro completo debe incluir las siguientes partes:
- Título: debe enunciar qué datos están incluidos en el cuerpo del
cuadro, el lugar y el momento de referencia.
- Encabezado: en general, en los encabezados de los cuadros se deben
explicitar las variables seleccionadas y las categorías
correspondientes.
~ 11 ~
- Cuerpo del cuadro: contiene los datos clasificados de acuerdo a las
variables del encabezado.
- Notas de pie: son utilizadas para realizar aclaraciones sobre partes
incluidas en el cuadro, por ejemplo: “cifras redondeadas”, “no se
posee dato”, etc.
- Fuente: se debe indicar de dónde fueron extraídos los datos, en el caso
de ser secundarios. Cuando se trabaja con datos primarios se coloca
“elaboración propia”.
Ejemplo:
Evolución del total de alumnos de carreras de pregrado y grado,
clasificados según lugar de procedencia (*). Provincia de Santa Fe,
por departamento. Período 1994-1998.
Departamento Año Año Año Año Año
1994 1995 1996 1997 1998
La Capital 7420 8096 9030 9245 9797
Las Colonias 826 947 1046 1129 1272
Castellanos 745 798 884 904 960
Gral. Obligado 445 467 530 588 665
San Justo 280 417 352 403 458
San Cristóbal 318 365 381 411 463
San Jerónimo 300 332 347 379 418
Vera 189 196 219 224 239
San Martín 156 168 176 211 218
San Javier 117 100 113 143 158
9 de Julio 127 111 155 153 185
Garay 84 77 78 97 104
Belgrano 8 6 13 18 17
Iriondo 6 8 10 13 15
Resto de 125 78 149 140 155
provincia
(*) Se toma como lugar de procedencia el lugar de residencia estable
del núcleo familiar. Fuente: Información institucional 1999-UNL.
~ 12 ~
~ 13 ~