Alejandro M.
Silvestri Introducción a la estadística – Clase 1
PAPER CLASE 1 – INTRODUCCIÓN A LA ESTADISTICA
Nociones básicas del lenguaje
-Experimento: Probar y examinar prácticamente las virtudes y propiedades de
algo. Extraer conclusiones del mundo.
-Experimento aleatorio: Aquellos experimentos cuyas conclusiones no se
pueden predecir, pero se conocen todos los resultados posibles. (ejemplo exp.
Aleatorio: tirar un dado de 6 caras. Si bien no se que resultado obtendré. Conozco
todos los posibles: que salga un 1, 2, 3, 4, 5 o 6)
-Datos: Antecedente necesario para llegar al conocimiento exacto de algo (Ej: El
1/1/2017 llovió en la esquina de UADE)
-Información: Adquisición de conocimientos que permiten ampliar o precisar los
que se poseen sobre una materia determinada. Se logra información cuando se
toma los datos y se contextualizan en tiempo y espacio. (Ej: tomo 3 datos -El
1/1/2017 llovió en Uade - El 1/1/2018 llovió en Uade -El 1/1/2019 llovió en Uade y
adquiero conocimiento
-Ciencia: Conjunto de conocimientos obtenidos mediante la observacion y el
razonamiento sistematicamente estructurados y de los que se deducen principios
y leyes generales.
Conceptos básicos de estadística descriptiva
-Unidad experimental: Objeto o sujeto susceptible de poseer una característica
observable (Ej: Usted)
-Universo: Conjunto de todas las “características observables” definidas en un
tiempo y espacio determinados (Ej: Todas sus características)
-Población: Conjunto de todas las unidades experimentales con determinadas
características en comùn que estàn siendo estudiadas (Ej: Alumnos del aula 228,
en la que usted forma parte)
-Muestra: Cualquier sub-conjunto de la población (Ej: 10 alumnos del aula 228)
-Variable: Cualquier característica observable de una unidad experimental que
pueda tomar, como mínimo, dos resultados posibles. (Ej: Altura de los alumnos del
aula 228).
¿Qué es la estadística?
Definición 1: Es la ciencia que estudia cuantitativamente los fenómenos aleatorios
“…la ciencia estadística, se puede considerar como la aplicación del método científico en el
análisis de datos numéricos con el fin de tomar decisiones racionales”.(Berenson- Levine;
pag 1
Definición 2: “…La estadística es el arte de aprender a partir de los datos. Está relacionada
con la recopilación de datos, su descripción subsiguiente y su análisis, lo que nos lleva a
extraer conclusiones. Se ocupa de recopilar datos para procesarlos y tomar desiciones a
partir de ellos. (Ross – Pag. 1)
La Estadística posee dos ramas: La deductiva y la inductiva.
• Estadística descriptiva o deductiva: pasa de lo general a lo particular, es decir que, a partir
de los datos de todos los componentes de la población da información sobre algún
individuo, descripción de datos observados a través de gráficos, tablas e indicadores que
buscan simplificar y fotografiar la realidad observada
1
Alejandro M. Silvestri Introducción a la estadística – Clase 1
o La estadística descriptiva es la parte de la estadística relacionada con la
descripción y clasificación de los datos. Se encarga de recopilar información,
ordenarla y analizarla sobre datos del PRESENTE y PASADO; extrae conclusiones
y presenta dicha información. Estudia, en si, el comportamiento de una o mas
variables.
• Estadística inductiva o inferencial: de lo particular saca conclusiones sobre lo general, es
decir, a partir de los datos de una muestra se concluye o infieren las características de la
población. Debido a que mayormente obtener los datos de todos los individuos que se
desean observar resulta ser una tarea compleja o costosa, a través de la Estadística
Inferencial se busca llegar, a partir de algunos datos sobre las variables analizadas, a los
resultados del conjunto total de datos
o La estadística inferencial es la parte de la ciencia relacionada con la extracción de
conclusiones a partir de los datos. Analiza tendencias de las variables para el
FUTURO.
Población y muestra.
• Población: es el conjunto de individuos con una CARACTERÍSTICA EN COMÚN para ser
analizadas. El tamaño de la población se simboliza “N”
• Muestra: es el subconjunto de la población, se simboliza como “n”
Para poder hacer un estudio de la población a través de una muestra, esta tiene que ser
Homogénea (extraida de la misma población), independiente (los elementos seleccionados no
deben condicionarse entre sí) y representativa (debe ser el mejor reflejo posible de la población),
hay diferentes formas de tomar muestras (muestreo)
• Muestreo probabilístico: todos los elementos de la población tienen la misma probabilidad
de ser elegidos.
o Simple al azar: se tiene una lista de la población, se enumera a casa uno y se los
elije por sorteo al azar o con tablas de números aleatorios, hasta que la muestra
necesaria se complete. Lleva mucho tiempo y es muy costoso por eso se utiliza
para poblaciones homogéneas.
o Sistemático: se toma una lista de todos los individuos de la población, se elige el
primer individuo al azar y luego se van tomando los restantes individuos de manera
espaciada, ej cada 3. El problema es que si la muestra esta ordenada puede dar
un resultado de muestra sesgado
o Estratificado: cuando tenemos una población con estratos o subgrupos, tenemos
que identificarlos, dividirlos y después hacer un muestreo simple de cada uno de
ellos. Se utiliza para poblaciones heterogéneas y para tener información
significativa de cada subgrupo
• Muestreo no probabilístico: no podemos estimar la probabilidad de cada individuo de ser
elegidos (ejemplo esquina encuestador) y no sabemos con exactitud cuántos individuos
tenemos que seleccionar para llegar a una conclusión, sirven para hacer generalizaciones
con los resultados.
o Muestreo casual o por cuotas: Consiste en entrevistar de forma casual a los
individuos. Por ejemplo nos ubicamos en una esquina en un determinado barrio y
le preguntamos a la persona nº 1 luego a la nº10 y así sucesivamente.
o Muestreo intencional: en este caso la selección de casos estará dada por algún
experto, por ejemplo se seleccionan lo que se llaman casos “típicos”.
Así como los indicadores que se calculan para la población reciben el nombre de parámetros, en el
caso de la muestra, los mismos se denominan estadísticos o estimadores.
La diferencia más importante entre los parámetros y los estimadores, es que en el caso de los
primeros, al relevarse el total de la población para su cálculo, el valor obtenido será único e
inamovible mientras que el valor del estimador puede variar de una muestra a otra.
2
Alejandro M. Silvestri Introducción a la estadística – Clase 1
Una vez que ya tenemos nuestra población o muestra tenemos que estudiarla. Esta población o
muestra tienen unas características en común y lo que se quiere estudiar se lo llama
VARIABLE ALEATORIA.
Variable aleatoria:
• Características observables de los individuos en estudio (Muestra o población)
o Cualitativas: miden la calidad de una variable (sabor, color), no son numéricas y
no se pueden medir.
§ Nominales: no existe una relación de medida entre ellas (A y B), no puede
decirse que A es mejor que B
§ Ordinales: puede haber relaciones entre ellas (secundario
completo/incompleto), permite hacer medidas pero no numéricas (más o
menos educación)
o Cuantitativas: miden una cantidad, su resultado es un valor numérico, los valores
son finitos entre ellos y pertenecen al dominio.
§ Discretas: solo pueden tener valores enteros (Cantidad de personas)
§ Continuas: entre un valor y otro pueden tomar infinitos valores (peso,
altura) dentro de su dominio y son valores reales.
ETAPAS DE LA TAREA ESTADÍSTICA
1- Formulación del problema y definición de las variables: Para comenzar cualquier
análisis estadístico lo primero que tenemos que realizar es identificar un problema o una
situación sobre la cual queremos llevar a cabo una investigacion e identificar las variables
en estudio.
a. Ejemplo problema de investigación: ¿Cuáles son las características de los
alumnos de UADE del turno mañana? – Variables a analizar: Edad, genero,
altura, peso, carrera que estudian, etc.
2- Recopilación y organización de datos: El primer paso para investigar cualquier problema
de ofrma científica es conocer lo llamado “estado actual de las cosas” o “estado del arte”.
Basicamente es conocer lo que “ya es conocido” en el campo que queremos llevar a cabo
la investigación.
Tenemos diferentes fuentes para juntar datos. Estas pueden ser fuentes EXTERNAS (no
desarrolladas por el investigador. Como son: Censos, documentos, recortes periodísticos,
etc.) o INTERNAS (desarrolladas por el investigación: Encuestas, observacion directa, etc.)
a. Ejemplo problema de investigación “Avances tecnologicos para la patología
A”. Busco en trabajos de investigacion anteriores, libros, diarios, encuestas,
etc. Para ver como viene el desarrollo de lo que estaremos estudiando.
Desde ahí tendremos una base solida para empezar a construir encima de
ello aportando conocimientos
3- Presentación de los datos: ¿Cómo podemos darle a conocer los datos que recolectamos
a los demás? A traves de Gráficos y tablas.
La información que se recolecta puede ser presenta de diferentes maneras: tablas y gráficos
Las tablas se utilizan para agrupar la información, mientras que los gráficos, nos presentan la
información en imágenes.
Gráficos de barras y de torta son usados para las VA Cualitativas.
Graficos y tablas para VA cuanTitativas:
• Gráficos:
o Gráfico de bastones (para variables acumuladas en forma simple)
o Histograma (para variables acumuladas en forma de intervalos)
o Polígono de frecuencias
o Escalonado
o Ojiva
3
Alejandro M. Silvestri Introducción a la estadística – Clase 1
• Tablas:
o Frecuencia simple
o Frecuencia Acumulada por agrupación o intervalos
Frecuencia relativa (fr)
Frecuencia acumulada por izquierda (Fa)
Frecuencia acumulada por derecha (Ga)
4- Análisis de datos: Se realiza a traves de medidas de cálculo, que son características
obtenidas a partir de los valores observados de la variable en estudio que nos permiten
analizarla y caracterizarla.
Hay varios tipos de medidas de cálculo:
a. Medida de tendencia central
Son VALORES DE LA VARIABLE que tienden a encontrarse en el centro del conjunto
ORDENADO de datos.
Son indicadores que nos dan una idea de alrededor de que valores se concentran los datos que
obtuvimos.
• Media, media aritmética o promedio: es la suma de todos los valores dividido por la
cantidad total de valores observados/ obtenidos. Se lo llama el centro de equilibrio de los
datos, se ubica en un lugar que la distancia de todos los valores con respecto al promedio
estén compensadas. Lo malo es que con los valores muy extremos puede tener un
corrimiento tal que puede llegar a no ser representativo de los datos.
o Lo señalizamos para “Poblacion” con la letra “mu”: µ
o Lo señalizamos para una “muestra” con el simbolo “X raya”: X
• Mediana: para obtener la mediana debo tener ordenados los datos en forma creciente.
Este valor nos divide los datos dejando un 50% por debajo de él y un 50% por encima, deja
la muestra dividida en 2 partes iguales. Se la representa como Me y es igual para
población y muestra
o Valores impares: es el valor que está justo en el centro
o Valores pares: es la semisuma de los 2 valores que están en el centro (promedio
de los dos valores)
Da un valor más representativo de los datos pero lo malo es que al no tomar los valores extremos,
puede llegar a concluir que dos muestras son iguales cuando no lo son. (2,3,4,5 y 2,3,4,25)
• Modo o Moda: es el valor que más se repite en el conjunto de datos.
o Amodal (no hay un valor más repetido), Unimodal (un valor es el que más se
repite), bi modal (2 valores se repiten más que le resto de manera igual) o
plurimodal (3 o más)
b. Medidas de posición
Son valores de la variable que indican una posición dentro de un conjunto ordenado de datos.
(Ej: El 25% de las personas ganan menos de $8000)
• Percentil de orden “K”: Es aquel valor de la variable que supera al K% de los datos y a la
vez es superada por el 100%-K% de los datos. Se simboliza en ambos casos como “Pk”
• Mediana: Ver ut-supra. La mediana es tanto MTC como de posición
c. Medidas de variabilidad o dispersión
Son medidas que indican la concentración o dispersión que los valores de la variable tienen
respecto de alguna medida de tendencia central, en general, de la media. Son:
• El rango o recorrido: es la diferencia entre el maximo valor de variable y el mínimo. Se
simboliza tanto para muestra como para poblacion con una “R”.
• Varianza: Resulta de obtener el promedio de la suma de las diferencias cuadradas entre
cada valor de variable y la media. Se simboliza con la letra “sigma” al cuadrado [s2] para
poblacion y con la letra “S” al cuadrado [S2] para la muestra.
• Desvío: Es la raiz cuadrada positiva de la varianza. Se simboliza con la letra “sigma” [s]
para poblacion y con la letra “S” [S] para la muestra.
4
Alejandro M. Silvestri Introducción a la estadística – Clase 1
• Coeficiente de variación: Es un coeficiente que se calcula dividiendo el DESVIO por la
MUESTRA. Si el mismo es mayor a 0,2 interpretamos que: “el conjunto de datos es
heterongéneo” y que “la media NO es representativa para el conjunto de datos”. Mientras
que si es menor a 0,2 decimos que “el conjunto de datos es homogéneo” y que “la media
SI es representativa para el conjunto de datos”.
5- Interpretación de los resultados: Se extraen conclusiones a base de las medidas de
calculo obtenidas en el punto 4- (Ej: Es “poco probable” o “muy probable” que llueva. Ej2:
El promedio de precipitaciones en misiones es de 3mm cada vez que llueve”)