0% encontró este documento útil (0 votos)
19 vistas14 páginas

Estadística Básica 2do Parcial - 240618 - 151531

Cargado por

Ana Taranto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
19 vistas14 páginas

Estadística Básica 2do Parcial - 240618 - 151531

Cargado por

Ana Taranto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Natt Hernández 🌼

Tema 7: Medidas de tendencia central, de posición,


variabilidad y dispersión para variables métricas y no
métricas.

Medidas de tendencia central (estadísticos qué describen datos)

● Moda: valor más frecuente.


● Mediana: valor qué divide al conjunto de observaciones a la mitad (se encuentra en la
posición central de la distribución).
Características:
■ Se requiere al menos la escala ordinal de medición.
■ No influye sobre la mediana los valores extremos.
■ 50% de las observaciones son más grandes qué la mediana.
■ Es única dentro de un conjunto de datos.
¿Cómo se calcula?
1. Ordenar los valores de menor a mayor.
2. Ubico la mediana en los valores ordenados = (total de observaciones +1) 2
Este cálculo me permite saber la ubicación del valor, no es el valor de la mediana. Para
saberlo tengo qué mirar cual es el valor qué está ubicado en está posición.
En el caso qué hayan dos posiciones centrales, se debe calcular la mediana haciendo el
promedio de los dos valores ubicados en esas posiciones centrales.
● Media
Es una función de los datos: mediante la sumatoria de valor qué toma la variable o el total de
los casos observados.
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑡𝑜𝑚𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒
Media aritmética = 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠
Σ𝑥
𝑋= 𝑁
X = representa la media poblacional
𝑁 = número de valores en la población
Σ𝑥 = suma de C valores en la población

Interpretación: tendencia central qué se observa en los datos; valor típico qué representa a
los datos.
Cálculo del promedio aritmético de variables de razón
● Cálculo del promedio a partir del valor de la variable (datos de la matriz): sumar la
cantidad de valores y dividir ese resultado por el total de observaciones.
● Cálculo del promedio de datos tabulados a partir de la frecuencia absoluta:
multiplicar el valor de la variable por la frecuencia absoluta y dividir el resultado
entre el total de casos.
● Cálculo del promedio de datos tabulados a partir de la frecuencia relativa: multiplicar
el valor de la variable por la frecuencia relativa, expresada en decimales y sumar los
resultados.

Cálculo de promedio ponderado de datos agrupados en intervalos:


● Primero se debe calcular la marca de clase qué representa al intervalo (semisuma del
límite inferior y superior del intervalo). Luego se debe multiplicar el valor de la
marca de clase por la frecuencia absoluta y dividir el resultado entre el total de los
casos.
Natt Hernández 🌼

Datos agrupados en intervalos


1. Sustituyo media por marca de clase.
2. Multiplicó marca de clase por frecuencia del intervalo.

Propiedades

1. La suma de las desviaciones de los valores de variable respecto a la media aritmética


es igual a 0.
2. El promedio de una constante es igual a la constante.
3. Al sumar una constante a una variable el promedio será igual al de la variable más la
constante.
4. Si se multiplican los valores de la variable por una constante, el promedio de la
variable resultante es igual al promedio antiguo multiplicado por la constante.
5. Si a todos los valores de una variable se los multiplica por una constante (k2) y se le
suma otra constante (k1), la nueva media aritmética resultará de multiplicar la media
por k2 y sumarle k1.
6. El promedio general de un conjunto de observaciones clasificadas en categorías
mutuamente excluyentes y exhaustivas, es igual a la media ponderada de los
promedios en cada categoría, ponderados por sus tamaños relativos.

Propiedad 6 de la media:
● El promedio general (1) de un conjunto de observaciones clasificadas en categorías
mutuamente excluyentes y exhaustivas, es igual a la media ponderada de los
promedios en cada categoría (2), ponderados por sus tamaños relativos (3).
● La propiedad 6 involucra las tres formas de calcular la media aritmética: la media
aritmética (1) de una variable métrica clasificada en categorías mutuamente
excluyentes, es igual al promedio calculado a partir de la frecuencia absoluta en cada
categoría (2), ponderado por la frecuencia relativa de cada categoría (3).
● Pasos para probar la propiedad 6 de la media>
○ Resultado 1: calcular el promedio (1) a partir de los valores de la matriz.
○ Resultado 2: a partir de los datos agrupados por categorías, calcular la media
ponderada a partir de la frecuencia absoluta de cada categoría (2). Luego, a
partir de los promedios calculados en el paso anterior, calcular la media
ponderada a partir de la frecuencia relativa de cada categoría (3).
○ Resultado 1 = Resultado 2.

Desviación media absoluta

Promedio aritmético de los valores absolutos de las desviaciones con respecto a la medida

Varianza
Promedio del cuadrado de las distancias de cada valor a la medida.
Natt Hernández 🌼

● Interpretación: grado de dispersión (variabilidad) de los datos alrededor de la media.


Difícil de interpretar.
● No se mide en la unidad de la variable en estudio (unidad de la variable elevada al
cuadrado).

Fórmula de cálculo de la varianza

Medidas de posición

Refiere a grupos qué dividen a la distribución de datos en intervalos iguales, de forma qué los valores
se agrupan en base a la misma proporción.
● Quintiles: dividen en 5 partes.
● Deciles: dividen en 10 partes.
● Percentiles: se dividen en 100 partes.

Cálculo de las medidas de posición


Lp = (n + 1) P / 100
Lp = localización del percentil
n = cantidad de casos.
P = percentil qué quiero calcular.

Medidas de dispersión

¿Qué tanto representan a la muestra ( o a la población) los estadísticos de tendencia central)?

Rango = Máximo - Mínimo

Rango intercuartílico (Q3 - Q1)


Natt Hernández 🌼

● Contiene 50% de las observaciones centrales.


● Muestra qué tan dispersos están los valores medios.
● Sirve para observar si hay datos atípicos.
● Se recomienda usarlo cómo medida de dispersión cuando hay valores atípicos.

Desviación típica o estándar

● Definición: raíz cuadrada de la varianza.


● Es la diferencia entre c/ valor individual y la media.
● Se mide en las mismas unidades de la variable.

Teorema de Chesbysheb (para todas las formas de distribución)


+/- 2 DT = 75%
+/- 3 DT = 88,9%
+/- 5 DT = 96%

75% es la proporción de valores qué se encuentran entre la media y +/- 2 desviaciones típicas o
estándar.

Coeficiente de variación (cociente entre la desviación típica y el promedio)

Fórmula

● Es un índice de dispersión relativa.


● En general, se multiplica por 100 y se expresa en %.
Natt Hernández 🌼
● Si es menor del 10% se interpreta pob. homogénea.
● Sirve para comparar dispersión de poblaciones diferentes.
● Usar cuando las medidas están muy distantes.

¿La variable en estudio sigue una distribución normal?

Sí = media y desviación estándar.


No = media recortada, mediana, rango intercuartílico.

Medidas de dispersión, cálculo e interpretación.

Análisis Descriptivo Univariado (ADU) variables métricas

Síntesis
Natt Hernández 🌼
Natt Hernández 🌼
Tema 8: Introducción a la asociación de variables
métricas (correlación y regresión lineal)

El análisis de las relaciones entre dos variables métricas o entre una variable métrica y una
dicotómica, se denomina genéricamente correlación.
En diversas ocasiones es necesario saber si dos variables métricas se mueven o no al unísono. Por
ejemplo en las negociaciones sobre salarios puede ser fundamental averiguar si es cierto o no qué al
elevarse los pagos al trabajo suben los precios al consumidor. Otro ejemplo sería qué a medida qué
aumenta la inversión en investigación científica, más producción de documentos científicos.
En ambos ejemplos, los aumentos en los valores de una variable pueden llevar a un aumento en el
valor de la otra variable, a una disminución o también a qué la otra variable no siga un patrón de
cambio sistemático. Pero también puede ocurrir lo opuesto.

Técnicas para estudiar los vínculos entre variables métricas:


● La representación gráfica de los valores qué se denomina diagrama de dispersión.
● El análisis de regresión lineal múltiple qué ocupa un lugar fundamental en tanto proporciona
un modelo lógico y matemático para la investigación cuantitativa.

El elemento distintivo qué caracteriza los diagramas de dispersión es


la “ubicación” simultánea de los valores de las dos variables: una se
ubica en el eje de las abscisas o el eje horizontal, en tanto qué la otra
en el eje de las ordenadas o el eje vertical.

En el eje de las ordenadas no se registran frecuencias (ni absolutas, ni


relativas) cómo era en el caso de un histograma por ejemplo. En
ambos ejes se ubican los valores de las variables.

La pareja de un valor en Y (variable dependiente) y un valor X (variable


independiente) definen un punto en el plano qué se corresponde a una
unidad de la matriz de datos.
Natt Hernández 🌼
Ejemplo de construcción del gráfico de dispersión:

La forma en qué los puntos son distribuidos en el diagrama de dispersión permite tener una primera
aproximación a la relación entre las dos variables.

La intensidad de la relación está vinculadas al achatamiento de la elipse qué


rodea la nube de puntos y este al grado de alineación qué los puntos tengan.

El análisis de correlación es la forma qué permite establecer la existencia de


la asociación entre dos variables métricas y su intensidad.

Coeficiente correlación r de Pearson, en relaciones lineales


Natt Hernández 🌼
Fórmula de r de Pearson:

Es una medida estadística diseñada para establecer la relación entre dos variables métricas. Está
permite medir la variación conjunta de las mismas. La covarianza muestral se denomina cómo Sxy y
su fórmula es:

Aplicando fórmulas de álgebra se puede obtener qué la correlación es igual a la covarianza dividida
entre el producto de las desviaciones estándar de las dos variables:

Ajuste de la recta de regresión y= a + bx + :


El propósito de un análisis de regresión es calcular los valores de a y b para desarrollar una ecuación
lineal qué se ajuste mejor a la nube de puntos, donde a es la intersección de Y con el eje (valor
estimado de Y donde la recta de regresión cruza el eje Y cuando X=0); b es la pendiente de la recta, o
el cambio promedio de Y por cada cambio de unidad de la variable independiente x. Por otro lado, x
es cualquier valor de la variable independiente qué se seleccione e es el error aleatorio cuya
distribución teórica es normal estándar N (0.1).

De todas las posibles rectas qué se pueden ajustar a la nube de puntos… ¿Cuál es la mejor?

Una forma más precisa de encontrar la recta qué mejor se


ajusta es el método de mínimos cuadrados, este método
encuentra la línea qué hace mínima la suma de los
cuadrados de las desviaciones respecto a ella (los errores)
de todos los puntos qué corresponden a la información
recogida.
Natt Hernández 🌼

Por el método de mínimos cuadrados, se encuentra qué los parámetros estimados tienen las
siguientes fórmulas:
Pendiente de regresión:

r= coeficiente de correlación
Sy = desviación estándar de la variable dependiente (Y)
Sx = desviación estándar de la variable independiente (X).

Intersección con el eje Y:

Coeficiente de determinación R 2

Indica la proporción de la varianza total de la variable qué es explicada por la regresión. Refleja la
bondad del ajuste de un modelo a una variable qué pretende explicar. Para la regresión lineal simple,
el coeficiente de determinación se puede calcular elevando al cuadrado del valor de la r de Pearson,
por lo qué se conoce como: R cuadrado.
Indica la proporción de la variación de una variable debido a la variación de la otra y viceversa.
El coeficiente de determinación, r al cuadrado o R puede adoptar cualquier valor entre 0 y 1.
Multiplicandolo por 100 se puede leer cómo el porcentaje de Variación explicada por la otra variable.
Natt Hernández 🌼
Tema 9: Introducción al muestreo

Conceptos básicos

➪ Estadística descriptiva: organiza, presenta, describe, caracteriza y analiza un conjunto de datos


utilizando métodos numéricos y gráficos qué resumen y presentan la información contenida en ellos.

➪ Estadística Inferencial: comprende los métodos y procedimientos para deducir propiedades /


realizar inferencias de una población a partir de una pequeña parte de la misma (muestra).

➪ Estadísticos o estimadores: medidas qué resumen información de una


muestra y se los utiliza para realizar inferencias sobre los parámetros
poblacionales.

➪ Parámetros: medidas qué resumen información sobre una población.

➪ Probabilidad: es una medida de posibilidad de qué algo ocurra en el futuro.

➪ Muestreo: es la técnica más utilizada para obtener una muestra a partir de una población. Para
lograr una buena inferencia, es importante generar una muestra adecuada, qué sea represenativa de
la población.

Etapas del diseño muestral

1. Definir la población
2. Determinar el marco de la muestra. El marco refiere a una lista de elementos qué forman la
población objetiva, se conocen cómo ‘unidades muestrales’.
¿Cuándo un marco es considerado defectuoso?
● Cuando aparecen elementos qué no pertenecen a la población objetiva.
● Cuando no aparecen todos los elementos de la población o no se ha actualizado.
● Cuando se duplican los elementos.
Natt Hernández 🌼
3. Determinar el tamaño de la muestra: tiempo y recursos, varianza o heterogeneidad de la
población, margen de error máximo admisible, nivel de confianza.
4. Seleccionar la técnica de extracción de la muestra
Tips de muestreo
● Probabilístico
○ Rigor matemático
○ Comprobación de la hipótesis
○ Inferir sobre parámetros poblacionales
● No probabilístico
○ La indagación exploratoria (estudios piloto).
○ Estudios cualitativos, más interesadas en profundizar en la información
aportada qué en su representatividad estadística.
○ Investigaciones sobre población ‘marginal’, de difícil registro y localización.

Muestreos probabilísticos
● Muestreo aleatorio simple
○ Exige la existencia de un marco muestral.
○ Este diseño provee las probabilidades de selección para cada una de las
posibles muestras pertenecientes al marco.
○ Puede ser con o sin reemplazo.
● Muestreo aleatorio sistemático
Se hace una selección aleatoria del primer elemento dentro del marco para la
muestra, y luego se seleccionan los elementos posteriores utilizando intervalos fijos
o sistemáticos (K) hasta alcanzar el tamaño de la muestra deseado.
● Muestreo estratificado
Supone la clasificación de las unidades de población (contenidas en el marco de
muestreo escogido), en un número reducido de grupos (estratos), en razón de su
similaridad, dictada por las características observadas en el marco muestral. Con ello
se persigue qué cada estrato tenga representación en la muestra final.
○ Busca la homogeneidad dentro del estrato y la heterogeneidad entre los
estratos.
○ Se selecciona aleatoriamente una muestra de cada estrato.
○ La unidad de muestreo es el individuo.
● Muestreo aleatorio por conglomerados
○ Busca heterogeneidad dentro de los conglomerados.
○ Se extrae muestra aleatoria de conglomerados.
○ La unidad de muestreo es el conglomerado.

Muestreos no probabilísticos
● Muestreo casual o accidental
Los individuos se eligen de manera causal, sin ningún juicio previo. Las personas
qué realizan el estudio eligen un lugar o un medio, desde ahí realizan el estudio a los
individuos de la población qué accidentalmente se encuentren a su disposición.
● Muestreo estratégico, intencional o de conveniencia
○ La selección de las unidades muestrales responde a ciertos criterios
subjetivos, acordes con los subjetivos de la investigación.
○ Es habitual en estudios cualitativos, no interesados en la generalización
estadística.
Natt Hernández 🌼
○ El investigador elige a los miembros solo por su proximidad y no considera
si realmente estos representan muestra representativa de toda la población o
no.
● Muestreo por cuotas
○ Implica tomar una muestra muy personalizada qué sea proporcional a alguna
característica o rasgo de la población.
○ Se diferencia del muestreo estratificado en qué la selección no se hace
probabilísticamente.
● Muestreo bola de nieve
○ Las unidades muestrales van escogiéndose sucesivamente, a partir de las
referencias aportadas a los sujetos a los qué ya se ha accedido.
○ A su vez, los nuevos casos identifican a otros individuos en su misma
situación, la muestra va aumentando, cómo ‘una bola de nieve’, hasta qué el
investigador decide cortar.
○ Es utilizada por los investigadores para identificar a los sujetos potenciales
en estudios en donde los sujetos son difíciles de encontrar.
5. Ejecución del proceso de muestreo

También podría gustarte