0% encontró este documento útil (0 votos)
61 vistas232 páginas

Manual Pye (Rma)

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
61 vistas232 páginas

Manual Pye (Rma)

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1

UNIVERSIDAD VERACRUZANA

EXPERIENCIA EDUCATIVA
Probabilidad y estadística

NOMBRE DEL ALUMNO


Abraham Rodríguez Morales

MATRICULA
Zs20006796

FECHA
6 de diciembre de 2021

DOCENTE
Ing. María del Pilar Vega Trujillo
2

Unidad l

1.1 Conceptos

1.1.1 Estadística

La estadística consiste en métodos, procedimientos y fórmulas que

permiten recolectar información para luego analizarla y extraer de ella

conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y

que su principal objetivo es mejorar la comprensión de los hechos a partir

de la información disponible.

1.1.2 Estadística descriptiva Inferencial.

La estadística puede dividirse en dos:

• Estadística descriptiva

• Estadística inferencial

La estadística descriptiva se dedica a recopilar, agrupar,

presentar los datos. En ocasiones la serie de datos es muy difícil

de analizar y de trabajar por el número relativamente grande de

datos, por lo tanto, conviene que cuando esta serie de datos


3

exceda o sea igual a 25 se trabaje con clases o grupos de datos

que se definirán por medio de un intervalo.

Este proceso de agrupación se pude realizar mediante los

siguientes pasos:

1. Encontrar el menor (m) y el mayor (M) de la serie de

datos.

2. Encontrar el rango del conjunto de datos: R = M-m

3. Encontrar el número de clases que se utilizarán para la

agrupación y estará

determinado por: n donde n es el número de observaciones.

4. Definir la amplitud de cada uno de los intervalos:

5. Obtener los limites inferiores de cada intervalo

6. Realizar el conteo del número de datos que pertenecen a

cada uno de los intervalos.

La estadística inferencial es una parte de la estadística que

busca los métodos y los procedimientos adecuados para poder

hacer inferencias en una población usando como base una parte

de ella, lo que se conoce con el nombre de muestra. Son una serie

de pruebas de estimación y de hipótesis, paramétricas y de

proporciones.

Es un proceso que utiliza una serie de mecanismos que

permiten establecer y encontrar deducciones utilizando también


4

pruebas de estimación puntual, pruebas de hipótesis, paramétricas

y no paramétricas. Es una ciencia que sirve para analizar las

poblaciones y las tendencias para conocer las acciones y

reacciones ante condiciones específicas.

Las principales características que pueden ser observadas

en la estadística inferencial son las siguientes:

• Ayudan a expresar la información que ha sido

recopilada por medio de datos.

• Puede ser conocida con el nombre de estadística

analítica.

• Es una rama de la estadística.

• Utiliza información que ha sido recolecta por medio de

estudios aplicados a las muestras.

• Utiliza diferentes hipótesis para obtener los

resultados.

• Realiza análisis a muestras de pequeño tamaño

dentro de la población que se estudia.

• Participa activamente en estudios científicos y en

análisis de mercadeos.

1.1.3 Población, muestra

Desde la estadística:
5

• Población infinita: no se conoce el tamaño y no se tiene la

posibilidad de contar o construir un marco muestral ( listado en el que

encontramos las unidades elementales que componen la población)

• Población Finita: Se conoce el tamaño, a veces son tan grandes

que se comportan como infinitas. Existe un marco muestral donde hallar

las unidades de análisis ( marcos muestrales = listas, mapas,

documentos)

En la investigación:

• Población de estudio- blanco o diana: población a la que queremos

extrapolar los resultados.

• Población accesible: conjunto de casos que satisfacen los criterios

predeterminados y que al mismo tiempo son accesibles para el

investigador;

• Población elegible: determinada por los criterios de selección.

Muestras:

• Cualquier subconjunto del universo. Desde la estadística pueden

ser

probabilísticas o no probabilísticas.

Unidad muestral.
6

• Conjunto de elementos extraídos de la población que conforman la

muestra.

• Las unidades elementales y las unidades muestrales pueden no

coincidir. Por ejemplo, para estudiar técnicas de estudios en niños de

escuelas primarias, la UE serán los niños, pero en un muestreo

probabilístico primero debemos muestrear las escuelas (UM)

1.1.4 Parámetro, estadígrafo

Parámetro: Son las medidas o características descriptivas

inherentes a las poblaciones. Los salarios promedio de todos los

empleados de una empresa, puede ser un ejemplo de parámetro.

Estadístico o Estadígrafo: Son las medidas descriptivas

inherentes a una muestra, las cuales pueden usarse como

estimación del parámetro. Como ejemplo podría tomarse los


7

salarios promedio de una muestra de los empleados de la

empresa.

1.1.5 Dato

Los datos son una colección de hechos, como números,

palabras, medidas, observaciones o simplemente descripciones de

cosas.

Cualitativos vs cuantitativos

Los datos pueden ser cualitativos o cuantitativos.

Los datos cualitativos son información descriptiva (describen

algo)

Los datos cuantitativos son información numérica (números)

Tipos de Datos

Los datos cuantitativos pueden ser Discretos o Continuos:

Los datos discretos solo pueden tomar ciertos valores (como

números enteros)

Los datos continuos pueden tomar cualquier valor (dentro de

un rango)

En pocas palabras: se cuentan datos discretos, se miden

datos continuos
8

1.1.6 Constante, variable.

Variable: Característica que puede presentar distintas

modalidades. Por ejemplo, la variable "género" solo presenta dos

modalidades (mujer y hombre), y la variable "depresión" presenta

un número infinito de modalidades, (las magnitudes de gravedad

con que puede afectar a las personas).

Una constante es una cantidad que no cambia su valor. Las

constantes también están simbolizadas por una letra inglesa o

griega. Por lo general, representa un número real que tiene

propiedades especiales en el contexto del problema o el escenario

en el que se utiliza.
9

1.1.7 Tipos de variable.

Variable cualitativa

Artículo principal: Variable cualitativa.

Las variables cualitativas son aquellas características o

cualidades que no pueden ser calculadas con números, sino que

son clasificadas con palabras.

Este tipo de variable, a su vez, se divide en:

Cualitativa nominal: aquellas variables que no siguen ningún

orden en específico. Por ejemplo, los colores, tales como el negro,

naranja o amarillo.
10

Cualitativa ordinal: aquellas que siguen un orden o jerarquía.

Por ejemplo, el nivel socioeconómico alto, medio o bajo.

Cualitativa binaria: variables que permiten tan solo dos

resultados. Por ejemplo, sí o no; hombre o mujer.

Variable cuantitativa

Artículo principal: Variable cuantitativa.

Las variables cuantitativas son aquellas características o

cualidades que sí pueden expresarse o medirse a través de

números.

Este tipo de variable, a su vez, se divide en:

Cuantitativa discreta: aquella variable que utiliza valores

enteros y no finitos. Por ejemplo, la cantidad de familiares que

tiene una persona, tal como 2, 3, 4 o más.

Cuantitativa continua: aquella variable que utiliza valores

finitos y objetivos, y suele caracterizarse por utilizar valores

decimales. Por ejemplo, el peso de una persona, tal como 64.3 kg,

72.3 kg, etc.

Ejemplos de variable estadística

A continuación se exponen ejemplos de cada tipo de

variable estadística:
11

Variables cualitativas

Nominal: el color de pelo de una persona, tal como castaño,

rubio o morocho.

Ordinal: la condición de un pasaporte, del tipo aprobado,

denegado o en espera.

Binaria: ante la pregunta de si una persona posee hogar

propio, la respuesta será sí o no.

Variables cuantitativas

Discreta: la cantidad de primos que tienen una persona, tal

como 2, 4, 6 u 8.

Continua: la estatura de una persona, tal como 1,65 cm.

1.2 Distribuciones de Frecuencia.

Las distribuciones de frecuencias son tablas en que se dispone las modalidades

de la variable por filas. En las columnas se dispone el número de ocurrencias por cada

valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la

obtención de la información que contienen los datos.

Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la

exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes

datos:
12

La inspección de los datos originales no permite responder fácilmente a

cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil

determinar la magnitud de la diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la

variable acompañados del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.

f: Frecuencia (también se simboliza como ni).

La distribución de frecuencias de los datos del ejemplo muestra que la actitud

mayoritaria de los individuos del grupo estudiado es indiferente.


13

La interpretación de los datos ha sido facilitada porque se ha reducido el número

de números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de

la variable y 5 frecuencias).

Generalmente las tablas incluyen varías columnas con las frecuencias relativas

(son el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "p i"),

frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los

valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la

frecuencia acumulada también es definida incluyendo al valor de referencia), frecuencias

acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas

de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa")

Ejemplo: Consideremos el siguiente grupo de datos:

La distribución de freciemcias es:


14

La reducción de datos mediante el agrupamiento en frecuencias no facilita su

interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla

agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores

incluidos en los intervalos:


15

Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar

inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el 75%

de los datos tiene valor inferior a 46.

Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".

Elementos básicos de las tablas de intervalos:

 Intervalo: Cada uno de los grupos de valores de la variable que

ocupan una fila en una distribución de frecuencias

 Límites aparentes: Valores mayor y menor del intervalo que son

observados en la tabla. Dependen de la precisión del instrumento de medida. En

el ejemplo, los límites aparentes del intervalo con mayor número de frecuencias

son 34 y 39.
16

 Límites exactos: Valores máximo y mínimo del intervalo que podrían

medirse si se contara con un instrumento de precisión perfecta. En el intervalo 34-

39, estos límites son 33.5 y 39.5

 Punto medio del intervalo (Mco Marca de clase): Suma de los límites

dividido por dos. Mc del intervalo del ejemplo= 36.5

 Amplitud del intervalo: Diferencia entre el límite exacto superior y el

límite exacto inferior. En el ejemplo es igual a 6.

1.2.1 Recolección y organización

Importancia de la organización y aplicación de datos.

Es fundamental en numerosas actividades de la vida cotidiana

Los gobernantes necesitan datos demográficos, económicos y sociales, para

elaborar planes de desarrollo.

En las investigaciones certificas, los resultados de los experimentos se registran

y analizan cuidadosamente.

En la Industria de los alimentos se toman constantemente muestras de los

productos elaborados para analizarlos y verificar que cumplan con las normas

sanitarias.

Formas de recolección de datos:

 Observación directa

 Entrevistas no estructuradas
17

 Revisión documental

 Cuestionario, etc.

Tabla de Datos:

Tabulación: puede ser a través de una serie simple, con la presentación de los

datos recogidos en forma de tabla ordenada.

1.2.2 Límites de clase

Cada clase está delimitada por el límite inferior de la clase y el límite superior de

la clase.

En una distribución de frecuencias agrupadas el límite inferior de una clase

pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el

siguiente intervalo.

Rango

El rango de clase, conocido también como amplitud de clase o recorrido de

clase, es el límite dentro de los cuales están comprendidos los valores de la serie de

datos, en otras palabras, es el número de diferentes valores que toma la variable en un

estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y

el valor mínimo que ésta toma en una investigación cualquiera. El rango de una

distribución de frecuencia se designa con la letra R.

Cálculo de límites de clase


18

En una distribución de frecuencia, los límites de clase son los valores que

separan las clases.

Usamos los siguientes pasos para calcular los límites de clase en una

distribución de frecuencia:

1. Reste el límite de clase superior para la primera clase del límite de clase

inferior para la segunda clase.

2. Divida el resultado por dos.

3. Reste el resultado del límite de clase inferior y sume el resultado al límite de

clase superior para cada clase.

Los siguientes ejemplos muestran cómo utilizar estos pasos en la práctica para

calcular los límites de clase en una distribución de frecuencia.

Ejemplo:

Supongamos que tenemos la siguiente distribución de frecuencia:

Utilice los siguientes pasos para calcular los límites de la clase:

1. Reste el límite de clase superior para la primera clase del límite de clase

inferior para la segunda clase.


19

El límite de clase superior para la primera clase es 60,9 y el límite de clase

inferior para la segunda clase es 61. Por lo tanto, obtenemos: 61 – 60,9 = 0,1 .

2. Divida el resultado por dos.

Luego, dividimos el resultado entre 2. Entonces, obtenemos 0.1 / 2 = 0.05 .

3. Reste el resultado del límite de clase inferior y sume el resultado al límite de

clase superior para cada clase.

Por último, restamos 0.05 del límite de clase inferior y agregamos 0.05 al límite

de clase superior para cada clase:


20

Interpretamos los resultados de la siguiente manera:

 La primera clase tiene un límite de clase inferior de 55,95 y un límite de clase

alta de 60,95.

 La segunda clase tiene un límite de clase inferior de 60,95 y un límite de clase

alta de 65,95.

 La tercera clase tiene un límite de clase inferior de 65,95 y un límite de clase alta

de 70,95.

Y así.

1.2.3 Límites reales de clase

Límites reales

Los límites reales o verdaderos de una clase son aquéllos que se obtienen

restándole media unidad de medida al límite aparente inferior de una clase y

sumándole media unidad de medida al límite superior aparente de las diferentes clases,

es decir, son valores no observables de la variable en estudio, puesto que no lo registra

la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real

(LSR).

Por ejemplo:

Si las alturas se registran con aproximación de pulgada, el intervalo de clase 60

- 62 teóricamente incluye todas las medidas desde 59,5000... a 62,5000 …

pulgadas. Estos números, representados brevemente por los números exactos


21

59,5 y 62,5, se conocen como límites reales de clase o límites verdaderos de

clase; el menor de ellos, 59,5, es el límite real inferior y el mayor de ellos, 62,5, es el

límite real superior.

Prácticamente, los límites reales de clase se obtienen sumando al límite superior

de un intervalo de clase el límite inferior del intervalo de clase contiguo superior y

dividiendo por 2.

A veces, los límites reales de clase se utilizan para simbolizar las clases. Por

ejemplo, las diferentes clases de la primera columna de la Tabla 1 podrían indicarse

por 59,5 - 62,5, 62,5 - 65,5, etc.

Sin embargo, con tal notación aparece una ambigüedad, pues los límites reales

de clase no coincidirían con las observaciones reales. Así si una observación fuese

62,5 no sería posible discernir si pertenece al intervalo de clase 59,5 - 62,5 o al 62,5 -

65,5.

Reglas generales para construir las distribuciones de frecuencias por intervalos


22

1. A = ( X1, X2, … , Xn )

2. Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o

muestra

3. Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos

(homogenizar los datos)

R = (valor mayor – valor menor) = Xn – X1

Encontrar el rango o recorrido (R) de los datos:

4. Encontrar el número de clases o intervalos de clases (K). El número de clases

debe ser tal que se evite el detalle innecesario, pero que no conduzca a la perdida de

más información de la que puede ser

Nota: el resultado siempre se aproxima al siguiente entero si excede al número

entero obtenido, no importa el monto de la fracción excedida al entero

˜ C = se lee "se aproxima a…"

6. El dato menor (X1) será el límite inferior de la primera clase. A él se le suma C

y se obtiene el límite superior de la primera clase que también será el límite inferior de

la segunda clase. Luego se suma nuevamente C y se obtiene el límite superior del

segundo intervalo e inferior del tercero. Y así sucesivamente hasta que el límite

superior corresponda o supere ligeramente el valor mayor ( Xn ), la cantidad de clases

obtenidas deberá corresponder con el número K calculado mediante la fórmula de

Sturges.
23

7. Una vez construidos los intervalos se calculan, mediante tabulación de

acuerdo a los limites inferiores y superiores de las clases, las frecuencias absolutas,

relativas, porcentuales y acumuladas correspondientes.

8. Con los datos obtenidos se procede a construir la tabla de distribución de

frecuencia.

1.2.4 Marcas de clase

En las estadísticas se usa lo que se conoce como marca de clase o punto

medio. Se trata entonces de ese valor que está ubicado justo en el centro de la clase.

Esta marca de clase es la que se encarga de representar todos los demás valores que

aparecen en esa misma categoría. Es muy común su uso en lo que es el cálculo de

parámetros. Por ejemplo, en la desviación estándar o en lo que es la media aritmética.

Comprendemos pues que la marca de clase es el punto medio que todo

intervalo debe tener. Muy utilizado en los procedimientos que se hacen con la idea de

poder encontrar la variación que hay en cualquier conjunto de datos que se ordenan

por grupos según su clase. Esto es lo que permite que se pueda comprender la

distancia que existe entre el centro y los datos determinados.


24

Por ejemplo:

Marca de clase, es el punto medio de cada intervalo.

La marca de clase, viene dada por la semisuma de los límites del intervalo.

Es la siguiente;

1.2.5 Tamaño de clase.

Clase de igual tamaño

Este tipo de clase es el más utilizado en los cálculos estadísticos; cuando todas

las clases son del mismo tamaño, los cálculos relacionados con la distribución de

frecuencia son simplificados considerablemente. En términos generales, este tipo de

distribución es el que se utiliza comúnmente en casi todas las investigaciones.

Por ejemplo:
25

Clase desigual de tamaño

Los intervalos de clase son desiguales no son frecuentes en el análisis estadístico, la

utilización de los mismos se debe evitar; sin embargo, en algunas

investigaciones es indispensable su utilización; tal es el caso de las investigaciones que

tienen como propósito particular analizar valores que varían en un amplio recorrido de

la variable. Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser

incrementados de una forma ordenada, de ser posible. Este tipo de clases se utiliza

algunas veces para reportar datos relacionados con valuaciones de activos o ingresos

personales.

Ejemplo:

Clase abierta

Son aquellas en la que uno de sus dos los límites de clase no están definido

numéricamente. Este tipo de clase se utiliza cuando las distribuciones poseen algunos

datos u observaciones que son mucho mayores o mucho más pequeños que los demás

y se quiere condensar en uno solo. En lo posible se debe tratar de evitar este tipo de

clase ya que en estas condiciones no es posible definir el punto medio de la

distribución, por lo cual se hace difícil la representación gráfica y en realizar otros


26

cálculos con los datos que se presentan en los cuadros estadísticos. Sin embargo,

existen investigaciones en donde la aplicación de las clases abiertas es conveniente,

por cuanto, la existencia de valores de la serie de datos es mucho menores o mucho

mayores que el resto de la serie.

Por ejemplo:

La amplitud de clase, longitud o ancho de una clase

Es el número de valores o variables que concurren a una clase determinada. La

amplitud de clase se designa con las letras Ic. Existen diversos criterios para

determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado

que lo más importante es dar un ancho de longitud de clase a todos los intervalos de tal

manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto

se logra con la práctica. Existe una fórmula para determinar Ic y se expresa así:
27

Con la fórmula anterior se puede determinar Ic, conociendo el rango y el número

de clases. Cuando se tenga duda en determinar la amplitud de clase de una serie de

valores.

1.2.6 Frecuencias acumuladas

La frecuencia acumulada es el resultado de sumar sucesivamente las

frecuencias absolutas o relativas, desde el menor al mayor de sus valores.

Para calcular la frecuencia acumulada hay que ordenar los datos de menor a

mayor. Para un cálculo más sencillo y una imagen más visual, estos se colocan en una

tabla. Tras tener los datos ordenados y tabulados, la frecuencia acumulada se obtiene

simplemente de ir sumando una clase o grupo de la muestra con la anterior (primer

grupo + segundo grupo, primer grupo + segundo grupo + tercer grupo y así

sucesivamente hasta llegar a acumular del primer grupo al último).

1.2.7 Frecuencias relativas

La frecuencia relativa es una medida estadística que se calcula como el cociente

de la frecuencia absoluta de algún valor de la población/muestra (fi) entre el total de

valores que componen la población/muestra (N).

Para calcular la frecuencia relativa antes es necesario calcular la frecuencia

absoluta. Sin ella no podríamos obtener la frecuencia relativa. La frecuencia relativa se

representa con las letras hi y su fórmula de cálculo es la siguiente:


28

hi = Frecuencia relativa de la observación i-ésima

fi = Frecuencia absoluta de la observación i-ésima

N = Número total de observaciones de la muestra

De la fórmula de cálculo de la frecuencia relativa se desprenden dos

conclusiones:

 La primera es que la frecuencia relativa va a estar acotada entre 0 y 1, debido a

que la frecuencia de los valores de la muestra, siempre va a ser menor al

tamaño de la muestra.

 La segunda es que la suma de todas las frecuencias relativas va a ser 1 si se

mide en tanto por 1, o 100 si se mide en tanto por ciento.

Por consiguiente, la frecuencia relativa nos informa acerca de la proporción o el

peso que tiene algún valor u observación en la muestra. Esto la hace de especial

utilidad, dado que, a diferencia de la frecuencia absoluta, la frecuencia relativa nos va a

permitir hacer comparaciones entre muestras de tamaños distintos. Esta se puede

expresar como un valor decimal, como fracción o como porcentaje.

Ejemplo de frecuencia relativa (hi) para una variable discreta

Supongamos que las notas de 20 alumnos de primer curso de economía son las

siguientes:

1,2,8,5,8,3,8,5,6,10,5,7,9,4,10,2,7,6,5,10.

Por tanto, tenemos:


29

Xi = Variable aleatoria estadística, nota del examen de primer curso de

economía.

N = 20

fi = Frecuencia relativa (número de veces que se repite el suceso, en este caso

la nota del examen).

Ejemplo de frecuencia relativa (hi) para una variable continua

Supongamos que la altura de 15 personas que se presentan a las oposiciones

del cuerpo de policía nacional son las siguientes:

1,82, 1,97, 1,86, 2,01, 2,05, 1,75, 1,84, 1,78, 1,91, 2,03, 1,81, 1,75, 1,77, 1,95,

1,73.
30

Para elaborar la tabla de frecuencias, los valores se ordenan de menor a mayor,

pero en este caso dado que la variable es continua y podría tomar cualquier valor de un

espacio continuo infinitesimal, hay que agrupar las variables por intervalos.

Por tanto, tenemos:

Xi = Variable aleatoria estadística, altura de los opositores al cuerpo de policía

nacional.

N = 15

fi = Frecuencia absoluta (número de veces que se repite el suceso en este caso,

las alturas que se encuentran dentro de un determinado intervalo).

hi = Frecuencia relativa (proporción que representa el valor i-ésimo en la

muestra).

1.2.8 Frecuencias relativas acumuladas

La frecuencia relativa acumulada es el resultado de ir sumando las frecuencias

relativas de las observaciones o valores de una población o muestra. Esta se

representa por las siglas Hi.


31

Para calcular la frecuencia relativa acumulada, hay que calcular primero

la frecuencia absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o

muestra.

Para ello, los datos se ordenan de menor a mayor y se colocan en una tabla.

Una vez hecho esto, la frecuencia relativa acumulada se obtiene de ir sumando las

frecuencias relativas de una clase o grupo de la muestra con la anterior (primer grupo +

segundo grupo, primer grupo + segundo grupo + tercer grupo y así sucesivamente

hasta llegar a acumular del primer grupo al último).

Ejemplo de frecuencia relativa acumulada (Hi) para una variable discreta

Supongamos que las notas de 20 alumnos del primer curso de economía son las

siguientes:

1,2,8,5,8,3,8,5,6,10,5,7,9,4,10,2,7,6,5,10.

Por tanto, tenemos:

Xi = Variable aleatoria estadística (nota del examen de primer curso de

economía).

N = 20

fi = Frecuencia absoluta (número de veces que se repite el suceso, en este

caso la nota del examen).

hi = Frecuencia relativa (proporción que representa el valor i-ésimo en la

muestra).
32

Hi = Frecuencia relativa acumulada (Sumatorio de la proporción que representa

el valor i-ésimo en la muestra).

Ejemplo de frecuencia relativa acumulada (Hi) para una variable continua

Supongamos que la altura de 15 personas que se presentan a las posiciones del

cuerpo de policía nacional son las siguientes:

1,82, 1,97, 1,86, 2,01, 2,05, 1,75, 1,84, 1,78, 1,91, 2,03, 1,81, 1,75, 1,77, 1,95,

1,73.

Para elaborar la tabla de frecuencias, los valores se ordenan de menor a mayor,

pero en este caso dado que la variable es continua y podría tomar cualquier valor de un

espacio continuo infinitesimal, hay que agrupar las variables por intervalos.
33

Por tanto, tenemos:

Xi = Variable aleatoria estadística (altura de los postulantes al cuerpo de policía

nacional).

N = 15

fi = Número de veces que se repite el suceso (en este caso, las alturas que se

encuentran dentro de un determinado intervalo).

hi = Proporción que representa el valor i-ésimo en la muestra.

Hi = Sumatorio de la proporción que representa el valor i-ésimo en la muestra.

1.2.9 Tablas de frecuencias.

Es una tabla donde los datos estadísticos aparecen bien organizados,

distribuidos según su frecuencia, también es una herramienta que permite la realización

de gráficos y diagramas de forma más fácil y eso es gracia a la información que se

recogen en una investigación.


34

Es una herramienta que permite organizar, distribuir los datos según su

frecuencia que se presentan en columnas, permite la realización de gráficos y

diagramas de forma más sencilla, esto se debe a la información que se recogen en la

investigación.

ACTIVIDAD 2

IMPRIMIR Y REALIZAR EN UNA SOLA TABLA DEL INCISO A AL E

MEDIANTE LOS SIGUIENTES DATOS QUE NOS MUESTRAN LAS CALIFICACIONES DE 50


ESTUDIANTES, EN UNA ESCALA DEL 0 AL 100,
CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIAS DE TAMAÑO DE CLASE 10, ( INICIANDO CON
LA MENOR CALIFICACION ) y HALLAR:

A) LIMITES REALES DE CLASE (LRI-LRS)


B) MARCAS DE CLASE (X)
C) FRECUENCIAS ACUMULADAS ( fa )
D) FRECUENCIAS RELATIVAS ( fr )
E) FRECUENCIAS RELATIVAS ACUMULADAS. ( fra )
F) LIMITE INFERIOR DE LA 3A. CLASE
G) LIMITE SUPERIOR DE LA 5A. CLASE
H) FRECUENCIA DE LA 2A. CLASE
I) FRECUENCIA RELATIVA DE LA PRIMERA CLASE.
J) FRECUENCIA ACUMULADA DE LA CUARTA CLASE
K) FRECUENCIA RELATIVA ACUMULADA DE LA PENULTIMA CLASE.
L) ¿CUANTOS ALUMNOS REPROBARON?
M) ¿CUANTOS ALUMNOS APROBARON?
N) ¿QUE PORCENTAJE DE ALUMNOS REPROBÓ
O) ¿QUE PORCENTAJE DE ALUMNOS APROBÓ?
P) ¿QUE PORCENTAJE DE ALUMNOS TIENEN CALIFICACIÓN DE 79 O MENOS?
Q) ¿CUANTOS ALUMNOS TIENEN 80 O MAS DE CALIFICACIÓN?
R) ¿CUANTOS ALUMNOS TIENEN CALIFICACIÓN ENTRE 60- 69?
S) TAMAÑO DE CLASE. ( c )

59 63 55 87 98 64 76 89 90 93

66 50 99 77 97 86 56 88 98 90

78 70 85 65 68 98 65 79 82 97

54 75 76 94 63 89 56 77 84 84

60 56 88 73 69 84 87 96 95 99
35

CALIFICACIO FRECUENCIAS LIMITES MARCAS FRECUENCIAS FRECUENCIAS FRECUENCIAS


NES ( f ) REALES DE CLASE ACUMULADAS RELATIVAS RELATIVAS
( LI - LS ) (X) (fa) ACUMULADAS
LRI-LRS (fr) (fra)

N=

TAMAÑO DE CLASE ( c ) =

F) = M) =

G) = N) =

H) = 0) =

I) = P) =

J) = Q) =

K) = R) =

L) = S) =

ALUMNO: Abraham Rodriguez Morales

SECCION: 301
36

FECHA: 31 de agosto de 2021


37
38

CALIFICACIO FRECUEN LIMITES MARCAS DE FRECUENCIAS FRECUENCIAS FRECUENCIAS


NES CIAS REALES CLASE ACUMULADAS RELATIVAS RELATIVAS
( LI - LS ) ( f ) (X) (fa) ACUMULADAS
LRI-LRS (fr) % (fra) %
50-59 7 49.5-59.5 54.5 7 14 14
60-69 9 59.5-69.5 64.5 16 18 32
70-79 9 69.5-79.5 74.5 25 18 50
80-89 12 79.5-89.5 84.5 37 24 74
90-99 13 89.5-99.5 94.5 50 26 100
N = 50

TAMAÑO DE CLASE ( c ) = 10

F) = 70 M) = 43

G) = 99 N) = 14 %

H) = 9 0) = 86 %

I) = 14 P) = 50 %

J) = 37 Q) = 25

K) = 74 R) = 9

L) = 7 S) = 10

1.3 REPRESENTACION GRAFICA DE LOS DATOS

1.3.1. Gráfica de Barras (o diagrama de barras. Definición y

ejemplos.)

Un gráfico de barras es una forma de resumir un conjunto de datos por

categorías. Muestra los datos usando varias barras de la misma anchura, cada una de

las cuales representa una categoría concreta. La altura de cada barra es proporcional a

una agregación específica (por ejemplo, la suma de los valores de la categoría que

representa). Las categorías podrían ser desde grupos de edad a ubicaciones

geográficas.
39

1.3.2. Histograma. (Definición y ejemplos.)

Un histograma es la representación gráfica en forma de barras, que simboliza la

distribución de un conjunto de datos. Sirven para obtener una "primera vista" general, o

panorama, de la distribución de la población, o de la muestra, respecto a una

característica, cuantitativa y continua.


40
41

1.3.3. Polígono de Frecuencias (Definición y ejemplos.)

Un polígono de frecuencias se forma uniendo los extremos de las barras de un

diagrama de barras mediante segmentos.

También se puede realizar trazando los puntos que representan las frecuencias

y uniéndolos mediante segmentos.


42

Polígonos de frecuencia para datos agrupados

Para construir el polígono de frecuencia se toma la marca de clase que coincide

con el punto medio de cada rectángulo de un histograma.


43

Ejemplo:
44

1.3.4. Ojiva (Definición y ejemplos.)

La ojiva es el polígono frecuencial acumulado, es decir, que permite ver cuántas

observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo

exhibir los números asignados a cada intervalo.

La ojiva apropiada para información que presente frecuencias mayores que el

dato que se está

comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en

cambio la que se

asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al

polígono de

frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma

técnica a una

distribución acumulativa y de igual manera que éstas, existen las ojivas "mayor

que" y las ojivas "menor que".


45

1.3.5. Ojiva Porcentual (Definición y ejemplos.)

Recibe el nombre de ojiva un gráfico que, mediante el trazado de una línea,

muestra las frecuencias acumuladas de la serie. Si representa frecuencias absolutas

acumuladas se llama simplemente ojiva, y si representa los porcentajes de las

frecuencias relativas acumuladas se llama ojiva porcentual.

Para representar una ojiva, se marcan en el eje de abscisas los valores de la

variable y en el eje de ordenadas las frecuencias acumuladas.

Se utiliza para representar series atemporales de frecuencia.


46

Ejemplo

Vamos a representar una ojiva de la serie correspondiente a los complementos

salariales (dietas, desplazamientos...) expresados en euros de los 130 empleados y

empleadas de una empresa, que aparecen reflejados en la siguiente tabla.

Para representar una ojiva y una ojiva

porcentual de la serie, es necesario calcular las

frecuencias acumuladas (ni = frecuencia absoluta, Ni

= frecuencia absoluta acumulada; Fi frecuencia

relativa acumulada; % = porcentaje de la frecuencia

relativa acumulada).
47
48

1.3.6. Gráfica Circular (Definición y ejemplos.)

Un gráfico circular es una representación en una dimensión utilizada para

percibir de una forma más rápida el peso o la proporción de las categorías sobre la

frecuencia total.

Ejemplos de gráfico circular

Suponemos que queremos representar el número de esquiadores que

frecuentan la estación de esquí AlpineSki (A).

Gracias a utilizar un gráfico circular, la información se traslada mejor que a

través de una simple tabla dado que se puede apreciar mejor el peso que representa

cada categoría sobre el total.


49

La variable a representar es el número de esquiadores que visitan la estación de

esquí AlpineSki. Las categorías son los meses del año que hay temporada de esquí, es

decir, desde enero hasta abril. Las etiquetas son la frecuencia relativa de cada

categoría. Es decir, el número de esquiadores que visita la estación de esquí para cada

mes respecto el total de esquiadores.

ACT 4

CON AYUDA DE LOS RESULTADOS DE LA TABLA DE LA ACT 2

GRAFICAR:
50

CALIFICACIO FRECUEN LIMITES MARCAS DE FRECUENCIAS FRECUENCIAS FRECUENCIAS


NES CIAS REALES CLASE ACUMULADAS RELATIVAS RELATIVAS
( LI - LS ) ( f ) (X) (fa) ACUMULADAS
LRI-LRS (fr) % (fra) %
50-59 7 49.5-59.5 54.5 7 14 14
60-69 9 59.5-69.5 64.5 16 18 32
70-79 9 69.5-79.5 74.5 25 18 50
80-89 12 79.5-89.5 84.5 37 24 74
90-99 13 89.5-99.5 94.5 50 26 100
N = 50

GRÁFICA DE BARRAS

13
CALIFICACIONES DE ALUMUNOS

12
FRECUENCIA ABSOLUITA

9
7

50 - 59 60 - 69 70 - 79 80 - 89 90 - 99
CALIFICACIONES

HISTOGRAMA
51

Calificaciones de alumnos
14 13
12

Frecuencia absoluta
12
10 9 9
8 7
6
4
2
0
50 - 59 60 - 69 70 - 79 80 - 89 90 - 99
Calificaciones

POLÍGONO DE FRECUENCIAS

Calificaciones de alumnos
14 13
12
FRECUENCIA ABSOLUTA

12
10 9 9
8 7
6
4
2
0
50 - 59 60 - 69 70 - 79 80 - 89 90 - 99
CALIFICACION DE ALUMNOS

OJIVA

calificaciones de alumnos
49.5 59.5 69.5 79.5 89.5 99.5
frecuencia acumulada

60 60
50 50
40 37 40
30 30
25
20 20
16
10 7 10
0 0 0
50-59 60-69 70-79 80-89 90-99
calificaciones
52

OJIVA PORCENTUAL

GRAFICA CIRCULAR
53

CALIFICACIONES DE ALUMNOS
50 - 59 60 - 69 70 - 79 80 - 89 90 - 99

14%
26%

18%

24% 18%

ACT 5
54

1.4 MEDIDAS DE TENDENCIA CENTRAL (DATOS AGRUPADOS

Y NO AGRUPADOS, DEFINICIÓN Y EJEMPLOS)

DATOS AGRUPADOS

Son medidas estadísticas que se usan para describir cómo se puede resumir la

localización de los datos. Ubican e identifican el punto alrededor del cual se centran los

datos. Las más utilizadas son: la media, la mediana y la moda.

MEDIA

Si en una tabla de distribución de frecuencia, con clases, los puntos medios

son: y las respectivas frecuencias son , la media aritmética se

calcula de la siguiente manera:

Donde el número total de observaciones es

MEDIANA
55

Cuando los datos se encuentran agrupados en una distribución de frecuencia no

se conocen los datos originales, por lo tanto, es necesario estimar la

mediana mediante los siguientes pasos:

1. Calcular el valor

2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo

mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia

acumulada es igual o mayor que

3. Aplicando la siguiente fórmula con los valores del intervalo mediano:

donde:

= Límite inferior de la clase de donde se encuentra la mediana

= Total de frecuencias

= Frecuencia acumulada anterior a la clase mediana

= Frecuencia del intervalo mediano

= amplitud del intervalo de clase

MODA
56

Es el valor que representa la mayor frecuencia absoluta. En tablas de

frecuencias con datos agrupados, se habla de intervalo modal.

Si todos los intervalos tienen la misma amplitud, la moda se calcula por

medio de:

donde:

= Extremo inferior del intervalo modal (intervalo que tiene mayor frecuencia

absoluta).

= Frecuencia absoluta del intervalo modal.

= Frecuencia absoluta del intervalo anterior al modal.

= Frecuencia absoluta del intervalo posterior al modal.

= Amplitud de los intervalos.

CONCLUSIÓN

Las medidas de tendencia central son medidas estadísticas que pretenden

resumir en un sólo valor a un conjunto de valores. Representan un centro en torno al

cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central

más utilizadas son: media, mediana y moda.

Datos no agrupados
57

para que una calificación tenga significado hay que contar con elementos de

referencia generalmente relacionados con ciertos criterios estadísticos.

Supóngase que un determinado alumno obtiene 35 puntos en una prueba de

matemática.

Este puntaje, por sí mismo tiene muy poco significado a menos que podamos

conocer el total de puntos que obtiene una persona promedio al participar en esa

prueba, saber cuál es la calificación menor y mayor que se obtiene, y cuán variadas

son esas calificaciones.

Medidas de tendencia central: Son indicadores estadísticos que muestran hacía

que valor (o valores) se agrupan los datos.

Existen tres medidas comunes para identificar el centro de un conjunto de datos:

la media, mediana y moda. En cada caso, se ubican alrededor del punto en donde se

aglomeran los datos.


58

Media aritmética: Medida de tendencia central usualmente llamada promedio, se

define como la división de la suma de todos los valores entre el numero de datos.

MEDIANA: Del conjunto de datos obtenidos es el valor que al organizar los

datos en orden ascendente o descenderte a la mitad o centro de los mismos. La

posición que ocupa la mediana puede ser determinada mediante la siguiente fórmula:

Mediana =X [(n/2) +1/2]

Ejemplo: Dados los siguientes 8 datos ordenados en orden ascendente:

5,8,8,11,11,11,14,16., encuentra la mediana.

Utilizando la fórmula para ubicar la posición del dato que representa la mediana

indica que:

Mediana = (8/2) +1/2 = 4.5

Por lo que la mediana está ubicada entre el dato 4 y 5; el valor del dato 4 es “

11” y del dato 5 es “ 11”, por lo que al sacar el promedio, da que la mediana de la

muestra estudiada es 11.


59

MODA: Es el dato que ocurre con mayor frecuencia en un conjunto de

elementos estudiados. Del ejemplo anterior donde los datos recopilados son:

5,8,8,11,11,11,14,16; el dato que ocurre con mayor frecuencia es el valor 1, siendo este

valor la moda.

MEDIA PONDERADA: es una media aritmética, en la cual se considera a cada

uno de los valores de acuerdo con su importancia en el grupo.

Mediana Ponderada

En donde:

X = Observación individual

Q= el peso o ponderación asignada a cada observación

Medidas de Tendencia Central para datos agrupados

Cuando se trabaja con datos que han sido agrupados en una distribución de

frecuencias, no se sabe con certeza los valores individuales de cada dato. Por lo que

se utilizan métodos alternos para aproximar los valores de las medidas descriptivas.
60

MEDIA PARA DATOS AGRUPADOS: Al calcular la media para datos

agrupados, se supone que las observaciones en cada clase son iguales al punto medio

de la

clase

MEDIANA: Primero se encuentra la clase mediana, la cual es la clase cuya

frecuencia acumulada es mayor o igual a n/2 y puede determinarse mediante la

siguiente fórmula:
61

LA MODA es la observación que ocurre con mayor frecuencia, por lo que es

necesario identificar la clase modal, esta se localiza encontrando la clase que tenga

más frecuencia.
62

1.4.1. MEDIA ARITMETICA

La media aritmética es un tipo de media que otorga la misma ponderación a

todos los valores.

Existen muchos tipos de media y la más conocida es la media aritmética. Sin

embargo, la idea general se mantiene en todos los tipos de media: queremos saber un

valor promedio. Al ser una medida de tendencia central, lo que busca es aportarnos

información sobre el centro.

En este tipo de artículo veremos la definición, la explicación y el símbolo de la

media aritmética.

La media aritmética es lo que se conoce como media al uso. Sumamos todos los

valores y lo dividimos entre la cantidad de observaciones. Por ejemplo, imaginemos

que queremos saber a cuantos trozos de pizza tocamos. Hay 10 trozos y somos 5

personas. Si lo repartimos a partes iguales, el resultado será de 2 trozos por persona.

Sin darnos cuenta, acabamos de calcular una media aritmética.

Lo hacemos cada día constantemente y sin ser conscientes de ello. Otro

ejemplo, tengo 2 horas para realizar tres ejercicios de estadística. Así pues, dado que

en total tengo disponibles 120 minutos, dedicaré en promedio 40 minutos a cada

ejercicio. Puede que le dediquemos 60 minutos a uno y 30 minutos a cada uno de los

otros dos, sin embargo, nuestra cabeza lo suele calcular de este modo.
63

Símbolo de la media aritmética

El símbolo de la media aritmética es una X con una barra encima. Por lo que

quedaría así ↓

Símbolo de la media aritmética → x̄

Cómo calcular la media aritmética

Para calcular la media aritmética es necesario realizar la suma del número de

valores de los que queremos conocer su media. Por ejemplo, si queremos repartir

caramelos entre los alumnos de una clase de forma equitativa, en primer lugar,

calcularemos cuantos caramelos tenemos en total.

Posteriormente, debemos de saber entre cuantos alumnos se van a repartir,

para poder calcular la media aritmética. El número de caramelos lo dividiremos entre el

número de alumnos y obtendremos cuántos caramelos tendremos que darle a cada

uno de ellos para que se repartan de forma igualitaria.

Fórmula de la media aritmética

La fórmula de la media aritmética es la siguiente:


64

Fórmula media aritmética

Si la leemos de izquierda a derecha, veremos que hay tres partes. La primera es

el nombre, la segunda una fórmula pequeña y la tercera el desarrollo. La segunda parte

de la fórmula se lee tal que así: Sumatorio desde 1 hasta N de la variable x dividido

entre N. Adicionalmente, podríamos añadir un comentario que indicase: con i entre 1 y

N. Vamos a ver ahora, qué significa todo esto.

 Sumatorio: El sumatorio nos indica que debemos sumar un conjunto de valores

desde el primero, hasta el N. Así si existen 30 valores, deberemos sumar el

primero, el segundo, el tercero, … , y el treintavo.

 N: Representa el número total de observaciones. Por ejemplo, si tenemos el

peso de 10 manzanas individuales, N vale 10. Ya que tenemos 10 manzanas.

 x: La variable X es sobre la que calculamos la media aritmética. En este caso

sería el peso de las manzanas.

 i: Representa la posición de cada observación. En este ejemplo, podríamos

ponerle una etiqueta a cada manzana, la manzana 1, la manzana 2, etc.

Ejemplos de la media aritmética

Supongamos que nuestras calificaciones en la escuela son:

Asignatura Nota

Matemáticas 7
65

Educación Física 8

Biología 5

Economía 10

N = número total de asignaturas = 4

Entonces aplicando la fórmula que acabamos de exponer, el resultado sería:

Nuestra nota media será de un 7,5.

Veamos otro ejemplo a continuación. Imaginemos que somos cocineros y

queremos saber cuánto tiempo nos suele va elaborar un asado de pollo en el horno,

contabilizando todo el proceso de preparación de los ingredientes.

Día Duración en minutos

26 de julio 110

10 de agosto 103
66

2 de septiembre 120

15 de octubre 97

25 de noviembre 114

En este caso, N = 5 ya que tenemos cinco datos de la duración de la elaboración

de esta comida. Por tanto, sumamos lo siguiente:

110+103+120+97+114 = 544

Este resultado lo dividimos entre 5 y la media aritmética es 108,8 minutos de

duración. El tiempo medio que nos lleva elaborar un asado de pollo con los datos que

tenemos, es de 1 hora y 48,8 minutos.

1.4.2 MEDIANA

¿Qué es la mediana?

La mediana es el valor que ocupa el lugar central de todos los datos cuando

éstos están ordenados de menor a mayor.

La mediana se representa por

La mediana se puede hallar solo para variables cuantitativas.


67

Ejemplo de cálculo simple de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un número impar de medidas la mediana es la puntuación

central de la misma

3 Si la serie tiene un número par de puntuaciones la mediana es la media entre

las dos puntuaciones centrales.

Fórmula y cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega

hasta la mitad de la suma de las frecuencias absolutas.

Es decir, tenemos que buscar el intervalo en el que se encuentre.


68

es el límite inferior de la clase donde se encuentra la mediana

es la semisuma de las frecuencias absolutas

es la frecuencia absoluta de la clase mediana

es la frecuencia acumulada anterior a la clase mediana

es la amplitud de la clase

La mediana es independiente de las amplitudes de los intervalos

Ejemplo de cálculo de la mediana para distribución estadística

Calcular la mediana de una distribución estadística que viene dada por la

siguiente tabla:
69

En primer lugar, crearemos una nueva columna con los valores de la frecuencia

acumulada:

En la primera casilla colocamos la primera frecuencia absoluta. En la segunda

casilla sumamos el valor de la frecuencia acumulada anterior más la frecuencia

absoluta correspondiente y así sucesivamente hasta la última, que tiene que se igual

a
70

Buscamos el intervalo donde se encuentra la mediana, para ello dividimos

la por porque la mediana es el valor central

Buscamos en la columna de las frecuencias acumuladas el intervalo que

contiene a

Clase de la mediana:

Aplicaremos la fórmula para el cálculo de la mediana para datos agrupados,

extrayendo los siguientes datos:


71

1.4.3 MODA

La moda estadística es aquel valor que, dentro de un conjunto de datos, se

repite el mayor número de veces.

La determinación de la moda estadística en un conjunto de datos que no están

agrupados no requiere ningún tipo de cálculo, sino tan solo el conteo de las

variables. Otra forma de determinar la moda en datos no agrupados consiste en

verificar cuál es el valor de mayor frecuencia en una tabla de frecuencias absolutas.

La moda estadística es aplicable tanto para datos de

información cualitativa como cuantitativa.

Tipos de moda estadística

La moda estadística se clasifica de la siguiente manera:

 Moda unimodal: tipo de moda estadística en la cual un único valor se repite el

mayor número de veces dentro de un conjunto de datos.

 Moda bimodal: tipo de moda estadística en la que 2 valores diferentes

presentan el mismo número máximo de repeticiones, dentro de un conjunto de

datos.

 Moda multimodal: tipo de moda estadística en la que 3 o más valores

diferentes presentan el mismo número máximo de repeticiones dentro de un

conjunto de datos.
72

Moda estadística en datos agrupados

Cuando los datos de un conjunto se encuentran agrupados en intervalos, la

moda estadística corresponde al punto medio del intervalo que presenta la mayor

frecuencia.

Teniendo en cuenta lo anterior, el primer paso para calcular la moda en datos

agrupados consiste en determinar cuál es el intervalo de mayor frecuencia en la tabla

que contiene la información agrupada.

Posteriormente se realiza el cálculo de la moda aplicando la siguiente fórmula:

Fórmula para calcular la moda estadística.

Las variables que involucran la ecuación anterior son:

 Li: límite inferior del intervalo donde está ubicada la moda.

 fi-1: frecuencia absoluta del intervalo anterior donde está ubicada la moda.

 fi: frecuencia absoluta del intervalo donde está ubicada la moda.

 fi+1: frecuencia absoluta del intervalo siguiente donde está ubicada la moda.

 Ai: amplitud del intervalo donde está la moda.


73

Ejemplos de moda estadística

Algunos ejemplos de moda estadística son los desarrollados a continuación,

utilizando el caso de una consultora que decide realizar una investigación en una

oficina.

Ejemplo moda unimodal

Número de hijos que poseen los empleados. Luego de realizar la pregunta a 20

empleados, el conjunto de datos es el siguiente: [ 0, 2, 2, 0, 3, 5, 1, 2, 3, 1, 0, 2, 6, 4, 3,

4, 2, 0, 1, 2].

La moda del conjunto es 2, ya que este valor se repite 6 veces, mientras que el

resto de los valores se repite un número de veces inferior.

Ejemplo moda bimodal

Edad de los empleados. Luego de realizar la pregunta a 20 empleados, el

conjunto de datos es el siguiente: [25, 27, 25, 30, 28, 25, 30, 25, 32, 42, 51, 25, 27,30,

33, 30, 42, 40, 51, 30].

Así, la moda del conjunto es 25 y 30, ya que ambos se repiten 5 veces mientras

que el resto de los valores se repite un número de veces inferior.

Ejemplo moda multimodal

Número de habitaciones que poseen sus viviendas. Luego de realizar la

pregunta a 20 empleados, el conjunto de datos es el siguiente: [2, 3, 2, 2, 4, 1, 3, 3, 2,

3, 6, 5, 4,4, 2, 1, 1, 4, 4, 3].
74

La moda del conjunto es 2, 3 y 4, ya que estos valores se repiten 5 veces,

mientras que el resto se repite un número de veces inferior.

Ejemplo moda en datos agrupados

Cuánto es el peso en kilos de los empleados. Luego de realizar la pregunta a 20

empleados, el conjunto de datos es el siguiente:

Kilogramos Frecuencia absoluta (Fa)

[50 – 60] 1

[60 – 70] 4

[70 – 80] 2

[80 – 90] 8

[90 – 100] 5

Sumatoria ∑ 20

Para este cálculo de la moda estadística aplicamos los siguientes pasos:


75

1. Se ubica el intervalo donde se encuentra la mayor frecuencia absoluta, en este

caso en el intervalo [80 – 90] con frecuencia 8.

2. Se aplica la fórmula para calcular la moda en datos agrupados:

Obtenemos así que la moda estadística es de 87.

ACT 6 FECHA DE RECEPCION MARTES 28 DE SEP 2021

1.5 MEDIDAS DE DISPERSION (DATOS AGRUPADOS Y NO

AGRUPADOS DEFINICIÓN Y MINIMO 2 EJEMPLOS DE CADA CASO.)

Datos Agrupados

Los datos agrupados son como lo indica su nombre, una cantidad dada de datos

que puede clasificarse, ya sea por sus cualidades cualitativas o cuantitativas, y por tal

agruparse para su análisis.

Estos datos por lo general son aconsejables agruparles cuando su población

cuenta con alrededor de 20 o más elementos que comparten una característica y caben

dentro de una categorización (repeticiones de un valor), pues permite un mejor manejo


76

y análisis más profundo de los mismos. Porque al emplear este método podemos

manejarlos por clases (una clase es una categoría en la que se agrupan los datos).

Por lo cual pueden organizarse o clasificarse de dos formas: datos agrupados en

frecuencia o en intervalos.

Los datos agrupados en frecuencia son los que se distribuyen u organizan en

una tabla de frecuencia (La frecuencia es igual al número de veces en que se repite

cada valor en una serie de datos.), así, Por medio de ella, es fácil identificar la cantidad

de respuestas repetidas.

Los datos agrupados por intervalos son los que se organizan dentro de un rango

y se delimita su amplitud por límites establecidos. Así, por medio de esta, es fácil

identificar la cantidad de elementos en un determinado rango de valores.

Concluyendo con la distinción de puntos significativos de este tema.

1.- su fin es resumir la información mediante el uso de tablas que organizan sus

elementos y agrupan sus valores para ser presentados numérica o gráficamente. Esto

implica: ordenar, clasificar y expresar los en una tabla de frecuencias o intervalos.

2.- Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque

contemos con más de 20 elementos, debe de verificarse que los datos n sean

significativos, esto es: que la información sea “repetitiva”, también debemos de verificar

que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica

(de acuerdo a lo que se nos está pidiendo).

Ejemplos:
77

Se busca determinar el número de niños en cada uno de los grados escolares de

una primaria, (del 1 al 6 grado), por lo que se recolectan los datos y se organizan y

agrupan en una tabla de frecuencias.

Edad..........Frecuencia

1..................2

2..................4

3..................7

4..................4

5..................2

6..................1

Total............20

Agrupación en intervalos, por ejemplo, de 2 años para este caso.

Edad..........Frecuencia

1-2...............6

3-4...............11

5-6...............3

Total.............20

1.5.1 Rango
78

El Rango es el intervalo entre el valor máximo y el valor mínimo; por ello,

comparte unidades con los datos. Permite obtener una idea de la dispersión de los

datos, cuanto mayor es el rango, aún más dispersos están los datos (sin considerar la

afectación de los valores extremos). El rango, también es llamado amplitud o recorrido

de medida.

Fórmula del rango

Para calcular el rango de una muestra o población estadística utilizaremos la

siguiente fórmula:

R = Máxx – Mínx

Donde

 R es el rango.

 Máx es el valor máximo de la muestra o población.

 Mín es el valor mínimo de la muestra o población estadística.

 x es la variable sobre la que se pretende calcular esta medida.

Para ello, no es necesario ordenar los valores de mayor a menor o viceversa. Si

sabemos cuál son los números con mayor y menor valor, tan sólo tendremos que

aplicar la fórmula.

Datos agrupados
79

Datos no agrupados:
80

1.5.2 Desviación Media

Desde una aproximación mucho más específica, la Desviación media ha sido

explicada como la medida aritmética que se da en cuanto a los valores absolutos de las

distintas desviaciones del conjunto de datos, con respecto a la media. En otras

palabras, la Desviación media puede ser tenida entonces como la media que se

obtiene en base a los valores absolutos de las diferencias entre la media y los

diferentes valores del conjunto.

El signo matemático de la Desviación media es Dx mientras que la fórmula

matemática para determinar esta medida será la siguiente:

Es decir, primero se determina la media del conjunto de datos cuantitativos, y

posteriormente este número o valor se le resta a cada uno de los elementos. Luego

estas diferencias se suman, y por último se divide entre el número total de elementos

que conforman la distribución de datos. El resultado de esta operación puede ser

asumido entonces como la Desviación media.

Datos agrupados:

La fórmula para encontrar la desviación media de datos agrupados también

requiere encontrar la media aritmética de los datos, y es por esto que el proceso se

vuelve un poco extenso, porque antes de encontrar la desviación media se debe


81

encontrar antes la media en los datos agrupados, aunque hay casos en los que se da

la media directamente en el problema y en estos casos no hará falta calcularla.

La desviación media se puede encontrar introduciendo directamente los datos en

la fórmula, pero esto llevaría a un proceso desordenado y muy tedioso de realizar, por

esta razón en los ejemplos y ejercicios de este artículo se resolverán utilizando tablas

donde se obtendrá cada parte de la fórmula, para que al final solo haya que colocar los

datos dentro de la fórmula y resolver directamente.

La fórmula de la desviación media es una, pero se presentarán dos, una de la

media aritmética y la otra de la desviación media, porque para encontrar la desviación

media se debe encontrar con anterioridad la media.

Ejemplos:

Ejercicio 1: Se tomo la edad a un grupo de gente y los resultados fueron los

siguientes
82

Este ejercicio se resolverá paso a paso para comprender mejor como sacar cada

dato, primero se va a explicar cómo sacar cada columna de la tabla y que significa

cada columna

f: la letra f representa la frecuencia que hay en cada intervalo, es decir cuantas

personas hay en un intervalo de edades

x: es el valor intermedio de cada intervalo, este se calcula sumando el límite

inferior y el límite superior del intervalo y el resultado de esto se divide entre 2.


83

f * x: es la multiplicación de la frecuencia por el valor promedio del intervalo, esta

columna se ocupa para encontrar la media aritmética

|x - x|: es el valor absoluto de restar x menos la media aritmética


84

|x - x| * f: Y por último esta columna es simplemente multiplicar la columna

anterior por la frecuencia de cada intervalo

Y ahora con estos datos se procede a calcular la desviación media


85

Ejemplo 2:

Se le preguntó a un grupo de personas el tiempo promedio en el que ellos

comen, calcular la desviación media de los minutos en los que estas personas ingieren

sus alimentos.

Este segundo ejercicio se resolverá de manera más directa, en caso de

presentarse alguna duda, ver el ejercicio anterior que está más detallado.

Con estos resultados, primero se van a encontrar las columnas hasta que se

pueda encontrar la media aritmética de los datos, que son x y x * f (para saber cómo se

encuentran, ver el ejercicio anterior)


86

|x - x|: es el valor absoluto de restar x menos la media aritmética

Y ahora con estos datos se procede a calcular la desviación media


87

Datos no agrupados:

Xi: es cada valor del conjunto numérico, x es la media del conjunto, por lo que, si

un problema da solamente los números del conjunto, será indispensable calcular la

media aritmética. N: es el total de elementos que tiene el conjunto.

Ejemplos:

Encontrar la desviación media de la siguiente serie de numeros

{1, 3, 7, 12, 24}


88

Ejemplo 2:

Encontrar la desviación media de los primeros 5 numeros pares

{2, 4, 6, 8, 10}
89

1.5.3 Desviación estándar


90

La desviación típica o estándar es un complemento a las medidas de tendencia

central, las cuales buscan un número que esté en el centro de los datos que pueda

representar la composición de todo un conjunto de elementos, entonces mientras las

medidas de tendencia central representan todo un conjunto en un solo número, la

desviación típica por su parte define que tan bien representa la media a todo el

conjunto.

La desviación típica se representa con el siguiente símbolo S y como la

desviación típica es el resultado de encontrar la raíz cuadrada de la varianza, la

varianza es la desviación típica al cuadrado S2

Datos no agrupados:

La desviación típica se calcula sacando la raíz cuadrada de la varianza y para la

varianza existen 2 formulas diferentes, una para cuando se hace un estudio a una

población y otra cuando se hace a una muestra, hay que recordar que una muestra es

una parte de la población, por ejemplo, una población puede ser un salón de clase de

45 alumnos, pero una muestra sería un grupo de 10 alumnos de esa clase, por lo que

hay que analizar el problema planteado para saber si los datos se recopilan de una

población o de una muestra.


91

Ejemplos:

Se tomo la edad de los integrantes de un curso de francés, encontrar la

desviación típica de las edades.

{18 , 25 , 21 , 22 , 20 , 20 , 19 , 24}

En esta ocasión se estudia la población, por eso se ocupará la fórmula de la

varianza en una población, si fuera una muestra, el denominador en lugar de ser "n"

seria "n-1"
92
93

Ejemplo 2:

Se hace una encuesta a un grupo de trabajo en el que se les pide a algunos de

los integrantes evaluar al jefe de su equipo en una escala de 1 a 10 y los resultados

fueron los siguientes:

{ 7 , 8 , 7 , 5 , 8}

Conociendo las evaluaciones, calcular la desviación típica de los resultados


94
95

Datos agrupados:

Podemos usar la siguiente fórmula para estimar la desviación estándar de los

datos agrupados:

Desviación estándar:

dónde:

 n i : la frecuencia del i- ésimo grupo

 m i : El punto medio del i- ésimo grupo

 μ : la media

 N: el tamaño total de la muestra

Ejemplo:
96

Así es como aplicaríamos esta fórmula a nuestro conjunto de datos:

La desviación estándar del conjunto de datos resulta ser 9,6377.

1.5.4 Varianza

La varianza de una muestra o de un conjunto de valores, es la sumatoria de las

desviaciones al cuadrado con respecto al promedio o a la media, todo esto dividido

entre el número total de observaciones menos 1.

De manera muy general se puede decir que la varianza es la desviación

estándar elevada al cuadrado.

La varianza de una muestra se simboliza como S2, mientras que la varianza de

una población de simboliza como σ2.


97

Donde, representa la sumatoria de la resta entre cada uno de los valores

muestreados () y la media, elevado al cuadrado.

A su vez, representa el número total de observaciones o datos muestreados.

Para valores muy grandes de la varianza es mínima o incluso despreciable.

En cambio, la varianza de una población presenta la siguiente fórmula:

σ2 =

Donde N representa el número total de observaciones o datos muestreados.

Datos agrupados:

Para calcular la varianza de datos agrupados realizaremos una tabla con cada

uno de los pasos vistos en cómo calcular la varianza estadística o podremos sustituir

los valores directamente en la fórmula de la varianza.

La varianza será un valor positivo o cero cuando nos encontramos con

puntuaciones iguales. Si a los valores de las variables les sumamos un número, la


98

varianza no cambiará y si a todos los valores le multiplicamos un número, la varianza

quedará multiplicada por el cuadrado del número.

Ejemplo:

Además, si disponemos de las distribuciones con la misma media y conocemos

sus varianzas podremos calcular la varianza total. A partir de los siguientes datos de la

tabla realizaremos las operaciones especificadas a continuación:

Primero calcularemos la media para poder aplicar la fórmula: x̅ = 1820 /42=43.33

Después sacaremos la varianza: s2 = 88050 / 42 - 43.332=218.94

Deberemos tener en cuenta que la varianza es un índice sensible a las

puntuaciones extremas y cuando no se pueda hallar la media de un conjunto de datos,

tampoco podremos conseguir la varianza.

Ejemplo 2:
99

Calcular la varianza y la desviación estándar de una población de niños a partir

de la siguiente tabla:

Solución:

En este caso, nos dicen que los datos pertenecen a una población de niños, por

lo tanto, usaremos las fórmulas de la población.

Primero calculamos el número de elementos de la población N:

Con ayuda de la tabla, calculamos la suma de las frecuencias fi.


100

Ahora sí, calculamos N.

Como segundo paso, calcularemos las marcas de clase. Recordemos que la

marca de clase xi, es el punto medio del límite inferior y el límite superior de cada

intervalo. Se calcula con la siguiente fórmula:

Agregamos una columna más a nuestra tabla para la marca de clase xi:
101

Como tercer paso, calculamos la media poblacional µ:

Agregamos una columna más a nuestra tabla, dónde colocaremos los valores

de xi・fi:

Aplicamos la fórmula:
102

La media poblacional µ tiene un valor de 4 años.

Como cuarto paso, calculamos la varianza de la población:

Agregamos más columnas a nuestra tabla, buscando la forma de la fórmula de la

varianza:

Aplicamos la fórmula de la varianza de la población:

Recuerda que la varianza queda expresada en unidades al cuadrado, por ello,

nos queda en años al cuadrado.


103

Como último paso, calculamos la desviación estándar, recordando que es la raíz

cuadrada positiva de la varianza.

El valor de la desviación estándar poblacional σ es de 2,175 años.

Datos no agrupados:

Es el resultado de la división de la sumatoria de las distancias existentes entre

cada dato y su media aritmética elevadas al cuadrado, y el número total de datos.

Ejemplo:

La siguiente muestra representa las edades de 25 personas sometidas a un

análisis de preferencias para un estudio de mercado.

Determinar la varianza.

SOLUCIÓN

PASO 1: Calcular la media aritmética.


104

PASO 2: Calcular la varianza

En este punto, la varianza es identificada por S2.

La varianza equivale a 51,8567. Por elevar las unidades al cuadrado, carece de

un significado contextual dentro del análisis descriptivo del caso.

Ejemplo 2:
105

1.5.5. Coeficiente de Variación

El coeficiente de variación, también denominado como coeficiente de variación

de Pearson, es una medida estadística que nos informa acerca de la dispersión relativa

de un conjunto de datos.

Fórmula del coeficiente de variación

Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la

media del conjunto y por lo general se expresa en porcentaje para su mejor

comprensión.

 X: variable sobre la que se pretenden calcular la varianza

 σx: Desviación típica de la variable X.

 | x̄ |: Es la media de la variable X en valor absoluto con x̄ ≠ 0

Datos no agrupados:

Denotado por CV, el coeficiente de variación carece de unidades y se obtiene

dividiendo la desviación estándar por la media y multiplicando por cien.


106

Ejemplo:

Se midieron los pesos, en kg, de los 10 empleados en una oficina postal: 85, 62,

88, 55, 98, 52, 75, 70, 76, 77. Se desea conocer el coeficiente de variación de la

variable peso.

Se calcula la media aritmética y la desviación estándar:

Ahora, se sustituye en la fórmula del coeficiente de variación:

Resp: el coeficiente de variación de la variable peso de las 10 personas en la oficina

postal es de 19.74%, con un peso promedio de 73.80 kg y una desviación estándar de

14.57 kg.

Ejemplo 2:

Un guardaparques sospecha que las poblaciones de conejos blancos y negros

en su parque no tienen la misma variabilidad en tamaño. Para demostrarlo tomó

muestras de 25 conejos de cada población y obtuvo los siguientes resultados:


107

– Conejos blancos: peso promedio de 7.65 Kg y desviación estándar de 2.55 kg

-Conejos negros: peso promedio de 6.00 Kg y desviación estándar de 2.43 kg

¿Está el guardaparques en lo cierto? La respuesta a la hipótesis del

guardaparques la podemos obtener por medio del coeficiente de variación:

Resp: el coeficiente de variación de los pesos de los conejos negros es casi 7% mayor

que el de los conejos blancos, por lo que se puede decir que el guardaparques tiene

razón en su sospecha de que la variabilidad de los pesos de las dos poblaciones de

conejos no es igual.

Datos agrupados:
108

Ejemplos:
109

1.5.6. Cuantiles

Sabemos que la mediana divide a los datos en dos partes iguales, también tiene

interés estudiar otros parámetros, llamados cuantiles, que dividen los datos de la

distribución en función de otras cantidades. Los más importantes son los cuartiles,

quintiles, deciles y percentiles.


110

Cuartiles: son tres valores que divides la serie de datos en cuatro partes

iguales. Se representan por Q1(cuartil primero), Q2 (cuartil segundo) y Q3 (cuartil

tercero)

Quintiles: son cuatro valores que dividen la serie de datos en cinco partes

iguales: K1, K2, K3 y K4.

Deciles: Son nueve valores que dividen la serie de datos en 10 partes iguales:

D1, D2, ..., D9.

Percentiles: son 99 valores que dividen la serie de datos en 100 partes

iguales: P1, P2, ..., P99.

Cálculo de los cuantiles

Debido a que los cuantiles son parámetros del tipo de la mediana, su cálculo se

realiza de forma análoga.

Algunas de las fórmulas son las siguientes:


111

Datos agrupados:

Ejemplos:

Calcularemos el cuantil de orden 0,30 de la edad de la población de una aldea

resumida en la tabla:

Nuestro primer paso será hallar el intervalo en que se encuentra nuestro cuantil:

De un total de 64 datos, el cuantil 0,30 ocupará la posición np=64×0,3=19,2.

Observamos en la columna de frecuencias acumuladas que este valor, por estar

comprendido entre 9 y 27, corresponde al intervalo 20-40.


112

Dentro de este intervalo, seleccionaremos el valor de nuestro cuantil por

simple interpolación lineal. Para ello, siguiendo las indicaciones del gráfico, solo será

necesario hacer una regla de tres.

Observamos en la figura dos triángulos semejantes: OAB y OCD. El cuantil

buscado corresponderá a la abscisa 20+x. Razonando por semejanza, OB=x es

a AB=10,2, como OD=20 es a CD=18. Despejando obtenemos x=11,33, luego el cuantil

buscado es a 20+x=31,33.

1.5.6.1 Mediana

La mediana en un conjunto de datos es el número que se encuentra en el centro

de la serie cuando los elementos del conjunto están ordenados, ya sea de menor a

mayor o de mayor a menor, la mediana no cambia en ninguno de los 2 casos. Cuando

se tienen datos individuales es muy simple poder definir la mediana porque solo se

tienen que ordenar los números y luego encontrar el número que está en medio, pero
113

cuando se quiere encontrar la mediana en datos agrupados no se pueden ordenar los

números individualmente porque lo que se tiene son intervalos con su respectiva

frecuencia, entonces para encontrar la mediana de datos agrupados se tienen que

realizar más pasos.

Datos no agrupados:

Sean los datos de una muestra ordenada en orden creciente y

designando la mediana como distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición una

vez que los datos han sido ordenados (en orden creciente o decreciente), porque este

es el valor central. Es decir:

b) Si n es par, la mediana es la media aritmética de los dos valores centrales.

Cuando n es par, los dos datos que están en el centro de la muestra ocupan las

posiciones y . Es decir:

Datos agrupados:

Como se puede observar en la fórmula de la mediana para datos agrupados hay

muchas variables que se deben encontrar para luego introducirlas en la fórmula y así

calcular la mediana, por eso a continuación se definirá que significa cada una de las

variables a encontrar y cómo se encuentran, aunque si por algún motivo es difícil

entender la siguiente teoría, se recomienda ir a la parte de los ejemplos donde se

demuestra de manera aplicada.


114

n/2: en este fragmento de la formula, la letra n es la suma de todas las

frecuencias y a parte este resultado ayuda a encontrar el intervalo donde está la

mediana, pues la mediana está en el primer intervalo donde la frecuencia absoluta sea

mayor al resultado de n/2.

Fi-1: Fi en mayúscula es el resultado de la frecuencia acumulada del intervalo en

el que se encuentra la mediana, la frecuencia acumulada se obtiene sumando todas las

frecuencias anteriores a la frecuencia del intervalo, mientras que el i-1 significa que

será la frecuencia acumulada, pero del intervalo anterior al intervalo que contiene la

mediana.

Li: esto es el límite inferior del intervalo en el que esta la mediana. Un límite

inferior es el número menor de un intervalo, por ejemplo, en el intervalo ]10 - 20], el

límite inferior es el número 10.

fi: la f en minúscula es la frecuencia del intervalo, y la letra “i” hace referencia a

que es la frecuencia en el intervalo de la mediana.

A: la letra A en mayúscula es la amplitud que tiene el intervalo de la mediana,

este dato se obtiene restando el límite superior con el límite inferior del intervalo que

contiene la mediana, por ejemplo, la amplitud del intervalo ]30,50] es: 50-30 = 20.

Ejemplo de no agrupados:
115

Por ejemplo, si tenemos 6 datos, que ordenados son:

Hay dos valores que están por debajo

del y otros dos que quedan por encima del siguiente dato

. Por tanto, la mediana de este grupo de datos es la media aritmética

de estos dos datos:

Ejemplo datos agrupados:

Se realizó una encuesta en la que se preguntaba la cantidad aproximada de

horas que las personas pasaban frente al celular, calcular la mediana de los resultados

de la encuesta.

Primero se va a encontrar cada parte de la fórmula por separado y luego se

juntará todo en la fórmula para sacar el resultado de manera más sencilla y ordenada.
116

Con este resultado se encuentra el intervalo, como se explica anteriormente, la

mediana está en el intervalo que tenga la frecuencia absoluta mayor al resultado de

n/2, entonces ahora se procede a encontrar las frecuencias acumuladas.

Ahora que se encontró el intervalo que contiene la mediana, se puede saber

también la variable Fi-1 que sería la frecuencia acumulada del primer intervalo, porque

es el anterior del que contiene la mediana que sería: 28, también se sabe que Li que es

el límite inferior del intervalo de la mediana es 2.

Y lo último que hace falta encontrar es la variable A.


117

Ejemplo 2:

Encontrar la mediana de los siguientes datos.


118

Ahora se encuentran las frecuencias acumuladas y se encuentra el intervalo que

contiene a la mediana.
119

Ahora se encontrará la amplitud del intervalo.

Con esto ya se sabe que Li es 20, que fi es 88, que Fi-1 es 91 y que A es 10 por

lo tanto se puede proceder a escribir todo en la formula y resolver el ejercicio.


120

1.5.6.2 Cuartiles

Los cuartiles son valores que dividen una muestra de datos en cuatro partes

iguales. Utilizando cuartiles puede evaluar rápidamente la dispersión y la tendencia

central de un conjunto de datos, que son los pasos iniciales importantes para

comprender sus datos.


121

Datos no agrupados:

El procedimiento para calculas cuartiles correspondientes a datos no agrupados

resulta bastante sencillo, pues sólo toma cuatro pasos, los cuales serán explicados a

continuación:

1.- Se deben ordenar los datos de forma sucesiva, y de mayor a menor.

2.- Se deberá calcular el cuartil usando la fórmula

En donde n corresponde al tamaño total de la muestra, y k a la medida de

posición que se está calculando.

3.- Obtenido el resultado se debe determinar la naturaleza del valor, si

corresponde a un número entero, se le debe sumar el valor de 0.5, si por el contrario el


122

cálculo arrojó un número no entero se tomará con el valor del siguiente número entero

de mayor tamaño.

4.- Una vez obtenida la medida de posición debe ubicarse en los datos que han

sido ordenados.

Ejemplo:

A continuación, se ofrece un ejemplo de cómo calcular el primer y tercer cuartil

(Q1 y Q3) en base a la cantidad de alumnos que han asistido a clases a un colegio

privado durante la primera quincena de clases (15 días) entre lunes y viernes.

En primer lugar, se ofrecerán los datos estadísticos correspondientes a la

asistencia, según sucedió esta:

De esta forma, a fin de calcular el Q1 y el Q3, lo primero que debe hacerse

es ordenar de menor a mayor los datos:

Hecho esto se procede entonces a calcular el primer cuartil Q1. Para esto, se

designa a cada variable un valor, procedimiento que generaría entonces que n= 15, k=
123

25 (porque esa es la medida de posición que busca el primer percentil. Entonces se

aplica la ecuación:

La cuenta ha dado 3,75 número éste que señala que el Q1 se encuentra

entonces entre el tercer y cuarto dato, se regresa a los datos, y se busca cuáles son los

valores del tercer y cuarto dato. En este ejemplo, el tercer dato correspondería a “27” y

el cuarto dato a “28”. Obtenidos, se procede entonces a sumarlos y dividirlos entre dos:

Es decir, que, durante 15 días, el Q1 correspondiente a los alumnos que

asistieron a clases fue de 27,5. A fines de calcular el Q3, se realiza el mismo

procedimiento, solo que el valor de la k será 75.

Ejemplo:

para los siguientes datos: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51

 Q1 = 14.25

 Q2 (mediana) = 42

 Q3 = 46.50
124

 Rango Intercuartil = 14.25 a 46.50 ó 32.25

NOTA

Los cuartiles son valores calculados, no observaciones en los datos. A menudo

es necesario interpolar entre dos observaciones para calcular un cuartil con exactitud.

Debido a que no son afectados por observaciones extremas, la mediana y el

rango intercuartil constituyen una mejor medida de la tendencia central y la dispersión

de conjuntos de datos altamente asimétricos, en comparación con la media y la

desviación estándar.

Datos agrupados:

En primer lugar buscamos la clase donde se encuentra , en

la tabla de las frecuencias acumuladas.

es el límite inferior de la clase donde se encuentra el cuartil.

es la suma de las frecuencias absolutas.

es la frecuencia acumulada anterior a la clase del cuartil.

es la amplitud de la clase.
125

Ejemplo:

Calcular los cuartiles de la distribución de la tabla:

En primer lugar, crearemos una nueva columna con los valores de la frecuencia

acumulada:

En la primera casilla colocamos la primera frecuencia absoluta.

En la segunda casilla sumamos el valor de la frecuencia acumulada anterior más

la frecuencia absoluta correspondiente y así sucesivamente hasta la última, que tiene

que ser igual a


126

Cálculo del primer cuartil

Buscamos el intervalo donde se encuentra el primer cuartil,

multiplicando por y dividiendo por .

Buscamos en la columna de las frecuencias acumuladas el intervalo que

contiene a .

La clase de es:

Aplicaremos la fórmula para el cálculo de cuartiles para datos agrupados,

extrayendo los siguientes datos:


127

Cálculo del segundo cuartil

Buscamos el intervalo donde se encuentra el segundo cuartil,

multiplicando por y dividiendo por .

Buscamos en la columna de las frecuencias acumuladas el intervalo que

contiene a .

La clase de es:

Aplicaremos la fórmula para el cálculo de cuartiles para datos agrupados,

extrayendo los siguientes datos:


128

Cálculo del tercer cuartil

Buscamos el intervalo donde se encuentra el tercer cuartil,

multiplicando por y dividiendo por .

Buscamos en la columna de las frecuencias acumuladas el intervalo que

contiene a

La clase de es:

Aplicaremos la fórmula para el cálculo de cuartiles para datos agrupados,

extrayendo los siguientes datos:

1.5.6.3 Deciles
129

El Decil (Dn) es una medida estadística que se utiliza para indicar el valor por

debajo del cual se encuentra un determinado porcentaje de observaciones.

Cada decil representa un 10% hasta llegar a 100% siendo 100% el total de las

muestras analizadas:

Decil 1 (D1): valor que es superior al del 10% de las muestras más bajas

Decil 2 (D2): valor que es superior al del 20% de las muestras más bajas

Decil 3 (D3): valor que es superior al del 30% de las muestras más bajas...

Por ejemplo, supongamos que el decil 3 (D3) del peso de un varón de 15 años

es 53 kg. Esto significa que hay un 30% de varones de 15 años que pesan menos de

53 kg y un 70% que pesan más.

Cálculo de los Deciles:

Existen varios métodos para el cálculo de deciles. Veamos uno de los más

sencillos (válido para datos no agrupados):

1. Agrupamos las muestras de menor a mayor valor

2. Calculamos la posición que ocupa el percentil buscado aplicando la siguiente

fórmula:

x = (N · i) / 10

siendo N el número total de muestras analizadas y la letra "i" el decil buscado

3. Si el resultado anterior (x) no tiene decimales, el decil se obtiene

seleccionando el valor de la muestra que ocupa la posición x.


130

4. Si el resultado (x) tiene decimales, el decil se obtiene haciendo la media de las

muestras en posición x y x+1

Datos no agrupados:

Ejemplos:

Calcular el decil 6 (D6) de las siguientes muestras de notas en matemáticas de

un aula (notas de 0 a 20): 16, 10, 12, 8, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14

Ordenamos de menor a mayor: 1, 8, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18,

20

N = número de muestras = 15 muestras

x = (N · i) / 10 = (15 · 6) / 10 = 9

Como x = 9 es un número sin decimales, entonces el decil 6 es el valor de la

muestra que ocupa la posición 9

D6 (decil 6) = 13

Ejemplo 2:

En un examen muy difícil de universidad, se obliga al profesor a aprobar al

menos al 10%. Calcular la nota a partir de la cual está obligado a aprobar siendo las

notas (notas de 0 a 20): 0, 4, 1, 0, 0, 7, 2, 1, 4, 0, 3, 9, 2, 0, 0, 4, 8, 1, 0, 9, 4

Necesitamos calcular el decil 9 (D9) ya que nos interesa calcular el valor a partir

del cual solo hay un 10% con mejores notas


131

Ordenamos de menor a mayor: 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4, 7, 8,

9, 9

N = número de muestras = 21 muestras

x = (N · i) / 10 = (21· 9) / 10 = 18,9

Como x = 18,9 es un número con decimales, entonces el decil 9 es la media de

los valores que ocupan la posición 18 y 19

D9 (decil 9) = (7 + 8) / 2 = 7,5

Datos agrupados:

Calcular el decil num 6


132

Ejemplo 2:

Calcular el decil num 2


133

1.5.6.4 Percentiles

Los percentiles son los valores que dividen una serie de datos ordenados

en partes iguales.

Los percentiles dan los valores correspondientes al , al ... y al

de los datos.

coincide con la mediana

coincide con

coincide con

Datos agrupados:
134

Calcula en percentil num 5

Ejemplo 2:
135

Calcular el percentil num 55


136

Datos no agrupados:

PROBABILIDAD Y ESTADISTICA
ACTIVIDAD NO. 7
137

MEDIANTE LA DISTRIBUCIÓN DE FRECUENCIAS DE LA ACT 2,


HALLAR:
Calificaciones Frecuencias
(li-ls) (f)

50-59 7
60-69 9
70-79 9
80-89 12
90-100 13
N= 50
138
139
140
141
142

UNIDAD 2

FUNDAMENTOS DE LA TEORIA DE PROBABILIDAD

2.1 ANALISIS COMBINATORIO

El análisis combinatorio estudia las distintas formas de agrupar y ordenar los

elementos de un conjunto, sin tener en cuenta la naturaleza de estos elementos.

Los problemas de arreglos y combinaciones pueden parecer aburridos y quizá

se piense que no tienen utilidad, pero los teoremas del análisis combinatorio son la

base del cálculo de la probabilidad.

La probabilidad se encarga de los arreglos y las combinaciones que determinan

el número de formas diferentes en que un acontecimiento puede suceder.

El análisis combinatorio tiene aplicaciones en el diseño y funcionamiento de la

tecnología computacional, así como también en las ciencias. La teoría combinatoria se

aplica en las áreas en donde tengan relevancia las distintas formas de agrupar

elementos.

El origen del análisis combinatorio se le atribuye a los trabajos de Pascal (1596 -

1650) y Fermat (1601 - 1665) que fundamentan el cálculo de probabilidades.

Leibiniz (1646 - 1716) publicó en 1666 “Disertatio de Arte Combinatoria”. El

mayor impulsor de esta rama fue Bernulli quien en sus trabajos incluye una teoría

general de permutaciones y combinaciones.


143

Resumiendo, El objeto del Análisis combinatorio o Combinatoria es el estudio de

las distintas ordenaciones que pueden formularse con los elementos de un conjunto, de

los distintos grupos que pueden formarse con aquellos elementos y de las relaciones

entre unos y otros grupos.

2.1.1. Notación Factorial

Se usa la notación n! para denotar el producto de los enteros positivos desde 1

hasta n.

1) N! 1 x 2 x 3 x………………… x n

2) 0! =1

3) 1!=1

4) N!=(n-1)! x n

Notación factorial: es el producto de n entero positivo hasta 1.

n! =n (n-1)*(n-2)*(n-3)*«.*3*2*1

En algunos problemas de matemáticas se nos presentan multiplicaciones de

números naturales sucesivos tal como: 4 x 3 x 2 x 1 = 24; 3 x 2 x 1 = 6; 2 x 1 = 2.

Para abreviar estas expresiones, se usa una notación especial llamada notación

factorial y nos denota las multiplicaciones sucesivas de n hasta 1 y se define como:

4 x 3 x 2 x 1 = 4! Se lee cuatro factorial

3 x 2 x 1 = 3! Se lee tres factorial


144

En términos generales: (n-1)(n-2)«x 2 x 1 = n! Se lee “n factorial”

Ejemplo 1

Hallar 6!

Solución: 6!=1 x 2 x 3 x 4 x 5 x 6 =720,

Así, 6!=720.

Ejemplo 2

Descomponer 10!

Solución:10! = 10 x 9! o también puede ser

10! = 10 x 9 x 8! o también

10! = 10 x 9 x 8 x 7! y así sucesivamente.

Ejemplo 3

Al calcular directamente estos factoriales:

a) 5!

b) 8!

c) 4!!
145

d) 11!!

e) 14!!

f) (2n+1)!!

Se obtienen los valores:

a) 5! = 5 . 4. 3. 2. 1 = 120

b) 8! = 8 . 7. 6. 5. 4. 3. 2. 1 = 40320

c) 4!! = 2⋅4 = 8

d) 11!! = 11⋅ 9 ⋅7⋅5⋅ 3⋅1 = 10395

e) 14!! = 14⋅12⋅10⋅8⋅6⋅4⋅2 = 645120

f) (2n+1)!! = 1⋅3⋅5⋅7. .. (2n–3)⋅(2n–1) ⋅ (2n+1)

Los resultados de a) hasta e) también se pueden corroborar con una

calculadora. Las calculadoras científicas tienen una función para calcular directamente

el valor de x!

Como se puede ver, los resultados de las factoriales, salvo con números

pequeños, son valores que crecen muy rápidamente.

Ejemplo 4
146

Las siguientes expresiones fraccionarias se pueden simplificar al usar las

propiedades:

Ejemplo 5

Comprobar, empleando la fórmula de los co-factoriales, estos resultados

obtenidos previamente:

a) 11!! = 10395

b) 14!! = 645120

Solución a

Ya que 11 es impar, se sustituyen cuidadosamente los valores en la fórmula

apropiada:

n!! = n! ÷ {2[(n-1)/2] . [(n-1)/2)]!}

Y después se simplifica el resultado mediante las propiedades de los factoriales:

11!! = 11! ÷ {2[(11-1)/2] . [(11-1)/2)]!} = 11! ÷ {2[(10)/2] . [(10)/2)]!} = 11! ÷ {25 . 5!}

= (11 . 10. 9. 8. 7. 6. 5!) ÷ [(32). 5!] = (11⋅10⋅9 ⋅ 8⋅7⋅6) ÷ 32 = 10395


147

Como es de esperar, se obtuvo el mismo resultado que al calcular 11!!

directamente, sin embargo, emplear la fórmula es ventajoso para un valor de n grande,

ya que permite expresar el doble factorial como producto de dos factores.

Solución b

Mediante la aplicación de la fórmula de semi-factoriales para n par, y

sustituyendo valores, se obtiene lo siguiente:

14!!= 2(14/2) ⋅ (14/2)! = 27 ⋅ 7! = 128 × 5040 = 645120

2.1.2. Principio Multiplicativo

Se relacionan con la determinación de la ocurrencia de conjunta de dos o más

eventos. Es decir la intersección entre los conjuntos de los posibles valores de A y los

valores de B, esto quiere decir que la probabilidad de que ocurran conjuntamente los

eventos A y B es:P(A y B) = P(A B) = P(A)P(B) si A y B

Son independientes

P(A y B) = P(A B) = P(A)P(B|A) si A y B

Son dependientes

P(A y B) = P(A B) = P(B)P(A|B) si A y B


148

Son dependientes

Si se desea realizar una actividad que consta de r pasos, en donde el primer

paso de la actividad a realizar puede ser llevado a cabo de N1maneras o formas, el

segundo paso de N2 maneras o formas y el r-ésimo paso de Nr maneras o formas,

entonces esta actividad puede ser llevada a efecto de;

N 1x N 2x..........x N r maneras o formas

El principio multiplicativo implica que cada uno de los pasos de la actividad

deben ser llevados a efecto, uno tras otro.

Ejemplo 1

1)Una persona desea construir su casa, para lo cual considera que puede

construir los cimientos de su casa de cualquiera de dos maneras (concreto o block de

cemento),mientras que las paredes las puede hacer de adobe, adobón o ladrillo, el

techo puede ser de concreto o lámina galvanizada y por último los acabados los puede

realizar de una sola manera ¿cuántas maneras tiene esta persona de construir su

casa?

Solución:

Considerando que r = 4 pasos


149

N1= maneras de hacer cimientos = 2

N2= maneras de construir paredes = 3

N3= maneras de hacer techos = 2

N4= maneras de hacer acabados = 1

N1x N2x N3x N4= 2 x 3 x 2 x 1 = 12 maneras de construir la casa

Ejemplo 2

Paula planea ir al cine con sus amigas, y para escoger la ropa que usará, separo

3 blusas y 2 faldas. ¿De cuántas maneras se puede vestir Paula?

 Solución
150

En este caso, Paula debe tomar dos decisiones:

d1 = Escoger entre 3 blusas = n

d2 = Escoger entre 2 faldas = m

De esa forma Paula tiene n * m decisiones a tomar o maneras diferentes de

vestirse.

n * m = 3* 2 = 6 decisiones.

El principio multiplicativo nace de la técnica del diagrama del árbol, que se trata

de un diagrama que relaciona todos los posibles resultados, de manera que cada uno

pueda ocurrir un número finito de veces.

Ejemplo 3

Mario tenía mucha sed, así que fue a la panadería a comprar un jugo. Luis lo

atiende y le dice que tiene en dos tamaños: grande y pequeño; y cuatro sabores:

manzana, naranja, limón y uva. ¿De cuántas maneras puede Mario escoger el jugo?
151

 Solución

En el diagrama puede observarse que Mario tiene 8 maneras distintas para

escoger el jugo y que, al igual que en el principio multiplicativo, este resultado se

obtiene por la multiplicación de n*m. La única diferencia es que a través de este

diagrama puede saberse cómo son las maneras en que Mario escoge el jugo.

Por otra parte, cuando el número de resultados posibles es muy grande, resulta

más práctico utilizar el principio multiplicativo.


152

Ejemplo 4

Calcular cuántos números enteros diferentes de tres dígitos se pueden formar

con los dígitos 2,3,4,5,6,7,8 si los dígitos no pueden repetirse.

Solución:

Si es un número de tres dígitos, necesitamos un dígito para las centenas que

puede ser cualquiera de los siete dígitos dados, después un dígito para las decenas

que puede elegirse entre los seis dígitos restantes y finalmente el dígito de las

unidades se

elegirá de los cinco últimos dígitos. Aplicando el Principio multiplicativo ,

tendremos:

7x6x5 = 210 números

Ejemplo 5

Calcular cuántos números enteros diferentes de tres dígitos se pueden formar

con los dígitos 2,3,4,5,6,7,8 si los dígitos pueden

repetirse.

Solución:

Si es un número de tres dígitos, necesitamos un dígito para las centenas que

puede ser cualquiera de los siete dígitos dados, después un dígito para las decenas
153

que puede elegirse entre los siete dígitos y finalmente el dígito de las unidades se

elegirá de los siete dígitos. Aplicando el Principio multiplicativo, tendremos:

7x7x7 = 343 números

2.1.3. Permutaciones

Para entender lo que son las permutaciones es necesario definir lo que es una

combinación y lo que es una permutación para establecer su diferencia y de esta

manera entender claramente cuando es posible utilizar una combinación y cuando

utilizar una permutación al momento de querer cuantificar los elementos de algún

evento.

Es todo arreglo de elementos en donde nos interesa el lugar o posición que

ocupa cada uno de los elementos que constituyen dicho arreglo.

Para obtener las fórmulas de permutaciones y combinaciones tenemos que

definir lo que es n! (ene factorial), ya que está involucrado en las fórmulas que se

obtendrán y usarán para la resolución de problemas.

La fórmula de permutaciones de r objetos tomados de entre n objetos es:

Donde n=objetos y r=posiciones


154

Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es

importante y solo se usen parte (r) de los n objetos con que se cuenta, además hay que

hacer notar que no se pueden repetir objetos dentro del arreglo, esto es, los n objetos

son todos diferentes.

n!= al producto desde la unidad hasta el valor que ostenta n.

n!= 1 x 2 x 3 x 4 x...........x n.

Ejemplo 1

10!=3, 628,800

8!= 1 x 2 x 3 x 4 x.........x 8=40,320

6!=1 x 2 x 3 x 4 x..........x 6=720

Ejemplo 2

tenemos 6 envases distintos y sólo 4 posiciones para acomodarlos. Los en

bases deberán ser tomados de 4 en 4.1

6P4= 6! / (6-4)! = 720 / 2 = 360

Ejemplo 3

¿Cuántos números de 5 cifras diferentes se puede formar con los dígitos:

1, 2, 3, 4, 5.?
155

Solución

¿Cuántos números de 5 cifras diferentes se puede formar con los dígitos:

1, 2, 3, 4, 5.?

Establecemos las condiciones del ejercicio:

Sí entran todos los elementos. De 5 dígitos entran sólo 3

Sí importa el orden. Son números distintos el 123, 231, 321

No se repiten los elementos. El enunciado nos pide que las cifras sean

diferentes

Se trata de una Permutación por lo que utilizamos la fórmula:

Sustituimos y resolvemos:
156

Ejemplo 4

¿De cuántas formas distintas pueden sentarse ocho personas en una fila de

butacas?

Establecemos las condiciones del ejercicio:

Sí entran todos los elementos. Tienen que sentarse 8 personas

Sí importa el orden

No se repiten los elementos. Una persona no se puede repetir

Se trata de una Permutación por lo que utilizamos la fórmula:

y resolvemos:
157

Ejemplo 5

¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una

mesa redonda?

Establecemos las condiciones del ejercicio:

Sí entran todos los elementos. Tienen que sentarse 8 personas

Al ser un arreglo circular debemos eliminar las repeticiones circulares

No se repiten los elementos. Una persona no se puede repetir

Se trata de una Combinación por lo que utilizamos la fórmula:


158

Sustituimos y resolvemos:

2.1.4 Combinaciones.

Es todo arreglo de elementos en donde no nos interesa el lugar o posición que

ocupa cada uno de los elementos que constituyen dicho arreglo.

COMBINACIONES.

Como ya se mencionó anteriormente, una combinación, es un arreglo de

elementos en donde no nos interesa el lugar o posición que ocupan los mismos dentro

del arreglo. En una combinación nos interesa formar grupos y el contenido de los

mismos.

La fórmula para determinar el número de combinaciones es:


159

Cr= Combinaciones de r objetos tomados de entre n objetos

Ejemplo 1

¿Cuántos equipos de voleibol se pueden formar a partir de 9 jugadores

disponibles?

Solución: Se requieren 6 jugadores para formar un equipo de voleibol, por lo

que, en este caso se tiene que.

n=9

r=6

de manera que
160

Ejemplo 2

Si se cuenta con 14 alumnos que desean colaborar en una campaña pro

limpieza del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten

de 5 alumnos cada uno de ellos, b.si entre los 14 alumnos hay 8 mujeres, ¿cuantos de

los grupos de limpieza tendrán a 3 mujeres?, c.¿cuántos de los grupos de limpieza

contarán con 4 hombres por lo menos?

Solución:

a. n = 14, r = 5

14C5 = 14! / (14 – 5 )!5! = 14! / 9!5!

= 14 x 13 x 12 x 11 x 10 x 9!/ 9!5!

= 2002 grupos
161

Ejemplo 3

En una clase de alumnos se quiere elegir un comité formado por tres

alumnos.

¿Cuántos comités diferentes se pueden formar?

Primero, deberíamos notar lo siguiente:

No entran todos los elementos. Esto ya que solo se toman de los alumnos.

No importa el orden. Esto ya que es lo mismo escoger a Juan, María y Cynthia

que escoger a Cynthia a Juan y a Maria. Solo importa quiénes conforman el comité, no

el orden como estos sean escogidos.

No se repiten los elementos. Esto ya que obviamente no podemos elegir más de

una vez a una persona. Una vez que alguien es elegido, ya no pertenece al grupo de

los alumnos restantes.

Dicho lo anterior, es claro que estamos frente a un problema que podemos

resolver con combinaciones de la siguiente manera


162

Ejemplo 4

Dados los colores del arcoíris, ¿cuántos grupos de tres colores podemos formar

con ellos?

Para resolver este problema primero debemos notar lo siguiente:

No entran todos los elementos. Esto ya que únicamente tomaremos de

los colores en el arcoíris.

No importa el orden. Esto ya que solo nos importa los colores que escogemos

pero no el orden en el que los escogemos.


163

No se repiten los elementos. Está claro que no podemos escoger más de una

vez un color. Al tomar un color, este ya no se considera para la siguiente elección,

podríamos decir que "lo sacamos del conjunto".

Dicho lo anterior es claro que este problema lo podemos resolver utilizando la

fórmula de combinaciones:

Ejemplo 5

En una tienda se venden cinco sabores distintos de refresco. Se desea

comprar , sin importar que se escojan varios del mismo sabor.

¿De cuántas formas se pueden elegir los sabores de refresco?


164

Primero notemos los siguientes datos:

No entran todos los elementos. Esto debido a que hay cinco sabores y nosotros

solo tomaremos .

No importa el orden. Da igual que si se eligen dos refresco sabor cola y dos

sabor manzana,

que primero dos sabor manzana y luego dos sabor cola.

Sí se repiten los elementos. Esto ya que podemos escoger los cuatro sabores

diferentes o bien los cuatro iguales, etc.

Dicho lo anterior, es claro que tratamos con combinaciones con repetición, así,

aplicando la fórmula, tenemos el resultado/p>


165

ENVÍO ACT 9 FECHA DE ENTREGA MARTES 19 DE OCTUBRE

2021 HORARIO DE CLASE

2.2 introducción a la probabilidad.

En la vida cotidiana aparecen muchas situaciones en las que los resultados observados

son diferentes, aunque las condiciones iniciales en las que se produce la experiencia sean las

mismas. Por ejemplo, al lanzar una moneda unas veces resultará cara y otra cruz. Estos

fenómenos, denominados aleatorios, se ven afectados por la incertidumbre.

En el lenguaje habitual, frases como "probablemente...", "es poco probable que...", "hay

muchas posibilidades de que..." hacen referencia a esta incertidumbre.

La teoría de la probabilidad pretende ser una herramienta para modelizar y tratar con

situaciones de este tipo; Por otra parte, cuando aplicamos las técnicas estadísticas a la

recogida, análisis e interpretación de los datos, la teoría de la probabilidad proporciona una

base para evaluar la fiabilidad de las conclusiones alcanzadas y las inferencias realizadas.

Debido al importante papel desempeñado por la probabilidad dentro de la estadística, es


166

necesario familiarizarse con sus elementos básicos, lo que constituye el objetivo del presente

tema.

2.2.1 Concepto (Definición).

Es la posibilidad de que un evento suceda dependiendo de las condiciones

dadas para que acontezca (ejemplo: qué probabilidad hay de que llueva). Será medida

entre 0 y 1 o expresada en porcentajes, dichos rangos podrán observarse en ejercicios

resueltos de probabilidad. Para ello se medirá la relación entre los sucesos favorables y

los posibles.

2.2.2 Probabilidad Simple (Teoría, Fórmula, mínimo 3

ejemplos).

La posibilidad que hay de que ocurra algún evento determinado, por ejemplo,

que de un recipiente con 5 pelotas verdes, 2 azules y 3 rojas obtengamos una roja es

de .3, siempre debe ser un número menor o igual a uno, excepto cuando lo expresas

en porcentaje.

Probabilidad simple es igual a la cantidad de formas en que un resultado

específico va a suceder entre la cantidad total de posibles resultados.

Una manera, muy usada en la práctica, de denominar la probabilidad un evento

simple de un espacio muestral es como probabilidad simple o marginal, la cual hace

referencia a la probabilidad de un evento simple, y se denota con P(A), siendo A el

evento simple en cuestión. El nombre de probabilidad marginal se debe a que esta


167

medida se puede obtener a partir de los totales marginales de una tabla de

contingencia.

Formula

Ejemplo 1

Cantidad de formas en que un resultado específico va a suceder |

Probabilidad = | |

| Cantidad total de posibles resultados |

Ejemplo: Hay 87 canicas en una bolsa y 68 son verdes. Si se escoge una, ¿cuál

es la probabilidad de que esta sea verde?

Solución:
168

* Divide la cantidad de formas de elegir una canica verde (68) por la cantidad

total de canicas (87)

* 68 ÷ 87 = 0.781609

* Redondea a la precisión deseada (es decir 0.781609 redondeado a centésimos

es 0.78)

Ejemplo 2

Si yo tengo una canasta llena de peras y manzanas, de las cuales hay 20 peras

y 10 manzanas. ¿Qué fruta es más probable que saque al azar de la canasta?

Para este ejemplo tenemos que 30 es el total de frutas en la canasta; es decir

los casos posibles. Para calcular la probabilidad de sacar una manzana mis casos

favorables son 10 puesto que existen sólo 10 manzanas. Así, aplicando la fórmula

obtenemos que:

P(Manzana)=10/30=1/3= 33.3% probable

Calculando igual, la probabilidad de sacar pera es:

P(Pera)=20/30=2/3= 66.7% probable

Como 66.7 es mayor que 33.3 es más probable que saque una pera, pues hay

más peras que manzanas en la canasta.

Ejemplo 3
169

En una sala de clases hay 20 mujeres y 12 hombres. Si se escoge uno de ellos

al azar. ¿Cuál es la probabilidad de que lapersona escogida sea hombre?

Solución:

Por definición, la probabilidad de que un suceso ocurra viene dada por:

P=casos favorables/casos totales o posibles (P).

En particular, hay 12 hombres, por lo tanto son 12 los casos favorables a dicha

selección. Pero ella se hará de un total de 20 + 12 = 32 personas sumamos la cantidad

de mujeres y hombres que forman parte de la selección y por tanto, los casos posibles

o totales.

Así, la probabilidad pedida es

P= 12/32

2.2.3 Regla de la Adición (Teoría, Fórmula, mínimo 3

ejemplos).

La regla de la adición o regla de la suma establece que la probabilidad de

ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades

individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no

pueden ocurrir al mismo tiempo.

P(A o B) = P(A) U P(B) = P(A) + P(B) si A y B son mutuamente excluyente. P(A o

B) = P(A) + P(B) − P(A y B) si A y B son no excluyentes.


170

Siendo: P(A) = probabilidad de ocurrencia del evento A. P(B) = probabilidad de

ocurrencia del evento B. P(A y B) = probabilidad de ocurrencia simultánea de los

eventos A y B.

Formula

Ejemplo 1

La probabilidad de que un día cualquiera, Carlos almuerce pollo frito es de 0,4.

La probabilidad de que almuerce hamburguesa es de 0,3; mientras que la probabilidad

de que almuerce pollo frito y hamburguesa el mismo día es de 0,1. Calcula la

probabilidad de que un día cualquiera, Carlos almuerce pollo frito o hamburguesa.

Solución:

Definimos nuestras probabilidades:

Probabilidad de que Carlos almuerce pollo frito: P(A) = 0,4.

Probabilidad de que Carlos almuerce hamburguesa: P(B) = 0,3.

Probabilidad de que Carlos almuerce pollo frito y hamburguesa el mismo día:

P(A⋂B) = 0,1.
171

Probabilidad de que Carlos almuerce pollo frito o hamburguesa:

P(A⋃B) = ?

Ahora, aplicamos nuestra fórmula:

P(A⋃B) = P(A) + P(B) − P(A⋂B)

P(A⋃B) = 0,4 + 0,3 − 0,1

P(A⋃B) = 0,6

Ejemplo 2

La probabilidad de que al tirar un dado, salga 1, es de 1/6. La probabilidad de

que salga 3, es de 1/6. Calcular la probabilidad de que al tirar un dado, salga 1 o 3.

Solución:

Definimos nuestros eventos:

 Probabilidad de que salga 1: P(A) = 1/6.

 Probabilidad de que salga 3: P(B) = 1/6.

 Probabilidad de que salga 1 y 3 al mismo tiempo P(A⋂B) = 0. Este valor es cero,

dado que son eventos mutuamente excluyentes. Si sale 1, ya no puede salir 3.

 Probabilidad de que salga 1 o 3: P(A⋃B) = ?

Ahora, aplicamos nuestra fórmula:


172

Ejemplo 3

Supongamos que se extrae una carta de una baraja de 52 cartas. ¿Cuál es la

probabilidad de que la carta sea o un rey o una figura negra? (Evento no mutuamente

excluyente)

Solución: Hay 52 sucesos o eventos simples. Sean los sucesos o eventos

Hay 4 reyes. A = Que la carta sea un rey.

Hay 6 figuras negras B = Que la carta sea una figura negra

P ( A U B ) =P( A ) + P( B ) – P( A ∩ B )

P(A U B)= 4/52 + 6/52 – 2/52 = 8/52= 0.15

2.2.4 Regla de la Multiplicación (Teoría, Fórmula, mínimo 3

ejemplos).
173

La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más

eventos estadísticamente independientes es igual al producto de sus probabilidades

individuales.

P(A y B) = P(A B) = P(A)P(B) si A y B son independientes.

P(A y B) = P(A B) = P(A)P(B|A) si A y B son dependientes.

Un lote contiene “100” ítems de los cuales “20” son defectuosos. Los ítems son

seleccionados uno después del otro para ver si ellos son defectuosos. Suponga que dos ítems

son seleccionados sin reemplazamiento (significa que el objeto que se selecciona al azar se

deja por fuera del lote). ¿Cúal es la probabilidad de que los dos ítems seleccionados sean

defectuosos?

Solución:

Sea los eventos

A1 = {primer ítem defectuoso}, A2 {segundo ítem defectuoso} entonces dos ítems

seleccionados serán defectuosos, cuando ocurre el evento A1∩ A2 que es la intersección entre

los eventos A1 y A2. De la información dada se tiene que:

P(A1) = 20/100 ; P(A2/A1) = 19/99

así probabilidad de que los dos ítems seleccionados sean defectuosos es

P(A1 ∩ A2) = P(A1) P(A2/A1) (20/100)(19/99) 19/495 = 0.038

Ahora suponga que selecciona un tercer ítem, entonces la probabilidad de que los tres

ítems seleccionados sean defectuosos es

P(A1 ∩ A2 ∩ A3) = P(A1) P(A2/A1) P(A3/A1∩A2)

(20/100)(19/99)(18/98) 19/2695 = 0.007


174

Formula

Ejemplo 1

¿Cuál es la probabilidad que al lanzar una moneda tres veces, esta caiga las tres veces

cara?

 En este ejercicio son sucesos independientes por lo que se ocupara la fórmula de

probabilidades independientes

 p(a n b n c) = p(a) * p(b) * p(c)

 a, b y c es la probabilidad de salir cara

 p(a n b n c) = 1/2 * 1/2 * 1/2


175

 p(a n b n c) = 1/8

 p(a n b n c) = 0.125 * 100%

 p(a n b n c) = 12.5%

Ejemplo 2

Si en un grupo de 10 personas se va a repartir refrescos de 10 sabores diferentes, y se

sabe que hay uno de fresa y uno de piña ¿Cual es la probabilidad que el primero en ser

repartido sea de piña y el segundo de fresa?

 En este ejercicio son sucesos dependientes, por eso se ocupará la siguiente

fórmula

 p(f n p) = p(a) * p(b | a)

 p(f n p) = 1/10 * 1/9

 p(f n p) = 0.011 * 100%

 p(f n p) = 1.1%

Ejemplo 3

En una tienda se venden osos de peluche, en existencia hay 30 de estos peluches, si

entre estos hay 15 marrones y 15 blancos, y en la tienda tienen estadisticas que indican que 4

de cada diez de los clientes terminan comprando estos peluches ¿Cuál es la probabilidad que

el siguiente cliente compre un oso de color blanco?

c = comprar un oso, b = oso blanco


176

 Fórmula de sucesos independientes

 p(c n b) = p(c) * p(b)

 p(c n b) = 4/10 * 1/2

 p(c n b) = 0.2 * 100%

 p(c n b) = 20%

UNIDAD 3

DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Y

CONTINUAS

3.4 DISTRIBUCION DE POISSON

La distribución de Poisson es una distribución de probabilidad discreta que

modeliza la frecuencia de eventos determinados durante un intervalo de tiempo fijado a

partir de la frecuencia media de aparición de dichos eventos.

En otras palabras, la distribución de Poisson es una distribución de probabilidad

discreta que, tan solo conociendo los eventos y su frecuencia media de ocurrencia,

podemos saber su probabilidad.

Expresión de la distribución de Poisson


177

Dada una variable aleatoria discreta X decimos que su frecuencia se puede

aproximar satisfactoriamente a una distribución de Poisson, tal que:

Expresión de la distribución de Poisson

A diferencia de la distribución normal, la distribución de Poisson solo depende

de un parámetro, mu (marcado en amarillo).

Mu informa del número esperado de eventos que ocurrirán en un intervalo de

tiempo fijado. Cuando se habla de algo “esperado” tenemos que redirigirlo a pensar en

la media. Por tanto, mu es la media de la frecuencia de los eventos.

Tanto la media como la varianza de esta distribución son mu, estrictamente

positiva.

Representación

Dada una distribución de Poisson con media 2, la distribución de probabilidad de

densidad es la siguiente:
178

Función de densidad de probabilidad de Poisson

La función solo está definida en valores enteros de x.

No todas las distribuciones de probabilidad de densidad de Poisson tendrán el

mismo aspecto aunque mantengamos igual la muestra. Si cambiamos la media, es

decir, el parámetro del que depende la función, también cambiará la función.

Función de densidad de probabilidad (fdp)


179

Esta función se entiende como la probabilidad de que la variable aleatoria X

tome un valor concreto x. Es la exponencial de la media negativa multiplicada por la

media elevada a la observación y todo dividido por el factorial de la observación.

Como está indicado, para conocer la probabilidad de cada observación,

tendremos que sustituir en la función todas las observaciones. En otras palabras, x es

un vector de dimensión n que contiene todas las observaciones de la variable aleatoria

X. La media también sería un vector pero de una dimensión, tal que:

Una vez ya tenemos las probabilidades calculadas, junto con las observaciones

ya podemos dibujar la distribución de densidad de probabilidad.

Historia

El nombre de esta distribución proviene de su creador, Siméon-Denis Poisson

(1781-1840), un matemático y filósofo francés, que quería modelar la frecuencia de

eventos durante un intervalo de tiempo fijado. También participó en perfeccionar la ley

de los grandes números.

Aplicación
180

La distribución de Poisson se utiliza en el campo de riesgo operacional con el

objetivo de modelar las situaciones en que se produce una pérdida operacional.

En riesgo de mercado se emplea el proceso de Poisson para los tiempos de espera

entre transacciones financieras en bases de datos de alta frecuencia. También,

en riesgo de crédito se tiene en cuenta para modelar el número de quiebras.

Ejemplo 1

Suponemos que estamos en temporada de invierno y queremos ir a esquiar

antes de diciembre. La probabilidad que abran las estaciones de esquí antes de

diciembre es del 5%. De las 100 estaciones de esquí, queremos saber la probabilidad

de que la estación de esquí más cercana abra antes de diciembre. La valoración de

esta estación de esquí es de 6 puntos.

Los inputs necesarios para calcular la función de probabilidad de densidad de la

Poisson son el conjunto de datos y mu:

 Conjunto de datos = 100 estaciones de esquí.

 Mu = 5% * 100 = 5 es el número de estaciones de esquí esperado dado el

conjunto de datos.
181

Ejemplo 2

Ejemplo 3
182

Ejemplo 4

Ejemplo 5
183

3.5 DISTRIBUCIÓN NORMAL

La distribución normal es un modelo teórico capaz de aproximar

satisfactoriamente el valor de una variable aleatoria a una situación ideal.

En otras palabras, la distribución normal adapta una variable aleatoria a una

función que depende de la media y la desviación típica. Es decir, la función y la

variable aleatoria tendrán la misma representación pero con ligeras diferencias.

Una variable aleatoria continua puede tomar cualquier número real. Por ejemplo,

las rentabilidades de las acciones, los resultados de un examen, el coeficiente de

inteligencia IQ y los errores estándar son variables aleatorias continuas.


184

Una variable aleatoria discreta toma valores naturales. Por ejemplo, el número

de estudiantes en una universidad.

La distribución normal es la base de otras distribuciones como la distribución t

de Student, distribución ji-cuadrada, distribución F de Fisher y otras distribuciones.

Fórmula de la distribución normal

Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones

puede aproximarse satisfactoriamente a una distribución normal tal que:

En otras palabras, estamos diciendo que la frecuencia de una variable aleatoria

X puede representarse mediante una distribución normal.

Representación
185

Función de densidad de probabilidad de una variable aleatoria que sigue una

distribución normal.

Propiedades

 Es una distribución simétrica. El valor de la media, la mediana y la moda

coinciden. Matemáticamente,

Media = Mediana = Moda

 Distribución unimodal. Los valores que son más frecuentes o que tienen más

probabilidad de aparecer están alrededor de la media. En otras palabras, cuando

nos alejamos de la media, la probabilidad de aparición de los valores y su

frecuencia descienden.

¿Qué necesitamos para representar una distribución normal?

 Una variable aleatoria.


186

 Calcular la media.

 Calcular la desviación típica.

 Decidir la función que queremos representar: función de densidad de

probabilidad o función de distribución.

Ejemplo teórico

Suponemos que queremos saber si los resultados de un examen pueden

aproximarse satisfactoriamente a una distribución normal.

Sabemos que en este examen participan 476 estudiantes y que los resultados

podrán oscilar entre 0 y 10. Calculamos la media y la desviación típica a partir de las

observaciones (resultados del examen).

Entonces, definimos la variable aleatoria X como los resultados del examen que

depende de cada resultado individual. Matemáticamente,

El resultado de cada estudiante se anota en una tabla. De esta forma,

obtendremos una visión global de los resultados y de su frecuencia.

Resultados Frecuencia
187

0 20

1 31

2 44

3 56

4 64

5 66

6 62

7 51

8 39

9 26

10 16

TOTAL 476

Una vez hecha la tabla, representamos los resultados del examen y las

frecuencias. Si el gráfico se parece a la imagen anterior y cumple con las propiedades,

entonces, la variable resultados del examen puede aproximarse satisfactoriamente a

una distribución normal de media 4,8 y desviación típica de 3,09.


188

¿Los resultados del examen pueden aproximarse a una distribución

normal?

Razones para considerar que la variable resultados del examen sigue una

distribución normal:

 Distribución simétrica. Es decir, existe el mismo número de observaciones tanto

a la derecha como a la izquierda del valor central. También, que la media, la

mediana y la moda tienen el mismo valor.

Media = Mediana = Moda = 5

 Las observaciones con más frecuencia o probabilidad están alrededor del valor

central. En otras palabras, las observaciones con menos frecuencia o

probabilidad se encuentran lejos del valor central.


189

La distribución normal describe la variable aleatoria mediante una aproximación

que produce errores estándar (las barras encima de cada columna). Estos errores son

la diferencia entre las observaciones reales (resultados) y la función de densidad

(distribución normal).
190

Ejemplo 1
191

Ejemplo 2

Ejemplo 3
192

Ejemplo 4
193

UNIDAD 4

TECNICAS DE MUESTREO

En la estadística, se conoce como muestreo a la técnica para la selección de

una muestra a partir de una población estadística. Al elegir una muestra aleatoria se

espera conseguir que sus propiedades sean extrapolables a la población.

4.1 Introducción al muestreo

Se denomina muestreo al proceso por el que generamos las muestras. Una

muestra es una parte (un subconjunto) de la población, y se desea que la muestra sea

lo más representativa posible de la población de la que procede. Sin embargo, por muy

cuidadosa que sea la selección de la muestra difícilmente será una representación

exacta de la población. Esto significa que su tendencia central, variabilidad, etc.,

aproximarán las de la población, pero habrá cierta diferencia, que interesa sea lo menor
194

posible. Un concepto clave de muestreo es el de representatividad: Los

procedimientos de muestreo tienen por objeto generar muestras lo más representativas

posible de las poblaciones dados los objetivos de la investigación y las circunstancias

que afectan al muestreo.

Desde un punto de vista aplicado, se denomina muestreo el proceso de

selección de la muestra o muestras a utilizar para la investigación. Esto supone generar

una o pocas muestras. Actualmente es de interés la selección de muestras para la

simulación informática de los procesos de muestreo, particularmente para la obtención

de distribuciones muéstrales. En estos casos el número de muestras generadas puede

ser muy grande (10.000, 80.000, o más) y el procedimiento de muestreo se realiza

informáticamente y con procedimientos específicos.

Desde un punto de vista teórico, el concepto de muestreo es fundamental para la

Inferencia Estadística. El hecho de que las muestras no sean exactamente

representativas de las poblaciones significa que las inferencias presentan cierto

margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es necesario

conocer cómo se comportan los estadísticos obtenidos en las muestras, esto es, cómo

son las distribuciones muéstrales de los estadísticos habitualmente utilizados para la

inferencia.

Las muestras singulares generadas para investigación con sujetos suelen

utilizarse para obtener algunos estadísticos (Media, proporción, cuasi varianza, etc.)

con los que se realiza el proceso de inferencia. En cambio, las muestras simuladas por

ordenador suelen ser utilizadas para obtener distribuciones muéstrales y realizar

inferencia. Esto es de interés cuando se dan circunstancias especiales que no


195

aconsejan utilizar los procedimientos habituales. Las distribuciones muéstrales son las

distribuciones de estadísticos de muestras que pertenecen a la misma población. Por

ejemplo, la distribución muestral de la Media es la distribución de las Medias de

muestras de un mismo tamaño extraídas de la misma población.

Ejemplo

Sea un curso con 40 estudiantes (el número de datos es pequeño para facilitar la

comprensión del ejemplo). Queremos conocer la Media de las puntuaciones del curso,

pero por diversas razones no tenemos acceso a todos los datos (que se denomina

población). Pero supongamos que podemos seleccionar cinco puntuaciones

aleatoriamente y obtener la Media de la muestra. Si repetimos el proceso y generamos

más muestras tendremos más Medias muéstrales y podremos ver cómo se distribuyen:

La Media de los datos seleccionados aleatoriamente (son las señaladas en

negrita) es:

Si repetimos el procedimiento 25 veces generamos 25 muestras. Las Medias de

cada muestra son:

El Histograma de la distribución de las Medias de las 25 muestras es


196

con 100 muestras,

y con 1000 muestras

La forma del Histograma se acerca a la del modelo Normal cuanto mayor es el

número de muestras. Esta es una característica de la distribución muestra de Medias

que permite conocer si la media obtenida en la muestra es muy diferente a la media de

la población, dado que tenemos la siguiente información:

a) La distribución de Medias muéstrales es Normal.


197

b) La Media y Desviación Típica de la distribución de Medias muéstrales son 4.7

y 1.52 (Nota: La diferencia entre la Media de la distribución muestral y la Media de la

población se debe a que la muestra es pequeña).

e) Por tanto, sabemos lo siguiente:

* El 95% (aproximadamente) de las Medias muéstrales obtenidas en el muestreo

del ejemplo tienen valores entre 1.7 y 7.7

* El valor obtenido (4.2) está entre ambos límites, que definen el conjunto de

valores que obtenemos al hacer un muestreo aleatorio con muestras de 5 datos de la

población del ejemplo.

* Como conclusión, vemos que 4.2 es un valor esperable cuando efectuamos un

muestreo aleatorio con muestras de 5 datos. Diremos que la diferencia observada

respeto de la Media del curso es explicada por el azar (ya que la selección de las

muestras ha sido aleatoria y asumimos que no han influido otros factores).

4.2 Diseño de muestreo

El diseño muestral puede entenderse como el conjunto de estrategias y

procedimientos encaminados a seleccionar una muestra de una población objetivo de

estudio, que cumple con una serie de características estadísticamente deseables que

sirven para asegurar niveles establecidos de precisión y mantener en lo posible, la

inclusión de errores y sesgos baja. Finalmente, el diseño de muestra es la metodología

que se encarga de decirle al investigador la manera cómo va a realizar mediciones en


198

campo. Es el instrumento con el que se cuenta para llegar a los individuos que son de

interés de una forma objetiva y además permite asegurar que con los datos

recolectados se pueda hacer inferencia estadística.

4.3 Tipos de muestreo

La disposición de información a nivel del total de las unidades de análisis

conocidas como población, requiere de una gran inversión de recursos, generalmente

limitados en el área de la investigación. La necesidad de delimitar los grupos de estudio

a través de la selección de una muestra, conocida como el subconjunto del universo o

una parte representativa de la población, conformada a su vez por unidades

muestrales que son los elementos objetos de estudio, se apoya del muestreo como

herramienta de la investigación científica que tiene como principal propósito determinar

la parte de la población que se debe estudiar.

Se debe realizar la selección de la muestra cuando la población es infinita; la

población es finita, pero de gran tamaño. Existe la posibilidad de destrucción de las

unidades muestrales al no contar con tiempo o recursos suficientes. Una minuciosa

selección permite poder generalizar los resultados con validez. Para esto debe cumplir

requisitos esenciales en cuanto a reproducir de la mejor manera las características de

la población en número y calidad, que son importantes para la investigación.

Para la representatividad cualitativa se deben establecer y tener en

cuenta criterios de inclusión, es decir, tener bien definidas las características que

deben cumplir los elementos en estudio, así como criterios de exclusión, cuya
199

existencia obligan a no incluir a un caso y criterios de eliminación como rasgos que

una vez incluidos los sujetos en la muestra deben motivar la salida del estudio.

Para el cálculo del tamaño de la muestra existe una gran variedad de software

disponibles en los que apoyarse, pero es de gran importancia, además del cálculo,

saber bien el tipo de muestreo a utilizar. En este artículo se tratará el tema del

muestreo conociendo los tipos de muestreos más utilizado y ejemplos de su aplicación

en la investigación cuantitativa.

Clasificación

El muestreo se clasifica en dos grandes grupos. Unos son los probabilísticos,

basados en el fundamento de equiprobabilidad. Utilizan métodos que buscan que todos

los sujetos de una población tengan la misma probabilidad de ser seleccionados para

representarla y formar parte de la muestra, generalmente son los más utilizados por

que buscan mayor representatividad.

En los métodos no probabilísticos se seleccionan cuidadosamente a los sujetos

de la población utilizando criterios específicos, buscando hasta donde sea posible

representatividad. Aun así, no se utilizan para la inferencia de resultados sobre la

población.

Es necesario conocer y evitar el error de muestreo. Esto es hacer conclusiones

muy generales a partir de la observación de solo una parte de la población y el error de

inferencia en el que se hacen conclusiones hacia una población mucho más grande de

la que originalmente se tomó la muestra.


200

4.3.1 Muestreo aleatorio simple

Para aplicar esta técnica se deben conocer todos los elementos que conforman

la población; a cada uno de los sujetos se le asigna un número correlativo y luego a

través de cualquier método del azar se va seleccionando cada individuo hasta

completar la muestra requerida. Para la selección se pueden utilizar diferentes

técnicas, que van desde una tabla de números aleatorios impresa o producidos por

opciones informatizadas como una calculadora u hoja de cálculo. Este método que se

caracteriza por su simpleza tiene poca utilidad práctica cuando la población es muy

grande.

4.3.2 Muestreo Sistemático

Para este tipo de muestreo se debe conocer la población y de igual forma se

deben numerar todos los elementos. La primera unidad de análisis se elige por azar;

las siguientes unidades se toman, sistemáticamente, a partir de un número que se

obtiene a través de la siguiente formula:

Valor de N= tamaño de la población

Valor de n = tamaño de la muestra

Ejemplo: N=150 n=45 K=150/45 K=3.3

En este ejemplo el primer sujeto se selecciona al azar y a continuación cada uno

de los sujetos se toma cada tres espacios del próximo hasta completar la muestra.
201

Un problema puede ser el error sistemático en la selección cuando se da

regularidad en el ordenamiento. Al elegir a los miembros de la muestra con una

periodicidad constante se puede introducir una uniformidad que no existe en la

población. Por ejemplo, si la lista está ordenada por sexo u otra característica la

selección puede alterar la muestra.

4.3.3 Muestreo estratificado

En este método se divide a la población en estratos o subgrupos menores,

parecidos internamente respecto a una característica, pero heterogéneos entre ellos,

diferenciándolos por una variable que resulte de interés para la investigación, por

ejemplo, según la profesión, municipio, estado civil, sexo.

Cada estrato se considera como una población de forma independiente y dentro

de ellos se puede utilizar el muestreo aleatorio simple o el estratificado para elegir los

elementos que formarán parte de la muestra, buscando que todos los estratos estén

representados.

Un requisito que lo vuelve complejo es tener la composición exacta de cada

estrato y el conocimiento con el mayor detalle posible de la población a estudiar. Una

vez superado esto, tiene la ventaja de reducir el error muestral.

La distribución de la muestra en los diferentes estratos se puede hacer a través

de tres tipos afijación:

1. Afijación simple: cada estrato tiene igual número de unidades de estudio.


202

2. Afijación proporcional: la asignación del tamaño del estrato se hace de acuerdo

con la proporción que representa el estrato con respecto a la población.

3. Afijación óptima: es más completa pero más compleja, porque se tiene en

consideración la proporción y la desviación típica.

4.3.4 Muestreo por conglomerados.

El muestreo por conglomerados se usa cuando se tiene población muy grande y

dispersa. Este consiste en reunir a los individuos en un grupo que forman un elemento

(hospitales, universidades, escuelas), que tienen a la vez unidades de análisis dentro

de ellos (pacientes, médicos, enfermeras), posee la característica de ser diferentes al

interior del grupo y homogéneos entre sí.

Para la selección primero se forman los conglomerados, luego se eligen

aleatoriamente los conglomerados que pertenecerán a la muestra y posteriormente se

eligen al azar las unidades muestrales de cada conglomerado. Si un conglomerado

tiene un peso mayor de unidades puede utilizarse un muestreo proporcional a su

tamaño.

UNIDAD 5

INFERENCIA ESTADISTICA

La inferencia estadística es el conjunto de métodos y técnicas que permiten

inducir, a partir de la información empírica proporcionada por una muestra, cual es el


203

comportamiento de una determinada población con un riesgo de error medible en

términos de probabilidad.

Los métodos paramétricos de la inferencia estadística se pueden dividir,

básicamente, en dos: métodos de estimación de parámetros y métodos de contraste de

hipótesis. Ambos métodos se basan en el conocimiento teórico de la distribución de

probabilidad del estadístico muestral que se utiliza como estimador de un parámetro.

La estimación de parámetros consiste en asignar un valor concreto al parámetro

o parámetros que caracterizan la distribución de probabilidad de la población. Cuando

se estima un parámetro poblacional, aunque el estimador que se utiliza posea todas las

propiedades deseables, se comete un error de estimación que es la diferencia entre la

estimación y el verdadero valor del parámetro. El error de estimación es desconocido

por lo cual es imposible saber en cada caso cual ha sido la magnitud o el signo del

error; para valorar el grado de precisión asociado con una estimación puntual se parte

de dicha estimación para construir un intervalo de confianza. En síntesis, un intervalo

de confianza está formado por un conjunto de valores numéricos tal que la probabilidad

de que éste contenga al verdadero valor del parámetro puede fijarse tan grande como

se quiera. Esta probabilidad se denomina grado de confianza del intervalo, y la

amplitud deéste constituye una medida del grado de precisión con el que se estima el

parámetro.

Los métodos de contraste de hipótesis tienen como objetivo comprobar si

determinado supuesto referido a un parámetro poblacional, o a parámetros análogos de

dos o más poblaciones, es compatible con la evidencia empírica contenida en la

muestra. Los supuestos que se establecen respecto a los parámetros se llaman


204

hipótesis paramétricas. Para cualquier hipótesis paramétrica, el contraste se basa en

establecer un criterio de decisión, que depende en cada caso de la naturaleza de la

población, de la distribución de probabilidad del estimador de dicho parámetro y del

control que se desea fijar a priori sobre la probabilidad de rechazar la hipótesis

contrastada en el caso de ser ésta cierta.

En todo contraste intervienen dos hipótesis. La hipótesis nula (Ho) es aquella

que recoge el supuesto de que el parámetro toma un valor determinado y es la que

soporta la carga de la prueba. La decisión de rechazar la hipótesis nula, que en

principio se considera cierta, está en función de que sea o no compatible con la

evidencia empírica contenida en la muestra. El contraste clásico permite controlar a

priori la probabilidad de cometer el error de rechazar la hipótesis nula siendo ésta

cierta; dicha probabilidad se llama nivel de significación del contraste ( ) y suele

fijarse en el 1%, 5% o 10%.

La proposición contraria a la hipótesis nula recibe el nombre de hipótesis

alternativa (H1) y suele presentar un cierto grado de indefinición: si la hipótesis

alternativa se formula simplemente como 'la hipótesis nula no es cierta', el contraste es

bilateral o a dos colas; por el contrario cuando se indica el sentido de la diferencia, el

contraste es unilateral o a una sola cola.

Cuando se realiza un contraste con el SPSS no se fija el nivel de significación

deseado, el programa calcula el valor-p o significación asintótica, que es la probabilidad

de que el estadístico de prueba tome un valor igual o superior al muestral bajo el

supuesto de que la hipótesis nula es cierta. Por tanto, si el valor-p es menor o igual que
205

el nivel de significación deseado se rechazará Ho.Un valor-p próximo a cero indica que

se rechazará la Ho para cualquier nivel de significación.

UNIDAD 6

REGRESION LINEAL Y CORRELACION

6.1 Conceptos básicos

 La correlación cuantifica como de relacionadas están dos variables, mientras

que la regresión lineal consiste en generar una ecuación (modelo) que,

basándose en la relación existente entre ambas variables, permita predecir el

valor de una a partir de la otra.

 El cálculo de la correlación entre dos variables es independiente del orden o

asignación de cada variable a XX e YY, mide únicamente la relación entre

ambas sin considerar dependencias. En el caso de la regresión lineal, el modelo

varía según qué variable se considere dependiente de la otra (lo cual no implica

causa-efecto).

 A nivel experimental, la correlación se suele emplear cuando ninguna de las

variables se ha controlado, simplemente se han medido ambas y se desea saber

si están relacionadas. En el caso de estudios de regresión lineal, es más común

que una de las variables se controle (tiempo, concentración de reactivo,

temperatura…) y se mida la otra.


206

 Por norma general, los estudios de correlación lineal preceden a la generación

de modelos de regresión lineal. Primero se analiza si ambas variables están

correlacionadas y, en caso de estarlo, se procede a generar el modelo de

regresión.

6.2 Correlación.

En probabilidad y estadística, la correlación indica la fuerza y la dirección de

una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera

que dos variables cuantitativas están correlacionadas cuando los valores de una de

ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si

tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores

de A lo hacen también los de B y viceversa. La correlación entre dos variables no

implica, por sí misma, ninguna relación de causalidad

Ejemplos

Una compañía desea hacer predicciones del valor anual de sus ventas totales en

cierto país a partir de la relación de éstas y la renta nacional. Para investigar la relación

cuenta con los siguientes datos:


207

X representa la renta nacional en millones de euros e Y representa las ventas de

la compañía en miles de euros en el periodo que va desde hasta (ambos

inclusive). Calcular:

1La recta de regresión de Y sobre X.

2El coeficiente de correlación lineal e interpretarlo.

3Si en la renta nacional del país fue de millones de euros. ¿Cuál será

la predicción para las ventas de la compañía en este año?

La información estadística obtenida de una muestra de tamaño 12 sobre la

relación existente entre la inversión realizada y el rendimiento obtenido en cientos de

miles de euros para explotaciones agrícolas, se muestra en el siguiente cuadro:

Inversión (X), Rendimiento (Y)


208

Calcular:

1La recta de regresión del rendimiento respecto de la inversión.

2La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €.

La información estadística obtenida de una muestra de tamaño 12 sobre la

relación existente entre la inversión realizada y el rendimiento obtenido en cientos de

miles de euros para explotaciones agrícolas, se muestra en el siguiente cuadro:


209

Calcular:

1 La recta de regresión del rendimiento respecto de la inversión.


210
211

2 La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €.

6.3 Regresión Lineal.

La Regresión Lineal es una técnica paramétrica utilizada para predecir variables

continuas, dependientes, dado un conjunto de variables independientes. Es de

naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto de

datos. Si el conjunto de datos sigue esas suposiciones, la regresión arroja resultados

increíbles, de lo contrario, tiene dificultades para proporcionar una precisión

convincente.

Matemáticamente, la regresión usa una función lineal para aproximar o predecir

la variable dependiente dada como:


212

Donde:

y – es la variable dependiente o la variable a predecir.

x – es la variable independiente o la variable que usamos para hacer una

predicción.

a – es la pendiente o el valor que debe ser determinado, se le conoce como

coeficiente y es una especie de magnitud de cambio que pasa por y cuando x cambia.

b – es la constante que debe ser determinada, se le conoce como intercepto

porque cuando x es igual a 0, entonces y = b.

Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo

hay una variable independiente involucrada, que vendría siendo “x”.


213

El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre

todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos

minimizar la distancia entre todos los puntos y la distancia de nuestra línea. Existen

muchos métodos para cumplir con este objetivo, pero todos estos métodos tienen un

solo objetivo que es el de minimizar la distancia.

Una forma en que el modelo de regresión encuentre la mejor línea de ajustes es

utilizando el criterio de mínimos cuadrados para reducir el error.

El error es una parte inevitable del proceso de predicción, no importa cuán

poderoso sea el algoritmo que elijamos, siempre habrá un error irreductible. Sabemos

que no podemos eliminar por completo el error, pero aún podemos intentar reducirlo al

nivel más bajo. Justamente es en este momento en que se usa la técnica conocida

como mínimos cuadrados.

La técnica de mínimos cuadrado intenta reducir la suma de los errores al

cuadrado, buscando el mejor valor posible de los coeficientes de regresión.


214

Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal

pero se selecciona debido:

 Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que

es más fácil diferencias y calcular el descenso del gradiente.

 Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse

rápidamente a conjuntos de datos que tienen miles de características.

 La interpretación es mucho más fácil que otras técnicas de regresión.

Comprendamos en detalle cómo usar estas fórmulas con un ejemplo:

Se nos da un conjunto de datos con 100 observaciones y 2 variables, altura y

peso. Necesitamos predecir el peso dada la altura. La ecuación sería el de Regresión

Lineal simple ya que solamente cuenta con una variable independiente y se puede

escribir de la siguiente forma:

y = ax + b

Donde:

y – es el peso

x – es la altura

a, b son los coeficientes a ser calculados

Al usar Python o cualquier lenguaje de programación no necesitas saber cómo

se calculan estos coeficientes e inclusive el error, razón por la cual a la mayoría de las

personas no les importa el cómo calcularla, pero es mi consejo que debes por lo menos
215

tener un conocimiento al respecto para de esta forma te acerques a ser un maestro en

estos temas.

La fórmula para calcular estos coeficientes es fácil inclusive si solamente tienes

los datos y no tienes acceso a ninguna herramienta estadística para el cálculo podrás

hacer la predicción.

La fórmula para calcular coeficientes es la siguiente:

donde:

i = 1 al número de datos

Suposiciones sobre la Regresión Lineal

La regresión es una técnica paramétrica, por lo que hace suposiciones, veamos

algunas de ellas:

 Existe una relación lineal y aditiva, entre las variables dependientes e

independientes. Por lineal, significa que un cambio en la variable dependiente


216

por 1 cambio de unidad en la variable independiente es constante. Por aditivo,

se refiere al efecto de “x” y “y” son independientes de otras variables.

 No debe haber correlación entre las variables independientes. La presencia de

correlación en variables independientes conduce a multicolinealidad. Si las

variables están correlacionadas, se vuelve extremadamente difícil para el

modelo determinar el verdadero de las variables independientes sobre las

variables dependientes.

 Los términos de error deben poseer varianza constante, ni deben

correlacionarse. La presencia de correlación en términos de error se conoce

como autocorrelación y afecta de manera drástica los coeficientes de regresión y

los valores de error estándar, ya que se basan en la suposición de los términos

de error no correlacionados.

 La variable dependiente y los términos de error deben tener una distribución

normal.

La presencia de estos supuestos hace que la regresión sea bastante restrictiva,

es decir el rendimiento de un modelo de regresión está condicionado al cumplimiento

de estas suposiciones.

Una vez que se violan estas suposiciones, la regresión hace predicciones

tendenciosas y erráticas por lo que se debe tener en cuenta cuando se este trabajando

con este algoritmo.


217

Ejemplos

Ejemplo de Regresión Lineal

Hemos usado una regresión lineal para encontrar los parámetros de la línea que

minimiza el error de los datos que tenemos. El proceso de aprendizaje consiste en

estimar los parámetros w y b. Así nos queda que para estos datos, los mejores valores

son:

w= 0.0918 \\ b = 1.2859w=0.0918b=1.2859

así que nos queda:

y = 0.0918x + 1.2859y=0.0918x+1.2859

Podemos usar este modelo de regresión lineal para estimar cuáles serán los

resultados para otros valores de x. Por ejemplo, si queremos saber el resultado

para x = 5, usaremos el modelo anterior y veremos que el resultado es 1.7449:


218

y = 0.0918 \cdotp 5 + 1.2859 = 1.7449y=0.0918⋅5+1.2859=1.7449

Este es un ejemplo muy simple. En realidad, los problemas de machine learning

tienen muchas más variables. Sin embargo, he escogido este ejemplo porque es muy

fácil de visualizar, explicar y entender. Espero que la intuición de este ejemplo sirva

para entender lo que está pasando cuando haya más variables.

Notación

Antes de explicar el método de los mínimos cuadrados para resolver regresiones

lineales, tenemos que expandir la notación. Debemos tener en cuenta que

normalmente, tendremos muchas variables.

Con una variable, la ecuación para la regresión lineal es:

y = wx + by=wx+b

Por conveniencia, vamos a reescribir la ecuación anterior:

y = b + wxy=b+wx

Cuando tengamos un dato con N variables, llamaremos al dato X. También

tenemos que expandir los parámetros W para que cada parámetro vaya con una

variable:

X = [x_0, x_1, x_2, ..., x_N] \\ W = [w_0, w_1, w_2, ..., w_N]X=[x0,x1,x2,...,xN

]W=[w0,w1,w2,...,wN]

Si hacemos que

x_0 = 1, w_0 = bx0=1,w0=b


219

nos queda una expresión equivalente a la original. Podemos ver que:

y = b + wx = w_0 x_0 + w_1 x_1y=b+wx=w0x0+w1x1

Para el caso general, la ecuación lineal quedaría:

y = WXy=WX

usando el producto matricial. Si tienes la multiplicación de matrices un poco

oxidada, la versión intuitiva sería:

y = w_0 x_0 + w_1 x_1 + w_2 x_2 + ... + w_N x_Ny=w0x0+w1x1+w2x2+...+wN

xN

Formato de los datos

Para que la técnica de regresión lineal pueda aprender de nuestros datos,

tenemos que proporcionar los resultados y en forma de vector de M elementos, y los

datos de entrada X en forma de matrix. El convenio para la matriz X es el siguiente:

 M filas: cada fila es un dato (por ejemplo, un inmueble, si queremos predecir su

valor de venta)

 N columnas: cada columna es un atributo relevante (por ejemplo, cuántas

habitaciones tiene, metros cuadrados, etc).

Aprendizaje: El método de los mínimos cuadrados

El proceso de aprendizaje consiste en averiguar qué parámetros W minimizan

el error cuadrático medio entre los resultados reales y los estimados.


220

El método de los mínimos cuadrados proporciona una solución analítica. Es

decir, nos da una fórmula para obtener la mejor estimación posible de W para los datos

de entrada y resultados que hemos proporcionado. La fórmula es la siguiente:

\hat{W} = (X^T X)^{-1} X^T yW^=(XTX)−1XTy

En la práctica hay librerías numéricas que calculan automáticamente la mejor

estimación de W por nosotros. Ya veremos algún ejemplo práctico del cálculo de

regresión lineal.

De momento, sólo quería indicar que dependiendo de la cantidad de datos y

atributos, puede ser una operación costosa computacionalmente hablando. Fíjate que

hay que transponer matrices, multiplicar matrices e invertir matrices. Todo ello muy

costoso computacionalmente para grandes cantidades de datos.

Otras formas de resolver el problema de la regresión lineal

El método de los mínimos cuadrados no es la única forma de estimar los

mejores parámetros W. También podemos utilizar métodos de optimización numérica

tales como el gradiente descendiente.

El gradiente descendiente va a servir no sólo para resolver regresiones lineales y

polinómicas, sino que es también fundamental para el aprendizaje automático de redes

neuronales y aprendizaje profundo.

Ejemplo del uso del método de los mínimos cuadrados


221

Primero vamos a generar unos datos que siguen una línea, y le añadimos ruido

gaussiano. Para ello usaremos la librería de python NumPy. La fórmula que he usado

para generar los datos es:

y = 0.1x + 1.25 + N(0, 0.2)y=0.1x+1.25+N(0,0.2)

El código en python quedaría así:

import numpy as np #Librería numérica

import matplotlib.pyplot as plt # Para crear gráficos con matplotlib

%matplotlib inline # Si quieres hacer estos gráficos dentro de un jupyter

notebook

from sklearn.linear_model import LinearRegression #Regresión Lineal con

scikit-learn

def f(x): # función f(x) = 0.1*x + 1.25 + 0.2*Ruido_Gaussiano

np.random.seed(42) # para poder reproducirlo

y = 0.1*x + 1.25 + 0.2*np.random.randn(x.shape[0])

return y

x = np.arange(0, 20, 0.5) # generamos valores x de 0 a 20 en intervalos de 0.5

y = f(x) # calculamos y a partir de la función que hemos generado

# hacemos un gráfico de los datos que hemos generado

plt.scatter(x,y,label='data', color='blue')
222

plt.title('Datos');

Este código genera los datos que se ven en la siguiente imagen:

Datos de ejemplo para hacer una regresión lineal: y = 0.1*x + 1.25 + N(0, 0.2)

Entrenando un modelo de Regresión Lineal en python

Para entrenar el modelo, simplemente tendremos que hacer uso de scikit-learn.

El método fit se encarga de ajustar los parámetros de regresión lineal a los datos.

# Importamos la clase de Regresión Lineal de scikit-learn

from sklearn.linear_model import LinearRegression

regresion_lineal = LinearRegression() # creamos una instancia de

LinearRegression

# instruimos a la regresión lineal que aprenda de los datos (x,y)


223

regresion_lineal.fit(x.reshape(-1,1), y)

# vemos los parámetros que ha estimado la regresión lineal

print('w = ' + str(regresion_lineal.coef_) + ', b = ' + str(regresion_lineal.intercept_))

# resultado: w = [0.09183522], b = 1.2858792525736682

Como vemos, la regresión lineal casi ha averiguado cómo hemos generado los

datos:

 Estima 0.092 en lugar de 0.1 para w

 Estima 1.286 en vez de 1.25 para b

Este pequeño error es normal debido a la cantidad de ruido gaussiano que

hemos introducido y al hecho de que hay muy pocos datos.

Prediciendo con Regresión Lineal en python

Una vez que tenemos entrenado el modelo de regresión lineal, podemos hacer

predicciones usando el método predict de la clase LinearRegression. Por ejemplo, si

quisiéramos saber qué valor de y corresponde para x=5 usamos este código.

# vamos a predicir y = regresion_lineal(5)

nuevo_x = np.array([5])

prediccion = regresion_lineal.predict(nuevo_x.reshape(-1,1))

print(prediccion)

# resultado: [1.7449]
224

Así vemos, que la estimación de la regresión lineal del modelo que acabamos de

entrenar para x = 5 es y = 1.7449.

Evaluando la calidad de la regresión lineal

Vamos a evaluar la calidad del modelo aprendido usando solamente los datos de

entrenamiento. Recuerda que en un problema real, hay que evaluar también la

capacidad de generalización del modelo. Podemos evaluar la calidad del modelo

midiendo el error cuadrático medio y el coeficiente de determinación R2.

Error Cuadrático Medio

# importamos el cálculo del error cuadrático medio (MSE)

from sklearn.metrics import mean_squared_error

# Predecimos los valores y para los datos usados en el entrenamiento

prediccion_entrenamiento = regresion_lineal.predict(x.reshape(-1,1))

# Calculamos el Error Cuadrático Medio (MSE = Mean Squared Error)

mse = mean_squared_error(y_true = y, y_pred = prediccion_entrenamiento)

# La raíz cuadrada del MSE es el RMSE

rmse = np.sqrt(mse)

print('Error Cuadrático Medio (MSE) = ' + str(mse))

print('Raíz del Error Cuadrático Medio (RMSE) = ' + str(rmse))

Nos da el siguiente resultado:


225

Error Cuadrático Medio (MSE) = 0.033

Raíz del Error Cuadrático Medio (RMSE) = 0.182

6.4 Método de Mínimos cuadrados. (TEORIA Y EJEMPLOS).

Cuando varias personas miden la misma cantidad, generalmente no obtienen los

mismos resultados. De hecho, si la misma persona mide la misma cantidad varias

veces, los resultados variarán. ¿Cuál es la mejor estimación para la verdadera

medición? El método de mínimos cuadrados proporciona una forma de encontrar la

mejor estimación, suponiendo que los errores (es decir, las diferencias con respecto al

valor verdadero) sean aleatorias e imparciales.

¿QUÉ SON LOS MÍNIMOS CUADRADOS?

Es un procedimiento de análisis numérico en la que, dados un conjunto de datos

(pares ordenados y familia de funciones), se intenta determinar la función continua que

mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),

proporcionando una demostración visual de la relación entre los puntos de los

mismos. En su forma más simple, busca minimizar la suma de cuadrados de las

diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y

los correspondientes datos.

Este método se utiliza comúnmente para analizar una serie de datos que se

obtengan de algún estudio, con el fin de expresar su comportamiento de manera lineal

y así minimizar los errores de la data tomada.


226

La creación del método de mínimos cuadrados generalmente se le acredita al

matemático alemán Carl Friedrich Gauss, quien lo planteó en 1794 pero no lo publicó

sino hasta 1809. El matemático francés Andrien-Marie Legendre fue el primero en

publicarlo en 1805, este lo desarrolló de forma independiente.

DEFINICIÓN:

Su expresión general se basa en la ecuación de una recta y = mx + b. Donde

m es la pendiente y b el punto de corte, y vienen expresadas de la siguiente manera:

Σ es el símbolo sumatoria de todos los términos, mientas (x, y) son los datos en

estudio y n la cantidad de datos que existen.

El método de mínimos cuadrados calcula a partir de los N pares de datos

experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta. Se

entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de los

puntos medidos a la recta.

Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al

conectar punto a punto no se describe una recta, debemos aplicar el método de

mínimos cuadrados, basándonos en su expresión general:


227

Cuando se haga uso del método de mínimos cuadrados se debe buscar una

línea de mejor ajuste que explique la posible relación entre una variable independiente

y una variable dependiente. En el análisis de regresión, las variables dependientes se

designan en el eje y vertical y las variables independientes se designan en el eje x

horizontal. Estas designaciones formarán la ecuación para la línea de mejor ajuste, que

se determina a partir del método de mínimos cuadrados.

EJEMPLO DEL MÉTODO DE MÍNIMOS CUADRADOS

Para entender con claridad la aplicación del método veamos un ejemplo:

Encontrar la recta que mejor se ajusta a los siguientes datos:

Veamos el gráfico:
228

Necesitamos encontrar una recta y = mx + b. Debemos aplicar el método de

mínimos cuadrados. Como ya sabemos entonces, primero centraremos el valor (x ∙ y):

Segundo por las expresiones de m y b debemos encontrar el valor x²:


229

Ahora podemos obtener los valores de las sumatorias de cada columna:

Sustituimos en cada una de las expresiones:

La recta obtenida con el método de los mínimos cuadrados es la siguiente:

Observemos el gráfico:
230

Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Por lo tanto, si

queremos saber dónde corta en el eje x igualamos la ecuación y = 0:

Despejamos x:

I. INSTRUCCION: Calcule la r de Pearson por el método de las calificaciones originales para los
siguientes datos.

Persona X Y X2 Y2 XY r = Ver fórmula abajo.


A 3 4 9 16 12
B 7 7 49 49 49 r =5(392)- (35)(50)
C 9 10 81 100 90 √5(285)-(35)2 √ 5(590)-(50)2
D 5 13 25 169 65 r = 0.7
E 11 16 121 256 176
35 50 285 590 392
231

II.- INSTRUCCIÓN: Conteste correctamente lo que se pide a continuación:

a) En cierto grupo escolar se tienen 20 niñas y 10 niños. Si se elige un estudiante al


azar. ¿Cuál es la probabilidad de que sea niño?

Solución: p = No. De elementos favorables = 10 = 0.333 = 33.3%


No. Total de elementos 30

b) Del ejercicio anterior. ¿Cuál es la probabilidad de que si se eligen tres estudiantes,


uno tras de otro, los tres sean niños?

Solución: p = (10/30 )(9/29)(8/28) = 0.02955 = 2.96%

c) En una clase de 50 alumnos, 15 reprobaron matemáticas, 25 reprobaron física y 8


reprobaron ambas. ¿Cuál es la probabilidad de elegir un estudiante al azar y haya
reprobado matemáticas, física o ambas?

Solución : p( M o F) = p(M) + p(F) – p(M y F) = 15/50 + 25/50 - 8/50 = 32/50 =


0.64 = 64%

d) Una asamblea de 25 personas desea nombrar un comité compuesto de 1


presidente, 1 secretario y 1 tesorero. ¿Cuántas maneras hay de constituir un
comité?

Solución: 25 x 24 x 23 = 13,800 Aplicando Principio multiplicativo

O por Permutaciones 25 P3 = 25! = 25! = 25 x 24 x 23 x 22!


= 13,800
(25 – 3)! 22!
(22 factorial de arriba entre el 22 factorial de abajo, da la unidad.)

e) Un club tiene 15 miembros. ¿De cuántas maneras se puede elegir una junta de 3
miembros?

Solución: 15C3 = 15! = 15! = 15x14x13x12! = 2730 = 455


3!(15-3)! 3! 12! 3x2x12! 6

(12 factorial de arriba entre el 12 factorial de abajo, da la unidad.)

f) En un concurso de belleza se suelen escoger primero 15 semifinalistas y luego se


eligen 5 finalistas. ¿De cuántas maneras se pueden ocupar las 5 primeras
posiciones entre las 15 semifinalistas?
232

Solución: 15 P5 = 15! = 15! = 15x14x13x12x11x10! =


15x14x13x12x11 =
(15-5)! 10! 10!

= 360,360

( o se pudo realizar con principio multiplicativo )

( Les recuerdo que se utilizan permutaciones cuando se


requiere orden, y cuando no se requiere orden se utilizan combinaciones.)

Fórmula para calcular la r de Pearson por el método de las calificaciones originales.

También podría gustarte