0% encontró este documento útil (0 votos)
120 vistas13 páginas

Análisis de materiales sociolingüísticos

Este documento describe los métodos para analizar datos sociolingüísticos, incluyendo análisis cualitativos y cuantitativos. Explica que el análisis cualitativo identifica las partes de un todo sin cuantificarlas, mientras que el análisis cuantitativo también cuenta la frecuencia de cada parte. Además, discute variables lingüísticas y sociales que se pueden analizar, y los desafíos de clasificar y cuantificar datos complejos.

Cargado por

Aleli
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
120 vistas13 páginas

Análisis de materiales sociolingüísticos

Este documento describe los métodos para analizar datos sociolingüísticos, incluyendo análisis cualitativos y cuantitativos. Explica que el análisis cualitativo identifica las partes de un todo sin cuantificarlas, mientras que el análisis cuantitativo también cuenta la frecuencia de cada parte. Además, discute variables lingüísticas y sociales que se pueden analizar, y los desafíos de clasificar y cuantificar datos complejos.

Cargado por

Aleli
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Moreno Fernández, Francisco (1990) Metodología sociolingüística. Madrid: Gredos.

Capítulo III
Análisis de los materiales sociolingüísticos

El análisis como problema metodológico


Una vez recogidos los datos, el análisis consiste en identificar, agrupar, ordenar y
comparar esos datos. Se aplica esta estrategia en cualquier estudio lingüístico de
corte empírico.
El investigador, cuando selecciona un sistema de análisis, debe procurar que la
técnica sea adecuada a la naturaleza de los datos y sea acorde con la finalidad del
estudio. Habrá que valorar si los datos son fonéticos, sintácticos, coloquiales,
formales, numerosos, escasos, etc.; en qué circunstancias han sido recogidos, de qué
tipo de muestras, y las características de los miembros que las componen, entre otros
factores; así como si se pretende hacer una descripción, comprobar una hipótesis o
llegar a algún tipo especial de averiguación, para seleccionar las técnicas de análisis
convenientes en cada caso.

Cuantificación y no cuantificación
Analizar es básicamente descomponer. Un análisis consiste en separar las partes de
un todo hasta dar con cada uno de los elementos que lo componen. Hay dos formas
de realizar un análisis:
- identificando las partes del todo: análisis cualitativo
o
- identificando esos elementos y averiguando en qué cantidad aparece cada uno
de ellos: análisis cualitativo.
Ejemplos: los análisis gramaticales, en general, son típicamente cualitativos; también
los que se han realizado dentro de la “etnografía de la comunicación”.
Son cuantitativos, en cambio, los estudios del lenguaje en su contexto social, de
Labov. En este tipo de investigaciones, especificando las cantidades que
corresponden a cada elemento (por ej., las probabilidades que encierra una variable),
se obtienen conclusiones acerca de cómo puede evolucionar ese todo. Identificando
los elementos cualitativamente, se consigue una visión estática del conjunto.
La sociolingüística estricta parece haberse inclinado por el estudio de datos
cuantificados, aun cuando se presenten dificultades relativas a la clase, número o
complejidad o no de los datos.
Pero también, aun trabajando dentro de la cuantificación, se prefiere, en determinados
momentos, intentar ver los datos cuantificados desde una perspectiva cualitativa. Es
el caso de Mats Thelander en su estudio sobre la variación entre /dᴐmm/ y /dmm/,
‘ellos’ en la comunidad sueca de Burträsk. Para el autor, los datos sociolingüísticos
no deben ser sobrecuantificados. Esto puede evitarse manipulándolos sin pasar por
alto los aspectos cualitativos que en ellos se muestran. Thelander distingue dos tipos
de variación a propósito del cambio de código: la micro-variación (determinada por
factores contextuales intra y extralingüísticos: por ejemplo, la caída de –r implosiva
en inglés obedece, por un lado, a las características del propio contexto lingüístico y,
por otro, a los sexos y edades de los hablantes) y la macro-variación (afectada
exclusivamente por factores extralingüísticos: por ejemplo, la alternancia de lenguas
o dialectos supone el cambio de situación lingüística). La micro-variación suele ser
analizada cuantitativamente; la macro-variación debe ser estudiada desde la
cualificación.

Construcción de clases
Tanto los análisis cuantitativos como los cualitativos tienen entre sus objetivos el de
establecer clases de elementos. Cuando se pretende clasificar cuantificando, la tarea
exige técnicas complejas.

Las reglas y su aplicación


La selección de los criterios de clasificación está relacionada con la forma en que los
datos han sido recogidos y la finalidad del estudio.
Cuando el análisis es cuantitativo, las clasificaciones suelen realizarse sobre
variables; cada variable, lingüística y extralingüística, refleja un determinado número
de variantes que deben ser cuantificadas. Variable es un rasgo que puede
manifestarse de formas distintas, a las que se denomina variantes. Por ejemplo, el
fonema /s/, cundo va en posición implosiva, en numerosos puntos del mundo
hispánico, puede presentar distintas variantes en su realización: s, h, , etc. De
igual forma, la variable “edad”, como elemento sociológico, es un rasgo que encierra
tantas variantes como años pueden contar las personas en su vida. Los análisis
cuantifican tanto las variables como las variantes.
El análisis es un artificio mediante el cual se parcela una realidad (lingüística y
social) de naturaleza continua para llegar a conocerla mejor. No existen razones
absolutas que obliguen a distinguir cuatro clases de edad en los informantes ( 20; 21
 35: 36  50; 51  ). Lo mismo puede decirse de la naturaleza de los datos
lingüísticos y su clasificación: por ejemplo, ¿por qué distinguir cuatro segmentos
estilísticos y no más?; ¿por qué distinguir sólo dos variaciones en la realización
fonética del sufijo ing (in, iŋ) y no otras posibilidades intermedias?
Debido a la naturaleza compleja de los datos lingüísticos y no lingüísticos, el
investigador debe imponerle límites clasificadores; debe parcelar la realidad de forma
razonable o justificada de acuerdo con los objetivos de la investigación y el costo que
supondría cumplirlos.

Las variables sociales


Las variables sociológicas con las que más ha trabajado la lingüística cuantitativa han
sido: sexo, edad, raza, posición socioeconómica y educación. Por su parte, la
etnografía de la comunicación agrega otros directamente relacionados con la
comunicación cara a cara: elementos paralingüísticos y kinésicos, tipos de oyentes,
detalles contextuales, así como unidades puramente etnográficas y psicolígico-
sociales.
La sociolingüística de Labov divide las comunidades en estratos socioeconómicos y,
por tanto, los análisis que se realizan son estratificacionales. Esta concepción ha
funcionado en ciudades como Detroit, Nueva York, San Juan de Puerto Rico, Las
palmas de Gran Canaria, etc., pero no tiene una validez universal. Por eso han
surgido alternativas, como el concepto de “mercado lingüístico” o el de “red social”.
Tanto la “red” como el “mercado” tienden a interpretar la variación sociolingüística,
no en función de estratos, sino de grupos de actividad comunicativa. En el concepto
de “mercado lingüístico” subyace el principio marxista según el cual la conducta
lingüística viene determinada por la relación de los hablantes con los medios de
producción. Un mercado reflejaría conductas dependientes de las actividades
socioeconómicas de los individuos.
El concepto de “red social” alude a las relaciones que un individuo establece con
otros; es un principio de validez universal, como ha afirmado Lesley Milroy. Las
redes sociales poseen distintos grados de densidad y de multiplicidad, según el
número de individuos que las forman y la fuerza de los vínculos que unen a sus
componentes. Cada uno de los miembros recibe un índice numérico que refleja la
estructura de su red, de acuerdo con los principios de densidad y multiplicidad.
Para examinar la relación entre la variación lingüística y la estructura de la red, en
Belfast, Milroy utiliza una escala de seis puntos que medía los índices de los
hablantes sobre cinco indicadores de multiplicidad y densidad: vecindad, parentesco,
trabajo en el mismo lugar que otros vecinos del mismo sexo y amistad. Estos
indicadores fueron interpretados como requisitos que, si se cumplían, sugerían la
existencia de una red personal relativamente densa y múltiple. A cada individuo se le
asignaba un punto por cada requisito que se cumplía, de tal forma que el grado de
fuerza de la red era la suma de los índices de los indicadores individuales.
Una vez que las redes y los elementos de su estructura están cuantificados, es fácil
poner en correlación estos factores sociales con las variables lingüísticas. Sin
embargo, se presentan problemas, debidos a:
a) la medida y cuantificación de la red: Milroy señala que los indicadores (que
miden la integración de los individuos a una red) pueden variar de una
comunidad a otra. Por ello el procedimiento de medición debería reelaborarse
para cada comunidad en particular.
b) el estudio de la red débil: una red débil está compuesta por unos miembros con
una movilidad geográfica y social grande y, por lo tanto, no consolidan lazos
de unión sólidos. Debido a la diversidad de relaciones que esos miembros
móviles pueden llegar a establecer, es difícil comparar el igualdad de
condiciones a los miembros que forman la red y a las diversas redes débiles
entre sí.

Las variables lingüísticas


En el análisis sociolingüístico es importante la fase de identificación de las variantes
de cada variable. En el nivel fonético la identificación es más complicada, aunque se
ha acudido al auxilio espectrogramas (empleado por Labov, Yaeger y Steiner en sus
estudios sobre Nueva York) o análisis de señales digitalizadas (en el estudio de
Labov sobre Filadelfia). El sociolingüista puede encontrarse con realizaciones cuya
adscripción a una variante u otra es dificultosa, teniendo en cuenta que las variantes
son consideradas unidades discretas. Por eso, es el propio investigador el que
objetivamente establece los márgenes entre variantes.
Menos problemas parece presentar el análisis de datos sintácticos o léxicos; sin
embargo, cuando trabaja con estos datos, el investigador debe tomar algunas
decisiones subjetivas, relativas a la elección de variables, al número de variaciones y
a otros factores.
El análisis cuantitativo de variables lingüísticas consiste normalmente en:
a) descubrir las cantidades de datos que se han recogido en cada variable y
variante, si es que éstas fueron determinadas de antemano;
b) relacionar y comparar matemáticamente las cuantificaciones hechas sobre cada
variable y variante de naturaleza extralingüística. La sociolingüística
variacionista exige dar cuenta de todas las apariciones de una variable y de
todas las no apariciones de variantes en contextos significativos.
La estadística desempeña un papel importante ya que multiplica las posibilidades
analíticas, especialmente si se realiza con procedimientos informáticos, por la
velocidad, capacidad y fiabilidad que ofrecen.

El análisis estadístico
El análisis estadístico debe cumplir dos fines:
a) describir y resumir los datos;
b) hacer estimaciones de fiabilidad.
Se distingue entre estadística descriptiva y estadística de inferencias. Una
descripción consiste simplemente en cuantificar estadísticamente un conjunto de
datos; con la inferencia también se cuantifican datos, pero a través de ellos se pueden
aplicar conclusiones de esos análisis a conjuntos de mayor entidad y de mayor
número, que no han sido analizados en su totalidad.
Para Ralph Fasold, en los usos de la estadística en sociolingüística subyacen cuatro
conceptos: población, característica, cuantificación y distribución.

Población: pueden estudiarse en su totalidad, cuando están compuestas de pocos


elementos, o a través de muestras. En la investigación sociolingüística se consideran
en las poblaciones las variables lingüísticas y las variables sociales.

Característica: Se llaman así a las variables propiamente dichas. Algunas son


dependientes (suelen constituir el objeto de estudio primordial) y otras
independientes (están relacionadas o influyen sobre las dependientes). En la
sociolingüística laboviana, las variables dependientes son las lingüísticas y las
independientes son las sociales).

Cuantificación: las cuantificaciones se realizan sobre las variables o características.


Existen dos tipos de variables: variables cualitativas y variables cuantitativas. Las
dos clases son analizadas sobre escalas. Las cualitativas son analizadas en escalas
nominales (los elementos reciben una etiqueta o un número, sin un orden
determinado) u ordinales (se establece un orden, pero los intervalos entre grados no
son regulares).

Escala nominal Escala ordinal


Variable cualitativa: “profesión” Variable cualitativa: “edad”
1. Agricultor 1.  20
2. Comerciante 2. 21  35
3. Camarero 3. 36  50
4. Empleado de la construcción 4. 50 

Las variables cuantitativas admiten medición interna, para la que se utilizan dos tipos
de escalas: “escala de intervalos” (interval) y “escala proporcional” (ratio scale). En
ellas los elementos se ordenan en diferentes niveles y a distancias iguales, aunque, en
la primera, el investigador marca los límites arbitrariamente y, en la segunda, con
criterios objetivos. Ejemplo: se podría aplicar una escala de cuantificación mensural a
la abertura de las vocales finales tras la caída de la implosiva final en andaluz
oriental, distinguiendo intervalos equidistantes.

Distribución: consiste en establecer el número de elementos de una variable que


aparece en cada grado de las escalas.

La descripción estadística: conceptos básicos


Cuando los datos han sido localizados y contados, e incluso ordenados en escalas (es
decir, cuando los datos han sido codificados y tabulados) se está en condiciones de
iniciar el análisis estadístico. Se establecen dos finalidades:
1) Describir y resumir los datos: se aplican los siguientes conceptos estadísticos:
frecuencia, media, mediana, desviación típica (o desviación estándar) y
frecuencia.
2) Hacer estimaciones de significación y fiabilidad.

La frecuencia
Es el número de veces que aparece un elemento dado en una unidad concreta. Por
ejemplo: el número de veces que se ha producido la caída de –d– intervocálica en la
terminación –ado– de los participios, en los textos recogidos del discurso informal de
hablantes de una clase social concreta: el número de elementos léxicos de la industria
textil que han sido tomados de la lengua inglesa sin una adaptación fonomorfológica.
Frecuencias absolutas: el número real de veces que aparece un elemento;
Frecuencias relativas, llamadas también proporciones o porcentajes: la proporción
de casos respecto de un total en que aparece un elemento.
Es conveniente dar cuenta simultáneamente de ambas frecuencias para poder
comprobar la significación real de las proporciones.

Media y mediana
Los conceptos de media, mediana, desviación típica y varianza pertenecen al ámbito
de la “distribución de los datos”. Son los instrumentos encargados de dar cuenta de la
distribución de las frecuencias en las escalas establecidas.
La media – o media aritmética (x) es un promedio que se obtiene sumando las
frecuencias de una serie de elementos y dividiendo el resultado por el número de
elementos estudiados. La media suele ir acompañada de otras indicaciones
estadísticas, como la desviación típica o la varianza. La distribución de los datos a lo
largo de una escala frecuentemente forma una figura simétrica, representada por
medio de una curva (llamada curva normal) y que muestra claramente una
acumulación de elementos en los estadios intermedios.
La mediana es el punto intermedio de una escala de intervalos. Da un punto de
referencia o un “dato típico” para valorar más correctamente el comportamiento
cuantitativo de un grupo de elementos. Media y mediana no coinciden
necesariamente.
Ejemplo: Humberto López Morales investigó el léxico de la industria textil. Se
presenta la lista de unidades léxicas en las que aparecen en competición 76 términos
del español y otros tantos del inglés para designar 76 referentes distintos (“caja de la
bobina” / bobine cage; “tendedor” / spreader, etc). Las frecuencias absolutas de las
unidades mayoritarias en cada una de las “competiciones” van desde 1 a 32; las
frecuencias de las minoritarias van desde 1 hasta 12. La media aritmética de las
primeras es de 8,5, frente a 2,5 de las minoritarias; sin embargo, la mediana en las
mayoritarias es de 16, mientras que en las segundas es de 6. Habría que contar con
estos puntos de referencia para saber que de las 76 parejas en competición, sólo 11
están por encima de la mediana, entre los términos mayoritarios, y sólo lo consiguen
9 entre los minoritarios; es decir, de las parejas analizadas, sólo en 11 se observan
importantes diferencias en cuanto a la frecuencia de uno de los términos alternativos.

Varianza y desviación típica


Aunque dos poblaciones o muestras presenten una media idéntica respecto de una
variable determinada, puede haber entre ellas importantes diferencias: una de las
poblaciones puede ser muy homogénea, es decir, los elementos que la componen
pueden ser muy similares entre sí, mientras que es posible que la otra sea muy
heterogénea. En el primer caso, la variabilidad interna sería pequeña y en el segundo,
grande, o, dicho de otra forma, en la heterogeneidad existiría una mayor dispersión
que en la homogénea.
Ejemplo:
Se obtuvieron dos muestras de diez hablantes, una de hombres y otra de mujeres,
sobre las que se recogió el número de aspiraciones de –s en posición implosiva que
aparecen al leer un texto. La media de aspiraciones de –s es de 5 en cada una de las
muestras. Pero es necesario valorar qué dispersión tiene el fenómeno entre hombres y
mujeres.

Hombres Mujeres
2
x D d x d d2
3 -2 4 1 -4 16
6 1 1 18 13 169
12 7 49 22 17 289
4 -1 1 1 -4 16
8 3 9 2 -3 9
7 2 4 1 -4 16
6 1 1 2 -3 9
2 -3 9 1 -4 16
1 -4 16 1 -4 16
1 -4 16 1 -4 16
x = 50 d = 0 d = 110
2
 = 50 d = 0 d = 572
2

x=5 x=5

En los cuadros aparecen las frecuencias absolutas de aspiración en los individuos de


cada muestra, así como la suma total de aspiraciones (x) y la media (x).
Los mecanismos que la estadística pone a disposición para calcular la dispersión son
la varianza (v) y la desviación típica (s). Ambas técnicas proporcionan información
acerca de cómo se distribuyen los elementos alrededor de la media. Se trata de
cuantificar cuánta es la variación de los datos y cuánto se desvían los elementos
analizados respecto de la media.
El cálculo de la varianza consta principalmente de tres etapas:
1ª) Ver la diferencia (d) de cada frecuencia respecto de la media, para lo cual se
realiza sencillamente una resta (x¡ - x). Una vez que se restaron todas las frecuencias
de la muestra, se suman los resultados entre sí (d): siempre debe obtenerse 0.
2ª) Calcular en cuadrado de la diferencia obtenida en cada resta (d2) y sumar los
resultados (d2).
3ª) Dividir d2 entre el número de x analizadas (n; en esta caso diez) menos uno. Así
se obtendrá la varianza.
d2
v = ___________
n–1

En la muestra de los hombres, la varianza es de 12.2; en la de las mujeres, 63,6. Al


comparar las varianzas, queda claro que la homogeneidad de las muestras es muy
diferente.
El cálculo de la desviación típica sólo requiere aplicar la fórmula s = v; en el
ejemplo, la desviación de la muestra de hombres es de 3,5, mientras que en las
mujeres es de 8,0. Queda clara la mayor homogeneidad de la primera respecto de la
segunda.

Probabilidad
Su cálculo tiene por fin cuantificar el tipo de relación que existe entre las
características de una muestra y la población de la que se extrajo esta última.
Labov desarrolló el “modelo de la regla variable”, un núcleo teórico-metodológico.
El variacionismo incorpora un elemento probabilístico en la competencia lingüística
de Chomsky, sustituyendo las tradicionales “reglas opcionales” en las que subyace el
concepto de variación libre, por “reglas variables” Cada “regla variable” incluye un
coeficiente específico que cuantifica la probabilidad de que una regla se aplique de
acuerdo con una serie de constricciones de naturaleza lingüística y social.
Los coeficientes probabilísticos se calculan a partir de las frecuencias de materiales
recogidos en trabajos de campo, ya que una “probabilidad” no es más que una
frecuencia relativa esperada. El modelo de “regla variable” o de cálculo de los
coeficientes de probabilidad de una regla fue propuesto por David Sankoff y Pascale
Rousseau en 1978. Su nombre es “modelo lógico” y responde a la siguiente
representación matemática:

p po pa pb pn
______ = ______ x ______ x ______ x ……………… x ______
1–p 1 – po 1 – pa 1 – pb 1 – pn

p es probabilidad, po es la probabilidad de que la regla se aplique en el contexto más


favorable y a, b, …, n son cada uno de los rasgos del contexto en que puede darse la
regla.
La aplicación del “modelo lógico” sobre materiales reales se lleva a cabo a través de
un programa de ordenador denominado VARBUL. Tanto el modelo como el
programa pertenecen al ámbito de la estadística del análisis multivariable.

Presentación de datos en gráficos


La elaboración de gráficos y tablas permite describir y reunir los datos en forma
eficaz.
La finalidad de las tablas suele ser ordenar una serie de elementos (datos
sociológicos, contextuales o lingüísticos) en clases o categorías mutuamente
excluyentes. Los datos habituales de las tablas son frecuencias relativas y absolutas.
La complejidad de una tabla será mayor cuantos más sean los grupos de datos
(variables) admitidos dentro de ella; por ejemplo, es una tabla medianamente
compleja la que da cuenta de las frecuencias de un hecho lingüístico en individuos
divididos en las categorías de sexo, edad y profesión.
Se utilizan varios tipos de gráficos en sociolingüística. Entre ellos se destacan los
diagramas de barras, las curvas y los histogramas. Todos permiten comparar
frecuencias pertenecientes a categorías distintas, pues son al menos dos parámetros
los que se ofrecen: uno de representa verticalmente y el otro en horizontal.

Los diagramas de barras y las gráficas de curvas frecuentemente tienen el mismo


valor y la misma significación estadística. La elección de uno u otro sistema depende
de la calidad plástica y la capacidad para hacer los datos más fácilmente
aprehensibles de cara al lector.

Diagrama de barras

Histogramas: se usan cuando los dos parámetros son escalas graduales cuantitativas.
Los grados de las escalas (intervalos) deben estar dispuestos de tal manera su valor
cuantitativo sea inferior al de los gados anteriores y superior al de los grados
posteriores. Es posible representar mediante curvas los contenidos de los
histogramas, y viceversa.

Pruebas estadísticas
El segundo fin del análisis estadístico es el de hacer estimaciones de significación y
de fiabilidad. Cuando los datos han sido descriptos y se han conseguido valores
estadísticos importantes (como las medias y las desviaciones típicas) se puede ir más
allá, partiendo por lo general de las frecuencias.
El análisis consiste en plantear un conjunto de hipótesis que los datos deben aceptar o
rechazar ofreciendo unas probabilidades de error lo más bajas posibles. Las hipótesis
pueden referirse a la vinculación existente entre diversas variables y pueden ser
planteadas de forma positiva o negativa.
Forma negativa: hacia ella se orientan muchas de las pruebas estadísticas (varianza, t,
x2, etc.): consiste en presentar una hipótesis que debe ser rechazada al aplicar la
estadística sobre los datos, de manera que quede comprobada su contraria: se llama
“hipótesis nula”.
Dos aspectos al plantear y comprobar hipótesis: la preparación y los tipos de datos
sobre los que se va a comprobar. Al redactar una hipótesis debe dejarse de lado
cualquier tipo de ambigüedad. En cuanto a los tipos de datos, debe saberse si estos
aparecen ordenados en escalas de intervalos o en escalas nominales u ordinales, es
decir, si las variables son cuantitativas o cualitativas. Cuando se estudian escalas de
intervalos se aplican técnicas estadísticas paramétricas; en el caso de las escalas
nominales, se aplican técnicas no paramétricas.
Ralph Fasold: cuatro pruebas estadísticas más usadas en sociolingüística: análisis de
varianza (ANOVA), la prueba t, ji cuadrado (x2) y correlación.

Análisis de varianza y prueba t


El análisis de varianza (ANOVA) se aplica cuando las variables dependientes están
organizadas en escalas de intervalos. Su finalidad es comparar las medias y la forma
en que los datos se distribuyen alrededor de esas medias.
Dos tipos de ANOVA: el análisis simple y el análisis compuesto. El primero
comprueba si muestras diferentes de una misma variable tienen comportamientos
distintos respecto de otra variable; el segundo atiende a más de una variable.
La prueba t también es paramétrica y sus fines coinciden con el análisis simple de la
variedad ANOVA. Para aplicar la prueba t son necesarias dos variables: ej. el sexo y
la abertura de la vocal final tras producirse la caída de una consonante implosiva
final. La variable sexo se cuantifica enumerativamente (variable independiente) y la
abertura vocálica admite una cuantificación mensural (variable dependiente).
Aplicando la prueba t averiguamos si la conducta de hombres y mujeres es
significativamente distinta en lo que se refiere a la abertura de las vocales finales.
Decimos significativamente porque las diferencias entre las muestras, es decir, la
similitud o disimilitud de las desviaciones típicas respecto de las medias, vienen
dadas por el cálculo de F (F ratio), dividiendo la varianza más grande por la varianza
más pequeña. La prueba t dice si la diferencia presentada por F es significativa o no,
es decir, cuál es la probabilidad de que esa diferencia se deba al azar. Para calcular el
valor de t sobre muestras independientes se aplica la fórmula:
x1 – x2
t = ____________

s2 s2
______ + ______

n1 n2

n es el tamaño de cada muestra; s es la desviación típica y x la media.


Diferencia entre la prueba t y el análisis simple: t sólo trabaja con dos muestras;
mientras que ANOVA siempre trabaja con más, siempre que sean estados distintos de
una misma variable (por ej.,  20, 21  35, 36  50, 51  ).
Ventaja del análisis compuesto de la varianza: permite manejar más de una variable
(ej., sexo y edad), dentro de las cuales se distinguen varios niveles.

Ji cuadrado (x2)
La prueba de x2 es de carácter no paramétrico; por medio de ella se comprueba si la
distribución de dos variables es independiente o interdependiente. Su cálculo trabaja
con unos valores observados (o) y unos valores esperados teóricamente (e). la
fórmula general de la prueba de x2 es:

(o – e)2
x2 =  ________
e

Esta prueba se aplica sobre cualquier número de variables y trabaja con frecuencias
absolutas. Se deben realizar tres tareas, aparte de las operaciones derivadas de la
fórmula:
1º) calcular los valores esperados
2º) calcular los grados de libertad
3º) consultar la tabla de distribución de x2

1º) Calcular los valores esperados: la prueba se aplica sobre tablas de frecuencias
observadas donde los datos se ordenan en líneas y columnas.
Los valores esperados de las frecuencias de cada columna se obtienen por medio de
una sencilla regla de tres aplicada sobre los totales.

2º) Calcular los grados de libertad: permite llevar a cabo la consulta de la tabla de
distribución. Para saber con cuántos grados de libertad se está operando (v), hay que
multiplicar el número de columnas de datos menos uno, por el número de líneas
menos uno
v = (C – 1) (L – 1)

3º) Consultar la tabla de distribución de x2:


Una vez que se ha calculado la distribución de x 2, y sabiendo el número de grados de
libertad de la operación, debe consultarse la tabla de la prueba. En ella se comprueba
si x2 es significativo o no. Para cada posible grado de libertad se da la probabilidad
(p) de que el valor de x2 dado por la tabla fuera el mismo o no en caso de que la
distribución fuera aleatoria. La interpretación de los resultados de la prueba debe
pasar necesariamente por la consulta de esta tabla. Un mal cálculo de los grados de
libertad o una verificación errónea sobre la tabla pueden falsear e inutilizar los
resultados de la prueba.

Correlaciones, covarianza y regresión


Es posible medir el grado de interdependencia que poseen dos variables, es decir,
averiguar hasta qué punto dos variables están relacionadas en una determinada
población. Hay 4 cálculos: covarianza, coeficiente de correlación, correlación de
rangos y regresión lineal.

a) Covarianza (COV): es el grado de relación lineal que establecen dos variables. Es


una medida basada en la dependencia que existe entre dos escalas. La fórmula que da
cuenta de ella es:

1
COV (X, Y) = _____________  (X – X) (Y – Y)
n–1

La covarianza de X e Y es igual a 1 dividido por el número total de variaciones


menos 1, por sumatorio de X menos la media de X, por Y menos la media de Y. Si el
resultado es positivo y se trata de una cifra bastante abultada, quiere decir que X e Y
tienden a comportarse de manera idéntica: cuando X es más grande que su media, Y
también lo es; si X es menor que su media, la frecuencia de Y también es más baja.

b) Coeficiente de correlación: también conocido como “coeficiente de correlación de


Pearson” (r), se calcula sobre escalas de intervalos que no son medidas de la misma
forma, es decir, que presentan medidas independientes, sin que ello afecte al producto
de la correlación. Este coeficiente ofrece valores entre 1 y -1 y su fórmula es:

COV (X, Y)
r (X, Y) = ________________
SX SY

COV es la covarianza y S la desviación típica.

c) Correlación de rangos: diseñado por Spearman, por medio de este cálculo puede
hallarse la relación de interdependencia existente entre dos series lineales, de las
cuales al menos una aparece presentada en una escala ordinal. La fórmula es:

6 . (Rs – Ry) 2
rs = 1 __ ___________________
n (n2 – 1)
Rx y Ry son los valores ordinales atribuidos a las frecuencias que aparecían en X e Y.
Cuando se han analizado por parejas las correlaciones de diversas variables, éstas son
presentadas en matrices de correlación. Se trata de tablas en cuyos ejes aparecen los
mismos valores. La diagonal las divide en dos partes simétricas; por lo que sólo se
reproducen los datos de la mitad inferior. Los valores que aparecen en esa diagonal
son constantes, ya que se dan en la interpretación de las coordenadas de una misma
variable.

d) Regresión lineal: su objetivo es saber qué variaciones presenta una variable difícil
de medir, a través de una variable bien conocida y medida. Es decir, se puede
predecir lo que puede ocurrir en una variable dependiente partiendo del
comportamiento de una u otras independientes. Si se trabaja con una variable
independiente se aplica la regresión lineal simple; si se trabaja con más de una
variable independiente se usa la regresión múltiple.
El cálculo de la regresión descansa en la covarianza de dos variables y en la
desviación típica de las variantes dentro de cada variable. Las variables tienen un
comportamiento coordinado (por ejemplo, que la longitud de las oraciones (Y)
aumenta conforme la edad de un niño (X)). Pero para calcular el grado de covariación
en una progresión lineal, se acude a un cálculo de regresión. Para averiguar el
promedio de cada variación de la variable dependiente (Y, Y…), por ejemplo, el
promedio de la longitud de las oraciones en cada grupo dr edad (X, X,…), deberá
aplicarse la fórmula general:

Ŷi = a + bxi

donde

COV (X, Y)
b = ________________ a=Y–bX
S2x

Los valores de Ŷi, Ŷj … calculados cuantifican la progresión lineal de esa variable


respecto de la variable X en sus distintos estadios (Xi, Xj …)
La regresión múltiple se usa cuando existe más de una variable independiente (X 1, X2
…) y se calcula mediante la fórmula:

Ŷ (X1, X2) = a + b1 x1 + b2 X2

Los valores de a y b se obtienen con el mismo procedimiento que en la regresión


lineal simple.

Análisis multivariable
Permite trabajar con muchas variables simultáneamente. Tiene como finalidad
descubrir o confirmar la existencia de agrupaciones, semejanzas o relaciones de
diversa índole entre los datos de las variables observadas. Requiere de ordenadores
electrónicos, por la complejidad matemática, el volumen de datos y la cantidad de
factores que se valoran estadísticamente.
También se ha utilizado el análisis factorial y los modelos de logaritmos lineales.

También podría gustarte