Amplitude total
É a diferença entre o maior (máximo) e o menor (mínimo) valor da serie. Tem a vantagem de
ser calculada de forma rápida e fácil porem, fornece número (índice) grosseiro da
variabilidade de uma distribuição, por levar em conta apenas dois valores de um conjunto
No R, a amplitude total pode ser obtida de forma indirecta, subtraindo-se o máximo valor do
conjunto de dados pelo mínimo deste.
Exemplo
x<-0 (2 , 4 , 5 , 6 , 10) # um conjunto de dados
qualquer
range (x) #mostra o min (x) e o max (x)
[1] 2 10
max (x) – min (x) #amplitude total obtida
indirectamente [1]
Obs: algumas outras medidas de despesão como o erro-padrão da média e coeficiente de
variação podem também ser citadas. Exemplos serão apresentados a seguir. O erro-padrão
da média mede a precisão desta. Sua formula é dado por:
√
S ( X ) =√ V ( X )=
s2x s x
=
n √n
O coefiente de variação, medida de dispersão, o grau de concentração, em termo da media
de series distintas. Por ser um numero adimensional, permite a comparação de series de
variáveis com unidades diferentes. Sua formula pode ser assim representada:
s( x)
C.V. (%)¿ ∙100
X
Obs: medias com menor erro-padrão são consideradas mais precisas, enquanto a amostra
com menor CV, mais homogénea.
Resolvendo com o R…
Um psicólogo deseja obter informações sobre o grau de dispersão de dados referentes a idade
dos frequentadores de um grupo de alcoólicos anónimos. Colectou, portanto, os seguintes
dados: 33 17 39 78 29 32 54 22 38 18
Ele quer saber a variância, o desvio padrão, amplitude total, erro-padrão da media e
coeficiente de variação de seu conjunto de dados.
x<-0 (33, 17, 39, 78, 29, 32, 54, 22, 38, 18)
var (x) #variância
[1] 339,5556
ad (x) #desvio-padrão
[1] 18.42703
max (x)- min(x) #amplitude total
[1] 61
ad(x)/aqrt(length(x)) #erro-padrão da media
[1] 5.82714
ad(x)/mean(x)*100 #coef. de variância em
[1] 51.1862
Covariância e correlação
São utilizados no estudo do comportamento conjunto de duas variáveis quantitativas distintas.
Em outras palavras, medem a variação conjunta (covariância) ou o grau de associação
(correlação) entre duas variáveis aleatórias X e Y.
Obs: ao avaliar correlação, não há preocupação em apresentar alguma forma de relação
funcional entre as variáveis, se houver. Caso tal relação funcional exista e seja de interesse,
técnicas de regressão linear poderiam ser utilizadas.
Sejam duas amostras relativas as variáveis X e Y organizadas em pares de valores ( X i , Y i ¿ ,
para i =1,…,n. o coeficiente de correlação entre os valores de X e Y é dado por:
SPD Xr
^ (X ,Y )
C OV n−1 SPD xr
r xr = = + , −1 ≤r xr ≤ 1
√
√V^ ( X ) , V^ ( Y ) SQD x + SQDr √ SQD S SQD r
n−1 n−1
Em que
( )( )
n n
n ∑ Xi ∑ Y i
SPD xr =∑ X i Y i−
i−1 i−1
i=1 n
( ) ( )
n 2 n 2
n ∑ Xi n ∑Yi
SQD x =∑ X −¿ e SQD r=∑ Y 2i −
2 i=1 i=1
i ¿
i=1 n i=1 n
No R, a covariância e a correlação entre dois conjuntos de dados quaisquer podem ser obtidas
pelos comandos cov(x,y) e cor (x,y), respectivamente. Veja o exemplo:
x<-0 (1, 2, 3, 4, 5) # criando um vetor qualquer
x<-0 (6, 7, 8, 9, 10) #criando outro vetor
cov(x,y) #obtendo a covariância entre x e y [1] 2.5
cor (x,y) # obtendo a correlação [1] 1
Obs: Se tivermos uma matriz dados com cinco colunas e n linhas, cada coluna representando
os valores das cinco variáveis tomadas em cada individuo i (linha da matriz dados, i=1,…,n)
os comandos cov (dados) e cor (dados) fornecerão, respectivamente, a matriz de
covariância e a matriz de correlação das cinco variáveis tomadas nos n indivíduos.
Obs: A representação gráfica do conjunto de dados (X,Y) nada mais é que a disposição dos
pares de valores um sistema cartesiano, que pode ser obtida fazendo-se plot (x,y).
Dependendo do gráfico obtido em plot (x,y), três situações marcantes poderiam acontecer: i)
quando uma das variáveis cresce e a outra, em média, também cresce dizemos que entre as
duas variáveis há covariância positiva, cujo valor dependera dos valores originais de X e Y
ou, limitando-se ao intervalo [-1,1], existira correlação positiva, tanto mais forte quanto mais
perto de uma recta imaginária dos pontos estiverem; ii) quando uma das variáveis crescer e a
outra, em média, decresce, dizemos que entre as duas variáveis há covariância negativa, cujo
valor dependera dos valores originais de X e Y ou, limitando-se ao intervalo [-1,1], existira
correlação negativa, tanto mais forte quanto mais perto de uma recta imaginaria os pontos
estiverem; e iii) se os pontos estiverem dispersos, sem definição de direcção, a covariância
ficara próxima ou igual a zero e dizemos que a correlação é muito baixa ou, mesmo, nula. As
variáveis nesse caso são duas não correlacionadas.