CAPÍTULO II
Estatística Descritiva Bivariada
Estatística Aplicada | Gestão Pública
Existe um grande número de estudos estatísticos que não é dedicado apenas a analisar o valor de
uma única variável mas de várias variáveis em simultâneo.
Neste tipo de estudos, a cada elemento analisado corresponde um conjunto de valores, sendo os
dados resultantes designados por multivariados (podemos para cada indivíduo analisar em simultâneo,
por exemplo a idade, a altura, o peso, o estado civil, o distrito onde reside, etc.).
No caso particular de serem medidas duas variáveis para cada um dos elementos que constituem a
amostra obtém-se um conjunto de dados bivariados.
Na caracterização de uma amostra bivariada, para além de se analisar separadamente os dados
relativos a cada atributo, interessa frequentemente verificar se existe uma relação de associação entre
eles e, em caso afirmativo, caracterizar essa relação.
Será abordado o caso de dados bivariados.
Resumidamente,
Objetivos
Estudo em simultâneo de duas séries de observações, pondo em evidência
“relações” existentes entre elas.
Não são relações determinísticas que interessam à Estatística, mas é o
comportamento em média (relação estatística) das duas características.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 2
Sejam (x1,y1), (x2,y2), …,(xN,yN) observações efetuadas em N unidades
estatísticas.
Para o estudo das características e pesquisa de existência de relação entre as
variáveis existem diversas técnicas:
Elaboração de tabelas
Representação gráfica
Cálculo de Indicadores
1. Elaboração de Tabelas
Para o estudo de duas variáveis simultaneamente, recorre-se inicialmente a
quadros de dupla entrada, também designados de tabelas de contingência ou
quadros estatísticos a duas dimensões.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 3
1. Elaboração de Tabelas
Consideremos o atributo X e as suas p modalidades Xi (i=1,2,…p) e o atributo Y
e as suas q modalidades Y i (i=1,2,…,q). Obtém-se a seguinte tabela:
nij – número de indivíduos para os quais
foi observado o par (xi, yj), isto é, o número de
indivíduos pertencentes simultaneamente às
modalidades Xi e Yj.
q
ni . nij - número de indivíduos
j 1
pertencentes à modalidade Xi
p
n. j nij - número de indivíduos
i 1 pertencentes à modalidade Yj
p m
n
i 1 j 1
ij n.. - número total de indivíduos.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 4
Exemplo 1: in [Link]
Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo, M ou
F, e o estado civil - solteiro, casado, viúvo ou divorciado. Para resumir a informação
contida na amostra, construiu-se a seguinte tabela de contingência:
Da análise da tabela podemos tirar algumas conclusões, tais como:
O número de indivíduos do sexo masculino e solteiros é 40
O número de indivíduos do sexo masculino é 68
O número de indivíduos viúvos é 5
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 5
Distribuições Marginais e Condicionais
Exemplo 2: in [Link]
Suponha que uma universidade decidiu estudar o seu corpo docente quanto
ao estado civil e categoria profissional, tendo obtido os seguintes resultados:
Na coluna do lado direito os totais de linha correspondem à distribuição da
variável “categoria profissional”. Analogamente, na última linha estão
apresentados os totais de coluna, que correspondem à distribuição da variável
“estado civil”. Estas distribuições chamam-se distribuições marginais.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 6
165 – frequência absoluta marginal de indivíduos cuja categoria profissional é Assistente.
189 – frequência absoluta marginal de indivíduos cujo estado civil é Casado.
Na tabela seguinte apresentam-se as distribuições condicionais da variável categoria
profissional, relativamente às classes da outra variável estado civil. Obtém-se a partir da
tabela anterior, dividindo o valor de cada célula pelo total de coluna correspondente
Tem-se assim que, por exemplo, nos solteiros a percentagem de assistentes é de
aproximadamente 72%, enquanto que nos casados é de aproximadamente 23%.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 7
Estas distribuições condicionais podem ser visualizadas graficamente num diagrama
de barras por segmentos, como se apresenta a seguir:
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 8
O diagrama de barras por segmentos abaixo representa a distribuição da
variável categoria profissional, relativamente ao estado civil.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 9
2. Representação Gráfica
As observações podem representar-se graficamente num diagrama de
dispersão (scatterplot) ou nuvem de pontos: marca-se num sistema de eixos
cartesianos cada par observado (xi, yj).
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 10
Exemplo 1:
X Y
A 2 4
B 3 7
C 0.5 3
D 1 2
E 5 8
F 1.5 6
G 2.5 5
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 11
Diagrama de Dispersão
Exemplo 3: correspondente à Variação diária das Bolsas de Valores
20
15
Variação Percentual
Dia
Bovespa BVRJ
1 4,9935 6,9773 10
2 5,5899 6,1085
3 3,852 2,4847
BVRJ
4 0,9984 -0,1044 5
7 2,4872 2,4942
8 0,0142 0,1239
0
9 -1,7535 -0,4221
11 8,1764 9,5148 -6 -4 -2 0 2 4 6 8 10
14 0,6956 -1,7359 -5
15 1,6164 2,2749
16 7,5829 15,4173
17 -4,6706 -6,236 -10
BOVESPA
18 0,6629 2,6259
21 1,1651 0,8728
22 3,2213 4,8243
23 -2,7226 -4,7266 Variação diária das bolsas de valores – Junho de 1993
24 1,2508 -0,4985 Fonte: Folha de São Paulo – índice de Fecho
25 7,1845 6,6798
28 2,5674 1,2299 Ibovespa – índice que mostra a variação das acções mais negociadas na Bolsa de
29 -1,3235 -3,0375 Valores de São Paulo
30 1,6685 1,2303
BVRJ- índice que mostra a variação das acções mais negociadas na Bolsa de
Valores DO Rio de Janeiro.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 12 12
3. Indicadores Numéricos
• Médias Marginais de X e Y respetivamente
é o centro de gravidade da nuvem de pontos.
Não pertence necessariamente à nuvem de pontos.
• Dispersões Marginais
Mas há uma medida que dá informação sobre as duas variáveis em
simultâneo.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 13
3. Indicadores Numéricos
Covariância
Dados N pares de pontos (xi,yj), i=1,2,..,n, chama-se covariância de X e Y a
1 n
cov x , y s xy xi x yi y
n i 1
xy x y
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 14
Interpretação da Covariância
A covariância está relacionada com a dependência linear das duas variáveis.
O sinal da covariância indica o tipo de associação que existe entre as duas
variáveis.
O seu valor absoluto será tanto maior quanto mais intensa for essa
associação:
cov(x, y) > 0 – há associação linear positiva;
cov(x, y) < 0 – há associação linear negativa.
Se X e Y são duas variáveis aleatórias independentes, então cov(x, y)=0
Mas a recíproca não é verdadeira. O facto de cov(x,y)=0 não implica
necessariamente que X e Y sejam independentes.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 15
3. Indicadores Numéricos
Coeficiente de Correlação
Olhando para o valor absoluto da covariância é difícil julgar o grau de associação, visto ser
uma medida absoluta não padronizada.
O coeficiente de correlação linear é a correspondente medida padronizada:
cov x, y
Correlação forte Correlação fraca/irrelevante Correlação forte
r 1 r 1
sx s y
-1 -0-.75 - 0. 5 0 0. 5 0.75 1
Inexistente
Correlação moderada Correlação moderada
Interpretação do Coeficiente de Correlação:
O coeficiente de correlação mede a nitidez da ligação existente entre duas variáveis, quando essa
ligação é linear ou aproximadamente linear.
Assim, valores do coeficiente de correlação próximos de 1 indicam uma forte associação linear
crescente entre as variáveis
Valores próximos de -1 indicam uma forte associação linear decrescente.
Valores próximos de zero indicam fraca associação linear (isso não significa que não exista algum
outro tipo de associação!!)
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 16
Diagramas de Dispersão e
Coeficiente de Correlação
O respectivo diagrama de dispersão fornece alguma informação sobre a forma e direcção da
associação existente entre as variáveis X e Y, assim como sobre a intensidade dessa mesma associação.
• r=1 todos os pontos •r = 0 a nuvem apresenta um aspecto arredondado ou
observados se encontram sobre • r=−1 todos os pontos
alongado segundo um dos eixos.. observados se encontram sobre
uma recta de declive positivo.
uma recta de declive negativo.
•r 1 todos os pontos observados • r-1 todos os pontos
se encontram sobre uma recta de observados se encontram
declive positivo. próximos de uma recta de
declive negativo.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 17
Exemplo: Considere os seguintes diagramas de
dispersão correspondentes aos resultados de 2 exames de
6 turmas (A-F):
A visualização dos gráficos permite supor
que entre os dois exames se pode admitir o
seguinte tipo de associação:
Forte Moderada Fraca
Positiva E A B
Negativa C D F
Completa-se a informação com o cálculo
do coeficiente de correlação:
Turma Correlação
A 0.71
B 0.47
C -0.99
D -0.72
E 0.99
F -0,47
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 18
Considere agora as duas representações correspondentes às notas obtidas pelas
turmas H e I:
O valor para o coeficiente de correlação é respetivamente 0.04 e 0.70 para as turmas H e
I.
No entanto, se retirarmos a cada um dos conjuntos de dados anteriores o “outlier”, já o
valor do coeficiente de correlação passa para 0.9997 e 0.13, respetivamente para as
classes H e I.
Este exemplo mostra que o coeficiente de correlação não é uma medida resistente, já que
é muito influenciado pelos ”outliers”.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 19
NOTA:
É bastante importante salientar a interpretação da covariância que mede o grau de
associação linear entre variáveis. Considerando o diagrama de dispersão abaixo , pode-se
verificar que existe uma associação quadrática perfeita entre as variáveis; no entanto, a
covariância entre elas é nula!
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 20
4. Reta de Regressão
Se |r| ≃ 1 e o diagrama de dispersão sugere a existência de uma relação linear
entre os valores observados , ou seja, a relação entre as duas variáveis é
aproximadamente representada por uma linha reta.
Como obter a equação dessa reta? A sua determinação tem interesse porque:
Permite descrever formalmente a relação entre x e y
Predizer o valor de y dado um valor conhecido de x
Existem vários métodos para proceder ao ajustamento da reta.
Obviamente que se pretenderia que a linha representativa passasse por todos os pares ordenados.
Segundo o método mais clássico, o método dos mínimos quadrados, a reta define-se de modo que
seja mínima a soma dos quadrados dos desvios dos pontos em relação à reta.
A esta reta chama-se RETA DE REGRESSÃO.
Prova-se que esta reta passa no centro de gravidade da nuvem de pontos.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 21
4. Reta de Regressão
Equação da reta de Regressão
y=0.88x+1.24
Declive =0.88
Coeficiente de Determinação
Reta de Regressão
A reta de regressão e a respectiva equação podem facilmente ser obtidas através do software Microsoft Excel
(ver demonstrações vídeo).
O coeficiente de determinação, r2, pode ser interpretado como a percentagem de variância de Y que advém da
da variabilidade de X e da relação linear entre x e y.
Assim, quando r21 a nuvem de pontos não se afasta muito do padrão linear do modelo, mas à medida que r2
decresce a nuvem de pontos vai perdendo estrutura linear e quando r20 não é possível discernir estrutura linear.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 22
Não confundir Associação estatística com causalidade
“ Ao estudarmos a relação existente entre duas variáveis x e y, um valor elevado para r nem sempre significa que x seja
causa de y ou y seja causa de x. Afirmar, portanto, que há correlação entre duas variáveis não nos permite dizer que
exista relação causal entre elas.
Existência de correlação nada diz sobre a natureza da relação causal que porventura existe entre as variáveis
observadas.
Contudo, na complexidade do mundo que nos rodeia a deteção de associação estatística é muitas vezes um primeiro
sinal que alerta para relações efetivas de grande importância.” (Dinis Pestana,
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA
5. Referências
• A. C. Pedrosa; S.M. Gama: Introdução Computacional à Probabilidade e Estatística, Porto Editora, 2004.
• B. Murteira: Análise Exploratória de Dados, McGraw-Hill, 1999
• B. Murteira; C. Ribeiro et al: Introdução à Estatística, McGraw-Hill, 5ª Ed., 2007.
• D. Levine, T. Krehbiel, [Link]: Business Statistics, A First Course, Prentice-Hall, 2006
• D. Pestana, S. Velosa: Introdução à Probabilidade e à Estatística, Vol. I, 4ª Ed., Fundação Calouste Gulbenkian.
• F. Galvão de Mello: Probabilidades e Estatística, Conceitos e Métodos Fundamentais, Vol.1 e 2, Escolar Editora, 1997
• M.A. Neves;S. Bolinhas;[Link]: Matemática Aplicada às Ciências Sociais 10º ano, Parte 2, Porto Editora, 2010.
• M. M. Neves: Introdução à Estatística e à Probabilidade, Instituto Superior de Agronomia, 2007
• M. Berenson, D. Levine et al: Basic Business Statistics: Concepts and Applications, Prentice Hall, 2004
• [Link]; W. L. Carlson; B. Thorne: Statistics for Business and Economics, Pearson Higher Education, 2002
• R. Guimarães, J. Sarsfield Cabral: Estatística, 2º Ed., McGraw-Hill, 2007.
Internet
• ALEA - Acção Local de Estatística Aplicada: [Link]
Apontamentos IPCA
• Professor Mário Basto, apontamentos leccionados na cadeira de Probabilidades e Estatística.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 24