Post on 12-Dec-2015
description
Prof. Anderson Paiva
03/10/2014
Aula 06 - Estatística Descritiva
UNIVERSIDADE FEDERAL DE PERNAMBUCOCENTRO ACADÊMICO DO AGRESTE
CURSO DE ENGENHARIA CIVIL
ESTATÍSTICA
Prof. Anderson PaivaSlide 2
Análise Bidimensional
� Em algumas análises de dados pode surgir a necessidade de se fazer um estudo sobre o comportamento conjunto de duas ou mais
variáveis e para isso a distribuição conjunta de
frequências é de grande utilidade.
� Vamos analisar em princípio o caso de 2 variáveis
Prof. Anderson PaivaSlide 3
Análise Bidimensional
� É possível observar a ocorrência de três situações distintas que requerem técnicas estatísticas também distintas. As três situações distintas que podem ocorrer são:
� 2 variáveis são Qualitativas;
� 2 variáveis são Quantitativas;
� 1 variável Qualitativa e 1 variável Quantitativa.
Prof. Anderson PaivaSlide 4
Associação de duas variáveis qualitativas
� Para ilustrar, analisaremos como se comportam as variáveis: região de procedência (X) e grau de instrução (Y ) cuja distribuição de frequências pode ser representada por uma tabela de dupla entrada abaixo:
Prof. Anderson PaivaSlide 5
Associação de duas variáveis qualitativas
Observações:
1. Cada célula do corpo da tabela apresenta o número de ocorrência simultânea dos valores (x; y) de X e Y , constituindo a distribuição conjunta;
2. A coluna dos totais (frequências marginais de X) constitui a distribuição marginal de X;
Prof. Anderson PaivaSlide 6
Associação de duas variáveis qualitativas
Observações:
3. A linha dos totais (frequências marginais de Y ) constitui a distribuição marginal de Y ;
4. Idêntico ao caso de uma variável, as frequências absolutas podem ser expressas em termos de frequências relativas e/ou porcentagens, sendo que, estas medidas podem ser obtidas em relação ao total
geral, em relação ao total de cada linha ou em relação ao total de
cada coluna, de acordo com o objetivo de cada análise;
Prof. Anderson PaivaSlide 7
Associação de duas variáveis qualitativas
Questões:
a) O percentual de pessoas que possuem o 2 grau e que são do interior.
Resp: 19,4%;
b) Dentre os que possuem o 2 grau, qual é o percentual de pessoas provenientes do interior?
Resp: 38,9%;
Prof. Anderson PaivaSlide 8
Associação de duas variáveis qualitativas
Questões:
c) Sabendo-se que uma pessoa veio do interior, qual é a probabilidade, em termos percentuais, de ter o 2 grau?
Resp: 58,3%.
Prof. Anderson PaivaSlide 9
Associação de duas variáveis qualitativas
� Para responder estas e outras questões, torna-se útil a construção de tabelas de dupla entrada contendo as frequências relativas em termos de porcentagem, tendo como referência o total geral, os totais de cada linha ou coluna, de acordo com a questão a ser respondida.
� Vejamos como ficam estas tabelas:
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 11% 14% 6% 31%
Interior 8% 19% 6% 33%
Outra 14% 17% 6% 36%
Total marginal de Y 33% 50% 17% 100%
Prof. Anderson PaivaSlide 10
Associação de duas variáveis qualitativas
Prof. Anderson PaivaSlide 11
Associação de duas variáveis qualitativas
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 36% 45% 18% 100%
Interior 25% 58% 17% 100%
Outra 38% 46% 15% 100%
Total marginal de Y 33% 50% 17% 100%
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 33% 28% 33% 31%
Interior 25% 39% 33% 33%
Outra 42% 33% 33% 36%
Total marginal de Y 100% 100% 100% 100%
Prof. Anderson PaivaSlide 12
Associação de duas variáveis qualitativas
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1º Grau 2º Grau Superior Total
Outra
Interior
Capital
Prof. Anderson PaivaSlide 13
Dependência de Variáveis
� Ocorre com bastante frequência em análises de distribuição conjunta o questionamento sobre a existência de dependência ou não entre as variáveis, além da necessidade de se saber o grau de
dependência entre elas, caso exista.
� De modo geral, o grau de dependência entre duas variáveis é quantificado pelos coeficientes de associação ou correlação. Usualmente, esses coeficientes variam de zero até um, sendo que, às vezes, variam de -1 a 1.
� Desta maneira, valores próximos de zero dão indícios de independência entre as variáveis e, valores próximos de 1 (ou -1) indicam um alto grau de dependência positiva (ou negativa).
Prof. Anderson PaivaSlide 14
Dependência de Variáveis
� Existe ou não associação entre sexo e carreira, escolhido por 200 alunos?
X \ Y Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
X \ Y Masculino Feminino Total
Economia 61% 58% 60%
Administração 39% 42% 40%
Total 100% 100% 100%
• Não há dependência, pois independente do sexo mantém-se a mesma proporção.
Prof. Anderson PaivaSlide 15
Dependência de Variáveis
� Existe ou não associação entre sexo e carreira, escolhido por 200 alunos?
• Há disparidade entre as proporções. Desta forma, sexo e carreira são variáveis associadas (dependentes).
X \ Y Masculino Feminino Total
Física 100 20 120
Ciências Sociais 40 40 80
Total 140 60 200
X \ Y Masculino Feminino Total
Física 71% 33% 60%
Ciências Sociais 29% 67% 40%
Total 100% 100% 100%
Prof. Anderson PaivaSlide 16
Associação de duas variáveis qualitativas
Medida de Associação entre duas Variáveis Qualitativas� Coeficiente de contingência (C)
� oij é a frequência absoluta observada na i-ésima casela;
� eij é a frequência absoluta esperada na i-ésima casela, caso houvesse independência entre as variáveis, ou seja, quando a proporção em cada categoria de uma variável (fixada o total em linha ou coluna) é igual ou próxima a proporção marginal.
� n é o número máximo de observações
� No entanto, o valor máximo de C depende de r e s, que são o número de categorias das variáveis X e Y , respectivamente.
� Para evitar esse inconveniente, costuma-se definir um outro coeficiente, que varia entre 0 e 1, dado por
Qui-quadrado de Pearson
Prof. Anderson PaivaSlide 17
Associação de duas variáveis qualitativas
Exercício:
� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 36% 45% 18% 100%
Interior 25% 58% 17% 100%
Outra 38% 46% 15% 100%
Total marginal de Y 33% 50% 17% 100%
Prof. Anderson PaivaSlide 18
Associação de duas variáveis qualitativas
Exercício:
� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 36% 45% 18% 100%
Interior 25% 58% 17% 100%
Outra 38% 46% 15% 100%
Total marginal de Y 33% 50% 17% 100%
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 33% 50% 17% 100%
Interior 33% 50% 17% 100%
Outra 33% 50% 17% 100%
Total marginal de Y 33% 50% 17% 100%
Valores observados
Valores esperados
Prof. Anderson PaivaSlide 19
Associação de duas variáveis qualitativas
Exercício:
� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total marginal de Y 12 18 6 36
Valores observados
Valores esperados
X \ Y 1º Grau 2º Grau Superior Total marginal de X
Capital 3,63 5,50 1,87 11
Interior 3,96 6,00 2,04 12
Outra 4,29 6,50 2,21 13
Total marginal de Y 12 18 6 36
Prof. Anderson PaivaSlide 20
Associação de duas variáveis qualitativas
Exercício:
� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.
C = 0,1350
T = 0,0681
0,6683
N = 36
As variáveis são basicamente independentes, pois o valor de coeficiente é próximo de 0.
Prof. Anderson PaivaSlide 21
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas
� Neste caso, pode-se aplicar um procedimento análogo ao realizado para a análise de variáveis qualitativas.
� E, por se tratar de variáveis quantitativas, antes de construir uma tabela de dupla entrada, os dados marginais podem ser agrupados em intervalos de classe, assim como no caso de uma única variável.
� Em análises de associação entre variáveis quantitativas, são possíveis procedimentos analíticos mais refinados.
Prof. Anderson PaivaSlide 22
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas
� Diagrama de Dispersão
� O diagrama (ou gráfico) de dispersão nada mais é que a representação de pares dos valores observados (x; y) num sistema cartesiano.
Prof. Anderson PaivaSlide 23
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas� Diagrama de Dispersão
Prof. Anderson PaivaSlide 24
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas� Coeficiente de Correlação
� Dados n pares de valores (x1; y1); (x2; y2); ...; (xn; yn), chama-se coeficiente de correlação entre as variáveis X e Y o valor obtido por
ou seja, a média dos produtos dos valores reduzidos (padronizados) das variáveis.
� Enquanto o coeficiente T para variáveis qualitativas só assume valores ente 0 e 1, o coeficiente de correlação pode assumir qualquer valor entre -1 e 1.
� Fórmula alternativa
Prof. Anderson PaivaSlide 25
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas� Coeficiente de Correlação
� O numerador da expressão acima, que mede o total de concentração dos pontos pelos quatro quadrantes, dá origem à covariância que é uma medida bastante usada.
� Covariância
� Assim, podemos dizer que:
Prof. Anderson PaivaSlide 26
Associação de duas variáveis quantitativas
Medida de Associação entre duas Variáveis Quantitativas� Exercício: Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis. X: anos de experiência num dado cargo e Y : tempo, em minutos, gasto na execução de uma tarefa relacionada com esse cargo. As observações são apresentadas na tabela abaixo.
Você diria que a variável X pode ser usada para explicar a variação de Y ?
Prof. Anderson PaivaSlide 27
Exercícios1. Um pesquisador coleta os dados dispostos na tabela e suspeita que há uma
relação significante entre o tempo de propaganda na TV (em minutos por mês) e as vendas mensais de um produto (em centenas de dólares). Os dados amostrais confirmam a suspeita do pesquisador? Justifique sua resposta com base em uma medida de associação linear.
2. Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca relacionar as variáveis: anos de estudo (X) e número de diferentes empregos nos últimos cinco anos (Y ).
a) Construa o diagrama de dispersão.
b) Calcule o coeficiente de correlação e interprete o resultado encontrado.