Análise Estatística de Dados Geológicos Multivariados
-
Upload
editora-oficina-de-textos -
Category
Documents
-
view
237 -
download
2
description
Transcript of Análise Estatística de Dados Geológicos Multivariados
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 3, global #3)ii
ii
ii
ii
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 4, global #4)ii
ii
ii
ii
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 5, global #5)ii
ii
ii
ii
Aos meus alunos
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 6, global #6)ii
ii
ii
ii
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 7, global #7)ii
ii
ii
ii
�
APRESENTAÇÃO�
Recebi o convite para escrever a apresentação de mais esta obra do Prof.
Paulo Landim, Análise estatística de dados geológicos multivariados. É um convite
que me deixou profundamente envaidecido e orgulhoso, pois considero o
autor uma pessoa mais que especial. O Prof. Paulo Milton Barbosa Landim
graduou-se em Geologia em 1961, na Universidade de São Paulo (USP). Desde
então foi construindo uma respeitável carreira acadêmica, que passou pelo
Doutorado na USP em 1967, Pós-doutorado em 1967-1968 na University of
California e na Northwestern University, Professor Livre-docente em 1970 e
Professor Titular de 1978 até 1998 da Universidade Estadual Paulista (Unesp
– Rio Claro). Na Unesp, foi diretor do Instituto de Geociências e Ciências
Exatas (IGCE) entre 1981 e 1984, Vice-Reitor de 1985 a 1988, e Reitor de 1989 a
1993. Insatisfeito com a aposentadoria ocorrida em 1998, permanece dando
aulas e orientando seus alunos de graduação e pós-graduação como Professor
Voluntário da Unesp – Rio Claro. Por tudo isso e por uma sólida produção
voltada especialmente à estratigrafia e à quantificação em geologia, recebeu o
título de Professor Emérito da Unesp. Por isso, além de o Prof. Paulo Milton
Barbosa Landim ser um verdadeiro acadêmico e um especialista, o Paulo
Landim é uma pessoa especial.
As ciências que estudam este sistema extremamente complexo – a
Natureza – estão cada vez mais fundamentadas e exigentes na quantificação
das variáveis. O avanço tecnológico deu origem a uma farta “caixa de ferra-
mentas” capaz de quantificar formas, dimensões, posições e conteúdos, que
fornece valores cada vez mais precisos, os quais tornam possível estabelecer
relações de causa e efeito dos fenômenos geológicos e suas interações com
outros atores da natureza. É evidente que, com a geologia, isso não é diferente.
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 8, global #8)ii
ii
ii
ii
8 Análise estatística de dados geológicos multivariados
Houve um tempo em que a observação visual dos afloramentos e algumas
medidas com bússola e trena, bem como análises de granulometria ou de
química por via úmida, eram suficientes para a montagem do quadro.
Depois vieram técnicas mais sofisticadas de laboratório, como as basea-
das na espectrografia de raios X, de absorção atômica e de plasma induzido e
de microssonda eletrônica, além das tecnologias digitais de cartografia e de
imageamento por sensores remotos, capazes de gerar grandes quantidades
de dados.
Atualmente, os equipamentos portáteis de coleta de dados produzem
dezenas de dados por segundo, medindo desde as vibrações do terreno até
a composição química da água e de materiais sólidos, e também dados de
posicionamento via GPS, os quais são transmitidos ao escritório no momento
exato em que foram coletados em campo.
Toda essa quantidade e diversidade de dados produzidos a custos re-
lativamente baixos são arquivados em gigantescos bancos de dados. Se o
processo terminasse aqui, estaríamos satisfeitos; no entanto, para que essas
enormes e complexas massas de dados forneçam informações e deem suporte
a conclusões confiáveis, elas necessitam ser tratadas por meio de técnicas
estatísticas especiais.
É nessa circunstância e contexto que o livro do Prof. Paulo Milton Barbosa
Landim mostra o potencial e as aplicações da Análise estatística de dados
geológicos multivariados. Sem dúvida, é uma obra necessária, que expõe de
maneira didática essas técnicas matemáticas de alta complexidade teórica.
Ela tem grande utilidade tanto para o geólogo, que tem interesse apenas na
aplicação direta, dando o suporte para que ele compreenda os resultados gera-
dos por sistemas computacionais, como para o acadêmico ou especialista, que
também encontrará excelente fonte de referência para embasar e aprofundar
suas pesquisas.
Ao finalizar, considero necessário registrar os agradecimentos ao Prof.
Paulo Milton Barbosa Landim por sua dedicação e esmero na redação deste
livro e por mais essa valiosa contribuição ao desenvolvimento das ciên-
cias geológicas.
Otavio Augusto Boni Licht
Curitiba, 17 de agosto de 2011
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 9, global #9)ii
ii
ii
ii
�
SUMÁRIO�
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 Noções de Álgebra Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1 Matrizes e vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Operações com matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Matrizes especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1 Aplicação do modelo linear múltiplo à confecção de mapas:
análise de superfícies de tendência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Testes de Significância com Dados Multivariados . . . . . . . . . . . . . . . . . . 57
3.1 Testes univariados e testes multivariados . . . . . . . . . . . . . . . . . . . . . . . 58
3.2 Teste T2 de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3 Teste de comparação entre matrizes de
variâncias-covariâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4 Valores “p” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4 Análise de Agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1 Métodos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Considerações sobre a aplicação da análise de agrupamentos . 78
5 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1 Cálculo para a análise de componentes principais . . . . . . . . . . . . . . 87
5.2 Análise de coordenadas principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3 Análise de agrupamentos e Análise de componentes
principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 10, global #10)ii
ii
ii
ii
10 Análise estatística de dados geológicos multivariados
6 Análise de Fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.1 Análise fatorial pelo modo “Q” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7 Análise de Correspondências ou de Associações . . . . . . . . . . . . . . . . . . . 115
7.1 Análise fatorial R-Q simultânea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8 Análise de Correlações Canônicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
9 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
9.1 Análise discriminante linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
9.2 Análise discriminante multigrupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10 Classificação Regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Referências Bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 11, global #11)ii
ii
ii
ii
�
INTRODUÇÃO�
A aplicação de métodos quantitativos em Geologia é muito antiga: Georgius
Agricola (1556) utilizou a trigonometria para o mapeamento mineiro, no início
da Geologia como ciência moderna, e Charles Lyell, em 1830, classificou os
estratos terciários da Bacia de Paris com base na presença relativa de espécies
recentes de moluscos, num procedimento estratigráfico-estatístico. A partir
desse início, a Geologia permanece qualitativa e puramente descritiva até
os anos 1920, quando o enfoque quantitativo torna-se mais presente, com
a proposta de amostragem geológica em bases probabilísticas de William C.
Krumbein, que introduz os modelos “processo-resposta”. O entendimento
das relações de causa e efeito para a explicação dos processos geológicos
leva Andrei Vistelius, no início dos anos 1940, a iniciar a formulação da
chamada Geologia Matemática. Em que pese essas iniciativas, dentre outras,
a Geologia, até há bem pouco tempo, era frequentemente considerada uma
ciência baseada em interpretações qualitativas dos fenômenos geológicos.
Nos últimos 40 anos, foi notável a mudança da fase descritiva para a utilização
de métodos quantitativos, principalmente nas áreas da Geologia Aplicada. Na
área mineral, com destaque ao petróleo, a interpretação geológica, além de
estar fundamentada em conceitos científicos, precisa ter aplicação econômica,
e observa-se uma tendência quantitativa que possibilita avanços importantes
no uso de técnicas espaciais. Um consistente relato sobre a quantificação em
Geologia encontra-se em Merriam (2004).
Nas últimas décadas, graças a avanços tecnológicos tanto computacio-
nais quanto de equipamentos de laboratório e de campo, intensificou-se a
obtenção de dados geológicos quantitativos, cuja análise está muito aquém
da imensa quantidade de informações coletadas. Basta ver os relatórios
de pesquisa e os bancos de dados com um grande número de matrizes de
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 12, global #12)ii
ii
ii
ii
12 Análise estatística de dados geológicos multivariados
informações não trabalhadas. Verbas e tempo são gastos na coleta, que precisa
ser devidamente manuseada, e para a análise dos dados, o emprego de técnicas
estatísticas multidimensionais é fundamental. Como os fenômenos geológicos
resultam de diversos fatores condicionantes, o seu entendimento é facilitado
quando o estudo é submetido a um tratamento quantitativo multidimensional.
Porém, a pura utilização de técnicas estatísticas multivariadas, hoje bastante
facilitada pela vasta disposição de programas computacionais, não é condição
suficiente se o estudo não for embasado num sólido conhecimento geológico.
É necessário o pesquisador ter sempre em mente que os resultados, obtidos
por via quantitativa, devem ter uma explicação lógica e coerente no contexto
das geociências. Ou seja, não procure encaixar a natureza em seu modelo
multivariado, por mais perfeito que ele possa parecer. Um modelo será sempre
uma simplificação da natureza.
No caso de uma única variável medida em amostras, no sentido geológico,
a análise é feita por intermédio da estatística univariada. Se forem obtidos
valores de diversas variáveis em cada amostra, as técnicas para a análise
desses dados são fornecidas pela estatística multivariada ou multidimensi-
onal. Essa análise estatística de mensurações múltiplas sobre uma amostra
fornece um melhor entendimento na razão direta do número de variáveis
utilizadas e permite considerar simultaneamente a variabilidade das diversas
propriedades medidas.
Os resultados de análises de dados uni ou bivariados podem se apresentar
na forma de gráficos em 1D, 2D ou 3D, de fácil compreensão. No caso de dez
variáveis, por exemplo, o resultado ocorre num espaço em dez dimensões,
concebível apenas de um modo abstrato. Uma das funções dos métodos
multivariados é reduzir a dimensão dos dados ao apresentar os resultados,
para um melhor entendimento gráfico a duas ou três dimensões.
Entre os métodos mais utilizados em Geociências destacam-se a análise
de agrupamentos, a análise de componentes principais e a análise discriminante.
Ao explorar as similaridades entre indivíduos (modo Q) ou entre variáveis
(modo R) definindo-os em grupos, a análise de agrupamentos é utilizada, no
primeiro caso, considerando as variáveis observadas em cada indivíduo e, no
segundo, os indivíduos nos quais foram feitas as mesmas medidas. Com esse
método, procura-se por agrupamentos homogêneos de itens representados
por pontos num espaço n-dimensional em um número conveniente de grupos,
relacionando-os pelos coeficientes de similaridade ou de distância.
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 58, global #58)ii
ii
ii
ii
58 Análise estatística de dados geológicos multivariados
3.1 Testes univariados e testes multivariadosSegundo Manly (2008), um aspecto importante do uso de testes multiva-
riados em relação aos univariados é o controle das taxas do erro do tipo I,
que significa encontrar um resultado significante quando na realidade as
duas amostras comparadas provêm de populações com mesma média
em um teste univariado, ou com médias iguais em um teste multivariado.
Por exemplo, para uma probabilidade do erro α = 0,05, significa que, se a
verdadeira média da população de X’s for μ, a chance de ocorrer t∗ ¾ t(n−1;α)
é uma em 20. Ao se aplicar o mesmo teste para a variável Y, com o mesmo
risco de recusar a hipótese nula quando verdadeira, a probabilidade de ambas
as médias, de X e Y, não serem significativamente diferentes de μ e μy é
(0,95)2 = 0,9025. A probabilidade de ambas as médias serem significantemente
diferentes de μ e μy é (0,05)2 = 0,0025. A probabilidade de apenas uma das
médias ser significantemente diferente é (2)(0,95)(0,05) = 0,0950 e a probabi-
lidade de pelo menos uma média ser considerada significantemente diferente,
quando na realidade não existe diferença, é 0,0975. No caso de um problema
com três variáveis, a última probabilidade passa a ser 1− (0,95)3 = 0,1426.
Essa situação, apresentada por Jackson (1959), mostra que o uso de testes
univariados para situações multivariadas pode fornecer pelo menos uma
diferença significante por chance, em 50% ou mais de casos. Há necessi-
dade, portanto, de testes generalizados que verifiquem, simultaneamente,
qual a probabilidade de diversas amostras multivariadas fornecidas serem
significantemente diferentes de médias multivariadas hipotéticas fornecidas.
Em muitos casos, pode-se argumentar que um único teste multivariado
fornece um melhor resultado do que um grande número de testes univari-
ados. Um teste multivariado tem a vantagem adicional de levar em conta a
correlação entre variáveis.
3.2 Teste T2 de HotellingSeja, por exemplo, um conjunto de observações no qual foram obtidas n
medidas X e se deseja verificar a probabilidade de essa amostra casual,
com n observações, ser retirada de uma população normal com média
especificada e variância desconhecida σ2. O teste indicado é o univariado
“t” de Student:
t∗ =(− μ)
pn
Æ
s2
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 59, global #59)ii
ii
ii
ii
3 [ TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS ] 59
no qual s2
é a variância da amostra de tamanho n, de onde foi obtida. Se
t∗ > t(n−1,α), será considerado significantemente diferente de μ no nível α.
Para a generalização multivariada do teste “t”, substitui-se por um
vetor de médias amostrais, μ por um vetor de médias populacionais e s2 por
uma matriz de variâncias-covariâncias:
t =
�
− μ�p
nÆ
�
s2
�
A solução dessa equação não fornece uma única resposta. Haverá neces-
sidade de transformar a coluna vetor e a matriz em valores singulares, o que
pode ser feito com a definição de um vetor coluna arbitrário, cujo transposto é
o vetor linha [A]′. Ao se multiplicar o vetor coluna de diferenças pelo vetor
linha [A]′, o resultado será um valor singular. Desse modo, o teste torna-se:
t =[A]
�
− μ�p
nq
[A]Æ
�
s2
�
[A]′t2 =
�
[A]�
− μ�2 n
[A]�
s2
�
[A]′
Todavia, com essa transformação, o que estava sendo testado foi modifi-
cado. A hipótese nula, que era H0=[μ ]=[μ0], passa a ser H*0=[A][μ]=[A][μ0].
A hipótese original H0 só é verdadeira quando a nova hipótese H*0 se
mantiver para todos os possíveis valores de [A]. É suficiente, porém, testar
apenas o valor máximo possível do teste, porque se H*0 for rejeitada para
qualquer valor de [A], a hipótese H0 também será rejeitada.
Para determinar o valor máximo, Morrison (1967) propõe que a determi-
nação possa ser removida pela imposição da restrição:
[A]′[s2][A] = 1
A introdução da restrição, pelo multiplicador de Lagrange λ, e a subse-
quente diferenciação com respeito a [A], fornecem o sistema de equações:
¦
�
− μ��
− μ�′ n− λ
�
s2
�©
[A] = 0
Premultiplicando por [A]′, tem-se:
λ =[A]′
�
− μ� �
− μ�′ [A]n
[A]′�
s2
�
[A]=
¦
[A]′ [− μ]©2
n
[A]′�
s2
�
[A]
o que resulta: λ = t2.
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 72, global #72)ii
ii
ii
ii
72 Análise estatística de dados geológicos multivariados
Coeficientes de similaridade
Os coeficientes de similaridade mais usuais, obtidos num espaço multidi-
mensional, dividem-se em três categorias:
a) os que medem a distância ou a separação angular entre pares de pontos;
b) os que medem a correlação entre pares de valores;
c) os que medem a associação entre pares de caracteres qualitativos.
Diversas publicações discutem esses tipos de medidas, como, por exem-
plo, Sneath e Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981),
Greig-Smith (1983), Pielou (1984), além do resumo sobre 23 coeficientes de
similaridades constante no pacote MVSP, versão 3.1.
Medida de distância
Expressa o grau de similaridade como distância em um espaço multi-
dimensional. Quanto maior a distância, menor o grau de similaridade
e vice-versa. A distância D entre dois pontos, (X1, Y1) e (X2, Y2), cuja
localização é especificada num sistema de coordenadas cartesianas,
segundo o teorema de Pitágoras, é fornecida por:
D1.2 =p
(1 − 2)2 + (y1 − y2)2
em que 1, 2, y1 e y2 são valores das coordenadas dos dois pontos.
Para a distância Dj entre dois pontos , j, num espaço n-dimensional, a
fórmula generalizada é:
Dj =
√
√
√
√
n∑
k=1
(k − jk)2/n
Quando todas as variáveis têm o mesmo peso, consequentemente, a
função distância limita-se a valores entre 0 (maior similaridade) e 1 (menor
similaridade).
Pode-se utilizar também o coeficiente cosseno-teta, uma medida de pro-
porcionalidade que expressa o grau de similaridade em termos de separação
angular:
cosθpq =
∑
pq�∑
p2∑
q2�1/2
p e q = valores comparados
Quando a similaridade é completa, a separação angular é 0° e cosθ = 1;
quando não ocorre similaridade, a separação angular é 90° e o cosθ = 0.
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 73, global #73)ii
ii
ii
ii
4 [ ANÁLISE DE AGRUPAMENTOS ] 73
Coeficientes de correlação
Medem o grau de associação entre valores pela representação de pontos
num sistema de coordenadas e suas respectivas posições em relação a
uma linha reta. Dois coeficientes muito utilizados são: o paramétrico, de
Pearson e o não paramétrico, de Spearman.
Coeficiente de correlação de Pearson
O coeficiente de correlação da amostra r (ou ρ∗), que é uma estimativa
do coeficiente de correlação populacional ρ, é dado por:
r =cov(, y)
[vr()vr(y)]1/2=
( − )(y − y)n− 1
�
( − )2
n− 1·(y − y)2
n− 1
�1/2
em que n é o número de pares de valores para e y, variáveis com
distribuição normal, e e y são os valores médios para e y.
Utiliza-se o método dos mínimos quadrados para o cálculo do coeficiente
de correlação com a seguinte fórmula simplificada:
r =SPXY
p
SQX · SQY
SPXY = y− (.y)/n
SQX = 2 − ()2/n
SQY = y2 − (y)2/n
Os valores de r são medidas adimensionais e variam de −1 a +1, ex-
pressando desde comportamento totalmente inverso até comportamento
totalmente direto entre as duas variáveis. Quandor = 0, não há relação linear
entre e y.
Coeficiente de correlação de Spearman
É um coeficiente de correlação não paramétrico entre duas variáveis, X e
Y, e, para seu cálculo, atribui-se um posto a cada valor de cada uma das
variáveis, de acordo com o grau de magnitude do valor na variável. Assim,
em cada variável, o menor valor assume o posto 1, o segundo menor, o
posto 2, e assim por diante. Para o i-ésimo par de valores das variáveis,
calcula-se a diferença d dos postos, = 1,2, n. No caso de dois ou mais
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 85, global #85)ii
ii
ii
ii
5
ANÁLISE DECOMPONENTES
PRINCIPAIS
É o mais antigo método de ordenação, o mais conhecido e com mais exemplos
de aplicação em Geociências. Trata-se de uma técnica para encontrar compo-
nentes lineares de variáveis correlacionadas por meio do cálculo dos autovalo-
res e correspondentes autovetores de uma matriz de variâncias-covariâncias
ou de uma matriz de coeficientes de correlação entre variáveis.
Em vez de covariância, o coeficiente de correlação é mais usado para a
matriz inicial de similaridades, porque elimina o efeito de escala: uma variável
que oscile entre 0 e 1 não pesa mais do que uma variável que oscile entre 0 e
1.000. A covariância é utilizada com variáveis obtidas em escalas idênticas
ou quando se quer ressaltar as variâncias das variáveis que influenciam nas
cargas fatoriais. Quando as variáveis não podem ser diretamente comparadas,
em razão das diferentes escalas de mensuração, torna-se necessária uma
padronização preliminar, de modo que as variáveis transformadas passem a
ter média zero e variância unitária, o que é conseguido pela transformação “z”.
Nos casos com variáveis padronizadas, a matriz de variâncias-covariâncias
e a de coeficientes de correlação tornam-se idênticas. Como a padronização
influencia a estrutura da matriz de variâncias-covariâncias e, consequente-
mente, os resultados da análise, a sua utilização deve ser criteriosa, levando
em conta a natureza dos dados em estudo e o enfoque pretendido.
A análise de componentes principais não é sinônimo de análise fatorial
ou análise de fatores, e essa confusão terminológica deve ser evitada. A
primeira análise consiste na transformação linear de “n” variáveis originais,
normalmente correlacionadas entre si, em “n” novas variáveis não correla-
cionadas. Essas novas variáveis são denominadas componentes principais,
de modo que a primeira nova variável computada seja responsável pela
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 86, global #86)ii
ii
ii
ii
86 Análise estatística de dados geológicos multivariados
maior variação possível no conjunto de dados; a segunda, pela maior variação
possível restante, e assim por diante, até que toda a variação do conjunto
tenha sido explicada. Na análise de fatores, supõe-se que as relações de um
conjunto de “n” variáveis sejam o reflexo das correlações de cada uma dessas
variáveis com “p” fatores, mutuamente não correlacionáveis entre si, com
“p” menor que “n”. O cuidado que se deve ter é com relação à especificação
do número e, principalmente, do significado dos “p” fatores que emergem
a partir dessa análise (ver Jöreskog, Klovan e Reyment, 1976 e Reyment e
Jöreskog, 1996).
Fig. 5.1 Diagrama bivariado com a distribuição dos pon-
tos em relação às variáveis originais X1 e X2 e às novas
componentes, C1 e C2. C1 representa a maior porcentagem
da variabilidade total existente e C2, disposta ortogonal-
mente, a variabilidade restante
Portanto, a análise de componentes principais é uma técnica de trans-
formação de variáveis. O método apresenta melhores resultados se, original-
mente, já existir alguma correlação entre variáveis ou grupo de variáveis e
se o número de variáveis for significativo. Por exemplo,
1 2 3 4
2 0,84
3 0,80 0,96
4 0,21 0,18 0,31
5 0,13 0,23 0,24 0,91
Neste exemplo, com cinco
variáveis, verifica-se que existem
dois grupos de variáveis decor-
rentes do grau de correlação: um,
constituído pelas variáveis 1, 2 e
3 e, outro, pelas variáveis 4 e 5.
Se cada variável medida
pode ser considerada como um
eixo de variabilidade e está usual-
mente correlacionada com outras
variáveis, esta análise transforma
os dados de modo a descrever a
mesma variabilidade total exis-
tente, com o mesmo número de eixos originais, porém não mais correlacio-
nados entre si. A posição espacial dos pontos no espaço multidimensional
permanece a mesma, mas mudam os eixos originais por rotação ortogonal,
que passam a ser denominados componentes principais (Fig. 5.1).
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 122, global #122)ii
ii
ii
ii
122 Análise estatística de dados geológicos multivariados
7.1 Análise fatorial R-Q simultâneaPelo teorema de Eckart-Young, é possível extrair fatores pelos modos
R e Q simultaneamente, mas, na prática, os resultados podem não ser
os mesmos, pela maneira como os dados são transformados antes do
processo fatorial. O escalonamento de valores condiciona as medidas de
similaridade e, assim, a natureza da solução fatorial.
No modo R, a solução fatorial inicia-se pela matriz simétrica dos menores
produtos [P]′[P] e, no modo Q, pela matriz simétrica dos maiores produtos
[P][P]′. Isso significa que os procedimentos de escalonamento de valores não
são os mesmos para originar [P] a partir dos dados originais [X]. Por exemplo,
na análise de componentes principais, cada elemento de [X] é dividido pelo
desvio padrão das colunas para produzir [P]. Na análise fatorial pelo modo
Q, ocorre uma padronização, que inclui a divisão de cada elemento de [X]
pela raiz quadrada da soma de quadrados das linhas para originar [P]. Como
a matriz [P] originada pelo modo R não é idêntida à matriz [P] originada
pelo modo Q, tal diferença entre escalas não fornece os mesmos resultados
(Davis, 2002).
A “análise de associações” usa uma matriz simétrica com a mesma
escala de valores para linhas e colunas, e procura medidas de similaridade
proporcional entre objetos e variáveis. A similaridade resultante é a distância
χ2 utilizável apenas para tabelas de contingências que estimam probabilidades.
Uma tabela de medidas com valores contínuos, porém, tem diferentes propri-
edades e necessidade de metodologia própria para tratar simultaneamente
os objetos e as variáveis, como apresentado por Zhou, Chang e Davis (1983).
Segundo esses autores, se os dados forem escalonados de modo que o produto
menor [P]′[P] seja uma matriz de correlações e o produto maior [P][P]′, uma
matriz de distâncias euclidianas, o modo R, ao ser executado por uma análise
de componentes principais, e o modo Q, por uma análise das coordenadas
principais, apresentarão resultados com mesma configuração espacial.
Exemplo 7.1
A matriz de dados deste exemplo provém de um levantamento do
Swiss Federal Institute of Technology, de Lausanne, Suíça, com a seguinte
estruturação por linhas: ID X Y G, U, Z1, Z2, Z3 (Matriz de dados 7.1 do Anexo),
em que:
ID identidade do ponto de coleta;
Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 123, global #123)ii
ii
ii
ii
7 [ ANÁLISE DE CORRESPONDÊNCIAS OU DE ASSOCIAÇÕES ] 123
X coordenada X;
Y coordenada Y;
G classificação geológica, que identifica o nível estratigráfico onde a
amostra foi coletada (J1: Argoviano; J2: Kimmeridgiano; J3: Sequaniano;
J4: Portlandiano; Q: Quaternário);
U uso da terra onde a amostra foi coletada (floresta; pastagem; pradaria;
lavoura);
Zi concentrações de três metais pesados (cádmio, cobre, chumbo) cole-
tados no horizonte superior do solo.
Os limites máximos toleráveis para o consumo humano são, para Cd: 0,8
ppm; Cu: 50ppm; Pb: 50ppm (maiores detalhes em Goovaerts, 1997).
Com esses valores, foi efetuada preliminarmente uma transformação
binária para as variáveis Cd, Cu e Pb da seguinte maneira:
• se Cd ¾ 0,8, substituir por 1; caso contrário, por zero;
• se Cu ¾ 50, substituir por 1; caso contrário, por zero;
• se Pb ¾ 50, substituir por 1; caso contrário, por zero.
De posse dessa nova tabela, com valores binários, realizou-se uma análise
de correspondências múltiplas para confrontar as relações entre as três
variáveis geoquímicas com a litologia e com o uso da terra (Matriz de dados
7.1 do Anexo). O resultado encontra-se na Fig. 7.3.
Fig. 7.3 Análise de correspondências múltiplas: 0 indica abaixo do teor limite e 1, acima desse teor;
• indica locais de amostragem