Análise Estatística de Dados Geológicos Multivariados

Análise Estatística de Dados Geológicos Multivariados — Prova 5 — 1/9/2011 — Maluhy&Co. — página (local 3, global #3)ii

ii

ii

ii


ii

ii

ii


ii

ii

ii

Aos meus alunos


ii

ii

ii


ii

ii

ii

�

APRESENTAÇÃO�

Recebi o convite para escrever a apresentação de mais esta obra do Prof.

Paulo Landim, Análise estatística de dados geológicos multivariados. É um convite

que me deixou profundamente envaidecido e orgulhoso, pois considero o

autor uma pessoa mais que especial. O Prof. Paulo Milton Barbosa Landim

graduou-se em Geologia em 1961, na Universidade de São Paulo (USP). Desde

então foi construindo uma respeitável carreira acadêmica, que passou pelo

Doutorado na USP em 1967, Pós-doutorado em 1967-1968 na University of

California e na Northwestern University, Professor Livre-docente em 1970 e

Professor Titular de 1978 até 1998 da Universidade Estadual Paulista (Unesp

– Rio Claro). Na Unesp, foi diretor do Instituto de Geociências e Ciências

Exatas (IGCE) entre 1981 e 1984, Vice-Reitor de 1985 a 1988, e Reitor de 1989 a

1993. Insatisfeito com a aposentadoria ocorrida em 1998, permanece dando

aulas e orientando seus alunos de graduação e pós-graduação como Professor

Voluntário da Unesp – Rio Claro. Por tudo isso e por uma sólida produção

voltada especialmente à estratigrafia e à quantificação em geologia, recebeu o

título de Professor Emérito da Unesp. Por isso, além de o Prof. Paulo Milton

Barbosa Landim ser um verdadeiro acadêmico e um especialista, o Paulo

Landim é uma pessoa especial.

As ciências que estudam este sistema extremamente complexo – a

Natureza – estão cada vez mais fundamentadas e exigentes na quantificação

das variáveis. O avanço tecnológico deu origem a uma farta “caixa de ferra-

mentas” capaz de quantificar formas, dimensões, posições e conteúdos, que

fornece valores cada vez mais precisos, os quais tornam possível estabelecer

relações de causa e efeito dos fenômenos geológicos e suas interações com

outros atores da natureza. É evidente que, com a geologia, isso não é diferente.


ii

ii

ii

8 Análise estatística de dados geológicos multivariados

Houve um tempo em que a observação visual dos afloramentos e algumas

medidas com bússola e trena, bem como análises de granulometria ou de

química por via úmida, eram suficientes para a montagem do quadro.

Depois vieram técnicas mais sofisticadas de laboratório, como as basea-

das na espectrografia de raios X, de absorção atômica e de plasma induzido e

de microssonda eletrônica, além das tecnologias digitais de cartografia e de

imageamento por sensores remotos, capazes de gerar grandes quantidades

de dados.

Atualmente, os equipamentos portáteis de coleta de dados produzem

dezenas de dados por segundo, medindo desde as vibrações do terreno até

a composição química da água e de materiais sólidos, e também dados de

posicionamento via GPS, os quais são transmitidos ao escritório no momento

exato em que foram coletados em campo.

Toda essa quantidade e diversidade de dados produzidos a custos re-

lativamente baixos são arquivados em gigantescos bancos de dados. Se o

processo terminasse aqui, estaríamos satisfeitos; no entanto, para que essas

enormes e complexas massas de dados forneçam informações e deem suporte

a conclusões confiáveis, elas necessitam ser tratadas por meio de técnicas

estatísticas especiais.

É nessa circunstância e contexto que o livro do Prof. Paulo Milton Barbosa

Landim mostra o potencial e as aplicações da Análise estatística de dados

geológicos multivariados. Sem dúvida, é uma obra necessária, que expõe de

maneira didática essas técnicas matemáticas de alta complexidade teórica.

Ela tem grande utilidade tanto para o geólogo, que tem interesse apenas na

aplicação direta, dando o suporte para que ele compreenda os resultados gera-

dos por sistemas computacionais, como para o acadêmico ou especialista, que

também encontrará excelente fonte de referência para embasar e aprofundar

suas pesquisas.

Ao finalizar, considero necessário registrar os agradecimentos ao Prof.

Paulo Milton Barbosa Landim por sua dedicação e esmero na redação deste

livro e por mais essa valiosa contribuição ao desenvolvimento das ciên-

cias geológicas.

Otavio Augusto Boni Licht

Curitiba, 17 de agosto de 2011


ii

ii

ii

�

SUMÁRIO�

Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1 Noções de Álgebra Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.1 Matrizes e vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2 Operações com matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Matrizes especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.1 Aplicação do modelo linear múltiplo à confecção de mapas:

análise de superfícies de tendência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Testes de Significância com Dados Multivariados . . . . . . . . . . . . . . . . . . 57

3.1 Testes univariados e testes multivariados . . . . . . . . . . . . . . . . . . . . . . . 58

3.2 Teste T2 de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3 Teste de comparação entre matrizes de

variâncias-covariâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.4 Valores “p” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4 Análise de Agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1 Métodos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2 Considerações sobre a aplicação da análise de agrupamentos . 78

5 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.1 Cálculo para a análise de componentes principais . . . . . . . . . . . . . . 87

5.2 Análise de coordenadas principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.3 Análise de agrupamentos e Análise de componentes

principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95


ii

ii

ii


6 Análise de Fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.1 Análise fatorial pelo modo “Q” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7 Análise de Correspondências ou de Associações . . . . . . . . . . . . . . . . . . . 115

7.1 Análise fatorial R-Q simultânea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

8 Análise de Correlações Canônicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

9 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.1 Análise discriminante linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.2 Análise discriminante multigrupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

10 Classificação Regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Referências Bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201


ii

ii

ii

�

INTRODUÇÃO�

A aplicação de métodos quantitativos em Geologia é muito antiga: Georgius

Agricola (1556) utilizou a trigonometria para o mapeamento mineiro, no início

da Geologia como ciência moderna, e Charles Lyell, em 1830, classificou os

estratos terciários da Bacia de Paris com base na presença relativa de espécies

recentes de moluscos, num procedimento estratigráfico-estatístico. A partir

desse início, a Geologia permanece qualitativa e puramente descritiva até

os anos 1920, quando o enfoque quantitativo torna-se mais presente, com

a proposta de amostragem geológica em bases probabilísticas de William C.

Krumbein, que introduz os modelos “processo-resposta”. O entendimento

das relações de causa e efeito para a explicação dos processos geológicos

leva Andrei Vistelius, no início dos anos 1940, a iniciar a formulação da

chamada Geologia Matemática. Em que pese essas iniciativas, dentre outras,

a Geologia, até há bem pouco tempo, era frequentemente considerada uma

ciência baseada em interpretações qualitativas dos fenômenos geológicos.

Nos últimos 40 anos, foi notável a mudança da fase descritiva para a utilização

de métodos quantitativos, principalmente nas áreas da Geologia Aplicada. Na

área mineral, com destaque ao petróleo, a interpretação geológica, além de

estar fundamentada em conceitos científicos, precisa ter aplicação econômica,

e observa-se uma tendência quantitativa que possibilita avanços importantes

no uso de técnicas espaciais. Um consistente relato sobre a quantificação em

Geologia encontra-se em Merriam (2004).

Nas últimas décadas, graças a avanços tecnológicos tanto computacio-

nais quanto de equipamentos de laboratório e de campo, intensificou-se a

obtenção de dados geológicos quantitativos, cuja análise está muito aquém

da imensa quantidade de informações coletadas. Basta ver os relatórios

de pesquisa e os bancos de dados com um grande número de matrizes de


ii

ii

ii


informações não trabalhadas. Verbas e tempo são gastos na coleta, que precisa

ser devidamente manuseada, e para a análise dos dados, o emprego de técnicas

estatísticas multidimensionais é fundamental. Como os fenômenos geológicos

resultam de diversos fatores condicionantes, o seu entendimento é facilitado

quando o estudo é submetido a um tratamento quantitativo multidimensional.

Porém, a pura utilização de técnicas estatísticas multivariadas, hoje bastante

facilitada pela vasta disposição de programas computacionais, não é condição

suficiente se o estudo não for embasado num sólido conhecimento geológico.

É necessário o pesquisador ter sempre em mente que os resultados, obtidos

por via quantitativa, devem ter uma explicação lógica e coerente no contexto

das geociências. Ou seja, não procure encaixar a natureza em seu modelo

multivariado, por mais perfeito que ele possa parecer. Um modelo será sempre

uma simplificação da natureza.

No caso de uma única variável medida em amostras, no sentido geológico,

a análise é feita por intermédio da estatística univariada. Se forem obtidos

valores de diversas variáveis em cada amostra, as técnicas para a análise

desses dados são fornecidas pela estatística multivariada ou multidimensi-

onal. Essa análise estatística de mensurações múltiplas sobre uma amostra

fornece um melhor entendimento na razão direta do número de variáveis

utilizadas e permite considerar simultaneamente a variabilidade das diversas

propriedades medidas.

Os resultados de análises de dados uni ou bivariados podem se apresentar

na forma de gráficos em 1D, 2D ou 3D, de fácil compreensão. No caso de dez

variáveis, por exemplo, o resultado ocorre num espaço em dez dimensões,

concebível apenas de um modo abstrato. Uma das funções dos métodos

multivariados é reduzir a dimensão dos dados ao apresentar os resultados,

para um melhor entendimento gráfico a duas ou três dimensões.

Entre os métodos mais utilizados em Geociências destacam-se a análise

de agrupamentos, a análise de componentes principais e a análise discriminante.

Ao explorar as similaridades entre indivíduos (modo Q) ou entre variáveis

(modo R) definindo-os em grupos, a análise de agrupamentos é utilizada, no

primeiro caso, considerando as variáveis observadas em cada indivíduo e, no

segundo, os indivíduos nos quais foram feitas as mesmas medidas. Com esse

método, procura-se por agrupamentos homogêneos de itens representados

por pontos num espaço n-dimensional em um número conveniente de grupos,

relacionando-os pelos coeficientes de similaridade ou de distância.


ii

ii

ii


3.1 Testes univariados e testes multivariadosSegundo Manly (2008), um aspecto importante do uso de testes multiva-

riados em relação aos univariados é o controle das taxas do erro do tipo I,

que significa encontrar um resultado significante quando na realidade as

duas amostras comparadas provêm de populações com mesma média

em um teste univariado, ou com médias iguais em um teste multivariado.

Por exemplo, para uma probabilidade do erro α = 0,05, significa que, se a

verdadeira média da população de X’s for μ, a chance de ocorrer t∗ ¾ t(n−1;α)

é uma em 20. Ao se aplicar o mesmo teste para a variável Y, com o mesmo

risco de recusar a hipótese nula quando verdadeira, a probabilidade de ambas

as médias, de X e Y, não serem significativamente diferentes de μ e μy é

(0,95)2 = 0,9025. A probabilidade de ambas as médias serem significantemente

diferentes de μ e μy é (0,05)2 = 0,0025. A probabilidade de apenas uma das

médias ser significantemente diferente é (2)(0,95)(0,05) = 0,0950 e a probabi-

lidade de pelo menos uma média ser considerada significantemente diferente,

quando na realidade não existe diferença, é 0,0975. No caso de um problema

com três variáveis, a última probabilidade passa a ser 1− (0,95)3 = 0,1426.

Essa situação, apresentada por Jackson (1959), mostra que o uso de testes

univariados para situações multivariadas pode fornecer pelo menos uma

diferença significante por chance, em 50% ou mais de casos. Há necessi-

dade, portanto, de testes generalizados que verifiquem, simultaneamente,

qual a probabilidade de diversas amostras multivariadas fornecidas serem

significantemente diferentes de médias multivariadas hipotéticas fornecidas.

Em muitos casos, pode-se argumentar que um único teste multivariado

fornece um melhor resultado do que um grande número de testes univari-

ados. Um teste multivariado tem a vantagem adicional de levar em conta a

correlação entre variáveis.

3.2 Teste T2 de HotellingSeja, por exemplo, um conjunto de observações no qual foram obtidas n

medidas X e se deseja verificar a probabilidade de essa amostra casual,

com n observações, ser retirada de uma população normal com média

especificada e variância desconhecida σ2. O teste indicado é o univariado

“t” de Student:

t∗ =(− μ)

pn

Æ

s2


ii

ii

ii

3 [ TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS ] 59

no qual s2

é a variância da amostra de tamanho n, de onde foi obtida. Se

t∗ > t(n−1,α), será considerado significantemente diferente de μ no nível α.

Para a generalização multivariada do teste “t”, substitui-se por um

vetor de médias amostrais, μ por um vetor de médias populacionais e s2 por

uma matriz de variâncias-covariâncias:

t =

�

− μ�p

nÆ

�

s2

�

A solução dessa equação não fornece uma única resposta. Haverá neces-

sidade de transformar a coluna vetor e a matriz em valores singulares, o que

pode ser feito com a definição de um vetor coluna arbitrário, cujo transposto é

o vetor linha [A]′. Ao se multiplicar o vetor coluna de diferenças pelo vetor

linha [A]′, o resultado será um valor singular. Desse modo, o teste torna-se:

t =[A]

�

− μ�p

nq

[A]Æ

�

s2

�

[A]′t2 =

�

[A]�

− μ�2 n

[A]�

s2

�

[A]′

Todavia, com essa transformação, o que estava sendo testado foi modifi-

cado. A hipótese nula, que era H0=[μ ]=[μ0], passa a ser H*0=[A][μ]=[A][μ0].

A hipótese original H0 só é verdadeira quando a nova hipótese H*0 se

mantiver para todos os possíveis valores de [A]. É suficiente, porém, testar

apenas o valor máximo possível do teste, porque se H*0 for rejeitada para

qualquer valor de [A], a hipótese H0 também será rejeitada.

Para determinar o valor máximo, Morrison (1967) propõe que a determi-

nação possa ser removida pela imposição da restrição:

[A]′[s2][A] = 1

A introdução da restrição, pelo multiplicador de Lagrange λ, e a subse-

quente diferenciação com respeito a [A], fornecem o sistema de equações:

¦

�

− μ��

− μ�′ n− λ

�

s2

�©

[A] = 0

Premultiplicando por [A]′, tem-se:

λ =[A]′

�

− μ� �

− μ�′ [A]n

[A]′�

s2

�

[A]=

¦

[A]′ [− μ]©2

n

[A]′�

s2

�

[A]

o que resulta: λ = t2.


ii

ii

ii


Coeficientes de similaridade

Os coeficientes de similaridade mais usuais, obtidos num espaço multidi-

mensional, dividem-se em três categorias:

a) os que medem a distância ou a separação angular entre pares de pontos;

b) os que medem a correlação entre pares de valores;

c) os que medem a associação entre pares de caracteres qualitativos.

Diversas publicações discutem esses tipos de medidas, como, por exem-

plo, Sneath e Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981),

Greig-Smith (1983), Pielou (1984), além do resumo sobre 23 coeficientes de

similaridades constante no pacote MVSP, versão 3.1.

Medida de distância

Expressa o grau de similaridade como distância em um espaço multi-

dimensional. Quanto maior a distância, menor o grau de similaridade

e vice-versa. A distância D entre dois pontos, (X1, Y1) e (X2, Y2), cuja

localização é especificada num sistema de coordenadas cartesianas,

segundo o teorema de Pitágoras, é fornecida por:

D1.2 =p

(1 − 2)2 + (y1 − y2)2

em que 1, 2, y1 e y2 são valores das coordenadas dos dois pontos.

Para a distância Dj entre dois pontos , j, num espaço n-dimensional, a

fórmula generalizada é:

Dj =

√

√

√

√

n∑

k=1

(k − jk)2/n

Quando todas as variáveis têm o mesmo peso, consequentemente, a

função distância limita-se a valores entre 0 (maior similaridade) e 1 (menor

similaridade).

Pode-se utilizar também o coeficiente cosseno-teta, uma medida de pro-

porcionalidade que expressa o grau de similaridade em termos de separação

angular:

cosθpq =

∑

pq�∑

p2∑

q2�1/2

p e q = valores comparados

Quando a similaridade é completa, a separação angular é 0° e cosθ = 1;

quando não ocorre similaridade, a separação angular é 90° e o cosθ = 0.


ii

ii

ii

4 [ ANÁLISE DE AGRUPAMENTOS ] 73

Coeficientes de correlação

Medem o grau de associação entre valores pela representação de pontos

num sistema de coordenadas e suas respectivas posições em relação a

uma linha reta. Dois coeficientes muito utilizados são: o paramétrico, de

Pearson e o não paramétrico, de Spearman.

Coeficiente de correlação de Pearson

O coeficiente de correlação da amostra r (ou ρ∗), que é uma estimativa

do coeficiente de correlação populacional ρ, é dado por:

r =cov(, y)

[vr()vr(y)]1/2=

( − )(y − y)n− 1

�

( − )2

n− 1·(y − y)2

n− 1

�1/2

em que n é o número de pares de valores para e y, variáveis com

distribuição normal, e e y são os valores médios para e y.

Utiliza-se o método dos mínimos quadrados para o cálculo do coeficiente

de correlação com a seguinte fórmula simplificada:

r =SPXY

p

SQX · SQY

SPXY = y− (.y)/n

SQX = 2 − ()2/n

SQY = y2 − (y)2/n

Os valores de r são medidas adimensionais e variam de −1 a +1, ex-

pressando desde comportamento totalmente inverso até comportamento

totalmente direto entre as duas variáveis. Quandor = 0, não há relação linear

entre e y.

Coeficiente de correlação de Spearman

É um coeficiente de correlação não paramétrico entre duas variáveis, X e

Y, e, para seu cálculo, atribui-se um posto a cada valor de cada uma das

variáveis, de acordo com o grau de magnitude do valor na variável. Assim,

em cada variável, o menor valor assume o posto 1, o segundo menor, o

posto 2, e assim por diante. Para o i-ésimo par de valores das variáveis,

calcula-se a diferença d dos postos, = 1,2, n. No caso de dois ou mais


ii

ii

ii

5

ANÁLISE DECOMPONENTES

PRINCIPAIS

É o mais antigo método de ordenação, o mais conhecido e com mais exemplos

de aplicação em Geociências. Trata-se de uma técnica para encontrar compo-

nentes lineares de variáveis correlacionadas por meio do cálculo dos autovalo-

res e correspondentes autovetores de uma matriz de variâncias-covariâncias

ou de uma matriz de coeficientes de correlação entre variáveis.

Em vez de covariância, o coeficiente de correlação é mais usado para a

matriz inicial de similaridades, porque elimina o efeito de escala: uma variável

que oscile entre 0 e 1 não pesa mais do que uma variável que oscile entre 0 e

1.000. A covariância é utilizada com variáveis obtidas em escalas idênticas

ou quando se quer ressaltar as variâncias das variáveis que influenciam nas

cargas fatoriais. Quando as variáveis não podem ser diretamente comparadas,

em razão das diferentes escalas de mensuração, torna-se necessária uma

padronização preliminar, de modo que as variáveis transformadas passem a

ter média zero e variância unitária, o que é conseguido pela transformação “z”.

Nos casos com variáveis padronizadas, a matriz de variâncias-covariâncias

e a de coeficientes de correlação tornam-se idênticas. Como a padronização

influencia a estrutura da matriz de variâncias-covariâncias e, consequente-

mente, os resultados da análise, a sua utilização deve ser criteriosa, levando

em conta a natureza dos dados em estudo e o enfoque pretendido.

A análise de componentes principais não é sinônimo de análise fatorial

ou análise de fatores, e essa confusão terminológica deve ser evitada. A

primeira análise consiste na transformação linear de “n” variáveis originais,

normalmente correlacionadas entre si, em “n” novas variáveis não correla-

cionadas. Essas novas variáveis são denominadas componentes principais,

de modo que a primeira nova variável computada seja responsável pela


ii

ii

ii


maior variação possível no conjunto de dados; a segunda, pela maior variação

possível restante, e assim por diante, até que toda a variação do conjunto

tenha sido explicada. Na análise de fatores, supõe-se que as relações de um

conjunto de “n” variáveis sejam o reflexo das correlações de cada uma dessas

variáveis com “p” fatores, mutuamente não correlacionáveis entre si, com

“p” menor que “n”. O cuidado que se deve ter é com relação à especificação

do número e, principalmente, do significado dos “p” fatores que emergem

a partir dessa análise (ver Jöreskog, Klovan e Reyment, 1976 e Reyment e

Jöreskog, 1996).

Fig. 5.1 Diagrama bivariado com a distribuição dos pon-

tos em relação às variáveis originais X1 e X2 e às novas

componentes, C1 e C2. C1 representa a maior porcentagem

da variabilidade total existente e C2, disposta ortogonal-

mente, a variabilidade restante

Portanto, a análise de componentes principais é uma técnica de trans-

formação de variáveis. O método apresenta melhores resultados se, original-

mente, já existir alguma correlação entre variáveis ou grupo de variáveis e

se o número de variáveis for significativo. Por exemplo,

1 2 3 4

2 0,84

3 0,80 0,96

4 0,21 0,18 0,31

5 0,13 0,23 0,24 0,91

Neste exemplo, com cinco

variáveis, verifica-se que existem

dois grupos de variáveis decor-

rentes do grau de correlação: um,

constituído pelas variáveis 1, 2 e

3 e, outro, pelas variáveis 4 e 5.

Se cada variável medida

pode ser considerada como um

eixo de variabilidade e está usual-

mente correlacionada com outras

variáveis, esta análise transforma

os dados de modo a descrever a

mesma variabilidade total exis-

tente, com o mesmo número de eixos originais, porém não mais correlacio-

nados entre si. A posição espacial dos pontos no espaço multidimensional

permanece a mesma, mas mudam os eixos originais por rotação ortogonal,

que passam a ser denominados componentes principais (Fig. 5.1).


ii

ii

ii


7.1 Análise fatorial R-Q simultâneaPelo teorema de Eckart-Young, é possível extrair fatores pelos modos

R e Q simultaneamente, mas, na prática, os resultados podem não ser

os mesmos, pela maneira como os dados são transformados antes do

processo fatorial. O escalonamento de valores condiciona as medidas de

similaridade e, assim, a natureza da solução fatorial.

No modo R, a solução fatorial inicia-se pela matriz simétrica dos menores

produtos [P]′[P] e, no modo Q, pela matriz simétrica dos maiores produtos

[P][P]′. Isso significa que os procedimentos de escalonamento de valores não

são os mesmos para originar [P] a partir dos dados originais [X]. Por exemplo,

na análise de componentes principais, cada elemento de [X] é dividido pelo

desvio padrão das colunas para produzir [P]. Na análise fatorial pelo modo

Q, ocorre uma padronização, que inclui a divisão de cada elemento de [X]

pela raiz quadrada da soma de quadrados das linhas para originar [P]. Como

a matriz [P] originada pelo modo R não é idêntida à matriz [P] originada

pelo modo Q, tal diferença entre escalas não fornece os mesmos resultados

(Davis, 2002).

A “análise de associações” usa uma matriz simétrica com a mesma

escala de valores para linhas e colunas, e procura medidas de similaridade

proporcional entre objetos e variáveis. A similaridade resultante é a distância

χ2 utilizável apenas para tabelas de contingências que estimam probabilidades.

Uma tabela de medidas com valores contínuos, porém, tem diferentes propri-

edades e necessidade de metodologia própria para tratar simultaneamente

os objetos e as variáveis, como apresentado por Zhou, Chang e Davis (1983).

Segundo esses autores, se os dados forem escalonados de modo que o produto

menor [P]′[P] seja uma matriz de correlações e o produto maior [P][P]′, uma

matriz de distâncias euclidianas, o modo R, ao ser executado por uma análise

de componentes principais, e o modo Q, por uma análise das coordenadas

principais, apresentarão resultados com mesma configuração espacial.

Exemplo 7.1

A matriz de dados deste exemplo provém de um levantamento do

Swiss Federal Institute of Technology, de Lausanne, Suíça, com a seguinte

estruturação por linhas: ID X Y G, U, Z1, Z2, Z3 (Matriz de dados 7.1 do Anexo),

em que:

ID identidade do ponto de coleta;


ii

ii

ii

7 [ ANÁLISE DE CORRESPONDÊNCIAS OU DE ASSOCIAÇÕES ] 123

X coordenada X;

Y coordenada Y;

G classificação geológica, que identifica o nível estratigráfico onde a

amostra foi coletada (J1: Argoviano; J2: Kimmeridgiano; J3: Sequaniano;

J4: Portlandiano; Q: Quaternário);

U uso da terra onde a amostra foi coletada (floresta; pastagem; pradaria;

lavoura);

Zi concentrações de três metais pesados (cádmio, cobre, chumbo) cole-

tados no horizonte superior do solo.

Os limites máximos toleráveis para o consumo humano são, para Cd: 0,8

ppm; Cu: 50ppm; Pb: 50ppm (maiores detalhes em Goovaerts, 1997).

Com esses valores, foi efetuada preliminarmente uma transformação

binária para as variáveis Cd, Cu e Pb da seguinte maneira:

• se Cd ¾ 0,8, substituir por 1; caso contrário, por zero;

• se Cu ¾ 50, substituir por 1; caso contrário, por zero;

• se Pb ¾ 50, substituir por 1; caso contrário, por zero.

De posse dessa nova tabela, com valores binários, realizou-se uma análise

de correspondências múltiplas para confrontar as relações entre as três

variáveis geoquímicas com a litologia e com o uso da terra (Matriz de dados

7.1 do Anexo). O resultado encontra-se na Fig. 7.3.

Fig. 7.3 Análise de correspondências múltiplas: 0 indica abaixo do teor limite e 1, acima desse teor;

• indica locais de amostragem

Análise Estatística de Dados Geológicos Multivariados

Documents

Transcript of Análise Estatística de Dados Geológicos Multivariados