Mineração de Dados: Classificação e Predição Victor Ströele [email protected]...
-
Upload
victor-sergio -
Category
Documents
-
view
212 -
download
0
Transcript of Mineração de Dados: Classificação e Predição Victor Ströele [email protected]...
Mineração de Dados: Classificação e
Predição
Victor Strö[email protected]
04/27/23 Business Intelligence
Roteiro Conceitos e características da
Classificação Qualidade do Classificador Técnicas de Classificação
Árvores de DecisãoRegras de ClassificaçãoMáquinas de Vetores SuporteRedes Neurais
Conceito Classificação:
Identificar a classe de um objeto através de um modelo classificador construído com informações de um conjunto de amostras
Aprendizado Supervisionado Predição:
Prever o valor de uma variável
Classificação Etapa de treinamento
Classificação Etapa de Classificação
Problemas de Classificação Classificação de Textos
Crescimento das informações disponíveis com o desenvolvimento da WEB
Identificar spams no envio de e-mails Análise de Seqüências biológicas
Grande quantidade de dados com o mapeamento do genoma humano
Identificar seqüências protéicas homólogas
Problemas de Classificação Diagnóstico de doenças
Geralmente utilizado para informar se o paciente está doente ou não
Diagnóstico de câncer de mamaClassificador é treinado utilizando-se
amostras de pessoas doentes e saudáveisA amostra de um novo paciente é aplicada ao
classificador e este irá informar o diagnóstico
Etapas da Classificação Aprendizado/Treinamento
Exemplos conhecidos são analisados e um classificador é construído
O classificador pode ter a forma de: Regras de Classificação Árvores de Decisão Máquinas de Vetores Suporte Redes Neurais
Etapas da Classificação Classificação
O Classificador é usado para distribuir itens em grupos pré-definidos (classes)
A classificação considera informações quantitativas ou as características dos itens
Conjunto de AmostrasClasses
Treinamento
Exemplo
Conjunto de Treinamento
Classificador na forma“Regras de Classificação”
Fase de treinamento eConstrução do Classificador
Exemplo Forma dos dados do conjunto de
treinamenoX = <x1, x2, x3> e Y = <baixo, alto>x1 Nome do clientex2 Idade do cliente discretizadax3 Renda do Cliente também discretizadaY Risco do Empréstimo, que é o rótulo da
classe a qual o cliente pertence
Exemplo
Clientes novos (Desconhecidos)
Resultado da Análise de RiscoPara os clientes novos
Dados Novos aplicados Ao Classificador
Características da Classificação
Precisão Capacidade de prever a classe a qual um item
desconhecido pertence Como medir a precisão?
Usar um conjunto de dados conhecidos que não foram utilizados na etapa de treinamento
Usar 10% do conjunto de treinamento
Velocidade Esforço computacional exigido tanto na fase de
treinamento quanto na fase de classificação
Características da Classificação
RobustezHabilidade de classificar corretamente mesmo
em presença de dados com “ruídos” ou incompletos
EscalabilidadeCapacidade do classificador obter um
desempenho proporcional à quantidade de dados analisada
Qualidade do Classificador O modelo classificador depende diretamente da
qualidade do conjunto de treinamento Dados do conjunto de treinamento devem ser
cuidadosamente selecionados e rotulados Muitos dados com ruídos ou incompletos podem
confundir o classificador Dados de treinamento muito genéricos
diminuem a precisão para casos menos comuns
Qualidade do Classificador Dados de treinamento muito específicos
causam o efeito de over fitting (Erro de treinamento muito baixo ou zero e poder de classificação baixo)
Sem Erro de Treinamento Com Erro de Treinamento
Qualidade do Classificador
Sem Erro de Treinamento Com Erro de Treinamento
Com Erro na Classificação Sem Erro na Classificação
Técnicas de Classificação Árvore de Decisão Regras de Classificação Máquinas de Vetores Suporte (SVM) Redes Neurais (Backpropagation)
Árvore de Decisão Cada nó interno representa um teste em
determinado atributo Cada ramo representa um possível
resultado do teste Cada folha representa uma classe Cada percurso na árvore (da raiz à folha)
corresponde a uma regra de classificação.Té
cnic
as d
e C
lass
ifica
ção
Árvore de Decisão Exemplo
Técn
icas
de
Cla
ssifi
caçã
o
Árvore de Decisão Estratégia: dividir para conquistar Capacidade de Discriminação
Divisão do espaço definido pelos atributos em sub-espaços
A cada sub-espaço é associada uma classe
Técn
icas
de
Cla
ssifi
caçã
o
Árvore de DecisãoTé
cnic
as d
e C
lass
ifica
ção
Cada folha Corresponde a uma região A intersecção dos hiper-retângulos é vazia A união dos hiper-retângulos é o espaço completo
Árvore de Decisão Idéia Base:
Escolher um atributoEstender a árvore adicionando um ramo
para cada valor do atributoPassar os exemplos para as folhas (tendo
em conta o valor do atributo escolhido)Para cada folha
Se todos os exemplos são da mesma classe, associar essa classe a folha
Senão repetir os passos de 1 a 4Técn
icas
de
Cla
ssifi
caçã
o
Exemplo Atributos Binários:
Árv
ore
de D
ecis
ão AtributosClasse
A ^ B0 0 00 1 01 0 01 1 1
Exercícios Atributos Binários:
Árv
ore
de D
ecis
ão AtributosClasse
A v B0 0 00 1 11 0 11 1 1
Exercícios Atributos Binários:
Árv
ore
de D
ecis
ão AtributosClasse
A v B0 0 00 1 11 0 11 1 1
A
B1
1 0
1
1
0
0
Critério para escolha do Atributo
Como medir a habilidade de um atributo discriminar as classes?
Dois Pontos básicos Uma divisão que mantêm as proporções de classes
em todas as partições é inútil Uma divisão onde em cada partição todos os
exemplos são da mesma classe tem utilidade máxima
Árv
ore
de D
ecis
ão
10/10
5/55/5
10/10
0/1010/0
Critério para escolha do AtributoÁ
rvor
e de
Dec
isão
Tempo Temperatura Umidade Vento Joga
Sol 85 85 Não Não
Sol 80 90 Sim Não
Nublado 83 86 Não Sim
Chuva 70 96 Não Sim
Chuva 68 80 Não Sim
Chuva 65 70 Sim Não
Nublado 64 65 Sim Sim
Sol 72 95 Não Não
Sol 69 70 Não Sim
Chuva 75 80 Não Sim
Sol 75 70 Sim Sim
Nublado 72 90 Sim Sim
Nublado 81 75 Não Sim
Chuva 71 91 Sim Não
Critério para escolha do AtributoÁ
rvor
e de
Dec
isão
Vento
Tempo Temp. Umidade
Vento
Joga
Sol 85 85 Não Não
Nublado
83 86 Não Sim
Chuva 70 96 Não Sim
Chuva 68 80 Não Sim
Sol 72 95 Não Não
Sol 69 70 Não Sim
Chuva 75 80 Não Sim
Nublado
81 75 Não Sim
Tempo Temp. Umidade
Vento
Joga
Sol 80 90 Sim Não
Chuva 65 70 Sim Não
Nublado
64 65 Sim Sim
Sol 75 70 Sim Sim
Nublado
72 90 Sim Sim
Chuva 71 91 Sim Não
SIM NÃO
Critério para escolha do AtributoÁ
rvor
e de
Dec
isão
Tempo
SOL CHUVA
Tempo
Temp. Umid.
Vento
Joga
Sol 85 85 Não Não
Sol 72 95 Não Não
Sol 69 70 Não Sim
Sol 80 90 Sim Não
Sol 75 70 Sim Sim
Tempo Temp. Umid. Vento
Joga
Nublado
83 86 Não Sim
Nublado
81 75 Não Sim
Nublado
64 65 Sim Sim
Nublado
72 90 Sim Sim
Tempo
Temp. Umid. Vento
Joga
Chuva 70 96 Não Sim
Chuva 68 80 Não Sim
Chuva 75 80 Não Sim
Chuva 65 70 Sim Não
Chuva 71 91 Sim Não
NUBLADO
Critério para escolha do AtributoTempo
SOL CHUVA
Temp. Umid. Vento Joga
85 85 Não Não
72 95 Não Não
69 70 Não Sim
80 90 Sim Não
75 70 Sim Sim
Temp. Umid. Vento Joga
70 96 Não Sim
68 80 Não Sim
75 80 Não Sim
65 70 Sim Não
71 91 Sim Não
NUBLADO
SIM
Temp. Umid. Vento Joga
69 70 Não Sim
75 70 Sim Sim
Temp. Umid. Vento Joga
85 85 Não Não
72 95 Não Não
80 90 Sim Não
Umidade < 77,5 Umidade >= 77,5
Temp. Umid. Vento Joga
65 70 Sim Não
71 91 Sim Não
Temp. Umid. Vento Joga
70 96 Não Sim
68 80 Não Sim
75 80 Não Sim
Vento: SIM Vento: NÃO
Critério para escolha do AtributoTempo
SOL CHUVANUBLADO
SIM
SIM NÃO SIM NÃO
Umidade < 77,5
SIM NÃO
Vento
NÃO SIM
Exercício Construa a árvore de decisão e
classifique os elementos que não estão rotulados
Árv
ore
de D
ecis
ão
Nome Escolaridade Idade Rico (Atributo Classe)
Alva Mestrado >30 Sim
Amanda Doutorado <=30 Sim
Ana Mestrado <=30 Não
Eduardo Doutorado >30 Sim
Inês Graduação <=30 Não
Joaquim Graduação >30 Não
Maria Mestrado >30 Sim
Raphael Mestrado <=30 Não
Nome Escolaridade Idade
José Doutorado 28
Carol Mestrado 37
Nelsa Graduação 35
João Mestrado 29
Exercício Primeira Divisão: Escolaridade
Árv
ore
de D
ecis
ão
Nome Escolaridade IdadeRico
(Atributo Classe)
Amanda Doutorado <=30 Sim
Eduardo Doutorado >30 Sim
Nome Escolaridade IdadeRico
(Atributo Classe)
Inês Graduação <=30 Não
Joaquim Graduação >30 Não
Nome Escolaridade IdadeRico
(Atributo Classe)
Alva Mestrado >30 Sim
Ana Mestrado <=30 Não
Maria Mestrado >30 Sim
Raphael Mestrado <=30 Não
Escolaridade
Sim Não ?
Doutorado Graduação Mestrado
Exercício Segunda Divisão: Idade
Árv
ore
de D
ecis
ão
Nome Escolaridade IdadeRico
(Atributo Classe)
Ana Mestrado <=30 Não
Raphael Mestrado <=30 Não
Escolaridade
Sim Não > 30
Doutorado Graduação MestradoNome Escolaridade IdadeRico
(Atributo Classe)
Alva Mestrado >30 Sim
Maria Mestrado >30 Sim
Sim Não
NãoSim
Exercício Classificação de novos elementos
Árv
ore
de D
ecis
ão
Escolaridade
Sim Não > 30
Doutorado Graduação Mestrado
Sim Não
NãoSim
Nome Escolaridade Idade Rico?
José Doutorado 28 SIM
Carol Mestrado 37 SIM
Nelsa Graduação 35 NÃO
João Mestrado 29 NÃO
Regras de Classificação Regras do tipo SE-ENTÃO
SE faixa_etária = jovem ENTÃO alto risco empréstimo
Condição é formada por um ou mais testes de atributos
Conclusão representa uma classe Uma regra é dita ATIVA quando os
atributos de um item satisfazem as condições da regraTé
cnic
as d
e C
lass
ifica
ção
Regras de Classificação Item acionou apenas uma regra então esta
regra é usada para classificar Se idade entre 25 e 30 e não tem carro ENTÃO
alto risco empréstimo Se idade entre 25 e 30 e salário maior que 5 mil
ENTÃO médio risco de empréstimo Elemento atende as duas regras
Idade = 28 Carro = não Salário = 7 mil
Técn
icas
de
Cla
ssifi
caçã
o
Regras de Classificação Duas opções de escolha de regras:
Priorizar as regras mais rígidas ou mais específicas (quanto maior o número de condições mais específica é a regra)
Ordenar as regras de acordo com a prioridade das mesmas
Técn
icas
de
Cla
ssifi
caçã
o
Construção das Regras de Classificação Por árvore de decisão
Técn
icas
de
Cla
ssifi
caçã
o
SE faixa_etária=jovem E estudante=não ENTÃO nãoSE faixa_etária=jovem E estudante=sim ENTÃO simSE faixa_etária=meia-idade ENTÃO simSE faixa_etária=idoso E renda=baixa ENTÃO nãoSE faixa_etária=idoso E renda=alta ENTÃO sim
Exercícios Construa as Regras de Classificação
baseando-se na árvore de decisão do exercício anterior
Reg
ras
de C
lass
ifica
ção
Exercícios Se ESCOLARIDADE = Doutorado então
SIM Se ESCOLARIDADE = Graduação então
NÃO Se ESCOLARIDADE = Mestrado e
IDADE > 30 então SIM Se ESCOLARIDADE = Mestrado e
IDADE <= 30 então NÃOReg
ras
de C
lass
ifica
ção
Máquina de Vetores Suporte (SVM) Resolução de problemas de classificação Separar os dados em duas classes com
um hiperplano Encontrar um classificador que irá
trabalhar bem com dados não conhecidos
Maximizar a margem entre as duas classesTé
cnic
as d
e C
lass
ifica
ção
Máquina de Vetores Suporte (SVM) Caso simples: duas classes
linearmente separáveis (A e B) Dados representados pelo par
(si, yi), onde si é a observação i e yi o rótulo ( )
Infinitos hiperplanos, mas apenas um maximiza a margem
Máxima margem aumenta o poder de generalização do classificador
Técn
icas
de
Cla
ssifi
caçã
o
1iy
Hiperplanos separadores para dois conjuntos de dados
Máquina de Vetores Suporte (SVM) Formulação Linearmente Separável
x é o vetor normal ao hiperplano separador s é o vetor do conjunto de pontos de entrada determina o deslocamento do hiperplano em
relação a origem
Técn
icas
de
Cla
ssifi
caçã
o
.u x s
Máquina de Vetores Suporte (SVM) Por definição
Técn
icas
de
Cla
ssifi
caçã
o
. 1 1
. 1 1i i
j j
x s s Classex s s Classe
Pontos Suporte
Máquina de Vetores Suporte (SVM) A margem é dada pela soma desses
hiperplanos
Técn
icas
de
Cla
ssifi
caçã
o
. .
,,
, , .
i j
ji
i j
m x s x s
x sx sx x
x s x sx
, , 1i jx s x s
2
x,
1minimizar2
.( . ) 1, {1, 2, ..., }i i
x
s ay x s i l
2mx
Nos pontos suporte, tem-se:
Margem:
Definição do Problema SVM:
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
x1 x2 Classe +1 x1 x2 Classe -12 -1 1 3 -1 -11 0 1 2 0 -10 1 1 0 2 -1-1 2 1 3 -1 -1-2 1,5 1 2 2 -10 0 1 1 1 -1-2 0 1 3 1 -1-2 1 1 1 2 -1
-0,5 -0,5 1 1 3 -1-1 0,5 1 2 1 -1-1 1 1 1,5 1,5 -1-1 0 1 2,5 2,5 -1-1 1,5 1 2,5 3 -1
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
-2
-1
0
1
2
3
4
-3 -2 -1 0 1 2 3 4
x.s – = +1
x.s – = -1
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
-2
-1
0
1
2
3
4
-3 -2 -1 0 1 2 3 4
f(x) = -x + 1
g(x) = -x + 2
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
( ) 1( ) 2
f x xg x x
Margem Soma de f(x) = +1 e g(x) = -1
Margem:
1 1 32 3 0 ( )2 1 2
xx h x x
x
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
-2
-1
0
1
2
3
4
-3 -2 -1 0 1 2 3 4
f(x) = -x + 1
g(x) = -x + 2
h(x) = -x + 3/2
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
Classifique os novos pontos [-1, -1] [3, 0,5] [0, 3] [1,5, -0,5]
-2
-1
0
1
2
3
4
-3 -2 -1 0 1 2 3 4
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
Classifique os novos pontos [-1, -1]
[3, 0,5]
h(x) = -x + 3/2
11* 1,5 (1 1) 1,5 3,5 0
1classe
31* 1,5 ( 3 0,5) 1,5 2 0
0,5classe
Classe +1
Classe -1
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
Classifique os novos pontos [0, 3]
[1,5, -0,5]
h(x) = -x + 3/2
01* 1,5 (0 3) 1,5 1,5 0
3classe
1,51* 1,5 ( 1,5 0,5) 1,5 0,5 0
0,5classe
Classe -1
Classe +1
Problemas não linearmente separáveis
Máq
uina
de
Veto
res
Supo
rte
Problemas que não são separáveis por um hiperplano
Problemas não linearmente separáveis
Máq
uina
de
Veto
res
Supo
rte
Nova formulação do problema
2
x, 1
1minimizar2
.( . ) 1 , {1, 2, ..., }
0
l
ii
i i i
i
x C
s ay x s i l
permite a classificação errada de um elemento.C penaliza o erro na classificação
ExercícioM
áqui
na d
e Ve
tore
s Su
port
e
Encontre o classificador para os dados
x y Classe -1 x y Classe +10,5 0,5 -1 3 -1 +1
1 0 -1 2 0 +1
0 1 -1 2,5 1 +1
0,5 1,5 -1 3 -1 +1
0,5 2,5 -1 2 2 +1
0 0 -1 2,5 0 +1
0 2 -1 3 1 +1
0,75 0,5 -1 2 1 +1
-0,5 -0,5 -1 2,5 2,5 +1
0,75 1 -1 2,5 3 +1
1 1 -1 2,1 0 +1
1 2 -1 2,3 0,5 +1
1 3 -1 2,2 1,5 +1
1 -1 -1 2 -1 +1-2
-1
0
1
2
3
4
-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5
X=1 X=2
ExercícioM
áqui
na d
e Ve
tore
s Su
port
e
( ) 1( ) 2
f x xg x x
Margem Soma de f(x) = -1 e g(x) = +1
1 1 32 3 0 ( )2 1 2
xx h x x
x
Margem:
ExercícioM
áqui
na d
e Ve
tore
s Su
port
e
3( )2
h x x
-2
-1
0
1
2
3
4
-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5
X=1 X=2
X=3/2
ExercícioM
áqui
na d
e Ve
tore
s Su
port
e
-2
-1
0
1
2
3
4
-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5
X=1 X=2
X=3/2 Classifique os pontos [0,0] [3,3]
ExemploM
áqui
na d
e Ve
tore
s Su
port
e
Classifique os novos pontos [0, 0]
[3, 3]
h(x) = x - 3/2
01* 1,5 (0 0) 1,5 1,5 0
0classe
31* 1,5 (3 3) 1,5 1,5 0
3classe
Classe -1
Classe +1
Redes Neurais Redes Neurais:
Simula a propagação dos sinais através dos neurônios
Conjunto de unidades de entradas e saídas, nas quais cada ligação tem um peso associado a ela
Backpropagation: Algoritmo de aprendizado de redes neurais
Técn
icas
de
Cla
ssifi
caçã
o
Desvantagens Exigem grande período de treinamento,
portanto aplicáveis apenas em problemas com essa viabilidade
Vários parâmetros definidos de maneira empírica, tal como a estrutura
Difícil para os seres humanos interpretarem o significado simbólico por trás dos pesos aprendidos e das unidades escondidas
Red
es N
eura
is
Vantagens Grande tolerância a dados ruidosos Grande capacidade de classificação para
novos dados (padrões desconhecidos) Podem ser usadas quando o usuário tiver
pouco conhecimento sobre as relações entre atributos e classes
Bem adaptadas a valores contínuos Têm sido bem sucedidas na resolução de
vários problemas do mundo real, tais como: reconhecimento de caracteres manuscritos, medicina laboratorial, etc.
Red
es N
eura
is
Backpropagation Algoritmo que realiza o aprendizado de
uma rede neural feed-forward com múltiplas camadas
Aprende iterativamente um conjunto de pesos para a previsão do rótulo da classe
Red
es N
eura
is
Rede Neural Feed-Forward Estrutura:
Uma camada de Entrada
Uma ou mais camadas ocultas
Uma camada de SaídaR
edes
Neu
rais
Feed-Forward Estrutura:
Cada camada é composta por unidadesAs entradas correspondem aos atributos
calculados de cada elemento do conjunto de treinamento
Cada atributo é associado a uma unidade formando a camada de entrada
Red
es N
eura
is
Feed-Forward Estrutura:
Cada atributo recebe um peso após passar por uma camadaA saída da camada de entrada é a entrada
para primeira camada ocultaA saída de uma camada escondida pode ser
outra camada escondida ou a camada de saída
O número de camadas ocultas é arbitrário, mas geralmente se utiliza apenas uma.
Red
es N
eura
is
Feed-Forward Estrutura:
Red
es N
eura
is
Entr
ada
Ocu
lta 1
Ocu
lta N
Saíd
a
Número arbitrário
Representação do Conhecimento
Conhecimento representado pelas unidades de processamento que simulam a estrutura e o comportamento dos neurônios
Red
es N
eura
is
Representação do ConhecimentoR
edes
Neu
rais
Uni
dade
vj(l-1) X1
(l-1)
X2(l-1)
Xn(l-1) U
nida
de v
i(l)
Camada (l-1) Camada (l)
Potencial net do neurônio vi(l):
( 1)
( ) ( ) ( 1) ( 1)( ) ( ) ( )
1
lnl l l l
i t ij j t i tj
net w x
Representação do Conhecimento
O potencial net do neurônio é aplicado à função de ativação
A função de ativação g restringe o potencial de ativação do neurônio a um intervalo pré-definido
Red
es N
eura
is
( ) ( )( 1) ( )
l li t i tx g net Saída da camada (l):
Função de AtivaçãoR
edes
Neu
rais
Funções de ativação
Degrau:
Semi-Linear:
Sigmoidal:
,( )
,se
g xse
,( ) ,
,
se xg x x se x
se x
1( )1
xT
g xe
Características
Conhecimento do comportamento de cada neurônio individualmente
Composição de várias unidades gera reações imprevisíveis
A união das ativações de todas as unidades que especifica o que a rede neural está representando em um dado instante
Essa incerteza do modelo que determina o interesse e a complexidade das redes neurais
Red
es N
eura
is
Estratégias de Aprendizagem
Sem Treinamento Os valores dos pesos sinápticos são estabelecidos
explicitamente Treinamento Supervisionado
A rede é treinada pela apresentação dos vetores de entrada e seus respectivos vetores de saída (pares de treinamento)
Treinamento Não Supervisionado Apresentação apenas dos vetores de entrada, a partir
dos quais são extraídas as características desse conjunto de padrões, agrupando-os em classes
Red
es N
eura
is
Algoritmo Backpropagation
Primeiro passo:Padrões de entrada e saída são apresentados
à rede neural e uma saída aleatória é gerada Segundo passo:
Cálculo do erro, representando a diferença entre o valor obtido e o valor desejado
Terceiro passo:Retropropagação do erro e reajuste dos pesos
sinápticos
Red
es N
eura
is
Algoritmo BackpropagationR
edes
Neu
rais
Entr
ada
Ocu
lta 1
Ocu
lta N
Saíd
a
ERRO(Obtido - Desejado)
Propagação do Erro
Propagação do Sinal de Entrada
Algoritmo Backpropagation
Duas fases distintas:Sinais de entradas se propagam entre as
camadas da rede (camada de entrada até camada de saída)
Erros são propagados na direção contrária ao fluxo de entrada (camada de saída até camada de entrada)
Red
es N
eura
is
Predição
Definir um valor provável de uma variável Aplicada quando se tem dados temporais
(organizados cronologicamente)Previsão de cotação de uma ação na bolsa de
valores Duas técnicas principais:
Regressão linearRegressão Não Linear
Regressão Linear
Entende-se que os dados possuem comportamento linear
Podem ser aproximados por uma reta
Pred
ição
Regressão Linear
Fórmula da regressão linear
Pred
ição
y x
X variável independente (conjunto de dados)Y variável dependente (valor desejável) define a inclinação da reta define o ponto de interceptação da reta com o eixo vertical
Regressão Linear
Cálculo de e :
Pred
ição
Média dos valores de Média dos valores de
| |
1| |
2
1
( )( )
( )
D
i ii
D
ii
x x y y
x x
y x
xy 1 2 | |, , ..., Dx x x
1 2 | |, , ..., Dy y y
ExemploR
egre
ssão
Lin
ear
Semana Clientes Vendas
1 907 11,20
2 926 11,05
3 506 6,84
4 741 9,21
5 789 9,42
6 889 10,08
7 874 9,45
8 510 6,73
9 529 7,24
10 420 6,12
11 679 7,63
12 872 9,43
13 924 9,46
14 607 7,64
15 452 6,92
16 729 8,95
17 794 9,33
18 844 10,23
19 1010 11,77
20 621 7,41
Exemplo
Médias:Clientes: 731,15Vendas: 8,8055
Cálculos: = 2,423 = 0,00873
Reta:y = 0,00873x + 2,423
Reg
ress
ão L
inea
r
0
2
4
6
8
10
12
14
350 550 750 950 1150
Regressão NÃO Linear
Regressão linear bastante simples, mas no mundo real a maioria dos problemas são não lineares
Dados modelados por uma função que é uma combinação não-linear de parâmetros do modelo
Dados ajustados por métodos de aproximações sucessivas
Pred
ição
Regressão NÃO Linear
Métodos:Mínimos
QuadradosEquações NormaisGauss-Newton
Pred
ição
ExercícioR
egre
ssão
Lin
ear
Variável 1 (x)
Variável 2 (y)
60 50
50 30
45 18
40 20
35 10
30 15
20 6
15 3
10 0
Médias: Variável 1: 33,88 Variável 2: 16,88
| |
1| |
2
1
( )( )
( )
D
i ii
D
ii
x x y y
x x
y x
ExercícioR
egre
ssão
Lin
ear
Variável 1 (x)
Variável 2 (y)
60 50
50 30
45 18
40 20
35 10
30 15
20 6
15 3
10 0
Médias: Variável 1: 33,88 Variável 2: 16,88
1923,363 0,859072238,8896
16,88 (0,85907*33,88) 12,224
0,85907 12,224reta x
ExercícioR
egre
ssão
Lin
ear
Variável 1 Variável 260 50
50 30
45 18
40 20
35 10
30 15
20 6
15 3
10 0-20
-10
0
10
20
30
40
50
60
0 20 40 60 80