Otimização Multiobjetivo - Otimização Não...
Transcript of Otimização Multiobjetivo - Otimização Não...
Otimização MultiobjetivoOtimização Não Linear
Professores:
Eduardo G. CarranoFrederico G. Guimarães
Lucas S. Batista
{egcarrano,fredericoguimaraes,lusoba}@ufmg.brwww.ppgee.ufmg.br/∼lusoba
Universidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia Elétrica, Brasil
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
2 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Problemas de otimização
Formulação geral de problemas de otimização:
minx
f (x) ∈ R, x ∈ F
F =
gi (x) ≤ 0; i = 1, . . . ,p (restrições de desigualdade)hj (x) = 0; j = 1, . . . ,q (restrições de igualdade)x ∈ X
3 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Problemas de otimização
Formulação geral de problemas de otimização:
minx
f (x) ∈ R, x ∈ F
F =
g(x) ≤ 0 (restrições de desigualdade)h(x) = 0 (restrições de igualdade)x ∈ X
4 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Definições de referência
Função-objetivo
A função-objetivo (ou função-custo ou critério de otimização) é a fun-ção f (·) : X 7→ Y, X ⊂ Rn, Y ⊂ R, que deve ser otimizada (minimi-zada) pelo algoritmo de otimização.
Ótimo global ou Mínimo global
O ponto x∗ ∈ X é ótimo global da função f (·) : X 7→ Y se, paraqualquer x 6= x∗, temos f (x∗) < f (x).
5 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Definições de referência
Mínimo local não estrito (weak local minimum)
O ponto x∗ ∈ X é um mínimo local não estrito da função f (·) : X 7→ Yse, para qualquer x ∈ Vε(x∗) e x 6= x∗, temos f (x∗) ≤ f (x).
Mínimo local estrito (strong local minimum)
O ponto x∗ ∈ X é um mínimo local estrito da função f (·) : X 7→ Y se,para qualquer x ∈ Vε(x∗) e x 6= x∗, temos f (x∗) < f (x).
6 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Definições de referência
Conjuntos abertos
Um conjunto X ⊂ Rn é dito aberto se
x0 ∈ X ⇒ ∃ ε | x ∈ X ∀ ‖x− x0‖ < ε
Conjuntos fechados
Um conjunto X ⊂ Rn é dito fechado se seu complemento em relaçãoao espaço for aberto.
7 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Definições de referência
Conjuntos compactos
Seja o conjunto Q ⊂ Rn. Esse conjunto é dito compacto se para todox1, x2 ∈ Q tem-se ‖x1 − x2‖ = δ < ∞ (i.e., x1 e x2 estão a umadistância finita).
Vizinhança
Seja um ponto x ∈ Rn. Uma vizinhança de x é qualquer conjuntoaberto que contenha x.
8 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Fundamentos
Definições de referência
Conjuntos convexos
Seja o conjunto Q ⊂ Rn. Esse conjunto é dito convexo se, para todox1, x2 ∈ Q e 0 ≤ λ ≤ 1, verifica-se que para z = λx1 + (1 − λ)x2tem-se z ∈ Q.
Exemplo1 A = {(x1, x2) : x2
1 + x22 ≤ 4} ⊂ R2
2 A = {x : Ax ≤ b}
9 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
10 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Função e funcional
Função
Uma função é uma relação que associa de maneira única membrosde um conjunto A com membros de um conjunto B, i.e.,
f : A 7→ B (f : Rn 7→ Rm)
FuncionalUm funcional é uma função que retorna um único valor (escalar), i.e.,
f : Rn 7→ R1
11 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Funções convexas
Definição
Uma função f (·) : X 7→ Y é dita uma função convexa sobre X ⊂ Rn
se, ∀ x1,x2 ∈ X e 0 ≤ λ ≤ 1, tem-se que
f [λx1 + (1− λ)x2] ≤ λf (x1) + (1− λ)f (x2)
Uma função é estritamente convexa se, considerando 0 < λ < 1,a desigualdade acima for estrita.
12 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Funções quase-convexas
Definição
Uma função f (·) : X 7→ Y é dita uma função quase-convexa sobreX ⊂ Rn se, ∀ x1,x2 ∈ X e 0 ≤ λ ≤ 1, tem-se que
f [λx1 + (1− λ)x2] ≤ max{f (x1), f (x2)}
13 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Superfície de nível e região sub-nível
Superfície de nível
A superfície de nível (ou curva de nível) de uma função f (·) : X 7→ Y,X ⊂ Rn, é definida como:
S(f , α) = {x ∈ X : f (x) = α}
Região de subnível
Associada à função f (·), existe o conjunto R(f , α) denominado regiãode subnível:
R(f , α) = {x ∈ X : f (x) ≤ α}
Se f (·) é convexa, R(f , α) é um conjunto convexo.
14 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Modalidade de funções
Função unimodal
Uma função f (·) : X 7→ Y, X ⊂ Rn, é dita unimodal se R(f , α) é umconjunto conexo para todo α ∈ R.
A função f (·) é ainda estritamente unimodal se R(f , α) é um conjuntocompacto para todo α ∈ R.
Função multimodal
Uma função f (·) : X 7→ Y, X ⊂ Rn, é dita multimodal se R(f , α) é umconjunto desconexo para algum α ∈ R.
Quantos mínimos uma função unimodal pode apresentar?
15 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Bacias de atração
Ao redor de mínimos locais existem regiões nas quais a função secomporta como unimodal. Tais regiões são denominadas baciasde atração.
Bacia de atração
Seja f (·) : X 7→ Y, X ⊂ Rn, e x∗ ∈ X um mínimo local de f (·). A baciade atração de x∗, representada por B(x∗), é definida como a maiorregião conexa R(f , α) que contém x∗. Restrita a essa região, f (·) éunimodal.
Um método de busca local converge para x∗ se o ponto inicialx0 ∈ B(x∗).
16 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Funções contínuas
Definição
Uma função contínua é aquela para a qual uma pequena variação naentrada gera uma pequena variação no resultado da função.
Uma função f (·) : X 7→ Y, X ⊂ Rn, é contínua se ∀ x0 ∈ X :
1 f (x0) é definido;
2 limx→x0
f (x) = f (x0).
17 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Diferenciabilidade
Uma função f (·) : X 7→ Y, X ⊂ Rn, é diferenciável em x ∈ X seexiste o vetor Gradiente dado por:
∇f (x) =(
∂f∂x1
∂f∂x2
· · · ∂f∂xn
)
Uma função f (·) : X 7→ Y, X ⊂ Rn, é diferenciável de 2a ordemem x ∈ X se existe a matriz Hessiana dada por:
H(x) =
∂2f/∂x21 · · · ∂2f/∂x1∂xn
.... . .
...∂2f/∂xn∂x1 · · · ∂2f/∂x2
n
18 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Diferenciabilidade
Exemplo
Seja a função f (x) = 100(x2 − x21 )2 + (1 − x1)2. Calcule seu vetor
gradiente e a matriz Hessiana.
Solução
∂f∂x1
= −400x1(x2 − x21 )− 2(1− x1)
∂f∂x2
= 200(x2 − x21 )
19 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Diferenciabilidade
Exemplo
Seja a função f (x) = 100(x2 − x21 )2 + (1 − x1)2. Calcule seu vetor
gradiente e a matriz Hessiana.
Solução
∂f∂x1
= −400x1(x2 − x21 )− 2(1− x1)
∂f∂x2
= 200(x2 − x21 )
19 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Diferenciabilidade
Exemplo
Seja a função f (x) = 100(x2 − x21 )2 + (1 − x1)2. Calcule seu vetor
gradiente e a matriz Hessiana.
Solução
∂2f∂x2
1= −400x2 + 1200x2
1 + 2
∂2f∂x2
2= 200
∂2f∂x1∂x2
= −400x1
20 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Séries de Taylor
Definição
Uma função continuamente diferenciável pode ser aproximada local-mente por sua expansão em séries de Taylor:
f (x) = f (x0)+∇f (x0)′(x−x0)+12
(x−x0)′H(x0)(x−x0)+O(‖x− x0‖3
)
A função f (·) representa a aproximação de f (·) em torno de x0.
21 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Subgradiente
Definição
Seja uma função convexa f (·) : X 7→ Y, X ⊂ Rn. Um funcional linearf sb é um subgradiente de f (·) no ponto x0 se:
f (x) ≥ f (x0) + f sb(x− x0) , ∀ x
Por exemplo, o subgradiente de f (x) = |x | é qualquer número real nointervalo [−1,1].
22 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Direções factíveis e direções minimizantes
Direções factíveis
Diz-se que d é uma direção factível a partir de um ponto x0 ∈ X ,X ⊂ Rn, se existe um α > 0 tal que (x0 + αd) ∈ X ∀ α ∈ [0, α].
Direções minimizantes
Seja f (·) : X 7→ Y, X ⊂ Rn, uma função diferenciável e ∇f (x) ogradiente de f (·) no ponto x ∈ X . Seja ainda d ∈ Rn. Então, se
d · ∇f (x) < 0
existe ε > 0 tal que:f (x + εd) < f (x)
Diz-se que d é uma direção minimizante de f (·) no ponto x.
23 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Características gerais de funções convexas
Funções convexas
Seja f (·) uma função duas vezes diferenciável sobre um conjunto con-vexo X ⊂ Rn. Então são equivalentes as seguintes afirmativas:
1 f [λx + (1− λ)y] ≤ λf (x) + (1− λ)f (y) ∀ x, y ∈ X e λ ∈ [0,1]
2 f (y) ≥ f (x) +∇f (x)′(y− x) ∀ x, y ∈ X
3 H(x) ≥ 0 ∀ x ∈ X
Relação de implicabilidade
f (·) convexa⇔ (1) ou (2) ou (3)
24 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Exemplos
25 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Exemplos
26 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Exemplos
27 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Caracterização de funções
Exemplos
28 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
29 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas irrestritos
Theorem (Condição necessária de 1a ordem)
Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Ovetor gradiente em x∗ é nulo.
Demonstração.
Usando uma aproximação de 1a ordem, temos:
f (x) = f (x∗) + g∗′(x− x∗) + O(‖x− x∗‖2
)Se x∗ é mínimo local, então f (x∗) ≤ f (x), ∀ x ∈ Vε(x∗). Assim:
f (x) ≥ f (x∗)
f (x∗) + g∗′(x− x∗) + O(‖x− x∗‖2
)≥ f (x∗)
30 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas irrestritos
Theorem (Condição necessária de 1a ordem)
Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Ovetor gradiente em x∗ é nulo.
Demonstração.
g∗′(−αg∗) + O(‖x− x∗‖2
)≥ 0
−α ‖g∗‖2 + O(‖x− x∗‖2
)≥ 0
Considerando que limx→x∗
O(‖x−x∗‖2)α = 0, tem-se ‖g∗‖2 ≤ 0, implicando
∇f (x∗) = 0
31 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas irrestritos
Theorem (Condição necessária de 2a ordem)
Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Amatriz Hessiana em x∗ é semidefinida positiva.
Demonstração.
Usando uma aproximação de 2a ordem, temos:
f (x) = f (x∗) + g∗′(x− x∗) + 0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3
)Se x∗ é mínimo local, então f (x∗) ≤ f (x), ∀ x ∈ Vε(x∗), e g∗ = 0:
f (x) ≥ f (x∗)
f (x∗) + 0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3
)≥ f (x∗)
0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3
)≥ 0
32 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas irrestritos
Theorem (Condição necessária de 2a ordem)
Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Amatriz Hessiana em x∗ é semidefinida positiva.
Demonstração.
12
1
‖x− x∗‖2 (x− x∗)′H∗(x− x∗) +O(‖x− x∗‖3
)‖x− x∗‖2 ≥ 0
Considerando que limx→x∗
O(‖x−x∗‖3)‖x−x∗‖2 = 0, tem-se:
u′H∗u ≥ 0
implicando que H∗ é semidefinida positiva.
33 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas irrestritos
Interpretando as condições necessárias
As condições necessárias devem ser verdadeiras para todo ótimo lo-cal. Entretanto, um ponto que satisfaça estas condições não precisaser um ótimo.
Theorem (Condições suficientes)
Suponha f : Rn 7→ R duas vezes diferenciável no ponto x∗. Se∇f (x∗) = 0 e H(x∗) é definida positiva (i.e., H(x∗) > 0), x∗ é ummínimo local estrito.
34 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
E no caso de problemas restritos?
Como determinar as condições de otimalidade?
Exemplo
Seja o problema restrito a seguir:
min f (x) = x21 + x2
2 , sujeito a h(x) = (x1 − 4)2 + x22 − 4 = 0.
35 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
36 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
O mínimo global de f (x) sobre a curva h(x) = 0 é x∗ = (2, 0).
Neste ponto, os vetores ∇f e ∇h são colineares e vale a relação:
∇f (x∗) = −λ∗∇h(x∗)
Desenvolvendo, tem-se:
∇f (x∗) + λ∗∇h(x∗) = 0∇ [f (x) + λ∗h(x)]x=x∗ = 0
∇xL(x∗, λ∗) = 0
com L(x, λ) = f (x) + λh(x).
37 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
Este exemplo ilustra que a solução do problema restrito
min f (x) sujeito a h(x) = 0
é um ponto crítico da função
L(x, λ) = f (x) + λh(x)
Ponto crítico implica que: [∇xL∇λL
]= 0
38 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
Com relação a uma restrição de desigualdade, podemos conver-ter g(x) ≤ 0 em g(x) + z2 = 0, sendo z uma variável de folga:
min f (x) sujeito a {g(x) ≤ 0 ou g(x) + z2 = 0}
A função Lagrangeana é dada por
L(x, z, µ) = f (x) + µ[g(x) + z2]
O ponto crítico fornece: ∇xL∇zL∇µL
= 0 ⇒
∇f (x∗) + µ∗∇g(x∗) = 02µ∗z∗ = 0g(x∗) + z∗2 = 0
39 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
A condição 2µz = 0 implica que ou µ = 0 ou z = 0:
1 Se z = 0, temos g(x∗) + z2 = g(x∗) = 0. A solução está nafronteira da região factível e dizemos que a restrição g está ativa.
2 Se µ = 0, então z pode ser diferente de zero. Logo, g(x∗) < 0 edizemos que a restrição g está inativa no ponto solução (restriçãosatisfeita com folga).
3 Se ∇f (x∗) = 0 e g(x∗) = 0, então µ = 0 e z = 0. Neste caso, g édita fracamente ativa.
40 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade para problemas restritos
Podemos substituir a condição 2µ∗z∗ = 0 por uma condição equi-valente µ∗g(x∗) = 0, eliminando a necessidade de usar a variávelde folga z.
1 Se g(x∗) = 0: restrição ativa e µ ≥ 0.
2 Se g(x∗) < 0: restrição inativa e necessariamente µ = 0.
41 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade de Karush-Kuhn-Tucker
Seja o problema de otimização
x∗ = arg minx
f (x) ∈ R, x ∈ F
F =
gi (x) ≤ 0; i = 1, . . . ,phj (x) = 0; j = 1, . . . ,qx ∈ X
x∗ é solução ótima do problema de otimização se existemmultiplicadores de Lagrange µ∗i ≥ 0 e λ∗j tais que:
∇f (x∗) +∑p
i=1 µ∗i ∇gi (x∗) +
∑qj=1 λ
∗j ∇hj (x∗) = 0
µ∗i gi (x∗) = 0, i = 1, . . . ,pgi (x∗) ≤ 0, i = 1, . . . ,phj (x∗) = 0, j = 1, . . . ,q
42 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade de Karush-Kuhn-Tucker
Theorem (Condições de otimalidade)
O ponto x∗ ∈ X é mínimo global do problema primal se existe µµµ∗ ≥ 0tal que (x∗,µµµ∗) satisfaça às seguintes condições:
1 L(x∗,µµµ∗) = f (x∗) +µµµ∗′g(x∗) = minx[f (x) +µµµ∗′g(x)
]2 µ∗i gi (x∗) = 03 gi (x∗) ≤ 0
Demonstração.
Para uma outra solução viável z ∈ X , z 6= x∗, temos:
f (x∗) = f (x∗) +µµµ∗′g(x∗) ≤ f (z) +µµµ∗′g(z) ≤ f (z)
em que a igualdade segue de (2), a primeira desigualdade segue de(1) e a segunda desigualdade é válida porque µ∗i gi (z) ≤ 0. Dessaforma, f (x∗) ≤ f (z), mostrando que x∗ é a solução do problema.
43 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Condições de otimalidade de Karush-Kuhn-Tucker
Convém destacar que se as funções são diferenciáveis, podemossubstituir a condição (1) por:
∇f (x∗) +
p∑i=1
µ∗i ∇gi (x∗) = 0
levando às condições de Karush-Kuhn-Tucker;
Se, além disso, o problema for convexo, i.e., se f (·) for convexa eas restrições definirem uma região viável convexa, então o pontode mínimo local é também mínimo global.
44 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Condições de otimalidade
Em resumo
Problemas irrestritos: {∇f (x∗) = 0H(x∗) > 0
Problemas restritos:
∇f (x∗) +∑p
i=1 µ∗i ∇gi (x∗) +
∑qj=1 λ
∗j ∇hj (x∗) = 0
µ∗i gi (x∗) = 0, i = 1, . . . ,pµ∗i ≥ 0, i = 1, . . . ,pgi (x∗) ≤ 0, i = 1, . . . ,phj (x∗) = 0, j = 1, . . . ,q
45 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
46 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Problema de otimização unidimensional
Definição
α∗ = arg minαθ(α) ∈ R, α ∈ [0,+∞]
θ(α) = f (xk + αd) , xk e d ∈ Rn
Exemplo
Determinar x1 que minimiza f (x) = 2x21 + x2
2 partindo de x0 = [1 1] nadireção d = −∇f (x0).
47 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Métodos de eliminação
Busca irrestrita;
Busca dicotômica;
Busca da bisseção;
Método de Fibonacci;
Método da Seção Áurea.
Exigem funções unimodais, porém não exigem diferenciabilidade.
48 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Busca irrestrita
Não exige que o espaço de busca seja conhecido.
Versão elementar:Move-se numa direção minimizante d usando passo fixo s;
Determina-se uma sequência de pontos uk+1 = uk + s;
O passo usado deve ser pequeno em relação à precisão desejada;
Assume-se unimodalidade da função ao longo de d;
Limitação: pode exigir elevado número de avaliações de θ(·) se u0
estiver distante de u∗ e s for pequeno.
Versão melhorada:
Usar sk+1 = λsk , λ > 1, até “cercar” o intervalo que contém u∗;
Feito isto, reduzir o intervalo até uma precisão desejada.
49 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Busca dicotômica
Assume que o intervalo (a,b) que cerca u∗ seja conhecido.
Escolhe dois pontos próximos ao centro do intervalo
u =L0
2− δ
2, v =
L0
2+δ
2, δ > 0
onde L0 é o tamanho do intervalo inicial.
Baseado na avaliação de θ(·) nestes dois pontos, exclui-se quasemetade do intervalo.
O processo se repete até atingir a precisão desejada.
50 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Busca da bisseção
Exclui metade do intervalo de busca a cada iteração.
Especifica três pontos, u, c e v , igualmente espaçados no inter-valo inicial (a,b);
Assumindo unimodalidade, tem-se:
Se θu < θc < θv , deleta (c, b), e faz-se b = c e c = u;
Se θu > θc > θv , deleta (a, c), e faz-se a = c e c = v ;
Se θu > θc e θv > θc , deleta (a, u) e (v , b), e faz-se a = u e b = v .
Especifica novos pontos u e v , e continua o processo até L ≤ ε.
51 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Método de Fibonacci
Assume unimodalidade de θ(·) e o conhecimento do intervalo[a,b] que contém o ótimo.
Define dois pontos u, v ∈ [a,b]:
Se θ(u) < θ(v), mínimo está em [a, v ];
Se θ(u) > θ(v), mínimo está em [u, b].
Apenas um novo ponto precisará ser especificado nas iteraçõessubsequentes.
O número de avaliações de θ (ou a precisão desejada) deve serespecificado.
52 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Método de Fibonacci
Os pontos u e v são definidos usando a série de Fibonacci:
F0 = F1 = 1 , Fi = Fi−1 + Fi−2 , i = 2,3, . . . ,n
Dado o intervalo inicial [a0,b0], tem-se:
u0 = b0 − (Fn−1/Fn)(b0 − a0)
v0 = a0 + (Fn−1/Fn)(b0 − a0)
Para uma iteração i qualquer (i = 0, . . . ,n − 2), tem-se:
ui = bi − (Fn−i−1/Fn−i )(bi − ai )
vi = ai + (Fn−i−1/Fn−i )(bi − ai )
O comprimento do intervalo após k iterações é:
Lk = (Fn−k/Fn)(b0 − a0)
53 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em reduções sucessivas de intervalos
Método da seção áurea
Similar ao método de Fibonacci, porém não exige que o númerode iterações seja especificado.
O processo termina ao atingir a precisão desejada.
Para uma iteração i qualquer (i = 0,1, . . .), tem-se:
ui = bi − F (bi − ai ) , vi = ai + F (bi − ai )
onde F = (√
5− 1)/2 = 0.618.
O comprimento do intervalo após k iterações é:
Lk = (0.618)k (b0 − a0)
O tamanho do intervalo é multiplicado por 0.618 a cada iteração.
Os métodos de Fibonacci e seção áurea são os mais eficientes,porém o segundo é mais prático.
54 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
55 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Métodos de interpolação
Método de interpolação quadrática;
Métodos de cálculo de raízes:
Método de Newton;
Método da Secante.
Exigem funções “bem comportadas” (convexas ou continuamentediferenciáveis de 1a ou 2a ordem).
56 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Método de interpolação quadrática
A função θ(α) é aproximada por uma quadrática q(α) e seu mí-nimo α∗ é determinado.
Sendo q(α) = a + bα + cα2, a condição de 1a ordem fornece
dqdα
= b + 2cα = 0 , ou seja , α∗ = − b2c
Pela condição de 2a ordem q′′(α∗) > 0, i.e., c > 0.
Basta avaliar q(·) em três pontos distintos A < B < C, que satis-façam c > 0, e calcular α∗. Para c > 0, θB < max{θA, θC}.Enquanto α∗ não for suficientemente próximo de α∗, estima-seuma nova quadrática:q(α∗)− θ(α∗)
θ(α∗)
≤ ε57 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Método de Newton
Considera uma aproximação quadrática usando séries de Taylor:
θ(α) = θ(αk ) + θ′(αk )(α− αk ) +12θ′′(αk )(α− αk )2
Baseando-se na condição de 1a ordem:
θ′(α) = θ′(αk ) + θ′′(αk )(α− αk ) = 0
αk+1 = αk −θ′(αk )
θ′′(αk )
A convergência do método pode ser verificada usando:
|θ′(αk+1)| ≤ ε
58 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Método de Newton
As derivadas são aproximadas usando diferenças finitas:
θ′(αk ) =θ(αk + ∆α)− θ(αk −∆α)
2∆α
θ′′(αk ) =θ(αk + ∆α)− 2θ(αk ) + θ(αk −∆α)
∆α2
em que ∆α representa uma pequena variação.
59 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Método da Secante
Utiliza uma aproximação similar ao método de Newton:
θ′(α) = θ′(αk ) + s(α− αk ) = 0
em que s representa a inclinação entre os pontos (A, θ′(A)) e(B, θ′(B)):
s =θ′(B)− θ′(A)
B − Aem que A e B são estimativas de α∗.O processo iterativo utiliza
αk+1 = αk −θ′(αk )
s
A convergência do método pode ser verificada usando:
|θ′(αk+1)| ≤ ε
60 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Considerações práticas
Métodos de interpolação:
São mais baratos, porém dependem da estimação de derivadas;
Podem falhar caso a função não seja “bem comportada”.
Métodos de eliminação:
São mais usuais e práticos;
Porém, precisam determinar o intervalo [a, b] que cerca α∗:
Comumente emprega-se Busca Irrestrita.
61 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Considerações práticas
Algoritmo 1: Busca irrestrita – algoritmo para cercar intervalo (a,b)Input: xk ∈ X , função-objetivo f (·)
1 a← 0; b ← s;2 calcule θ(a) = θ(0) = f (xk );3 calcule θ(b);4 NFC1← 2;5 while θ(b) < θ(a) do6 a← b; θ(a)← θ(b);7 b ← 2b; calcule θ(b);8 NFC1← NFC1 + 1;9 end
10 if NFC1 ≤ 3 then11 a← 0;12 else13 a← a/2;14 end15 return a, b;
62 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos baseados em interpolação
Considerações práticas
Algoritmo 2: Algoritmo da Seção Áurea1 xa ← b − 0.618(b − a) e xb ← a + 0.618(b − a);2 θa ← θ(xa) e θb ← θ(xb);3 while (b − a > ε) do4 if (θa > θb) then5 a← xa;6 xa ← xb e xb ← a + 0.618(b − a);7 θa ← θb e θb ← θ(xb);8 else9 b ← xb;
10 xb ← xa e xa ← b − 0.618(b − a);11 θb ← θa e θa ← θ(xa);
12 α← (a + b)/2;
63 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
64 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos determinísticos
Métodos baseados em derivadas:
Método do Gradiente;
Método de Newton;
Métodos Quase-Newton;
Método de Gradientes Conjugados;
Métodos sem derivadas:
Método Nelder-Mead Simplex;
Método Hooke-Jeeves.
65 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos de direção de busca
Estrutura geral
A estrutura geral de métodos baseados em direção de busca é daforma:
xk+1 ← xk + αk dk (1)
Os métodos variam na forma como o passo αk e a direção dk sãoescolhidos.
66 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método do Gradiente
O Método do Gradiente ou Método da Descida Mais Íngreme(Steepest Descent Method) é o método mais simples entre osmétodos de direção de busca.
dk = −∇f (xk )
67 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método do Gradiente
Algoritmo 3: Método do GradienteInput: x0 ∈ X , função-objetivo f (·)
1 k ← 0;2 while ¬ critério de parada do3 Estime ∇f (xk );4 dk ← −∇f (xk );5 αk ← arg minα f (xk + αdk );6 xk+1 ← xk + αk dk ;7 k ← k + 1;8 end
68 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método do Gradiente
O algoritmo gera uma sequência monotônica {xk , f (xk )} tal que∇f (xk )→ 0 quando k →∞.
O passo αk é um escalar não negativo que minimiza f (xk +αdk ),ou seja, representa um passo dado na direção minimizante dk .
Na prática, αk é obtido com um método de minimização unidire-cional.
69 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método do Gradiente
Avaliação numérica do gradiente
Para avaliar o vetor gradiente numericamente, podemos usar a fór-mula de diferenças finitas:
∂f∂xi
∣∣∣∣x≈ f (x + δiei )− f (x)
δi, i = 1, . . . ,n
Uma fórmula mais precisa é a diferença finita central:
∂f∂xi
∣∣∣∣x≈ f (x + δiei )− f (x− δiei )
2δi, i = 1, . . . ,n
70 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método de Newton
Desenvolvimento
Seja f (·) : X 7→ Y, f (·) ∈ C2. Usando a expansão em séries de Taylorem torno de xk , temos:
f (x) = f (xk ) +∇f (xk )′(x−xk ) +12
(x−xk )′Hk (x−xk ) + O(‖x− xk‖3
)Assumindo a aproximação de 2a ordem, derivando e igualando a zero,obtemos:
∇f (xk ) + H(xk )(xk+1 − xk ) = 0
xk+1 = xk − H−1(xk )∇f (xk )
71 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método de Newton
Se f (·) for quadrática, o método de Newton determina a soluçãoótima em um passo.
A matriz H−1(xk ) pode ser interpretada como uma “correção” apli-cada à direção ∇f (xk ), levando em conta a curvatura da função.
Para casos gerais, com funções não quadráticas, deve-se deter-minar o passo ótimo αk :
xk+1 ← xk + αk dk , dk = −H−1(xk )∇f (xk )
72 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método de Newton
Algoritmo 4: Método de NewtonInput: x0 ∈ X , função-objetivo f (·)
1 k ← 0;2 while ¬ critério de parada do3 Estime ∇f (xk );4 Estime H(xk );5 dk ← −H−1(xk )∇f (xk );6 αk ← arg minα f (xk + αdk );7 xk+1 ← xk + αk dk ;8 k ← k + 1;9 end
73 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método de Newton
O método apresenta convergência quadrática;
A convergência do método de Newton é atendida sob duas pre-missas:
1 que H(xk ) seja não singular, i.e., possua inversa;
2 que H(xk ) seja definida positiva, para garantir que dk = −H−1k gk
seja uma direção minimizante.
74 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método de Newton
DificuldadesNecessita do cálculo da matriz inversa;
Mal-condicionamento numérico da matriz Hessiana dificulta o cál-culo de sua inversa;
Derivadas numéricas: maiores erros numéricos e muitas avalia-ções de função para a aproximação por diferenças finitas.
75 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Motivação
Aproximar iterativamente a inversa da matriz Hessiana, evitandoo cálculo da inversa;
Evitar o cálculo numérico de derivadas segundas;
Manter a convergência quadrática do método de Newton.
76 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Aproximando a inversa da Hessiana
É possível aproximar iterativamente a inversa da Hessiana a partir deuma recursão da forma:
Dk+1 = Dk + αk zk z′k
em que zk z′k é uma matriz simétrica definida positiva e Dk é uma es-timativa de H−1
k . A atualização dessa estimativa é construída em fun-ção dos vetores xk e ∇f (xk ) das iterações anteriores.
77 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Dois métodos particularmente eficientes foram desenvolvidos paraproduzir estimativas recursivas para H−1
k :
Método DFP – Davidon-Fletcher-Powell;
Método BFGS – Broyden-Fletcher-Goldfarb-Shanno.
78 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Correção DFP
Dada por:
CDFPk =
vk v′kv′k rk
−Dk rk r′k Dk
r′k Dk rk
vk = xk − xk−1
rk = gk − gk−1
gk = ∇f (xk )
79 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Correção BFGS
Dada por:
CBFGSk =
(1 +
r′k Dk rk
r′k vk
)vk v′kv′k rk
−vk r′k Dk + Dk rk v′k
r′k vk
vk = xk − xk−1
rk = gk − gk−1
gk = ∇f (xk )
80 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Métodos Quase-Newton
Família Broyden
Posteriormente, Broyden agrupou os métodos DFP e BFGS numa es-trutura mais geral, a família Broyden.
Ck = (1− λ)CDFPk + λCBFGS
k
A fórmula de atualização da estimativa da inversa da Hessiana é:
Dk+1 = Dk + Ck
81 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método Quase-Newton
Algoritmo 5: Família BroydenInput: x0 ∈ X , função-objetivo f (·)
1 k ← 0, Dk ← I;2 while ¬ critério de parada do3 Estime gk = ∇f (xk );4 dk ← −Dk gk ;5 αk ← arg minα f (xk + αdk );6 xk+1 ← xk + αk dk ;7 gk+1 ← ∇f (xk+1);8 Calcule CDFP
k e CBFGSk ;
9 Ck ← (1− λ)CDFPk + λCBFGS
k ;10 Dk+1 = Dk + Ck ;11 k ← k + 1;12 end
82 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
HistóricoApresentado pela primeira vez em 1908 por Schmidt, reinventadode forma independente em 1948 e aprimorado nos anos 1950;
Desenvolvido inicialmente para a solução de sistemas lineares,ainda usado em sistemas com matrizes esparsas;
Em 1964, Fletcher e Reeves generalizaram o método para resol-ver problemas de otimização não linear irrestrita.
83 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Solução de sistemas lineares
O método dos gradientes conjugados foi desenvolvido para resolveriterativamente grandes sistemas lineares da forma
Ax = b
com A simétrica e definida positiva.
84 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Solução de sistemas lineares
Considere a forma quadrática:
f (x) =12
x′Ax− b′x + c
O mínimo global dessa função pode ser obtido a partir da condiçãode otimalidade de 1a ordem:
∇f (x) = Ax− b = 0
O mínimo de f é também a solução do sistema linear Ax = b.
85 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Solução de sistemas lineares
O método atualiza a solução dando um passo αk na direção opostaao gradiente. A direção oposta ao gradiente é dada por:
−∇f (x) = b− Ax = r (resíduo)
Assim:dado xk ⇒ rk = b− Axk
xk+1 = xk + αk rk
86 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Solução de sistemas lineares
O tamanho do passo pode ser determinado analiticamente:
ddα
f (xk+1) = ∇f (xk+1)′d
dαxk+1 = ∇f (xk+1)′
ddα
(xk +αk rk ) = −r′k+1rk
o que implica resíduos ortogonais:
r′k+1rk = 0(b− Axk+1)′rk = 0
(b− Axk − αk Ark )′rk = 0
que resulta em:
αk =r′k rk
r′k Ark
87 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Algoritmo 6: Método dos Gradientes ConjugadosInput: x0, matriz de coeficientes A
1 k ← 0;2 rk ← b− Axk ; dk ← rk ;3 while ¬ critério de parada do4 αk ← r′k rk
d′k Adk;
5 xk+1 ← xk + αk dk ;6 rk+1 ← rk − αk Adk ;
7 βk ←r′k+1rk+1
r′k rk;
8 dk+1 ← rk+1 + βk dk ;9 k ← k + 1;
10 end
88 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Gradientes conjugados para otimização não linear
A versão do método para otimização não linear apresenta três dife-renças básicas:
O resíduo não pode ser calculado recursivamente;
O tamanho do passo não pode ser determinado analiticamente -deve-se usar busca unidimensional;
Há diferentes escolhas para β.
89 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Algoritmo 7: Método dos Gradientes ConjugadosInput: x0 ∈ X , função-objetivo f (·)
1 k ← 0;2 r0 ← −∇f (x0); d0 ← r0;3 while ¬ critério de parada do4 αk ← arg minα f (xk + αdk ) ;5 xk+1 ← xk + αk dk ;6 rk+1 ← −∇f (xk+1) ;7 Calcular βk ;8 dk+1 ← rk+1 + βk dk ;9 k ← k + 1;
10 end
90 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Gradientes conjugados para otimização não linear
Duas fórmulas bem conhecidas para βk são:
Fletcher-Reeves: βFRk =
r′k+1rk+1
r′k rk
Polak-Ribière: βPRk =
r′k+1(rk+1 − rk )
r′k rk
91 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos de direção de busca
Método dos Gradientes Conjugados
Como o método se baseia na geração de n direções conjugadasno espaço n-dimensional, deve-se reiniciar o método a cada niterações em problemas não quadráticos;
Convergência em n iterações em funções quadráticas. Em fun-ções não quadráticas, as direções deixam de ser conjugadasapós algumas iterações, sendo preciso reinício periódico;
Em geral, métodos quase-Newton convergem em menos itera-ções, porém requerem mais computação e mais memória poriteração. Portanto, gradientes conjugados é mais indicado emproblemas de elevada dimensão.
92 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Sumário
1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade
2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação
3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas
93 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Métodos determinísticos
Métodos baseados em derivadas:
Método do Gradiente;
Método de Newton;
Métodos Quase-Newton;
Método de Gradientes Conjugados;
Métodos sem derivadas:
Método Nelder-Mead Simplex;
Método Hooke-Jeeves.
94 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Motivação
Métodos baseados em derivadas convergem mais rapidamente,mas só podem ser usados em problemas caracterizados por fun-ções continuamente diferenciáveis;
Em problemas com muitas variáveis, os erros numéricos introdu-zidos por aproximações no cálculo do gradiente podem se tornarsignificativos.
95 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
O método Nelder-Mead Simplex foi desenvolvido para otimizaçãonão linear (não confundir com o método Simplex para programa-ção linear);
O método trabalha com n + 1 pontos a cada iteração, e elimina o“pior” ponto;
Um novo ponto é criado com base no ponto eliminado.
96 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Fecho convexoO fecho convexo (ou invólucro convexo) de um conjunto A, denotadopor A, é definido como a interseção de todos os conjuntos convexosque contêm A.
Politopo
O fecho convexo de um conjunto finito de pontos x1,x2, . . . ,xk ∈ Rn échamado politopo.
97 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Simplex
Se x2−x1, x3−x1, . . . , xk−x1 são vetores linearmente independentes,então o fecho convexo desse conjunto de pontos é chamado simplex.
O número máximo de vetores linearmente independentes em Rn
é n, portanto um simplex em Rn possui n + 1 vértices.
O simplex é assim chamado por ser o politopo mais simples desua dimensão.
98 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Usaremos a seguinte notação:
b ∈ {1, . . . ,n + 1} representa o índice do vértice com o melhorvalor de função-objetivo;
w ∈ {1, . . . ,n + 1} representa o índice do vértice com o pior valorde função-objetivo;
s ∈ {1, . . . ,n + 1} representa o índice do vértice com o segundopior valor de função-objetivo.
O centróide da face oposta a xw é dado por:
x =1n
n+1∑i=1i 6=w
xi
99 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Reflexão: Visa rejeitar a pior solução e avançar o simplex na dire-ção de melhora. Essa operação reflete o pior vértice dosimplex sobre a face oposta:
xr = x + α (x− xw ) , α = 1
Expansão: Expande o simplex na direção de melhora:
xe = x + γ (x− xw ) , γ = 2
Contração externa: Contrai o simplex na direção de melhora:
xc+ = x + β (x− xw ) , β = 0.5
Contração interna: Contrai o simplex internamente:
xc− = x− β (x− xw ) , β = 0.5
100 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Algoritmo 8: Método Nelder-Mead SimplexInput: {x1, . . . , xn+1} ∈ X , função-objetivo f (·)
1 while ¬ critério de parada do2 xr = x + α (x− xw ) ;3 if f (xr ) < f (xb) then Expansão4 calcule e avalie xe;5 if f (xe) < f (xr ) then xnew = xe;6 else xnew = xr ;7 else if f (xr ) < f (xs) then xnew = xr ;8 else if f (xr ) < f (xw ) then Contração externa9 calcule e avalie xc+;
10 if f (xc+) ≤ f (xw ) then xnew = xc+;11 else if f (xr ) ≥ f (xw ) then Contração interna12 calcule e avalie xc−;13 if f (xc−) ≤ f (xw ) then xnew = xc−;14 else15 Encolhe o simplex16 end17 end
101 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Nelder-Mead Simplex
Critérios de parada do método são baseados no tamanho (volu-me) do simplex;
Convergência para funções convexas provada apenas recente-mente;
Inicialização do simplex pode ser obtida com perturbações orto-gonais a x0;
Método usado na função fminsearch do MatlabTM.
102 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Hooke-Jeeves
O método Hooke-Jeeves testa pontos padrões a partir do pontoatual;
Ele alterna direções de pesquisa na direção dos eixos coordena-dos com direções de melhora do tipo xk+1 − xk .
103 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Hooke-Jeeves
1 Seja x0 o ponto inicial e e1, . . . ,en as direções coordenadas. Oalgoritmo testa os pontos x ± λei , fazendo um movimento na di-reção de melhora ou ficando no ponto atual;
2 Após pesquisar todas as coordenadas, terminamos no ponto xk+1;
3 Neste ponto, efetuamos uma pesquisa na direção xk+1 − xk :
z = xk+1 + α (xk+1 − xk )
4 A partir do melhor entre z e xk+1, reinicia-se a pesquisa nas di-reções coordenadas. Se a função não decrescer, então fazemosλ← λ/2 até que a precisão desejada seja atingida.
104 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Hooke-Jeeves
Algoritmo 9: Método Hooke-JeevesInput: x0 ∈ X , função-objetivo f (·), λ, α, ξ
1 k ← 0, x← x0;2 while λ > ξ do3 foreach i = 1 . . . , n do4 if f (x + λei ) < f (x) then yi ← xi + λ;5 else if f (x− λei ) < f (x) then yi ← xi − λ;6 else yi ← xi ;7 end8 if f (y) < f (x) then9 z← y + α (y− x);
10 x← best(z, y);11 else12 λ← λ/2;13 end14 k ← k + 1;15 end
105 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Métodos determinísticos sem derivadas
Método Hooke-Jeeves
O método Hooke-Jeeves é de fácil programação e é competitivocomputacionalmente com outros métodos;
Modificações podem ser incluídas, tais como um λ para cada va-riável, ou acoplar métodos de busca unidirecional.
106 / 107
Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada
Literatura Especializada
Singiresu S. Rao, Engineering Optimization: Theory and Practice, Wiley, 4th ed.,2009.
Mokhtar S. Bazaraa, Hanif D. Sherali, C. M. Shetty, Nonlinear Programming: The-ory and Algorithms, Wiley-Interscience, 3rd ed., 2006.
R. Fletcher, Practical Methods of Optimization, Wiley, 2000.
Geraldo R. Mateus, Henrique P. L. Luna, Programação Não Linear, V Escola deComputação, Belo Horizonte, UFMG, 1986.
Início
107 / 107