Otimização Multiobjetivo - Otimização Não...

Otimização MultiobjetivoOtimização Não Linear

Professores:

Eduardo G. CarranoFrederico G. Guimarães

Lucas S. Batista

{egcarrano,fredericoguimaraes,lusoba}@ufmg.brwww.ppgee.ufmg.br/∼lusoba

Universidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia Elétrica, Brasil

Otimização não linear Métodos de busca unidimensional Métodos determinísticos Literatura Especializada

Fundamentos

Sumário

1 Otimização não linearFundamentosCaracterização de funçõesCondições de otimalidade

2 Métodos de busca unidimensionalMétodos baseados em reduções sucessivas de intervalosMétodos baseados em interpolação

3 Métodos determinísticosMétodos de direção de buscaMétodos determinísticos sem derivadas

2 / 107


Fundamentos

Problemas de otimização

Formulação geral de problemas de otimização:

minx

f (x) ∈ R, x ∈ F

F =

gi (x) ≤ 0; i = 1, . . . ,p (restrições de desigualdade)hj (x) = 0; j = 1, . . . ,q (restrições de igualdade)x ∈ X

3 / 107


Fundamentos

Problemas de otimização

Formulação geral de problemas de otimização:

minx

f (x) ∈ R, x ∈ F

F =

g(x) ≤ 0 (restrições de desigualdade)h(x) = 0 (restrições de igualdade)x ∈ X

4 / 107


Fundamentos

Definições de referência

Função-objetivo

A função-objetivo (ou função-custo ou critério de otimização) é a fun-ção f (·) : X 7→ Y, X ⊂ Rn, Y ⊂ R, que deve ser otimizada (minimi-zada) pelo algoritmo de otimização.

Ótimo global ou Mínimo global

O ponto x∗ ∈ X é ótimo global da função f (·) : X 7→ Y se, paraqualquer x 6= x∗, temos f (x∗) < f (x).

5 / 107


Fundamentos


Mínimo local não estrito (weak local minimum)

O ponto x∗ ∈ X é um mínimo local não estrito da função f (·) : X 7→ Yse, para qualquer x ∈ Vε(x∗) e x 6= x∗, temos f (x∗) ≤ f (x).

Mínimo local estrito (strong local minimum)

O ponto x∗ ∈ X é um mínimo local estrito da função f (·) : X 7→ Y se,para qualquer x ∈ Vε(x∗) e x 6= x∗, temos f (x∗) < f (x).

6 / 107


Fundamentos


Conjuntos abertos

Um conjunto X ⊂ Rn é dito aberto se

x0 ∈ X ⇒ ∃ ε | x ∈ X ∀ ‖x− x0‖ < ε

Conjuntos fechados

Um conjunto X ⊂ Rn é dito fechado se seu complemento em relaçãoao espaço for aberto.

7 / 107


Fundamentos


Conjuntos compactos

Seja o conjunto Q ⊂ Rn. Esse conjunto é dito compacto se para todox1, x2 ∈ Q tem-se ‖x1 − x2‖ = δ < ∞ (i.e., x1 e x2 estão a umadistância finita).

Vizinhança

Seja um ponto x ∈ Rn. Uma vizinhança de x é qualquer conjuntoaberto que contenha x.

8 / 107


Fundamentos


Conjuntos convexos

Seja o conjunto Q ⊂ Rn. Esse conjunto é dito convexo se, para todox1, x2 ∈ Q e 0 ≤ λ ≤ 1, verifica-se que para z = λx1 + (1 − λ)x2tem-se z ∈ Q.

Exemplo1 A = {(x1, x2) : x2

1 + x22 ≤ 4} ⊂ R2

2 A = {x : Ax ≤ b}

9 / 107


Caracterização de funções

Sumário




10 / 107



Função e funcional

Função

Uma função é uma relação que associa de maneira única membrosde um conjunto A com membros de um conjunto B, i.e.,

f : A 7→ B (f : Rn 7→ Rm)

FuncionalUm funcional é uma função que retorna um único valor (escalar), i.e.,

f : Rn 7→ R1

11 / 107



Funções convexas

Definição

Uma função f (·) : X 7→ Y é dita uma função convexa sobre X ⊂ Rn

se, ∀ x1,x2 ∈ X e 0 ≤ λ ≤ 1, tem-se que

f [λx1 + (1− λ)x2] ≤ λf (x1) + (1− λ)f (x2)

Uma função é estritamente convexa se, considerando 0 < λ < 1,a desigualdade acima for estrita.

12 / 107



Funções quase-convexas

Definição

Uma função f (·) : X 7→ Y é dita uma função quase-convexa sobreX ⊂ Rn se, ∀ x1,x2 ∈ X e 0 ≤ λ ≤ 1, tem-se que

f [λx1 + (1− λ)x2] ≤ max{f (x1), f (x2)}

13 / 107



Superfície de nível e região sub-nível

Superfície de nível

A superfície de nível (ou curva de nível) de uma função f (·) : X 7→ Y,X ⊂ Rn, é definida como:

S(f , α) = {x ∈ X : f (x) = α}

Região de subnível

Associada à função f (·), existe o conjunto R(f , α) denominado regiãode subnível:

R(f , α) = {x ∈ X : f (x) ≤ α}

Se f (·) é convexa, R(f , α) é um conjunto convexo.

14 / 107



Modalidade de funções

Função unimodal

Uma função f (·) : X 7→ Y, X ⊂ Rn, é dita unimodal se R(f , α) é umconjunto conexo para todo α ∈ R.

A função f (·) é ainda estritamente unimodal se R(f , α) é um conjuntocompacto para todo α ∈ R.

Função multimodal

Uma função f (·) : X 7→ Y, X ⊂ Rn, é dita multimodal se R(f , α) é umconjunto desconexo para algum α ∈ R.

Quantos mínimos uma função unimodal pode apresentar?

15 / 107



Bacias de atração

Ao redor de mínimos locais existem regiões nas quais a função secomporta como unimodal. Tais regiões são denominadas baciasde atração.

Bacia de atração

Seja f (·) : X 7→ Y, X ⊂ Rn, e x∗ ∈ X um mínimo local de f (·). A baciade atração de x∗, representada por B(x∗), é definida como a maiorregião conexa R(f , α) que contém x∗. Restrita a essa região, f (·) éunimodal.

Um método de busca local converge para x∗ se o ponto inicialx0 ∈ B(x∗).

16 / 107



Funções contínuas

Definição

Uma função contínua é aquela para a qual uma pequena variação naentrada gera uma pequena variação no resultado da função.

Uma função f (·) : X 7→ Y, X ⊂ Rn, é contínua se ∀ x0 ∈ X :

1 f (x0) é definido;

2 limx→x0

f (x) = f (x0).

17 / 107



Diferenciabilidade

Uma função f (·) : X 7→ Y, X ⊂ Rn, é diferenciável em x ∈ X seexiste o vetor Gradiente dado por:

∇f (x) =(

∂f∂x1

∂f∂x2

· · · ∂f∂xn

)

Uma função f (·) : X 7→ Y, X ⊂ Rn, é diferenciável de 2a ordemem x ∈ X se existe a matriz Hessiana dada por:

H(x) =

∂2f/∂x21 · · · ∂2f/∂x1∂xn

.... . .

...∂2f/∂xn∂x1 · · · ∂2f/∂x2

n

18 / 107



Diferenciabilidade

Exemplo

Seja a função f (x) = 100(x2 − x21 )2 + (1 − x1)2. Calcule seu vetor

gradiente e a matriz Hessiana.

Solução

∂f∂x1

= −400x1(x2 − x21 )− 2(1− x1)

∂f∂x2

= 200(x2 − x21 )

19 / 107



Diferenciabilidade

Exemplo

Seja a função f (x) = 100(x2 − x21 )2 + (1 − x1)2. Calcule seu vetor

gradiente e a matriz Hessiana.

Solução

∂2f∂x2

1= −400x2 + 1200x2

1 + 2

∂2f∂x2

2= 200

∂2f∂x1∂x2

= −400x1

20 / 107



Séries de Taylor

Definição

Uma função continuamente diferenciável pode ser aproximada local-mente por sua expansão em séries de Taylor:

f (x) = f (x0)+∇f (x0)′(x−x0)+12

(x−x0)′H(x0)(x−x0)+O(‖x− x0‖3

)

A função f (·) representa a aproximação de f (·) em torno de x0.

21 / 107



Subgradiente

Definição

Seja uma função convexa f (·) : X 7→ Y, X ⊂ Rn. Um funcional linearf sb é um subgradiente de f (·) no ponto x0 se:

f (x) ≥ f (x0) + f sb(x− x0) , ∀ x

Por exemplo, o subgradiente de f (x) = |x | é qualquer número real nointervalo [−1,1].

22 / 107



Direções factíveis e direções minimizantes

Direções factíveis

Diz-se que d é uma direção factível a partir de um ponto x0 ∈ X ,X ⊂ Rn, se existe um α > 0 tal que (x0 + αd) ∈ X ∀ α ∈ [0, α].

Direções minimizantes

Seja f (·) : X 7→ Y, X ⊂ Rn, uma função diferenciável e ∇f (x) ogradiente de f (·) no ponto x ∈ X . Seja ainda d ∈ Rn. Então, se

d · ∇f (x) < 0

existe ε > 0 tal que:f (x + εd) < f (x)

Diz-se que d é uma direção minimizante de f (·) no ponto x.

23 / 107



Características gerais de funções convexas

Funções convexas

Seja f (·) uma função duas vezes diferenciável sobre um conjunto con-vexo X ⊂ Rn. Então são equivalentes as seguintes afirmativas:

1 f [λx + (1− λ)y] ≤ λf (x) + (1− λ)f (y) ∀ x, y ∈ X e λ ∈ [0,1]

2 f (y) ≥ f (x) +∇f (x)′(y− x) ∀ x, y ∈ X

3 H(x) ≥ 0 ∀ x ∈ X

Relação de implicabilidade

f (·) convexa⇔ (1) ou (2) ou (3)

24 / 107



Exemplos

25 / 107



Exemplos

26 / 107



Exemplos

27 / 107



Exemplos

28 / 107


Condições de otimalidade

Sumário




29 / 107



Condições de otimalidade para problemas irrestritos

Theorem (Condição necessária de 1a ordem)

Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Ovetor gradiente em x∗ é nulo.

Demonstração.

Usando uma aproximação de 1a ordem, temos:

f (x) = f (x∗) + g∗′(x− x∗) + O(‖x− x∗‖2

)Se x∗ é mínimo local, então f (x∗) ≤ f (x), ∀ x ∈ Vε(x∗). Assim:

f (x) ≥ f (x∗)

f (x∗) + g∗′(x− x∗) + O(‖x− x∗‖2

)≥ f (x∗)

30 / 107





Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Ovetor gradiente em x∗ é nulo.

Demonstração.

g∗′(−αg∗) + O(‖x− x∗‖2

)≥ 0

−α ‖g∗‖2 + O(‖x− x∗‖2

)≥ 0

Considerando que limx→x∗

O(‖x−x∗‖2)α = 0, tem-se ‖g∗‖2 ≤ 0, implicando

∇f (x∗) = 0

31 / 107





Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Amatriz Hessiana em x∗ é semidefinida positiva.

Demonstração.

Usando uma aproximação de 2a ordem, temos:

f (x) = f (x∗) + g∗′(x− x∗) + 0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3

)Se x∗ é mínimo local, então f (x∗) ≤ f (x), ∀ x ∈ Vε(x∗), e g∗ = 0:

f (x) ≥ f (x∗)

f (x∗) + 0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3

)≥ f (x∗)

0.5(x− x∗)′H∗(x− x∗) + O(‖x− x∗‖3

)≥ 0

32 / 107





Seja x∗ ∈ X um mínimo local da função f (·) : X 7→ Y, X ⊂ Rn. Amatriz Hessiana em x∗ é semidefinida positiva.

Demonstração.

12

1

‖x− x∗‖2 (x− x∗)′H∗(x− x∗) +O(‖x− x∗‖3

)‖x− x∗‖2 ≥ 0

Considerando que limx→x∗

O(‖x−x∗‖3)‖x−x∗‖2 = 0, tem-se:

u′H∗u ≥ 0

implicando que H∗ é semidefinida positiva.

33 / 107




Interpretando as condições necessárias

As condições necessárias devem ser verdadeiras para todo ótimo lo-cal. Entretanto, um ponto que satisfaça estas condições não precisaser um ótimo.

Theorem (Condições suficientes)

Suponha f : Rn 7→ R duas vezes diferenciável no ponto x∗. Se∇f (x∗) = 0 e H(x∗) é definida positiva (i.e., H(x∗) > 0), x∗ é ummínimo local estrito.

34 / 107



Condições de otimalidade para problemas restritos

E no caso de problemas restritos?

Como determinar as condições de otimalidade?

Exemplo

Seja o problema restrito a seguir:

min f (x) = x21 + x2

2 , sujeito a h(x) = (x1 − 4)2 + x22 − 4 = 0.

35 / 107




36 / 107




O mínimo global de f (x) sobre a curva h(x) = 0 é x∗ = (2, 0).

Neste ponto, os vetores ∇f e ∇h são colineares e vale a relação:

∇f (x∗) = −λ∗∇h(x∗)

Desenvolvendo, tem-se:

∇f (x∗) + λ∗∇h(x∗) = 0∇ [f (x) + λ∗h(x)]x=x∗ = 0

∇xL(x∗, λ∗) = 0

com L(x, λ) = f (x) + λh(x).

37 / 107




Este exemplo ilustra que a solução do problema restrito

min f (x) sujeito a h(x) = 0

é um ponto crítico da função

L(x, λ) = f (x) + λh(x)

Ponto crítico implica que: [∇xL∇λL

]= 0

38 / 107




Com relação a uma restrição de desigualdade, podemos conver-ter g(x) ≤ 0 em g(x) + z2 = 0, sendo z uma variável de folga:

min f (x) sujeito a {g(x) ≤ 0 ou g(x) + z2 = 0}

A função Lagrangeana é dada por

L(x, z, µ) = f (x) + µ[g(x) + z2]

O ponto crítico fornece: ∇xL∇zL∇µL

= 0 ⇒

∇f (x∗) + µ∗∇g(x∗) = 02µ∗z∗ = 0g(x∗) + z∗2 = 0

39 / 107




A condição 2µz = 0 implica que ou µ = 0 ou z = 0:

1 Se z = 0, temos g(x∗) + z2 = g(x∗) = 0. A solução está nafronteira da região factível e dizemos que a restrição g está ativa.

2 Se µ = 0, então z pode ser diferente de zero. Logo, g(x∗) < 0 edizemos que a restrição g está inativa no ponto solução (restriçãosatisfeita com folga).

3 Se ∇f (x∗) = 0 e g(x∗) = 0, então µ = 0 e z = 0. Neste caso, g édita fracamente ativa.

40 / 107




Podemos substituir a condição 2µ∗z∗ = 0 por uma condição equi-valente µ∗g(x∗) = 0, eliminando a necessidade de usar a variávelde folga z.

1 Se g(x∗) = 0: restrição ativa e µ ≥ 0.

2 Se g(x∗) < 0: restrição inativa e necessariamente µ = 0.

41 / 107



Condições de otimalidade de Karush-Kuhn-Tucker

Seja o problema de otimização

x∗ = arg minx

f (x) ∈ R, x ∈ F

F =

gi (x) ≤ 0; i = 1, . . . ,phj (x) = 0; j = 1, . . . ,qx ∈ X

x∗ é solução ótima do problema de otimização se existemmultiplicadores de Lagrange µ∗i ≥ 0 e λ∗j tais que:

∇f (x∗) +∑p

i=1 µ∗i ∇gi (x∗) +

∑qj=1 λ

∗j ∇hj (x∗) = 0

µ∗i gi (x∗) = 0, i = 1, . . . ,pgi (x∗) ≤ 0, i = 1, . . . ,phj (x∗) = 0, j = 1, . . . ,q

42 / 107




Theorem (Condições de otimalidade)

O ponto x∗ ∈ X é mínimo global do problema primal se existe µµµ∗ ≥ 0tal que (x∗,µµµ∗) satisfaça às seguintes condições:

1 L(x∗,µµµ∗) = f (x∗) +µµµ∗′g(x∗) = minx[f (x) +µµµ∗′g(x)

]2 µ∗i gi (x∗) = 03 gi (x∗) ≤ 0

Demonstração.

Para uma outra solução viável z ∈ X , z 6= x∗, temos:

f (x∗) = f (x∗) +µµµ∗′g(x∗) ≤ f (z) +µµµ∗′g(z) ≤ f (z)

em que a igualdade segue de (2), a primeira desigualdade segue de(1) e a segunda desigualdade é válida porque µ∗i gi (z) ≤ 0. Dessaforma, f (x∗) ≤ f (z), mostrando que x∗ é a solução do problema.

43 / 107




Convém destacar que se as funções são diferenciáveis, podemossubstituir a condição (1) por:

∇f (x∗) +

p∑i=1

µ∗i ∇gi (x∗) = 0

levando às condições de Karush-Kuhn-Tucker;

Se, além disso, o problema for convexo, i.e., se f (·) for convexa eas restrições definirem uma região viável convexa, então o pontode mínimo local é também mínimo global.

44 / 107



Em resumo

Problemas irrestritos: {∇f (x∗) = 0H(x∗) > 0

Problemas restritos:

∇f (x∗) +∑p

i=1 µ∗i ∇gi (x∗) +

∑qj=1 λ

∗j ∇hj (x∗) = 0

µ∗i gi (x∗) = 0, i = 1, . . . ,pµ∗i ≥ 0, i = 1, . . . ,pgi (x∗) ≤ 0, i = 1, . . . ,phj (x∗) = 0, j = 1, . . . ,q

45 / 107


Métodos baseados em reduções sucessivas de intervalos

Sumário




46 / 107



Problema de otimização unidimensional

Definição

α∗ = arg minαθ(α) ∈ R, α ∈ [0,+∞]

θ(α) = f (xk + αd) , xk e d ∈ Rn

Exemplo

Determinar x1 que minimiza f (x) = 2x21 + x2

2 partindo de x0 = [1 1] nadireção d = −∇f (x0).

47 / 107



Métodos de eliminação

Busca irrestrita;

Busca dicotômica;

Busca da bisseção;

Método de Fibonacci;

Método da Seção Áurea.

Exigem funções unimodais, porém não exigem diferenciabilidade.

48 / 107



Busca irrestrita

Não exige que o espaço de busca seja conhecido.

Versão elementar:Move-se numa direção minimizante d usando passo fixo s;

Determina-se uma sequência de pontos uk+1 = uk + s;

O passo usado deve ser pequeno em relação à precisão desejada;

Assume-se unimodalidade da função ao longo de d;

Limitação: pode exigir elevado número de avaliações de θ(·) se u0

estiver distante de u∗ e s for pequeno.

Versão melhorada:

Usar sk+1 = λsk , λ > 1, até “cercar” o intervalo que contém u∗;

Feito isto, reduzir o intervalo até uma precisão desejada.

49 / 107



Busca dicotômica

Assume que o intervalo (a,b) que cerca u∗ seja conhecido.

Escolhe dois pontos próximos ao centro do intervalo

u =L0

2− δ

2, v =

L0

2+δ

2, δ > 0

onde L0 é o tamanho do intervalo inicial.

Baseado na avaliação de θ(·) nestes dois pontos, exclui-se quasemetade do intervalo.

O processo se repete até atingir a precisão desejada.

50 / 107



Busca da bisseção

Exclui metade do intervalo de busca a cada iteração.

Especifica três pontos, u, c e v , igualmente espaçados no inter-valo inicial (a,b);

Assumindo unimodalidade, tem-se:

Se θu < θc < θv , deleta (c, b), e faz-se b = c e c = u;

Se θu > θc > θv , deleta (a, c), e faz-se a = c e c = v ;

Se θu > θc e θv > θc , deleta (a, u) e (v , b), e faz-se a = u e b = v .

Especifica novos pontos u e v , e continua o processo até L ≤ ε.

51 / 107



Método de Fibonacci

Assume unimodalidade de θ(·) e o conhecimento do intervalo[a,b] que contém o ótimo.

Define dois pontos u, v ∈ [a,b]:

Se θ(u) < θ(v), mínimo está em [a, v ];

Se θ(u) > θ(v), mínimo está em [u, b].

Apenas um novo ponto precisará ser especificado nas iteraçõessubsequentes.

O número de avaliações de θ (ou a precisão desejada) deve serespecificado.

52 / 107



Método de Fibonacci

Os pontos u e v são definidos usando a série de Fibonacci:

F0 = F1 = 1 , Fi = Fi−1 + Fi−2 , i = 2,3, . . . ,n

Dado o intervalo inicial [a0,b0], tem-se:

u0 = b0 − (Fn−1/Fn)(b0 − a0)

v0 = a0 + (Fn−1/Fn)(b0 − a0)

Para uma iteração i qualquer (i = 0, . . . ,n − 2), tem-se:

ui = bi − (Fn−i−1/Fn−i )(bi − ai )

vi = ai + (Fn−i−1/Fn−i )(bi − ai )

O comprimento do intervalo após k iterações é:

Lk = (Fn−k/Fn)(b0 − a0)

53 / 107



Método da seção áurea

Similar ao método de Fibonacci, porém não exige que o númerode iterações seja especificado.

O processo termina ao atingir a precisão desejada.

Para uma iteração i qualquer (i = 0,1, . . .), tem-se:

ui = bi − F (bi − ai ) , vi = ai + F (bi − ai )

onde F = (√

5− 1)/2 = 0.618.

O comprimento do intervalo após k iterações é:

Lk = (0.618)k (b0 − a0)

O tamanho do intervalo é multiplicado por 0.618 a cada iteração.

Os métodos de Fibonacci e seção áurea são os mais eficientes,porém o segundo é mais prático.

54 / 107


Métodos baseados em interpolação

Sumário




55 / 107



Métodos de interpolação

Método de interpolação quadrática;

Métodos de cálculo de raízes:

Método de Newton;

Método da Secante.

Exigem funções “bem comportadas” (convexas ou continuamentediferenciáveis de 1a ou 2a ordem).

56 / 107



Método de interpolação quadrática

A função θ(α) é aproximada por uma quadrática q(α) e seu mí-nimo α∗ é determinado.

Sendo q(α) = a + bα + cα2, a condição de 1a ordem fornece

dqdα

= b + 2cα = 0 , ou seja , α∗ = − b2c

Pela condição de 2a ordem q′′(α∗) > 0, i.e., c > 0.

Basta avaliar q(·) em três pontos distintos A < B < C, que satis-façam c > 0, e calcular α∗. Para c > 0, θB < max{θA, θC}.Enquanto α∗ não for suficientemente próximo de α∗, estima-seuma nova quadrática:q(α∗)− θ(α∗)

θ(α∗)

≤ ε57 / 107



Método de Newton

Considera uma aproximação quadrática usando séries de Taylor:

θ(α) = θ(αk ) + θ′(αk )(α− αk ) +12θ′′(αk )(α− αk )2

Baseando-se na condição de 1a ordem:

θ′(α) = θ′(αk ) + θ′′(αk )(α− αk ) = 0

αk+1 = αk −θ′(αk )

θ′′(αk )

A convergência do método pode ser verificada usando:

|θ′(αk+1)| ≤ ε

58 / 107



Método de Newton

As derivadas são aproximadas usando diferenças finitas:

θ′(αk ) =θ(αk + ∆α)− θ(αk −∆α)

2∆α

θ′′(αk ) =θ(αk + ∆α)− 2θ(αk ) + θ(αk −∆α)

∆α2

em que ∆α representa uma pequena variação.

59 / 107



Método da Secante

Utiliza uma aproximação similar ao método de Newton:

θ′(α) = θ′(αk ) + s(α− αk ) = 0

em que s representa a inclinação entre os pontos (A, θ′(A)) e(B, θ′(B)):

s =θ′(B)− θ′(A)

B − Aem que A e B são estimativas de α∗.O processo iterativo utiliza

αk+1 = αk −θ′(αk )

s

A convergência do método pode ser verificada usando:

|θ′(αk+1)| ≤ ε

60 / 107



Considerações práticas

Métodos de interpolação:

São mais baratos, porém dependem da estimação de derivadas;

Podem falhar caso a função não seja “bem comportada”.

Métodos de eliminação:

São mais usuais e práticos;

Porém, precisam determinar o intervalo [a, b] que cerca α∗:

Comumente emprega-se Busca Irrestrita.

61 / 107




Algoritmo 1: Busca irrestrita – algoritmo para cercar intervalo (a,b)Input: xk ∈ X , função-objetivo f (·)

1 a← 0; b ← s;2 calcule θ(a) = θ(0) = f (xk );3 calcule θ(b);4 NFC1← 2;5 while θ(b) < θ(a) do6 a← b; θ(a)← θ(b);7 b ← 2b; calcule θ(b);8 NFC1← NFC1 + 1;9 end

10 if NFC1 ≤ 3 then11 a← 0;12 else13 a← a/2;14 end15 return a, b;

62 / 107




Algoritmo 2: Algoritmo da Seção Áurea1 xa ← b − 0.618(b − a) e xb ← a + 0.618(b − a);2 θa ← θ(xa) e θb ← θ(xb);3 while (b − a > ε) do4 if (θa > θb) then5 a← xa;6 xa ← xb e xb ← a + 0.618(b − a);7 θa ← θb e θb ← θ(xb);8 else9 b ← xb;

10 xb ← xa e xa ← b − 0.618(b − a);11 θb ← θa e θa ← θ(xa);

12 α← (a + b)/2;

63 / 107


Métodos de direção de busca

Sumário




64 / 107



Métodos determinísticos

Métodos baseados em derivadas:

Método do Gradiente;

Método de Newton;

Métodos Quase-Newton;

Método de Gradientes Conjugados;

Métodos sem derivadas:

Método Nelder-Mead Simplex;

Método Hooke-Jeeves.

65 / 107




Estrutura geral

A estrutura geral de métodos baseados em direção de busca é daforma:

xk+1 ← xk + αk dk (1)

Os métodos variam na forma como o passo αk e a direção dk sãoescolhidos.

66 / 107



Método do Gradiente

O Método do Gradiente ou Método da Descida Mais Íngreme(Steepest Descent Method) é o método mais simples entre osmétodos de direção de busca.

dk = −∇f (xk )

67 / 107




Algoritmo 3: Método do GradienteInput: x0 ∈ X , função-objetivo f (·)

1 k ← 0;2 while ¬ critério de parada do3 Estime ∇f (xk );4 dk ← −∇f (xk );5 αk ← arg minα f (xk + αdk );6 xk+1 ← xk + αk dk ;7 k ← k + 1;8 end

68 / 107




O algoritmo gera uma sequência monotônica {xk , f (xk )} tal que∇f (xk )→ 0 quando k →∞.

O passo αk é um escalar não negativo que minimiza f (xk +αdk ),ou seja, representa um passo dado na direção minimizante dk .

Na prática, αk é obtido com um método de minimização unidire-cional.

69 / 107




Avaliação numérica do gradiente

Para avaliar o vetor gradiente numericamente, podemos usar a fór-mula de diferenças finitas:

∂f∂xi

∣∣∣∣x≈ f (x + δiei )− f (x)

δi, i = 1, . . . ,n

Uma fórmula mais precisa é a diferença finita central:

∂f∂xi

∣∣∣∣x≈ f (x + δiei )− f (x− δiei )

2δi, i = 1, . . . ,n

70 / 107



Método de Newton

Desenvolvimento

Seja f (·) : X 7→ Y, f (·) ∈ C2. Usando a expansão em séries de Taylorem torno de xk , temos:

f (x) = f (xk ) +∇f (xk )′(x−xk ) +12

(x−xk )′Hk (x−xk ) + O(‖x− xk‖3

)Assumindo a aproximação de 2a ordem, derivando e igualando a zero,obtemos:

∇f (xk ) + H(xk )(xk+1 − xk ) = 0

xk+1 = xk − H−1(xk )∇f (xk )

71 / 107



Método de Newton

Se f (·) for quadrática, o método de Newton determina a soluçãoótima em um passo.

A matriz H−1(xk ) pode ser interpretada como uma “correção” apli-cada à direção ∇f (xk ), levando em conta a curvatura da função.

Para casos gerais, com funções não quadráticas, deve-se deter-minar o passo ótimo αk :

xk+1 ← xk + αk dk , dk = −H−1(xk )∇f (xk )

72 / 107



Método de Newton

Algoritmo 4: Método de NewtonInput: x0 ∈ X , função-objetivo f (·)

1 k ← 0;2 while ¬ critério de parada do3 Estime ∇f (xk );4 Estime H(xk );5 dk ← −H−1(xk )∇f (xk );6 αk ← arg minα f (xk + αdk );7 xk+1 ← xk + αk dk ;8 k ← k + 1;9 end

73 / 107



Método de Newton

O método apresenta convergência quadrática;

A convergência do método de Newton é atendida sob duas pre-missas:

1 que H(xk ) seja não singular, i.e., possua inversa;

2 que H(xk ) seja definida positiva, para garantir que dk = −H−1k gk

seja uma direção minimizante.

74 / 107



Método de Newton

DificuldadesNecessita do cálculo da matriz inversa;

Mal-condicionamento numérico da matriz Hessiana dificulta o cál-culo de sua inversa;

Derivadas numéricas: maiores erros numéricos e muitas avalia-ções de função para a aproximação por diferenças finitas.

75 / 107



Métodos Quase-Newton

Motivação

Aproximar iterativamente a inversa da matriz Hessiana, evitandoo cálculo da inversa;

Evitar o cálculo numérico de derivadas segundas;

Manter a convergência quadrática do método de Newton.

76 / 107




Aproximando a inversa da Hessiana

É possível aproximar iterativamente a inversa da Hessiana a partir deuma recursão da forma:

Dk+1 = Dk + αk zk z′k

em que zk z′k é uma matriz simétrica definida positiva e Dk é uma es-timativa de H−1

k . A atualização dessa estimativa é construída em fun-ção dos vetores xk e ∇f (xk ) das iterações anteriores.

77 / 107




Dois métodos particularmente eficientes foram desenvolvidos paraproduzir estimativas recursivas para H−1

k :

Método DFP – Davidon-Fletcher-Powell;

Método BFGS – Broyden-Fletcher-Goldfarb-Shanno.

78 / 107




Correção DFP

Dada por:

CDFPk =

vk v′kv′k rk

−Dk rk r′k Dk

r′k Dk rk

vk = xk − xk−1

rk = gk − gk−1

gk = ∇f (xk )

79 / 107




Correção BFGS

Dada por:

CBFGSk =

(1 +

r′k Dk rk

r′k vk

)vk v′kv′k rk

−vk r′k Dk + Dk rk v′k

r′k vk

vk = xk − xk−1

rk = gk − gk−1

gk = ∇f (xk )

80 / 107




Família Broyden

Posteriormente, Broyden agrupou os métodos DFP e BFGS numa es-trutura mais geral, a família Broyden.

Ck = (1− λ)CDFPk + λCBFGS

k

A fórmula de atualização da estimativa da inversa da Hessiana é:

Dk+1 = Dk + Ck

81 / 107



Método Quase-Newton

Algoritmo 5: Família BroydenInput: x0 ∈ X , função-objetivo f (·)

1 k ← 0, Dk ← I;2 while ¬ critério de parada do3 Estime gk = ∇f (xk );4 dk ← −Dk gk ;5 αk ← arg minα f (xk + αdk );6 xk+1 ← xk + αk dk ;7 gk+1 ← ∇f (xk+1);8 Calcule CDFP

k e CBFGSk ;

9 Ck ← (1− λ)CDFPk + λCBFGS

k ;10 Dk+1 = Dk + Ck ;11 k ← k + 1;12 end

82 / 107



Método dos Gradientes Conjugados

HistóricoApresentado pela primeira vez em 1908 por Schmidt, reinventadode forma independente em 1948 e aprimorado nos anos 1950;

Desenvolvido inicialmente para a solução de sistemas lineares,ainda usado em sistemas com matrizes esparsas;

Em 1964, Fletcher e Reeves generalizaram o método para resol-ver problemas de otimização não linear irrestrita.

83 / 107




Solução de sistemas lineares

O método dos gradientes conjugados foi desenvolvido para resolveriterativamente grandes sistemas lineares da forma

Ax = b

com A simétrica e definida positiva.

84 / 107





Considere a forma quadrática:

f (x) =12

x′Ax− b′x + c

O mínimo global dessa função pode ser obtido a partir da condiçãode otimalidade de 1a ordem:

∇f (x) = Ax− b = 0

O mínimo de f é também a solução do sistema linear Ax = b.

85 / 107





O método atualiza a solução dando um passo αk na direção opostaao gradiente. A direção oposta ao gradiente é dada por:

−∇f (x) = b− Ax = r (resíduo)

Assim:dado xk ⇒ rk = b− Axk

xk+1 = xk + αk rk

86 / 107





O tamanho do passo pode ser determinado analiticamente:

ddα

f (xk+1) = ∇f (xk+1)′d

dαxk+1 = ∇f (xk+1)′

ddα

(xk +αk rk ) = −r′k+1rk

o que implica resíduos ortogonais:

r′k+1rk = 0(b− Axk+1)′rk = 0

(b− Axk − αk Ark )′rk = 0

que resulta em:

αk =r′k rk

r′k Ark

87 / 107




Algoritmo 6: Método dos Gradientes ConjugadosInput: x0, matriz de coeficientes A

1 k ← 0;2 rk ← b− Axk ; dk ← rk ;3 while ¬ critério de parada do4 αk ← r′k rk

d′k Adk;

5 xk+1 ← xk + αk dk ;6 rk+1 ← rk − αk Adk ;

7 βk ←r′k+1rk+1

r′k rk;

8 dk+1 ← rk+1 + βk dk ;9 k ← k + 1;

10 end

88 / 107




Gradientes conjugados para otimização não linear

A versão do método para otimização não linear apresenta três dife-renças básicas:

O resíduo não pode ser calculado recursivamente;

O tamanho do passo não pode ser determinado analiticamente -deve-se usar busca unidimensional;

Há diferentes escolhas para β.

89 / 107




Algoritmo 7: Método dos Gradientes ConjugadosInput: x0 ∈ X , função-objetivo f (·)

1 k ← 0;2 r0 ← −∇f (x0); d0 ← r0;3 while ¬ critério de parada do4 αk ← arg minα f (xk + αdk ) ;5 xk+1 ← xk + αk dk ;6 rk+1 ← −∇f (xk+1) ;7 Calcular βk ;8 dk+1 ← rk+1 + βk dk ;9 k ← k + 1;

10 end

90 / 107




Gradientes conjugados para otimização não linear

Duas fórmulas bem conhecidas para βk são:

Fletcher-Reeves: βFRk =

r′k+1rk+1

r′k rk

Polak-Ribière: βPRk =

r′k+1(rk+1 − rk )

r′k rk

91 / 107




Como o método se baseia na geração de n direções conjugadasno espaço n-dimensional, deve-se reiniciar o método a cada niterações em problemas não quadráticos;

Convergência em n iterações em funções quadráticas. Em fun-ções não quadráticas, as direções deixam de ser conjugadasapós algumas iterações, sendo preciso reinício periódico;

Em geral, métodos quase-Newton convergem em menos itera-ções, porém requerem mais computação e mais memória poriteração. Portanto, gradientes conjugados é mais indicado emproblemas de elevada dimensão.

92 / 107


Métodos determinísticos sem derivadas

Sumário




93 / 107



Métodos determinísticos

Métodos baseados em derivadas:

Método do Gradiente;

Método de Newton;

Métodos Quase-Newton;

Método de Gradientes Conjugados;

Métodos sem derivadas:

Método Nelder-Mead Simplex;

Método Hooke-Jeeves.

94 / 107



Motivação

Métodos baseados em derivadas convergem mais rapidamente,mas só podem ser usados em problemas caracterizados por fun-ções continuamente diferenciáveis;

Em problemas com muitas variáveis, os erros numéricos introdu-zidos por aproximações no cálculo do gradiente podem se tornarsignificativos.

95 / 107



Método Nelder-Mead Simplex

O método Nelder-Mead Simplex foi desenvolvido para otimizaçãonão linear (não confundir com o método Simplex para programa-ção linear);

O método trabalha com n + 1 pontos a cada iteração, e elimina o“pior” ponto;

Um novo ponto é criado com base no ponto eliminado.

96 / 107




Fecho convexoO fecho convexo (ou invólucro convexo) de um conjunto A, denotadopor A, é definido como a interseção de todos os conjuntos convexosque contêm A.

Politopo

O fecho convexo de um conjunto finito de pontos x1,x2, . . . ,xk ∈ Rn échamado politopo.

97 / 107




Simplex

Se x2−x1, x3−x1, . . . , xk−x1 são vetores linearmente independentes,então o fecho convexo desse conjunto de pontos é chamado simplex.

O número máximo de vetores linearmente independentes em Rn

é n, portanto um simplex em Rn possui n + 1 vértices.

O simplex é assim chamado por ser o politopo mais simples desua dimensão.

98 / 107




Usaremos a seguinte notação:

b ∈ {1, . . . ,n + 1} representa o índice do vértice com o melhorvalor de função-objetivo;

w ∈ {1, . . . ,n + 1} representa o índice do vértice com o pior valorde função-objetivo;

s ∈ {1, . . . ,n + 1} representa o índice do vértice com o segundopior valor de função-objetivo.

O centróide da face oposta a xw é dado por:

x =1n

n+1∑i=1i 6=w

xi

99 / 107




Reflexão: Visa rejeitar a pior solução e avançar o simplex na dire-ção de melhora. Essa operação reflete o pior vértice dosimplex sobre a face oposta:

xr = x + α (x− xw ) , α = 1

Expansão: Expande o simplex na direção de melhora:

xe = x + γ (x− xw ) , γ = 2

Contração externa: Contrai o simplex na direção de melhora:

xc+ = x + β (x− xw ) , β = 0.5

Contração interna: Contrai o simplex internamente:

xc− = x− β (x− xw ) , β = 0.5

100 / 107




Algoritmo 8: Método Nelder-Mead SimplexInput: {x1, . . . , xn+1} ∈ X , função-objetivo f (·)

1 while ¬ critério de parada do2 xr = x + α (x− xw ) ;3 if f (xr ) < f (xb) then Expansão4 calcule e avalie xe;5 if f (xe) < f (xr ) then xnew = xe;6 else xnew = xr ;7 else if f (xr ) < f (xs) then xnew = xr ;8 else if f (xr ) < f (xw ) then Contração externa9 calcule e avalie xc+;

10 if f (xc+) ≤ f (xw ) then xnew = xc+;11 else if f (xr ) ≥ f (xw ) then Contração interna12 calcule e avalie xc−;13 if f (xc−) ≤ f (xw ) then xnew = xc−;14 else15 Encolhe o simplex16 end17 end

101 / 107




Critérios de parada do método são baseados no tamanho (volu-me) do simplex;

Convergência para funções convexas provada apenas recente-mente;

Inicialização do simplex pode ser obtida com perturbações orto-gonais a x0;

Método usado na função fminsearch do MatlabTM.

102 / 107



Método Hooke-Jeeves

O método Hooke-Jeeves testa pontos padrões a partir do pontoatual;

Ele alterna direções de pesquisa na direção dos eixos coordena-dos com direções de melhora do tipo xk+1 − xk .

103 / 107




1 Seja x0 o ponto inicial e e1, . . . ,en as direções coordenadas. Oalgoritmo testa os pontos x ± λei , fazendo um movimento na di-reção de melhora ou ficando no ponto atual;

2 Após pesquisar todas as coordenadas, terminamos no ponto xk+1;

3 Neste ponto, efetuamos uma pesquisa na direção xk+1 − xk :

z = xk+1 + α (xk+1 − xk )

4 A partir do melhor entre z e xk+1, reinicia-se a pesquisa nas di-reções coordenadas. Se a função não decrescer, então fazemosλ← λ/2 até que a precisão desejada seja atingida.

104 / 107




Algoritmo 9: Método Hooke-JeevesInput: x0 ∈ X , função-objetivo f (·), λ, α, ξ

1 k ← 0, x← x0;2 while λ > ξ do3 foreach i = 1 . . . , n do4 if f (x + λei ) < f (x) then yi ← xi + λ;5 else if f (x− λei ) < f (x) then yi ← xi − λ;6 else yi ← xi ;7 end8 if f (y) < f (x) then9 z← y + α (y− x);

10 x← best(z, y);11 else12 λ← λ/2;13 end14 k ← k + 1;15 end

105 / 107




O método Hooke-Jeeves é de fácil programação e é competitivocomputacionalmente com outros métodos;

Modificações podem ser incluídas, tais como um λ para cada va-riável, ou acoplar métodos de busca unidirecional.

106 / 107


Literatura Especializada

Singiresu S. Rao, Engineering Optimization: Theory and Practice, Wiley, 4th ed.,2009.

Mokhtar S. Bazaraa, Hanif D. Sherali, C. M. Shetty, Nonlinear Programming: The-ory and Algorithms, Wiley-Interscience, 3rd ed., 2006.

R. Fletcher, Practical Methods of Optimization, Wiley, 2000.

Geraldo R. Mateus, Henrique P. L. Luna, Programação Não Linear, V Escola deComputação, Belo Horizonte, UFMG, 1986.

Início

107 / 107

Otimização Multiobjetivo - Otimização Não...

Documents

Transcript of Otimização Multiobjetivo - Otimização Não...