Redes Neurais

Poda de Rede Baseada na Hessiana

Apresentação de TP-536Inteligência Artificial

Ramon Mayor MartinsRenann de Oliveira Barbedo Ponte

• Introdução• Modelagem local da Superfície de Erro• Algoritmos de Poda de Rede Baseados na Hessiana• Computação da Inversa da Matriz Hessiana• Testes e Experimentos

• Conclusões• Referências Bibliográficas

Introdução

• Derivadas Parciais de Segunda Ordem– Utilizadas para determinar se um ponto crítico (a,b) de

uma função f(x,y) é um mínimo ou um máximo local da função.

• Matriz Hessiana– É uma matriz quadrada de derivadas parciais de

segunda ordem de uma função. Descreve a curvatura local de uma função de várias variáveis.

– Se a Hessiana é definida-positiva em x, então f alcança um mínimo local em x, se é definida-negativa em x, então alcança um máximo local em x.

Introdução

• Informação sobre as derivadas de segunda ordem da superfície de erro– Compromisso entre complexidade da rede e o

desempenho de erro de treinamento.

• Modelagem local da superfície de erro– Prever analiticamente o efeito das perturbações

sobre os pesos sinápticos.

Modelagem local da Superfície de Erro

• Aproximação local da função de custo “Emed” usando uma série de Taylor:

• Onde:– δw: variação do parâmetro w

– H: matriz hessiana

𝛿� = (𝜕�𝜕� )� ∗ 𝛿� + 12 𝛿�� ∗ � ∗ 𝛿� + � ቀหȁ𝛿�ȁห3ቀ (1.1)

Aproximações para a resolução do problema

• Aproximação Extrema– A rede está treinada para um mínimo (local),

portanto elimina-se o primeiro termo (linear) da Equação 1.1.

• Aproximação Quadrática– A superfície de erro é aproximadamente quadrática

em torno de um mínimo local. Assim eliminamos o termo de terceira ordem da Equação 1.1.

Aproximação para a resolução do problema

• Assim a Equação 1.1 fica:

𝛿� = 12 𝛿�� ∗ � ∗ 𝛿� (1.2)

• Introdução• Modelagem local da Superfície de Erro• Algoritmos de Poda de Rede Baseados na Hessiana• Computação da Inversa da Matriz Hessiana• Testes e Experimentos• Conclusões• Referências Bibliográficas

Algoritmos de Poda de Rede Baseada na Hessiana

• OBS – Optimal Brain Surgeon;

• OBD – Optimal Brain Damage

Algoritmos de Poda de Rede Baseada na Hessiana

• OBS – Optimal Brain Surgeon;• (Hassibi,1992) demonstra que a computação completa da

matriz Hessiana torna o método mais poderosos.

• OBD – Optimal Brain Damage• (Le Cun, 1990) simplifica a saliência fazendo a imposição de

que a Hessiana seja uma matriz diagonal.

Optimal Brain Surgeon

• Objetivo:– Fixar um dos pesos sinápticos em zero para

minimizar o aumento incremental da função custo

• Reformulação do objetivo como um Problema de Otimização Convexa:- Minimize a forma quadrática

sujeito a restrição

- Minimize o resultado em relação ao índice i;

A minimização 1, acontece sobre os vetores dos pesos sinápticos que permanecem.

A minimização 2 é sobre o vetor particular que é podado.

wHwS T δδ **2

01 =+ iTi wwδ

• Passos para resolução do Algoritmo:1- Utiliza-se o Método dos Multiplicadores de Lagrange S;

2- Aplica-se a derivada no Lagrangeano;

3- Computa-se a Inversa da Matriz Hessiana;

4- Constata-se a modificação ótima do vetor peso w.

5- Encontra a menor saliência;

6- Poda e faz uma atualização de pesos;

7- Encerra quando mais nenhum peso puder ser eliminado da rede, sem um grande aumento no MSE.

8- Retreina a rede (Sempre que um peso ou pequena parte dele é eliminado).

• Passos para resolução do Algoritmo:1)

2,3,4,5)

-Usa-se o q para atualizar todos os pesos.

-Se não tiver mais pesos para serem deletados, que não influenciam no Erro. Retreina a rede.

)*1(**2

T wwwHwL +−= δλδδ

−−

• Saliência- Representa o aumento no MSE (média de desempenho) que

resulta na eliminação de wi.Assim pequenos pesos tem um efeito pequeno no MSE.

- O Lagrangeano Si, otimizado em relação a ,sujeito a restrição que o i-ésimo peso sináptico seja eliminado, é denominado saliência de wi.

- Se a inversa da Hessiana for pequena, então mesmo pesos pequenos deverão ter um efeito substancial no MSE.

- No OBS, o peso correspondente a menor saliência é aquele selecionado para a eliminação.

Optimal Brain Damage

- O OBD simplifica os cálculos fazendo uma suposição adicional: A matriz Hessiana H é uma matriz diagonal. O que não é feito no OBS.

- Diversos pesos podem ser excluídos entre cada procedimento de retreino, devido à aproximação da independência [1].

• Passos para resolução do Algoritmo:1- Utiliza-se o Método dos Multiplicadores de Lagrange S;

2- Aplica-se a derivada no Lagrangeano;

3- Computa-se os elementos da diagonal da Inversa da Matriz Hessiana;

4- Computa-se as Saliências

5- Poda a rede (deleta todos os pesos que tenham as mínimas saliências)

6- Retreina a rede até um erro aceitável;

7- Se não atingir o critério de parada, repete o passo 2.

• Passos para resolução do Algoritmo:1)

3) Computa-se os elementos da diagonal da Inversa da Matriz Hessiana;

4) Computa a Saliência: para todo peso :

5,6,7)

)*1(**2

T wwwHwL +−= δλδδ

)( 2qqq

Computação da inversa da matriz Hessiana

• Quando o número de parâmetros livres da rede, W, é grande, o problema de computar a inversa pode ser intratável– Iremos reduzir a matriz Hessiana para uma matriz

de covariância associada à certos vetores gradientes.

• Considere uma rede neural não-linear com um vetor de entrada in de dimensão ni, e um vetor de saída o de dimensão no, mapeados de acordo com:

• Onde:– w : vetor n-dimensional representando os pesos e outros

parâmetros da rede neural

� = �(�, 𝑖�) (3.1)

• A função de custo (MSE) pode ser definida como:

• Onde:– P: número de pares de treino

– t[k]: resposta esperada na rede para k-ésimo par de treinamento

– o[k] : resposta fornecida pela rede para k-ésimo par de treinamento

� = 12� σ (�ሾ�ሾ− �[�])� ∗ (�ሾ�ሾ− �[�])��=1 (3.2)

• A derivada primeira da função (3.2) em relação à w fica:

• A segunda derivada ou Hessiana fica:

𝛿�𝛿� = − 1� σ 𝛿�൫�,𝑖� ሾ�ሾ൯𝛿� (�ሾ�ሾ− �[�])��=1 (3.3)

� ≡ 1� σ ൦𝛿�൫� ,𝑖� �൯𝛿� ∗ 𝛿�൫�,𝑖� �൯�𝛿� −𝛿2�൫� ,𝑖� �൯𝛿 2� ∗ (�ሾ�ሾ− �[�])൪��=1 (3.4)

• Supondo que a rede foi totalmente treinada (aproximação extrema)– A função de custo foi ajustada para um mínimo

local na superfície de erro– O valor de t[k] é próximo ao valor de o[k]

– t[k] – o[k] ≈ 0

• Assim a Equação 3.4 fica:� = 1� σ ሾ𝛿�൫� ,𝑖� �൯𝛿� ∗ 𝛿�൫�,𝑖� �൯�𝛿� ሾ��=1 (3.5)

• Supondo uma rede com apenas uma saída, podemos definir um vetor X[k] de derivadas como:

• Assim, a Equação 3.4 pode ser reescrita como:

�[�] ≡ 𝛿� (� ,𝑖� [�])𝛿� (3.6)

� = 1� σ ሾ�[�] ∗ �[�]�൧��=1 (3.7)

• Então em uma rede com múltiplas saídas, X será uma matriz de n x no:

• Assim, generalizamos a Equação 3.5 para:

�ሾ�ሾ≡ 𝛿�൫�,𝑖� ሾ�ሾ൯𝛿� =𝛿 �1൫� ,𝑖� ሾ�ሾ൯𝛿� , … , 𝛿�� 0൫� ,𝑖� ሾ�ሾ൯𝛿�

= (�1� , … , ��0� ) (3.8)

� = 1� σ σ ሾ��[�] ∗ ��[�]�ሾ�0�=1��=1 (3.9)

• A Equação 3.9 pode ser reescrita de uma forma interativa, que é de fácil implementação:

• Porém nosso algorítmo requer a inversa da matriz Hessiana, que pode ser calculada utilizando a seguinte fórmula de inversão de matriz:

�� +1 = �� + 1� �[�+1] ∗ �[� +1]� (3.10)

ሾ� + � ∗ � ∗ �ሾ−1 = �−1 − �−1 ∗ � ∗ (�−1 + � ∗ �−1 ∗ �)−1 ∗ � ∗ �−1 (3.11)

• Aplicando a inversão matricial, a Equação 3.10 fica:�� +1−1 = ��−1 − ��−1∗� [� +1]∗� [� +1]� ∗��−1�+� [� +1]� ∗��−1∗� [� +1] (3.12)

Testes e Experimentos Problemas MONK’s

- Testes e conclusões em cima dos problemas MONK’s.- (Thrun et al. 1991), projetaram três redes totalmente

conectadas treinadas por um backpropagation com decaimento de peso sobre estes problemas, em uma competição de aprendizagem de máquina.

- O objetivo era encontrar o número de pesos que poderiam ser eliminados pelos diferentes métodos e ainda executar.

- Os problemas MONK’s são problemas padrões, nos quais os robôs são descritos com diferentes atributos (Thrun,Mitchel,Cheng , 1991).

- A tarefa de aprendizagem é uma tarefa de classificação binária.

- Cada problema é dado por uma descrição lógica de uma classe.

- Mas ao invés de fornecer uma descrição completa da classe à aprendizagem, apenas um subconjunto de todos os 432, é possível com a sua classificação.

- A tarefa de aprendizagem é, então, generalizar sobre estes exemplos

- Número de pesos utilizados entre os Algoritmos para obter a mesma performance do Backpropagation com decaimento de peso. (Thrun et al. 1991).

- -O Algoritmo baseado em Magnitude usando BPWD, e o algoritmo OBS, com eta = 0.1 e taxa d decaimento = 0.0001. Precisou de 3 épocas para realizar o problema.

-O Algoritmo OBD, usando os mesmos parâmetros, precisou de 300 épocas para obter a mesma performance.

Quando parar a Poda de Rede:

- Se a poda for interrompida muito cedo, o máximo proveito do método de poda não foi tomado.

- Se a poda for interrompida muito tarde, então não só pesos desnecessários foram removidos, mas talvez também pesos de importância crucial para o desempenho da ANN.

- Durante a poda o conjunto de validação é usado para monitorar o desempenho do ANN.

- O erro no conjunto de validação é uma estimativa do erro no conjunto de teste.

- Quando o erro de validação aumenta além de um limiar é hora de parar de poda.

Conclusões

- O OBS possui uma melhor generalização nos dados de teste.- O OBS permite entre 76% e 90% de redução de pesos

sinápticos sobre o Backpropagation com decaimento d peso em problemas padrões MONKs.

- Somente o OBS exclui corretamente os pesos na rede em um treino de XOR em todos os casos.

- O OBS é mais sofisticado (Buhr,1995), mais estável e robusto (Depenau e Moller, 1994).

Conclusões

- A maneira que o OBS funciona é que ele fica perto do mínimo local de onde ele começa a poda. Funciona muito bem quando mínimo local de onde começa o OBS fica perto da mínimo global. Mas se o erro mínimo original (início) não é o menor erro global, o OBS nunca vai encontrar esse ponto, porque não treina ao mesmo tempo.

- O problema do OBS é o seu consumo de memória. - Uma alternativa para grandes redes é utilizar o método

baseado em magnitude para podar inicialmente (encontrando o mínimo global), e quando a rede estiver menor, utilizar o OBS.

• Introdução• Modelagem da Superfície de Erro• Algorítmos de Poda Baseados na Hessiana• Computação da Inversa da Matriz Hessiana• Análise de Desempenho

Referencias Bibliográficas:

[1]Buhr M.(1995).Aesthetics of Newspaper Layout – and a Survey on Architecture Determining Algorithms. Computer Science Department, Aarhus Univeristy, Denmark.

[2]Depenau, Moller (1995). Aspects of Generalization and Pruning. Aarhaus University. Denmark.

[3] Le Cun., J.S. Denker, and S.Sollar (1990). Optimal Brain Damage. AT&T Bell Laboratories, Holmdel.

[4] Hassibi, B. Stork, D.G. (1992). Second order derivatives for network pruning: Optimal Brain Surgeon , in Proceedings of the Neural Information Processing Systems-92.

Referencias Bibliográficas:

[5] Hassibi, B. Stork, D.G. and Wolf, G. (1992).Optimal Brain Surgeon and General Network Pruning, IEEE International Conference on Neural Networks, vol.1,pp.293-299, San Francisco.

[6] Haykin S. Redes Neurais, Principios e Pratica.Ed Bookman, pg.248-252,2001.

[7] Thrun, S.B. and 23 co-authors (1991). The MONK’s Problems – A performance comparison of different learning algorithms, CMU-CS-91-197 Carnegie-Mellon U. Department of Computer Science Tech Report.

[8] en.wikipedia.org, Wikipedia – The Free Encyclopedia

Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage

Documents

Transcript of Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage

Sistemas Neurais Híbridos: Redes Neurais Artificias e ...wiki.icmc.usp.br/images/7/7b/Apresentacao_Leonardo.pdf · 18 Redes Neurais Evolucionárias Definição da Topologia das redes

Redes neurais introdução

Processadores Neurais Chips neurais Ednaldo José Ferreira Prof. Stela.

Monografia Redes Neurais

Redes Neurais Artificial - inf.ufpr.br Neurais... · Introdução • Redes Neurais Artificiais são técnicas computacionais que apresentam um modelo matemático inspirado na estrutura

Principles of orthopaedics and fx DR.H.SAREMI Orthopedic surgeon

Plastic Surgeon

Sport Injury for Orthopedics Surgeon (Orthopedics Sport ...rcost.registration-master.com/images/2018/0105_01... · Sport Injury for Orthopedics Surgeon (Orthopedics Sport Injuries)

Aplicação de Redes Neurais no reconhecimento de letras em ...cbpfindex.cbpf.br/publication_pdfs/nt00500.2010_10_15_17_23_17.pdfAs Redes Neurais ou, mais precisamente Redes Neurais

CURRICULUM VITAE · 2020-02-17 · CURRICULUM VITAE Dr. Nikolaos A. Chrysanthakopoulos -Dental and Oral Surgeon (DDSc), -Implant Surgeon (Cert. Att.) -Oncologist (MSc), Specialized

Redes Neurais Prof. Alex F. V. Machado. Redes Neurais Artificiais (RNA)

Redes Neurais 1 Redes Neurais - nacad.ufrj.brfalcao/ag/RN1.pdf · Redes Neurais são sistemas computacionais massivamente paralelos, inspirados nas redes neurais biológicas, constituídas

TRABAJO DE INFORMATICA-SURGEON FRANKLIN. GRUPO 2.docx

Trabajo Jacobiana Hessiana

Apostila Redes Neurais

Shortlisted Candidates for Written Examination Dental Surgeon

Redes Neurais PUC

Resumo Redes Neurais

Http:// Redes Neurais Artificiais Christiano Lima Santos Redes Neurais Artificiais.