Descritores moleculares para aprendizagem automática...
Transcript of Descritores moleculares para aprendizagem automática...
![Page 1: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/1.jpg)
1© João Aires de Sousa
Descritores moleculares
para aprendizagem automática
(“Machine learning”)
![Page 2: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/2.jpg)
2© João Aires de Sousa
Pode um computador aprender Química?
![Page 3: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/3.jpg)
3© João Aires de Sousa
Por ex., aprender a prever propriedades a partirda estrutura molecular
Aprender o quê ?
É tóxico ?É tóxico ?
Como reage na presença de uma base ?
Como reage na presença de uma base ?
Como são os seus espectros (IV, RMN,...) ?
Como são os seus espectros (IV, RMN,...) ?
CH3
CH3
O
O
Tem propriedades medicinais ?
Tem propriedades medicinais ?
![Page 4: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/4.jpg)
4© João Aires de Sousa
Com a experiência !
Um computador pode aprender,como os químicos orgânicos aprendem...
Quer dizer: a partir de um conjunto de dados experimentais com estruturas moleculares e as propriedades respectivas.
Encontra relações entre a estrutura e as propriedades.
Aprende! E pode aplicar o conhecimento a situações novas.
![Page 5: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/5.jpg)
5© João Aires de Sousa
Relações estrutura – propriedades
Computadores trabalham com números...
Estrutura
molecular
Estrutura
molecularPropriedadesPropriedadesRepresentaçãoRepresentação
Aprendizagem
automática
Aprendizagem
automática
CH3
CH3
O
NH Descritoresmoleculares
(números!)
• Redes neuronais• Árvores de decisão• Regressões• ...
FísicasQuímicasBiológicas
![Page 6: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/6.jpg)
6© João Aires de Sousa
Relações estrutura - propriedades
Em Química, por exemplo na investigação ou na indústria farmacêutica, produzem-se grandes quantidades de dados. Por exemplo, determinam-se experimentalmente propriedades para grandes conjuntos de compostos.
Importa gerar conhecimento a partir desses dados, por exemplo, derivando modelos que possam fazer previsões de propriedades para compostos novos.
Utilizam-se técnicas de aprendizagem automática (“machine learning”) para produzir relações quantitativas entre estrutura e propriedades.
QSPR – Quantitative Structure-Property RelationshipsQSAR – Quantitative Structure-Activity Relationships
![Page 7: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/7.jpg)
7© João Aires de Sousa
Regressões lineares
Variável x Variável y
Encontrar a equação que exprime a relação linear entre x e y.
y = a · x + b
y = 0.2636x + 1.371
R2 = 0.9093
0
1
2
3
4
5
6
7
8
0 5 10 15 20 25
Encontrar os melhores a e b de modo que a equação dê a melhor previsão possível de y a partir de x.
Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à linha.
![Page 8: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/8.jpg)
8© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00
Regressões multilineares
Variáveis x1, x2, x3, x4, … xn Variável y
Encontrar a equação que exprime a relação linear entre x1,… xn e y.
y = a1 x1 + a2 x2 + a3 x3 + a4 x4 + … + an xn + b
Encontrar os melhores a1 … an e b de modo que a equação dê a melhor previsão possível de y a partir de x.
Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à recta num espaço com n dimensões.
experimental
pre
vis
to
![Page 9: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/9.jpg)
9© João Aires de Sousa
Regressões multilinearesAplicação a QSPR
Descritores x1, x2, x3, x4, … xn Propriedade y
Encontrar a equação que prevê a propriedade y a partir dos descritores x1,… xn.
Procurar à partida descritores que estejam relacionados com a propriedade a prever, com base em conhecimentos sobre o problema.
Por exemplo o ponto de fusão está relacionado com o tamanho e com a polaridade dos compostos, se queremos modelar o ponto de fusão devemos calcular descritores que codifiquem o tamanho e a polaridade.
![Page 10: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/10.jpg)
10© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00
Regressões multilinearesExemplo: previsão da constante de velocidade da reacção
de um composto com o radical OH na atmosfera
-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –
– 0.39 CIC0 + 0.13 nCaH
Conjunto de treino
234 objectos (compostos)
HOMO – energia da orbital molecular ocupada de mais alta energia
nX – nº de átomos halogénio
CIC0 – índice complementar de conteúdo de informação
nCaH – nº de átomos de carbono aromáticos não substituídos
P.Gramatica, P. Pilutti, E. Papa,J. Chem. Inf. Comput. Sci. 2004, 44, 1794-1802 experimental
pre
vis
to
![Page 11: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/11.jpg)
11© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00
Regressões multilinearesExemplo: previsão da constante de velocidade da reacção
de um composto com o radical OH na atmosfera
-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –
– 0.39 CIC0 + 0.13 nCaH
Conjunto de teste
226 compostos
HOMO – energia da orbital molecular ocupada de mais alta energia
nX – nº de átomos halogénio
CIC0 – índice complementar de conteúdo de informação
nCaH – nº de átomos de carbono aromáticos não substituídos
experimental
pre
vis
to
![Page 12: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/12.jpg)
12© João Aires de Sousa
Descritores moleculares
codificam características da estrutura
![Page 13: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/13.jpg)
13© João Aires de Sousa
Descritores constitucionais,propriedades moleculares
• Massa molecular• Nº de átomos, nº de átomos de carbono, …• Nº de ligações, nº de ligações duplas, nº de ligações aromáticas,…• Nº de ligações rotáveis
• Soma de volumes de van der Waals• Carga atómica máxima, ou mínima• Carga atómica máxima num átomo de H• Energia da HOMO, LUMO
• Coeficientes de partição• Índice de insaturação• Factor de hidrofilicidade• Refractividade molar• Contribuição de fragmentos para a área polar da superfície
![Page 14: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/14.jpg)
14© João Aires de Sousa
Descritores de fragmentos
• Nº de C sp3, …• Nº de isocianatos• Nº de amidas aromáticas, Nº de amidas alifáticas• Nº de grupos nitro• Nº de ésteres• Nº de doadores em ligações de H• …
![Page 15: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/15.jpg)
15© João Aires de Sousa
Descritores topológicos
• Índice de Zagreb• Índice de Wiener• Índices de conectividade chi• “Molecular walk counts”• Descritores BCUT• Vectores de autocorrelação 2D• …
![Page 16: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/16.jpg)
16© João Aires de Sousa
Índice de Wiener
É a soma de todas as distâncias entre quaisquer dois átomos de carbono na molécula (distâncias em termos de ligações carbono-carbono).
N – nº de átomos na moléculadi,j – distância entre os átomos i e j
∑∑=
≠=
=N
i
N
ijj
jidGW1 1
,2
1)(
(dá indicação sobre ramificação, é uma aproximação muito simplificada à superfície de van der Waals)
![Page 17: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/17.jpg)
17© João Aires de Sousa
Índice de Wiener
É a soma de todos os números na matriz de distâncias, dividida por 2.
∑∑=
≠=
=N
i
N
ijj
jidGW1 1
,2
1)(
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
13971191362
W(G) = 31
![Page 18: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/18.jpg)
18© João Aires de Sousa
Vectores de autocorrelação 2D
Para um dado valor de d, o resultado é a soma de tantas parcelas quantos os pares de átomos à distância d entre si. Cada parcela é o produto da propriedade p para os dois átomos.
ij
N
i
N
jji ppddda )()(
1 1, −= ∑∑
= =
δ
≠∀
=∀=
dd
dd
ji
ji
,
,
0
1δ
1
2
3
4
5
6
Considerando p=1:
a(3) = 4
(há 4 pares de átomos com distância 3)
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
![Page 19: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/19.jpg)
19© João Aires de Sousa
Vectores de autocorrelação 2D
Se calcularmos a(d) para valores de d entre 1 e 5, obtemos 5 descritores.
ij
N
i
N
jji ppddda )()(
1 1, −= ∑∑
= =
δ
≠∀
=∀=
dd
dd
ji
ji
,
,
0
1δ
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
![Page 20: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/20.jpg)
20© João Aires de Sousa
Descritores geométricos
(exigem coordenadas 3D)
• Índice de Wiener 3D
• Descritores WHIM
• Descritores GETAWAY
• Vectores de autocorrelação 3D
• Descritores 3D-MORSE
• Funções de distribuição radial (RDF)
• Códigos de quiralidade
• …
![Page 21: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/21.jpg)
21© João Aires de Sousa
Funções de distribuição radial (RDF code)
N – nº de átomos na moléculapi – propriedade atómica para o átomo i (ex. carga)rij – distância 3D entre os átomos i e jB – parâmetro ajustável
2)(1
1 1
)( ijrrBN
i
N
ijji epprg −−
−
= +=∑ ∑=
Codifica a estrutura molecular incluindo características atómicas e geométricas 3D.
![Page 22: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/22.jpg)
22© João Aires de Sousa
O
acetofenona
0.7
-0.9
-0.7
-0.5
-0.3
-0.1
0.1
0.3
0.5
0 1 2 3 4 5 6r [Å]
g(r) Carga atómica
δ+
δ–
rij - distância interatómica
O
CB - parâmetro
Ai.Aj – propriedades atómicas
∑ ∑−
>
−−⋅=1
)( 2
)(N
i
N
ij
rrBji
ijeppfrg
Funções de distribuição radial (RDF code)
![Page 23: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/23.jpg)
23© João Aires de Sousa
Programa simples para cálculo dedescritores moleculares –
CDKDescUI
Download a partir dehttp://www.rguha.net/code/java/cdkdesc.html
![Page 24: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/24.jpg)
24© João Aires de Sousa
Web service para cálculo dedescritores moleculares – VCCLAB.ORG
![Page 25: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •](https://reader034.fdocument.pub/reader034/viewer/2022052517/5c03457209d3f2c12d8c5e41/html5/thumbnails/25.jpg)
25© João Aires de Sousa
Lista de descritores moleculareshttp://www.disat.unimib.it/chm/Help/edragon/index.html