Paweł Aleksander Siedlecki
Przewidywanie powinowactwa związków
niskocząsteczkowych do receptorów białkowych.
Zastosowanie w badaniach przesiewowych.
1
1. Imię i nazwisko
Paweł Aleksander Siedlecki
2. Posiadane dyplomy, stopnie naukowe:
Stopień doktora nauk biologicznych w zakresie biologii uzyskany z wyróżnieniem,
nadany uchwałą Rady Naukowej Instytutu Biochemii i Biofizyki Polskiej Akademii
Nauk dnia 27 czerwca 2006 roku. Rozprawa doktorska pt. „Nowe inhibitory ludzkiej
metylotransferazy DNMT1 - komputerowe projektowanie i weryfikacja”, rozprawa
napisana w języku angielskim „New inhibitors of human DNMT1 methyltransferase -
computer design and evaluation” Promotor: prof. dr hab. Piotr Zielenkiewicz - Zakład
Bioinformatyki, Instytut Biochemii i Biofizyki PAN w Warszawie
Recenzenci:
- prof. dr hab. Andrzej Jerzmanowski, Wydział Biologii UW, Warszawa
- prof. dr hab. Grzegorz Grynkiewicz, Instytut Farmaceutyczny Warszawa
- prof. dr Sandor Suhai, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg
Tytuł magistra biologii o specjalności mikrobiologia uzyskany na Wydziale Biologii
Uniwersytetu Warszawskiego dnia 2 listopada 2000 roku. Praca magisterska pt.
“Ewolucja molekularna białek TBP archeonów, modelowanie struktur tych białek i
badanie czynników ich termostabilności” wykonana w Zakładzie Bioinformatyki
Instytutu Biochemii i Biofizyki PAN - promotor prof. Piotr Zielenkiewicz.
3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych
● 2008 – obecnie: adiunkt w Zakładzie Biologii Systemów, Instytut Biologii
Eksperymentalnej i Biotechnologii Roślin Uniwersytetu Warszawskiego.
● 2006 – obecnie: adiunkt w Zakładzie Bioinformatyki, Instytut Biochemii i
Biofizyki PAN
● 2005-2006: Zatrudniony w Instytucie Biochemii i Biofizyki PAN w Zakładzie
Bioinformatyki na stanowisku: biolog
● 2002-2005: Staż w trakcie doktoratu w Deutsches Krebsforschungszentrum
(DKFZ), Heidelberg, Niemcy (w sumie 2 lata)
2
● 2000-2004: Studia doktoranckie w Szkole Biologii Molekularnej Instytutu
Biochemii i Biofizyki PAN.
4. Wskazane osiągnięcia naukowe wynikające z art. 16, ust. 2 Ustawy z dnia 14
marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w
zakresie sztuki (Dz. U. nr 65, poz. 595 ze zm.):
Tytuł osiągnięcia naukowego:
Przewidywanie powinowactwa związków niskocząsteczkowych do receptorów
białkowych. Zastosowanie w badaniach przesiewowych.
a. Wykaz publikacji wchodzących w skład osiągnięcia:
● W skład osiągnięcia naukowego wchodzi 7 publikacji znajdujących się w bazie
Journal Citation Report (JCR).
● Sumaryczny współczynnik oddziaływania czasopism, w których ukazały się
publikacje wchodzące w skład osiągnięcia naukowego, zgodnie z bazą Web of
Science – 32
● Liczba cytowań publikacji wchodzących w skład osiągnięcia naukowego do dnia
złożenia wniosku (wg bazy Web of Science) – 38
● Liczba punktów MNiSW za publikacje wchodzące w skład osiągnięcia naukowego,
wszystkie kategoria A – 280
1. Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki, 2018, “Development of a Protein-Ligand Extended Connectivity (PLEC) fingerprint and its application for binding affinity predictions”, Bioinformatics. 2018 Sep 8 IF: 5,481, MNiSW: 45 2. Marta Stepniewska-Dziubinska, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2018, “Development and evaluation of a deep learning model for protein-ligand binding affinity prediction”, Bioinformatics. 2018 Nov 1;34(21):3666-3674 IF: 5,481, MNiSW: 45
3
3. Maciej Wójcikowski, Pedro J. Ballester oraz Paweł Siedlecki, 2017, “Performance of machine-learning scoring functions in structure-based virtual screening”, Sci Rep. 2017 Apr 25; 7:46710. IF: 4,259, MNiSW: 40 4. Marta Stepniewska-Dziubinska, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2017, “DeCAF-Discrimination, Comparison, Alignment Tool for 2D PHarmacophores.”, Molecules. 2017 Jul 6;22(7). IF: 2,861, MNiSW: 30 5. Maciej Wójcikowski, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2015, “Open Drug Discovery Toolkit (ODDT): a new open-source player in the drug discovery field.”, J Cheminform. 2015 Jun 22;7:26. IF: 4,547, MNiSW: 45 6. Maciej Wójcikowski, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2014, “DiSCuS: an open platform for (not only) virtual screening results management.”, J Chem Inf Model. 2014 Jan 27;54(1):347-54. IF: 4,068, MNiSW: 40 7. Szymon Kaczanowski*, Paweł Siedlecki* oraz Piotr Zielenkiewicz, 2009, “The High Throughput Sequence Annotation Service (HT-SAS) - the shortcut from sequence to true Medline words.”, BMC Bioinformatics. 2009 May 16;10:148 IF: 3,781, MNiSW: 35
Autor korespondencyjny
* Pierwszy współautor
Powyższe osiągnięcie naukowe zostało udokumentowane w formie cyklu
powiązanych tematycznie publikacji. Składa się na nie siedem artykułów naukowych.
W każdym z nich istotną część pracy wykonałem przy współpracy z doktorantami,
których byłem opiekunem dydaktycznym i naukowym. Jestem głównym autorem lub
autorem korespondencyjnym wszystkich tych publikacji, oprócz publikacji nr 7 której
jestem pierwszym współautorem.
4
b. Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z
propozycją ich ewentualnego wykorzystania
Wprowadzenie
Poszukiwanie związków nisko-cząsteczkowych zdolnych modulować wybrane funkcje
komórkowe, wpływać na aktywność białek i/lub na ich oddziaływanie ze sobą jest istotnym
elementem kierującym badaczy w stronę danej klasy związków chemicznych. Hillisch et al.
w pracy z 2015r [1] stwierdzają, że ponad połowa obecnie testowanych w I fazie testów
klinicznych nowych związków została opracowana przy współudziale metod in silico.
Metody te można podzielić zasadniczo na dwie gałęzie; 1) oparte o cechy znanych ligandów
(ang. ligand-based) oraz 2) oparte o cechy strukturalne badanych receptorów (ang. receptor
based). W swojej pracy oba typy metodologii starałem się twórczo rozwinąć, stosując je w
praktyce w prowadzonych projektach badawczych. W mojej ocenie szczególnie interesujące
wyniki udaje się uzyskać przy wykorzystaniu struktury celu białkowego; gdy na jego
podstawie można oprzeć przewidywania oddziaływań [2,3].
Kluczowymi elementami przewidywania powinowactwa ligandu do receptora jest
wygenerowanie konformacji przestrzennej takiego kompleksu oraz sposób w jaki kompleks
zostanie oceniony. Dla obu powyższych elementów istnieje szereg metod, przybliżeń oraz
ograniczeń związanych z właściwościami samych kompleksów oraz ograniczeń
obliczeniowymi [4]. Obecne metodologie skupiają się na ocenie kompleksów uzyskanych
dzięki metodom eksperymentalnym lub poprzez metody in silico, m.in. modelowanie
komparatywne [5] czy modelowanie de-novo [6,7]. W przypadku wykorzystania struktury
receptora problemem może być trudność uzyskania prawidłowej, “natywnej” konformacji
ligandu związanej z receptorem, a w konsekwencji nieprawidłowa ocena jego potencjalnej
aktywności [8,9]. Niestety problem ten wynika z właściwości samych celów biologicznych,
których konformacje potrafią się zmieniać, dopasować do związku niskocząsteczkowego. Do
pewnego stopnia rozwiązuje to dynamika molekularna [10], ensemble docking [11] lub w
pełni giętkie dokowanie [12] (ang. fully-flexible docking), jednak są to rozwiązania wrażliwe
na prawidłową parametryzację układów oraz wciąż kosztowne obliczeniowo, co bardzo
ogranicza ich zastosowanie w badaniach przesiewowych.
5
Na tym tle, dokowanie molekularne może mieć szereg zastosowań. W skrócie metoda polega
na zdefiniowaniu przestrzeni obejmującej fragment makromolekuły-receptora, np. centrum
aktywnego enzymu. Przestrzeń tą przeszukuje się konformacyjnie w celu znalezienia
skutecznie oddziałującej cząsteczki - najczęściej niedużego związku organicznego, peptydu,
fragmentu kwasu nukleinowego. Na tym etapie generowanych jest przeważnie kilka-
kilkanaście zróżnicowanych, potencjalnie korzystnych konformacji danego związku, w
których oddziałuje z receptorem. W badaniach porównawczych, w których odtwarzano
natywne kompleksy receptor-związek drobnocząsteczkowy, dokowanie molekularne osiąga
skuteczność rzędu 70-80% [13]. Natomiast dużo poważniejszym problemem całej
metodologii jest ocena kompleksu [4], tj. ocena siły oddziaływania ligandu z receptorem.
Proces oceny wygenerowanych konformacji jest obecnie najbardziej krytycznym elementem
skrinigu in silico; wpływa bezpośrednio na jego efektywność, oraz decyduje o poziomie
sukcesu (ang. success rate). Wygenerowane konformacje muszą zostać poddane ocenie aby
można było wybrać najbardziej prawdopodobną z nich oraz aby móc porównywać
konformacje różnych ligandów między sobą. W badaniach przesiewowych in silico (ang.
high throughput virtual screening - HTVS) to funkcje oceny odpowiadają za wskazywanie
nowych związków chemicznych, które mogą być aktywne i które warto testować
eksperymentalnie.
W kampaniach HTVS najczęściej przeszukuje się bibliotekę wielu setek tysięcy bądź
milionów związków chemicznych w celu wyłowienia tych kilku, które mogłyby potencjalnie
wiązać się z receptorem. Niestety w takim wypadku szybkie i dokładne oszacowania energii
wiązania nie jest możliwe [14]. W dokowaniu molekularnym stosuje się więc uproszczenia i
przybliżenia; funkcje oceniające powinowactwo ligandu na podstawie jego konformacji w
centrum aktywnym (ang. scoring functions”). Główna zaletą funkcji oceny jest szybkość,
dużo gorzej jest jednak z ich dokładnością [2,15]. Funkcje oceny są opracowywane w oparciu
o kompleksy rozwiązane metodami eksperymentalnymi, gdzie dopasowanie ligandu do
centrum jest bardzo wysokie. W przypadku dokowania natomiast często udaje się uzyskać
wiele konformacji sub-optymalnych (nie w pełni dopasowaną do struktury receptora), które
są wyzwaniem dla takich funkcji [4,16]. Inną wadą jest wykorzystywanie ograniczonej liczby
kompleksów do tworzenia funkcji oceny [13], co powoduje że nie wszystkie składowe
oddziaływań ligand-receptor mogą być dostatecznie częste w zestawie treningowym [17].
Funkcje oceny można zbudować na kilka różnych sposobów; wykorzystując do tego m.in.
6
pola siłowe, funkcje empiryczne oparte o potencjały statystyczne lub wszelkiego rodzaju
hybrydy wspomnianych kategorii [18]. Niezależnie od typu, wspomniane funkcje
charakteryzują się dobrze zdefiniowanym liniowym równaniem, którego elementy (typy
oddziaływań oraz ich wagi) są stałe [2]. Takie klasyczne funkcje oceny, oprócz
niewątpliwych zalet takich jak szybkość działania oraz łatwe zrozumienie “oceny” jaką
kompleks ligand-receptor otrzymuje, mają też podstawowe wady w postaci niskiej
dokładności i czułości [15].
Celem moich badań, które prowadziłem po uzyskaniu stopnia doktora, było znalezienie
takiego opisu struktury kompleksu ligand-receptor, który pozwoliłby uwzględniać
różnorodne, zależne od typu kompleksu siły wpływające na powinowactwo ligandu do
receptora oraz wykorzystać takie modele w badaniach przesiewowych zwiększając czułość i
specyficzność przeszukań. Badałem możliwość wykorzystania danych strukturalnych
dostępnych w publicznych bazach danych do dwóch rodzajów przewidywań: 1) wskazania
jakie związki drobnocząsteczkowe będa potencjalnie aktywne dla danej struktury receptora,
oraz 2) przewidywania potencjalnych celów molekularnych dla nowego związku
niskocząsteczkowego. Zarysowany problem jest bardzo złożony ale jednocześnie niezwykle
istotny z naukowego oraz aplikacyjnego punktu widzenia. Można podejść do niego na wiele
sposobów, wykorzystując różne źródła informacji, np. strukturę samego ligandu [19], pełne
struktury 3D kompleksów ligand-receptor [3,20] czy różne kombinacje powyższych [2,21].
W mojej pracy rozwijałem metody bio- i cheminformatyczne aby móc określić w jaki sposób
można wykorzystać elementy informacji strukturalnej do przewidywania powinowactwa
danego ligandu do receptora. Byłem szczególnie zainteresowany aby moje badania mogły
być stosowane w badaniach przesiewowych, gdzie liczy się szybkość porównywania oraz
możliwość uszeregowania związków potencjalnie oddziałujących od najbardziej do najmniej
prawdopodobnych (listy najlepiej ocenionych związków t.j. listy rankingowe - ang. ranking
lists). Poniżej przedstawiam niektóre z moich prac oraz komentarz dotyczący przyszłych
kierunków rozwoju moich badań.
DiSCuS
Moje badania rozpocząłem od klasycznych eksperymentów z dokingiem molekularnym,
zajmując się bardziej praktycznym aspektem badań przesiewowych. W ramach grantu PBS
“Nowe leki służące do celowanej terapii szpiczaków mnogich”, w którym kierowałem
7
zadaniem skriningowym, szukałem nowych związków niskoczasteczkowych mogących
wiązać się specyficznie i selektywnie z domeną PIN ludzkiego białka DIS. Poszukiwałem
dwóch typów związków; zdolnych chelatować jon/jony metalu, oraz związków
kompetytywnych, uniemożliwiających jonowi metalu przyjęcie pozycji pozwalającej na
przeprowadzenie reakcji chemicznej. Konieczne było więc wygenerowanie szeregu struktur
DIS3 i dla każdej z nich przeprowadzenie osobnego skriningu. Zależało mi na stworzeniu
systemu, który pozwoliłoby integrować ze sobą dane z symulacji in silico razem z danymi
eksperymentalnymi. Dzięki temu możliwa byłaby korekta modelu predykcyjnego (tj. modelu
statystycznego przewidującego wartość powinowactwa ligandu do receptora), złożonego z
kilku znanych funkcji oceny, na podstawie nowo-generowanych danych eksperymentalnych
o powinowactwie. System byłby więc “uczony”, która kombinacja i jakich funkcji daje
wyniki najbardziej zbliżone do modelu eksperymentalnego. Ten prosty system, w którym to
nie funkcja oceny jest poddawana modyfikacji ale jedynie jej waga w procesie oceny został z
powodzeniem rozwinięty w oprogramowaniu DiSCuS [20] - platformie do zarządzania i
analizowania wyników badań przesiewowych.
Najważniejszym od strony naukowej elementem DiSCuS jest moduł RankScore, służący do
znajdowania optymalnego modelu oceny konsensusowej. Moduł ten pozwala dopasowanie
udziału poszczególnych składników (funkcji) w znormalizowanej ocenie. Gdy
eksperymentalnie zmierzone aktywności są dostępne, DiSCuS pozwala wyliczyć wartości
AUC dla krzywych ROC [22] i wykorzystać je w celu zmierzenia wydajności każdej z
funkcji. Następnie system może automatycznie dopasować procedurę oceny poprzez
wprowadzenie różnych wag i/lub całkowite wyłączenie którejś z funkcji. Krzywa ROC jest
graficzną reprezentacją wydajności metody; pozwala na ocenę poprawności modelu
(klasyfikatora) poprzez opis jego czułości i specyficzności. Każdy punkt takiej krzywej jest
macierzą błędu dla innego poziomu odcięcia przy którym mierzymy wydajność metody.
Przykładowo jesli za punktu odcięcia przyjmiemy czułość 0,8 (metoda przewidziała
prawidłowo 80% aktywnych związków) to krzywa ROC pozwoli określić ile nieaktywnych
związków zostało przez model predykcyjny nieprawidłowo uznanych za aktywne.
Wyliczając pole powierzchni pod krzywą ROC (ROC AUC) otrzymujemy pojedynczą
wartość w przedziale [0,1], dzięki której możemy porównywac modele predykcyjne między
sobą [23]. Interpretacja AUC ROC to prawdopodobieństwo, że badany model predykcyjny
oceni wyżej losowy element klasy pozytywnej od losowego elementu klasy negatywnej.
8
Warto zauważyć iż nie ma jednej wartości granicznej, od której model uznać można za
“dobry”; zależy ona od typu danych czy specyfiki problemu. Jednakże gdy porównujemy
różne modele predykcyjne dla tych samych danych ROC AUC jest narzędziem bardzo
przydatnym.
DiSCuS może być używany do analizowania prostych eksperymentów dokowania z
pojedynczym celem, chociaż wiele jego zalet można zobaczyć dopiero podczas analizy
dużych danych (ang. “big data”) czyli dużych kampanii przesiewowych przeciwko wielu
celom. W ramach wspomnianego grantu wykonano w DiSCuS dokowanie około 1,9 miliona
związków niskocząsteczkowych z różnych baz danych, do pięciu modeli receptora przy
pomocy 3 różnych programów dokujących. Każdy związek posiadał średnio 5 różnych
konformacji dla pojedynczego receptora. Ostatecznie więc w DiSCuS wykonano analizę
około 140 milionów kompleksów ligand-receptor [20].
Oprócz analizy samych eksperymentów przesiewowych, w DiSCuS został opracowany nowy
sposób opisu interakcji występujących kompleksie ligand-receptor, nazwany “Binding
Profile”. Dzięki niemu można znaleźć szeroki zakres interakcji fizycznych obecnych w
kompleksie oraz zapisać je jako jednowymiarowe ciągi znaków (1D). Takie profile można
użyć do filtrowania lub do wzbogacania bibliotek ligandów. Co ważne można je porównać
pomiędzy ligandami lub konformacjami pojedynczego liganda. Obecnie w literaturze opisano
już kilka sposobów tworzenia takich profili [24–26], a sam profil interakcji stał się ważnym
narzędziem cheminformatycznym.
Ostatecznie DiSCuS został zbudowany jako system modułowy, z myślą o integracji różnych
narzędzi zewnętrznych. Ważne jest, aby myśleć o nim nie jako o zastępstwie dla znanych
narzędzi, ale raczej jako o centrum informacji, pozwalającym na wybranie istotnych cech z
różnych programów i zintegrowaniu ich w ujednoliconą platformę decyzyjną. Więcej
informacji o interfejsie, instalacji, dokumentacji użytkownika i źródłach znajduje się na
stronie DiSCuS: http://discus.ibb.waw.pl.
9
Figura 1. Wybrane funkcjonalności systemu DiSCuS. Po lewej moduł “Binding Profile”, po prawej moduł “RankScore” służący do analizy wyników dokowania i oceny konsensusowej.
ODDT
Zbudowanie systemu DiSCuS i wykorzystywanie go w projektach zarówno naukowych
(granty NCBiR: PBS oraz Lider) jak i komercyjnych (startupy Metheor Corp. i NooTech Sp.
z o.o.) uświadomiło mi, że aby zacząć stosować bardziej zaawansowane techniki analizy
interakcji ligand-receptor oraz w sposób wydajny testować hipotezy, wymagane będzie
przygotowanie cheminformatycznego warsztatu pracy. W tym celu został zaprojektowany
Open Drug Discovery Toolkit (ODDT) [27]; zestaw narzędzi i algorytmów dostosowanych
do pracy z danymi strukturalnymi kompleksów ligand-receptor. ODDT integruje w sobie dwa
najbardziej rozbudowane zestawy narzędzi; OpenBabel, w dużej części przeznaczony do
pracy z strukturami biomolekuł (receptorów) oraz RDKit posiadający wiele funkcji
skierowanych w stronę drobnocząsteczkowych związków chemicznych. Pośród wielu
zaimplementowanych metod, zarówno własnych jak i opracowanych przez innych badaczy,
najbardziej istotne w perspektywie czasu i wykorzystania oprogramowania stały się trzy
autorskie moduły: analiza interakcji białko-ligand, moduł służacy do dokowania oraz oceny
10
siły oddziaływania (ang. “docking and scoring”), oraz biblioteka umożliwiająca
projektowanie własnych wysokoprzepustowych protokołów (HTS).
Moduł analizy interakcji (ang. interaction module) to zestaw narzędzi pozwalających
analizować interakcje receptor-ligand. Pełna lista interakcji obecnie analizowanych przez
ODDT składa się z wiązań wodorowych, mostków solnych, kontaktów hydrofobowych,
wiązań halogenowych, układów pi (ang. “pi stacking”; face-to-face i edge-to-face), π-kation,
π-metal i koordynacji jonów. Dodatkowo interakcje kierunkowe, takie jak wiązania
wodorowe czy mostki solne, mają dwa tryby pracy: wersję “dokładną” (ang. “strict”), która
wskazuje czy parametry kątowe i odległościowe mieszczą się w granicach wartości
dopuszczalnych, oraz wersję “zgrubną” (ang. “crude”) gdy spełnione są tylko określone
kryteria odległości. Ta funkcjonalność jest szczególnie przydatna w przypadku pracy z
modelami komparatywnymi gdy struktura receptora może nie być dokładna. Interakcje są
wykrywane za pomocą własnych funkcji i mogą być analizowane w poszukiwaniu
charakterystycznego wzoru wiązań lub używane jako deskryptory dla funkcji oceny.
Moduł dokowania oraz oceny siły oddziaływania dostarcza jednolite narzędzie do
przygotowania danych wejściowych (np. baz ligandów) niezależne od wymagań konkretnego
oprogramowania dokującego oraz przeprowadza procedurę dokowania wybranym
algorytmem dokującym. Dostarcza również własną implementację dwóch ważnych modeli
(funkcji oceny) opartych o uczenie maszynowe: NNscore v2 [28] oraz trzy wersje RFscore
[29]. ODDT wykorzystuje pakiet sklearn [30] jako główny mechanizm uczenia
maszynowego i oceny działania funkcji oraz ffnet [31] do konstrukcji sieci neuronowych.
Moduł obsługuje również wielowątkowość nawet jeśli sam program dokujący takiej
funkcjonalności nie posiada co znacznie poprawia wykorzystanie wszystkich dostępnych
zasobów obliczeniowych.
Dla moich badań najistotniejszy był moduł pozwalający projektować nowe sposoby oceny
konformacji ligand-receptor. Dzięki ODDT zostało stworzone środowisko, w którym
możliwe jest efektywne testowanie nowych funkcji oceny opartych o nowe deskryptory i
uczenie maszynowe. Dwa główne typy modeli uczenia maszynowego to: regresory, dla
danych ciągłych takich jak wartości IC50, EC50, Ki/Kd; oraz klasyfikatory, stosowane do
danych kategorycznych np. ligandów oznaczonych jako aktywne lub nieaktywne. ODDT
pozwala na obsługę obu typów danych, dostarczając zestaw modeli predykcyjnych takich jak:
lasy losowe (ang. random forests), maszyny wektorów nośnych (SVM, ang. support vector
11
machines) oraz sztuczne sieci neuronowe (pojedyncze i wielowarstwowe). Wykazano, że
modele te sprawdzają się przy ocenie kompleksów białko-ligand [28,29,32] oraz w
metodologiach SAR i QSAR [33,34]. Bardzo istotna cechą ODDT są równiez wbudowane
mechanizmy pozwalające oceniać siłę przewidywania generowanych modeli. W jednym
podejściu można wyliczyć pole powierzchni pod krzywą (ROC AUC) oraz współczynnik
wzbogacania EF (ang. Enrichment Factor) w określonym procencie listy rankingowej.
Współczynnik wzbogacenia EF [35] jest metodą szczególnie przydatną w badaniach
przesiewowych. Współczynnik ten mówi o tym o ile więcej związków aktywnych znajduje
się w wybranym górnym procencie listy rankingowej, w stosunku do losowego rozkładu dla
zbioru związków o danej wielkości. Innymi słowy o ile lepszy jest model predykcyjny od
modelu losowego; w przypadku metod przesiewowych EF sugeruje jaki procent listy
związków należy poddać testom eksperymentalnym aby znaleźć związki aktywne.
Przykładowo, EF0,1% = 10 oznacza, że w najlepiej ocenionym 0,1% wszystkich związków
poddanych analizie jest 10 razy więcej związków aktywnych niż wynikałoby to z rozkładu
losowego. Może to oznaczać, że metoda która uzyskała taki wynik jest zdecydowanie lepszą
alternatywa w stosunku do “ślepego” testowania związków drobnocząsteczkowych [36].
Pamiętać jednak należy, iż w praktyce nie istnieje w pełni losowa bibliotek związków, w
której wszystkie możliwe układy cech są obecne w jednolitym rozkładzie. Współczynniki
wzbogacenia danego modelu predykcyjnego dla dwóch różnych baz związków mogą być
więc różne. Jeśli jednak wyniki osiągane przez model predykcyjny (np. funkcję oceny) różnią
się znacznie między zestawami danych poddawanych analizie, co gorsza dla nowych danych
przewidywania są znacząco słabsze, należy zwrócić baczną uwagę na problem przeuczenia
modelu [37].
W skrócie przeuczenie to sytuacja, w której model nie odtwarza trendów obecnych w danych
lecz odtwarza same dane. Dla przykładu, gdy model zawiera zbyt dużo parametrów w
stosunku do danych na których jest trenowany, poprzez minimalizację błędów na tych
danych wytworzony zostanie wzór opisujący praktycznie każdy element danych
wejściowych, również szum który się w nich znajduje. Powoduje to bardzo dobre
dopasowanie modelu do danych treningowych lecz słabą generalizację modelu czyli jego
przydatność do opisu nowych, nieznanych danych [38]. Aby kontrolować i unikać takiej
sytuacji można wykorzystać szereg metod walidacyjnych; w ODDT można zastosować
bardzo popularny sprawdzian krzyżowy (ang. cross validation). Sprawdzian krzyżowy, czy
12
walidacja krzyżowa, to metoda w której dane wejściowe dzielone są na podzbiory, następnie
część z nich jest wykorzystywana do stworzenia modelu natomiast pozostała część do
testowania jego wydajności. W ODDT zaimplementowano różne odmiany walidacji
krzyżowej: k-krotną walidację (ang. k-fold cross validation) oraz LOO / LPO (ang.
Leave-One-Out oraz Leave P Out).
Dzięki wspomnianym narzędziom ODDT obejmuje wszystkie elementy związane z budową
nowych modeli predykcyjnych opartych o uczenie maszynowe; od operacji na danych
wejściowych (struktury biomolekuł dostępne w PDBbind [13], DUD-E [39] oraz CASF
[13]), trenowanie, testowanie i walidację modelu, aż po ocenę jakości przewidywań
generowanych modeli. O ODDT można myśleć właśnie w kategorii warsztatu czy
laboratorium, gdzie pod ręką mamy zestaw narzędzi i metod, którymi możemy projektować
eksperymenty i analizować wyniki. Więcej informacji o ODDT mozna znaleźć na stronie
https://github.com/oddt/oddt.
Figura 2. Przegląd najważniejszych funkcjonalności Open Drug Discovery Toolkit (ODDT). Po lewej graficzne przedstawienie wybranych możliwości analizy danych na przykładzie aktywnych i nieaktywnych ligandów kinazy CK2. Po prawej przykładowy (rzeczywisty) kod ODDT, pozwalający zadokować (przy pomocy programu Autodock Vina) zestaw aktywnych ligandów o zadanych parametrach fizykochemicznych oraz ocenić je przy pomocy funkcji RF-score v1.
13
RF-Score-VS
Jak wspomniano wcześniej jednym z podstawowych problemów badawczych w ocenie
kompleksów ligand-receptor jest wykorzystanie konformacji sub-optymalnych pochodzących
z dokowania do przewidywania oddziaływania. Trzy najważniejsze elementy wprowadzające
szum do danych to 1) niedokładna konformacja ligandu w kompleksie z receptorem, 2)
sztywna, nie dopasowująca się do ligandu struktura receptora, oraz 3) nie uwzględnione
efekty biofizyczne takie jak efekt desolwatacji czy efekty entropowe. Bezpośrednie
symulacja tych elementów, np. giętkości kompleksu poprzez dynamikę molekularną,
prowadzi do poważnego wzrostu kosztu obliczeń powinowactwa, uniemożliwiając
zastosowanie takich rozwiązań do badań przesiewowych.
W moich poszukiwaniach zakładałem, że dwa pierwsze problemy, będące ze sobą
powiązane, można do pewnego stopnia rozwiązać stosując reprezentację kompleksu mniej
restrykcyjną niż klasyczne koordynaty kartezjańskie. Natomiast część efektów biofizycznych
będzie można uwzględnić pośrednio, wykorzystując większą liczbę danych strukturalnych
niż to dotychczas robiono trenując funkcje oceny.
Poszukując własnego rozwiązania dla reprezentacji danych rozwiązanie znalazłem w pracach
dr Pedro Ballestera, w szczególności [29], który zaproponował opis kompleksu
ligand-receptor oparty o zliczanie atomów tworzących otoczenie danego liganda. Było to
niezwykle interesujące z mojego punktu widzenia rozwiązanie przede wszystkim dlatego, że
opis kompleksu w dużo mniejszym stopniu opierał się na idealnym dopasowaniu molekuł,
pozwalając na bardziej korzystny opis konformacji sub-optymalnych występujących w
dokowaniu molekularnym. W metodzie tej dla każdego atomu ligandu tworzona jest sfera o
zadanym promieniu (na przykład 12Å) obejmująca atomy receptora. Następnie osobno
zostają zsumowane wszystkie znajdujące się w sferze typy atomów receptora i zapisane w
postaci jednowymiarowego ciągu sum. Przechodząc po kolei po atomach ligandu buduje się
ciągi lokalnych środowisk dla całego związku drobnocząsteczkowego. Przedstawioną
powyżej procedurę można modyfikować, np. podzielić sferę na mniejsze “pod-sfery” i w
zależności od odległości od centrum przypisać inną wagę lub też dodać dodatkowe
informacje, jak np. ocenę uzyskaną z innych, niezależnych funkcji oceny.
Opierając się na różnych sposobach opisu kompleksów zaproponowanych przez P. Ballestera
stworzyliśmy swój własny model predykcyjny, oparty o drzewa losowe [40,41], zwracający
powinowactwo danego związku do receptora. To co wyróżnia nasze rozwiązanie i co czyni je
14
wyjątkowym to wykorzystanie danych negatywnych w procesie uczenia modelu. Nasze
modele zostały wytrenowane na 102 różnorodnych celach białkowych, m.in. receptorach
GPCR, chemokinach, kinazach czy proteazach wirusowych, do których zostało
zadokowanych około 20.000 aktywnych i około 800.000 nieaktywnych związków z bazy
DUD-E [39]. Dane negatywne, czyli kompleksy białko-nieaktywny ligand stanowią więc
około 97,5% całego naszego zestawu danych. Takie dane nie są standardowo
wykorzystywane, a wręcz unika się ich przy trenowaniu modeli predykcyjnych; przyjmuje się
że wprowadzają one szum do zestawu treningowego [42]. Jednak w przypadku metod
przesiewowych to właśnie tego typu proporcje powinny być analizowane, gdyż właśnie z
takimi danymi model będzie miał do czynienia. To właśnie dyskryminacja pomiędzy
aktywnymi a nieaktywnymi związkami jest kluczową cechą jaką funkcja oceny powinna
posiadać.
Stosując ten tok myślenia zbudowaliśmy model predykcyjny nazwany RF-Score-VS [2],
którego podstawowym zastosowaniem jest ocena kompleksów ligand-receptor pod kątem ich
potencjalnego powinowactwa. Jednym z naszych głównych wyników jest uderzająca
poprawa rozróżniania związków aktywnych od nieaktywnych w górnych zakresach listy
rankingowej. Współczynnik wzbogacenia EF1% liczony jako średnia po wszystkich celach
białkowych wyniósł 39 dla modelu ogólnego zbudowanego dla wszystkich celów
białkowych, oraz 43.43 dla modelu budowanego dla każdego celu osobno. Najlepszy
klasyczny model funkcji oceny uzyskał 16.86, co daje około 2,2 razy więcej związków
aktywnych w górnym 1% listy przy wykorzystaniu naszej metody, pokazując nieprzeciętną
poprawę procesu przesiewowego. RF-Score-VS w porównaniu z funkcją oceny Autodock
Vina daje również 3 krotnie lepszą wartość korelacji aktywności, liczoną jako korelacja
Pearsona (odpowiednio Rp=0.56 vs Rp=-0.18). Oba te wyniki stały się podstawą do
napisania bardzo dobrze przyjętej publikacji, w krótkim czasie cytowanej przez wielu
badaczy [2]. Zaproponowane przez nas połączenie mniej restrykcyjnego modelu opisu
kompleksu ligand-receptor w połączeniu z dużo większym, bardziej zróżnicowanym
zestawem danych wzbogaconym o dane negatywne okazało się bardzo interesującym
rozwiązaniem. Warto zauważyć iż najliczniejszą klasą w naszych danych są nieaktywne
ligandy w kompleksie z receptorami (dane negatywne), natomiast wydajność naszej metody
jest liczona jako umiejętność znajdowania aktywnych ligandów w kompleksach. Reasumując
zastosowanie przygotowanych wg. naszego pomysłu danych oraz techniki nadzorowanego
15
uczenia maszynowego jaką są lasy losowe sprawiło, że udało się stworzyć nowy model oceny
wyników badań przesiewowych o wysokiej czułości i specyficzności, kilkukrotnie lepszej od
stosowanych dotychczas rozwiązań. Nasza praca w 2018 roku znalazła się na liście 100
najczęściej czytanych artykułów opublikowanych w Scientific Reports
(https://www.nature.com/collections/zzcpmcdkqp/content/76-100)
.
Figura 3. Wyniki uzyskane dzięki opracowaniu RF-Score-VS. Na panelu górnym porównanie rozrzutu i korelacji między rzeczywistymi wartościami powinowactwa związków aktywnych a przewidywaniami klasycznej funkcji oceny (Vina, po lewej) oraz RF-Score-VS (po prawej). Na panelu dolnym po lewej wyniki współczynnika wzbogacenia dla popularnych klasycznych funkcji oceny oraz RF-Score-VS. Na panelu dolnym po prawej sposób reprezentacji kompleksu ligand-receptor; dla atomu fluoru w ligandzie stworzona jest sfera 12A, następnie wszystkie typy atomów są zliczane do jednowymiarowego wektora sum. Dokładny opis metod oraz wyników znajduje się w [2].
16
Pafnucy
Sukces RF-Score-VS potwierdził, że zastosowanie mniej restrykcyjnej reprezentacji
kompleksów ligand-receptor pozwala na zbudowanie bardziej wydajnego modelu
przewidującego oddziaływania ligand-receptor. Zostało to jednak potwierdzone dla
ograniczonej liczby receptorów, t.j. 102 struktur. W publicznych bazach danych znajduje się
obecnie ponad 12 tysięcy rozwiązanych eksperymentalnie układów ligand-receptor [43,44].
Czy wykorzystanie większej liczby kompleksów spowoduje polepszenie czy pogorszenia
wyników przewidywań; czy sposób reprezentacji kompleksów zastosowany w RF-Score-VS
nie ogranicza odgórnie wydajności funkcji oceny opartej o niego? Próbując odpowiedzieć na
te pytania chciałem zbudować model, w którym reprezentacja kompleksu będzie pozwalać
modelowi samodzielnie wybierać elementy, które są istotne dla przewidywania oddziaływań.
Innymi słowy aby jak najbardziej ograniczyć inżynierię cech, które zostają wykorzystane do
trenowania modelu. Rozwiązaniem okazało się stworzenie sieci neuronowej mogącej służyć
jako funkcja oceny. W literaturze znane były już sieci pozwalające na klasyfikację ligandu
jako aktywny/nieaktywny [45,46]. My natomiast za cel postawiliśmy sobie aby nasza sieć
zwracała wartość powinowactwa dla kompleksu ligand-receptor; dzięki temu będzie mogła
być w pełni wykorzystana w badaniach przesiewowych.
Aby zwiekszyć liczbę struktur wykorzystalismy kompleksy ligand-receptor dostępne w bazie
PDBbind [13]. Baza została podzielona na 3 zestawy danych - treningowe, testowe oraz
zestaw walidacyjny wykorzystywany do kontroli procesu uczenia (t.j. oceny jak
minimalizacja błędu przewidywania dla zbioru treningowego poprawia wyniki dla
niezależnego zbioru danych). Zbiór treningowy obejmował 11906 kompleksów. W dwóch
zestawach testowych znalazło się 195 unikalnych kompleksów z podzbioru PDBBind „core
set 2013” i 290 kompleksów ze zbioru “core set 2016”. Zbiór walidacyjny to 1000 losowo
wybranych kompleksów z bazy PDBBind. Oczywiście żaden z kompleksów nie jest obecny
w zbiorze treningowym i testowym, tak aby nie występował problem wycieku danych (ang.
data leakage).
W naszym podejściu kompleks został opisany jako sześcian o bokach 20Å, zbudowany
wokół geometrycznego środka natywnego ligandu. Następnie atomy znajdujące się wewnątrz
takiego sześcianu zostały sprowadzone na trójwymiarową siatkę o rozdzielczości 1Å co
pozwoliło reprezentować kompleks jako macierz o ustalonym rozmiarze. Podejście to
pozwoliło na reprezentacje danych wejściowych w formie czterowymiarowych tensorów,
17
gdzie trzy z jego wymiarów to koordynaty kartezjańskie, zaś czwarty jest wektorem
opisującym “cechy” atomu. Wykorzystaliśmy 19 cech do opisania atomu:
● 9 bitów (1 jeśli obecny) odpowiadających typom atomów: B, C, N, O, P, S, Se,
halogen i metal.
● 1 liczba całkowita odpowiadająca hybrydyzacji
● 1 liczba całkowita odpowiadająca sumie wiązań z atomami ciężkimi
● 1 liczba całkowita odpowiadająca sumie wiązań z heteroatomami
● 5 bitów (1 jeśli obecny) odpowiadające obecności jednej z pięciu cech
zdefiniowanych wzorem SMARTS: hydrofobowy, aromatyczny, akceptor, donor oraz
pierścień
● 1 liczba odpowiadająca ładunkowi cząstkowemu (ang. partial charge)
● 1 liczba całkowita do rozróżniania ligandu (1) od receptora (-1)
Dzięki powyższej reprezentacji stworzyliśmy bardzo neutralne podejście do opisu
kompleksu, w którym receptor i ligand mają te same typy atomów (różniące się tylko jednym
bitem). Podejście to pełni funkcję regularyzacji [47] gdyż wymusza aby sieć wykrywała
interakcje między atomami receptora a liganda.
Do budowy modelu została wykorzystana biblioteka Tensorflow [48]. Po warstwie
wejściowej obsługującej dane następują 3 warstwy konwolucyjne (z redukcją wymiarowości
typu „max pooling”), a następnie 3 warstwy gęste. Warstwa wyjściowa składała się z jednego
neuronu liniowego zwracającego wartość powinowactwa. Aby poprawić uczenie modelu
zastosowaliśmy dwa sposoby regularyzacji. Pierwszym był tzw. „dropout” na poziomie 0.5
dla warstw gęstych, co oznacza, że podczas uczenia 50% neuronów było maskowanych i nie
brało udziału w przewidywaniu. Drugim sposobem regularyzacji była kara za zwiększenie
wag typu L2. To drugie podejście pozwoliło nam też śledzić jak zmieniają się wartości kar
dla poszczególnych cech atomów.
Tak skonstruowany model został wytrenowany z wykorzystaniem wspomnianych wcześniej
kompleksów ligand-receptor. Model osiągnął znacznie lepszą dokładność (korelację między
strukturą kompleksu a wartością powinowactwa) od wszystkich 20 powszechnie używanych
funkcji oceny. Najlepsza funkcja X-score osiągnęła współczynnik korelacji Pearsona na
poziomie 0.6, podczas gdy sieć neuronowa uzyskała R=0.7 dla zbioru testowego z 2013 roku
oraz R=0.78 dla zbioru z roku 2016 [3]. Nasze badania potwierdziły więc hipotezę iż
wykorzystanie większej liczby danych strukturalnych jest możliwe i zwiększa wydajność
18
modelu predykcyjnego. Dodatkowo wydaje się iż najważniejsze, najbardziej istotne elementy
konieczne do przewidywania powinowactwa znajdują mogą być odnalezione w danych
strukturalnych (t.j. kompleksach ligand-receptor rozwiązanych eksperymentalnie). Innymi
słowy struktura kompleksu ligand-receptor, przy założeniu jej w miarę prawidłowej
konformacji, niesie w sobie dostatecznie dużo informacji aby zadanie przewidywania
powinowactwa można było rozwiązać w dostatecznie dobrym przybliżeniu.
Ważnym celem naszych badań było też zrozumienie w jaki sposób model wybiera cechy
które wykorzystuje do przewidywania powinowactwa; w jaki sposób odróżniania sygnału od
szumu i jak stabilne są uzyskane wyniki. W przypadku sieci neuronowych nie jest to zadanie
łatwe. W pierwszej kolejności zbadaliśmy jak wygląda zakres kar za zwiększenie wag dla
poszczególnych cech atomów które sieć analizowała. Ich zakres pośrednio mówi o wpływie
jaki dana cecha miała na model; jeśli kary dla danej cechy różnią się znacząco od
wyjściowego “0”, cecha taka musi nieść informację istotną dla modelu i zwracanego
przewidywania. Cechą o najszerszym zakresie jest cecha odróżniająca receptor od ligandu.
Wynik ten wskazuje, że powinowactwo wiązania zależy od związku między tymi dwiema
cząsteczkami i że rozpoznanie ich przez sieć jest kluczowe. Ponadto wagi dla typów atomów
selenu i boru (odpowiednio Se i B) zmieniły się nieznacznie i są bliskie zeru. Wynik ten
można interpretować na dwa sposoby: albo sieć znalazła inne cechy kompleksów
białko-ligand, ważniejsze dla powinowactwo wiązania, lub z powodu rzadkiego
występowania tych typów atomów w ligandach, sieć nie była w stanie znaleźć żadnych
ogólnych wzorów dla ich wpływu na powinowactwo wiązania.
Aby dokładniej sprawdzić, w jaki sposób sieć wykorzystuje dane wejściowe,
przeanalizowaliśmy wpływ brakujących danych na przewidywania. W tym celu wybraliśmy
jeden z kompleksów PDE10A z inhibitorem benzimidazol (kompleks PDB ID: 3WS8, ligand
PDB ID: X4C). następnie zostały wygenerowane 343 “uszkodzone” kompleksy z
brakującymi danymi. Brakujące dane zostały wygenerowane przez usunięcie sześcianu o
boku 5Å z oryginalnych danych i systematyczne przesuwanie krokiem 3Å we wszystkich
kierunkach. Następnie obróciliśmy kompleks o 180° wokół osi X i wykonaliśmy tę samą
procedurę, uzyskując kolejne 343 uszkodzone dane wejściowe. Dla każdej z dwóch
orientacji, analizowaliśmy 15 uszkodzonych wejść, które miały największy spadek
przewidywanego powinowactwa aby ustalić, które brakujące atomy kompleksu spowodowały
największe spadki w przewidywaniach. Dla obu orientacji został zidentyfikowany ten sam
19
region zawierający ligand i jego najbliższe sąsiedztwo. Zawiera on aminokwasy
uczestniczące w oddziaływaniach z ligandem, tj. Gln726 i Tyr693 tworzące wiązanie
wodorowe z ligandem, Phe729, który tworzy oddziaływanie π-π oraz Met713, który tworzy
hydrofobowe kontakty. Metodologia przedstawiona powyżej może być zastosowana do
innych kompleksów w celu wyjaśnienia konkretnych interakcji ligand-receptor z
najsilniejszym wpływem na przewidywanie.
Nasz model jest zdolny nie tylko do rozróżniania związków aktywnych od nieaktywnych, ale
co ważne dostarcza wartość powinowactwa. Może być więc przydatny w wielu
zastosowaniach, w tym podczas wirtualnego badania przesiewowego. Jeden z naszych
recenzentów stwierdził nawet, że "chciałbym pochwalić autorów za świetną pracę, z której
powinni być dumni. Będzie to miało znaczącą korzyść dla szerszej społeczności i być może
zainicjuje nową rewolucję w funkcjach scoringowych " (ang. “I would like to applaud the
authors for an excellent piece of work of which they should be proud. This will be of
significant benefit to the wider community and perhaps spearhead a new revolution in scoring
functions”). Kod źródłowy oraz oprogramowanie dostępne jest jako repozytorium git pod
adresem: http://gitlab.com/cheminfIBB/pafnucy.
20
Figura 4. Zastosowanie głębokiej, konwolucyjnej sieci neuronowej [3] do przewidywania powinowactwa kompleksów ligand-receptor. U góry wyniki korelacji Pearsona (Rp) dla dwóch zestawów danych (core 2013 - 195 kompleksów, core2016- 295 kompleksów). U dołu po lewej graficzna reprezentacja rozrzutu kar dla cech atomów kompleksu, wskazująca które cechy były dla modelu istotne. U dołu po prawej przykład przewidywania dla kompleksu białka PDE10 i inhibitora benzoimidazolowego (PDB ID: 3WS8; ligand PDB ID: X4C). Poprzez analizę, które usunięte fragmenty danych były odpowiedzialne za zmniejszoną wydajność przewidywania, można w naszej metodzie odtworzyć wzór wiązania związku do receptora. DeCAF
Szukając nowych rozwiązań związanych z przewidywaniem powinowactwa ligand-receptor
badałem metody w których to struktura związku niskocząsteczkowego (liganda) niosłaby
informację poddawaną analizie, zaś struktura receptora nie byłaby uwzględniana. Taki układ
ma podstawową zaletę; nie jest konieczne generowanie konformacji kompleksu
ligand-receptor [49]. W tego typu metodach problemem jest natomiast uwzględnienie
możliwych konformacji przestrzennych związku [50]. Konformacje mogą znacząco wpływać
21
na właściwości liganda, szczególnie istotne dla potencjalnego wiązania z receptorem.
Niejednokrotnie niewielka różnica między konformacjami tego samego związku prowadzi do
uzyskiwania bardzo różnych wyników porównania [51]. Niemniej uważałem, że
uwzględnienie w reprezentacji liganda jego cech przestrzennych będzie korzystne dla
zwiększenia możliwości przewidywania projektowanej metodologii.
Generowanie dużej liczby konformacji ligandu oraz porównywanie takich konformacji
powoduje znaczne wydłużenie obliczeń. Aby rozwiązać ten problem, opracowaliśmy własną,
rozszerzoną reprezentację cząsteczki, która jest mniej złożona niż model 3D, ale uwzględnia
rozmieszczenie przestrzenne cech. Zaproponowane rozwiązanie opiera się na wykorzystaniu
względnych odległości między poszczególnymi atomami liganda. Dzięki temu związek mógł
zostać opisany jako graf, w którym długości krawędzi pomiędzy wierzchołkami są równe
liczbie wiązań dzielących odpowiadające im atomy. Same atomy zaś zostały zamienione na
punkty farmakoforowe. Pozwoliło to na wprowadzenie “cech” atomów (np. donor/akceptor
wiązania wodorowego) do porównania. Wykorzystanie grafu pozwoliło ominąć generowanie
konformacji i umożliwiło szybkie i wydajne porównywanie związków. Dodatkowym
elementem wzbogacającym reprezentację było zastosowanie wag dla poszczególnych cech
farmakoforowych. Wagi te odpowiadają częstości obserwowania danego elementu struktury
w porównywanych cząsteczkach z których stworzono farmakofor; można je też ręcznie
modyfikować, wprowadzając w ten sposób dodatkową informację do modelu [19].
Stworzona reprezentacja w pierwszej kolejności miała służyć do porównywania związków
między sobą i znajdowania części wspólnej. Nasza metoda oferuje więc miarę podobieństwa
cząsteczek opartą o ich cechy fizyko-chemiczne i przestrzenne, abstrahując od szczegółów
budowy. Pozwala więc na wyszukiwanie cząsteczek podobnych do danego liganda lub do
bardziej złożonego modelu, opisującego całą grupę cząsteczek aktywnych. To właśnie dzięki
tym właściwościom można wykorzystać naszą metodę - DeCAF (Discrimination,
Comparison, Alignment Tool for 2D PHarmacophores) do przewidywania aktywności
nowych związków drobnocząsteczkowych w badaniach przesiewowych.
Nasza metodologa została przetestowana na kilka różnych sposobów na dwóch zestawach
danych: 1) zestawie opracowanym przez Riniker i Landrum [52] składającym się z 88 celów
białkowych (receptorów) pozwalając porównać się z obecnie stosowanymi metodami 2D
(tzw. odciski palców, ang. fingerprints), oraz 2) zestawie 73 receptorów odtworzonym przez
nas na podstawie Lounkine et al. [53] Zestaw ten pozwolił porównać się z bardziej
22
wyrafinowaną metodą porównywania cząsteczek (SEA - Similarity Ensemble Approach -
[53] ), zmniejszającą liczbę fałszywych pozytywnych wyników.
Z przeprowadzonych przez nas eksperymentów jasno wynikało, że nasza metoda nie jest
znacząco lepsza ani gorsza od 14 przetestowanych typów odcisków palców. Swoją przewagę
natomiast ujawnia przede wszystkim we wczesnym wzbogaceniu EF. W wysokim zakresie
listy rankingowej zapewnia dużą liczbę prawdziwie pozytywnych wyników odznaczających
się wysoka oceną, a także małą liczbę fałszywie pozytywnych przewidywań z wysoką oceną.
Taka kombinacja nie jest dostępna dla żadnego z testowanych odcisków palców [19].
Ciekawe okazały się też porównania z USRCAT, metodą 3D wykorzystującą rozpoznawanie
kształtu. Wybraliśmy USRCAT, ponieważ uważany jest za dokładny i efektywny algorytm
porównujący cząsteczki. Jego jedynym czasochłonnym etapem jest proces generowania
konformerów. Z naszych porównań wynika że skuteczność DeCAF była porównywalna lub
lepsza niż USRCAT. Natomiast brak konieczności generowania konformerów dla każdej
cząsteczki w przypadku naszej metody pozwala ją zastosować do znacznie większych
zbiorów danych.
Uzyskane przez nas rezultaty pokazują, że dla większości receptorów zastosowanie naszego
rozwiązania w postaci pakietu DeCAF [19] pozwala lepiej oceniać aktywność cząsteczek niż
najczęściej używany algorytm SEA [53], używający wyłącznie reprezentacji 2D. Dodatkowo
nasze rozwiązanie, wykorzystujące informację 3D można wykorzystać w badaniach
przesiewowych, co wyróżnia je na tle konkurencji. W przypadku USRCAT [54], choć samo
przeszukanie jest porównywalnie szybkie, etap generowania modeli dla zestawu związków
jest na tyle długi że nie udało nam się w skończonym czasie ich wygenerować dla wszystkich
testowanych receptorów.
Podsumowując pakiet oprogramowania pod nazwą DeCAF pozwolił nam na stworzenie
szybkiego i skutecznego narzędzia do oceny aktywności cząsteczek chemicznych.
Opracowana metoda ma wiele potencjalnych zastosowań związanych z komputerowym
projektowaniem leków. Oprogramowanie można pobrać z repozytorium:
https://bitbucket.org/marta-sd/decaf/
23
Figura 5. Konstrukcja modelu DeCAF opartego o strukturę ligandu oraz niektóre uzyskane wyniki. U góry schematyczne przedstawienie metody opartej o cechy farmakoforowe i odległości między atomami. U dołu po lewej porównanie przewidywania modelu DeCAF z metodą SEA na zestawie 35 receptorów. U dołu szczegółowe porównanie przewidywania modelu DeCAF i różnych metod 2D. Bardziej szczegółowy opis metodologii oraz wyników znajduje się w [19] PLEC FP
Kontynuując moje poszukiwania nowych sposobów reprezentowania kompleksu
białko-ligand, w celu ograniczenia wykorzystania współrzędnych kartezjańskich, badałem
możliwość wykorzystania odcisków palców do opisu interakcji kompleksu ligand-receptor
(ang. interaction fingerprints, IFP). Odciski palców (ang. fingerprints, FP) są jednym z
kluczowych metod w cheminformatyce, pozwalających na efektywną reprezentację
cząsteczek przy pomocy wektorów o stałej długości zawierające typy boolowskie lub liczby
całkowite. Odciski palców (FP) mogą również służyć do reprezentowania oddziaływań
wewnątrzcząsteczkowych. Niektóre interesujące przykłady takiego zastosowania obejmują
SiFT (Structural Interaction Fingerprints - [55]), PyPLIFs (Protein–Ligand Interaction
Fingerprints - [25]) lub bardziej zaawansowany (Structural Protein–Ligand Interaction
Fingerprint [24]). Wszystkie one wykorzystują zdefiniowane wcześniej, znane typy
oddziaływań, takie jak wiązania wodorowe, wiązania halogenowe lub układy π-π. Istnieją
24
również warianty IFP, które grupują znane interakcje według typu aminokwasu z którym
oddziałuje ligand; np. SILIRID - Simple Ligand–Receptor Interaction Descriptor [26].
Z moich poprzednich prac, szczególnie wyników uzyskanych dzięki RF-Score-VS oraz
eksperymentów z uczeniem głębokim, wywnioskowałem że nie jest konieczne dokładne
zdefiniowanie interakcji między ligandem i receptorem i stosowanie ich do opisu kompleksu.
To stwierdzenie jest prawdziwe szczególnie w przypadku zaszumionych danych, w moim
przypadku wyników wysokoprzepustowych badań przesiewowych [2] lub też gdy
wykorzystuje się duże zbiory danych strukturalnych uzyskanych w wyniku eksperymentów o
różnej dokładności, w różnych warunkach fizykochemicznych i/lub różnej metodologii [3].
W przypadku przewidywań powinowactwa wystarczy prosta, (a nawet uproszczona)
reprezentacja informacji 3D, w której interakcje nie są zdefiniowane jawnie (ang. explicit),
ale raczej wynikają pośrednio (an. implicit) w procesie uczenia statystycznego. W
opisywanym projekcie próbowałem połączyć ten pomysł z koncepcją IFP, aby zapewnić
prosty, zunifikowany sposób opisywania kompleksu białko-ligand, jednak wystarczająco
“bogaty” aby interakcje ligand-receptor mogły zostać pośrednio zakodowane.
Nasze rozwiązanie (nazwane PLEC FP - Protein-Ligand Extended Connectivity Fingerprint
[21]) opiera się na odcisku palca ECFP przedstawionym przez [56] i wykorzystującym
otoczenie atomu w przestrzeni, nie zaś obecności (lub braku) zdefiniowanych grup
funkcyjnych czy podstruktur. W przeciwieństwie do ECFP w naszym podejściu używamy
tylko atomów liganda mających kontakt z inną molekułą. Wektor PLEC FP przechowuje
więc otoczenia atomów z obu wzajemnie oddziałujących elementów kompleksu, a sposób ich
kodowania pozwala na wysoce wydajne przetwarzanie i porównywanie.
Aby poznać mocne i słabe strony naszego podejścia, testowaliśmy PLEC FP pod kątem
wykorzystania reprezentacji do przewidywania powinowactwa. Do tego celu użyliśmy bazy
PDBBind [44]: “general set” do treningu oraz zestawów “core set” v.2013 i v.2016 do
testów. Dodatkowo wykorzystaliśmy zestaw porównawczy CASF-2013 [13] do porównania
naszych wyników z 20-ma aktualnie wykorzystywanymi funkcjami oceny (ang. scoring
functions, SF). Trzy typy modeli uczenia maszynowego zostały wytrenowane z
wykorzystaniem reprezentacji PLEC FP do przewidywania wartości powinowactwa
kompleksów ligand-receptor; 1) regresja liniowa, 2) lasy losowy (ang. random forests) i 3)
sieć neuronowa typu FC, ang. fully connected).
25
Pierwszym ważnym wnioskiem płynącym z naszych porównań jest to, że wyniki trzech
różnych modeli wytrenowanych na PLEC FP są dość podobne. Taka spójna wydajność
przewidywań, tj. stabilność wyników, jest najprawdopodobniej spowodowana zakodowaniem
w reprezentacji PLEC ważnych globalnych cech kompleksu. Chociaż niewielki wzrost
wydajności jest możliwy poprzez zmianę modelu liniowego na bardziej złożony, taki jak las
losowy czy sieć neuronowa, preferowana jest regresja liniowa ze względu na swoją prostotę.
Współczynniki takiego modelu można interpretować bezpośrednio, określając wpływ danej
cechy na przewidywanie powinowactwa ligandu. Co ważne, każdy bit w PLEC FP można
przypisać do macierzystej podstruktury w kompleksie, co bardzo rozszerza możliwości
zastosowania PLEC FP.
Bardzo obiecujące były również wyniki wydajności przewidywań modeli wytrenowanych na
reprezentacji PLEC FP. Zarówno model liniowy jak i sieć neuronowa testowane na zestawie
v.2016 osiągnęły Rp = 0,817. Dla zestawu v.2013 model liniowy i sieć neuronowa uzyskały
odpowiednio Rp = 0,771 i Rp = 0,764. Model liniowy był również nieznacznie lepszy niż
najnowsza funkcja oceny oparta o ML: RF-Score v3 (Rp = 0.803, test na zestawie v.2016),
zapewniając jednocześnie znacznie prostszy i łatwiejszy do interpretacji wynik. Ponadto
wyniki dla zestawu porównawczego CASF-2013 wykazały, że model liniowy PLEC jest
wyraźnie lepszy niż wszystkie 20 funkcji oceny przetestowane na tym zestawie. Najlepsza
funkcja X-Score uzyskała Rp = 0,614, w porównaniu do Rp = 0,757 dla PLEC FP. Zgodnie z
naszą najlepszą wiedzą model liniowy wytrenowany na reprezentacji PLEC FP jest
najlepszym opublikowanym modelem testowanym na tych zestawach danych, a ponadto jest
też najmniej skomplikowany.
Na koniec w porównaniu z innymi metodami stosowanymi do reprezentowania kompleksów
receptor-ligand, nasze rozwiązanie również dawało konsystentne i bardzo dobre wyniki
korelacji przewidywań z wartościami eksperymentalnymi. Tu również obserwowaliśmy iż
nawet najprostszy model liniowy zbudowany na reprezentacji PLEC (Rp= 0.817) był lepszy
niż najbardziej wydajne modele ML wytrenowane na innych IFP. Na zestawie testowym
v.2016 model liniowy oparty na reprezentacji SILIRID uzyskał Rp = 0,36, a sieć neuronowa
osiągnęła Rp = 0,52. Z kolei reprezentacja SPLIF pozwoliła uzyskać znacznie lepszą choć
wciąż niższą korelację; Rp = 0,78 zarówno dla modelu liniowego oraz sieci neuronowej.
Podsumowując, wykazaliśmy że reprezentacja PLEC FP jest dokładna i działa wyjątkowo
dobrze nawet z prostym modelem regresji liniowej. Dodatkowo analiza współczynników
26
równania liniowego może pokazać wpływ danego kontaktu na przewidywane powinowactwo
ligandu. Chociaż podjęto wiele prób opracowania wszechstronnych odcisków palców
interakcji (IFP), nadal brakuje ogólnego, prostego i łatwego do interpretacji rozwiązania.
Wierzę, że nasze wyniki uprawniają nas do przedstawić FP PLEC jako kandydata do tego
zadania.
PLEC FP jest zaimplementowany w ODDT, Open Drug Discovery Toolkit,
https://github.com/oddt/oddt. Dodatkowo PLEC FP i inne funkcjonalności
zaimplementowane w ODDT można łatwo przetestować za pomocą przeglądarki
internetowej za pomocą MyBindera, patrz https://github.com/oddt/notebooks.
HTSAS
Oprócz metod przewidywania oddziaływania związków drobnocząsteczkowych z
receptorami szukałem także metod, które pozwalały znajdywać nowe receptory - cele
molekularne dla związków. W związku z tym zająłem się metodami automatycznego
poszukiwania informacji w literaturze naukowej, w szczególności skierowanymi w stronę
automatycznej adnotacji funkcjonalnej białek. Wynikiem tych zainteresowań były prace dwie
prace w BMC Bioinformatics [57] (jestem jednym z dwóch pierwszych autorów) oraz
Bioinformatics [58] (drugi współautor). Prace te pozwoliły mi rozwinąć warsztat statystyczny
oraz programistyczny, przede wszystkim skierowany na wyszukiwanie istotnych sygnałów w
bardzo zaszumionych danych. Dzięki uzyskanym wynikom zainteresowałem się wieloma
innymi celami molekularnymi i nawiązałem współpracę z szeregiem pracowni czego efektem
były prace które omawiam w rozdziale “pozostałe osiągnięcia naukowe”.
Podsumowanie
Przewidywanie powinowactwa związków niskocząsteczkowych do celów białkowych
(receptorów) jest skomplikowanym i wieloaspektowym problemem nad którym pracuje wielu
badaczy na całym świecie. Istnieje przekonanie, że dane strukturalne nie niosą w sobie
wystarczającej informacji aby problem ten skutecznie rozwiązać. Do pewnego stopnia jest to
prawda; jasne jest, że dane uzyskiwane dzieki krystalografii rentgenowskiej, NMR, CryoEM
czy modelowaniu nie opisują np. właściwości ADME (ang. absorption, distribution,
metabolism, excretion). Niemniej moje eksperymenty i opublikowane wyniki wskazują, iż
dane strukturalne zawierają dużo więcej informacji niż standardowo poddawanych jest
27
doi:10.1093/bioinformatics/bty374
4. Chaput L, Mouawad L. Efficient conformational sampling and weak scoring in docking programs? Strategy of the wisdom of crowds. J Cheminform. 2017;9: 37.
5. Siedlecki P, Garcia Boy R, Comagic S, Schirrmacher R, Wiessler M, Zielenkiewicz P, et al. Establishment and functional validation of a structural homology model for human DNA methyltransferase 1. Biochem Biophys Res Commun. 2003;306: 558–563.
6. Xu D, Zhang Y. Ab initio protein structure assembly using continuous structure fragments and optimized knowledge-based force field. Proteins. 2012;80: 1715–1735.
7. Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A. Coarse-Grained Protein Models and Their Applications. Chem Rev. 2016;116: 7898–7936.
8. Law V, Knox C, Djoumbou Y, Jewison T, Guo AC, Liu Y, et al. DrugBank 4.0: shedding new light on drug metabolism. Nucleic Acids Res. 2014;42: D1091–7.
9. Morra G, Genoni A, Neves MAC, Merz KM Jr, Colombo G. Molecular recognition and drug-lead identification: what can molecular simulations tell us? Curr Med Chem. 2010;17: 25–41.
10. Warren GL, Do TD, Kelley BP, Nicholls A, Warren SD. Essential considerations for using protein-ligand structures in drug discovery. Drug Discov Today. 2012;17: 1270–1281.
11. Sliwoski G, Kothiwale S, Meiler J, Lowe EW Jr. Computational methods in drug discovery. Pharmacol Rev. 2014;66: 334–395.
12. Crunkhorn S. Computational chemistry: Novel virtual screening approach. Nat Rev Drug Discov. 2016;16: 18.
13. Li Y, Han L, Liu Z, Wang R. Comparative assessment of scoring functions on an updated benchmark: 2. Evaluation methods and general results. J Chem Inf Model. 2014;54: 1717–1736.
14. Gilson MK, Given JA, Bush BL, McCammon JA. The statistical-thermodynamic basis for computation of binding affinities: a critical review. Biophys J. 1997;72: 1047–1069.
15. Huang S-Y, Grinter SZ, Zou X. Scoring functions and their evaluation methods for protein-ligand docking: recent advances and future directions. Phys Chem Chem Phys. 2010;12: 12899–12908.
16. Waszkowycz B, Clark DE, Gancia E. Outstanding challenges in protein-ligand docking and structure-based virtual screening: Outstanding challenges in protein-ligand docking and structure-based virtual screening. WIREs Comput Mol Sci. 2011;1: 229–259.
17. Voth AR, Khuu P, Oishi K, Ho PS. Halogen bonds as orthogonal molecular interactions to hydrogen bonds. Nat Chem. 2009;1: 74–79.
18. Xu W, Lucke AJ, Fairlie DP. Comparing sixteen scoring functions for predicting biological activities of ligands for protein targets. J Mol Graph Model. 2015;57: 76–88.
19. Stepniewska-Dziubinska MM, Zielenkiewicz P, Siedlecki P. DeCAF-Discrimination, Comparison, Alignment Tool for 2D PHarmacophores. Molecules. 2017;22. doi:10.3390/molecules22071128
20. Wójcikowski M, Zielenkiewicz P, Siedlecki P. DiSCuS: an open platform for (not only) virtual screening results management. J Chem Inf Model. 2014;54: 347–354.
21. Wójcikowski M, Kukiełka M, Stepniewska-Dziubinska M, Siedlecki P. Development of a Protein-Ligand Extended Connectivity (PLEC) Fingerprint and Its Application for Binding Affinity Predictions. 2018; doi:10.26434/chemrxiv.5928406.v1
22. Metz CE. Basic principles of ROC analysis. Semin Nucl Med. 1978;8: 283–298.
29
23. DeLong ER, DeLong DM, Clarke-Pearson DL. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics. 1988;44: 837–845.
24. Da C, Kireev D. Structural protein-ligand interaction fingerprints (SPLIF) for structure-based virtual screening: method and benchmark study. J Chem Inf Model. 2014;54: 2555–2561.
25. Radifar M, Yuniarti N, Istyastono EP. PyPLIF: Python-based Protein-Ligand Interaction Fingerprinting. Bioinformation. 2013;9: 325–328.
26. Chupakhin V, Marcou G, Gaspar H, Varnek A. Simple Ligand-Receptor Interaction Descriptor (SILIRID) for alignment-free binding site comparison. Comput Struct Biotechnol J. 2014;10: 33–37.
27. Wójcikowski M, Zielenkiewicz P, Siedlecki P. Open Drug Discovery Toolkit (ODDT): a new open-source player in the drug discovery field. J Cheminform. 2015;7: 26.
28. Durrant JD, McCammon JA. NNScore 2.0: a neural-network receptor-ligand scoring function. J Chem Inf Model. 2011;51: 2897–2903.
29. Ballester PJ, Mitchell JBO. A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking. Bioinformatics. 2010;26: 1169–1175.
30. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine Learning in Python. J Mach Learn Res. 2011;12: 2825–2830.
31. Wojciechowski M. Feed-forward neural network for python. Technical University of Lodz (Poland), Department of Civil Engineering, Architecture and Environmental Engineering, http://ffnet sourceforge net. 2011;
32. Zilian D, Sotriffer CA. SFCscore(RF): a random forest-based scoring function for improved affinity prediction of protein-ligand complexes. J Chem Inf Model. 2013;53: 1923–1933.
33. Varnek A, Baskin I. Machine learning methods for property prediction in chemoinformatics: Quo Vadis? J Chem Inf Model. 2012;52: 1413–1437.
34. Cruz-Monteagudo M, Medina-Franco JL, Perera-Sardiña Y, Borges F, Tejera E, Paz-Y-Miño C, et al. Probing the Hypothesis of SAR Continuity Restoration by the Removal of Activity Cliffs Generators in QSAR. Curr Pharm Des. 2016;22: 5043–5056.
35. Bender A, Glen RC. A Discussion of Measures of Enrichment in Virtual Screening: Comparing the Information Content of Descriptors with Increasing Levels of Sophistication. J Chem Inf Model. American Chemical Society; 2005;45: 1369–1375.
36. Truchon J-F, Bayly CI. Evaluating virtual screening methods: good and bad metrics for the “early recognition” problem. J Chem Inf Model. 2007;47: 488–508.
37. Empereur-Mot C, Guillemain H, Latouche A, Zagury J-F, Viallon V, Montes M. Predictiveness curves in virtual screening. J Cheminform. 2015;7: 52.
38. Tetko IV, Livingstone DJ, Luik AI. Neural network studies. 1. Comparison of overfitting and overtraining. J Chem Inf Comput Sci. American Chemical Society; 1995;35: 826–833.
39. Mysinger MM, Carchia M, Irwin JJ, Shoichet BK. Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking. J Med Chem. 2012;55: 6582–6594.
40. Ho TK. The random subspace method for constructing decision forests. IEEE Trans Pattern Anal Mach Intell. 1998;20: 832–844.
41. Breiman L. Random Forests. Mach Learn. 2001;45: 5–32.
42. Chawla NV. Data Mining for Imbalanced Datasets: An Overview. In: Maimon O, Rokach L, editors. Data
30
Mining and Knowledge Discovery Handbook. Boston, MA: Springer US; 2005. pp. 853–867.
43. Wang R, Fang X, Lu Y, Yang C-Y, Wang S. The PDBbind database: methodologies and updates. J Med Chem. 2005;48: 4111–4119.
44. Liu Z, Su M, Han L, Liu J, Yang Q, Li Y, et al. Forging the Basis for Developing Protein-Ligand Interaction Scoring Functions. Acc Chem Res. 2017;50: 302–309.
45. Wallach I, Dzamba M, Heifets A. AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery [Internet]. arXiv [cs.LG]. 2015. Available: http://arxiv.org/abs/1510.02855
46. Ragoza M, Hochuli J, Idrobo E, Sunseri J, Koes DR. Protein-Ligand Scoring with Convolutional Neural Networks. J Chem Inf Model. 2017;57: 942–957.
47. Hinton GE, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov RR. Improving neural networks by preventing co-adaptation of feature detectors [Internet]. arXiv [cs.NE]. 2012. Available: http://arxiv.org/abs/1207.0580
48. Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems [Internet]. arXiv [cs.DC]. 2016. Available: http://arxiv.org/abs/1603.04467
49. Eckert H, Bajorath J. Molecular similarity analysis in virtual screening: foundations, limitations and novel approaches. Drug Discov Today. 2007;12: 225–233.
50. Renner S, Schneider G. Scaffold-hopping potential of ligand-based similarity concepts. ChemMedChem. 2006;1: 181–185.
51. Shin W-H, Zhu X, Bures MG, Kihara D. Three-dimensional compound comparison methods and their application in drug discovery. Molecules. 2015;20: 12841–12862.
52. Riniker S, Landrum GA. Better Informed Distance Geometry: Using What We Know To Improve Conformation Generation. J Chem Inf Model. 2015;55: 2562–2574.
53. Lounkine E, Keiser MJ, Whitebread S, Mikhailov D, Hamon J, Jenkins JL, et al. Large-scale prediction and testing of drug activity on side-effect targets. Nature. 2012;486: 361–367.
54. Schreyer AM, Blundell T. USRCAT: real-time ultrafast shape recognition with pharmacophoric constraints. J Cheminform. 2012;4: 27.
55. Deng Z, Chuaqui C, Singh J. Structural interaction fingerprint (SIFt): a novel method for analyzing three-dimensional protein-ligand binding interactions. J Med Chem. 2004;47: 337–344.
56. Rogers D, Hahn M. Extended-connectivity fingerprints. J Chem Inf Model. 2010;50: 742–754.
57. Kaczanowski S, Siedlecki P, Zielenkiewicz P. The High Throughput Sequence Annotation Service (HT-SAS) - the shortcut from sequence to true Medline words. BMC Bioinformatics. 2009;10: 148.
58. Gladki A, Siedlecki P, Kaczanowski S, Zielenkiewicz P. e-LiSe--an online tool for finding needles in the “(Medline) haystack.” Bioinformatics. 2008;24: 1115–1117.
59. Cerqueira NMFSA, Sousa SF, Fernandes PA, Ramos MJ. Virtual screening of compound libraries. Methods Mol Biol. 2009;572: 57–70.
60. Schneider G. Virtual screening: an endless staircase? Nat Rev Drug Discov. 2010;9: 273–276.
61. Lounnas V, Ritschel T, Kelder J, McGuire R, Bywater RP, Foloppe N. Current progress in Structure-Based Rational Drug Design marks a new mindset in drug discovery. Comput Struct Biotechnol J. 2013;5: e201302011.
31