Stora databaser med läkemedel kan potentiellt innehålla behandlingar för olika sjukdomar, såsom cancer eller hjärtsjukdomar. Idealt sett skulle forskare vilja testa varje förening experimentellt mot alla möjliga mål, men en sådan undersökning tar orealistiskt lång tid.
Under de senaste åren har forskare börjat använda datormetoder för att snabba upp screeningen av dessa bibliotek i hopp om att påskynda läkemedelsupptäckt. Men många av dessa metoder tar också lång tid, eftersom de flesta av dem beräknar varje målproteins tredimensionella struktur från dess aminosyrasekvens och använder sedan dessa strukturer för att förutsäga vilka läkemedelsmolekyler som kommer att interagera med dem.
Forskare vid MIT och Tufts University har nu utvecklat ett alternativt datormässigt tillvägagångssätt baserat på en typ av artificiell intelligensalgoritm som kallas för en stor språkmodell. Dessa modeller – ett välkänt exempel är ChatGPT – kan analysera enorma mängder text och lista ut vilka ord (eller i detta fall aminosyror) som är mest sannolika att förekomma tillsammans. Den nya modellen, känd som ConPLex, kan matcha målproteiner med potentiella läkemedelsmolekyler utan att behöva utföra den beräkningsintensiva uppgiften att beräkna molekylernas strukturer.
Genom att använda denna metod kan forskarna screena över 100 miljoner föreningar på en enda dag – mycket mer än någon befintlig modell.
”Detta arbete adresserar behovet av effektiv och noggrann in silico-screening av potentiella läkemedelskandidater, och modellens skalbarhet möjliggör storskaliga undersökningar för att bedöma off-target-effekter, omvänd läkemedelsanvändning och att fastställa effekterna av mutationer på läkemedelsbindning”, säger Bonnie Berger, Simons-professor i matematik, chef för gruppen för beräkning och biologi vid MIT:s datorvetenskap och artificiell intelligenslaboratorium (CSAIL) och en av de seniora författarna till den nya studien.
Lenore Cowen, professor i datavetenskap vid Tufts University, är också en senior författare till artikeln som publiceras denna vecka i Proceedings of the National Academy of Sciences. Rohit Singh, forskningsvetare vid CSAIL, och Samuel Sledzieski, doktorand vid MIT, är huvudförfattarna till artikeln, och Bryan Bryson, universitetslektor i biologisk teknik vid MIT och medlem i Ragon Institute of MGH, MIT och Harvard, är också en författare. Förutom artikeln har forskarna gjort sin modell tillgänglig online för andra forskare att använda.
Att göra förutsägelser
Under de senaste åren har datavetenskapare gjort stora framsteg inom utvecklingen av modeller som kan förutsäga strukturerna hos proteiner baserat på deras aminosyrasekvenser. Men att använda dessa modeller för att förutsäga hur ett stort bibliotek av potentiella läkemedel kan interagera med ett cancerprotein har visat sig vara utmanande, främst eftersom beräkningen av proteinernas tredimensionella strukturer kräver mycket tid och beräkningskraft.
En ytterligare hinder är att dessa typer av modeller inte har en bra framgångshistorik när det gäller att eliminera föreningar som kallas ”decoys”, vilka är mycket lika ett framgångsrikt läkemedel men faktiskt inte interagerar väl med målet.
”En av de långvariga utmaningarna inom området har varit att dessa metoder är bräckliga, i den meningen att om jag gav modellen ett läkemedel eller en liten molekyl som såg nästan ut som den verkliga saken, men den skilde sig något på ett subtilt sätt, kan modellen fortfarande förutsäga att de kommer att interagera, trots att det inte bör vara så”, säger Singh.
Forskare har utformat modeller som kan övervinna denna typ av bräcklighet, men de är vanligtvis anpassade till bara en klass av läkemedelsmolekyler och passar inte bra för storskaliga screeningar eftersom beräkningarna tar för lång tid.
MIT-teamet beslutade att använda en alternativ metod, baserad på en proteinmodell de först utvecklade 2019. Genom att arbeta med en databas med över 20 000 proteiner kodar språkmodellen denna information till meningsfulla numeriska representationer av varje aminosyrasekvens som fångar associationer mellan sekvens och struktur.
”Med dessa språkmodeller kan även proteiner som har mycket olika sekvenser men potentiellt har liknande strukturer eller liknande funktioner representeras på ett liknande sätt i detta språkrum, och vi kan dra nytta av det för att göra våra förutsägelser”, säger Sledzieski.
I sin nya studie tillämpade forskarna proteinmodellen på uppgiften att ta reda på vilka proteinsekvenser som kommer att interagera med specifika läkemedelsmolekyler, där både proteinsekvenserna och läkemedelsmolekylerna har numeriska representationer som omvandlas till ett gemensamt delat rum av ett neuralt nätverk. De tränade nätverket på kända protein-läkemedelsinteraktioner, vilket möjliggjorde att det lärde sig att associera specifika egenskaper hos proteinerna med förmågan att binda till läkemedlet utan att behöva beräkna 3D-strukturen för någon av molekylerna.
Hög affinitet
För att minska risken för att deras modell lurades av falska läkemedelsmolekyler inkluderade forskarna också en träningsfas baserad på kontrastiv inlärning. Under denna metod gav forskarna modellen exempel på ”riktiga” läkemedel och bedragare och lärde den att skilja mellan dem.
Forskarna testade sedan sin modell genom att screna ett bibliotek med cirka 4 700 kandidatläkemedelsmolekyler för deras förmåga att binda till en grupp på 51 enzymer som kallas protein kinaser.
Baserat på de bästa resultaten valde forskarna 19 läkemedels-proteinpar att testa experimentellt. Experimenten visade att av de 19 valen hade 12 en stark bindningsaffinitet (inom nanomolarräckvidden), medan nästan alla andra möjliga läkemedels-proteinpar inte hade någon bindningsaffinitet. Fyra av dessa par hade extremt hög bindningsaffinitet, subnanomolär affinitet (så stark att en mycket liten läkemedelskoncentration, i storleksordningen delar per miljard, kommer att hämma proteinet).
Även om forskarna främst fokuserade på att screna småmolekylära läkemedel i denna studie arbetar de nu med att tillämpa denna metod på andra typer av läkemedel, såsom terapeutiska antikroppar. Denna typ av modellering kan också vara användbar för att screena potentiella läkemedelsföreningar för toxicitet, för att säkerställa att de inte har några oönskade biverkningar innan de testas i djurmodeller.
”En del av anledningen till varför läkemedelsupptäckt är så kostsamt beror på de höga misslyckandehastigheterna. Om vi kan minska dessa misslyckandehastigheter genom att redan från början säga att detta läkemedel troligen inte kommer att fungera, kan det gå långt för att sänka kostnaderna för läkemedelsupptäckt,” säger Singh.
Denna nya metod ”representerar ett betydande genombrott inom förutsägelse av läkemedel-målinteraktion och öppnar upp ytterligare möjligheter för framtida forskning för att ytterligare förbättra dess förmågor”, säger Eytan Ruppin, chef för Cancer Data Science Laboratory vid National Cancer Institute, som inte var involverad i studien. ”Till exempel kan inkludering av strukturell information i den latenta rummet eller utforskning av molekylär genereringsmetoder för att generera bedragare ytterligare förbättra förutsägelserna.”