Lo studio del folding delle proteine con il deep learning
Il folding delle proteine è uno di quei processi fondamentali che si verificano all’interno delle nostre cellule e che determina la loro struttura tridimensionale. È come se le proteine fossero delle bellissime sculture che si modellano da sé! Ma cosa succede quando questo processo va storto? Quando le proteine si piegano in modo errato possono causare una serie di malattie, come il morbo di Alzheimer, il Parkinson o la fibrosi cistica.
Ma ecco che entra in gioco il deep learning, un approccio dell’intelligenza artificiale che si basa su algoritmi complessi e architetture neurale per analizzare e interpretare grandi quantità di dati. I ricercatori hanno iniziato a sfruttare il deep learning per studiare il folding delle proteine, cercando di capire come le sequenze di amminoacidi si piegano in modo corretto o errato.
Uno studio pubblicato sulla rivista Science nel 2020 ha dimostrato come un modello di deep learning chiamato AlphaFold sia stato in grado di predire con grande precisione le strutture tridimensionali di una vasta gamma di proteine. Questo risultato è stato un grande passo avanti nella comprensione del folding delle proteine e ha aperto la strada a nuove scoperte nel campo della biotecnologia e della ricerca farmaceutica.
Che cosa sono le proteine?
Le proteine sono macromolecole essenziali per la vita, coinvolte in molte funzioni biologiche all’interno delle cellule. Per esempi molte proteine svolgono il ruolo di enzimi, catalizzatori biologici che accelerano le reazioni chimiche all’interno delle cellule. Ad esempio, le proteasi sono enzimi che degradano altre proteine, mentre le lipasi rompono i lipidi. Altre proteine, come l’emoglobina, si legano ad altre sostanze e ne favoriscono il trasporto nel corpo. L’emoglobina lega l’ossigeno e lo trasporta dai polmoni ai tessuti. Alcune sono utili per la struttura delle cellule e dei tessuti. Ad esempio, il collagene è una proteina che dà resistenza e flessibilità ai tessuti connettivi come la pelle, le ossa e i tendini. Gli anticorpi sono proteine prodotte dal sistema immunitario per riconoscere e neutralizzare agenti patogeni, come virus e batteri. I fattori di trascrizione, sono proteine che regolano l’espressione dei geni, influenzando l’attivazione o la disattivazione dei geni.
La struttura tridimensionale
La struttura tridimensionale delle proteine è cruciale per comprendere le loro attività e le interazioni con altre molecole. La struttura di una proteina è determinata dalla sequenza di amminoacidi che la compongono.
Gli amminoacidi sono gli elementi costitutivi delle proteine e ne esistono diversi tipi, caratterizzati da una piccola variazione nella loro struttura molecolare. La sequenza di amminoacidi è codificata nel DNA e viene “letta” dalla cellula per sintetizzare la proteina corrispondente. La sequenza di amminoacidi conferisce alle proteine una particolare polarità, che contribuisce alla loro struttura e alle loro interazioni.
Ogni amminoacido della sequenza si chiama residuo.

La struttura di una proteina è composta da diversi livelli. Il primo livello è la struttura primaria, che rappresenta semplicemente la sequenza lineare di amminoacidi. La struttura primaria è importante perché determina la successiva formazione dei livelli superiori di struttura. Con 20 aminoacidi può formarsi un numero enorme di strutture primarie, così come con le 21 lettere dell’alfabeto italiano è possibile costruire un numero enorme di parole.
Gli amminoacidi coinvolti nella struttura di una proteina:
- M: Metionina
- E: Acido Glutammico (Glutammato)
- N: Asparagina
- H: Istidina
- E: Acido Glutammico (Glutammato)
- G: Glicina
- T: Treonina
- Y: Tirosina
- K: Lisina
- C: Cisteina
- A: Alanina
- F: Fenilalanina
- L: Leucina
- R: Arginina
- I: Isoleucina
- L: Leucina
- Q: Glutammina
- V: Valina
- T: Treonina
- K: Lisina

Il secondo livello è la struttura secondaria, che si forma grazie ad interazioni tra gli atomi di ossigeno e idrogeno dei legami peptidici (che connettono gli amminoacidi) e i gruppi laterali degli amminoacidi stessi. Le strutture secondarie più comuni sono l’alfa-elica e la struttura a foglietto beta. L’alfa-elica è una struttura a spirale, in cui il legame peptidico forma una lunga elica, mentre la struttura a foglietto beta è una struttura pieghettata, in cui il legame peptidico forma un foglio.

Il terzo livello di struttura delle proteine è la struttura terziaria, che descrive l’arrangiamento tridimensionale dell’intera proteina. Questa struttura è determinata dalle interazioni tra i gruppi laterali degli amminoacidi, come i legami idrogeno, le interazioni elettrostatiche e le interazioni idrofobiche. Queste interazioni determinano la piegatura e l’arrangiamento tridimensionale della proteina.

Infine, alcune proteine possono avere una struttura quaternaria, che descrive come più subunità proteiche si uniscono per formare una proteina funzionale complessa. Questo livello di struttura è importante per le proteine che svolgono funzioni complesse, come l’enzima. La struttura quaternaria è stabile grazie a interazioni tra le subunità, come i legami idrogeno, le forze elettrostatiche e le interazioni idrofobiche.
La forma tridimensionale delle proteine è influenzata da vari fattori. Innanzitutto, la sequenza di amminoacidi determina le proprietà chimiche e fisiche di una proteina, influenzando le interazioni tra gli amminoacidi stessi e l’ambiente circostante. Inoltre, l’interazione della proteina con altri composti, come i cofattori o i substrati, può influenzare la sua forma tridimensionale.
Informazioni più dettagliate sulla struttura e le funzioni delle proteine le puoi leggere qui o alla voce proteine di Wikipedia

La conoscenza della forma tridimensionale (3D) delle proteine è di fondamentale importanza in diversi ambiti della biologia e della medicina infatti la loro forma 3D è strettamente correlata alla loro funzione biologica. Le proteine possono avere diverse strutture e conformazioni che determinano come si legano ad altre molecole, come i substrati o i ligandi, e come svolgono le loro attività biochimiche. Comprendere la forma 3D delle proteine è essenziale per comprendere come svolgono le loro funzioni fisiologiche e come interagiscono con altre molecole all’interno delle cellule.
Ecco alcune delle principali utilità che derivano dalla conoscenza della struttura tridimensionale:
- Design di farmaci: La conoscenza della struttura tridimensionale delle proteine è fondamentale per lo sviluppo di farmaci mirati. I farmaci possono essere progettati per legarsi a specifiche regioni o tasche all’interno delle proteine, modulandone la loro attività. Conoscere la forma 3D della proteina bersaglio rende possibile l’identificazione di siti di legame per il design di composti farmacologici specifici. Questo approccio è ampiamente utilizzato nella progettazione di farmaci contro le malattie, come ad esempio il cancro, le malattie infettive e le malattie genetiche.
- Diagnostica medica: La struttura 3D delle proteine può essere utilizzata come un marker o un indicatore diagnostico per diverse malattie. Ad esempio, alcune proteine del sangue, come la proteina C reattiva o l’antigene prostatico specifico, vengono misurate nei test diagnostici per valutare l’infiammazione o per rilevare il cancro alla prostata. La conoscenza della forma 3D di queste proteine può aiutare a comprendere come cambiare in caso di malattia e come sviluppare test diagnostici più accurati.
- Ingegneria proteica: Comprendere la struttura 3D delle proteine consente di modificarle e ingegnerizzarle allo scopo di migliorarne le proprietà e le funzioni. Ad esempio, la struttura delle proteine può essere modificata per aumentarne la stabilità, la solubilità o l’attività catalitica. Questo ha importanti implicazioni nell’industria biotecnologica, dove le proteine vengono utilizzate per scopi industriali, come la produzione di enzimi, biocarburanti o biomateriali
Visualizzare la struttura 3D delle proteine
Per quanto riguarda la scoperta della struttura delle proteine, una delle tecniche più diffuse è la cristallografia a raggi X. Questo metodo si basa sulla capacità dei cristalli di proteine di diffrangere i raggi X e produrre uno schema di diffrazione che può essere utilizzato per determinare la struttura tridimensionale della proteina. Attraverso la cristallografia a raggi X, sono state scoperte le strutture di numerose proteine, inclusi enzimi, recettori e proteine coinvolte in malattie.
Un’altra tecnica utilizzata per la determinazione della struttura delle proteine è la spettroscopia di risonanza magnetica nucleare (NMR). Questa tecnica si basa sulla capacità degli atomi del nucleo, come ad esempio l’idrogeno, di assorbire e riflettere l’energia magnetica. Attraverso l’analisi di spettri NMR, si possono ottenere informazioni sulla forma, la dimensione e l’orientamento spaziale delle proteine.
Una missione incompiuta e il ruolo dell’intelligenza artificiale
È importante sottolineare che ci sono diverse proteine la cui struttura 3D non è ancora stata risolta sperimentalmente. Questo perché alcune proteine sono difficili da cristallizzare o presentano complessità strutturali che rendono difficile ottenere una risoluzione dettagliata della loro forma.
Inoltre, con il progresso delle tecnologie genomiche, sono stati scoperti molti nuovi geni e sequenze di proteine senza una corrispondente annotazione funzionale. Ciò significa che, anche se la sequenza di amminoacidi è nota, la funzione e la struttura tridimensionale del corrispondente prodotto proteico possono non essere conosciute.
In questi casi, la previsione della struttura delle proteine dalla sequenza di amminoacidi è di particolare importanza. Le previsioni strutturali basate sull’utilizzo di algoritmi di intelligenza artificiale possono aiutare a identificare la possibile forma di una proteina sconosciuta e, quindi, a inferire la sua possibile funzione. Questo approccio è particolarmente utile quando non è possibile ottenere la struttura sperimentale, ad esempio a causa di limitazioni tecniche o tempi di risoluzione prolungati.
Un esempio di caso in cui la previsione computazionale della forma delle proteine può essere utile è nel contesto delle malattie genetiche. Molte malattie genetiche sono causate da mutazioni nel DNA che influenzano la sequenza di amminoacidi delle proteine. La comprensione di come queste mutazioni influenzino la forma delle proteine può aiutare a identificare i meccanismi patogenetici e a sviluppare terapie mirate.
Ad esempio, la fibrosi cistica è una malattia genetica che è causata da mutazioni nel gene CFTR, che codifica per una proteina coinvolta nel trasporto di ioni attraverso le membrane cellulari. Una delle mutazioni comuni nella fibrosi cistica è la delezione del fenilalanina nel codone 508 (F508del). Questa mutazione provoca un errore nella piegatura della proteina CFTR, che viene degradata prima di raggiungere la sua corretta forma tridimensionale. Di conseguenza, la sua funzione di trasporto viene compromessa.
La previsione computazionale della struttura tridimensionale della proteina CFTR basata sulla sequenza di amminoacidi può aiutare a capire come la mutazione F508del influenzi la forma e la funzione della proteina. Utilizzando algoritmi di intelligenza artificiale e modelli di previsione strutturale, è possibile ottenere una rappresentazione approssimativa della proteina nativa e individuare come la mutazione influenzi la sua piegatura. Questa conoscenza può facilitare lo sviluppo di terapie mirate che cercano di correggere o bypassare l’effetto della mutazione F508del per ripristinare la normale funzione del CFTR.
Questo è solo un esempio di come la previsione computazionale della forma delle proteine può essere applicata per comprendere le basi molecolari delle malattie genetiche e per sviluppare terapie mirate. L’utilizzo di algoritmi di intelligenza artificiale e di modelli strutturali avanzati può fornire un importante supporto per la ricerca biomedica e promuovere lo sviluppo di nuove strategie terapeutiche.
L’IA, in particolare le reti neurali e gli algoritmi di deep learning, può svolgere un ruolo chiave nella predizione della struttura delle proteine. Questi modelli possono apprendere modelli matematici complessi a partire dai dati di addestramento e utilizzarli per effettuare previsioni.
Inizialmente, per addestrare queste reti neurali, è necessario un insieme di dati di addestramento che comprenda sia la sequenza di amminoacidi delle proteine che la corrispondente struttura tridimensionale (risoluzione sperimentale). Questi dati sono spesso ottenuti da esperimenti di cristallografia a raggi X o risonanza magnetica nucleare.
I risultati di una cristallografia delle proteine vengono generalmente codificati nel cosiddetto file PDB (Protein Data Bank), uno standard internazionale per lo scambio di dati sulla struttura delle biomolecole. Il file PDB contiene le coordinate atomiche delle diverse componenti della proteina, nonché informazioni sulle connessioni chimiche, le proprietà fisiche e altre informazioni sperimentali rilevanti.
Oltre ai file PDB, ci sono anche vari formati di codifica strutturale per la previsione computazionale della struttura tridimensionale delle proteine. Alcuni dei formati più comuni includono il formato PDB (utilizzato anche per i dati sperimentali), il formato PDBx/mmCIF (Macromolecular Crystallographic Information File) e il formato PDBML (Protein Data Bank Markup Language). Questi formati contengono le informazioni sulla geometria atomica, legami chimici, strutture secondarie e altre proprietà della proteina prevista.
RCSB PDB è il data center statunitense per l’archivio globale della Protein Data Bank (PDB) di dati di struttura 3D per grandi molecole biologiche (proteine, DNA e RNA) essenziali per la ricerca e l’istruzione in biologia fondamentale, salute, energia e biotecnologia.
UniProt è un database di sequenze proteiche annotate.
Come entra in gioco il deep learning
Se non conosci le reti neurali puoi leggere l’articolo
Per la previsione computazionale della struttura delle proteine, spesso si utilizzano modelli predittivi che associano la sequenza di amminoacidi alle coordinate atomiche dei residui proteici. Questi modelli possono utilizzare vari approcci, come le reti neurali, le tecniche di studio quantitativo delle relazioni struttura-attività (QSAR), o altre metodologie di apprendimento automatico.
I risultati della previsione computazionale della struttura tridimensionale delle proteine vengono generalmente codificati in file che seguono i formati standard PDB o PDB-related, in modo che possano essere facilmente visualizzati e analizzati utilizzando strumenti e software specifici, come PyMOL o VMD.
Con l’aiuto di algoritmi di deep learning, le reti neurali possono apprendere le relazioni complesse tra la sequenza di amminoacidi e la struttura tridimensionale delle proteine. Una volta addestrate, queste reti neurali possono essere utilizzate per predire la struttura delle proteine anche quando non è disponibile una struttura sperimentale. Questo è particolarmente utile dato che solo una piccola frazione delle proteine ha la sua struttura determinata sperimentalmente.

AlphaFold è un algoritmo di intelligenza artificiale sviluppato da DeepMind, una società di ricerca di intelligenza artificiale di proprietà di Alphabet Inc. AlphaFold utilizza reti neurali per predire in modo accurato la struttura tridimensionale delle proteine.
Uno studio scientifico sull’implementazione di AlphaFold e i suoi risultati è stato pubblicato su Nature nel 2021: Highly accurate protein structure prediction with AlphaFold. Questo algoritmo è considerato un importante contributo al campo della biologia strutturale e ha il potenziale per agevolare la scoperta di nuovi farmaci e la comprensione delle malattie umane.
Avviciniamoci ad un algoritmo di deep learning specializzato nello studio e previsione del ripiegamento (folding) delle proteine.
In questo studio si discute di un metodo di ottimizzazione in grado di rendere ancora più accurate le previsioni delle strutture tridimensionali delle proteine (metodo transform-restrained Rosetta [trRosetta])
In questo contesto intendiamo descrivere a grandi linee come avviene il folding delle proteine mediante gli strumenti di deep learning. Per una spiegazione accurata e dettagliata rimandiamo il lettore allo studio già indicato: Improved protein structure prediction using predicted interresidue orientations.
Per prevedere la geometria delle proteine a partire dalle sequenze di amminoacidi, il trRosetta utilizza una rete neurale profonda. Questa rete prende un Multiple Sequence Alignment (MSA), che rappresenta una collezione di sequenze di amminoacidi simili, come input. La rete neurale fornisce informazioni sulle distanze relative e sugli orientamenti di tutte le coppie di residui nella proteina (ricorda che i residui sono gli amminoacidi nella sequenza).
Oltre a prevedere le distanze tra gli atomi Cβ delle coppie di residui, il trRosetta cerca anche di prevedere gli orientamenti interresiduali. Gli orientamenti tra i residui sono rappresentati da parametri chiamati diedri e angoli planari. Questi parametri definiscono completamente le posizioni relative degli atomi di base dei residui. La rete neurale è addestrata per prevedere questi parametri.
L’architettura complessiva della rete è simile a quelle utilizzate in metodi simili per la predizione della distanza e del contatto tra gli amminoacidi. La parte centrale della rete è costituita da blocchi convoluzionali residui dilatati. Questi sono elementi della rete neurale che trasformano le caratteristiche dell’MSA in predizioni delle geometrie interresidue. Sono simili a “filtri” che rilevano determinati pattern nel MSA per ottenere informazioni sulla struttura delle proteine.
Questi blocchi trasformano gradualmente le caratteristiche derivate dall’MSA in predizioni delle geometrie interresidue per le coppie di residui.
Per sapere come funzionano le reti neurali convoluzionali puoi leggere il seguente articolo
Le reti neurali convoluzionali, un modo per vedere bene al minimo costo
La rete è addestrata utilizzando un set di dati non ridondante di proteine dal Protein Data Bank (PDB). Durante l’addestramento, vengono utilizzati metodi di regolarizzazione e l’inversione della matrice di covarianza per ottenere gli accoppiamenti tra i residui dall’MSA.
Una volta addestrata, la rete può essere utilizzata per prevedere la struttura delle proteine utilizzando le sequenze di amminoacidi come input.
Di seguito mostriamo uno schema semplificato che mostra le sequenze in input e le previsioni in output costituite dai parametri relativi alla distanza tra residui e l’orientamento in grado di identificare la struttura tridimensionale delle sequenze amminoacidiche:

Approfondimenti in sintesi
(Dallo studio Improved protein structure prediction using predicted interresidue orientations)
Dopo aver ottenuto le previsioni di distanze e orientamenti tramite una rete neurale, viene utilizzato il metodo dei minimi vincolati per generare strutture 3D dei modelli proteici.
Le distribuzioni di probabilità discrete delle previsioni di distanza e orientamento vengono convertite in potenziali di interazione interresidua e utilizzate come vincoli. Questi potenziali dipendenti dalla distanza e orientamento sono combinati con la funzione energetica del livello del centroide di Rosetta per generare strutture piegate che soddisfano i vincoli imposti.
I modelli generati vengono successivamente sottoposti a un rilassamento completo atomistico utilizzando il software Rosetta per aggiungere le catene laterali e ottenere strutture fisicamente plausibili. Viene selezionato come modello finale quello con l’energia più bassa.
Il metodo trRosetta è stato testato su obiettivi di modellazione libera (FM) del CASP13 (Critical Assessment of Protein Structure Prediction) e su un set di dati di valutazione automatizzata continua del modello (CAMEO). La precisione delle geometrie interresidue previste è stata valutata in termini di accuratezza dei contatti rispetto alle strutture native.
Il metodo trRosetta ha dimostrato un buon rapporto di correlazione tra le distribuzioni di distanza orientamento previste e i valori osservati. Inoltre, la probabilità prevista dei contatti superiori a lungo e medio raggio ha mostrato una buona correlazione con la loro precisione effettiva. La funzionalità combinata di previsione della distanza e dell’orientamento ha portato a un miglioramento delle prestazioni del metodo rispetto all’utilizzo di singole fonti di informazione.
Il metodo trRosetta è stato confrontato con il server RaptorX-Contacts, che utilizza il sistema nervoso centrale per la modellazione della struttura, ottenendo un punteggio TM (Template Modeling score) medio più alto per i modelli generati da trRosetta. Ciò suggerisce che l’integrazione delle informazioni sulla distanza con la funzione energetica generale di Rosetta migliora le prestazioni del metodo.
Per addestrare la rete neurale a prevedere le distribuzioni di distanza e orientamento, è stato creato un set di addestramento utilizzando dati dal Protein Data Bank (PDB). È stato selezionato un insieme di 15.051 catene proteiche provenienti da voci PDB con una risoluzione di ≤ 2,5 Å. Sono state rimosse le catene con meno di 40 residui e successivamente è stata rimossa la ridondanza al limite di identità della sequenza del 30%. Ciò ha portato a un set finale di 16.047 catene proteiche, con una lunghezza media di 250 amminoacidi.
Per testare il metodo, sono stati utilizzati due set di test indipendenti. Il primo set comprende 31 domini di modellazione libera (FM) dal CASP13, mentre il secondo set proviene dagli esperimenti CAMEO e comprende 131 obiettivi rigidi insieme ai modelli inviati dai server pubblici.
Per generare e selezionare gli allineamenti multipli (MSA), sono stati utilizzati diversi approcci. Sono state utilizzate ricerche nel database Uniclust30 tramite HHblits per generare quattro allineamenti indipendenti con diversi valori limite e successivamente è stata effettuata una ricerca iterativa con HHblits e hmmsearch usando il database delle sequenze del metagenoma.
La previsione delle geometrie interresidue viene eseguita utilizzando una rete neurale residua profonda. La rete prende i dati dell’MSA come input e applica convoluzioni 2D per prevedere le distribuzioni di distanza e orientamento. Dopo l’addestramento della rete, viene utilizzata una combinazione di minimizzazione vincolata e funzione energetica di Rosetta per generare le strutture 3D dei modelli proteici.
Durante l’addestramento, vengono utilizzati l’entropia incrociata categorica come funzione di perdita e l’ottimizzatore Adam per ottimizzare i parametri della rete. Viene utilizzata anche la tecnica del dropout per ridurre l’overfitting.
Le distribuzioni previste vengono successivamente convertite in potenziali energetici e utilizzate per guidare la generazione delle strutture finali dei modelli proteici.