Saranno famosi. Oggi parliamo di Evo 2, un modello di intelligenza artificiale (AI) che promette di plasmare la genetica del futuro. Addestrato sul Dna di oltre 100.000 specie dell’intero albero della vita, Evo 2 è in grado di identificare rapidamente somiglianze nelle sequenze geniche di organismi diversi, che i ricercatori impiegherebbero anni per scoprire.

I super poteri di Evo 2

Descritto su ‘Nature’, questo modello di AI può identificare con precisione mutazioni patogene nei geni umani e progettare nuovi genomi simili a quelli di batteri semplici. “Lo sviluppo di Evo 1 ed Evo 2 rappresenta un momento chiave nel campo emergente della biologia generativa, poiché i modelli hanno permesso alle macchine di leggere, scrivere e pensare nel linguaggio dei nucleotidi”, sottolinea Patrick Hsu, co-fondatore dell’Arc Institute, Arc Core Investigator, professore associato di bioingegneria e Deb Faculty Fellow presso l’Università della California a Berkeley e co-autore senior dell’articolo.

Tutti i ‘papà’ del modello di AI per la biologia

Evo 2 è stato sviluppato da scienziati dell’Arc Institute e da Nvidia, coinvolgendo colleghi di Stanford University, UC Berkeley e UC San Francisco. Il codice del modello è accessibile al pubblico su GitHub di Arc ed è anche integrato nel framework Nvidia BioNeMo. L’Arc Institute hacollaborato con il laboratorio di ricerca sull’intelligenza artificiale Goodfire per sviluppare un visualizzatore di interpretabilità meccanicistica che rivela le caratteristiche e i pattern biologici ‘chiave’, che il modello impara a riconoscere nelle sequenze genomiche.

Ma c’è di più: il team ha condiviso i dati ‘chiave’, rendendo così Evo 2 il primo modello di intelligenza artificiale su larga scala e completamente open source mai realizzato.

Il predecessore

Se Evo 1 era stato addestrato interamente su genomi monocellulari, Evo 2 è il più grande modello di AI in biologia mai realizzato, addestrato su oltre 9,3 trilioni di nucleotidi – i mattoncini che compongono il Dna – provenienti da 128.000 genomi completi, oltre a dati metagenomici. Include informazioni provenienti da esseri umani, piante e altre specie unicellulari e multicellulari. Secondo i ricercatori sarà utile per una moltitudine di compiti, dalla previsione di mutazioni che causano malattie, alla progettazione di potenziali codici per la vita artificiale. “Siamo entusiasti di vedere cosa costruirà la comunità scientifica sulla base di questi modelli fondamentali”, assicurano.

“Così come il mondo ha lasciato la sua impronta sul linguaggio di Internet utilizzato per addestrare grandi modelli linguistici, l’evoluzione ha lasciato la sua impronta sulle sequenze biologiche”, afferma Brian Hie, co-autore senior, professore associato di Ingegneria Chimica presso la Stanford University, membro della Facoltà di Data Science della Dieter Schwarz Foundation Stanford e ricercatore presso l’Arc Institute Innovation. “Questi modelli, perfezionati nel corso di milioni di anni, contengono segnali su come le molecole funzionano e interagiscono”.

Veloce e preciso

Dopo un accurato addestramento, questo modello di AI è in grado di elaborare sequenze genetiche fino a 1 milione di nucleotidi contemporaneamente, consentendogli di comprendere le relazioni tra parti distanti di un genoma. Non solo: nei test sulle varianti del gene Brca1 associato al cancro al seno (uno dei cosiddetti geni Jolie), Evo 2 ha raggiunto un’accuratezza superiore al 90% nel predire quali mutazioni siano benigne rispetto a quelle potenzialmente patogene.

Intuizioni come queste potrebbero far risparmiare innumerevoli ore e fondi necessari per condurre esperimenti su cellule o animali, individuando le cause genetiche delle malattie umane e accelerando lo sviluppo di nuovi farmaci.

Virus artificiali mangia batteri

Nell’anno trascorso dalla pubblicazione della pre-stampa, i ricercatori hanno applicato il modello a una serie di problemi scientifici, dalla previsione del rischio di malattie genetiche nei pazienti di Alzheimer, alla valutazione degli effetti delle varianti nelle specie animali domestiche. Non solo: i ricercatori di Arc hanno utilizzato Evo 2 per progettare batteriofagi (i virus che infettano i batteri) sintetici funzionali, dimostrando la possibilità di applicazioni per il trattamento di batteri resistenti agli antibiotici.

La sicurezza

Non sarà troppo? E se finisse in mani sbagliate? Considerando i potenziali rischi etici e di sicurezza, gli scienziati hanno escluso i patogeni che infettano gli esseri umani e altri organismi complessi dal set di dati di base di Evo 2, assicurandosi che il modello non fornisse risposte alle query su questi patogeni.

Le potenzialità

Oltre all’analisi genetica, Evo 2 potrebbe essere utile per progettare nuovi farmaci, strumenti o trattamenti biologici. Insomma, le potenziali applicazioni sono davvero entusiasmanti. E siamo solo all’inizio.