Comprensione visiva, linguaggio naturale, e robotica: Deepmind, il modello Robotic Transformer 2.
Qual è l’unico strumento di cui l’Intelligenza Artificiale è priva, che ci rende straordinariamente unici come esseri umani? L’esperienza. A cosa serve un linguaggio se non può essere correlato a un’esperienza sensoriale? E come può un robot comprendere il mondo se non ha un metodo per ‘sentirlo’? Questi interrogativi ci conducono a esplorare una frontiera sempre più intrigante del mondo dell’IA: i modelli visione-linguaggio e la robotica.
In un’era dominata dalla digitalizzazione, viviamo in un mondo completamente permeato da immagini. Tuttavia, la progressiva integrazione di IA nei nostri sistemi e nella nostra vita quotidiana ha aperto un interrogativo fondamentale: è sufficiente per un’Intelligenza Artificiale alimentarsi di immagini trovate online per apprendere come percepiamo il mondo?
Le più recenti ricerca sostengono una risposta negativa. Gli esperti, infatti, stanno realizzando che l’IA necessita di dati del mondo reale – e per ‘reale’ si intende proprio quella sostanza dinamica e complessa che non arriva dai nostri smartphone o dai nostri computer, ma dall’interazione fisica con l’ambiente. Il motivo risiede nel fatto che l’AI, per acquisire un’esperienza simile a quella umana, necessita di un insieme di dati robotici, non solo di un flusso di immagini digitali (Fonte: Z. Peyton, “Vision-Language Models Need Embodied, Visual-Grounded Supervision”, AI Statistics, 2021).
Immaginiamoci l’IA come un neonato che impara a parlare: da solo, senza poter toccare, odorare o gustare, come potrà mai collegare le parole a esperienze concrete? I dati robotici, così, diventano le mani, gli occhi e le orecchie del bambino IA, permettendogli di esplorare il mondo e farlo proprio.
I modelli visione-linguaggio
I modelli visione-linguaggio (VLMs) sono un tipo di modello generativo che combinano la comprensione visiva con la generazione del linguaggio naturale. Questi modelli sono in grado di associare le informazioni visive a una descrizione testuale, o viceversa, generare un’immagine in risposta a una descrizione testuale.
I VLMs sono stati sviluppati utilizzando l’apprendimento profondo e le reti neurali. Sono spesso costruiti utilizzando un’architettura transformer, che è stata ampiamente utilizzata per modelli di generazione del linguaggio come GPT (Generative Pre-trained Transformer).
Uno dei modelli VLMs più noti è CLIP (Contrastive Language-Image Pretraining), sviluppato da OpenAI. CLIP è stato addestrato su un vasto insieme di immagini e descrizioni testuali, imparando a mappare l’informazione visiva con quella linguistica.

CLIP viene addestrata con una grande varietà di immagini e supervisione di linguaggio naturale, che è disponibile in abbondanza su internet. Questa rete può essere istruita in linguaggio naturale per eseguire una vasta gamma di compiti di classificazione senza essere ottimizzata specificamente per il benchmark, simile alle capacità “zero-shot” dei modelli GPT. Questo significa che CLIP può affrontare compiti di classificazione senza aver bisogno di esempi etichettati specifici per quel compito.
La capacità “zero-shot” si riferisce proprio alla capacità di un modello di intelligenza artificiale di svolgere un compito senza aver ricevuto alcun addestramento specifico per quel compito. In altre parole, il modello può generalizzare e applicare le sue conoscenze acquisite durante l’addestramento a nuove situazioni o compiti mai visti prima.
Questa capacità riduce la necessità di grandi dataset etichettati manualmente, utilizzando invece i dati testo-immagine disponibili pubblicamente su internet. Questo è un argomento di ricerca molto studiato nel campo dell’apprendimento auto-supervisionato.
Come funzionano i modelli visione-linguaggio (VLMs)

L’articolo “Deep Visual-Semantic Alignments for Generating Image Descriptions” di Andrej Karpathy e Li Fei-Fei offre un ottimo approccio a questi modelli di AI
In questo contesto sintetizziamo la struttura e la funzione di questi modelli VLMs senza esaminare i dettagli. Rimandiamo il lettore alla lettura dell’articolo suindicato.
Inoltre, per capire meglio il funzionamento delle reti neurali convoluzionali (CNN) e delle reti neurali ricorrenti (RNN), consigliamo la lettura di questi due articoli:
Le reti neurali convoluzionali, un modo per vedere bene al minimo costo
La sintesi vocale con le reti neurali ricorrenti
L’approccio proposto si basa sull’apprendimento di corrispondenze tra il linguaggio e i dati visivi, utilizzando dataset contenenti immagini e relative descrizioni.
Il modello di allineamento proposto combina reti neurali convoluzionali per l’analisi delle regioni dell’immagine, reti neurali ricorrenti bidirezionali per l’analisi delle frasi e un obiettivo strutturato che allinea le due modalità attraverso una rappresentazione multimodale. Una volta ottenute le corrispondenze, viene proposta un’architettura di rete neurale ricorrente multimodale per generare nuove descrizioni delle regioni dell’immagine.
CLICCA SULL’IMMAGINE PER INGRANDIRLA

Una rete neurale convoluzionale (CNN) viene utilizzata sulle regioni dell’immagine e una rete neurale ricorrente bidirezionale viene utilizzata sulle frasi e un obiettivo strutturato che allinea le due modalità attraverso un incorporamento multimodale e genera nuove descrizioni delle regioni dell’immagine.
La rete neurale ricorrente bidirezionale (BRNN) elabora una sequenza di parole e le trasforma in vettori di dimensione m. Questi vettori rappresentano le parole arricchite da un contesto variabile intorno ad essa. Ad esempio, se prendiamo la frase “Il gatto rincorre la pallina”, ogni parola “il, “gatto”, “rincorre”, “la”, “pallina” verrà rappresentata da un vettore m-dimensionale.
Le parole da sole non sono sufficienti. La loro rappresentazione viene arricchita dal contesto mediante l’azione di una rete neurale ricorrente.
La rappresentazione delle parole all’interno della rete BRNN è realizzata tramite una matrice di incapsulamento delle parole, chiamata “word embedding matrix“, che è inizializzata con pesi word2vec a 300 dimensioni. Questa matrice rimane fissa per evitare problemi di sovrapposizione.

Ricordiamo che W sono i pesi della rete che vengono ottimizzati.
La BRNN è composta da due flussi di elaborazione indipendenti: uno procede da sinistra a destra e l’altro da destra a sinistra. Utilizza la funzione ReLU (Rectified Linear Unit) per l’attivazione dei neuroni. Ogni stato (st) all’interno della BRNN sarà una funzione di tutte le parole nella frase.
L’obiettivo poi è quello di formulare un punteggio che rifletta l’associazione tra immagine e frase, basato sui punti di forza delle associazioni tra regioni dell’immagine e parole della frase. Ad esempio, se l’immagine raffigura un gatto e la frase parla di un gatto, il punteggio sarà alto. Questo punteggio viene calcolato utilizzando il prodotto scalare tra un vettore dell’immagine e un vettore della frase.
L’intelligenza artificiale ha bisogno di vere esperienze
C’é bisogno di dati del mondo reale per addestrare un’AI in grado di interagire con oggetti e persone.
Qui entra in gioco la robotica.
I dati di robotica sono raccolti da sensori installati sui robot durante le loro attività nel mondo reale. Questi dati possono includere diverse informazioni, come immagini o video catturati dalla telecamera del robot, dati di profondità, segnali audio, dati di forza o forza esercitata dai robot mentre interagiscono con oggetti o ambienti. Oltre alle informazioni sensoriali, i dati di robotica possono anche includere dati relativi alle azioni compiute dai robot, come i comandi inviati per muoversi, raggiungere oggetti o eseguire determinate operazioni.
Questi dati sono essenziali per l’addestramento di modelli di visione-linguaggio. Questi modelli necessitano di dati reali per comprendere e apprendere da situazioni reali, oggetti e compiti specifici.
Robotica + VLMs
Vediamo come avviene l’interazione tra questi due campi di attività dell’AI
Iniziamo con la raccolta dei dati provenienti dal robot. Questi dati possono contenere immagini o informazioni visive della scena in cui si trova il robot, insieme alle azioni che il robot esegue. Ad esempio, un dato potrebbe essere un’immagine di un robot che afferra un oggetto con la pinza. Questi dati servono come input per addestrare il modello di intelligenza artificiale.
Nel processo di addestramento, i dati robotici vengono elaborati per estrarre i comandi di azione del robot. Questi comandi vengono rappresentati come una sequenza di token che rappresentano azioni specifiche, come spostamenti, rotazioni o estensioni della pinza del robot. Ad esempio, “1 128 91” potrebbe essere una sequenza di token che indica di muoversi verso l’oggetto, ruotare l’end-effector a sinistra ed estendere la pinza per afferrare l’oggetto.
I token di azione del robot vengono trattati come se fossero parole in un linguaggio naturale. Questi token vengono elaborati da strumenti per il linguaggio naturale, come i tokenizzatori, che permettono al modello di intelligenza artificiale di comprendere e generare azioni. Ad esempio, il modello VLM può apprendere a identificare che il token “128” significa ruotare a sinistra o che il token “91” significa estendere la pinza.
I modelli VLM (Vision and Language Models) vengono addestrati sulle sequenze di token di azione del robot insieme ai dati visivi corrispondenti. Questi modelli cercano di creare una connessione tra i dati visivi e i token di azione, in modo che possano comprendere le immagini e generare sequenze di token corrispondenti alle azioni che devono essere eseguite dal robot. Ciò implica un apprendimento simultaneo delle informazioni visive e linguistiche per il controllo del robot.
Una volta addestrati, i modelli VLM possono essere utilizzati per controllare il robot. Prendono in input le immagini o le informazioni visive della scena attuale e generano una sequenza di token di azione che rappresenta i comandi necessari per completare il compito desiderato. Questa sequenza di token viene quindi tradotta in azioni effettive per guidare il robot.
I VLM a loro volta forniscono sequenze di token di azione per controllare il robot. Il ciclo si ripete nel processo di addestramento e utilizzo del modello per ottimizzare l’apprendimento e migliorare le prestazioni del controllo del robot.

Rappresentiamo questo ciclo mediante un diagramma di flusso

Deepmind: il modello Robotic Transformer 2

Nell’articolo: RT-2: il nuovo modello traduce la visione e il linguaggio in azione viene introdotto il modello RT-2 che apprende dai dati web e dai dati di robotica, traducendo questa conoscenza in istruzioni generalizzate per il controllo robotico.
I modelli di visione-linguaggio possono essere adattati con successo per il controllo dei robot, generando politiche robotiche migliorate e aumentando notevolmente le capacità di generalizzazione e di emergenza in contesti reali, grazie all’addestramento su dataset di larga scala. RT-2 apre la strada alla creazione di robot general-purpose che possano ragionare, risolvere problemi e interpretare informazioni per una vasta gamma di compiti nel mondo reale.
Come abbiamo già visto i modelli visione-linguaggio vengono addestrati su grandi dataset web, il che li rende estremamente abili nel riconoscimento di modelli visivi o linguistici e nell’operare in diverse lingue. Tuttavia, per consentire ai robot di raggiungere un livello di competenza simile, sarebbe necessario raccogliere dati robotici di prima mano su ogni oggetto, ambiente, compito e situazione.
Deepmind presenta il modello Robotic Transformer 2 (RT-2), un modello VLA innovativo che apprende sia dai dati web che dai dati di robotica, e traduce questa conoscenza in istruzioni generalizzate per il controllo robotico, mantenendo allo stesso tempo le capacità su larga scala acquisite dai dati web.
RT-2 dimostra capacità di generalizzazione migliorate e comprensione semantica e visiva che vanno oltre i dati di robotica a cui è stato esposto. Ciò include l’interpretazione di nuovi comandi e la risposta a comandi dell’utente attraverso un ragionamento rudimentale, come il ragionamento sulle categorie degli oggetti o sulle descrizioni ad alto livello.
l’incorporazione di un ragionamento a catena di pensieri consente a RT-2 di eseguire un ragionamento semantico a più fasi, ad esempio decidendo quale oggetto potrebbe essere utilizzato come martello improvvisato (una pietra) o quale tipo di bevanda sia più adatto a una persona stanca (una bevanda energetica).

Immagina che abbiamo un robot che deve prendere un oggetto e posizionarlo su un tavolo. Per farlo, utilizziamo un modello di intelligenza artificiale chiamato RT-2, che utilizza modelli VLM.
Per controllare il robot, RT-2 prende in input una o più immagini della scena in cui si trova il robot. Le immagini forniscono informazioni visive sull’ambiente circostante.
Il modello VLM nel RT-2 elabora queste immagini e genera una sequenza di token, che sono come parole o comandi in un linguaggio naturale. Ogni token rappresenta un’azione specifica che il robot deve compiere.
Ad esempio, immaginiamo che il robot debba spostarsi verso l’oggetto da afferrare. Il modello VLM potrebbe generare un token “1” che indica il comando di muoversi verso l’oggetto. Successivamente, potrebbe generare un token “128” per indicare di ruotare l’end-effector a sinistra e un token “91” per indicare di estendere la pinza per afferrare l’oggetto. In questo modo, la sequenza di token di azione del robot potrebbe essere “1 128 91”.
Questi token di azione vengono poi elaborati da strumenti per il linguaggio naturale, come i tokenizzatori, che permettono di addestrare modelli di intelligenza artificiale per capire e generare azioni simili. Questo metodo permette al RT-2 di “comprendere” le azioni da compiere e di generare un output che il robot può eseguire per completare il compito assegnato.
In sostanza, attraverso l’utilizzo dei modelli VLM e delle rappresentazioni di stringhe di azioni, il RT-2 può tradurre le informazioni visive in comandi testuali che guidano il robot nelle sue azioni. Questo consente di controllare il robot in modo automatico ed efficiente utilizzando l’intelligenza artificiale.
L’uso di questa rappresentazione di stringhe di azioni consente di addestrare modelli di intelligenza artificiale, noti come modelli VLM, utilizzando dati robotici. Ciò è possibile perché non è necessario modificare gli spazi in cui i modelli lavorano, visto che possono trattare le stringhe di azioni come input e output.
Sono state condotte sperimentazioni qualitative e quantitative su RT-2, utilizzando oltre 6.000 prove robotiche. Sono state specificate tre categorie di abilità, ovvero comprensione dei simboli, ragionamento e riconoscimento umano. I risultati delle sperimentazioni mostrano un miglioramento delle capacità di generalizzazione (oltre il triplo dell’efficacia) rispetto ai modelli precedenti, come RT-1 e Visual Cortex (VC-1).
Clicca qui per vedere le immagini di alcune prove robotiche
(fonte: RT-2: New model translates vision and language into action)
Inoltre, sono state condotte valutazioni quantitative che hanno evidenziato il miglioramento delle prestazioni in scenari mai visti precedentemente, ottenendo una percentuale di successo del 62% rispetto al 32% di RT-1. Anche rispetto a modelli basati solo su compiti visivi, come VC-1 e R3M, e algoritmi che utilizzano VLM per l’identificazione degli oggetti, come MOO, RT-2 ha mostrato significativi miglioramenti.
Negli esperimenti su Language Table, una suite di compiti robotici open-source, RT-2 ha raggiunto una percentuale di successo del 90% nella fase di simulazione, superando i risultati di modelli precedenti come BC-Z (72%), RT-1 (74%) e LAVA (77%). RT-2 è stato poi testato nel mondo reale e ha dimostrato la sua capacità di generalizzare a oggetti nuovi e sconosciuti.
Per l’apprendimento di pianificazione a lungo orizzonte e abilità a basso livello in RT-2, si è fatto ricorso a metodi di catena di pensieri utilizzati nei modelli di linguaggio con supporto per il ragionamento. In questo modo, RT-2 può eseguire comandi complessi che richiedono il ragionamento su passi intermedi necessari per completare un’istruzione, con l’abilità di pianificare a partire da comandi testuali e visivi.