I Large Action Models (LAMs): i nuovi assistenti personali

I Large Action Models (LAMs): i nuovi assistenti personali

Immagina i Large Action Models (LAM) come degli assistenti intelligenti capaci di fare cose al posto tuo sul computer o sullo smartphone, proprio come se fossero una persona. A differenza degli assistenti vocali che conosciamo oggi, che principalmente rispondono a domande o eseguono comandi semplici, i LAM possono fare azioni più complicate, come navigare su internet, compilare moduli o fare acquisti online, imparando direttamente osservando come lo fanno gli umani​​​​​​​

Per fare un esempio semplice, immagina di voler prenotare un volo per Roma. Normalmente, dovresti aprire un sito di viaggi, cercare le date, selezionare il volo, inserire i tuoi dati, e così via. È un processo che richiede diversi passaggi e un po’ di tempo. Con un LAM, potresti semplicemente dirgli: “Prenotami un volo per Roma il prossimo fine settimana”, e lui farebbe tutto il lavoro al posto tuo, proprio come se avesse capito cosa deve fare e navigasse nel sito di viaggi come faresti tu.

Immaginiamo di voler organizzare una serata film con gli amici. Normalmente, dovresti cercare quali film sono disponibili su vari servizi di streaming, decidere quale guardare in base ai gusti di tutti, e poi magari ordinare del cibo per la serata. Ecco come un Large Action Model (LAM) potrebbe rendere tutto questo processo molto più semplice:

Dici al tuo dispositivo LAM: “Organizza una serata film genero comico e ordina della pizza per sei persone“. Il LAM inizia a lavorare: Innanzitutto, analizza i servizi di streaming a cui sei abbonato per trovare film comici che potrebbero piacere a te e ai tuoi amici, basandosi su ciò che avete guardato in passato. Dopo aver valutato le opzioni, il LAM propone un paio di film e, dopo la tua conferma su quale guardare, si occupa di preparare tutto per la visione, magari impostando il film sul grande schermo del soggiorno alla giusta ora. Contemporaneamente, il LAM cerca pizzerie nelle vicinanze che consegnano a domicilio, sceglie una basata sulle tue preferenze passate o sulle recensioni online, e ordina una selezione di pizze che sa che piaceranno al tuo gruppo, tenendo conto delle eventuali restrizioni alimentari.

In questo scenario, il LAM agisce quasi come un assistente personale che capisce esattamente cosa ti serve e prende decisioni intelligenti per aiutarti a organizzare la serata perfetta, senza che tu debba perdere tempo in ricerche o prenotazioni.

Come funzionano?

I LAMs funzionano combinando due tecnologie: la programmazione neuro-simbolica, che aiuta il computer a capire e ragionare come farebbe un umano, e l’apprendimento da dimostrazione, che permette al LAM di imparare osservando come gli umani eseguono certe azioni su un’interfaccia, come cliccare su un bottone o compilare un campo di testo. Questo li rende molto più capaci dei sistemi AI precedenti nel comprendere e eseguire compiti complessi direttamente sulle applicazioni, senza bisogno di essere esplicitamente programmati per ogni possibile azione​
​​
Abbiamo già approfondito l’argomento della programmazione neuro-linguistica in questo articolo:

L’approccio neuro-simbolico intuitivo e razionale

L’apprendimento da dimostrazione, noto anche come “Learning from Demonstration” (LfD), “Imitation Learning”, o “Programming by Demonstration”, è una tecnica che consente ai sistemi AI di imparare compiti complessi osservando e replicando le azioni umane. Questo approccio si basa sull’idea che, per alcuni compiti, sia più efficace e intuitivo insegnare a una macchina attraverso l’esempio piuttosto che programmarla con istruzioni dettagliate.

A volte interagendo con un classico LLM (large language model) come chatGPT ci accorgiamo che faremmo prima a mostrare come fare una cosa piuttosto che a spiegarla.

Nell’apprendimento da dimostrazione, un operatore umano esegue un compito che l’AI deve imparare, mentre il sistema osserva e registra le azioni. Questi dati vengono poi utilizzati per addestrare l’AI, permettendole di replicare il compito osservato. Il sistema può utilizzare varie tecniche di apprendimento, come l’apprendimento supervisionato, l’apprendimento per rinforzo, o una combinazione di entrambi, per ottimizzare le sue prestazioni nel compito.

Sviluppati inizialmente dal Rabbit Research Team, i LAMs mirano a rivoluzionare l’interazione tra esseri umani e computer modellando ed eseguendo direttamente azioni all’interno delle applicazioni informatiche.

A differenza dei tradizionali modelli di intelligenza artificiale che si occupano principalmente dell’elaborazione di testo o immagini, i LAMs sono progettati per eseguire attività in ambienti digitali, rendendoli un ponte tra i comandi dell’utente e le azioni del mondo reale

Queste peculiarità rendono i LAMs particolarmente utili nelle aree in cui è richiesta l’interazione diretta con applicazioni e interfacce, consentendo loro di eseguire attività che corrispondono strettamente alle intenzioni umane.

In molti contesti di applicazione, specialmente quelli critici dal punto di vista etico o legale, è importante che le decisioni prese dai modelli di AI siano trasparenti e spiegabili. Il ragionamento simbolico contribuisce significativamente a questo aspetto, fornendo un framework in cui le decisioni possono essere tracciate e giustificate attraverso una catena di ragionamento basata su regole comprensibili e interpretabili dagli umani.

I LAM sono spesso concepiti per lavorare in tandem con gli utenti umani, assistendoli in compiti complessi. La componente di ragionamento simbolico facilita questa collaborazione, permettendo al sistema di interpretare comandi astratti e di eseguire azioni in modo che rispecchi il ragionamento umano. Questo migliora l’intuitività e l’efficacia dell’interazione tra l’utente e il sistema.