I modelli text to image tra precisione e creatività

C’è una tensione intrinseca tra precisione e creatività quando si tratta di modelli di apprendimento automatico, in particolare nei modelli generativi come gli LLM (Large Language Models).
I modelli di apprendimento automatico, durante la fase di addestramento, cercano di trovare un equilibrio tra esplorazione e adesione a ciò che funziona. Se un modello è troppo incentrato su quest’ultima attività, potrebbe diventare molto preciso nel ripetere le soluzioni che ha visto durante l’addestramento, ma potrebbe mancare di creatività. D’altro canto, se esplora troppo, potrebbe generare risposte creative, ma meno precise. Dobbiamo renderci conto che i modelli generativi camminano costantemente in equilibrio su un sottile file tra precisione e creatività

Questo aspetto va sempre tenuto ben presente quando si interagisce con questi modelli. Ci siamo ormai abituati agli errori commessi da chatGPT e modelli affini soprattutto quando svolgono compiti computazionali. Trattandosi di modelli statistici e non deterministici questo comportamento è abbastanza normale anche se ci appare sconvolgente. Infatti la comprensione del linguaggio naturale che essi sfoggiano tanto bene ci trae in inganno e ci porta ad attribuire loro autorevolezza, quando invece, è più corretto per ora parlare di efficienza trattandosi di algoritmi.
Una questione filosofica

La tensione tra precisione e creatività ricorda quell’altro dualismo: determinismo e libertà che ha notevole importanza filosofica. Sembra che più un sistema sia libero e più è probabile che commetta errori. Si tratta di una versione breve della teodicea leibniziana secondo cui il male morale, che può includere l’errore, emerge dalla libertà concessa alle creature razionali. Si tratta sicuramente di un argomento che merita di essere affrontato a parte in modo più approfondito.
I modelli text to image
I modelli generativi text to image presentano le problematiche descritte nel senso che se sono ottimizzati per produrre immagini di alta qualità potrebbero generare output molto realistici ma tendere a produrre varianti simili delle stesse immagini, limitando la diversità. D’altro canto, se si spingono i modelli a essere più diversificati, potrebbero produrre immagini più uniche ma meno realistiche o precise.
Quello che osserviamo in questi giorni con il modello DALL-E3, per esempio, è la spettacolarità delle immagini prodotte accompagnata da una fedeltà al prompt sicuramente maggiore rispetto a quella della versione DALL-E2. In realtà si tratta sempre di un compromesso. La creatività che il modello mostra limita la precisione con cui rispetta il prompt. Inoltre la mappatura tra spazi di testo e spazi di immagine è incredibilmente complessa. Captare le sfumature semantiche del linguaggio e tradurle in caratteristiche visive richiede una profonda comprensione da parte del modello, e ci sono molte sfide nel rendere questa traduzione accurata e coerente.
Chi usa questi strumenti si rende conto delle loro limitazioni e di come spesso sia difficile se non impossibile tradurre in immagine un’idea molto precisa che sta nella mente dell’utente.
Capita che il modello crei qualcosa di diverso da quello che abbiamo in mente e che tale creazione venga da noi percepita addirittura come migliore rispetto alla nostra idea, ma resta comunque una cosa diversa.
Questo fenomeno si ripete spesso durante la nostra interazione con i modelli generativi.
Siamo continuamente tentati di sostituire la nostra idea con quella che ci propone il modello, il che potrebbe essere da un certo punto di vista una cosa positiva se la sua idea risulta davvero essere migliore della nostra. L’AI si avvale di un bagaglio di dati più vasto di quello di ognuno di noi ed è facile che sappia stupirci. D’altra parte restano sempre quelle domande un po’ subdole che ci poniamo: chi ha creato questo? Chi è l’autore? Questa creazione è espressione di quello che pensavo o il mio pensiero si è conformato al modello che ha preso il sopravvento?
Quello suindicato è uno dei temi che merita sicuramente ulteriori approfondimenti.
Per ora ci focalizziamo solo su dei chiari difetti dei modelli.
Per esempio non c’è verso di far conficcare i chiodi dei ramponi di questo leone nel ghiaccio!!!

il prompt: Photo of a lion with icy fur wearing ice crampons, with the crampon spikes partially embedded in the ice and partially exposed, walking on an iceberg with emperor penguins in the background.