La lettura delle immagini con chatGPT PLUS
Grazie alla funzione di caricamento e descrizione delle immagini di chatGPT PLUS il modello oltre all’ascolto acquista la vista grazie alla quale è adesso ancora più facile di prima creare contesto e ottenere risposte sempre più accurate. Testi stampati, schemi, disegni possono essere immediatamente acquisiti dal modello e costituire materiale a cui fare riferimento per porre domande e dare istruzioni.
Grazie alla app di chatGPT il nostro dispositivo mobile si trasforma in un vero e proprio assistente virtuale sempre con noi.
In realtà, al momento, bisogna fare i conti con i numerosi limiti di questo modello. Infatti se da una parte sembra essere abbastanza capace di descrivere fotografie e immagini di oggetti, sembra molto meno preciso quando si tratta di leggere tabelle e grafici.
Nel seguente esempio gli chiediamo di elencare degli oggetti presenti in un’immagine realizzata con DALL-E3
Descrizione di una foto: elenco di oggetti


Descrizione di un grafico di borsa
Adesso proviamo a fargli descrivere il grafico delle quotazioni dell’oro
CLICCA SULL’IMMAGINE PER INGRANDIRLA



Benché sia in grado di capire di cosa si tratta e di descrivere l’andamento del prezzo, incontra dei problemi a collocare correttamente i massimi e i minimi anche se ciò potrebbe essere dovuto alla difficoltà di interpretare in modo corretto la posizione delle date sull’asse orizzontale.
Lettura dei dati dell’immagine di una tabella
La maggior limitazione del modello emerge nella lettura dell’immagine di una tabella. Va tenuto presente che per l’analisi dei dati è sicuramente meglio utilizzare il modulo Advanced Data Analisys (ex Code interpreter) di GPT4 che permette il caricamento di file csv e non solo.




Lettura della copertina di un libro
Il modello risulta sicuramente utile per fornirci informazione sull’autore ed eventualmente sui contenuti di un libro a partire dalla foto della copertina…



Riassunto di un testo fotografato
Vediamo come se la cava con i riassunti di testo fotografato


Creazione di prompt per DALL-E3 a partire da una foto o uno schizzo
Un altro modo di impiegare questo modello può essere quello di mostrargli degli schizzi o dei grafici e chiedergli di creare un prompt in grado di descriverli minuziosamente per farli riprodurre dal modello DALL-E3 o da un plugin grafico di GPT4

Inserendo il prompt nel modello DALL-E3 otteniamo
