I “fatti” sono una questione di statistica?

I “fatti” sono una questione di statistica?

Condividi con i tuoi amici...

Il seguente articolo esprime le mie personali opinioni in merito alla conclamata e incolmabile differenza che esisterebbe tra i modelli statistici su cui si basano i LLM e i modelli di conoscenza classici su cui si basa, per esempio il sapere enciclopedico.

Dai divulgatori esperti di notizie sull’intelligenza artificiale si sente sempre più spesso mettere in guardia il pubblico in relazione alla natura dei modelli LLM che differirebbe profondamente da quella delle tradizionali fonti di conoscenza.

Mentre tali fonti di conoscenza avrebbero a che fare con il “vero”, i modelli LLM avrebbero semplicemente a che fare con il “probabilmente vero”.

In parte do ragione a questi divulgatori, perché è sempre giusto promuovere un sano senso critico da adottare quando ci esponiamo a qualsiasi informazione. Inoltre è vero che i modelli di AI si fondano sulla statistica, in particolare i LLM impiegano tencniche di autoregressione proprie del Transformer (es: GPT). Quando generano testo a partire da una domanda o dal contesto, “indovinano” la parola che segue ad ogni passo. Tuttavia, posto in questi termini, il meccanismo dei LLM può apparire erroneamente banale e poco affidabile. In realtà, studiandolo a fondo, si scoprono tecniche sofisticate che banali non sono, come la self-attention di cui abbiamo parlato in questi articoli:

La self-attention delle reti transformer

Il Transformer, la rete neurale che presta attenzione

Le reti neurali adatte ad elaborare sequenze di dati

Solo per farci un’idea, pensiamo che ogni parola generata porta con sé l’informazione di moltissime altre parole generate precedentemente, presenti nel contesto e nella fase di addestramento del modello.

Su HumAI.it abbiamo più volte mostrato come non si debba prescindere da una comprensione fondamentale dei modelli di AI e come nello stesso tempo si debba tener conto di quello che sappiamo della mente umana e del modo con cui l’uomo impara e diffonde la conoscenza. Benché, tra l’intelligenza umana e quella artificiale vi siano indubbie differenze strutturali, non pensiamo si debba stabilire aprioristicamente un netto confine che le separi fondamentalmente.

In questo articolo non voglio parlare della mente umana e di come l’AI la imita, ma di come si generano quelli che siamo abituati a chiamare “fatti”.

Se io osservo un evento o un oggetto posso pensare che tale evento o l’esistenza di quell’oggetto sia un fatto.

Tuttavia le cose non stanno così.

Potrei essere soggetto ad allucinazione quando percepisco queste cose o non essere veritiero e affidabile quando le comunico ad altre persone o anche se lo sono, queste persone sono legittimate a non credermi.

Chi sono io per loro?

Se, come abbiamo detto, non è un fatto ciò che vedo e tocco, a maggior ragione, non lo è ciò che mi comunicano persone qualsiasi in forma orale o scritta.

Neppure l’osservazione di un evento naturale o il risultato di un espermento da parte di uno scienziato è un fatto.

Può sbagliarsi. Sembrerà strano, ma neanche uno studio scientifico di per sé (isolato) espone dei fatti. Possono esserci errori nella raccolta, elaborazione ed interpretazione dei dati.

Quando si può parlare di fatti?

Dal punto di vista scientifico si può stabilire convenzionalmente quali sono le condizioni necessarie per fidarci delle informazioni in modo da credere che esse descrivano davvero dei fatti.

Attenzione! Resta pur sempre un criterio convenzionale accettato in generale dalla società e non rappresenta una verità assoluta e indubitabile. Qualsiasi definizione di “fatto” non lo rende veritiero in modo assoluto e definitivo.


In breve si può definire “fatto” ciò che è stato più volte, nel corso di molti anni o decenni, considerato vero in quanto osservato o sperimentato direttamente sino ad oggi dalla più accreditata comunità di esperti nel campo di indagine a cui il fatto appartiene.

Isoliamo due concetti implicati in questa definizione:

1- pluralità quando si parla di esperti, pluralità di anni in relazione alla diffusione dell’informazione in questione

2- autorevolezza o accreditamento quando si parla di esperti

È molto interessante constatare che se volessimo trasporre questi concetti in ambito statistico essi potrebbero essere espressi da queste due parole: “frequenza” e “peso”: la frequenza con cui un evento viene descritto nel tempo e nello spazio, il peso o prestigio che viene riconosciuto alle persone che lo fanno o lo hanno fatto.

Quello che intendo mostrare è proprio la stretta relazione esistente tra il modo con cui attribuiamo credibilità alle informazioni e la statistica che sta alla base dei modelli di AI.

Ciò che fa uno scienziato e, in misura meno rigorosa, anche ognuno di noi, è stabilire una sorta di “media pesata o ponderata” delle informazioni.

Quando sopraggiunge una nuova informazione ci chiediamo: chi l’ha detta? (peso/autorevolezza) Quanti esperti condividono la cosa? (frequenza di fonti favorevoli) Quanti non la condividono? (frequenza di fonti sfavorevoli) Da quanto tempo si sa? Sono tutte domande che ci permettono di attribuire un “peso” all’informazione.

Se conosci almeno un po’ il funzionamento delle reti neurali appreso su HumAI.it o per altre vie, ti sei ormai reso conto di quanto simile sia questo procedimento di “validazione” o “apprendimento” di “verità” a quello impiegato per l’apprendimento dai modelli LLM che di tali reti si servono.

È plausibile ipotizzare che un modello altamente performante che bilancia i propri pesi a seguito di un addestramento su una vasta letteratura possa stabilire l’autorevolezza delle fonti e la frequenza nel tempo con cui le informazioni appaiono e, di conseguenza, sappia in modo progressivo ricalcare e riprodurre la mappa della conoscenza umana in modo più affidabile di qualsiasi singola fonte di origine umana.

Per tali ragioni, possiamo ammettere che tra un modello statistico come un LLM e un modello di conoscenza come quello enciclopedico esistono molti aspetti fondamentalmente simili. Se gli attuali modelli LLM non sono ancora affidabili come vorremmo probabilmente ciò non è dovuto alla loro natura statistica che, come abbiamo visto li accomuna ai modelli di conoscenza tradizionali, ma più probabilmente è attribuibile al loro margine di miglioramento ancora disponibile.

È vero che esiste un trade-off tra coerenza e creatività che sembra impedire allo stesso modello di essere preciso e nello stesso tempo versatile e creativo, (leggi l’articolo: Un compromesso tra coerenza e creatività dei modelli LLM) ma è possibile impiegare modelli diversi per scopi diversi. Se vogliamo precisione e affidabilità usiamo un modello meno creativo e più coerente. Se vogliamo più creatività ci accontentiamo di un modello meno preciso. L’importante è essere consapevoli delle proprietà dello strumento che stiamo usando ogni volta.

I modelli di AI che oggi non sono ancora reputati autorevoli, probabilmente lo saranno in futuro perché ci aspettiamo proprio che lo diventino e per tale ragione le società che li creano e li diffondono stanno lavorando alacremente per renderli sempre più affidabili e privi di allucinazioni. È una questione di vita o di morte economica per loro. Usano tecniche come il RLHF insieme a tecniche di autovalutazione.

Il modello CriticGPT di OpenAI fatto conoscere in questi giorni, è una dimostrazione di come i creatori di chatGPT siano intenzionati a rendere sempre più affidabili i loro modelli LLM e a non lasciarli relegati a fonti di informazioni solo “probabilmente vere”.

Alvise Giubelli

HumAI.it