Rischio open washing per i modelli di intelligenza artificiale

Rischio open washing per i modelli di intelligenza artificiale

Condividi con i tuoi amici...

Abbiamo già spiegato in breve il concetto di open source nell’articolo Il concetto di open source

Ora, pensa a un’azienda che crea un AI per riconoscere le immagini. Dicono che il loro modello è “open source” e che chiunque può vedere come funziona, però, quando vai a vedere, scopri che hanno condiviso solo una parte del codice, non tutto. Non hanno rivelato i dati usati per addestrare l’AI, che potrebbero contenere bias o errori. Non spiegano come hanno testato il modello per assicurarsi che sia sicuro e affidabile.

Questo comportamento è un esempio di open washing perché l‘azienda fa sembrare di essere trasparente e aperta, ma in realtà non lo è completamente.

In altre parole, il fenomeno dell’open-washing nel contesto dell’intelligenza artificiale generativa riguarda l’adozione del termine “open source” in modo fuorviante, con lo scopo di ottenere vantaggi di marketing senza fornire la reale trasparenza e apertura associata al movimento open source.

EU AI Act e la trasparenza dei modelli di AI

Il EU AI Act è una legge destinata a regolare l’uso dell’intelligenza artificiale nell’Unione Europea e ha un impatto significativo sui modelli di AI open-source in vari modi. Per esempio, imporrà ai fornitori di AI generica l’obbligo di passare attraverso una valutazione di conformità, fornire supervisione umana e documentazione tecnica che includa dettagli sull’architettura del sistema, dataset di addestramento, provenienza e cura. Questo rappresenta un miglioramento rispetto al panorama normativo attuale, dove i modelli sono proliferati con poche o nessuna supervisione normativa.

Un aspetto speciale dell’EU AI Act è l’importanza attribuita ai modelli open source. L’atto prevede delle esenzioni per tali modelli, che permettono di evitare alcuni dei requisiti più onerosi come la documentazione tecnica dettagliata e la valutazione scientifica e legale. Questo perché i modelli open source vengono visti come una risorsa per la ricerca e l’innovazione.

Secondo la versione più recente dell’atto, i fornitori di modelli AI “sotto una licenza libera e aperta” sono esentati dal redigere e mantenere aggiornata la documentazione tecnica del modello, compresi i processi di addestramento e valutazione. Invece, devono fornire solo un riassunto sufficientemente dettagliato sul contenuto utilizzato per l’addestramento, secondo un template fornito dall’AI Office.

Queste esenzioni rendono lo stato di open source altamente attraente per i fornitori di AI generativa, poiché permette di evitare alcune delle richieste più onerose in termini di documentazione tecnica e scrutinio scientifico e legale.

Data l’importanza legale attribuita al termine “open source” dall’EU AI Act, c’è una forte spinta per definire chiaramente cosa significhi realmente. Ci sono preoccupazioni che senza una chiara definizione, si possa assistere a fenomeni di “open-washing”, dove i modelli vengono etichettati come open source senza fornire vera trasparenza o accessibilità ai dati e alle metodologie chiave

Verso un concetto di “open” composito e graduale

Il documento intitolato Rethinking open source generative AI: open-washing and the EU AI Act” si propone di analizzare la vera apertura dei sistemi di intelligenza artificiale generativa che dichiarano di essere open-source, specialmente alla luce del prossimo EU AI Act.

Quello che si osserva attualmente riguarda molte aziende che rendono disponibili solo i “pesi del modello” con una licenza open source, nascondendo altre informazioni cruciali come i dataset di addestramento, le procedure di fine-tuning e le metodologie di valutazione.

I modelli vengono spesso annunciati attraverso post sui blog aziendali o comunicati stampa che enfatizzano la presunta apertura del modello senza fornire dettagli tecnici o documentazione accurata. Questo approccio permetterebbe alle aziende di evitare l’attenta osservazione da parte della comunità scientifica e la revisione paritaria.

L’open-washing impedisce l’innovazione perché le grandi aziende possono ottenere i benefici del marchio open source senza rispettare gli standard relativi alla trasparenza. Questo toglie risorse e attenzione agli sforzi veramente open source e rende difficile per le entità più piccole trovare finanziamenti e supporto. I ricercatori non possono fare affidamento sulla capacità di modificare e sperimentare con i modelli, anche se vengono pubblicizzati come open source. Questo limita la riproducibilità scientifica e riduce la qualità della ricerca.

Meta, per esempio, ha annunciato i suoi modelli Llama come open source, ma ha fornito solo i pesi del modello sotto una licenza open source, senza divulgare informazioni dettagliate sui dataset di addestramento e le metodologie di fine-tuning.

È essenziale considerare l’apertura come un concetto composito e graduale, piuttosto che binario (aperto o chiuso). Valutazioni basate su più dimensioni di apertura possono aiutare a evitare l’open-washing, fornendo un quadro più completo e trasparente.

Il documento propone 14 dimensioni di “open” analizzate attraverso tre livelli: aperto, parziale o chiuso. Ecco le descrizioni di ciascuna delle 14 dimensioni:

1. Codice aperto (Open code):
– Aperto: Il codice sorgente del modello e della pipeline di addestramento è disponibile e completamente ispezionabile.
– Parziale: Del codice sorgente è aperto.
– Chiuso: Il sistema è chiuso e il codice sorgente non è disponibile.

2. Dati del modello di base LLM (Base LLM data):
– Aperto: Tutti i dataset di addestramento del modello di base sono completamente aperti per l’ispezione.
– Parziale: Parte dei dataset di addestramento è aperto.
– Chiuso: I dati di addestramento non sono aperti per l’ispezione.

3. Pesi del modello di base LLM (Base LLM weights):
– Aperto: I pesi del modello linguistico sono disponibili apertamente.
– Parziale: Non applicabile.
– Chiuso: I pesi del modello non sono condivisi e la procedura di addestramento non è aperta.

4. Dati di fine-tuning (RL data):
– Aperto: I dati utilizzati per il fine-tuning del modello sono completamente descritti e documentati.
– Parziale: Parte dei dati di fine-tuning è disponibile.
– Chiuso: I dati di fine-tuning non sono descritti o resi disponibili.

5. Pesi di fine-tuning (RL weights):
– Aperto: I pesi del modello dopo il fine-tuning sono disponibili apertamente.
– Parziale: Non applicabile.
– Chiuso: I pesi del modello dopo il fine-tuning non sono condivisi e la procedura non è aperta.

6. Documentazione scientifica (Scientific documentation):
– Aperto: La documentazione è completa e supportata da articoli scientifici.
– Parziale: La documentazione è parzialmente disponibile.
– Chiuso: Non ci sono documentazioni sui dettagli scientifici del modello.

7. Documentazione tecnica (Technical documentation):
– Aperto: La documentazione tecnica del codice sorgente è ben dettagliata e mantenuta.
– Parziale: La documentazione tecnica è parzialmente disponibile.
– Chiuso: Non ci sono documentazioni tecniche disponibili.

8. Schede del modello (Model cards):
– Aperto: Le schede dei modelli includono dettagli sull’architettura, i risultati della valutazione e riferimenti alla documentazione tecnica.
– Parziale: Le schede dei modelli forniscono solo dettagli minimi.
– Chiuso: La documentazione delle schede dei modelli è assente.

9. Fogli di dati (Data sheets):
– Aperto: I fogli di dati documentano completamente i dataset utilizzati per l’addestramento.
– Parziale: I fogli di dati sono solo parzialmente documentati.
– Chiuso: Non ci sono fogli di dati disponibili.

10. Licenze del codice sorgente (Source code licenses):
– Aperto: Il codice sorgente è rilasciato sotto una licenza open-source approvata dall’OSI (Open Source Initiative).
– Parziale: Il codice sorgente è rilasciato sotto una licenza che permette solo alcuni utilizzi limitati.
– Chiuso: Il codice sorgente non è rilasciato sotto una licenza open-source.

11. Licenze dei pesi del modello (Model weights licenses):
– Aperto: I pesi del modello sono rilasciati sotto una licenza che permette l’uso aperto.
– Parziale: I pesi del modello sono rilasciati sotto una licenza che limita l’uso.
– Chiuso: I pesi del modello non sono rilasciati sotto una licenza aperta.

12. Accesso all’API (API access):
– Aperto: Il modello è accessibile tramite API aperta senza restrizioni.
– Parziale: Il modello è disponibile tramite API ma con alcune restrizioni o forme di controllo.
– Chiuso: L’accesso tramite API non è disponibile o è fortemente limitato.

13. Metodi di accesso all’utente (User access methods):
– Aperto: Gli utenti finali possono accedere al sistema in modo trasparente.
– Parziale: Gli utenti hanno accesso limitato o tramite forme di iscrizione che raccolgono dati personali.
– Chiuso: Gli utenti non possono accedere al sistema o ci sono restrizioni severe.

14. Procedure di moderazione dei contenuti (Content moderation procedures):
– Aperto: Le procedure per la moderazione dei contenuti e la prevenzione del contenuto indesiderato sono documentate.
– Parziale: Parte delle procedure è disponibile.
– Chiuso: Non ci sono documentazioni sulle procedure di moderazione dei contenuti.

 

Situazione esaminata dagli autori del documento datato il 3 giugno 2024: