OpenAI ha realizzato un modello IA per “criticare” ChatGPT
Man mano che io chatbot IA entrano nelle nostre vite, si fa sempre più impellente la necessità di sapere quando stanno riportando un'informazione vera o inventata, ovvero se stanno”allucinando” (a proposito di chatbot IA, scoprite vieni a usare ChatGPT 4 gratis).
Gli sviluppatori hanno implementato diverse soluzioni, come le citazioni, per verificare la fonte di una notizia, o, nel caso di Gemelli, la doppia verificache consente al chatbot di valutare se sul Web ci sono contenuti che confermare la sua risposta. Ora anche ChatGPT ha uno strumento per verificare la veridicità delle sue affermazioni, almeno quando scrive un codice: CriticoGPT.
Cos'è e come funziona CriticGPT
Annunciato ieri da OpenAI, CriticoGPT è un nuovo modello basato su GPT-4 che analizza il codice creato da ChatGPT e indica potenziali errori, rendendolo più facile per gli esseri umani individuare problemi che altrimenti potrebbero passare inosservati.
Il modello serve da assistente IA per gli esseri umani che rivedono il codice di programmazione generato da ChatGPT, con l'obiettivo di far sì che i sistema di intelligenza artificiale si comportino come si aspettano gli esseri umani.
Questo processo, chiamato “allineamento”, avviene attraverso uno strumento chiamato “Apprendimento per rinforzo dal feedback umano” (RLHF, apprendimento di rinforzo dal feedback umano), che si basa sul confronto tra le diverse risposte di ChatGPT quando vengono messe una contro l'altra e valutate.
Se infatti CriticGPT è simile a ChatGPT, la differenza notevole è che per allenarlo i ricercatori gli hanno mostrato un set di dati contenente esempi di codice con bug inseriti intenzionalmente, insegnandogli a riconoscere e contrassegnare vari errori di codifica.
Prima di rilasciarlo, OpenAI ha messo a confronto i risultati degli esseri umani che analizzavano il codice di ChatGPT con e senza il modello “critico”. Il risultato è stato confortante: nel 63% gli annotatori hanno preferito le critiche del modello rispetto a quelle fatte dallo stesso ChatGPT, riportando come CriticoGPT ho scritto critiche più complete, prodotto meno critiche inutili, generato meno falsi positivi e nel complesso ridotto i tassi di allucinazione.
I ricercatori hanno anche creato una nuova tecnica chiamata Force Sampling Beam Search (FSBS), che aiuta CriticoGPT a scrivere recensioni più dettagliate del codice, permettendo di regolarne l'accuratezza e di fatto agendo sulle allucinazioni.
Il tutto in modo dinamica un secondo della necessità.
Non solo codice: CriticGPT potrebbe servire anche in altri contest
Stando a quanto riportato, CriticGPT potrebbe essere utile non solo nella revisione del codice.
I ricercatori hanno infatti applicato il modello ad un sottoinsieme di dati di allenamento per ChatGPT che in precedenza erano stati valutati come validi dagli annotatori umani. Sorprendentemente, CriticoGPT ha identificato Errore nel 24% di questi casi, errori che sono stati successivamente confermati dai revisori umani.
OpenAI pensa che questo mostri il potenziale del modello di essere utilizzato per compiti più genericidove magari potrebbe non esserci un'attenta valutazione umana.
In ogni caso, il 24% del tasso di errore nei dati usati per l'allenamento di ChatGPT dovrebbe essere di per sé un campanello d'allarme. Vuol dire che quasi un dato su quattro usato per allenare ChatGPT contiene un errore.
I limiti di CriticGPT
CriticoGPT è sicuramente una soluzione promettente, ma come tutti i modelli IA ha dei problemi. Innanzitutto, le risposte di ChatGPT sono state relativamente brevi, il che potrebbe renderlo inadeguato per valutare compiti complessi.
Inoltre, anche se presentato tassi di allucinazione ridotti, questo non significa che ne sia esente, e in assoluto sono comunque molto elevati. OpenAI dichiara come gli annotatori commettono errori di etichettatura dopo aver visto le allucinazioni del modello, ma non sono stati condivisi dati a riguardo.
Inoltre il team di ricerca riconosce che CriticoGPT è più efficace nell'identificare gli errori che possono essere individuati in una posizione specifica all'interno del codice. Nel mondo reale, gli errori possono spesso essere distribuiti su più parti di una risposta, il che presenta una sfida non ancora analizzata e che verrà affrontata nelle future iterazioni del modello.
Per il futuro, OpenAI prevede di integrare modelli simili a CriticoGPT nella sua pipeline di etichettatura RLHF, fornendo ai suoi formatori l'assistenza AI. Tuttavia, per alcuni esperti ci sono risposte che potrebbero essere troppo difficili da valutare, anche con l'aiuto di CriticGPT, quello che sarebbe controproducente.
La paura infatti riguarda i falsi negativiovvero problemi che potrebbero essere non rilevati, e che nel apprendimento automatico sono uno dei rischi maggiori.