OpenAI ha recentemente pubblicato un report sui suoi modelli di intelligenza artificiale più avanzati, in particolare i modelli o3 e o4-mini. Le notizie non sono incoraggianti: si è registrato un aumento preoccupante delle allucinazioni, un fenomeno ben noto a chi opera nel settore. Nonostante i progressi tecnologici e l’incremento della potenza computazionale, questo problema rimane irrisolto e continua a rappresentare una sfida significativa per gli sviluppatori.
ChatGPT e il fenomeno delle allucinazioni
Nel report, OpenAI ha rivelato che il modello o3 ha mostrato allucinazioni nel 33% dei casi durante il test PersonQA, che si concentra su domande relative a figure pubbliche, e addirittura nel 51% dei casi nel test SimpleQA, dedicato a domande fattuali più semplici. La situazione è ancor più allarmante per o4-mini, un modello progettato per essere più veloce e compatto, che ha registrato un tasso di errori del 41% in PersonQA e un incredibile 79% in SimpleQA. Fortunatamente, l’aggiornamento GPT-4.5 del noto chatbot ha mostrato un miglioramento, con un tasso di allucinazioni del 37,1% nel test SimpleQA.
Ma perché si verificano queste allucinazioni? La risposta risiede nel funzionamento intrinseco dei modelli linguistici. A differenza degli esseri umani, questi sistemi non ragionano; piuttosto, calcolano la sequenza di parole più probabile da restituire in base ai dati di addestramento. Quando si trovano di fronte a domande per cui non hanno informazioni solide, tendono a “indovinare”, producendo risposte che possono essere non solo false, ma anche grammaticalmente scorrette. Le cause principali di queste allucinazioni includono set di dati incompleti o sbilanciati e problematiche nei meccanismi di addestramento.
Le strategie delle aziende per affrontare il problema
Gli esperti del settore avvertono che le allucinazioni rappresentano un ostacolo significativo all’adozione su larga scala delle tecnologie AI, specialmente in ambiti delicati come la medicina, la finanza, il giornalismo e il diritto. Questo è un problema serio, e molti ritengono che sia impossibile da risolvere completamente. Tuttavia, ci sono strategie di contenimento che possono essere applicate.
Una delle idee più promettenti è quella di insegnare ai modelli a riconoscere l’incertezza, permettendo loro di rispondere con un “non lo so” quando non sono in grado di fornire una risposta attendibile. Altre proposte includono la possibilità di far attingere i modelli a documenti esterni in tempo reale, come database o motori di ricerca, prima di generare una risposta. Inoltre, si potrebbe migliorare l’addestramento supervisionato, aumentando la qualità e la varietà dei dati d’ingresso.
Infine, un’altra opzione è quella di coinvolgere team di esseri umani per effettuare verifiche post-produzione, soprattutto in contesti aziendali o professionali. Le allucinazioni rimangono uno dei limiti più evidenti e pericolosi dei chatbot AI. Nonostante i recenti miglioramenti, il problema persiste e potrebbe minare la fiducia degli utenti. Le aziende tecnologiche sono al lavoro per trovare soluzioni efficaci, ma la strada verso un’IA realmente affidabile e consapevole dei propri limiti è ancora lunga.