Probabilmente avrete già sentito parlare del test di Turing: si dice che un computer lo supera se una persona non riesce a capire se un testo sia
stato scritto dal computer o da un essere umano. Come già sottolineato dallo stesso Alan Turing, che infatti lo chiama gioco e non test, questo sistema non valuta davvero l’intelligenza di un sistema di Intelligenza Artificiale, quanto più la sua capacità di imitare un comportamento intelligente e la sua capacità di ingannare l’umano che legge.
Alan Turing però non ha vissuto durante il boom dei sistemi di Intelligenza Artificiale Generativa, e non aveva davvero la necessità di catalogare e valutare decine di sistemi diversi.
A differenza sua, a ogni nuovo rilascio di un sistema di AI, infatti, veniamo inondati da affermazioni entusiastiche sulle loro capacità, spesso però senza definizioni quantitative e misurabili.
Come si testano le capacità di un modello
Per rispondere a questa esigenza sono state sviluppate decine e decine di cosiddetti test di benchmark, che mettono alla prova la capacità di vari modelli di AI di svolgere compiti più o meno complessi. Il meccanismo di funzionamento è sempre più o meno lo stesso: al modello vengono sottoposte domande aperte o a crocette e in seguito giudici umani valutano la performance. Per evitare che i modelli possano trovare già pronte online le risposte alle domande che compaiono in questi test di benchmark, le domande e le relative risposte nella
maggior parte dei casi non sono pubbliche.
Nonostante tutte le tutele, a inizio aprile Meta è stata molto criticata dalla comunità dei ricercatori per aver “barato” ai test: dopo aver rilasciato i due nuovi modelli Llama 4 (Scout e Maverick) e i relativi risultati, si è scoperto che quest’ultimi non erano stati effettuati sulle versioni in commercio dei due modelli, ma su altre versioni ottimizzate per i test, puntando nuovamente i riflettori sui tanti limiti di questo meccanismo.
Alcuni ricercatori propongono test sempre più complessi, che riescano a rappresentare in modo più dettagliato le differenze tra i vari modelli. Tra chi sceglie di sviluppare test sempre più difficili e specifici, chi si interroga su cosa faremo quando i nostri test saranno troppo facili per l’AI, e le nuove scoperte di Anthropic su come funziona davvero un LLM, spiccano i risultati di un “esperimento” del filosofo e docente Luciano Floridi, che ha provato a chiedere a vari LLM una domanda apparentemente semplice: quanti personaggi muoiono in
una selezione di tragedie di Shakespeare?
|