Il gigantesco GPT-3 di OpenAI delinea i limiti dei modelli di linguaggio per l'IA

Più di un anno fa, OpenAI, un'azienda di intelligenza artificiale con sede a San Francisco, ha sorpreso il mondo mostrando un notevole avanzamento nella capacità dei computer di formare frasi in linguaggio naturale e persino di risolvere domande, come completare una frase e formulare lunghe porzioni di testo che le persone trovano abbastanza umane.

Il più recente lavoro di quel team mostra come il pensiero di OpenAI si sia sviluppato in alcuni aspetti. GPT-3, come viene chiamato l'ultimo progetto, è emerso la scorsa settimana, con ancora più funzionalità, creato dagli stessi autori della versione precedente, tra cui Alec Radford e Ilya Sutskever, insieme a diversi collaboratori aggiuntivi, tra cui scienziati dell'Università di Johns Hopkins.

È ora un vero e proprio modello di linguaggio "mostro", come viene chiamato, che inghiotte due ordini di grandezza più testo rispetto al suo predecessore.

Ma dentro a quella prova del "più grande è meglio", il team di OpenAI sembra avvicinarsi a delle verità più profonde, proprio come il dottor David Bowman si avvicinò ai limiti del conosciuto alla fine del film 2001.

Nella sezione conclusiva del paper di 72 pagine, intitolato I modelli di lingua sono apprendisti a poche riprese, pubblicato la scorsa settimana sul server pre-print di arXiv, c'è un riconoscimento piuttosto sorprendente.

"Una limitazione più fondamentale dell'approccio generale descritto in questo articolo - l'aumento di scala di qualsiasi modello simile a LM, sia autoregressivo che bidirezionale - è che potrebbe alla fine raggiungere (o potrebbe già aver raggiunto) i limiti dell'obiettivo di pretraining", scrivono gli autori.

Ciò che gli autori stanno dicendo è che costruire una rete neurale che predice solo le probabilità della parola successiva in una qualsiasi frase o frase potrebbe avere dei limiti. Renderla sempre più potente e riempirla sempre più di testo potrebbe non portare a risultati migliori. Questa è un'importante ammissione all'interno di un articolo che celebra principalmente il traguardo di dedicare una maggiore potenza di calcolo a un problema.

Per capire perché la conclusione degli autori sia così significativa, consideriamo come siamo arrivati fin qui. La storia del lavoro di OpenAI sul linguaggio fa parte della storia di un progresso costante di un tipo di approccio, con un successo crescente man mano che la tecnologia diventava sempre più grande e grande e grande.

L'originale GPT e GPT-2 sono entrambi adattamenti di ciò che è noto come Transformer, un'invenzione sviluppata da Google nel 2017. Il Transformer utilizza una funzione chiamata attenzione per calcolare la probabilità che una parola appaia dato il contesto delle parole circostanti. OpenAI ha suscitato controversie un anno fa quando ha dichiarato che non avrebbe rilasciato il codice sorgente della versione più grande di GPT-2, perché, ha affermato, tale codice potrebbe finire nelle mani sbagliate e essere utilizzato in modo errato per ingannare le persone con notizie false.

Il nuovo articolo porta GPT al livello successivo rendendolo ancora più grande. La versione più grande di GPT-2, quella che non è stata pubblicata in forma sorgente, era di 1,5 miliardi di parametri. GPT-3 ha 175 miliardi di parametri. Un parametro è un calcolo in una rete neurale che applica un peso maggiore o minore a un aspetto dei dati, per dare a quell'aspetto una maggiore o minore importanza nel calcolo complessivo dei dati. Sono questi pesi che danno forma ai dati e danno alla rete neurale una prospettiva appresa sui dati.

Aumentando i pesi nel tempo ha portato a risultati di test di benchmark sorprendenti da parte della famiglia di programmi GPT e da altri derivati di grandi Transformer, come il BERT di Google, risultati che sono stati costantemente molto impressionanti.

Non importa che molte persone abbiano fatto notare che nessuno di questi modelli di linguaggio sembrava davvero comprendere il linguaggio in modo significativo. Stanno superando i test, e questo conta qualcosa.

La versione più recente mostra nuovamente un progresso quantitativo. Come GPT-2 e altri programmi basati su Transformer, GPT-3 è addestrato sul set di dati Common Crawl, un corpus di quasi un trilione di parole di testi estratti dal Web. "Il set di dati e la dimensione del modello sono circa due ordini di grandezza più grandi di quelli utilizzati per GPT-2", scrivono gli autori.

GPT-3 con 175 miliardi di parametri è in grado di realizzare ciò che gli autori descrivono come "meta-learning". Il meta-learning significa che la rete neurale di GPT non viene riaddestrata per svolgere un compito come il completamento di una frase. Data un'esempio di compito, come una frase incompleta, e poi la frase completata, GPT-3 procederà a completare qualsiasi frase incompleta gli venga data.

GPT-3 è in grado di imparare come svolgere un compito con un singolo input, e a volte lo fa meglio delle versioni del Transformer che sono state ottimizzate appositamente per svolgere solo quel compito. Pertanto, GPT-3 rappresenta il trionfo di una generalità complessiva. Basta alimentarlo con una grande quantità di testo finché i suoi pesi non sono ideali, e potrà svolgere abbastanza bene numerosi compiti specifici senza ulteriori sviluppi.

È qui che la storia giunge a un'emozionante conclusione nel nuovo articolo. Dopo aver elencato i risultati impressionanti di GPT-3 su compiti linguistici che vanno dal completamento di frasi all'inferenza delle implicazioni logiche delle affermazioni alla traduzione tra lingue, gli autori notano le carenze.

"Nonostante i notevoli miglioramenti quantitativi e qualitativi di GPT-3, soprattutto rispetto al suo diretto predecessore GPT-2, presenta comunque delle evidenti debolezze."

Questi punti deboli includono l'incapacità di raggiungere una precisione significativa su ciò che è chiamato NLI avversario. NLI, o inferenza di linguaggio naturale, è un test in cui il programma deve determinare la relazione tra due frasi. I ricercatori di Facebook e dell'Università di North Carolina hanno introdotto una versione avversariale, in cui gli esseri umani creano coppie di frasi che sono difficili da risolvere per il computer.

GPT-3 fa "poco meglio di un caso fortuito" in cose come Adversarial NLI, scrivono gli autori. Peggio ancora, avendo aumentato la potenza di elaborazione del loro sistema a 175 miliardi di pesi, gli autori non sono esattamente sicuri del motivo per cui non hanno ottenuto risultati soddisfacenti in alcuni compiti.

Ecco quando giungono alla conclusione, citata sopra, che forse semplicemente alimentare un enorme corpus di testo a una macchina gigantesca non è la risposta definitiva.

Ancora più sorprendente è la prossima osservazione. L'intera pratica di cercare di prevedere cosa succederà con la lingua potrebbe essere un approccio sbagliato, scrivono gli autori. Potrebbero puntare nel posto sbagliato.

"Con obiettivi auto-supervisionati, la specifica del compito si basa sull'imposizione del compito desiderato come un problema di previsione", scrivono, "mentre in ultima analisi, i sistemi linguistici utili (ad esempio gli assistenti virtuali) potrebbero essere meglio considerati come azioni orientate agli obiettivi piuttosto che semplicemente come previsioni."

Gli autori lasciano ad un altro momento la decisione su come affrontare questa potenziale nuova direzione piuttosto affascinante.

Nonostante la realizzazione che più grande potrebbe non essere alla fine la soluzione migliore, i migliori risultati di GPT-3 su molte attività probabilmente alimentano, anziché ridurre, il desiderio di reti neurali sempre più grandi. Con 175 miliardi di parametri, GPT-3 è il re delle grandi reti neurali, almeno per il momento. Una presentazione a aprile da parte dell'azienda di chip AI Tenstorrent ha descritto future reti neurali con oltre un trilione di parametri.

Per una buona parte della comunità di machine learning, la creazione di modelli linguistici sempre più grandi rimarrà lo stato dell'arte.

Il gigantesco GPT-3 di OpenAI fa intuire i limiti dei modelli linguistici per l'IA

Articoli correlati