Questa nuova tecnologia potrebbe spazzare via GPT-4 e tutto ciò che vi assomiglia

Per tutta l'eccitazione intorno al programma di intelligenza artificiale chatbot conosciuto come ChatGPT, sviluppato da OpenAI, e la sua tecnologia successiva, GPT-4, i programmi sono, alla fine della giornata, solo applicazioni software. E come tutte le applicazioni, hanno limitazioni tecniche che possono rendere le loro prestazioni non ottimali.

In un articolo pubblicato a marzo, gli scienziati di intelligenza artificiale (AI) dell'Università di Stanford e dell'Istituto AI MILA del Canada hanno proposto una tecnologia che potrebbe essere molto più efficiente di GPT-4, o qualsiasi altra cosa simile, nel risucchiare enormi quantità di dati e trasformarle in una risposta.

Inoltre: Questi ex dipendenti di Apple vogliono sostituire gli smartphone con questo gadget

Conosciuta come Hyena, la tecnologia è in grado di raggiungere un'accuratezza equivalente nei test di riferimento, come la risposta alle domande, utilizzando una frazione della potenza di calcolo. In alcuni casi, il codice Hyena è in grado di gestire quantità di testo che fanno semplicemente esaurire la memoria e fallire la tecnologia di stile GPT.

"I nostri promettenti risultati su scala inferiore al miliardo di parametri suggeriscono che l'attenzione potrebbe non essere tutto ciò di cui abbiamo bisogno", scrivono gli autori. Questa osservazione si riferisce al titolo di un importante rapporto sull'intelligenza artificiale del 2017, 'L'attenzione è tutto ciò di cui hai bisogno'. In quel documento, il ricercatore di Google Ashish Vaswani e i suoi colleghi hanno presentato al mondo il programma di intelligenza artificiale Transformer di Google. Il Transformer è diventato la base di tutti i recenti modelli di linguaggio di grandi dimensioni.

Ma il Transformer ha un grosso difetto. Utilizza qualcosa chiamato "attenzione", dove il programma informatico prende le informazioni da un gruppo di simboli, come le parole, e sposta quelle informazioni in un nuovo gruppo di simboli, come la risposta che vedi da ChatGPT, che è l'output.

Inoltre: Cos'è GPT-4? Ecco tutto quello che devi sapere

Quell'operazione di attenzione - lo strumento essenziale di tutti i grandi programmi di linguaggio, inclusi ChatGPT e GPT-4 - ha una complessità computazionale "quadratica" (Wiki "complessità temporale" del calcolo). Tale complessità significa che il tempo necessario a ChatGPT per produrre una risposta aumenta al quadrato della quantità di dati che vengono forniti in input.

In qualche momento, se ci sono troppi dati - troppa parole nel prompt, o troppe stringhe di conversazioni per ore ed ore di chat con il programma - allora il programma si appesantisce nel fornire una risposta, oppure deve essere dotato di chip GPU sempre più numerosi per girare sempre più velocemente, portando ad un aumento delle richieste di elaborazione.

Nel nuovo articolo, 'Hyena Hierarchy: verso modelli linguistici convoluzionali più grandi', pubblicato sul server pre-print arXiv, il primo autore Michael Poli di Stanford e i suoi colleghi propongono di sostituire la funzione di attenzione del Transformer con qualcosa di sotto-quadratica, ossia Hyena.

Inoltre:Cos'è Auto-GPT? Tutto ciò che c'è da sapere sul prossimo potente strumento di intelligenza artificiale

Gli autori non spiegano il nome, ma si possono immaginare diverse ragioni per un programma chiamato "Hyena". Le iene sono animali che vivono in Africa e possono cacciare per miglia e miglia. In un certo senso, un modello di linguaggio molto potente potrebbe essere come una iena, che caccia per miglia e miglia per trovare nutrimento.

Ma gli autori sono davvero preoccupati della "gerarchia", come suggerisce il titolo, e le famiglie di iene hanno una gerarchia rigorosa in cui i membri di un branco locale di iene hanno vari livelli di rango che stabiliscono la dominanza. In qualche modo analogo, il programma Hyena applica una serie di operazioni molto semplici, come vedrete, una dopo l'altra, in modo che si combinino per formare una sorta di gerarchia di elaborazione dei dati. È quell'elemento combinatorio che dà al programma il suo nome Hyena.

Anche:Le future versioni di ChatGPT potrebbero sostituire la maggior parte del lavoro che le persone svolgono oggi, afferma Ben Goertzel

Gli autori che hanno contribuito all'articolo includono luminari del mondo dell'IA, come Yoshua Bengio, direttore scientifico di MILA, che ha ricevuto il premio Turing nel 2019, l'equivalente nel campo dell'informatica del Premio Nobel. A Bengio è generalmente attribuito lo sviluppo del meccanismo di attenzione molto prima che Vaswani e il suo team lo adattassero per il Transformer.

Anche tra gli autori c'è Christopher Ré, professore associato di informatica presso l'Università di Stanford, che negli ultimi anni ha contribuito a promuovere il concetto di intelligenza artificiale come "software 2.0".

Per trovare un'alternativa sub-quadratica all'attenzione, Poli e il suo team si sono messi a studiare come il meccanismo di attenzione svolge quello che fa, per vedere se quel lavoro potesse essere svolto in modo più efficiente.

Una pratica recente nella scienza dell'IA, nota come interpretabilità meccanicistica, sta fornendo informazioni su cosa sta succedendo nel profondo di una rete neurale, all'interno dei "circuiti" computazionali dell'attenzione. È possibile pensare a questa pratica come a smontare un software come si farebbe con un orologio o un PC, per vedere le sue parti e capire come funziona.

Inoltre:Ho utilizzato ChatGPT per scrivere la stessa routine in 12 dei principali linguaggi di programmazione. Ecco come ha funzionato

Uno dei lavori citati da Poli e dal suo team è un insieme di esperimenti condotti dal ricercatore Nelson Elhage della startup di intelligenza artificiale Anthropic. Questi esperimenti smontano i programmi Transformer per vedere cosa fa l'attenzione.

In sostanza, ciò che Elhage e il suo team hanno scoperto è che l'attenzione funziona al suo livello più elementare tramite operazioni informatiche molto semplici, come copiare una parola da un'input recente e incollarla nell'output.

Ad esempio, se si inizia a digitare in un grande programma di modellizzazione del linguaggio come ChatGPT una frase tratta da Harry Potter e la Pietra Filosofale, come "Mr. Dursley era il direttore di una ditta chiamata Grunnings...", digitando semplicemente "D-u-r-s", l'inizio del nome, potrebbe essere sufficiente per indurre il programma a completare il nome "Dursley" perché ha visto il nome in una frase precedente della Pietra Filosofale. Il sistema è in grado di copiare dalla memoria il registro dei caratteri "l-e-y" per completare la frase.

Inoltre:ChatGPT è più simile a un'intelligenza "aliena" che a un cervello umano, afferma un futurologo

Tuttavia, l'operazione di attenzione incontra il problema della complessità quadratica man mano che il numero di parole aumenta. Più parole richiedono un maggior numero di ciò che sono conosciuti come "pesi" o parametri, per eseguire l'operazione di attenzione.

Come scrivono gli autori: "Il blocco Transformer è uno strumento potente per la modellazione delle sequenze, ma non è privo di limitazioni. Una delle più significative è il costo computazionale, che cresce rapidamente all'aumentare della lunghezza della sequenza di input."

Mentre i dettagli tecnici di ChatGPT e GPT-4 non sono stati divulgati da OpenAI, si ritiene che possano avere un trilione o più parametri simili. Eseguire questi parametri richiede un numero maggiore di chip GPU di Nvidia, aumentando quindi il costo di elaborazione.

Per ridurre il costo computazionale quadratico, Poli e il suo team sostituiscono l'operazione di attenzione con quella che viene chiamata "convoluzione", che è una delle operazioni più antiche nei programmi di intelligenza artificiale, sviluppata negli anni '80. Una convoluzione è semplicemente un filtro che può selezionare elementi all'interno dei dati, che siano i pixel di una foto digitale o le parole in una frase.

Inoltre:Il successo di ChatGPT potrebbe spingere verso una pericolosa tendenza al segreto nell'IA, afferma l'AI pioneer Bengio

Poli e il suo team fanno una sorta di mash-up: prendono il lavoro svolto dal ricercatore di Stanford Daniel Y. Fu e dal suo team per applicare filtri convoluzionali a sequenze di parole, e lo combinano con il lavoro dello studioso David Romero e dei suoi colleghi presso la Vrije Universiteit Amsterdam, che consente al programma di modificare la dimensione del filtro al volo. Questa capacità di adattarsi in modo flessibile riduce il numero di parametri costosi o pesi che il programma deve avere.

Il risultato del mash-up è che una convoluzione può essere applicata a una quantità illimitata di testo senza richiedere sempre più parametri per copiare sempre più dati. È un approccio "senza attenzione", come dicono gli autori.

"Gli operatori di iena sono in grado di ridurre significativamente il divario di qualità con l'attenzione su larga scala," scrivono Poli e il team, "raggiungendo una perplessità simile e una performance inferiore con un budget computazionale inferiore." La perplessità è un termine tecnico che si riferisce a quanto sofisticata è la risposta generata da un programma come ChatGPT.

Per dimostrare la capacità di Hyena, gli autori testano il programma su una serie di benchmark che determinano quanto un programma di linguaggio sia bravo in una varietà di compiti di intelligenza artificiale.

Inoltre: 'Strane nuove cose stanno accadendo nel software,' afferma il professor Chris Ré dell'AI di Stanford

Un test è The Pile, una collezione di testi di 825 gigabyte messa insieme nel 2020 da Eleuther.ai, un'organizzazione di ricerca AI senza scopo di lucro. I testi sono raccolti da fonti "di alta qualità" come PubMed, arXiv, GitHub, l'Ufficio Brevetti degli Stati Uniti e altri, in modo che le fonti abbiano una forma più rigorosa rispetto a semplici discussioni su Reddit, ad esempio.

La sfida chiave per il programma era produrre la parola successiva quando venivano fornite una serie di nuove frasi in input. Il programma Hyena è stato in grado di ottenere un punteggio equivalente al programma GPT originale di OpenAI del 2018, con il 20% meno operazioni di calcolo - "la prima architettura di convoluzione senza attenzione che riesce a eguagliare la qualità di GPT" con meno operazioni, scrivono i ricercatori.

Successivamente, gli autori hanno testato il programma su compiti di ragionamento noti come SuperGLUE, introdotti nel 2019 da studiosi presso la New York University, Facebook AI Research, Google's DeepMind e l'Università di Washington.

Ad esempio, quando viene fornita la frase "Il mio corpo proiettava un'ombra sull'erba", e due alternative per la causa, "il sole stava sorgendo" o "l'erba era tagliata", e viene chiesto di scegliere una delle due, il programma dovrebbe generare "il sole stava sorgendo" come output appropriato.

In molteplici compiti, il programma Hyena ha raggiunto punteggi paragonabili a quelli di una versione di GPT pur essendo allenato con meno della metà dei dati di addestramento.

Altre informazioni: Come utilizzare il nuovo Bing (e come si differenzia da ChatGPT)

ancora più interessante è ciò che è accaduto quando gli autori hanno aumentato la lunghezza delle frasi utilizzate come input: più parole hanno portato a un miglioramento delle prestazioni. A 2.048 "tokens", che puoi pensare come parole, Hyena impiega meno tempo per completare un compito linguistico rispetto all'approccio attenzionale.

Ai 64.000 token, gli autori affermano: "Gli acceleratori delle iene raggiungono velocità fino a 100 volte superiori" - un miglioramento delle prestazioni cento volte superiore.

Poli e il suo team sostengono di non aver semplicemente provato un approccio diverso con Hyena, ma di aver "superato la barriera quadratica", causando un cambiamento qualitativo nella difficoltà per un programma nel calcolare i risultati.

Raccomandano che ci siano anche potenziali cambiamenti significativi nella qualità più avanti: "Superare la barriera quadratica è un passo fondamentale verso nuove possibilità per l'apprendimento profondo, come ad esempio l'utilizzo di interi libri di testo come contesto, la generazione di musica a lungo formato o l'elaborazione di immagini su scala gigapixel," scrivono.

La capacità dello Iena di utilizzare un filtro che si estende in modo più efficiente su migliaia e migliaia di parole, scrivono gli autori, significa che non ci può essere praticamente limite al "contesto" di una richiesta a un programma linguistico. Potrebbe, in effetti, richiamare elementi di testi o di conversazioni precedenti molto distanti dal filo attuale della conversazione - proprio come le iene che cacciano per miglia.

Inoltre: I migliori chatbot AI: ChatGPT e altre divertenti alternative da provare

"Gli operatori di Hyena hanno un contesto illimitato," scrivono. "Nello specifico, non sono artificialmente limitati, ad esempio, dalla località, e possono apprendere dipendenze a lungo raggio tra gli elementi di [input]."

Inoltre, oltre alle parole, il programma può essere applicato a dati di diverse modalità, come immagini e forse video e suoni.

È importante notare che il programma Hyena mostrato nel documento è di dimensioni ridotte rispetto a GPT-4 o anche GPT-3. Mentre GPT-3 ha 175 miliardi di parametri, o pesi, la versione più grande di Hyena ha solo 1,3 miliardi di parametri. Pertanto, resta da vedere quanto bene si comporterà Hyena in un confronto diretto con GPT-3 o 4.

Ma, se l'efficienza raggiunta si applica anche alle versioni più grandi del programma Hyena, potrebbe essere un nuovo paradigma tanto diffuso come l'attenzione negli ultimi dieci anni.

Come conclude Poli e il suo team: "Progetti più semplici e sub-quadratici come Hyena, basati su un insieme di semplici principi guida e valutati su benchmark di interpretabilità meccanicistica, possono costituire la base per modelli di grandi dimensioni efficienti."

Questa nuova tecnologia potrebbe spazzare via GPT-4 e tutto ciò che gli assomiglia

Articoli correlati