Cos'è GPT-3? Tutto ciò che la tua azienda deve sapere sul rivoluzionario programma di intelligenza artificiale linguistica di OpenAI

zdnet-gpt-3-è-la-prossima-parola-nell-ai-ver-2.jpg

GPT-3 è un programma informatico creato dalla startup di San Francisco, OpenAI. Si tratta di una gigantesca rete neurale, quindi fa parte del settore del deep learning del machine learning, che a sua volta è un ramo della scienza informatica noto come intelligenza artificiale o IA. Il programma è superiore a qualsiasi programma precedente nel produrre linee di testo che sembrano essere state scritte da un essere umano.

La ragion

Osserva il seguente breve esempio di ciò che una persona digita nel computer e di come GPT-3 invia una risposta:

Input fornito dall'utente : Q: Chi ha interpretato Tess in Toccati da un angelo?

GPT-3-generated completion : A: Delloreese Patricia Early (6 luglio 1931 - 19 novembre 2017), conosciuta professionalmente come Della Reese

Il programma è attualmente in versione beta privata a cui le persone possono iscriversi su una lista d'attesa. È offerto da OpenAI come un'API accessibile tramite il cloud, e le aziende che hanno ottenuto l'accesso hanno sviluppato applicazioni interessanti che utilizzano la generazione di testo per potenziare tutti i tipi di programmi, dalle semplici domande-risposte alla produzione di codice di programmazione.

Insieme alle potenzialità dell'automazione, ci sono anche grandi svantaggi. GPT-3 richiede una grande quantità di risorse computazionali, il che lo rende inaccessibile alla maggior parte delle aziende per un utilizzo in sede. Il testo generato può sembrare impressionante a prima vista, ma le composizioni lunghe tendono a diventare in qualche modo insensate. Inoltre, ha un grande potenziale per amplificare pregiudizi, inclusi razzismo e sessismo.

COME FUNZIONA GPT-3?

GPT-3 è un esempio di quello che viene chiamato un modello di linguaggio, che è un particolare tipo di programma statistico. In questo caso, è stato creato come una rete neurale.

Il nome GPT-3 è un acronimo che sta per "generative pre-training", di cui questa è la terza versione finora. Ègenerativo perché, a differenza di altre reti neurali che restituiscono un punteggio numerico o una risposta sì o no, GPT-3 può generare lunghe sequenze di testo originale come output. È pre-allenato nel senso che non è stato creato con alcuna conoscenza di dominio, anche se può completare compiti specifici di un dominio, come la traduzione di una lingua straniera.

Un modello linguistico, nel caso di GPT-3, è un programma che calcola quanto è probabile che una parola appaia in un testo dato le altre parole presenti nel testo. Questa è ciò che è noto come probabilità condizionata delle parole.

Per esempio, nella frase, Volevo preparare una frittata, quindi sono andato in frigo e ho preso alcuni ____, il vuoto può essere riempito con qualsiasi parola, anche senza senso, data l'infinitezza componibilità del linguaggio. Ma la parola "uova" probabilmente ottiene un punteggio abbastanza alto per riempire quel vuoto nella maggior parte dei testi normali, più alto, ad esempio, di "elefanti". Diciamo che la probabilità di uova nella condizione del testo suggerito è più alta della probabilità di elefanti.

Quando la rete neurale è in fase di sviluppo, chiamata fase di addestramento, GPT-3 viene alimentato con milioni e milioni di campioni di testo e converte le parole in ciò che vengono chiamati vettori, rappresentazioni numeriche. Questa è una forma di compressione dei dati. Il programma cerca poi di decomprimere questo testo compresso in una frase valida. Il compito di compressione e decompressione sviluppa l'accuratezza del programma nel calcolare la probabilità condizionale delle parole.

Una volta che il modello è stato addestrato, ossia le sue calcolazioni di probabilità condizionata su miliardi di parole sono state rese il più accurate possibile, allora può predire quali parole seguiranno quando viene sollecitato da una persona che digita una parola o parole iniziali. Quell'azione di predizione è conosciuta nell'apprendimento automatico come inferenza.

Ciò porta a un effetto di specchio sorprendente. Non solo emergono parole probabili, ma viene riprodotta anche la texture e il ritmo di un genere o la forma di un compito scritto, come insiemi di domande e risposte. Ad esempio, GPT-3 può essere alimentato con alcuni nomi di poeti famosi e campioni delle loro opere, successivamente il nome di un altro poeta e solo il titolo di una poesia immaginaria, e GPT-3 produrrà una nuova poesia in modo coerente con il ritmo e la sintassi del poeta il cui nome è stato suggerito.

Considera il seguente esempio di GPT-3 che crea una poesia da zero, simile ai lavori di Wallace Stevens, dopo aver ricevuto titoli, nomi e esempi di altri poeti e delle loro opere:

L'input fornito dall'utente: 
La città
di C. P. Cavafy
Tradotto da Edmund Keeley
[Testo della poesia omesso]

Input fornito dall'essere umano: ALCUNI ALBERI John Ashbery [Testo della poesia omesso]

Input fornito dall'utente: Shadows on the Way Wallace Stevens

GPT-3-generated completion : -------- Poema Generato 1 --------   Devo avere ombre sulla strada Se voglio camminare Devo avere Ogni passo preso lentamente e da solo Pronto da consegnare   E devo pensare in linee di grigio Per avere pensieri deboli come guida Devo guardare il blu e il verde E mai permettere che il mio occhio dimentichi Che il colore è mio amico E il viola deve circondarmi anche Il giallo del sole non è più Notaio del candido nevoso Che cade su di noi. Devo avere Pensieri grigi e pensieri blu che camminano con me Se voglio andare via del tutto.

Generare una risposta significa che GPT-3 può andare ben oltre la semplice produzione di testi. Può esibirsi in tutti i tipi di test, incluso test di ragionamento che richiedono una risposta in linguaggio naturale. Ad esempio, se a GPT-3 viene fornito un saggio sui prezzi degli affitti delle proprietà a Manhattan, e una dichiarazione che riassume il testo, come "Manhattan è economico," e la domanda "vero o falso?", GPT-3 risponderà a tutto il prompt restituendo la parola "falso," poiché la dichiarazione non è in accordo con l'argomento del saggio.

Input fornito dall'utente: La tendenza verso affitti più bassi potrebbe sembrare sorprendente dato che alcune comunità di New York si lamentano della perdita dei loro negozi locali preferiti a causa degli affitti elevati. Tuttavia, nonostante il recente ammorbidimento, per molti di questi commercianti c'è ancora un salto troppo grande rispetto alle tariffe di affitto alla fine degli anni '70, quando sono stati firmati i loro contratti di locazione. Certamente, la recente diminuzione dei prezzi non significa che Manhattan sia economica.

Input fornito dall'utente: domanda: Manhattan costa poco. vero, falso, o nessuno dei due?

Input fornito dall'utente: risposta:

GPT-3-generated completion : falso

La capacità di GPT-3 di rispondere in modo coerente a un compito di esempio, incluso a forme a cui non è mai stato esposto prima, lo rende ciò che viene chiamato un modello di linguaggio "poche-shot". Invece di essere ampiamente tarato o "addestrato", come viene chiamato, su un determinato compito, GPT-3 ha già così tante informazioni su tutti i modi in cui le parole si combinano che può venirgli dati solo una manciata di esempi di un compito, ciò che viene chiamato un passaggio di ottimizzazione, e acquisisce anche la capacità di eseguire quel nuovo compito.

La capacità di riflettere gli stili di linguaggio naturale e di ottenere un punteggio relativamente alto nei test basati sul linguaggio può dare l'impressione che GPT-3 stia raggiungendo una sorta di abilità simile a quella umana con la lingua. Come vedremo, non è questo il caso.

Maggiori dettagli tecnici possono essere trovati nel documento formale GPT-3 pubblicato dagli scienziati di OpenAI.

COSA PUÒ FARE GPT-3?

OpenAI è ora diventata famosa, o forse infame, per le pratiche di rilascio del suo codice tanto quanto per il codice stesso. Quando l'azienda ha presentato GPT-2, il predecessore, il giorno di San Valentino del 2019, non ha inizialmente rilasciato al pubblico la versione più avanzata, dicendo che era troppo pericoloso rilasciarla nel mondo a causa del rischio di produzione su larga scala di testi falsi e fuorvianti. Successivamente, OpenAI l'ha resa disponibile per il download.

Questa volta, OpenAI non fornisce alcun download. Invece, ha attivato un endpoint di API basato su cloud, rendendo GPT-3 un servizio offerto come-a-service. (Pensalo come LMaaS, language-model-as-a-service.) Il motivo, sostiene OpenAI, è sia per limitare l'uso di GPT-3 da parte di cattivi attori che per guadagnare denaro.

"Non c'è un pulsante 'annulla' con il codice open source," ha dichiarato OpenAI a ZDNet tramite un portavoce.

"Rilasciare GPT-3 tramite un'API ci consente di controllarne in modo sicuro l'utilizzo e di revocare l'accesso se necessario."

Al momento, il servizio API di OpenAI è limitato alle parti approvate; esiste una lista di attesa a cui è possibile unirsi per ottenere l'accesso.

"Al momento, l'API è in una beta controllata con un piccolo numero di sviluppatori che presentano un'idea per qualcosa che vorrebbero realizzare utilizzando l'API", ha dichiarato OpenAI a ZDNet.

Inoltre: il generatore di testo AI 'pericoloso' di OpenAI è disponibile: le persone trovano le parole 'persuasive'

Esistono esempi intriganti di ciò che può essere fatto dalle aziende nel programma beta. Sapling, un'azienda supportata dal fondo di investimento Y Combinator, offre un programma che si sovrappone al software CRM. Quando un rappresentante del servizio clienti gestisce una richiesta di assistenza in arrivo, ad esempio via email, il programma utilizza GPT-3 per suggerire una frase intera come risposta tra le risposte più probabili.

La casa produttrice di giochi Latitude sta utilizzando GPT-3 per migliorare il suo gioco di avventura basato su testo, AI Dungeon. Di solito, un gioco di avventura richiederebbe un albero decisionale complesso per scrivere molti possibili percorsi nel gioco. Invece, GPT-3 può generare dinamicamente uno stato di gameplay in continua evoluzione in risposta alle azioni digitate dagli utenti.

Già, l'automazione delle attività sta andando oltre il linguaggio naturale per generare codice informatico. Il codice è un linguaggio e GPT-3 può inferire la sintassi più probabile degli operatori e degli operandi in diversi linguaggi di programmazione, e può produrre sequenze che possono essere compilare ed eseguite con successo.

Un primo esempio ha fatto brillare il Twitter-verse, da Debuild, una startup di sviluppo di app. Il capo della compagnia, Sharif Shameem, è stato in grado di costruire un programma in cui è possibile digitare la descrizione di un'interfaccia utente software in inglese semplice e GPT-3 risponde con il codice informatico utilizzando l'estensione di sintassi JSX per JavaScript. Quel codice produce un'interfaccia utente corrispondente a quanto descritto.

Questo è incredibile. Con GPT-3, ho creato un generatore di layout in cui devi solo descrivere il layout che desideri, e genera il codice JSX per te. C O S A pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 luglio 2020

Shameem ha dimostrato che descrivendo un'interfaccia utente con più pulsanti, con una sola frase poteva descrivere un intero programma, sebbene uno semplice come calcolare operazioni aritmetiche di base e visualizzare il risultato, e GPT-3 avrebbe prodotto tutto il codice necessario e mostrato l'applicazione in funzione.

Ho appena creato un'app React *funzionante* descrivendo cosa volevo a GPT-3. Sono ancora stupito.

— Sharif Shameem (@sharifshameem) 17 luglio 2020

OpenAI ha ricevuto "decine di migliaia di domande di accesso all'API fino ad oggi, e stanno valutando attentamente gli accessi mentre impariamo cosa possono fare questi modelli nel mondo reale," ha dichiarato l'azienda a ZDNet. "Pertanto, la lista d'attesa potrebbe essere lunga."

La tariffazione per un eventuale servizio commerciale è ancora da determinare. Quando gli è stato chiesto quando il programma uscirà dalla fase beta, OpenAI ha detto a ZDNet, "non a breve."

"Rilasciare un modello così potente significa che dobbiamo procedere con cautela e riflettere sul suo impatto sulle aziende, le industrie e le persone", ha dichiarato l'azienda. "Il formato di un'API ci consente di studiare e moderare il suo utilizzo in modo appropriato, ma non abbiamo fretta di renderlo disponibile al pubblico data la sua limitazione".

Se sei impaziente per la lista d'attesa beta, nel frattempo puoi scaricare la versione precedente, GPT-2, che può essere eseguita su un laptop utilizzando un'installazione Docker. Il codice sorgente è pubblicato nella stessa repository Github, in formato Python per il framework TensorFlow. Ovviamente non otterrai gli stessi risultati di GPT-3, ma è un modo per iniziare a familiarizzare.

Ricorda, inoltre, che continuano a comparire nuovi modelli di linguaggio con capacità simili e alcuni di essi potrebbero essere sufficienti per i tuoi scopi. Ad esempio, Google ha recentemente rilasciato una versione del suo modello di linguaggio BERT, chiamato LaBSE, che dimostra un miglioramento significativo nella traduzione linguistica. È disponibile per il download dal TensorFlow Hub.

Anche: L'enorme GPT-3 di OpenAI suggerisce i limiti dei modelli di linguaggio per l'IA

CHE COS'È LA STORIA DI GPT-3?

GPT-3, svelato a maggio, è la terza versione di un programma presentato per la prima volta nel 2018 da OpenAI e seguito l'anno scorso da GPT-2. I tre programmi sono un esempio di rapida innovazione nel campo dei modelli linguistici, grazie a due grandi progressi, entrambi avvenuti nel 2015.

Il primo progresso è stato l'uso di ciò che è conosciuto come attenzione. Lo scienziato dell'IA Yoshua Bengio e i suoi colleghi presso l'istituto per l'IA Mila di Montreal hanno osservato che i modelli linguistici, quando comprimevano una frase in lingua inglese e poi la decomprimevano, utilizzavano tutti un vettore di lunghezza fissa. Ogni frase veniva inserita in un vettore delle stesse dimensioni, indipendentemente dalla lunghezza della frase.

Bengio e il suo team hanno concluso che questo approccio rigido fosse un collo di bottiglia. Un modello di linguaggio dovrebbe essere in grado di cercare attraverso molti vettori di diverse lunghezze per trovare le parole che ottimizzano la probabilità condizionata. E quindi hanno ideato un modo per consentire alla rete neurale di comprimere in modo flessibile le parole in vettori di diverse dimensioni, così come di consentire al programma di cercare in modo flessibile attraverso quei vettori il contesto che contasse. Hanno chiamato questo attenzione.

Attenzione è diventato un elemento fondamentale nei modelli di linguaggio. È stato utilizzato dagli scienziati di Google due anni dopo per creare un programma di modelli di linguaggio chiamato Transformer. Il Transformer ha ottenuto punteggi incredibili nei test di manipolazione del linguaggio. È diventato il modello di linguaggio de facto ed è stato utilizzato da Google per creare ciò che è noto come BERT, un altro modello di linguaggio molto di successo. Il Transformer è diventato anche la base di GPT-1.

Libero dal bisogno di manipolare rigidamente un vettore di dimensione fissa, il Transformer e i suoi discendenti possono spostarsi liberamente su diverse parti di un testo dato e trovare dipendenze condizionali che si estendono su un contesto molto più ampio.

Quella libertà ha preparato il terreno per un'altra innovazione che è arrivata nel 2015 e che è stata ancora più centrale per il lavoro di OpenAI, conosciuta come apprendimento non supervisionato.

Il focus fino a quel momento per la maggior parte dei modelli di linguaggio era stato l'apprendimento supervisionato con ciò che viene definito dati etichettati. Dato un input, una rete neurale viene anche dato un esempio di output come la versione obiettivo della risposta. Quindi, se il compito è la traduzione, una frase in lingua inglese potrebbe essere l'input, e una traduzione in francese creata dall'uomo verrebbe fornita come obiettivo desiderato, e la coppia di frasi costituiscono un esempio etichettato.

Il tentativo della rete neurale di generare una traduzione in francese verrebbe confrontato con la frase ufficiale in francese, e la differenza tra le due è quanto la rete neurale si sbaglia nella formulazione delle sue previsioni, ciò che è conosciuto come funzione di perdita o funzione obiettivo.

La fase di addestramento ha lo scopo di ridurre al minimo la differenza di errore tra l'output suggerito dalla rete neurale e l'output desiderato. Quando la differenza è la più piccola possibile, la funzione obiettivo è stata ottimizzata e la rete neurale del modello di linguaggio è considerata addestrata.

Ma ottenere l'output desiderato accuratamente etichettato può essere un problema perché richiede molta cura dei dati, come ad esempio la raccolta di coppie di frasi di esempio attraverso il giudizio umano, il che richiede tempo e risorse considerevoli. Andrew Dai e Quoc Le di Google hanno ipotizzato che fosse possibile ridurre i dati etichettati necessari se il modello linguistico venisse prima addestrato in modo non supervisionato.

Invece di ricevere una coppia di frasi, la rete riceve solo frasi singole e deve comprimere ciascuna in un vettore e decomprimerla tornando alla frase originale. La funzione di perdita ottimizzata era la riflessione. Hanno scoperto che più esempi non etichettati vengono compressi e decompressi in questo modo, più è possibile sostituire molte dati etichettati in compiti come la traduzione.

Nel 2018, il team di OpenAI ha combinato questi due elementi, il meccanismo di attenzione sviluppato da Bengio e colleghi, che si spostava tra molti vettori di parole, e l'approccio di pre-training non supervisionato di Dai e Le, che avrebbe ingoiato grandi quantità di testo, lo avrebbe compresso e decompresso per riprodurre il testo originale.

Hanno preso un Transformer standard e gli hanno fornito i contenuti del BookCorpus, un database compilato dall'Università di Toronto e dal MIT che consiste in oltre 7.000 testi di libri pubblicati per un totale di quasi un milione di parole, per un totale di 5 GB. GPT-1 è stato addestrato a comprimere e decomprimere quei libri.

Così ha avuto inizio una storia di tre anni di dataset sempre più grandi. I ricercatori di OpenAI, ipotizzando che più dati rendessero il modello più accurato, hanno spinto i limiti di ciò che il programma poteva assimilare. Con GPT-2, hanno scartato il BookCorpus a favore di un dataset autoprodotto, composto da otto milioni di pagine web estratte da link esterni di Reddit, per un totale di 40 GB di dati.

La formazione di GPT-3 è ancora più enorme, composta dal popolare dataset CommonCrawl di pagine Web dal 2016 al 2019. In teoria, equivale a 45TB di dati testuali compressi, anche se OpenAI lo ha curato per rimuovere duplicati e migliorarne la qualità in altri modi. La versione finale è di 570GB di dati. OpenAI l'ha integrato con diversi dataset aggiuntivi di vario tipo, tra cui dati provenienti da libri.

COME DIPENDE GPT-3 DALLA POTENZA DI CALCOLO?

Con l'arrivo di GPT-1, 2 e 3, la scala dei calcoli è diventata un ingrediente essenziale per il progresso. I modelli utilizzano sempre più potenza di calcolo durante l'addestramento per ottenere risultati migliori.

Ciò che ottimizza una rete neurale durante l'addestramento è l'aggiustamento dei suoi pesi. I pesi, che vengono anche chiamati parametri, sono matrici, array di righe e colonne con cui viene moltiplicato ogni vettore. Attraverso la moltiplicazione, i molti vettori di parole, o frammenti di parole, vengono ponderati maggiormente o minormente nell'output finale mentre la rete neurale viene regolata per ridurre la distanza di errore.

OpenAI ha scoperto che per ottenere buoni risultati sui loro dataset sempre più ampi, dovevano aggiungere sempre più pesi.

L'originale Transformer di Google aveva 110 milioni di pesi. GPT-1 seguiva questo design. Con GPT-2, il numero è stato aumentato a 1,5 miliardi di pesi. Con GPT-3, il numero dei parametri è aumentato a 175 miliardi, rendendo GPT-3 la rete neurale più grande mai vista nel mondo.

La moltiplicazione è una cosa semplice, ma quando bisogna moltiplicare 175 miliardi di pesi per ogni bit dei dati di input, attraverso miliardi di byte di dati, diventa un incredibile esercizio di elaborazione parallela del computer.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Già con GPT-1, nel 2018, OpenAI stava spingendo i limiti dell'informatica pratica. Aumentare la quantità di dati significava aumentare il numero di GPU. I modelli di linguaggio precedenti riuscivano ad essere contenuti in una singola GPU perché erano di dimensioni ridotte. GPT-1 impiegò un mese per l'addestramento su otto GPU che operavano in parallelo.

Con GPT-3, OpenAI è stata un po' elusiva. Non ha descritto la configurazione esatta del computer utilizzato per l'allenamento, se non per dire che era su un cluster di chip Nvidia V100 che funzionava su Microsoft Azure. L'azienda ha descritto il totale di cicli di calcolo richiesti, affermando che è equivalente a eseguire un trilione di operazioni in virgola mobile al secondo al giorno per 3.640 giorni.

Il produttore di computer e operatore di cloud Lambda Computing ha stimato che ci vorrebbero 355 anni a una singola GPU per eseguire tanto calcolo, il che, ad un prezzo standard di istanza GPU cloud, costerebbe 4,6 milioni di dollari. E poi c'è la memoria. Per conservare tutti i valori dei pesi richiede sempre più memoria all'aumentare del numero di parametri. I 175 miliardi di parametri di GPT-3 richiedono 700GB, 10 volte di più della memoria di una singola GPU.

È proprio quel tipo di enorme requisito di potenza che sta spingendo il settore dei chip informatici. Ha fatto aumentare il prezzo delle azioni di Nvidia, il principale fornitore di GPU per l'addestramento dell'IA, di quasi il 5.000% negli ultimi dieci anni. Ha dato origine a una serie di startup sostenute da centinaia di milioni di dollari di finanziamenti di venture capital, tra cui Cerebras Systems, Graphcore e Tachyum. La concorrenza continuerà a prosperare finché la costruzione di modelli sempre più grandi rimarrà la traiettoria del settore.

OpenAI ha prodotto una propria ricerca sul crescente bisogno di potenza informatica. L'azienda ha notato nel 2018 che i cicli di calcolo consumati dai modelli di addestramento AI più grandi si sono raddoppiati ogni 3,4 mesi dal 2012, un tasso di espansione più rapido rispetto a quello del famoso legge di Moore sulla crescita dei transistor dei chip. (Mentalmente, l'azienda ha anche prodotto una ricerca che dimostra che su base unitaria, i modelli sempre più grandi finiscono per essere più efficienti rispetto alle reti neurali precedenti che facevano lo stesso lavoro.)

Già oggi, ci sono modelli in fase di sviluppo che utilizzano più di un trilione di parametri, secondo quanto riferito da aziende informate su progetti di intelligenza artificiale top-secret. Probabilmente questo non è il limite, fintanto che le aziende iperscalabili come Google sono disposte a dedicare i loro vasti data center a modelli sempre più grandi. La maggior parte degli studiosi di intelligenza artificiale concorda sul fatto che modelli sempre più grandi diventeranno la norma per l'apprendimento automatico per ancora molto tempo.

"Per quanto riguarda l'impatto su AI come campo, la parte più entusiasmante di GPT-3 è che dimostra che non siamo nemmeno vicini ai limiti della scalabilità dell'AI," ha detto Kenny Daniel, CTO del venditore di strumenti di gestione dell'AI Algorithmia, a ZDNet.

Oltre a migliorare l'utilizzo del calcolo, l'altro grande impatto di GPT-3 sarà chiaramente la velocizzazione della programmazione e dello sviluppo delle applicazioni in generale. La dimostrazione di Shameem di un programma JSX costruito semplicemente digitando una frase è solo la punta dell'iceberg.

QUALI SONO I LIMITI DI GPT-3?

Nonostante un vasto miglioramento rispetto alla versione precedente, GPT-3 ha molte limitazioni, come indicato dagli stessi autori. "Anche se nel complesso la qualità è alta, i campioni di GPT-3 a volte si ripetono semanticamente a livello di documento, iniziano a perdere coerenza su passaggi sufficientemente lunghi," notano nel paper pubblicato.

Il programma presenta anche difficoltà nell'eseguire bene una serie di test individuali. "In particolare, GPT-3 ha difficoltà con domande del tipo 'Se metto il formaggio nel frigorifero, si scioglierà?' scrivono gli autori, descrivendo il tipo di cose di buon senso che sfuggono a GPT-3.

C'era così tanta eccitazione poco dopo l'uscita di GPT-3 che il CEO dell'azienda, Sam Altman, ha pubblicamente invitato le persone a frenare il loro entusiasmo.

"L'hype intorno a GPT-3 è troppo esagerato", ha twittato Altman il 19 luglio. "È impressionante (grazie per i bei complimenti!) ma ha ancora seri punti deboli e talvolta commette errori molto stupidi", ha scritto. "L'AI cambierà il mondo, ma GPT-3 è solo un semplice anticipo molto precoce. Abbiamo ancora molto da capire. "

La hype intorno a GPT-3 è troppo esagerata. È impressionante (grazie per i bei complimenti!) ma ha ancora seri punti deboli e a volte commette errori molto sciocchi. L'IA cambierà il mondo, ma GPT-3 è solo un brevissimo sguardo iniziale. Abbiamo ancora molto da capire.

— Sam Altman (@sama) 19 luglio 2020

Altri al di fuori di OpenAI hanno offerto la loro valutazione della realtà. Max Woolf, un utente esperto di diverse generazioni di GPT, ha scritto sul suo blog personale che GPT-3 è migliore rispetto alle versioni precedenti, ma solo in media. Esiste uno spettro di qualità del testo generato, quindi alcuni esempi che incontrerai sembreranno notevoli, mentre altri non molto buoni. Woolf paragona GPT-3 a Siri di Apple, che ha l'abitudine inquietante di produrre spazzatura in molte occasioni. (L'articolo di Woolf merita di essere letto integralmente per una disamina riflessiva di GPT-3.)

In effetti, man mano che si leggono sempre più esempi di GPT-3, soprattutto lunghi passaggi di testo, è inevitabile che l'entusiasmo iniziale svanisca. GPT-3 su lunghe porzioni tende a perdere il filo, come si dice. Qualunque sia il genere o compito, il suo output testuale inizia a diventare una sequela interminabile e noiosa, con incogruenze narrative che sorgono internamente.

Certi programmatori, nonostante il loro entusiasmo, hanno catalogato le numerose mancanze, cose come i tentativi falliti di GPT-3 di fare battute da papà. Prendiamo ad esempio la seguente introduzione per una battuta da papà: "Cos'ha detto un piatto all'altro?". La risposta corretta per una battuta da papà sarebbe: "La cena è offerta da me!" Ma GPT-3 potrebbe invece rispondere con qualcosa di non spiritoso come "Intingimi!"

Domanda: Cosa ha detto un piatto all'altro piatto?

GPT-3-generated completion : A. Immergimi!

Mentre GPT-3 può rispondere a domande supposte di senso comune, come ad esempio quanti occhi ha una giraffa, non può evitare una domanda senza senso e viene indotto a offrire una risposta senza senso. Se gli viene chiesto: "Quanti occhi ha il mio piede?", risponderà diligentemente: "Il mio piede ha due occhi".

Un modo per pensare a tutta questa mediocrità è che ottenere un buon risultato da GPT-3 richiede in qualche misura un investimento nella creazione di prompt efficaci. Alcuni prompt ideati dall'uomo permetteranno al programma di ottenere risultati migliori rispetto ad altri prompt. È una nuova versione del detto "spazzatura dentro, spazzatura fuori". I prompt sembrano diventare un nuovo ambito della programmazione a sé stante, che richiede sia intuito che maestria artistica.

Prendere in considerazione il pregiudizio è molto importante, non solo con GPT-3 ma con tutti i programmi che si basano sulla distribuzione condizionata. L'approccio sottostante del programma è quello di restituire esattamente ciò che viene inserito, come uno specchio. Ciò ha il potenziale per replicare i pregiudizi presenti nei dati. È già stata condotta una discussione accademica sull'ampio pregiudizio in GPT-2.

Con GPT-3, la scienziata AI di Nvidia Anima Anandkumar ha lanciato l'allarme che la tendenza a produrre risultati tendenziosi, inclusi risultati razzisti e sessisti, continua.

Sono disturbato nel vedere ciò rilasciato senza responsabilità per il pregiudizio. Allenato su un corpus di @reddit con un'enorme quantità di #razzismo e #sessismo. Ho lavorato con questi modelli e il testo che hanno prodotto è in modo sorprendentemente di parte. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof.ssa Anima Anandkumar (@AnimaAnandkumar) 11 giugno 2020

Chiesto il parere di Anandkumar, OpenAI ha risposto a ZDNet, dicendo: "Come con tutti i modelli generativi sempre più potenti, la giustizia e l'abuso sono preoccupazioni per noi."

"Questa è una delle ragioni per cui condividiamo questa tecnologia tramite API e lanciamo in versione beta privata per iniziare", ha detto OpenAI a ZDNet. L'azienda sottolinea che "non supporterà casi d'uso che giudichiamo causare danni fisici o mentali alle persone, tra cui ma non limitati a molestie, inganni intenzionali, radicalizzazione, astroturfing o spam".

OpenAI ha dichiarato a ZDNet che sta utilizzando una forma conosciuta di wargaming white hat, black hat per rilevare i pericoli nel programma:

Abbiamo messo in campo quello che chiamiamo un 'red team' incaricato di rompere costantemente il sistema di filtrazione dei contenuti, in modo da poter apprendere di più su come e perché il modello restituisca risultati errati. Il suo corrispettivo è il "blue team" incaricato di misurare e ridurre il pregiudizio.

Un'altra grande problematica è la natura molto ampia e comune del GPT-3, il fatto che rafforza solo la parte più grassa di una curva di probabilità condizionale. Esiste quella che viene definita "la coda lunga", e a volte anche "la coda grassa", di una distribuzione di probabilità. Questi sono casi meno comuni che potrebbero costituire gli esempi più innovativi di utilizzo del linguaggio. Concentrarsi sul riflettere solo il testo più diffuso in una società rischia di eliminare la creatività e l'esplorazione.

Per il momento, la soluzione di OpenAI a quel problema è un'impostazione che si può regolare in GPT-3 chiamata valore di temperatura. Smanettando con questa manopola, si potrà tarare GPT-3 per selezionare combinazioni di parole meno probabili e quindi produrre testo forse più insolito.

Un'altra preoccupazione più urgente per una azienda è che non è possibile personalizzare GPT-3 con dati specifici dell'azienda. Senza la possibilità di personalizzare nulla, è difficile specializzare GPT-3 per un dominio industriale, ad esempio. Potrebbe essere che qualsiasi azienda che utilizzi il servizio API si trovi con del testo che deve essere ulteriormente elaborato per renderlo applicabile a un dominio. Forse le startup come Sapling formeranno un ecosistema, l'equivalente dei VARs, che risolveranno questo problema. Forse, ma resta da vedere.

Se ciò non fosse già preoccupante, c'è un altro problema che riguarda il fatto che come servizio cloud, GPT-3 è una scatola nera. Ciò significa che le aziende che utilizzano il servizio non hanno idea di come esso arrivi alle sue risposte, il che è particolarmente rischioso quando si considerano le questioni legate al pregiudizio. Un ecosistema di soggetti come Sapling che migliorano GPT-3 potrebbero aggiungere ulteriori strati di oscurità contemporaneamente al miglioramento del servizio.

Come sottosezione della questione della casella nera, GPT-3 può in alcuni casi semplicemente memorizzare ciò che ha assorbito dal web. Ciò solleva problematiche di copyright. Se un'azienda prende in output dal servizio API materiale protetto da copyright, potrebbe violare il copyright di un'altra entità. Interrogata sul copyright, OpenAI ha detto a ZDNet che il copyright del testo generato da GPT-3 "appartiene all'utente, non a OpenAI." Ciò che ciò significa nella pratica resta da vedere.

Al momento, la più grande limitazione pratica è la scala richiesta per addestrare ed eseguire GPT-3. OpenAI lo riconosce nel documento ufficiale. Gli autori scrivono che è necessario fare ulteriori studi per calcolare come il costo dei modelli di grandi dimensioni venga ammortizzato nel tempo in base al valore dell'output prodotto.

Inoltre: No, questa intelligenza artificiale non può completare la tua frase

GPT-3 STA REALMENTE IMPARANDO?

Utilizzando il significato restrittivo della parola, GPT-3 sta imparando nel senso che i pesi dei suoi parametri vengono regolati automaticamente tramite l'ingestione dei dati di addestramento, in modo tale che il modello linguistico risulti migliore di quanto consentirebbe la sola programmazione esplicita. In questo senso, GPT-3 rappresenta un avanzamento nella lunga ricerca di decenni per un computer in grado di apprendere una funzione mediante la quale trasformare i dati senza che un essere umano codifichi esplicitamente tale funzione.

Detto ciò, ci si chiederà se la macchina è veramente intelligente o sta veramente imparando. Ci sono molte modalità per discutere su questa questione, ma una riflessione informale suggerisce che gran parte di quello che potremmo chiamare pensiero umano non avviene qui.

Immagina di poter tenere nella tua mente un punteggio numerico per quanto molte parole sono probabili che compaiano insieme. Diresti che la tua abilità di formare frasi, frasi, paragrafi e interi passaggi di testi fosse riflessiva? Probabilmente diresti che è solo statistica e che manca qualcos'altro.

Sono state fatte comparazioni tra l'apprendimento profondo e il famoso Clever Hans, un cavallo tedesco il cui padrone lo mostrava al pubblico come un animale in grado di fare aritmetica con gli zoccoli. In seguito si scoprì che Hans rispondeva a segnali corporei del padrone per battere lo zoccolo e che senza questi segnali lui non era in grado di esibirsi.

In modo simile, la qualità umana di GPT-3 si rivela problematica a un'ispezione più attenta. Quando GPT-3 risponde correttamente a una domanda vero-falso su un saggio sul mercato immobiliare di New York, non è perché il programma ha conoscenze in materia di immobili o di New York. Ha memorizzato la distribuzione di probabilità che cattura le affermazioni nei testi e il formato di una coppia affermazione-domanda, e può rifletterli in output.

Hans non sapeva nulla di aritmetica, anche se, in difesa di Hans, aveva comunque intelligenza. Nel caso delle reti neurali, i critici diranno che ci sono solo trucchi, senza senso di fondo.

Comunque, l'intelligenza e l'apprendimento possono significare molte cose e nel corso degli anni i punti di riferimento si sono spostati per quello che si suppone sia l'intelligenza artificiale, come ha sottolineato Pamela McCorduck, storica del settore. Alcuni potrebbero sostenere che un programma capace di calcolare probabilità su vasti assemblaggi di testo possa essere una diversa forma di intelligenza, forse un'intelligenza aliena diversa dalla nostra. Smettere di considerarla sembra prematuro.

Inoltre, le reti neurali che generano queste probabilità condizionali sono più di semplici programmi statistici. I loro calcoli sono la proprietà emergente di molteplici operazioni matematiche simultanee che avvengono in parallelo, l'ottimizzazione dei pesi dei parametri. Se è possibile considerare altre forme di intelligenza, allora una proprietà emergente come le rappresentazioni distribuite che si formano all'interno delle reti neurali potrebbe essere un luogo in cui cercarla.

QUAL È IL FUTURO DI GPT-3?

Una cosa sembra certa: GPT-3 ha aperto un nuovo capitolo nell'apprendimento automatico. La sua caratteristica più sorprendente è la sua generalità. Solo pochi anni fa, le reti neurali venivano costruite con funzioni tarate per un compito specifico, come la traduzione o la risposta alle domande. I dataset venivano curati per riflettere quel compito. Invece, GPT-3 non ha funzioni specifiche per un compito e non ha bisogno di un dataset speciale. Semplicemente inghiotte qualsiasi quantità di testo possibile da ovunque e lo riflette nel suo output.

In qualche modo, nel calcolo della distribuzione di probabilità condizionale tra tutti quei gigabyte di testo, emerge una funzione che può produrre risposte competitive in molte diverse attività. È un trionfo sorprendente della semplicità che probabilmente ha molti anni di successi davanti a sé.

Anche quella generalità, tuttavia, potrebbe raggiungere il suo limite. Già gli autori di GPT-3 notano alla fine del loro documento che la direzione del pre-training potrebbe alla fine esaurire il suo potenziale. "Una limitazione più fondamentale dell'approccio generale descritto in questo documento [...] è che potrebbe alla fine incontrare (o potrebbe già essere in atto) i limiti dell'obiettivo di pre-training."

Gli autori suggeriscono possibili nuove direzioni interessanti potrebbero includere "apprendere la funzione oggettivo dagli esseri umani" e mescolare altri tipi di deep learning, come l'approccio "reinforcement learning" usato in AlphaZero di DeepMind per vincere a scacchi e go. (Hanno già iniziato ad implementare tali approcci. All'inizio di settembre, gli autori di OpenAI hanno mostrato di poter utilizzare il reinforcement learning per addestrare GPT-3 a produrre migliori riassunti degli articoli fornendo al modello di linguaggio alcuni feedback umani su quali riassunti suonino meglio.)

Un'altra cosa che suggeriscono è aggiungere altri tipi di dati, come immagini, per completare il "modello del mondo" del programma.

Effettivamente, nei prossimi anni è probabile che questo approccio molto generale si diffonda ad altre modalità oltre al testo, come immagini e video. Immaginate un programma come GPT-3 che possa tradurre le immagini in parole e viceversa senza bisogno di un algoritmo specifico per modellare la relazione tra le due. Potrebbe, per esempio, "imparare" descrizioni di scene testuali dalle foto o predire le sequenze fisiche degli eventi da descrizioni testuali.

Il direttore di Facebook AI, Yann LeCun, ha sostenuto che addestramento non supervisionato in varie forme rappresenta il futuro del deep learning. Se ciò è vero, l'approccio di pre-training applicato a molteplici modalità di dati, dal suono al testo alle immagini al video, può essere considerato come una direzione futura molto promettente dell'onda non supervisionata.

Cosa è GPT-3? Tutto ciò che la tua azienda deve sapere sul programma di linguaggio AI rivoluzionario di OpenAI