OpenAI GPT-4 Arrivo a metà marzo 2023

gpt-4-640b66db8c60d-sej-1520x800.jpg

Il CTO di Microsoft Germania, Andreas Braun, ha confermato che GPT-4 sarà disponibile entro una settimana dal 9 marzo 2023 e che sarà multimodale. L'IA multimodale significa che sarà in grado di elaborare diversi tipi di input, come video, immagini e suoni.

Aggiornato: GPT-4 Rilasciato il 14 marzo 2023

OpenAI ha rilasciato GPT-4 il 14 marzo 2023. Si tratta di un modello multimodale che accetta prompt di immagini e testi.

Modalità è una frase utilizzata nell'apprendimento automatico per indicare forme di input come il testo ma anche i sensi come il suono, la vista, l'olfatto, ecc.

L'annuncio di OpenAI ha descritto l'ampiezza degli avanzamenti del GPT-4:

"...sebbene meno capaci degli esseri umani in molti scenari del mondo reale, presenta prestazioni paragonabili a quelle umane su vari benchmark professionali e accademici.

Ad esempio, supera un esame da bar simulato con un punteggio intorno al 10% dei migliori candidati; al contrario, il punteggio di GPT-3.5 era intorno al 10% più basso."

"Abbiamo trascorso 6 mesi allineando iterativamente GPT-4 utilizzando le lezioni del nostro programma di test avversariali, nonché ChatGPT, ottenendo i nostri migliori risultati di sempre (sebbene lontani dalla perfezione) in termini di fattualità, manovrabilità e rifiuto di uscire dai corridoi di sicurezza."

Modelli di Lingua Multimodali di Grandi Dimensioni

Il punto chiave dell'annuncio è che GPT-4 è multimodale (SEJ ha previsto che GPT-4 sia multimodale a gennaio 2023).

La modalità è un riferimento al tipo di input con cui un grande modello linguistico lavora (in questo caso).

La parola multimodale può comprendere testo, parole, immagini e video.

GPT-3 e GPT-3.5 operavano solo in una modalità, testo.

Secondo il rapporto di notizie tedesco, GPT-4 potrebbe essere in grado di operare in almeno quattro modalità: immagini, suono (uditivo), testo e video.

Dr. Andreas Braun, CTO Microsoft Germania è citato:

"Introdurremo GPT-4 la settimana prossima, lì avremo modelli multimodali che offriranno possibilità completamente diverse - ad esempio video..."

La relazione mancava di dettagli per GPT-4, quindi non è chiaro se ciò che è stato condiviso sulla multimodalità fosse specifico per GPT-4 o solo in generale.

Il Direttore Strategico del Business di Microsoft, Holger Kenn, ha spiegato le multimodalità, ma la relazione non è stata chiara se si stava riferendo alla multimodalità di GPT-4 o alla multimodalità in generale.

Credo che i suoi riferimenti alla multimodalità fossero specifici per GPT-4.

La notizia riportata:

"Kenn ha spiegato in cosa consiste l'AI multimodale, che può tradurre il testo non solo in immagini, ma anche in musica e video."

Un altro fatto interessante è che Microsoft sta lavorando su "metriche di affidabilità" al fine di fondare la propria intelligenza artificiale su fatti concreti per renderla più affidabile.

Microsoft Kosmos-1

Qualcosa che apparentemente è stato sottovalutato negli Stati Uniti è che Microsoft ha rilasciato un modello di linguaggio multimodale chiamato Kosmos-1 all'inizio di marzo 2023.

Secondo quanto riportato dal sito di notizie tedesco, Heise.de:

"...il team ha sottoposto il modello pre-trained a vari test, ottenendo buoni risultati nella classificazione delle immagini, nel rispondere a domande sul contenuto delle immagini, nell'etichettatura automatica delle immagini, nel riconoscimento del testo ottico e nelle attività di generazione di voce.

...Il ragionamento visivo, cioè trarre delle conclusioni riguardo alle immagini senza utilizzare il linguaggio come passaggio intermedio, sembra essere fondamentale qui...

Kosmos-1 è una modalità multimodale che integra le modalità di testo e immagini.

GPT-4 va oltre Kosmos-1 perché aggiunge una terza modalità, quella video, e sembra includere anche la modalità del suono.

Funziona in diverse lingue

GPT-4 sembra funzionare in tutte le lingue. Viene descritto come in grado di ricevere una domanda in tedesco e rispondere in italiano.

È un esempio piuttosto strano perché chi farebbe una domanda in tedesco e vorrebbe ricevere una risposta in italiano?

Questo è ciò che è stato confermato:

"...la tecnologia è arrivata così lontano che funziona praticamente in tutte le lingue": puoi fare una domanda in tedesco e ricevere una risposta in italiano.

Con la multimodalità, Microsoft (-OpenAI) renderà i modelli completi".

Credo che il punto di svolta sia che questo modello va oltre la lingua, con la sua capacità di estrarre conoscenza da diverse lingue. Quindi, se la risposta è in italiano, lo saprà e sarà in grado di fornire la risposta nella stessa lingua in cui è stata chiesta la domanda.

Questo lo renderebbe simile all'obiettivo dell'IA multimodale di Google chiamata MUM. Si dice che MUM sia in grado di fornire risposte in inglese per le quali i dati esistono solo in un'altra lingua, come il giapponese.

Applicazioni di GPT-4

Non ci sono attualmente annunci su dove GPT-4 farà la sua comparsa. Ma Azure-OpenAI è stato specificamente menzionato.

Google sta facendo fatica a raggiungere Microsoft integrando una tecnologia concorrente nel proprio motore di ricerca. Questo sviluppo ulteriormente accentua la percezione che Google stia rimanendo indietro e che manchi un leadership nell'Intelligenza Artificiale per i consumatori.

Google già integra l'AI in molti prodotti come Google Lens, Google Maps e altre aree con cui i consumatori interagiscono con Google. Questo approccio consiste nell'utilizzare l'AI come tecnologia di assistenza, per aiutare le persone in piccole attività.

Il modo in cui Microsoft lo sta implementando è più visibile e di conseguenza sta catturando tutta l'attenzione e rafforzando l'immagine di Google come un'azienda che fatica ad agganciare.

Leggi l'annuncio ufficiale sul rilascio di OpenAI GPT-4 qui.

Leggi il reportaggio originale in tedesco qui:

GPT-4 arriverà la prossima settimana - e sarà multimodale, afferma Microsoft Germania

Articoli correlati

Mostra di più >>

Sblocca il potere dell'intelligenza artificiale con HIX.AI!