![gpt-4-640b66db8c60d-sej-1520x800.jpg](https://static-lib.s3.amazonaws.com/cms/gpt_4_640b66db8c60d_sej_1520x800_1899fa76fc.jpg)
Il CTO di Microsoft Germania, Andreas Braun, ha confermato che GPT-4 sarà disponibile entro una settimana dal 9 marzo 2023 e che sarà multimodale. L'IA multimodale significa che sarà in grado di elaborare diversi tipi di input, come video, immagini e suoni.
Aggiornato: GPT-4 Rilasciato il 14 marzo 2023
OpenAI ha rilasciato GPT-4 il 14 marzo 2023. Si tratta di un modello multimodale che accetta prompt di immagini e testi.
Modalità è una frase utilizzata nell'apprendimento automatico per indicare forme di input come il testo ma anche i sensi come il suono, la vista, l'olfatto, ecc.
L'annuncio di OpenAI ha descritto l'ampiezza degli avanzamenti del GPT-4:
"...sebbene meno capaci degli esseri umani in molti scenari del mondo reale, presenta prestazioni paragonabili a quelle umane su vari benchmark professionali e accademici.
Ad esempio, supera un esame da bar simulato con un punteggio intorno al 10% dei migliori candidati; al contrario, il punteggio di GPT-3.5 era intorno al 10% più basso."
"Abbiamo trascorso 6 mesi allineando iterativamente GPT-4 utilizzando le lezioni del nostro programma di test avversariali, nonché ChatGPT, ottenendo i nostri migliori risultati di sempre (sebbene lontani dalla perfezione) in termini di fattualità, manovrabilità e rifiuto di uscire dai corridoi di sicurezza."
Modelli di Lingua Multimodali di Grandi Dimensioni
Il punto chiave dell'annuncio è che GPT-4 è multimodale (SEJ ha previsto che GPT-4 sia multimodale a gennaio 2023).
La modalità è un riferimento al tipo di input con cui un grande modello linguistico lavora (in questo caso).
La parola multimodale può comprendere testo, parole, immagini e video.
GPT-3 e GPT-3.5 operavano solo in una modalità, testo.
Secondo il rapporto di notizie tedesco, GPT-4 potrebbe essere in grado di operare in almeno quattro modalità: immagini, suono (uditivo), testo e video.
Dr. Andreas Braun, CTO Microsoft Germania è citato:
"Introdurremo GPT-4 la settimana prossima, lì avremo modelli multimodali che offriranno possibilità completamente diverse - ad esempio video..."
La relazione mancava di dettagli per GPT-4, quindi non è chiaro se ciò che è stato condiviso sulla multimodalità fosse specifico per GPT-4 o solo in generale.
Il Direttore Strategico del Business di Microsoft, Holger Kenn, ha spiegato le multimodalità, ma la relazione non è stata chiara se si stava riferendo alla multimodalità di GPT-4 o alla multimodalità in generale.
Credo che i suoi riferimenti alla multimodalità fossero specifici per GPT-4.
La notizia riportata:
"Kenn ha spiegato in cosa consiste l'AI multimodale, che può tradurre il testo non solo in immagini, ma anche in musica e video."
Un altro fatto interessante è che Microsoft sta lavorando su "metriche di affidabilità" al fine di fondare la propria intelligenza artificiale su fatti concreti per renderla più affidabile.
Microsoft Kosmos-1
Qualcosa che apparentemente è stato sottovalutato negli Stati Uniti è che Microsoft ha rilasciato un modello di linguaggio multimodale chiamato Kosmos-1 all'inizio di marzo 2023.
Secondo quanto riportato dal sito di notizie tedesco, Heise.de:
"...il team ha sottoposto il modello pre-trained a vari test, ottenendo buoni risultati nella classificazione delle immagini, nel rispondere a domande sul contenuto delle immagini, nell'etichettatura automatica delle immagini, nel riconoscimento del testo ottico e nelle attività di generazione di voce.
...Il ragionamento visivo, cioè trarre delle conclusioni riguardo alle immagini senza utilizzare il linguaggio come passaggio intermedio, sembra essere fondamentale qui...
Kosmos-1 è una modalità multimodale che integra le modalità di testo e immagini.
GPT-4 va oltre Kosmos-1 perché aggiunge una terza modalità, quella video, e sembra includere anche la modalità del suono.
Funziona in diverse lingue
GPT-4 sembra funzionare in tutte le lingue. Viene descritto come in grado di ricevere una domanda in tedesco e rispondere in italiano.
È un esempio piuttosto strano perché chi farebbe una domanda in tedesco e vorrebbe ricevere una risposta in italiano?
Questo è ciò che è stato confermato:
"...la tecnologia è arrivata così lontano che funziona praticamente in tutte le lingue": puoi fare una domanda in tedesco e ricevere una risposta in italiano.
Con la multimodalità, Microsoft (-OpenAI) renderà i modelli completi".
Credo che il punto di svolta sia che questo modello va oltre la lingua, con la sua capacità di estrarre conoscenza da diverse lingue. Quindi, se la risposta è in italiano, lo saprà e sarà in grado di fornire la risposta nella stessa lingua in cui è stata chiesta la domanda.
Questo lo renderebbe simile all'obiettivo dell'IA multimodale di Google chiamata MUM. Si dice che MUM sia in grado di fornire risposte in inglese per le quali i dati esistono solo in un'altra lingua, come il giapponese.
Applicazioni di GPT-4
Non ci sono attualmente annunci su dove GPT-4 farà la sua comparsa. Ma Azure-OpenAI è stato specificamente menzionato.
Google sta facendo fatica a raggiungere Microsoft integrando una tecnologia concorrente nel proprio motore di ricerca. Questo sviluppo ulteriormente accentua la percezione che Google stia rimanendo indietro e che manchi un leadership nell'Intelligenza Artificiale per i consumatori.
Google già integra l'AI in molti prodotti come Google Lens, Google Maps e altre aree con cui i consumatori interagiscono con Google. Questo approccio consiste nell'utilizzare l'AI come tecnologia di assistenza, per aiutare le persone in piccole attività.
Il modo in cui Microsoft lo sta implementando è più visibile e di conseguenza sta catturando tutta l'attenzione e rafforzando l'immagine di Google come un'azienda che fatica ad agganciare.
Leggi l'annuncio ufficiale sul rilascio di OpenAI GPT-4 qui.
Leggi il reportaggio originale in tedesco qui:
GPT-4 arriverà la prossima settimana - e sarà multimodale, afferma Microsoft Germania