ChatGPT può scrivere codice. Ora i ricercatori dicono che è bravo anche a risolvere bug

Il chatbot ChatGPT di OpenAI è molto bravo a risolvere bug software, ma il suo vantaggio principale rispetto ad altri metodi e modelli di intelligenza artificiale è la sua unica abilità di dialogare con gli esseri umani, che gli consente di migliorare l'accuratezza di una risposta.

Ricercatori dell'Università di Mainz Johannes Gutenberg e dell'University College di Londra hanno confrontato ChatGPT di OpenAI con "tecniche standard di riparazione automatica dei programmi" e due approcci di deep learning per la riparazione dei programmi: CoCoNut, sviluppato dai ricercatori dell'Università di Waterloo, Canada; e Codex, il modello basato su GPT-3 di OpenAI che sta alla base del servizio di completamento automatico del codice di programmazione accoppiato di GitHub, Copilot.

Inoltre: Come iniziare ad utilizzare ChatGPT

"Abbiamo riscontrato che le prestazioni di ChatGPT nella correzione di bug sono competitive rispetto agli approcci comuni di deep learning come CoCoNut e Codex e nettamente migliori rispetto ai risultati riportati per gli approcci standard alla riparazione dei programmi", scrivono i ricercatori in un nuovo documento arXiv, individuato per la prima volta da New Scientist.

I migliori chatbot AI: ChatGPT e altre alternative interessanti da provare

I chatbot e gli scrittori di intelligenza artificiale possono aiutare a alleggerire il carico di lavoro scrivendo email e saggi e persino facendo matematica. Utilizzano l'intelligenza artificiale per generare testo o rispondere a domande basate sull'input dell'utente. ChatGPT è un esempio popolare, ma ci sono altri chatbot degni di nota.

Leggi ora

Non è una novità che ChatGPT possa essere utilizzato per risolvere problemi di codifica, ma i ricercatori sottolineano che la sua capacità unica di dialogare con gli esseri umani gli conferisce un potenziale vantaggio rispetto ad altri approcci e modelli.

I ricercatori hanno testato le prestazioni di ChatGPT utilizzando la scaletta di correzione dei bug di QuixBugs. I sistemi di riparazione automatica dei programmi (APR) sembrano essere svantaggiati in quanto sono stati sviluppati prima del 2018.

ChatGPT si basa sull'architettura del transformer, che il capo dell'IA di Meta Yann LeCun ha evidenziato questa settimana che è stata sviluppata da Google. Codex, CodeBERT di Microsoft Research e il suo predecessore BERT di Google sono tutti basati sul metodo transformer di Google.

OpenAI mette in evidenza la capacità di dialogo di ChatGPT negli esempi per il debugging del codice in cui può chiedere chiarimenti e ricevere suggerimenti da una persona per arrivare a una risposta migliore. Ha addestrato i grandi modelli di linguaggio dietro ChatGPT (GPT-3 e GPT 3.5) utilizzando l'apprendimento rinforzato dal feedback umano (RLHF).

Mentre la capacità di ChatGPT di dialogare può aiutarlo a raggiungere una risposta più corretta, la qualità delle sue suggerimenti rimane poco chiara, notano i ricercatori. Ecco perché volevano valutare le prestazioni di correzione di bug di ChatGPT.

I ricercatori hanno testato ChatGPT su 40 problemi QuixBugs in Python, e successivamente hanno verificato manualmente se la soluzione suggerita fosse corretta o meno. Hanno ripetuto la query quattro volte perché c'è una certa casualità nella affidabilità delle risposte di ChatGPT, come ha scoperto un professore della Wharton dopo aver sottoposto il chatbot a un esame simile a un MBA.

ChatGPT ha risolto 19 dei 40 bug di Python, mettendosi alla pari con CoCoNut (19) e Codex (21). Ma i metodi APR standard hanno risolto solo sette dei problemi.

I ricercatori hanno scoperto che il tasso di successo di ChatGPT nelle interazioni di follow-up ha raggiunto il 77,5%.

Le implicazioni per gli sviluppatori in termini di sforzo e produttività sono ambigue, però. Stack Overflow ha recentemente vietato le risposte generate da ChatGPT perché erano di bassa qualità ma sembravano plausibili. Il professore di Wharton ha scoperto che ChatGPT potrebbe essere un ottimo compagno per gli studenti di MBA poiché può fungere da "consulente intelligente" - uno che produce risposte eleganti ma spesso erronee - e favorisce il pensiero critico.

"Questo dimostra che l'apporto umano può essere molto utile per un sistema di APR automatizzato, con ChatGPT che fornisce i mezzi per farlo," scrivono i ricercatori.

"Nonostante le sue ottime prestazioni, sorge la domanda se il costo mentale richiesto per verificare le risposte di ChatGPT compensi i vantaggi che ChatGPT porta con sé."

ChatGPT può scrivere codice. Ora i ricercatori dicono che è bravo anche a risolvere bug.

I migliori chatbot AI: ChatGPT e altre alternative interessanti da provare

Articoli correlati