Come funziona la filigrana ChatGPT e perché potrebbe essere sconfitta

ChatGPT di OpenAI ha introdotto un modo per creare automaticamente contenuti, ma i piani per introdurre una funzione di filigrana per facilitarne il rilevamento stanno innervosendo alcune persone. Ecco come funziona il watermarking ChatGPT e perché potrebbe esserci un modo per sconfiggerlo.

ChatGPT è uno strumento incredibile che editori online, affiliati e SEO amano e temono allo stesso tempo.

Alcuni esperti di marketing lo adorano perché stanno scoprendo nuovi modi per utilizzarlo per generare riassunti di contenuto, schemi e articoli complessi.

Gli editori online temono la prospettiva che i contenuti AI inondino i risultati della ricerca, soppiantando gli articoli di esperti scritti da umani.

Di conseguenza, anche la notizia di una funzione di watermarking che sblocca il rilevamento dei contenuti creati da ChatGPT è anticipata con ansia e speranza.

Filigrana crittografica

Una filigrana è un segno semitrasparente (un logo o un testo) incorporato in un'immagine. La filigrana segnala chi è l'autore originale dell'opera.

È ampiamente visto nelle fotografie e sempre più nei video.

La filigrana del testo in ChatGPT implica la crittografia sotto forma di incorporamento di un modello di parole, lettere e punteggiatura sotto forma di un codice segreto.

Filigrana Scott Aaronson e ChatGPT

Un influente scienziato informatico di nome Scott Aaronson è stato assunto da OpenAI nel giugno 2022 per lavorare su AI Safety and Alignment.

AI Safety è un campo di ricerca che si occupa di studiare i modi in cui l'IA potrebbe rappresentare un danno per gli esseri umani e creare modi per prevenire quel tipo di interruzione negativa.

La rivista scientifica Distill, con autori affiliati a OpenAI, definisce AI Safety in questo modo:

"L'obiettivo della sicurezza a lungo termine dell'intelligenza artificiale (AI) è garantire che i sistemi avanzati di intelligenza artificiale siano allineati in modo affidabile con i valori umani, che facciano in modo affidabile le cose che le persone vogliono che facciano".

AI Alignment è il campo dell'intelligenza artificiale che si occupa di assicurarsi che l'IA sia allineata con gli obiettivi prefissati.

Un modello di linguaggio di grandi dimensioni (LLM) come ChatGPT può essere utilizzato in un modo che potrebbe andare contro gli obiettivi dell'allineamento AI come definito da OpenAI, che è quello di creare AI a beneficio dell'umanità.

Di conseguenza, il motivo del watermarking è prevenire l'uso improprio dell'IA in un modo che danneggi l'umanità.

Aaronson ha spiegato il motivo della filigrana dell'output di ChatGPT:

“Questo potrebbe essere utile per prevenire il plagio accademico, ovviamente, ma anche, ad esempio, la generazione di massa di propaganda…”

Come funziona la filigrana ChatGPT?

Il watermarking ChatGPT è un sistema che incorpora un modello statistico, un codice, nelle scelte delle parole e persino nei segni di punteggiatura.

I contenuti creati dall'intelligenza artificiale sono generati con uno schema abbastanza prevedibile di scelta delle parole.

Le parole scritte dagli esseri umani e dall'intelligenza artificiale seguono uno schema statistico.

Cambiare il modello delle parole utilizzate nel contenuto generato è un modo per "filigranare" il testo per rendere più facile per un sistema rilevare se fosse il prodotto di un generatore di testo AI.

Il trucco che rende non rilevabile la filigrana dei contenuti AI è che la distribuzione delle parole ha ancora un aspetto casuale simile al normale testo generato dall'IA.

Questo è indicato come una distribuzione pseudocasuale di parole.

La pseudocasualità è una serie statisticamente casuale di parole o numeri che in realtà non sono casuali.

La filigrana ChatGPT non è attualmente in uso. Tuttavia Scott Aaronson di OpenAI ha dichiarato che è pianificato.

In questo momento ChatGPT è in anteprima, il che consente a OpenAI di scoprire il "disallineamento" attraverso l'uso nel mondo reale.

Presumibilmente il watermarking potrebbe essere introdotto in una versione finale di ChatGPT o prima.

Scott Aaronson ha scritto su come funziona la filigrana:

“Il mio progetto principale finora è stato uno strumento per filigranare statisticamente gli output di un modello di testo come GPT.
Fondamentalmente, ogni volta che GPT genera un testo lungo, vogliamo che ci sia un segnale segreto altrimenti impercettibile nelle sue scelte di parole, che puoi usare per dimostrare in seguito che, sì, questo proviene da GPT.

Aaronson ha spiegato ulteriormente come funziona la filigrana ChatGPT. Ma prima è importante comprendere il concetto di tokenizzazione.

La tokenizzazione è un passaggio che avviene nell'elaborazione del linguaggio naturale in cui la macchina prende le parole in un documento e le scompone in unità semantiche come parole e frasi.

La tokenizzazione trasforma il testo in una forma strutturata che può essere utilizzata nell'apprendimento automatico.

Il processo di generazione del testo è la macchina che indovina quale token viene dopo in base al token precedente.

Questo viene fatto con una funzione matematica che determina la probabilità di quale sarà il token successivo, quella che viene chiamata distribuzione di probabilità.

La parola successiva è prevista ma è casuale.

La filigrana stessa è ciò che Aaron descrive come pseudocasuale, in quanto c'è una ragione matematica per una particolare parola o segno di punteggiatura, ma è ancora statisticamente casuale.

Ecco la spiegazione tecnica della filigrana GPT:

“Per GPT, ogni input e output è una stringa di token, che potrebbero essere parole ma anche segni di punteggiatura, parti di parole o altro: ci sono circa 100.000 token in totale.
Fondamentalmente, GPT genera costantemente una distribuzione di probabilità sul token successivo da generare, in base alla stringa di token precedenti.
Dopo che la rete neurale ha generato la distribuzione, il server OpenAI campiona effettivamente un token in base a tale distribuzione o a una versione modificata della distribuzione, a seconda di un parametro chiamato "temperatura".
Finché la temperatura è diversa da zero, tuttavia, di solito ci sarà una certa casualità nella scelta del token successivo: potresti ripetere più volte lo stesso prompt e ottenere ogni volta un completamento diverso (ad esempio, una stringa di token di output) .
Quindi, per filigranare, invece di selezionare il token successivo in modo casuale, l'idea sarà di selezionarlo in modo pseudocasuale, utilizzando una funzione crittografica pseudocasuale, la cui chiave è nota solo a OpenAI.

La filigrana sembra del tutto naturale a chi legge il testo perché la scelta delle parole imita la casualità di tutte le altre parole.

Questa è la spiegazione tecnica:

"Per illustrare, nel caso speciale in cui GPT aveva una serie di possibili token che giudicava ugualmente probabili, si poteva semplicemente scegliere quale token massimizzava g. La scelta sembrerebbe uniformemente casuale a qualcuno che non conosceva la chiave, ma qualcuno che conosceva la chiave potrebbe in seguito sommare g su tutti gli n-grammi e vedere che era anormalmente grande.

La filigrana è una soluzione per la privacy

Ho visto discussioni sui social media in cui alcune persone hanno suggerito che OpenAI potrebbe tenere un registro di ogni output che genera e utilizzarlo per il rilevamento.

Scott Aaronson conferma che OpenAI potrebbe farlo, ma ciò pone un problema di privacy. La possibile eccezione è per la situazione delle forze dell'ordine, che non ha approfondito.

Come rilevare ChatGPT o filigrana GPT

Qualcosa di interessante che sembra non essere ancora ben noto è che Scott Aaronson ha notato che esiste un modo per sconfiggere la filigrana.

Non ha detto che è possibile sconfiggere la filigrana, ha detto che può essere sconfitto.

“Ora, tutto questo può essere sconfitto con uno sforzo sufficiente.
Ad esempio, se hai utilizzato un'altra intelligenza artificiale per parafrasare l'output di GPT, va bene, non saremo in grado di rilevarlo".

Sembra che la filigrana possa essere sconfitta, almeno a partire da novembre, quando sono state fatte le dichiarazioni di cui sopra.

Non vi è alcuna indicazione che la filigrana sia attualmente in uso. Ma quando entrerà in uso, potrebbe non essere noto se questa scappatoia sia stata chiusa.

Citazione

Leggi il post sul blog di Scott Aaronson qui.