Questi programmi non sono in grado di produrre un testo come lo fa una persona; sono in grado soltanto di rielaborare i concetti spezzettando i testi che li contengono in unità lessicali (token), che vengono poi ricomposti in base alle unità presenti nell'istruzione o richiesta (prompt) data dall'utente in una finestra simile a quelle delle tradizionali applicazioni di messaggistica istantanea, secondo una complessa previsione algoritmica di cui non conosco i dettagli tecnici. Poiché le prime versioni non avevano accesso alla Rete, era facile che non fossero aggiornate e che di conseguenza non rispecchiassero l'uso reale dei parlanti nel 2023. Il crescente uso di questi strumenti sta portando a un fenomeno denominato «incesto di dati» (data inbreeding), sempre in crescita. Per quanto riguarda il lato grafico, per esempio, si può osservare nelle foto generate da ChatGPT una tinta gialla generale, che avvolge tutta l'immagine, data da una prima sovrabbondanza d'immagini gialle rispetto al resto dei colori nella raccolta di dati d'addestramento. Dal momento che le nuove versioni usano un insieme di dati allargato rispetto alle precedenti, spesso comprendono anche le immagini generate e subito pubblicate (senza un precedente riequilibrio tramite applicativi di regolazione del colore, banalmente senza averci perso tempo con l'opzione «Temperatura» della galleria) che, come abbiamo visto, mostrano una tinta leggermente gialla; le immagini più recenti mostrano quindi una tinta ancora più gialla rispetto alla prima versione e, salvo accorgimenti da parte degli sviluppatori, il fenomeno è destinato a crescere esponenzialmente.
Il punto della questione è che, seppur oggi i corpi di dati usati per addestrare i vari modelli siano molto più vasti di quelli usati per le prime versioni, sempre più utenti scrivono usando questi strumenti come strumento principale, piuttosto che come mezzo ausiliario, e ciò fa diventare, anche tramite il fenomeno descritto poco sopra, alcune unità già popolari ancora più popolari col tempo. Per i testi scritti, si nota l'uso: della lineetta emme tra due spazi (« — »); d'alcuni avverbi come «tuttavia», «inoltre», «probabilmente», «nonostante»; d'aggettivi come «innovativo», «dinamico», «cruciale»; d'altre espressioni come «massimizzare», «in conclusione», «efficiente» o «efficienza». Il fenomeno, però, non si limita alla sola riproposizione di parole già affermate, ma riduce anche la diffusione di termini meno diffusi. Per quanto riguarda la ricerca in rete, ci si basa su un sistema simile a quello usato da Google, il quale già difficilmente poneva siti come achyra.org tra i primi. Per quanto riguarda forestierismi e neopurismo, quindi, le terribili abitudini linguistiche degli italiani non potranno che peggiorare col tempo. L'IA generativa ha internamente una lista di siti che ritiene più autorevoli in base alla popolarità, che però non è alterabile direttamente.
Più volte ho provato a chiedere a ChatGPT, Perplexity o Gemini come si potesse tradurre una determinata parola e, tentando e ritentando, alla fine sono sempre riuscito a trovare una traduzione. L'utente medio che dovesse provare a fare la stessa cosa, però, si fermerebbe probabilmente alla prima riga d'un messaggio simile a questo:
Una cosa buona di questi sistemi è che, laddove esiste un traducente già affermato, il sistema preferisce quello e risponde non tenendo conto della sgrammaticatura del testo di partenza. La richiesta che ho inviato era questa:Nel contesto dell’intelligenza artificiale generativa, il termine “token” si traduce comunemente in italiano con “token” stesso, perché è un termine tecnico ormai largamente adottato anche in italiano.
Se vuoi una spiegazione più chiara:
In testi divulgativi o didattici, a volte si trova anche la traduzione “unità lessicale” o “pezzo di testo”, ma nel linguaggio tecnico si mantiene di solito token.
- Un token rappresenta un’unità di testo che il modello AI può elaborare.
- Può essere una parola, una parte di parola o anche un simbolo (come la punteggiatura).
- Ad esempio, la frase “Ciao, come va?” potrebbe essere suddivisa in token come: "Ciao", ",", "come", "va", "?".
Se vuoi, posso spiegarti anche perché i token sono così importanti nel calcolo del costo e delle prestazioni dei modelli AI. Vuoi che lo faccia?
Credo che questo fenomeno possa portare, nel lungo termine, a una fossilizzazione del linguaggio e a un impigrimento maggiore quando si scrive. Purtroppo, la colpa non è nemmeno dello strumento, è dell'umano medio che per pigrizia non si degna nemmeno di trovare una pagina specialistica da sé per inviarla alla macchina. Sempre più spesso, da quello che ho visto, questi sistemi ricorrono alla ricerca esterna ai dati d'addestramento, e in genere si basano su siti già affermati come it.wikipedia.org, di cui purtroppo conosciamo già l'attendibilità in campo linguistico. Se si riuscisse a modificare già qualcuna di quelle pagine o crearne laddove mancanti, sarebbe possibile per determinati argomenti invertire la tendenza, ma il tempo, ahimé, è quello che è e l'Italia non è ancora troppo disposta ad abbandonare i forestierismi, anche se rispetto ad anni fa il clima mi sembra migliore e vedo spesso, nei commenti delle pubblicazioni su Instagram con termini in inglese nel titolo, utenti che si lamentano di quest'uso.traduci token (contesto: gen ai) in italiano