Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Spazio di discussione dedicato alla storia della lingua italiana, alla sua evoluzione e a questioni etimologiche

Moderatore: Cruscanti

Intervieni
Avatara utente
Lorenzo Federici
Interventi: 981
Iscritto in data: sab, 27 ago 2022 16:50
Località: Frosinone

Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di Lorenzo Federici »

A partire dal 2023, noto sempre più frequentemente un fenomeno di cui non mi sembra che si sia discusso in queste stanze. A novembre 2022 è stata rilasciata la prima versione pubblica di ChatGPT, basata su GPT-3.5, un modello linguistico addestrato su una raccolta di testi in varie lingue. Grazie a ciò, la prima versione di ChatGPT ha attirato l'attenzione d'un pubblico più ampio. Tutte le versioni di GPT, Claude, Gemini e sistemi simili si basano sulla reinterpretazione di testi esistenti, più che su una vera comprensione simile a quella umana, ma poiché il risultato in molti casi risulta equivalente vengono chiamate comunemente «intelligenze artificiali generative». Il confine tra IA e IA generativa è abbastanza sottile; generalmente chi si oppone alla seconda sostiene che, dal momento che si basa sulle opere, scritte o visive, d'altre persone, l'IA generativa leda il diritto d'autore dei testi originali, oltre alle giuste preoccupazioni per l'impiego di risorse come acqua ed energia per alimentare i macchinari su cui girano questi sistemi.

Questi programmi non sono in grado di produrre un testo come lo fa una persona; sono in grado soltanto di rielaborare i concetti spezzettando i testi che li contengono in unità lessicali (token), che vengono poi ricomposti in base alle unità presenti nell'istruzione o richiesta (prompt) data dall'utente in una finestra simile a quelle delle tradizionali applicazioni di messaggistica istantanea, secondo una complessa previsione algoritmica di cui non conosco i dettagli tecnici. Poiché le prime versioni non avevano accesso alla Rete, era facile che non fossero aggiornate e che di conseguenza non rispecchiassero l'uso reale dei parlanti nel 2023. Il crescente uso di questi strumenti sta portando a un fenomeno denominato «incesto di dati» (data inbreeding), sempre in crescita. Per quanto riguarda il lato grafico, per esempio, si può osservare nelle foto generate da ChatGPT una tinta gialla generale, che avvolge tutta l'immagine, data da una prima sovrabbondanza d'immagini gialle rispetto al resto dei colori nella raccolta di dati d'addestramento. Dal momento che le nuove versioni usano un insieme di dati allargato rispetto alle precedenti, spesso comprendono anche le immagini generate e subito pubblicate (senza un precedente riequilibrio tramite applicativi di regolazione del colore, banalmente senza averci perso tempo con l'opzione «Temperatura» della galleria) che, come abbiamo visto, mostrano una tinta leggermente gialla; le immagini più recenti mostrano quindi una tinta ancora più gialla rispetto alla prima versione e, salvo accorgimenti da parte degli sviluppatori, il fenomeno è destinato a crescere esponenzialmente.

Il punto della questione è che, seppur oggi i corpi di dati usati per addestrare i vari modelli siano molto più vasti di quelli usati per le prime versioni, sempre più utenti scrivono usando questi strumenti come strumento principale, piuttosto che come mezzo ausiliario, e ciò fa diventare, anche tramite il fenomeno descritto poco sopra, alcune unità già popolari ancora più popolari col tempo. Per i testi scritti, si nota l'uso: della lineetta emme tra due spazi (« — »); d'alcuni avverbi come «tuttavia», «inoltre», «probabilmente», «nonostante»; d'aggettivi come «innovativo», «dinamico», «cruciale»; d'altre espressioni come «massimizzare», «in conclusione», «efficiente» o «efficienza». Il fenomeno, però, non si limita alla sola riproposizione di parole già affermate, ma riduce anche la diffusione di termini meno diffusi. Per quanto riguarda la ricerca in rete, ci si basa su un sistema simile a quello usato da Google, il quale già difficilmente poneva siti come achyra.org tra i primi. Per quanto riguarda forestierismi e neopurismo, quindi, le terribili abitudini linguistiche degli italiani non potranno che peggiorare col tempo. L'IA generativa ha internamente una lista di siti che ritiene più autorevoli in base alla popolarità, che però non è alterabile direttamente.

Più volte ho provato a chiedere a ChatGPT, Perplexity o Gemini come si potesse tradurre una determinata parola e, tentando e ritentando, alla fine sono sempre riuscito a trovare una traduzione. L'utente medio che dovesse provare a fare la stessa cosa, però, si fermerebbe probabilmente alla prima riga d'un messaggio simile a questo:
Nel contesto dell’intelligenza artificiale generativa, il termine “token” si traduce comunemente in italiano con “token” stesso, perché è un termine tecnico ormai largamente adottato anche in italiano.

Se vuoi una spiegazione più chiara:
  • Un token rappresenta un’unità di testo che il modello AI può elaborare.
  • Può essere una parola, una parte di parola o anche un simbolo (come la punteggiatura).
  • Ad esempio, la frase “Ciao, come va?” potrebbe essere suddivisa in token come: "Ciao", ",", "come", "va", "?".
In testi divulgativi o didattici, a volte si trova anche la traduzione “unità lessicale” o “pezzo di testo”, ma nel linguaggio tecnico si mantiene di solito token.

Se vuoi, posso spiegarti anche perché i token sono così importanti nel calcolo del costo e delle prestazioni dei modelli AI. Vuoi che lo faccia?
Una cosa buona di questi sistemi è che, laddove esiste un traducente già affermato, il sistema preferisce quello e risponde non tenendo conto della sgrammaticatura del testo di partenza. La richiesta che ho inviato era questa:
traduci token (contesto: gen ai) in italiano
Credo che questo fenomeno possa portare, nel lungo termine, a una fossilizzazione del linguaggio e a un impigrimento maggiore quando si scrive. Purtroppo, la colpa non è nemmeno dello strumento, è dell'umano medio che per pigrizia non si degna nemmeno di trovare una pagina specialistica da sé per inviarla alla macchina. Sempre più spesso, da quello che ho visto, questi sistemi ricorrono alla ricerca esterna ai dati d'addestramento, e in genere si basano su siti già affermati come it.wikipedia.org, di cui purtroppo conosciamo già l'attendibilità in campo linguistico. Se si riuscisse a modificare già qualcuna di quelle pagine o crearne laddove mancanti, sarebbe possibile per determinati argomenti invertire la tendenza, ma il tempo, ahimé, è quello che è e l'Italia non è ancora troppo disposta ad abbandonare i forestierismi, anche se rispetto ad anni fa il clima mi sembra migliore e vedo spesso, nei commenti delle pubblicazioni su Instagram con termini in inglese nel titolo, utenti che si lamentano di quest'uso.
Intervieni

Chi c’è in linea

Utenti presenti in questa sezione: Nessuno e 2 ospiti