Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Spazio di discussione dedicato alla storia della lingua italiana, alla sua evoluzione e a questioni etimologiche

Moderatore: Cruscanti

Intervieni
Avatara utente
Lorenzo Federici
Interventi: 983
Iscritto in data: sab, 27 ago 2022 16:50
Località: Frosinone

Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di Lorenzo Federici »

A partire dal 2023, noto sempre più frequentemente un fenomeno di cui non mi sembra che si sia discusso in queste stanze. A novembre 2022 è stata rilasciata la prima versione pubblica di ChatGPT, basata su GPT-3.5, un modello linguistico addestrato su una raccolta di testi in varie lingue. Grazie a ciò, la prima versione di ChatGPT ha attirato l'attenzione d'un pubblico più ampio. Tutte le versioni di GPT, Claude, Gemini e sistemi simili si basano sulla reinterpretazione di testi esistenti, più che su una vera comprensione simile a quella umana, ma poiché il risultato in molti casi risulta equivalente vengono chiamate comunemente «intelligenze artificiali generative». Il confine tra IA e IA generativa è abbastanza sottile; generalmente chi si oppone alla seconda sostiene che, dal momento che si basa sulle opere, scritte o visive, d'altre persone, l'IA generativa leda il diritto d'autore dei testi originali, oltre alle giuste preoccupazioni per l'impiego di risorse come acqua ed energia per alimentare i macchinari su cui girano questi sistemi.

Questi programmi non sono in grado di produrre un testo come lo fa una persona; sono in grado soltanto di rielaborare i concetti spezzettando i testi che li contengono in unità lessicali (token), che vengono poi ricomposti in base alle unità presenti nell'istruzione o richiesta (prompt) data dall'utente in una finestra simile a quelle delle tradizionali applicazioni di messaggistica istantanea, secondo una complessa previsione algoritmica di cui non conosco i dettagli tecnici. Poiché le prime versioni non avevano accesso alla Rete, era facile che non fossero aggiornate e che di conseguenza non rispecchiassero l'uso reale dei parlanti nel 2023. Il crescente uso di questi strumenti sta portando a un fenomeno denominato «incesto di dati» (data inbreeding), sempre in crescita. Per quanto riguarda il lato grafico, per esempio, si può osservare nelle foto generate da ChatGPT una tinta gialla generale, che avvolge tutta l'immagine, data da una prima sovrabbondanza d'immagini gialle rispetto al resto dei colori nella raccolta di dati d'addestramento. Dal momento che le nuove versioni usano un insieme di dati allargato rispetto alle precedenti, spesso comprendono anche le immagini generate e subito pubblicate (senza un precedente riequilibrio tramite applicativi di regolazione del colore, banalmente senza averci perso tempo con l'opzione «Temperatura» della galleria) che, come abbiamo visto, mostrano una tinta leggermente gialla; le immagini più recenti mostrano quindi una tinta ancora più gialla rispetto alla prima versione e, salvo accorgimenti da parte degli sviluppatori, il fenomeno è destinato a crescere esponenzialmente.

Il punto della questione è che, seppur oggi i corpi di dati usati per addestrare i vari modelli siano molto più vasti di quelli usati per le prime versioni, sempre più utenti scrivono usando questi strumenti come strumento principale, piuttosto che come mezzo ausiliario, e ciò fa diventare, anche tramite il fenomeno descritto poco sopra, alcune unità già popolari ancora più popolari col tempo. Per i testi scritti, si nota l'uso: della lineetta emme tra due spazi (« — »); d'alcuni avverbi come «tuttavia», «inoltre», «probabilmente», «nonostante»; d'aggettivi come «innovativo», «dinamico», «cruciale»; d'altre espressioni come «massimizzare», «in conclusione», «efficiente» o «efficienza». Il fenomeno, però, non si limita alla sola riproposizione di parole già affermate, ma riduce anche la diffusione di termini meno diffusi. Per quanto riguarda la ricerca in rete, ci si basa su un sistema simile a quello usato da Google, il quale già difficilmente poneva siti come achyra.org tra i primi. Per quanto riguarda forestierismi e neopurismo, quindi, le terribili abitudini linguistiche degli italiani non potranno che peggiorare col tempo. L'IA generativa ha internamente una lista di siti che ritiene più autorevoli in base alla popolarità, che però non è alterabile direttamente.

Più volte ho provato a chiedere a ChatGPT, Perplexity o Gemini come si potesse tradurre una determinata parola e, tentando e ritentando, alla fine sono sempre riuscito a trovare una traduzione. L'utente medio che dovesse provare a fare la stessa cosa, però, si fermerebbe probabilmente alla prima riga d'un messaggio simile a questo:
Nel contesto dell’intelligenza artificiale generativa, il termine “token” si traduce comunemente in italiano con “token” stesso, perché è un termine tecnico ormai largamente adottato anche in italiano.

Se vuoi una spiegazione più chiara:
  • Un token rappresenta un’unità di testo che il modello AI può elaborare.
  • Può essere una parola, una parte di parola o anche un simbolo (come la punteggiatura).
  • Ad esempio, la frase “Ciao, come va?” potrebbe essere suddivisa in token come: "Ciao", ",", "come", "va", "?".
In testi divulgativi o didattici, a volte si trova anche la traduzione “unità lessicale” o “pezzo di testo”, ma nel linguaggio tecnico si mantiene di solito token.

Se vuoi, posso spiegarti anche perché i token sono così importanti nel calcolo del costo e delle prestazioni dei modelli AI. Vuoi che lo faccia?
Una cosa buona di questi sistemi è che, laddove esiste un traducente già affermato, il sistema preferisce quello e risponde non tenendo conto della sgrammaticatura del testo di partenza. La richiesta che ho inviato era questa:
traduci token (contesto: gen ai) in italiano
Credo che questo fenomeno possa portare, nel lungo termine, a una fossilizzazione del linguaggio e a un impigrimento maggiore quando si scrive. Purtroppo, la colpa non è nemmeno dello strumento, è dell'umano medio che per pigrizia non si degna nemmeno di trovare una pagina specialistica da sé per inviarla alla macchina. Sempre più spesso, da quello che ho visto, questi sistemi ricorrono alla ricerca esterna ai dati d'addestramento, e in genere si basano su siti già affermati come it.wikipedia.org, di cui purtroppo conosciamo già l'attendibilità in campo linguistico. Se si riuscisse a modificare già qualcuna di quelle pagine o crearne laddove mancanti, sarebbe possibile per determinati argomenti invertire la tendenza, ma il tempo, ahimé, è quello che è e l'Italia non è ancora troppo disposta ad abbandonare i forestierismi, anche se rispetto ad anni fa il clima mi sembra migliore e vedo spesso, nei commenti delle pubblicazioni su Instagram con termini in inglese nel titolo, utenti che si lamentano di quest'uso.
un perro cenizo
Interventi: 3
Iscritto in data: gio, 27 nov 2025 17:48

Re: Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di un perro cenizo »

Buongiorno, lucidissima riflessione, credo che abbia colto nel segno quanto al problema, sebbene forse in mancanza di un inquadramento generale delle cause.

Per quanto pensi tutto il male possibile dell’IA generativa, credo che viviamo sotto un “modello di sviluppo” - chiamiamolo pure eufemisticamente cosí… - che non fa altro che elevare all’ennesima potenza fenomeni tanto sciagurati quanto ad esso funzionali. Un esempio concreto. Il cosiddetto lockdown, piú correttamente segregazione, della pandemia, ha esasperato a suo tempo un isolamento che esisteva già ed era già grave: all’epoca si aveva già esperienza, perfino nei piccoli centri, di gente che non si frequentava piú se non attraverso le reti sociali.

La fossilizzazione, ma io parlerei sic et simpliciter di decadenza, linguistica a me pare funzionale a questo “modello di sviluppo” tanto quanto l’isolamento degli individui, e forse non è nemmeno un problema della sola lingua italiana. Lo denuncia lo stesso nome di Wikipedia, che lei giustamente indica come una dei maggiori responsabili. Wiki, rapido. Equivale tanto ad efficiente economicamente - in senso sia lato sia stretto - quanto a pigro e superficiale. Inevitabilmente l’IA estremizza ciò che su Wikipedia è già in atto da un quarto di secolo.

Non solo su Wikipedia, ovviamente. Ma su Wikipedia è grave, perché è popolare e perché ha la pretesa di fare cultura. Oggi teme di poter soccombere all’IA perché non ne ha mai fatta, crogiolandosi piuttosto per tutto il tempo nell’offerta di pure e “rapide” informazioni. Questo nella sostanza.

Nella forma, basta leggerla. Quel tuttavia che lei segnala come esempio d’appiattimento lessicale a me è saltato subito all’occhio. Su Wikipedia lo si trova, insopportabile, a inizio frase e seguito da una virgola, circa 50000 volte. Perché sta lí in quel modo? Perché spesso è un “However, virgola” letterale, e anche quando non lo è deriva pur sempre da quello However, riprodotto da chi s’è abituato a leggerlo in italiano e lo mette non solo a inizio frase ma dappertutto. E che dire proprio di inoltre, usato quasi 20000 volte come incidentale per sottolineare ad nauseam la pura apposizione di un concetto di seguito all’altro?

Già soltanto le traduzioni automatiche sono una causa di decadenza non solo lessicale ma anche e soprattutto stilistica. Wikipedia le favorisce, tanto da approntare uno strumento apposito, e tranne solo cancellarle quando sono del tutto incomprensibili (non invece quando sono comprensibili solo con estrema fatica).

Ma c’è di piú. L’utente medio di Wikipedia mira al wiki, al rapido, non si mette a guardare sinonimi e contrari, pensa per “compartimenti stagni”, produce stilemi di plastica in serie: una storia al cinema non è trattata, rappresentata ecc., è presente; la vita su un pianeta non è sviluppata, è presente; non è che un vulcano sorge su un’isola, è presente. Presente è onnipresente, è diventato un aggettivo per tutte le stagioni, buono per dire qualsiasi cosa che “c’è, esiste”. È il principio dell’impoverimento linguistico in atto e si nota, su Wikipedia, ogni mezza parola.

Facciamo un breve passo indietro. È uscito da poco un commento di Wu Ming su IA e letteratura, dove si fa notare come, già prima dell’IA, c’erano già “umani” che producevano “letteratura” in serie alla maniera delle macchine. Non li ho mai letti, per fortuna, ma essi sono certamente in buona compagnia: degli utenti di Wikipedia.

Gli utenti di Wikipedia sono in maggioranza macchine, e una stretta minoranza che ci saprebbe fare viene scoraggiata, a volte perfino emarginata, per effetto della stupidità del sistema e per opera dei suoi paladini, che credono davvero si possa costruire un’enciclopedia accogliendo gli evangelici canes et porci e privilegiando di gran lunga questi su chi sa produrre contenuti, oltre che forme valide. Ma questo accade fin dagli albori di quel “progetto”, sta nel suo statuto, gli è connaturato.

E figuriamoci se ci si può aspettare l’argine al forestierismo, quello non si mette proprio, perché replicano gli usi della maggior parte delle fonti. Hanno un criterio piú quantitativo che qualitativo; in linea di principio qualitativo, ma ben temperato dalla quantità. :mrgreen:

In ogni caso, dato il volume dei contenuti “infetti”, modificare voci o crearle isolatamente è una battaglia contro i mulini a vento. Servirebbe - per sperare di far qualcosa - un’autorganizzazione, un agire comune in controtendenza, anche se parte in svantaggio perché è inevitabilmente lento, e soprattutto si scontra prima o poi con l’ottusità wikipediana.

A margine, la nota positiva. Io non frequento Instagram, ma apprendo con piacere che ci sono utenti che si lamentano dei forestierismi dei titoli. Non so esattamente che cosa pensarne perché, dicevo, non ne ho esperienza diretta. Sospetto che esista una saturazione, un livello oltre il quale subentra una nausea invincibile. Io ad esempio non riesco piú neanche a iniziare la visione di una pellicola cinematografica se ha un titolo inglese. E non credo sia una mia fisima. Il titolo deve dirmi qualcosa dell’opera. Se è muto, l’opera non mi interessa, e probabilmente fa schifo. Forse il germe del crollo del sistema sta in questa nausea.
Ultima modifica di un perro cenizo in data mar, 30 dic 2025 9:39, modificato 1 volta in totale.
brg
Interventi: 746
Iscritto in data: mer, 12 gen 2022 20:53

Re: Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di brg »

Lorenzo Federici ha scritto: gio, 27 nov 2025 21:15 […] Credo che questo fenomeno possa portare, nel lungo termine, a una fossilizzazione del linguaggio e a un impigrimento maggiore quando si scrive. Purtroppo, la colpa non è nemmeno dello strumento, è dell'umano medio che per pigrizia non si degna nemmeno di trovare una pagina specialistica da sé per inviarla alla macchina. […]
In realtà questo processo di "fossilizzazione" è già in atto da tempo, da molto prima che arrivasse l'i.a. e da prima che ci fosse il web. Il Nanni Moretti di "Palombella rossa", che schiaffeggia la giornalista dicendo "le parole sono importanti", inscena una critica di tale modo di usare la lingua. Il problema è l'uso per imitazione del linguaggio, l'evitare per scelta o per incapacità o per pigrizia di comunicare per idee e concetti e ragionamenti, ma per simboli e sensazioni. Un uso del linguaggio, cioè, che non è logico, né ragionato.
Si badi bene che ciò ha una sua funzione, in quanto l'informazione, intesa come l'industria che raccoglie e diffonde le notizie, finisce così per non informare; pertanto il linguaggio illogico trova convinti fautori. È il complemento alla civiltà della visione descritta e criticata da Giovanni Sartori in "Homo videns".
Avatara utente
G. M.
Interventi: 3200
Iscritto in data: mar, 22 nov 2016 15:54

Re: Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di G. M. »

Lorenzo Federici ha scritto: gio, 27 nov 2025 21:15 Credo che questo fenomeno possa portare, nel lungo termine, a una fossilizzazione del linguaggio e a un impigrimento maggiore quando si scrive.
Mi è capitata una cosa che mi ha fatto tornare in mente questo filone, che ho riletto or ora.

Nell'ultimo periodo notavo, su alcune piattaforme sociali, una certa somiglianza nei testi pubblicati da certi utenti: un'impostazione schematica e chiara, per punti, facile da seguire, di tono sicuro e convincente. Notavo anche una somiglianza nella formattazione, che ricordava un po' l'uso frequente di liste puntate, emogi e simili di ChatGPT. E mi sono chiesto, di passaggio: Non sarà che tutti costoro si sono fatti scrivere questi testi dall'IA?

La cosa mi è passata di mente e non ci ho più pensato. Oggi, su un'altra piattaforma sociale, ho pubblicato un intervento piuttosto lungo. Il primo commento che ho ricevuto è stato un lapidario «Sbobba d'IA». Mi ha irritato. Fra tutte le critiche che potevo aspettarmi sul contenuto mentre lo preparavo, questa non mi era nemmeno passata per la mente. Eppure… riguardando il testo che avevo scritto, notavo ora anch'io una somiglianza: testo diviso in sezioni titolate e numerate, un'introduzione e una conclusione, tono amichevole, molti accapo, concetti spiegati con ampiezza d'esempi in liste puntate, qualche emogi (bandiere) a colorare qua e là… Ma del mio testo nemmeno una riga era stata fatta dall'IA o con qualche ausilio dell'IA. Quindi mi sono chiesto:
  1. Quei testi che mi sembravano scritti dall'IA nell'ultimo periodo… sono stato troppo affrettato nel giudicare? Se il mio testo è stato giudicato così, e in modo tanto lapidario quanto erroneo, forse io ho fatto lo stesso errore con altri.
  2. Forse al contrario i testi scritti dall'IA sono ormai così diffusi che si leggono quotidianamente senza farci caso, e io stesso ne ho imitato lo stile inconsapevolmente (e forse altri come me)? (E qui mi è tornato in mente il pensiero di Lorenzo sulla «fossilizzazione»).
  3. Allo stesso tempo, non credo d'avere scritto un testo malfatto o sciatto: lo stile era pensato per raggiungere un pubblico su una rete sociale, quindi era consapevolmente simpatico e formattato in modo facile da leggere. Dovrei scrivere in modo più oscuro e tecnico, freddo e scostante, con muri di testo senza interruzioni… al puro fine di non sembrare un'IA? Se l'IA scrive «bene» in un certo contesto, ha senso scrivere volutamente «male» per dispetto, o fare comunque lo sforzo d'essere originali quando lo scopo è solo comunicare qualcosa, senza voler fare della letteratura?
Poi ho visto questo:
un perro cenizo ha scritto: mar, 30 dic 2025 9:38 Facciamo un breve passo indietro. […] [G]ià prima dell’IA, c’erano già “umani” che producevano “letteratura” in serie alla maniera delle macchine. Non li ho mai letti, per fortuna, ma essi sono certamente in buona compagnia: degli utenti di Wikipedia.
Sono stato un contributore dell'enciclopedia per un decennio, quindi… forse semplicemente scrivo come una macchina. O le macchine scrivono come me (visto che almeno queste sono arrivate sulla Terra quando io c'ero già): e allora che ci posso fare…?

A parte l'anglomania, la mia lingua deve avere tutti i difetti di quest'epoca. :lol:
Avatara utente
G. M.
Interventi: 3200
Iscritto in data: mar, 22 nov 2016 15:54

Re: Riflessione sulla fossilizzazione del linguaggio ai tempi dell’IA

Intervento di G. M. »

Battute a parte, però, un appunto su questo:
un perro cenizo ha scritto: mar, 30 dic 2025 9:38 Nella forma, basta leggerla. Quel tuttavia che lei segnala come esempio d’appiattimento lessicale a me è saltato subito all’occhio. Su Wikipedia lo si trova, insopportabile, a inizio frase e seguito da una virgola, circa 50000 volte. Perché sta lí in quel modo? Perché spesso è un “However, virgola” letterale, e anche quando non lo è deriva pur sempre da quello However, riprodotto da chi s’è abituato a leggerlo in italiano e lo mette non solo a inizio frase ma dappertutto. E che dire proprio di inoltre, usato quasi 20000 volte come incidentale per sottolineare ad nauseam la pura apposizione di un concetto di seguito all’altro?
La versione italiana conta oggi quasi due milioni di voci (su un totale d'otto milioni e mezzo di pagine), e probabilmente non erano molte di meno un mese fa… Se le paiono tanto ripetitive da essere insopportabili espressioni linguistiche presenti rispettivamente in una voce su quaranta e una su cento, forse è lei che è un po' troppo critico, o ha consultato un campione di voci non statisticamente significativo… :wink: (O forse i numeri che ha trovato sono sbagliati? Cliccando sui suoi collegamenti non riesco a replicare la ricerca).
Intervieni

Chi c’è in linea

Utenti presenti in questa sezione: Nessuno e 0 ospiti