De Mauro sul nuovo dizionario Senso comune, "Wired"

Spazio di discussione su questioni che non rientrano nelle altre categorie, o che ne coinvolgono piú d’una

Moderatore: Cruscanti

Intervieni
Avatara utente
Federico
Interventi: 3008
Iscritto in data: mer, 19 ott 2005 16:04
Località: Milano

De Mauro sul nuovo dizionario Senso comune, "Wired"

Intervento di Federico »

Da Wired n. 19 di settembre (articolo di Luca Sofri):
Che cos'è Senso Comune?
«Allora, la premessa personale è che io avevo fatto dei dizionari».
Premessa superflua, abbiamo sfo­gliato il "De Mauro" tutti quanti. Pe­rò allora approfitto e chiedo come si fa un dizionario.
«Il mitico Johnson del Settecento era fatto da una sola persona. Oggi, per garantire la coerenza nella stesura delle parole, si costituiscono delle re­dazioni e si coordina il loro lavoro».
E come si fa a essere sicuri di non perdersi delle parole?
«No: siamo sicuri di perdercele. Si cer­ca di non perdersi quelle essenziali».
Ci sono gerarchie di parole?
«Le parole che hanno una circola­zione vera nella lingua si stimano a molti milioni. Molte però hanno un "indice di cercabilità" bassissimo. Altre, che intuitivamente ci sem­brano frequenti, compaiono poco: come "abbottonare" e "sbottonare". Sono un migliaio, forse 1500. In tutto, nel nostro Grande Dizionario, ci sono 260mila parole. Il grande Oxford in­glese in 12 volumi ne ha circa 330mila ed è stato fatto in quarant'anni».
Voi quanto ci avete messo?
«L'informatizzazione ci ha permes­so rapidità e calcolabilità dei tempi: nove anni. Tra il 1990 e il 1999. Poi ne abbiamo fatto una seconda edi­zione e una terza».
E quella che era online?
«Il dizionario monovolume di Para-via finito online è poi stato tolto per beghe editoriali con Utet, la società della De Agostini di Novara che ave­va pubblicato il Grande Dizionario (sei volumi nella prima edizione e otto nella seconda). La storia è com­plessa, forse rientrerò nei diritti: adesso però pensiamo di rimetterci le mani e farne una nuova versione online. Con un gruppo di informa­tici e lessicografi, che si chiama appunto Senso Comune (sensoco­mune.org), stiamo progettando la messa online del vocabolario "di base le 2mila parole più fre­quenti che coprono il 90 per cento delle occorrenze, più altre 2500 di grande frequenza».
Ah, la coda lunga del dizionario è esigua quindi.
«Ancora di più se pensa che il 5-6 per cento è co­perto dalle altre 2500 che ho chia­mato di grande frequenza».
Ma è solo un dizionario online o c'è altro nel progetto?
«C'è altro eccome. Ci interessa che il materiale messo a disposizione consenta l'interattività, cioè che permetta all'utente di intervenire criticamente e propositivamente sull'impianto delle definizioni, pro­ponendo correzioni, integrazioni, precisazioni».
Non mi dica che affidiamo agli uten­ti il dizionario e la definizione dei termini: demagogia linguistica?
«No, no: non consegniamo questo materiale ai lettori, ma a contributi che in un sistema Wiki controllia­mo e selezioniamo. Raccogliamo informazioni, ma gli utenti non modificano immediatamente il repertorio. È una specie di con­sultazione popolare che ha però l'opportunità del controllo».
E non temete che questo controllo si traduca in giustizialismi gramma­ticali, nel trollismo da Internet?
«Non sono così preoccupato, fil­treremo: i rompiscatole possono esistere, ma l'accesso non è "liberi tutti". Chiediamo un'autoidentifi­cazione, ma non mi aspetto grandi molestie. È molto difficile sparare sentenze. Se poi si scopre che c'è un colonnello in pensione di No­vara che tormenta il dizionario, vedremo...».
Se è di Novara è sospetto, però...
«Perché? Ah, no, noi siamo buoni amici della De Agostini».
A che punto siete?
«Abbiamo già pronta una redazione idonea delle duemila parole fonda­mentali, stiamo ancora lavorando su quelle di base. Tecnicamente se ne occupa Guido Vetere a Roma. Può parlare con lui».
Pronto, sono Luca Sofri, mi ha detto di chiamarla il professor De Mauro. Mi spiega cosa fa?
«Sono il direttore del centro di stu­di avanzati di Ibm, dove facciamo ricerca in collaborazione con l'uni­versità soprattutto sull'intelligenza artificiale e le cosiddette tecnologie semantiche».
Ovvero?
«Ovvero cose su cui i sistemi de­vono saper ragionare in rapporto col mondo reale: e questo ha una declinazione linguistica, perché la conoscenza linguistica è centrale in queste operazioni. L'informatica di oggi è molto interessata allo sche­ma classico dell'ontologia, ma ne ha una concezione un po' ingenua».
E lei come è finito a occuparsi di queste cose?
«Mi sono laureato con De Mauro con una tesi di linguistica computazio­nale, e da lì sono entrato in Ibm».
Mi parli del dizionario online di Sen­so Comune.
«Ci sono altri dizionari online, non siamo a zero: ma ne manca uno del­la ricchezza e della preparazione di quello che la Paravia aveva messo online senza però averne i diritti, e che quindi è stato rimosso».
Lo chiedo anche a lei: è solo un di­zionario consultabile online?
«No. L'idea è di non avere solo un vocabolario, ma una base di cono­scenza: un lavoro di associazione a qualcosa di ontologico. Costruiamo una rappresentazione della cono­scenza che sta dietro il linguaggio».
E dopo cosa ci fate?
«Potenzialmente un sacco di co­se. Potremo usarla come base per i motori di ricerca delle informazio­ni o per i sistemi di classificazione automatica di documenti di testo. Il tutto grazie alla partecipazione degli utenti, come le avrà detto il professor De Mauro».
Me lo ha detto, e mi ha spiegato che non è come Wikipedia.
«Io sono un grande ammiratore di Wikipedia e penso che funzioni be­ne così com'è. Ma nel nostro caso il sistema è più "controllato". Noi pensiamo che la conoscenza die­tro il lessico sia molto strutturata e tecnicamente più specifica, e che quindi ci voglia la conoscenza di ele­menti lessicografici che un utente qualsiasi non padroneggia. Gli uten­ti però possono testimoniare il loro uso linguistico».
Chi paga tutto questo?
«Un parziale sostegno della fonda­zione Ibm,10mila euro l'anno, e poi il lavoro volontario mío e deí míeí studenti in Ibm. Ma vogliamo colla­borare con le università e i privati: le conoscenze linguistiche appar­tengono a tutti».
Ci sono prospettive di business?
«No, non nel senso di un progetto remunerativo in sé. Ma in prospet­tiva potranno nascere opportunità sfruttabili anche commercialmente. Il contenuto avrà comunque una li­cenza Creative Commons».
E quando partite sul serio?
«Siamo online in alpha per una co­munità ristretta di utenti, ma non immaginiamo un lancio vero e pro­prio. È una politica di piccoli passi, non grandi annunci a cui non segue niente, vedi Wolphram Alpha».
lo però ho cercato "ontologia" e Senso Comune mi ha detto «il lem­ma cercato non esiste».
«Perché ci sono ancora solo le paro­le fondamentali».
E io come faccio a sapere cosa vuol dire `ontologia"?
«Aspetta, o cerca su Wikipedia».
Della chiusura del De Mauro avevamo parlato qui. Del resto il rapporto fra De Mauro e GRADIT è sempre stata un po' ambiguo.
Ammetto invece di non aver capito molto sui veri scopi di questo Senso comune: dubito che voglia ricreare il GRADIT (sarebbe impossibile). Data la collaborazione con IBM e l'insistenza sul termine ontologia sembra piú probabile che vogliano "solo" creare qualche strumento semantico di base per la "comprensione automatica" dei testi, tecnologia che ho visto in azione a questo seminario, dove tale Monico di Expert System ci ha però spiegato che hanno dovuto acquisire i diritti su un dizionari, prima, e aggiungerci un gran lavoro "manuale" dopo (150 anni-uomo). Altro che 10.000 € di investimento, è una tecnologia da milioni di euro...
Senso Comune contiene attualmente:
* 31945 lemmi; di cui 2887 con almeno un'accezione
* 14071 accezioni; di cui 13209 fondamentali 0 di alto uso 68 di alta disponibilità 181 comuni 407 tecnico specialistiche
* 269 relazioni lessicali
Contro 450.000 significati e 3.000.000 di relazioni del precedente.
Sono sempre piú confuso.

Per quanto riguarda le modalità di partecipazione,
Progetto > Senso comune > Come contribuire ha scritto:Per utilizzare il prototipo di Senso Comune è necessario effettuare la registrazione sul sito. Se si intende modificare il contenuto della base di conoscenza si deve richiedere l’iscrizione come Socio Cultore o Sostenitore.
Progetto > Chi siamo ha scritto:L'iscrizione come Socio Cultore o Sostenitore si richiede inviando un messaggio di posta alla segreteria. La richiesta dovrà contenere informazioni utili per l'ammissione [...] Il Comitato Direttivo valuterà la richiesta entro 2 giorni. [...].
Il wiki a quanto pare serve solo per i documenti dell'associazione.
PersOnLine
Interventi: 1303
Iscritto in data: sab, 06 set 2008 15:30

Intervento di PersOnLine »

Ragiono da profano: ma non dovrebbe essere la Crusca a farsi promotrice di un dizionario di riferimento in linea?
Avatara utente
Carnby
Interventi: 5289
Iscritto in data: ven, 25 nov 2005 18:53
Località: Empolese-Valdelsa

Intervento di Carnby »

PersOnLine ha scritto:Ragiono da profano: ma non dovrebbe essere la Crusca a farsi promotrice di un dizionario di riferimento in linea?
Nota polemica: se la Crusca facesse ancora il proprio mestiere, forse avremmo qualche strumento in più per difenderci dall'invasione dei forestierismi.
Avatara utente
Freelancer
Interventi: 1899
Iscritto in data: lun, 11 apr 2005 4:37

Re: De Mauro sul nuovo dizionario Senso comune, "Wired&

Intervento di Freelancer »

[...]«No. L'idea è di non avere solo un vocabolario, ma una base di cono­scenza: un lavoro di associazione a qualcosa di ontologico. Costruiamo una rappresentazione della cono­scenza che sta dietro il linguaggio».[...]
Secondo voi quel base di conoscenza è una resa [voluta o inconscia] di knowledge base o viene usato in un'accezione molto più ampia?
Avatara utente
Marco1971
Moderatore
Interventi: 10445
Iscritto in data: gio, 04 nov 2004 12:37

Intervento di Marco1971 »

Francamente non lo so, e ignoro cosa s’intenda di preciso con knowledge base. Ma a base di conoscenza si arriva anche senza calco.

Bentornato, caro Roberto! Ci mancava! :)
Ma quella lingua si chiama d’una patria, la quale convertisce i vocaboli ch’ella ha accattati da altri nell’uso suo, et è sí potente che i vocaboli accattati non la disordinano, ma ella disordina loro.
Avatara utente
Freelancer
Interventi: 1899
Iscritto in data: lun, 11 apr 2005 4:37

Intervento di Freelancer »

Non me ne sono mai andato...

L'ho chiesto perché recentemente il rappresentante italiano di una società informatica ha reso con base di conoscenza (o della conoscenza, non mi ricordo bene) knowledge base (sarebbe una banca dati con informazioni e relative soluzioni su problemi di programmi, consultabile dagli utenti), che nel settore informatico viene comumente lasciato in inglese. Ho pensato a uno sfondone, ma lo rivedo qui in un ambito che mi spinge a chiedermi se è incipiente il calco.
Intervieni

Chi c’è in linea

Utenti presenti in questa sezione: Nessuno e 31 ospiti