Per digitalizzare non basta mettere online l’ocr: il caso Dizionario Battaglia

.

Preg.ma Accademia della Crusca,

siamo a segnalarvi cortesemente che l’operazione di digitalizzazione del Dizionario Battaglia, il pregiato GDLI, messa a disposizione da UTET Grandi Opere – Cose Belle d’Italia, come si può vedere accedendo alla consultazione, rende online l’ocr non revisionato dell’opera. Mentre infatti le fotografie jpg sono corrette perché con ogni probabilità riprese dai volumi storici a stampa, i pdf dell’ocr riportano gli errori propri di una digitalizzazione automatizzata senza revisione di redattori. Così pure il testo online in html evidenzia che manca il font del greco, per cui tutto l’alfabeto greco viene traslitterato in numeri o segni grafici quali £$! ecc.: guardiamo per esempio la resa della voce Sabazio (gr. Σαβάζιος) che diventa nella scheda contesto (sic) «dal gr. < ra [3à£to <;;».

 

Basta poi consultare una delle prime pagine di ricerca delle forme, che qui riportiamo in screenshot, per capire il problema.

 

.

Nella deontologia informatica di solito la “versione alfa” di un sito non viene mai pubblicata, proprio perché ancora in alta fase di sviluppo; a volte si procede alla messa online di una “versione beta”, quando è richiesto un test dell’utenza ma a stabilità di interfaccia e contenuti già ben consolidata. In questo caso la valenza prototipale della messa online risulta quanto mai incauta e lesiva della vostra immagine e della riconosciuta tradizione del Battaglia.

Certi che vorrete al più presto sensibilizzare progettisti e sviluppatori circa la necessità di una revisione dei contenuti da parte di redattori e della messa online di una versione corretta, restiamo vostri lettori.
.

Il Battaglia online è consultabile nella sezione Scaffali digitali

.

Fonte:

comunicato 9 maggio 2019 Accademia della Crusca

Tags: , ,
Trovato questo articolo interessante?
Condividilo sulla tua rete di contatti Twitter, sulla tua bacheca su Facebook o semplicemente premi "+1" per suggerire questo risultato nelle ricerche di Google. Diffondere contenuti che trovi interessanti aiuta questo blog a crescere. Grazie!
8 Condivisioni

3 Commenti

  1. Marco Biffi ha detto:

    Gentilissimi,
    se aveste letto quanto c’è scritto nella pagina di presentazione del progetto, vi sareste resi conto che ne siamo perfettamente consapevoli e lo dichiarano esplicitamente:

    “Il corpus contiene attualmente tutti i volumi del GDLI (tranne il Supplemento 2009) in una versione provvisoria e sperimentale, perfettibile mediante il lavoro di revisione che tutt’ora prosegue presso l’Accademia, come è necessario per un’opera di questa mole. Si è comunque deciso di mettere immediatamente lo strumento (realizzato a tempo di record) nelle mani degli studiosi, benché presenti non pochi difetti. Infatti per ora la ripulitura è stata minima, ed è stata svolta in forma automatica all’interno del flusso della digitalizzazione. Sono state indicizzate tutte le forme individuate da una procedura che ha utilizzato la trascrizione prodotta dal sistema OCR (Finereader), avendo prima ricostruito l’unità delle parole sillabate nei cambi pagina (perché potessero essere individuate dalle procedure di ricerca). Restano da rivedere manualmente, prima di tutto, i lemmi e le parole e frasi in caratteri greci, che non sono stati letti dall’OCR. […] Si sta allestendo un sistema per l’individuazione automatica dei lemmi, che presenta non pochi problemi: vi collabora anche l’ILC di Pisa, che ha un apposito accordo con l’Accademia della Crusca. Sarà necessaria una revisione manuale dei testi, la quale richiederà molto tempo.
    Per quanto il testo elettronico presenti molte debolezze, l’approdo finale di ogni ricerca è la riproduzione in facsimile dell’originale a cui si rimane quindi, anche in questa edizione, del tutto fedeli, consentendo oltretutto, grazie ai sistemi di ingrandimento a video, una lettura comoda di un testo di non sempre facile accesso nella versione cartacea per le dimensioni ridotte dei caratteri. Nella ricerca si possono certamente perdere alcuni risultati di forme “occultate” dagli errori commessi dall’OCR ma, una volta arrivati alla pagina, il consultatore può attingere appieno a tutte le preziose informazioni del dizionario”.

    Per capire l’importanza dell’operazione, seppur con i limiti che l’Accademia stessa dichiara, può essere utile anche la lettura delle seguenti recensioni apparse sulla stampa:
    http://www.accademiadellacrusca.it/sites/www.accademiadellacrusca.it/files/page/2019/05/07/battagliasole24ore.pdf.
    http://www.accademiadellacrusca.it/sites/www.accademiadellacrusca.it/files/page/2019/05/08/cdt_3.5.2019.pdf

    Grazie per l’attenzione.

    Marco Biffi
    Responsabile Web
    Accademia della Crusca
    http://www.accademiadellacrusca.it

    • eBookReaderItalia ha detto:

      Grazie per la risposta. Lungi da noi fare polemica, sono scelte che stanno a voi.
      I tempi delle revisioni sono necessariamente molto lenti e per questo la messa online di una versione alfa non sempre incontra il plauso degli utenti e degli studiosi.

  2. Marco Biffi ha detto:

    Mi dispiace deluderla, ma per i linguisti italiani questa è stata invece un’ottima iniziativa. Forse non vi rendete conto di che cosa sia davvero il “Grande Dizionario della Lingua Italiana”, ma se trovate un linguista che avrebbe preferito aspettare dieci anni per aver una versione del testo collazionata invece che aver questa, con tutti i suoi limiti dichiarati, oggi, fatecelo sapere e, dopo aver parlato con lui, valuteremo le vostre considerazioni.