Strumenti per il web semantico: il thesaurus unico del Portale “Ti racconto la storia”

1. Gli strumenti di ricerca di “Ti racconto la storia”
Nel settembre 2018 l’ICAR ha pubblicato sul portale del Sistema Archivistico Nazionale Ti racconto la storia una biblioteca digitale di 65 videointerviste, suddivise in tre collezioni e dedicate ad argomenti di interesse storico per l’Italia contemporanea:1. Guerra e Resistenza a Savigliano, 2. L’ombra del potere. I gabinetti e gli uffici legislativi dei ministri, 3. Per una storia orale dell’ex Ospedale psichiatrico di Santa Maria della Pietà di Roma. Nel prossimo futuro l’Istituto inserirà tre nuove collezioni riguardanti le trasmissioni di Radio Onda Rossa, la storia e la cultura dei sordi in Italia, la Seconda guerra mondiale e la Resistenza a Roma.
La consultazione dei materiali all’interno del portale è facilitata da due strumenti di ricerca: annotazioni, vale a dire indici che descrivono i contenuti dei singoli oggetti digitali; thesauri, ossia vocabolari controllati che raccolgono e ordinano le annotazioni secondo relazioni semantiche di tipo gerarchico e associativo. Ciascuna annotazione è ancorata a un preciso segmento temporale delle interviste e può essere recuperata sia attraverso la ricerca full-text del portale, sia navigando all’interno dei thesauri. Ogni collezione ha un thesaurus di riferimento che ne raccoglie gli indici.
Tali strumenti di ricerca sono stati creati in tempi e modi diversi dagli enti che – in convenzione con la Direzione generale Archivi e l’ICAR – si sono occupati di produrre i materiali audiovisivi delle collezioni. Ciò, pur permettendo a ciascun ente di occuparsi in prima battuta della descrizione dei materiali, ha portato a una disomogeneità delle annotazioni da un punto di vista formale e dei thesauri da uno strutturale. La ricerca coordinata dei contenuti tra le collezioni risulta quindi impraticabile
Alla luce di tali ragioni sono nate due esigenze: rendere omogenee le annotazioni sul piano terminologico e progettare e implementare un thesaurus unico che racchiuda i thesauri minori e che possa essere facilmente integrato in caso di nuove pubblicazioni all’interno del portale.
Una prima risposta a tali esigenze è stata messa a punto durante uno stage condotto da chi scrive presso l’Istituto Centrale per gli Archivi nei mesi giugno-ottobre 2019, durante il quale è stato avviato uno studio di fattibilità finalizzato alla progettazione di un thesaurus unico che permetta la consultazione dei materiali audiovisivi conservati nel portale “Ti racconto la storia”, indipendentemente dalle collezioni di origine. Si presentano di seguito i metodi e i risultati del lavoro svolto, a partire dal contesto di partenza.

2. Thesauri come strumenti di ricerca nel Web Semantico
Prima di parlare della progettazione del thesaurus unico è necessario fare una breve premessa sulla natura di tali strumenti e sul loro utilizzo all’interno del Web Semantico.
Essi rientrano in quelli che sono definiti sistemi per l’organizzazione della conoscenza (Knowledge Organization Systems). Tale definizione è utilizzata per riferirsi ad un’ampia gamma di entità (es. soggettari, thesauri, tassonomie, ontologie) caratterizzate da diverse strutture, funzioni e applicazioni tecnologiche. Ciò che hanno in comune è il fatto di fornire un’organizzazione di un’informazione con il fine di rendere questa più facilmente gestibile e accessibile. In particolare i thesauri sono dei vocabolari controllati che ordinano – attraverso relazioni semantiche di tipo gerarchico e associativo – un insieme di concetti ai quali sono associati dei termini secondo lo stesso rapporto che in linguistica vi è tra un significato e il rispettivo significante. Oggi i thesauri sono molto utilizzati per la descrizione e la consultazione di risorse disponibili in rete.
Uno standard diffuso per la rappresentazione di questi strumenti in un linguaggio “comprensibile” ai computer è SKOS (Simple Knowledge Organization System) basato su RDF (Resource Description Framework). L’uso di tale standard per la rappresentazione dei thesauri è molto importante all’interno del Web Semantico, in quanto permette di associare ad ogni concetto del vocabolario un URI identificabile e rintracciabile.

3. La progettazione del thesaurus unico
Per la costruzione del thesaurus unico sono partito dal confronto degli indici contenuti nei thesauri sia delle collezioni presenti nel portale sia di quelle in procinto di essere aggiunte. Ne è stata creata pertanto una lista, con il fine di individuare sinonimie e disomogeneità formali e di identificare alcune categorie semantiche tanto ampie da poter accogliere, oltre gli indici esistenti, anche quelli che in un futuro potrebbero essere aggiunti.
Inoltre è stata compiuta una specializzazione delle forme testuali affinché in futuro non si creino sinonimie con nuove annessioni riducendo pertanto il lavoro di manutenzione e modifica del thesaurus unico (es. l’indice Biografia è stato modificato in Vita privata degli alti funzionari). Tale scelta ha portato di conseguenza ad avvicinarsi ad un modello di thesaurus pre-coordinato più che ad uno post-coordinato.
Quando ci si è imbattuti in indici che indicavano periodizzazioni differenti di una stessa entità, quali ad es. Russia e Unione Sovietica (URSS), si è deciso di conservare entrambe le voci,aggiungendo ad una o ad entrambe una definizione che ne chiarisse il significato. Le voci inoltre sono state legate da una relazione di tipo associativo.
Le categorie principali individuate a seguito del confronto degli indici e corrispondenti ai concetti principali del thesaurus unico sono: Entità nominate (suddivisa nelle sottocategorie Enti e organizzazioni e Persone), Luoghi, Fasi cronologiche e Temi. Ad esse è stata associata una “nota d’uso” che specifica l’accezione con la quale è utilizzato tale concetto, come ad es. Luoghi = Nota d’uso: estensioni territoriali di piccole o grandi dimensioni delimitate da differenti tipologie di confini (fisici o antropici). Ad alcune di esse è stata associata anche una nota “esempi” all’interno della quale sono elencate alcune esemplificazioni del concetto (es: Luoghi = Esempi: nazioni, regioni, centri abitati, località, quartieri, frazioni...). Ciò è stato fatto non solo per facilitare la ricerca da parte del fruitore del portale ma anche per fornire, a chi dovrà in futuro inserire nel thesaurus unico le annotazioni di una nuova collezione, chiari riferimenti semantici sui quali potersi basare.
Gli indici dei thesauri sono stati quindi ordinati all’interno di tali categorie in base al rapporto semantico “più generico/più specifico”, secondo il quale gli indici subordinati sono semanticamente più specifici dei loro sovraordinati, i quali di conseguenza sono semanticamente più estesi dei loro subordinati. È stata ammessa l’esistenza di alcune poligerarchie, sulla base delle interviste conservate nel portale: ad esempio, Frattini, Franco si trova sia sotto Individui, sia sotto Funzionari dello stato, sia sotto Politici in quanto è nominato in esse sia come individuo, sia come funzionario dello Stato, sia come politico.
Dopo le relazioni gerarchiche sono state stabilite quelle di tipo associativo. Ciò ha permesso di collegare trasversalmente gli indici appartenenti a diverse categorie: un evento con una fase cronologica (per es. 1968 e Contestazione giovanile), un tema con un gruppo di persone (Resistenza e Partigiani), una persona con un partito politico (es. De Gasperi, Alcide e Democrazia cristiana).

4. Standard SKOS e interoperabilità con l’Atlante storico istituzionale dell’Italia unita
Una volta progettata la struttura del thesaurus unico, ho proceduto a trascriverlo in SKOS. Ogni concetto del thesaurus unico è diventata una risorsa rintracciabile e riusabile attraverso la creazione e l’associazione ad esso di un URI. Per fare in modo che i nuovi concetti rimandino – una volta diventato operativo il vocabolario – a quelli dei vecchi thesauri, si è ricorso alla proprietà skos:exactMatch, la quale permette di creare una perfetta coincidenza semantica tra concetti appartenenti  a diversi schemi concettuali.
Per alcuni concetti è stata fatta un’eccezione, associando non URI creati appositamente ma quelli presenti all’interno di un altro portale del SAN, l’Atlante storico istituzionale dell’Italia unita. All’interno di questo portale è stata creata infatti un’ontologia che descrive le unità geografiche e amministrative italiane dall’Unità ai giorni nostri (associate a degli URI). Poiché anche nel thesaurus unico sono presenti riferimenti a questo tipo di entità, ho associato a tali concetti gli URI dell’Atlante storico istituzionale dell’Italia unita, così da rendere le due risorse interoperabili. Questo è un esempio concreto di come nel Web Semantico, grazie ai sistemi organizzati di conoscenza, si possa utilizzare un medesimo URI per descrivere due risorse distinte.
Un ulteriore obiettivo per il futuro è l’integrazione del nuovo vocabolario all’interno del Thesaurus SAN, strumento di supporto alla descrizione delle diverse risorse provenienti dai sistemi aderenti al Sistema Archivistico Nazionale, con il fine di una maggiore interoperabilità.

Per saperne di più

Il portale Ti racconto una storia

Il portale Atlante storico istituzionale dell'Italia unita

Per commentare effettua il login
  • Nessun commento trovato
Powered by Komento