La conservazione di database e siti web. Le ragioni di un corso

L’Associazione nazionale archivistica italiana e dalla Biblioteca nazionale centrale di Roma organizzano un corso su “Conservazione digitale: database e siti web” organizzato per i prossimi 26-27 novembre e 5-6 dicembre. Perché un corso su conservazione digitale di database e del web?

I database, dalla rubrica alle mail, ai grandi archivi anagrafici permeano tutte le attività professionali sia delle persone che delle organizzazioni. La natura intrinsecamente digitale dei database e dei contenuti richiede che sia trattata la loro conservazione nel lungo periodo individuando modelli e processi sostenibili.

Sulla conservazione dei siti web, scontiamo almeno tre lustri di ritardo rispetto agli altri paese europei e del resto del mondo. Il non aver trattato questo problema nel corso degli anni con opportune politiche di gestione ha fatto sì che contenuti web si siano persi e non saranno più recuperabili. Diventa fondamentale porsi il problema della conservazione dei siti web e definire un modello per la loro conservazione nel tempo e per garantire l’accessibilità nel tempo dei contenuti a scopo di studio e ricerca.

Il corso vuole iniziare a mostrare possibili approcci metodologici e soluzioni operative al problema della conservazione con un approccio multidisciplinare congiunto fra competenze archivistiche ed informatiche

Conservazione dei database

La conservazione digitale di database richiede la gestione di un insieme di processi e di procedure finalizzate a mantenere l’autenticità, l’integrità, l’affidabilità, la leggibilità, la reperibilità dei dati memorizzati. Si tratta di aspetti che devono essere affrontati nella duplice prospettiva archivistica e informatica in ragione dellaspecifica natura dei documenti e delle risorse digitali da conservare.

Un adeguato intervento per la conservazione richiede una completa e accurata documentazione dei processi specifici nei quali sono coinvolti gli oggetti digitali destinati a una conservazione di medio o lungo periodo. Il contesto di produzione, il contesto di provenienza degli oggetti e dei contenuti digitali, le fasi di gestione delle risorse devono essere mantenuti nel tempo.

Si tratta di attività complesse, che nel caso della conservazione di database, richiedono innanzitutto una valutazione di merito oltre che impegnativi interventi di natura tecnica. Stabilire il valore di un database, ossia stabilirne natura, struttura e dimensioni, è determinante per definire le modalità di intervento che ne garantiscano una conservazione efficace, soprattutto nel caso in cui si tratti di un sistema informativo di valore archivistico, tale cioè da contenere dati e relazioni giuridicamente rilevanti o che abbiano valore di testimonianza, tanto da richiedere una specifica attenzione per la conservazione della loro autenticità.

È necessario provvedere ad una “Digital Curation” dei database che tenga conto non solo di tipologie documentarie specifiche (registri di protocollo; repertori di documenti omogenei per tipologia come delibere o contratti, etc.) ma che affronti la gestione in un’ottica interdisciplinare (Archivistica, Giuridica, Informatica).
Le prime soluzioni elaborate, tradotte da diversi anni in applicazioni concrete, risolvono il problema della conservazione attraverso l’estrazione dal database delle informazioni da conservare e la conseguente produzione di documenti statici (viste). Successivamente, si è cominciato a porre maggiore attenzione al problema della definizione di schemi concettuali specifici per la produzione di documenti dinamici assimilabili alla documentazione, spostando l’attenzione dalla conservazione della forma fisica dei documenti digitali alla conservazione dei dati logicamente strutturati, ossia ai caratteri intrinseci di questi documenti.

Queste caratteristiche sono fondamentali nel determinare l’interesse per queste risorse nel momento del passaggio dalla fase attiva alla fase di deposito e alla fase di conservazione storica, ricercando soluzioni efficaci sia a fini di consultabilità delle informazioni contenute che per la tutela dell’integrità e dell’autenticità di quelle informazioni. Sin dal momento della creazione di un oggetto digitale dovrebbe essere chiaro se sia necessario o se esista la volontà di garantire l’integrità, l’autenticità e l’accesso alle informazioni e alle meta-informazioni in esso contenute. Soltanto in questo modo, infatti, è possibile progettare le caratteristiche che questi oggetti digitali devono possedere per essere inseriti in un processo di conservazione efficace.

In questa prospettiva, è necessario progettazione di forme documentarie auto-consistenti, ovvero corredate da informazioni che descrivano le componenti del documento o dell’entità digitale che entreranno a far parte dell’archivio e che saranno trasferiti nel sistema di conservazione. E questo tipo di analisi deve accompagnare un’analisi archivistica di più ampio respiro, che consideri i documenti e le entità digitali nel contesto in cui sono stati formati e gestiti, in relazione tra loro e in relazione con i vari elementi che compongono un sistema documentario complesso.

È necessario ripensare i processi di formazione, gestione e conservazione della documentazione e dell’archivio digitale. I soggetti abilitati a operare in ognuna di queste fasi di vita del documento e dell’archivio digitale dovranno quindi intervenire documentando i processi di gestione degli oggetti digitali, descrivendone le componenti grazie all’aggiunta di informazioni di processo, utili a garantire l’autenticità, l’integrità e l’affidabilità dell’oggetto digitale sia in fase di gestione che in fase di conservazione.

Conservazione dei siti web

Il problema della conservazione dei siti web si è posto fin dalla fine degli anni Novanta del secolo scorso. La necessità di garantire l’accesso all’informazione nel tempo è dunque il primo motore che ha spinto la comunità internazionale a elaborare soluzioni tecniche per la conservazione dei siti web. Accanto a ciò si riconosce nel web sia il valore culturale e sia quello di fonti archivistiche da preservare. Il web archiving è quindi il processo di selezione, raccolta, conservazione di siti web a scopi di ricerca e di consultazione nel tempo.

Due citazioni mettono in evidenza i problemi che si incontrano:

Web archiving operates at the frontier of capturing and preserving our cultural and historical record

The British Library web archive blog
14 September 2016

As hard as general preservation is, web preservation is even harder. Everything on the web dies faster

Robin Davis. “Die hard: The impossible, absolutely essential task of saving the web for scholars”
2016

Nella conservazione digitale si devono, infatti, trattare documenti e aggregazioni documentali che hanno proprie specificità, caratteristiche, formati, relazioni ben consolidate già a partire dalla loro creazione o definite successivamente durante il loro processo di gestione documentale. Nel caso dei siti web, tale complessità è aumentata dal numero enorme di relazioni fra documenti di formati diversi, logicamente correlati e fisicamente disponibili anche in sistemi diversi. Si hanno immagini, documenti, codici sorgenti, stili di visualizzazione diversi, che vanno tutti conservati nel loro formato specifico insieme alle relazioni che compongono sia la singola pagina web sia l’intero sito. A ciò si deve aggiungere che il tempo di vita di una singola pagina web può essere di poche ore e che, quindi, il tempo per l’identificazione della pagina modificata e la scelta operativa di acquisirla e poi conservarla è estremamente limitato. Si devono inoltre trattare la gestione dei diritti sui contenuti e i metadati descrittivi dell’intero sito e delle pagine che lo compongono. Nelle fasi iniziali pioneristiche del web non si era pianificato di conservare per il futuro i contenuti digitali resi disponibili in internet. La situazione, tuttavia, è divenuta molto critica nell’era del Web 2.0, caratterizzata dall’utilizzo di tecnologie che favoriscono l’interazione dell’utente con i contenuti memorizzati e fruibili attraverso la rete.

L’obiettivo dell’archiviazione Web è quello di conservare un sito web nel lungo periodo, il più vicino possibile alla sua forma originale, mantenendo le informazioni essenziali sulla struttura, sui contenuti, sui redattori e sui titolari dei diritti.

Nonostante queste criticità è mancato spesso un approccio al problema in grado di rispondere agli interrogativi sul mantenimento nel tempo delle caratteristiche di accessibilità dei siti internet, accessibilità che può essere limitata o venire meno del tutto sia per ragioni di natura tecnica (incompatibilità tra tecnologie) che per ragioni di natura organizzativa ed economica (impossibilità di mantenere nel tempo i dati memorizzati su un server). 

Il settore dei beni culturali (e non è l’unico) ha prodotto e continua a produrre una quantità sempre maggiore di contenuti digitali che hanno bisogno di essere archiviati, conservati e tutelati nel tempo in modo affidabile per consentire che queste risorse possano essere recuperate in maniera efficace e che possano essere utilizzate per le ricerche future.

Articolazione del corso

Nel corso saranno trattate metodologie, metadati, modelli standard per la gestione della conservazione digitale di database e siti web, con particolare attenzione per gli aspetti operativi.

Primo giorno

Il corso è strutturato con un giorno iniziale introduttivo che descrive il processo generale da applicare per la conservazione dei database.

Seguirà un breve descrizione dei Database Management System per la gestione di basi di dati e del modello OAIS (Open Archive Information System) per i sistemi di conservazione digitale.

Nella prima giornata vengono anche affrontati i principali schemi di descrittivi e di conservazione (con i relativi modelli concettuali): EAD per la descrizione dei complessi ed unità archivistiche e documentari, EAC-CPF per la descrizione dei soggetti produttori e dei relativi contesti, EAG per la descrizione dei soggetti conservatori e METS per la gestione degli oggetti digitali. Si descriveranno, inoltre, i metadati di conservazione PREMIS ed il loro modello concettuale che saranno poi applicati nel prosieguo del corso.

Come ultimo argomento della giornata si presenterà lo standard UNI SInCRO per la creazione di pacchetti di archiviazione secondo quanto richiesto dalle norme italiane sulla conservazione digitale.

Secondo giorno

Il secondo giorno approfondisce i modelli per la conservazione dei database e le caratteristiche del processo di digital curation.

Addentrandoci poi verso la necessità di operare praticamente, sarà necessario definire preliminarmente i formati più adatti alla conservazione dei database. Saranno analizzati brevemente i formati ADDML (Archival Data Description Markup Language) e SDFP (Standard Data Format for Preservation). Più approfonditamente sarà presentato il formato SIARD (Software Independent Archiving of Relational Databases) nelle versioni 1 e 2. Verranno illustrati tre software specifici SIARD Suite, una interfaccia grafica perla conversione di database in formato SIARD; il Database Preservation Toolkit e Database Visualization Toolkit, rispettivamente per la conversione batch di database e la visualizzazione di database in formato SIARD 1 e 2.

Successivamente si presenterà un case study della conservazione di database del Sistema Informativo degli Archivi di Stato (SIAS). Saranno illustrati: l’analisi del database e del contesto di produzione, le caratteristiche del sistema e del processo di conservazione, la preparazione e fornitura della documentazione a corredo, le azioni intraprese (Copia, normalizzazione, generazione metadati descrittivi del database, hash, generazione dei metadati di provenienza, integrazione dei metadati descrittivi PREMIS), un esempio di pacchetto di archiviazione con i vari componenti e i metadati UNI SInCRO dell’Indice di conservazione.

Al termine del secondo giorno di corso, si sceglierà congiuntamente con la classe un esempio di conservazione di un database che sarà affrontato nel pomeriggio della terza giornata di corso.

Terzo giorno

Il terzo giorno si proseguirà con un ulteriore caso di studio che presenta un differente approccio alla conservazione dei contenuti di un database: l’Archivio storico multimediale del Mediterraneo. Anche in questo caso saranno illustrati: le caratteristiche del sistema e il processo di conservazione, il processo di estrazione e conversione dei dati, la trasformazione dei contenuti nel formato METS l’estrazione dati in formato EAC-CPF, l’estrazione dati in formato EAG, la preparazione immagini e generazione hash, l’integrazione dei metadati descrittivi PREMIS ed un esempio di pacchetto di archiviazione con i vari componenti e i metadati UNI SInCRO dell’Indice di conservazione. 

Si proseguirà con il caso di studio scelto applicando i processi illustrati precedentemente.

Quarto giorno 

Il quarto giorno è dedicato alla conservazione dei siti web e si illustrerà il processo di web archiving anche con qualche indicazione storica e di esperienze in corso.
Saranno illustrati brevemente alcuni strumenti per il web archiving con particolare riferimento a sia a software di harvesting come Heritrix, HTTrack e Webrecorder sia a software di consultazione come Pywb (Python Web Archiving Toolkit) e Webrecorder player.

Sarà descritto in dettaglio il formato di memorizzazione WARC (Web ARChive) e le caratteristiche che lo rendono adatto alla conservazione dei siti web: Si farà anche accenno a possibili metadati descrittivi e tecnici da utilizzare nei processi di web archiving.

Il caso di studio che sarà presentato è relativo alla conservazione di una mostra web sviluppata con il software MOVIO. Sarà illustrata la preparazione del processo e l’harvesting del sito, la gestione dei log di harvesting, i passaggi per garantire l’integrità dei file coinvolti, la generazione di metadati descrittivi PREMIS ed un esempio di pacchetto di archiviazione con i vari componenti e i metadati UNI SInCRO dell’Indice di conservazione.

Al termine della quarta giornata di corso, sarà svolto un breve test di 30 minuti per verificare le competenze acquisite.

Ulteriori informazioni

Per avere ulteriori informazioni si può consultare la pagina specifica sul sito web dell’Associazione Nazionale Archivistica Italiana oppure inviare una mail a Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo..

 

Per commentare effettua il login
  • Nessun commento trovato
Powered by Komento