Pandemia e web archiving. Conservare le fonti online #igiornidellapandemia

Le fonti web saranno fondamentali per raccontare e indagare gli avvenimenti di questo periodo. Cruciale sarà dunque la loro conservazione. Molti istituti che curano iniziative di web archiving si sono attivati con progetti dedicati.

La Society of American Archivists mantiene aggiornata una lista per quelli statunitensi, che al momento ha superato le 70 segnalazioni, mentre la Digital Presevation Coalition sta documentando l’attività della comunità internazionale, con una serie di post sul proprio blog, curati da Sara Day Thomson, coordinatrice del Web Archiving & Preservation Working Group. È davvero apprezzabile lo spirito costruttivo e collaborativo con il quale gli operatori stanno affrontando questo compito inedito, che l’autrice ha efficacemente paragonato a “catturare una valanga con un cucchiaino da tè”

Il volume, l’urgenza e la varietà delle informazioni sono in effetti straordinari e portano a considerare e riconsiderare molti nodi metodologici della disciplina.

Innanzitutto la selezione. Gli istituti realizzano da tempo collezioni tematiche, imperniate su un determinato argomento o avvenimento (ad esempio questa, relativa alla Brexit, all’interno dell’Open UK Web Archive della British Library). Una collezione richiede ovviamente un’accurata progettazione ed elaborazione dei criteri di raccolta, come la costituzione del gruppo di lavoro, la scelta dei i siti analizzare, il tipo di contenuti, il livello di dettaglio nella cattura degli hyperlink. Questa fase, nel nostro caso, subisce inevitabilmente un’accelerazione e deve confrontarsi con una tipologia vastissima di siti e contenuti.

Da considerare anche gli aspetti tecnologici: ad esempio la frequenza di crawling, cioè l’intervallo di tempo tra ogni nuova sessione di analisi e cattura dei contenuti da un sito web. In questo momento l’aggiornamento di molti siti è più rapido ed è probabile che alcuni parametri vadano rivisti. Ma d’altra parte la cattura, specie i siti più estesi e complessi, richiede tempo: possono dunque verificarsi lacune di informazione o incoerenze temporali.

È fondamentale archiviare i siti istituzionali. Molte informazioni importanti sono condivise infatti sui siti governativi e della pubblica amministrazione, dai quali tra l’altro è legittimo aspettarsi chiarezza, tempestività, completezza e coerenza nella scelta dei canali. I National Archives del Regno Unito curano per mandato la conservazione sistematica dei siti governativi, fornendo anche ottime linee guida per la creazione di siti ben archiviabili e per il loro corretto versamento. Con la pandemia l’istituto ha intensificato l’attività aumentando il volume e il dettaglio di cattura di siti e sezioni di particolare interesse. Gli strumenti impiegati sono Heritrix (il web crawler già usato abitualmente) e Webrecorder (del quale parleremo in chiusura), uno strumento più recente che consente una cattura più agevole di pagine dinamiche.

Il progetto britannico prende in considerazione anche i profili social istituzionali. Del resto è sui social media – non solo su quelli ufficiali, ma soprattutto su quelli personali e nei gruppi di utenti – che viene prodotta una parte rilevante dell’informazione, fondamentale anche per documentare le reazioni della collettività. I conservatori devono dunque confrontarsi con media dinamici e con molti contenuti non standard, più labili, che possono includere formati e architetture più difficili da percorrere, catturare e conservare: in questo post di Sara Day Thomson alcuni dettagli sugli studi e le riflessioni in corso.

Si pongono inoltre questioni legate a riservatezza, limitazioni e diritti: spesso i contenuti non sono accessibili, perché condivisi in gruppi chiusi o protetti da licenze. Di regola gli istituti devono ottenere il consenso dagli autori, fondamentale soprattutto in questa situazione, nella quale l’emotività di tutti è messa alla prova.

E questo ci porta ad alcune considerazioni etiche sull’uso della fonte. In questo momento si stanno condividendo informazioni e dati particolarmente delicati: salute, vita privata, momenti di comprensibile sconforto o esasperazione. Usarli correttamente sarà un compito ineludibile per storici e ricercatori (e anche per i mezzi di informazione), partendo dalle regole di deontologia previste dalla normativa sulla privacy ed eventualmente riflettendo su un loro aggiornamento.

Cosa possono fare gli archivisti
Anche se il nostro paese non ha al momento iniziative nazionali di web archiving, possiamo seguire o partecipare al progetto di raccolta collaborativa Novel Coronavirus (Covid-19) outbreak, curato da IIPC e Archive-it: qui la presentazione del progetto, il modulo di segnalazione e la collezione in aggiornamento

Chiunque sia interessato può inoltre costruire autonomamente delle raccolte: in fondo a questo post, già citato, sono ricordati i due principali strumenti per il web archiving “fai da te”.
Il primo è WayBack Machine di Internet Archive, ormai più che ventennale, che prevede anche la funzione “Save page now”, con la quale è possibile salvare una url non ancora archiviata.
Il secondo è il più recente Webrecorder, con funzionalità più ampie e utile anche per salvare siti dinamici e social media. Ogni utente può registrarsi e creare un proprio account, con il quale costruire raccolte e corredarle di una breve descrizione (qui la guida).

Tags: #igiornidellapandemia, Web Archiving

Vuoi lasciare un commento?

You must be logged in to post a comment.

Archivi digitali

Pandemia e web archiving. Conservare le fonti online #igiornidellapandemia

Pandemia e web archiving. Conservare le fonti online #igiornidellapandemia

Lorenzana Bracciotti (Archivio di Stato di Parma)

Vuoi lasciare un commento?

Un progetto

Cookie statistiche

Cookie di terze parti