Conservazione sostitutiva dei documenti: usare il PDF è sicuro?

In questi ultimi anni è evidente la corsa alla digitalizzazione e ad ogni forma di conservazione sostitutiva.

L’impulso è dato dalla grande attenzione al risparmio di carta e di inchiostri, di costi sempre crescenti, al rispetto per l’ambiente ed alla velocizzazione e semplificazione dei processi.

In questo frangente è d’uopo una riflessione approfondita sul tipo di documento che dobbiamo affidare alla cura informatica, al fine di ottenere a livello digitale l’equivalente, dal punto di vista giuridico, di un foglio di carta compilato e firmato in modo autografo.

In modo empirico l’utente forse ritiene, a torto, che il formato di documento digitale più indicato sia quello indicato genericamente con l’acronimo di PDF.

Questo capita perché si conoscono, per esperienza, le caratteristiche che un file in formato PDF porta con sé.

L’utente sa che scegliendo la cosiddetta “stampante pdf” può ottenere come risultato di qualsiasi programma, un documento PDF pronto, con la semplicità di un comando di stampa. Questa parentela logica già produce nell’utilizzatore l’idea che il documento PDF sia la forma digitale esatta di quello che sarebbe uscito dalla comune stampante, ossia un cartaceo.

Inoltre sappiamo che quasi tutti i software ormai ci permettono di salvare il documento, da noi preparato, in formato PDF e che questo documento è quello che i nostri colleghi più facilmente riescono a leggere attraverso i più vari dispositivi digitali (PC, smartphone, cellulari di ultima generazione, tablet,…), indipendentemente dal sistema operativo installato.

Il formato PDF è poi considerato, sempre per esperienza quotidiana, un formato non facilmente ed immediatamente modificabile: il file che otteniamo è prontamente leggibile, ma se proviamo a modificarlo, con gli strumenti normalmente a nostra disposizione, non ci riusciamo.

Ma è esattamente così semplice e sicuro parlare genericamente di formato PDF per la conservatoria e la digitalizzazione?

In realtà il formato PDF, nella sua forma standard, non può essere considerato compatibile con i processi di conservazione digitale, manca infatti della caratteristica di riproducibilità a lungo termine, neppure nella forma della conservazione dell’aspetto visivo.

Questo capita perché i file PDF standard non sono esattamente immagini, fotocopie digitali immobili ed immutabili, ma possono presentare dipendenze da altri file (come i cosiddetti font, o altri oggetti) installati sul proprio Personal Computer ed esterni al documento stesso.

Il PDF standard, inviato ad un collega, è esattamente uguale a quello che abbiamo noi sul nostro Personal Computer, solo a patto che il collega abbia installati sul suo dispositivo gli stessi oggetti che abbiamo sul nostro. Nel tempo, la dismissione di certi oggetti informatici, potrebbe causare la differenza visiva di un documento PDF da quello originariamente prodotto.

In parole povere per un PDF standard può succedere che, impaginato originariamente con un certo tipo di carattere, risulti dopo un certo periodo di tempo, o se letto su un altro dispositivo digitale, visualizzato e stampato con un altro tipo di carattere. Questo perché il carattere utilizzato non è in realtà contenuto sempre in un PDF, ma risulta autonomamente installato sul Personal Computer.

L’esperienza di un collega ha dimostrato che un documento PDF, impaginato originariamente con un carattere non troppo consueto e di dimensioni molto piccole, risultava, riletto in altra sede, con un carattere così diverso da non rispettare, non solo lo stile visivo, ma neppure i contenuti. Questo perché il carattere diverso e più grande in dimensione, portava i testi a sovrapporsi, modificando così gli stessi contenuti.

“La stampa di documenti in formato PDF generico può dare problemi se si utilizzano dei caratteri locali (ad esempio le vocali italiane accentate) e se chi stampa ha il proprio PC impostato su di una lingua differente”. (fonte Wikipedia)

Un formato di file di tipo testuale contiene sempre in sé informazioni quali: formato, carattere, dimensione, colore, posizione, immagini contenute, lingua, accenti…, tutte informazioni che se poi non trovano la corrispondenza nelle caratteristiche del computer che li visualizza, danno risultati visivi differenti.

Ricordiamoci che la normativa (CAD – Decreto Legislativo 7 marzo 2005, n. 82. Testo vigente al 12/08/2012. Art.1 e successivi) richiede di affidare all’archiviazione sostitutiva un formato di tipo immagine. Il formato di tipo immagine, ad esempio il cosiddetto BitMap (BMP), riporta in forma digitale esattamente quello che appare in video. Nel file ottenuto è presente, in sostanza, una matrice che dice quale colore ha ciascun punto del video del personal computer, e quindi il risultato è assolutamente fedele. Questa via però presenta due spiacevoli inconvenienti rispetto al PDF generico: per primo il documento diventa un’immagine, e quindi non sono più possibili ricerche di testo all’interno del documento (fra i vantaggi del formato PDF è che è possibile ricercare una parola scritta all’interno del documento stesso, senza doverlo manualmente leggere e scorrere per tutta la sua lunghezza), in secondo luogo il formato immagine è uno standard definito e quindi non si possono aggiungere al file informazioni di altra specie, quali i dati grafometrici di una Firma Elettronica Avanzata (il formato PDF prevede la possibilità di aggiungere nel documento elementi digitali di interesse, quali Firme, Certificati Digitali, elementi di sicurezza,…).

Nel Gennaio 2007 Adobe, inventore del formato PDF generico, ha intrapreso la strada per rendere il formato uno standard ISO, introducendo i seguenti sotto-formati:

  • PDF/A (PDF/Archiving) per l’archiviazione a lungo termine;
  • PDF/X (PDF/eXchange) per le arti grafiche e la prestampa;
  • PDF/E (PDF/Engineering) per la documentazione di tipo ingegneristico;
  • PDF/H (PDF/Healthcare) per il settore sanitario;
  • PDF/UA (PDF/Universal Accessibility) per l’accessibilità.

Verifichiamo ora, in base a quanto detto, l’applicabilità di uno standard PDF/A (definito come standard per l’archiviazione sostitutiva) ai processi di conservazione digitale definita oggi alternativa all’archiviazione manuale di un foglio di carta firmato.

Im primis è importate sottolineare che scegliere uno standard PDF/A vuol dire servirsi di software di scrittura e di lettura capaci di lavorare esattamente con questa forma di documento. Non è automatico pensare che tutti i software attualmente in commercio, per la produzione di un documento in formato PDF generico, supportino questo formato. Utilizzare un software non conforme allo standard PDF/A vuol dire riportarsi nella situazione di ottenere un risultato non fedele all’originale.

Lo standard PDF/A identifica le caratteristiche che il documento elettronico in formato PDF deve avere per ottenere che la riproduzione dia sempre gli stessi risultati a distanza di tempo. Per fare questo lo standard prevede che i documenti contengano all’interno tutti gli oggetti ed i font necessari alla loro corretta visualizzazione. In un documento PDF/A devono essere inglobati tutti i contenuti: testi, immagini c.d. raster e di grafica vettoriale, caratteri, colori, informazioni…

Altri elementi di compatibilità includono:

  • contenuti audio e video sono vietati;
  • javascript ed invocazioni di file eseguibili sono vietate;
  • tutti i caratteri devono essere incorporati e devono poterlo essere senza limiti di copyright. Questo vale anche per quelli standard PostScript, come i caratteri Times o Helvetica;
  • gli spazi dei colori sono specificati in un modo indipendente dal dispositivo;
  • la crittografia è soppressa;
  • l’utilizzo di meta-dati standard è obbligatorio.

Lo standard poi, specifica due livelli di conformità per i file PDF:

  • PDF/A-1a – Livello A rispetto alla parte 1
  • PDF/A-1b – Livello B rispetto alla parte 1
  • PDF/A-1b ha l’obiettivo di garantire la riproduzione affidabile dell’aspetto visivo del documento. PDF/A-1a include tutti i requisiti di PDF/A-1b, e, vi aggiunge il vincolo dell’inclusione della struttura del documento (conosciuto anche come “tagged”), con l’obiettivo di garantire che il contenuto del documento possa essere cercato e presentato. In pratica, assieme al documento testuale, viene memorizzata un’immagine TIFF (Il Tagged Image File Format, detto anche TIFF, è un formato immagine di tipo raster) dello stesso, che quindi risulta essere fedele nella riproduzione visiva ed in stampa.

E’ chiaro che le variabili in gioco, per garantire la perfetta fedeltà all’originale nel tempo, non sono poche e neppure di semplice interpretazione ed applicazione.

Possiamo a questo punto sottolineare che gli svantaggi dell’applicazione di uno standard PDF/A sono relativi quindi a:

  • scelta di un software di lettura/scrittura dei documenti compatibile allo standard PDF/A;
  • limitazioni nei contenuti dei documenti, per mantenere la compatibilità;
  • dimensioni del documento (il documento è più grande in dimensione dovendo contenere molte più informazioni);

Riassumendo quindi l’essenziale di quanto scritto finora, posso dire, secondo il mio modesto parere, che per poter dare garanzia di una corretta archiviazione sostitutiva dei documenti, è inevitabile ad oggi servirsi esclusivamente di uno standard PDF/A-1b, in quanto è ad ora quello che dà più garanzie di una corretta e precisa riproducibilità nel tempo (confidando che tutte le variabili in gioco siano state correttamente valutate nello standard PDF/A-1b).

Riporto questa considerazione: stabilendo lo standard PDF/A-1b come necessario per le forme dell’archiviazione sostitutiva, occorre però valutare che i limiti introdotti dallo stesso al fine di garantire la corretta riproducibilità, possano far sì che il documento prodotto sia sì potenzialmente inalterabile nel tempo, ma abbastanza dissimile dall’originale prima del salvataggio in formato PDF.

Lo strumento di esportazione PDF presente nella suite Microsoft Office 2007 eliminerà, ad esempio, la trasparenza di ogni immagine contenuta nel documento stesso, perché tale caratteristica è vietata nel PDF/A-1.

In sostanza, elaborato un documento attraverso un programma software, potremmo trovarlo dissimile una volta tradotto nel formato PDF/A-1. Ad esempio: due loghi parzialmente sovrapposti per un gioco di trasparenze, potrebbero dare come risultato che uno copra completamente l’altro nel PDF/A-1 generato.

E’ quindi necessario dare una validazione al documento PDF/A-1 generato, prima di affidarlo a qualsiasi operazione di firma elettronica o archiviazione sostitutiva, considerando che questo possa essere differente da quanto voluto.

Ritengo che la giurisprudenza dovrebbe rivedere alcuni concetti chiave (purché questo sia effettivamente possibile) per poter arrivare a sposare perfettamente le possibilità introdotte dall’archiviazione sostitutiva in formato elettronico. E’ importante infatti, per venire incontro ai limiti espressi in questo documento, alle variabili in gioco e al margine di errore possibile, chiarire concettualmente quali debbano essere i nuovi cardini per la validità del documento.

E’ importante chiarire, a titolo di esempio, se la frase

“d) la possibilità di verificare che il documento informatico sottoscritto non abbia subito modifiche dopo l’apposizione della firma;” contenuta all’Art. 56 dello “SCHEMA DI DPCM AI SENSI DEGLI ARTICOLI 20, COMMA 3, 24, COMMA 4, 28, COMMA 3, 32, COMMA 3, LETTERA B), 35, COMMA 2, 36, COMMA 2, E 71, DEL D.L.GVO 7 MARZO 2005 N. 82”,

debba essere rivalutata considerando che il documento, pur non essendo stato fisicamente modificato nel contenuto, possa mostrarsi a video o in stampa (cosa abbastanza improbabile ma pur sempre possibile) visibilmente differente da quanto atteso e stampato in un’altra sede ed in tempi diversi.

(Altalex, 13 settembre 2012. Articolo di Carlo Tenca. Vedi anche il volume Diritto e nuove tecnologie di Michele Iaselli)