TAI 2 - Preservación Digital OAIS - Termens

 



EL MODELO OAIS

En la década de los noventa del siglo xx la gran pregunta era cómo debía ser un sistema de preservación digital a nivel técnico, no tanto en su concreta configuración de hardware y software, sino a nivel de las características que debía tener y las funciones que debía cumplir. Era necesario inventar una nueva categoría de aplicación informática de la que se conocían los problemas que tenía que resolver, pero no cómo. La solución llegó del trabajo de la NASA. La NASA es un organismo cuyo funcionamiento depende en gran medida de la reutilización de datos conservados del pasado, por ejemplo los valores de telemetría de los distintos vuelos al espacio.

Desgraciadamente la NASA ha confirmado la pérdida de datos del pasado, como las imágenes originales con vídeo del primer alunizaje del hombre a la Luna, el del Apolo 11 en 1969, del que solo se conservan vídeos derivados de menor calidad, o los datos de las primeras muestras de suelo tomadas el año 1975 en la superficie de Marte por las sondas Viking. Ante estos errores en la custodia de datos únicos, la NASA tomó conciencia de que la preservación a largo plazo de datos digitales se tenía que abordar desde planteamientos distintos a los empleados hasta el momento. El resultado fue el desarrollo de un modelo teórico que integrase y explicase las funciones que debería cumplir cualquier sistema integral de preservación. El modelo fue discutido y aprobado dentro del Council of the Consultative Committee for Space Data Systems (CCSDS), el organismo encargado de desarrollar los estándares de datos de las principales agencias del espacio a nivel mundial, tomando el nombre de Referente  Mode/ for an Open Archiva/ Information System (DAIS), publicado en enero de 2003. OMS se convirtió en norma 1S0 el año siguiente con el código 14721:2003. Posteriormente, en junio de 2012, el CCSDS publicó una revisión que no incorporó cambios sustanciales



OA IS es un modelo teórico que indica qué fundo-= han de soportar los sistemas de preservación digital, sin importar qué tipo de datos custodian ni a qué tipo de actividad u organización se refieren. No es por tanto un software, un hardware, un formato o unas normas de codificación. OAIS describe seis grandes bloques de procesos dentro de un archivo de preservación digital (véase la Ilustración 1): 1. Ingesta o ingestión. Los ficheros llegan procedentes de los productores (las oficinas, los sistemas informáticos de gestión, la captura de información de la red, etc.) y se les aplican una serie de controles antes de proceder a su ingreso en el sistema de preservación.

Algunos controles son: a) Control de procedencia e integridad de la remesa: no faltan ni sobran ficheros y estos no se han corrompido o alterado desde su punto de envío. b) Control antivirus: los ficheros no contienen virus. c) Control de formatos: identificar de forma clara el formato y la versión de cada fichero y si este está bien formado. Después de estos controles el sistema extrae meta-datos de tipo técnico de los ficheros (resolución, número de colores, número de palabras, codificación de caracteres, etc.) y crea una firma digital o checksum de los mismos, con el fin de que en el futuro se pueda verificar su integridad. Finalmente los ficheros, junto con su valor checksum, son enviados al proceso de Almacenaje, mientras que los metadatos (los que ya incorporaba el fichero, más los técnicos creados en la ingesta, más datos de antivirus, etc.) son enviados a Gestión de datos.

2. Almacenaje. Es el proceso encargado de almacenar fisicamente los ficheros de datos; por tanto está formado por racks de discos magnéticos u otros sistemas de almacenaje de alta fiabilidad, controlados con protocolos de copia de seguridad y de redundancia de datos (ver «Cambio de soporte», más adelante).

3. Gestión de datos. En este proceso se mantienen los metadatos de los ficheros: los originales, los creados durante la ingesta y los que se van generando a lo largo de la vida de los ficheros. El objetivo es disponer de forma centralizada y normalizada de todas las informaciones que puedan facilitar la conservación y el uso de cada fichero; en este sentido es importante registrar todas las incidencias que sufra a lo largo del tiempo, como pueden ser migraciones de formatos, alteraciones en la integridad, resellado de tiempo y firma electrónica. El formato de metadatos PREMIS ha sido creado para registrar este tipo de informaciones, aunque se pueden usar otros mecanismos de control.

4. Acceso. Se han de habilitar procedimientos que permitan el acceso de los usuarios a los contenidos preservados. Acceso ha de disponer de algún tipo de interfaz que permita la interrogación de los metadatos custodia-dos en Gestión de datos y, a partir de sus resultados, dar acceso los contenidos que se encuentran en Almacenaje. Aquí es preciso recordar dos puntos importantes: a) Que determinados datos y documentos han sido preservados hasta el futuro no implica que vayan a ser de acceso libre. Por esta razón en Acceso se deberán integrar las políticas de identificación de usuarios y de derechos de acceso a los contenidos que sean pertinentes. Los formatos en los que el usuario del futuro va consultar un contenido no tienen por qué ser los mismos formatos en que fueron creados en el pasado; es más: a medio y largo plazo los con-tenidos que habrán migrado de formato serán la mayoría. Así, serán distintos el formato original, el formato de preservación que está almacenado y el formato de acceso en un momento determinado (un ejemplo puede ser un texto que se creó con WordPerfect 5.1, que se migró a y se está preservando como Microsoft Word 97 v que en el futuro va a ser consultado como libre Office versión 2050). A nivel técnico, Acceso deberá disponer de los mecanismos para migrar los formatos bajo demanda (según las posibilidades de visualización de los usuarios) y proporcionar, si es necesario, los visores o el software cliente para abrir los ficheros. Acceso también deberá informar a los usuarios de las salvaguardas de uso (derechos de propiedad intelectual, protección de datos personales, informaciones confidenciales) aplicables a un objeto digital determinado.

5. Preservación. Es la parte inteligente del sistema, aquí es donde se deciden las políticas a aplicar. Los responsables de un sistema de preservación han de man-tener una vigilancia tecnológica que los alerte del fin del tiempo de vida de un formato y de la necesidad de migrar sus ficheros a otro formato (ver más adelante: Migración de formatos), de problemas en la operatividad de un formato o software, de la disponibilidad de nuevas herramientas de visualización o de emulación, etc. Desde preservación también se habrá de prever la propia actualización o migración del sistema de preservación, pues este también está compuesto por software y hardware que se vuelve obsoleto y que se ha de reemplazar.

6. Servicios comunes. Este proceso, como su nombre indica, es de soporte técnico a los anteriores.

DAIS también ha determinado cómo se mueven los datos entre cada uno de los bloques de procesos; ello es importante porque a menudo estos bloques pueden estar constituidos por sistemas informáticos diferenciados, incluso situados en ubicaciones físicas distintas.

 

• SIP o Paquete de Información Enviada (Submission Information Package). Este paquete incluye los ficheros de datos que se envían a un sistema de preservación, acompañados de aquellos metadatos que puedan ser útiles para comprobar la integridad y la autenticidad de estos ficheros; es habitual que estos metadatos de acompañamiento estén constituidos por un listado de los ficheros y de los directorios en que están organizados, así como del valor de checksum de cada fichero. • AIP o Paquete de Información de Archivo (Archival Information Package). Este tipo de paquete tiene una composición y una función parecidas a las del anterior, pero aplicadas a las comunicaciones entre los bloques de Ingesta y de Almacenaje, con el fin de asegurar que los ficheros validados en la ingesta realmente son los mismos que se almacenan a largo pi220. • DIP o Paquete de Información de Diseminación (Dissemination Information Package). Incluye los ficheros de datos que se entregan a un usuario determinado como resultado de una petición de consulta; van acompañados de metadatos para informar de la autenticidad del envío y quizás otros sobre la historia de los datos: cuándo fueron ingresados, bajo qué formato original y cuándo fueron migrados o emulados. Es posible que también se entregue alguna advertencia sobre los usos permitidos sobre estos datos (debido a restricciones de propiedad intelectual, de licencias o de protección de datos personales). Los SIP se pueden generar de forma automática con distintos programas, como Bagit que se usa en Estados Unidos (véase la Ilustración 2), y se pueden enviar al destinatario bajo la forma de un fichero comprimido zip, tar o equivalente. En el caso de envíos masivos, las entregas se suelen hacer con discos duros externos.

Ilustración 2. Ejemplo de paquete SIP creado con el software Baga



El modelo OMS ha tenido una gran aceptación a nivel mundial, como lo demuestra el hecho de que todos los sistemas de preservación actualmente en funcionamiento o en proyecto dicen que cumplen con el modelo OMS con mayor o menor fidelidad. Es importante recordar que las especificaciones de OMS se han de adaptar a las peculiaridades de cada caso real. Por ejemplo, se ha advertido que la adaptación directa de OMS a instituciones y empresas de pequeño y mediano tamaño es farragosa, siendo necesario simplificar los procesos y las interacciones que propone OAIS. En cualquier caso OPUS es una buena guía para analizar las necesidades funcionales de cada caso, aunque quizás no tanto para (lar con las soluciones concretas a implementar.

Comentarios