Langzeitarchivierung
In: Telepolis, Januar 2004
Ansätze zur Konservierung von Daten in Wissenschaft und Wirtschaft
Visionäre gibt es im Unternehmen öfters, als man denkt. Vordenker aus Unternehmen müssen sich über die langlebige Archivierung von Konstruktions- und Entwicklungsdaten den Kopf zerbrechen. Hierzulande ist die Langzeitarchivierung von Arbeitsprozessdaten ein Nischenthema, dass sich aber in den nächsten Jahrzehnten als Bumerang auswirken könnte. Die meisten Unternehmen vertrauen ihre Datensicherheit Rechenzentren an, die mit genügend Speicher- und Serverressourcen für die nächsten Dekaden bis höchstens 2030/2040 wirtschaften. Rechenzentren können die Konformität der gespeicherten Daten für die diesen Zeitraum garantieren, vorausgesetzt, die IT-Technik von morgen (hyperschnelle CPUs, heute noch unbekannte Speichermedien, Betriebssysteme und Software) schaffen es dann noch, die gespeicherten Datenmengen heutigen IT-Managements zu reproduzieren.
These 1: Archivieren von Berechnungsformeln reicht aus
Von den Fragen der Langzeitarchivierung sind nicht nur Wirtschaftsunternehmen mit ihren recht eigennützigen Interessen betroffen, sondern auch Kultur- und Bildungsträger. Seit einigen Jahren ist auch die Deutsche Bibliothek in Form von Forschungsprojekten in das Thema Langzeitarchivierung involviert. Im Unterschied zu unternehmerischen Strategien verdeutlicht sich hier, dass Langzeitarchivierung als ein Begriff mit mehreren Bedeutungen diskutiert wird. Einigen Unternehmen, die Langzeitstrategien verfolgen, geht es darum, Daten und Informationen ohne Erhaltung der Form zu archivieren: Wenn die gleiche Berechnungsformel auf einem zukünftigen Rechnersystem erheblich schneller durchgeführt werden und auf die Dezimalstelle genau das gewünschte Resultat ergeben kann, wofür braucht man dann Auswertungen, Statistiken und Diagramme zu archivieren? In Zukunft lässt sich die Formel viel schneller berechnen und auswerten. Zur Kontrolle hebt man am besten noch die Resultate auf.
These 2: Generelles Re-Konvertieren in 7 Bit ASCII
Mit Textdateien ist es nicht anders. Warum sollte eine Archivierung die Masse der Textdateien mit multiplen Formaten berücksichtigen? Die Parallelkonvertierung aller Texte in ein universales, rekonvertibles Dateiformate (z.B. 7-Bit ASCII für Texte) könnte den Archivierungsworkflow beschleunigen. In dieser Vorgehensweise spielen die teils propriäteren Dateiformate für Langzeitarchivierung keine Rolle mehr. Die Form der Archivierung trennt rigide die Form vom Inhalt: bewahrt wird der Inhalt, die Form ist passé.
OAIS – ein bibliothekarischer Ansatz der Langzeitarchivierung
Das europäische Open Archival Information System schlägt etwas anders vor, als eine Trennung von Inhalt und Form. Die OAIS-Archivierungsstrategie geht vom Konservieren des Originals aus – besonders im digitalen Kontext.
Der OAIS-Ansatz, der auch „relationaler Ansatz“ genannte wird, teilt elektronische Dokumente in Klassen auf. Sie werden in heute anerkannte Dokumentstandards wie XML und SGML gespeichert und in der IT-Welt zur Analyse und Auswertung angewendet werden. Am Angreifbarsten scheint der neu geschaffene OAIS-Standard hinsichtlich seines Dokumentstandards zu sein. Wer kann garantieren, dass strukturierte Markup-Sprachen zur Archivierung in so langen Zeiträumen angewendet werden? XML gilt heute als Industriestandard, wird es aber auch die nächste IT-Revolution überdauern? Im OAIS-Standard, der im Red Book als Zukunftsstandard für die Dokumentation und Archivierung wissenschaftlicher Dokumente niedergelegt wurde, sind die Metadaten zur kennzeichnenden Beschreibung der Dokumente.
Archivierung durch Metadaten-Management
In HTML- und XML-Dokumente werden Metadaten zur Niederlegung des Autornamens oder bedeutsamer Begriffe benutzt. Die Robots der Suchmaschinen durchforsten die Metadaten, um eine erste Orientierung über den Inhalt des Dokuments zu gewinnen. Die Regularien der Dokumentenbeschreibung mithilfe von Metadaten legt der DublinCore (www.dublincore.org) fest. Das „DublinCore Metadata Element Set“ stellt einen Satz von Metadaten zusammen, mit denen archivierbare Publikationen grundlegend beschrieben werden. Ein öffentlicher Schlüssel (Public Key), der jedes archivierte Dokument indiziert, garantiert Integrität von OAIS-Dokumenten. Die Authentizität kann sich sowohl über ein System von digitalen Signaturen als auch den Zeitstempel herstellen. Durch Indizierung, digitale Signierung und Zeitstempelvergabe kontrolliert das OAIS-System den internen Dokumentfluss.
Das OAIS-System. Eine Variante der Langzeitarchivierung
Der Open-Archive-Ansatz enthält Regularien für die Begleitung wissenschaftlicher digitalen Publikationen vom Autor bis zum Verwerter. Es scheint ihm aber an einem tragbaren Konzept für die Langzeitarchivierung der Veröffentlichungen zu fehlen. Offensichtlich verfügen nur Unternehmen, die einen akuten Bedarf an der langfristigen Wiederverwertbarkeit ihrer Informationsbestände haben, über die finanziellen Mittel und genügend Human Resources zur Durchführung einer echten Langzeitarchivierungsstrategie.
Langzeitarchivierung industrieller IT-Prozesse
Die Hypothese, dass CD-ROM oder DVD die Datenträger der Zukunft sind, scheint gemessen am Jahr 2040 utopisch. Und der Rücksprung einer Datenarchivierung durch Parallelverfilmung aller Rechenformeln und produktiven Ergebnisse droht nach der Jahrhundertmitte zu einem Exizierfeld für Filmrestauratoren zu werden – einer Profession, die dann noch weniger Menschen betreiben werden als heute. Die Langzeitarchivierung industrieller IT-Prozesse ist nur in unternehmerischen Umgebungen möglich. Hier kann von der heutigen Technik und ihrem Wissen abstrahiert und eine Prognose gewagt werden, dass heutige Datenprozesse in 60, 80 oder sogar 100 Jahren fehlerfrei und kompromisslos reaktiviert, rekapituliert, in alle künftigen Rechenprozesse nahtlos eingebunden werden können.
Will man nicht verschlafen, Daten und Informationen über lange Zeit parat zu haben, führt an einer Strategie der Langzeitarchivierung kein Weg vorbei. Unter Druck stehen besonders diejenigen Unternehmen, die in der Jetztzeit industrielle Anlagen und Maschinen konstruieren, bereits in die Prototypenphase schicken und wissen, dass ihre Industriegüter bis in die zwei Hälfte dieses Jahrhunderts in Betrieb sein werden. Dazu zählen Kernkraftwerke, Schiffe oder Flugzeuge.
Langzeitarchivierung im Flugzeugbau
Rigide verpflichtet ein amerikanisches Gesetz Flugzeughersteller, ihre mehrere Terabyte umfassenden Konstruktions-, Berechnungs-, Statistik- und Bilddaten ca. dreißig Jahre aufzubewahren, nachdem das letzte Exemplar einer Baureihe geflogen ist. Massiv betroffen von der US-Direktive ist der europäische Flugzeugbauer Airbus, dessen Neuentwicklungen, A380 und A400, erst in den nächsten Jahren ihre Jungfernflüge haben werden. Die letzten Modelle könnten möglicherweise noch 2070 fliegen. Ein Vergleich: Das Modell des ’Jumbo-Jet’, Boing 747, wurde in den sechziger Jahren konstruiert, gebaut und hatte im Apollo 11-Jahr, 1969, seinen Jungfernflug. Heute noch gilt die Boing 747 als weltweit größtes Passagierflugzeug – und es ist noch nicht abzusehen, wann der letzte ’Jumbo’ von der Rollbahn abheben wird. Denn Luftfahrtgesellschaften und Tourismusanbieter ordern nach wie vor die neuen Baureihen der Boing 747, sodass die Zukunft dieses weltgrößten Passagierflugzeugs noch lange ins 21. Jahrhundert hineinreichen kann. Lediglich Airbus’ A 380, welche in wenigen Jahren den Flugbetrieb aufnehmen wird, übertrifft den Jumbo-Jet nicht an Größe, Passagiervolumen, sondern auch an technischer Ausstattung. Eine mehrfache Herausforderung für Flugzeugbauexperten.
Probleme beim musealen Archivierungsmodell
Wenn die Luftfahrtindustrie in diesem technologisch unabsehbaren Zeitraum, ihr Konstruktions- und Berechnungsdaten parat halten will, ist sie heute zum Handeln herausgefordert. Trotz des Wissens um die Gefahren absehbar alternder IT hatten die Flugzeugingenieure des europäischen Luftfahrt-Konsortiums EADS überlegt, ihre veraltete Hardwarearchitektur in einer Art musealen Rechenzentrum Langzeit zu archivieren und nur die Arbeitsdaten auf neue Hardware übertragen. Sie überlegten auch, dass es reine Spekulation sei, konservierte Rechenanlagen wie in einem Museum zu konservieren und darauf zu hoffen, dass sie später noch in Betrieb genommen werden können. Diese Assoziation, die beim Kulturgut Buch so grandios funktioniert, zeitigt bei hoch differenzierten IT-Systemen aller Voraussicht nach keinen Erfolg.
Man überlege nur einmal, zu was heute eine 15 Jahre alte Workstation noch nützlich wäre. Wer oder was(!) sollte – futuristisch gedacht – nach 100 Jahren noch mit der vergreisten Hardware arbeiten können. Das museale Archivierungsmodell gefährdet die Rekonstruktion der Daten über lange Zeiträume.
Von den Schwierigkeiten, über die Zukunft etwas auszusagen
Ein Hardwaremuseum und Datenarchiv aufzubauen, entspricht einer rückwärts gewandten Problemsicht. Präzise Aussagen über die Zukunft zu machen, gehörte schon immer zu den schwierigsten Aufgaben, mit denen sich Philosophen, Visionäre und auch Zukunftsforscher beschäftigen. Diesmal sind an der außerordentlichen Frage nach der Etablierung einer fundierten Langzeitarchivierung von Konstruktionsdaten Flugzeugingeniere beteiligt, die ihre Hypothese auf die technologische Zukunft aufstellen.
Der ingenieurmäßige Lösungsweg
Die Hypothese von Luftfahrtingenieuren auf eine 99 Jahre währende Zukunft lautet, dass heutige Datenprozesse wie sie bei der 3D-Modellierung, der Lastenberechnung oder beim Lösen aerodynamischer Formeln anfallen, nach 99 Jahren – oder wann immer sie in Zukunft benötigt werden –eine datentechnische Rekonvertierung durchlaufen sollen. Wie eine orakelhafte Weißsagung mutet der ingenieurmäßige Lösungsweg an, die eine langfristige Aufbewahrung durch eine parallele Konvertierung der Prozess- und Bilddaten erreichen wollen. Ihre Überlegung besteht darin, dass es im gesetzten Zeitraum von 100 Jahren weder ein Betriebssystem noch eine Software geben wird, die mit den heutigen Daten und teils proprietären Formaten etwas anfangen kann. Immerhin ist die volle Rekonstruktion der Arbeitsergebnisse das eindeutige Ziel.
Das Konvertierungsmodell der Langzeitarchivierung
Der Konzeption der Langzeitarchivierung wird nun eine zweite (eher rückwärts gewandte) Hypothese hinzugefügt. Sie geht von der Vermutung aus, dass mit ingeneurhafter Genauigkeit nicht vorweggenommen werden könne, welcher Art Daten und Formate in dem gesetzten 99-Jahres-Zeitraum angewendet werden. Um eine gemeinsame Basis zu schaffen, besann man sich eines gemeinsamen Nenners: Prozess- und Bilddaten werden in (Minimal)-Formate parallelkonvertiert, die bereits heute als historisch gelten: 7-Bit ASCII und TIFF.
Zunächst verwirrt diese Hypothese etwas, weil der Rückgriff auf das die beiden ursprünglichen Kodierungsarten für digitale Texte und Grafiken sämtliche Entwicklungen der letzten 25 Jahre auf den Kopf zu stellen scheinen. Es mag vorstellbar sein, dass alles Geschriebene, vom Sitzungsprotokoll bis zum technischen Konstruktionsanweisung in 7 Bit ASCII konvertiert werden kann und damit langlebige Konvertierbarkeit und Lesbarkeit garantiert wird. Was passiert aber mit massiv rechenintensiven 3D-Modellen oder technischen CAE-Konstruktionszeichnungen, die mit Spezialsoftware hergestellt und als proprietäre Dateiformate gespeichert werden? Hier werden hypothetische Vermutungen geradezu prophetisch: Gewährleistet eine heute nicht vorstellare Software die darstellungsidentische Rekonvertierung der gespeicherten Tiff-Dateien in praktikable 3D-Modelle oder CAE-Konstruktionszeichnungen? Eine heikle Hypothese, die da unterstellt, dass innerhalb der 99 Jahre, jederzeit mit programmiertechnischen Mitteln eine Konvertierungssoftware programmiert werden kann, welche die vollständige Konvertierungsarbeit meistert.
Es dürfte klar, dass konvertierte Daten nicht lange auf Eis gelegt werden können, sondern archiviert werden müssen. Zu diesem Zweck sieht das Langzeit-archivierungssystem eine Instanz „Bibliothekar“ vor, der die Aufgabe hat, die ihm zugeflossen Daten der speziellen Archivierung zuzuführen. Das Jahr 2100 stellt in allen Überlegungen eine Zeitgrenze dar. Elektronische Archivierung heißt aber nicht, dass alle konvertierten Daten wie beim Cryoning auf Eis gelegt werden, sondern zu jeder Zeit bis ins Jahr 2100 rekonvertiert, Reviewprozessen unterzogen und manipuliert werden können. Den Schutz der Daten garantiert insofern ein einzigartiges Sicherheitssystem, mit welchem Generationen von Mitarbeitern zu Rande kommen müssen.
Der IST-Zustand: Keine Langzeitarchivierung von heute auf morgen
Selbst ein renommiertes Flugzeugbauunternehmen mit vielen Mitarbeitern schafft die Umsetzung einer Strategie zur Langzeitarchivierung nur im Lauf mehrerer Jahre – zumal ein europäisches Konsortium die Planung und Administration koordiniert. Der große Wurf besteht nicht so sehr im Konvertierungsansatz massiver Industriedaten, als im koordinierenden IT-Management über Jahre hinweg, das Ingenieure und Programmierer mit der futuristischen Unternehmensstrategie vertraut machen muss. Die im Jahre 2000 in Kraft gesetzte Strategie umfasst zwei generelle Phasen: ein Führungssystem und eine Archivierungssystem. Das Führungssystem (Leading System) begleitet den Entwurf, die unternehmensweite Einrichtung sowie die Schulung der Mitarbeiter. Diese Phase ist nicht mit Beginn der Archivierung abgeschlossen, sondern begleitet und testet die Archivierungstechnik einige Jahre, bis sie zertifiziert werden kann. Das Archivierungssystem nimmt seine Arbeit offiziell 2004 auf; der Probelauf mit ersten Parallelkonvertierungen und Archivspeicherungen wurde im Sommer 2003 durchgeführt.
Haltepunkte auf rutschigem Boden
Langzeitarchivierungstheorien sind Haltepunkte auf rutschigem Boden. Über die Beschaffenheiten der IT-Technologie von morgen lässt sich aus wissenschaftlicher und unternehmerischer Sicht kaum etwas aussagen. Obwohl die Mengen von Daten weltweit einem ständigen Prozess der Alterung und Zerstörung ausgesetzt sind, scheinen Langzeitarchivierungstrategien lediglich vereinzelte Versuche zu sein, Aussagen über zukünftige Informationsprozesse zu machen. Der Ansatz des europäischen Flugzeugbauers scheint geradezu klassizistisch das Neue im Alten zu beschwören. Transparenter im Hinblick auf das Dokumentmanagement erscheint das Open Archival Information System, das von der universellen Erfassbarkeit digitaler Dokumente durch Metadaten ausgeht und damit auf Netzwerke als zuverlässige Archivierungs- und Veröffentlichungstechnologien der Zukunft setzt.