Langzeitspeicherung: Nicht mit XML und PDF

Wie kann man Daten so aufzeichnen, daß sie auch in weiterer Zukunft noch lesbar und verständlich bleiben?

Anläßlich dieser Meldung.

Am 5. September 1977 wurde die Raumsonde Voyager auf die Reise zu anderen Solarsystemen geschickt. An Bord hatte sie als Botschaft für mögliche außerirdische Lebewesen eine – Schallplatte.

Das war wohlüberlegt. Wenn man die Empfänger einer Botschaft nicht kennt, nicht einmal ihre Spezies, muß man auf viele gewohnte Annahmen verzichten. Ob Augen oder Ohren vorhanden sind, wie Schrift funktioniert, das und mehr kann man nicht voraussetzen. Eine Schallplatte hat eine durchgehende spiralförmige Rille, in deren Tiefe die Information codiert ist. Schiefgehen kann dabei nur die Abspielrichtung – von innen nach außen oder umgekehrt? Aber daß eine Abfolge von Signalen herauskommt, ist sicher; und die Muster in der Musik auf dieser Schallplatte sollten für sehr viele Empfänger als Muster erkennbar sein.

Wenn wir Daten für andere Menschen aufzeichnen, können wir weit mehr vorausetzen. Auch wenn Technik sich ändert und in Vergessenheit geraten mag – eine Schallplatte von 1977 werden wohl auch Menschen in mehreren hundert Jahren noch anhören können – nachdem sie sich ein Abspielgerät konstruiert haben. [Vielleicht verpassen sie das mit dem Stereo-kanal, aber sie werden schon die Musik hören.]

Bei digitalen Formaten ist das ganz anders. Wenn man eine reflektierende Scheibe ähnlich einer heutigen CD oder DVD beschreibt, dann macht man auch eine spiralförmige Spur. (Das ginge auch anders: bei Magnetscheiben, wie Festplatten und Disketten, hat man hingegen konzentrische Kreise, teilt die Scheibe in Spuren und Sektoren auf). Nur ist diese Spur digital – sie hat “Landings” und “Pits”, hohe Flächen und Löcher. Daß das ein binäres Signal sein soll, ist offensichtlich. Aber wie kann man es lesen?

Zunächst hat man wieder beide Möglichkeiten: von innen nach außen, oder von außen nach innen. Nehmen wir beide an, das sind zwei lange Bitstrings (Abfolge von einzelnen Binärelementen); die kann man dann beide untersuchen.

Was dann? Wir sind uns heute einig, daß wir Binärdaten in Gruppen von 8 Bits gruppieren und dieses “Datenwort” Byte nennen. Die Bytes kann man dann wieder zu größeren Gruppen zusammenfassen. Aber schon “Byte” ist nicht selbstverständlich. Es gab Geräte mit 9, 12, 39 Bit breiten Datenworten und sogar gemischte bzw. wechselnde Datenwortbreiten. Mattels GI 1600 hatte beispielsweise ein 10 Bit breites ROM, aber 16 Bit breites RAM. Man mag das heute als Kuriositäten ansehen, zu ihrer Zeit waren sie es aber nicht – und bei modernen Prozessoren gibt es auch wieder Bistrings variabler Länge.

Die Verwendung von Bytes ist also nicht selbstverständlich.

Aber man findet auf einem optischen Datenträger wie CD/DVD auch nicht einmal direkt die Bytes; es werden mehrere Codes dazwischengeschaltet, welche zur Fehlerkorrektur und Strukturierung dienen. Als Stichworte: EFM, CIRC; darübergelagert gibt es dann doch “Frame” und “Sector”.

Nehmen wir Empfänger mit begrenztem Vorwissen, aber großem Interesse und Ausdauer an, ähnlich wie heute Forscher an die Entschlüsselung alter Schriftsysteme herangehen.

Vielleicht würde ein solcher Empfänger aufgrund von Häufigkeitsanalysen einen ASCII-Text als Struktur erkennen können und vielleicht auch die Codes der unteren Ebenen entschlüsseln.

Die Textcodierung wäre dann aber auch nicht direkt einleuchtend. Von Bitfolgen auf Zahlen zu schließen ist offensichtlich; das geht über die Zweierpotenzen und man kann annehmen, daß auch die erhofften außerirdischen Empfänger der Voyager 1 dieses Prinzip kennen. Aber wie soll man ahnen, daß die Ziffer 0 nicht mit dem Zahlenwert 0 codiert wird, sondern mit 48? Und daß der Buchstabe A mit 65 codiert wird, aber nur als Großbuchstabe; als Kleinbuchstabe ist es dann 97. Diese Buchstaben sind [semantisch] in ihrer Bedeutung fast gleichwertig, aber die beiden Zahlen 65 und 97 sind nicht direkt in Verbindung zu bringen. Schon der relativ einfache ASCII-Code ist eine Hürde für die Interpretation.

Kennt man eine unserer heutigen Sprache ähnliche Sprache – und unsere Sprache unterscheidet sich ja auch merklich von der von vor fünfhundert Jahren – kann man zumindest erahnen, worum es geht und manches erschließen. Nach einigen Mühen könnte jemand wohl eine CD mit reinen ASCII-Texten entschlüsseln.

Aber XML und PDF sind nicht mehr ASCII.

Zunächst XML: Es wird oft als interoperabel und offen angepriesen; und tatsächlich stellt es einen großen Fortschritt gegenüber undokumentierten Binärformaten dar. Aber nicht, weil es wirklich sofort verwendbar wäre – sondern vielmehr, weil Menschen es mit Verstand und kontextbezogenem Vorwissen untersuchen und dann passende Konvertierungen schreiben können, was bei Binärformaten erheblich schwieriger ist.

[Ich würde im mündlichen Rahmen jetzt noch einen Rant über die verschiedenen Gründe von mir geben, warum XML eine Fehlkonstruktion ist, aber ich schreibe ja hier.]

XML verwendet normalerweise einen ASCII-Zeichensatz, bzw. die erweiterten Ableger davon gemäß ISO 8859, oder eine der drei üblichen Unicode-Codierungen. Allen gemein ist, daß die häufigsten Zeichen die gleichen Bytewerte wie bei ASCII besitzen, so daß man mit einer ASCII-Dekodierung auch diese Inhalte größtenteils dekodieren und anschauen kann.

XML ist aber ganz absichtsvoll kein abgeschlossenes Format, sondern nur ein Basisformat, auf dessen Grundlage die anwendungsspezifischen Formate definiert werden. Das ist sehr praktisch, hat aber auch Nachteile.

Zum einen wird die Beschreibung des anwendungsspezifischen Formats nicht im Dokument selbst gehalten, sondern meist durch eine Web-Adresse (URL) zu Anfang des XML-Dokuments angegeben. Wenn man heute Dokumente im Browser anzeigt ist das durchaus praktikabel – für langfristige Offline-Speicherung eher nicht.

Zum anderen ist nicht jeder Verwender und nicht jede Verwendung darauf ausgelegt, daß etwas anderes als die erzeugende Software die Daten liest. Einige Formate, welche pro forma XML sind, sind faktisch keinen Deut besser als Binärformate. Ob man nur base64-codierte Binärfolgen in XML-Container ablegt, oder die interne Binärdatenstruktur mit kryptischen Abkürzungen speichert: Beides ist ähnlich aufwendig zu entschlüsseln wie reine Binärformate. [Und gerade Hersteller, welche jahrzehntelang mit “Datengeiselnahme” gute kommerzielle Erfolge erzielt haben, rücken davon nur mit sehr großem Widerstand ab, wenn überhaupt.]

XML ist also nicht per se besser; man muß sehr genau hinsehen, was damit gemacht wird. [Von Microsoft Word .docx-Files ist beispielsweise stark abzuraten!]

Die beiden großen Haken kommen am Schluß. Zunächst weiter mit PDF.

Eigentlich müssen wir von Postscript reden. Postscript kennt man von Druckern – jeder einigermaßen wertige Drucker beherrscht Postscript im Gerät.

Postscript ist eine Seitenbeschreibungssprache, genauer: eine stackbasierte interpretative Skriptsprache. Eine Programmiersprache, die Befehle wie “gehe soundsoweit vorwärts”, “drehe dich X Grad nach Links”, “zeichne Linie”, “mach einen Punkt” und so fort, enthält. Sie beschreibt, wie auf einem Blatt eine Zeichnung anzufertigen ist.

Das Konzept des Blatts ist die erste Annahme, die nicht selbstverständlich ist. Daß die Sprache stackbasiert zu interpretieren ist, kann für den, der sich dessen nicht bewußt ist, die nächsten Interpretationsprobleme mit sich bringen. Dann gibt es etliche Annahmen und Konventionen, die nicht offensichtlich, aber praktisch sind und sich mit der Zeit etabliert haben, z.B. wie Buchstaben abgelegt werden. Postscript selbst wird wieder mit ASCII geschrieben. Das ließe sich also auch wieder, mit etwas Aufwand, entschlüsseln; bis daraus Bilder entstünden, würde etwas länger dauern. Bei nur einer falschen Annahme erhält man mit etwas Glück eine kubistische Interpretation des eigentlichen Bildes. Mit weniger Glück und mehreren falschen Annahmen kommt etwas heraus, bei dem kaum ein Mensch das gemeinte Originalbild erkennen würde.

Die zwei größten Probleme kommen aber jetzt. Erstens: Kompression.

Klar spart man gerne Platz. Und Redundanz läßt sich durch Kompression beheben. Kompression entfernt Redundanz; je näher die Häufigkeitsverteilung der Symbole nach Kompression an Gleichverteilung (Rauschen) ist, um so besser war die Kompression. Und die üblichen Kompressionsverfahren sind schon sehr gut.

PDF ist zunächst einmal komprimiertes Postscript. Viele heutige Dokumentenformate, welche sich als XML-Formate ausgeben, sind tatsächlich komprimierte Archive mit XML-Inhalten. Der Haken an der Sache: Nach Kompression funktionieren die Häufigkeitsanalysen nicht mehr. Man kann die ganzen obigen Schritte bis zur ASCII-Entschlüsselung nicht mehr so vornehmen. Das klappt so nicht mehr.

(Obendrein ist es bei PDF seit der Version PDF/A-3 von 2012 möglich, beliebige Binärformate einzubinden, auch herstellereigene proprietäre Formate. Das ist nicht nur ein großes Sicherheitsrisiko, damit ist auch der frühere Vorteil von PDF hinfällig, daß man es überall lesen kann, wo der PDF-Standard implementiert wurde. Für eine Langzeitspeicherung muß man auf dem älteren PDF-Standard bestehen und Javascript ausgeschaltet lassen.)

Der zweite Haken,

der uns schon heute plagt: “DRM”. Das steht für Digital Rights Management (Digitales Rechte-Management), aber viele nennen es  Digital Restriction Management, denn tatsächlich geht es um die Einschränkung der Nutzungsmöglichkeiten.

Zu DRM selbst gibt es an anderer Stelle viel zu sagen. Hier nur soviel: Sobald ein DRM-Schema angewendet wurde, sind die Inhalte für die Zukunft verloren. Wer hat in hundert, zweihundert Jahren die geheimen Schlüssel der Filmfirmen? DVDs werden nicht mehr abspielbar sein, die Filme verloren. Und selbst wenn man den Schlüssel für ein verschlüsseltes Textdokument kennt – welcher Algorithmus, wie angewandt?

Wenn man ernsthaft digitale Dokumente für künftige Generationen erhalten will, sollte man sich erst einmal gründlich Gedanken machen.

Dabei muß man fragen,  welche Risiken man abwehren will – NEMP, Feuer, Strahlung, oder z.B. nur thermische Alterung – und wann die Daten von wem wieder gelesen werden sollten. Was in der Zwischenzeit geschieht, welchen Aufwand man zu treiben bereit ist.Wenn all dies bekannt ist, kann man eine passende Lösung finden. Aber für keinen mir bekannten Parametersatz ist XML+PDF auf optischem Speicher besonders geeignet.

Postscriptum: Speicherung auf Keramiktafeln vermeidet schon einige der Probleme;aber man kann die Aufgabe auch durchaus mit anderen Medien lösen, wenn man sich vorher über die Codierung und Formate genauer überlegt.

Advertisements
Aside | This entry was posted in {0,1}* and tagged , , . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s