Diese Webseite verwendet Cookies
Diese Cookies sind notwendig
Daten zur Verbesserung der Webseite durch Tracking (Matomo).
Das sind Cookies die von externen Seiten und Diensten kommen z.B. von Youtube oder Vimeo.
Geben Sie hier Ihren Nutzernamen oder Ihre E-Mail-Adresse sowie Ihr Passwort ein, um sich auf der Website anzumelden.
Die Unterlagen, die das Archiv der sozialen Demokratie (AdsD) übernimmt, liegen zunehmend in digitaler Form vor. Mit diesem Wechsel ins Digitale verändern sich zahlreiche Archivprozesse grundlegend. Der heutige Blogbeitrag schildert den technischen Workflow, wie wir mit digitalen Unterlagen umgehen, die wir als Dateiablage auf einem externen Speichermedien wie Festplatten oder USB-Sticks von unseren Hinterleger:innen bekommen.
Bevor die Daten ins Zwischenarchiv kommen, müssen sie in Quarantäne. Um sicherzugehen, dass wir keine Viren in unser digitales Archiv einschleppen, werden die Daten zunächst einer Virenprüfung unterzogen und anschließend auf einem Quarantänerechner zwischengeparkt. Nach vier Wochen wird die Virenprüfung wiederholt. Erst nach dieser doppelten (erfolgreichen) Prüfung werden die Daten weiterbearbeitet. Während der Quarantänezeit wird parallel zur „originalen“ Festplattenkopie eine weitere Festplattenkopie aufbewahrt.
Für die Weiterverarbeitung werden die Daten ins Zwischenarchiv kopiert. Dieser Kopiervorgang (wie übrigens auch der Kopiervorgang auf den Quarantänerechner bzw. die redundante Festplatte) erfolgt verifiziert. Das bedeutet, dass vor und nach dem Kopiervorgang eine Prüfsumme der ursprünglichen und der kopierten Datei errechnet und anschließend verglichen wird. Wenn diese Prüfsummen übereinstimmen, ist die Datei korrekt kopiert worden.
Zur Durchführung der verifizierten Kopie verwendet das AdsD das Programm TotalCommander, bei dem der Kopiervorgang mithilfe der Hash-Funktion MD5 überprüft wird. Diese Hashfunktion genügt nur, um versehentliche Fehler wie bei einem Kopiervorgang zu erkennen, dafür kann sie schnell berechnet werden.
Bei der digitalen Langzeitarchivierung von Dateiablagen wendet das AdsD die Migrationsstrategie an. Das bedeutet verknappt, dass Dateien in Formate migriert werden, die zum einen die entscheidenden Eigenschaften der Datei bewahren, zum anderen auch auf längerfristige Sicht noch geöffnet und benutzt werden können. Ein anschauliches Beispiel ist die Migration von Word-Dokumenten in PDF-Dokumente.
Die Basis für die Migrationsstrategie bildet dabei die Kenntnis, welche Formate im digitalen Archiv liegen. Bevor die Dateiablage weiterbearbeitet wird, wird sie deshalb einer Formaterkennung unterzogen. Dazu verwendet das AdsD die Software droid, die ihrerseits auf das PRONOM-Register zurückgreift. In diesem Register werden aktuell über 2000 Formate vorgehalten samt Informationen, mittels derer Dateien identifiziert werden können. Die Formate haben einen Identifier, den Pronom Unique Identifier (PUID). Anhand dieses PUID kann zukünftig beobachtet werden, welche Dateiformate im Archiv sind, welche Formate eventuell gefährdet sind und folglich migriert werden müssen.
Die Software droid ermittelt für alle Dateien der übergebenen Ordner die PUIDs, sofern möglich. Das so errechnete Profil wird gespeichert und kann für die weitere Bearbeitung verwendet werden. Unter anderem kann mithilfe dieses Skripts eine Liste der zip-Dateien generiert werden, die mittels eines Skripts entpackt werden.
Als nächster Schritt erfolgt in der digitalen Übernahme die Bewertung. Die Bewertung ist eine Kernaufgabe der archivischen Arbeit. Hier wird auf Grundlage von Bewertungsmodellen entschieden, welche Teile einer Übernahme archivwürdig sind. Die intellektuelle Arbeit unterscheidet dabei im Digitalen oder Analogen nicht grundlegend. Um die Arbeit umzusetzen braucht man aber andere Werkzeuge.
Das AdsD setzt für diesen Schritt die Software archifiltre ein. Archifiltre ermöglicht es, sich einen Überblick über eine Dateiablage zu verschaffen. So lässt sich visuell z.B. erfassen, wie eine Dateiablage strukturiert ist, wie tief sie verschachtelt ist und welche Dateitypen wo liegen. Man kann nach Dateinamen suchen und nach Formaten filtern und über Reports die Laufzeiten von Ordnern ermitteln. Auch in archifiltre werden außerdem Hash-Summen errechnet, sodass überprüft werden kann, wo in einer Ordnerstruktur identische Dateien liegen, selbst wenn die Namen dieser Dateien unterschiedlich sind.
Diese Informationen können Anhaltspunkte und Orientierung liefern, damit Archivar:innen sich darauf konzentrieren können zu entscheiden, welche Teile der Überlieferung bewahrt werden sollen und welche kassabel sind, also gelöscht werden können. Diese Entscheidung kann in archifiltre mittels tags vermerkt werden. Die in archifiltre vorgemerkten Kassationsentscheidungen können in Form von Exporttabellen dokumentiert werden. Außerdem lässt sich darüber ein Kassationsskript generieren. Nach Prüfung der Exporttabelle können so die für die Kassation vorgemerkten Dokumente gelöscht werden.
Nach Bewertung und Kassation werden die Daten in ein sogenanntes Submission Information Package (SIP) verpackt. In diesem SIP liegen zum einen die Primärdaten, der content, zum anderen Metadaten, die auf inhaltlicher wie auf technischer Ebene die Primärdaten beschreiben und näher spezifizieren. Zu diesen Metadaten gehören Informationen zur Herkunft der Primärdaten und das Datum der Übernahme, wie auch technische Daten wie Hash-Summen der Dateien, die hier wieder errechnet und gespeichert werden als Grundlage für die sichere Archivierung.
Für SIPs gibt es verschiedene Standards – das AdsD verwendet für Schriftgut den Standard eCH-0160. Um die aufbereiteten digitalen Daten in diesem Standard zu verpacken, wird der PackageHandler eingesetzt. Im PackageHandler werden die Primärdaten mit den genannten Metadaten angereichert. Darüber hinaus werden, sofern notwendig, Pfadlängen angepasst und Dateinamen normalisiert, also z.B. Sonderzeichen und Leerzeichen ersetzt. Die Originalinformationen werden dabei aber weiterhin gespeichert. Diese Vorkehrungen sollen sicherstellen, dass die Dateien auch auf anderen (zukünftigen) System verarbeitet und geöffnet werden können.
Das fertige SIP ist nun bereit dafür, in das digitale Archiv des AdsD eingespeist zu werden.
Auf der konkreten Ebene geht es nach dem Zwischenarchiv weiter mit dem Schritt ins digitale (End-)Archiv. Was unsere Arbeitsprozesse angeht, wird es damit weitergehen, diesen Prozess weiter zu erproben und zu verbessern und auf neue Anwendungsfälle auszuweiten. Wie können wir die Dokumentation standardisieren? Wie müssen wir den Arbeitsprozess anpassen, wenn wir die Daten nicht über eine externe Festplatte oder einen USB-Stick bekommen? Wie gehen wir damit um, wenn wir einen Virus entdecken?
Und bevor die Routine zu groß werden sollte, kann man sich in der digitalen Welt darauf verlassen: Die nächste Überraschung wartet schon.
Annabel Walz
10. Dezember, 18 Uhr c.t. | Universität Bonn und im Livestream
Auftaktveranstaltung zum 100-jährigen Jubiläum der FES | Donnerstag, 21. November 2024, 17.30 bis 19.45 Uhr | Friedrich-Ebert-Stiftung, Godesberger…
Lesung und Gespräch mit Gün Tank über weibliche Arbeitsmigration |
09.10.2024 | 18.00–19:30 Uhr | Berlin