Archivierte Webseiten mit pywb und SolrWayback nutzen

SolrWayback, pywb, WARC! WAR ... Was? Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Unser neuer Blog-Beitrag erklärt, wie archivierte Webseiten im AdsD aussehen und wie ihr sie nutzen könnt.

Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Sie bieten deshalb auch eine Vielzahl an möglichen Nutzungsoptionen. Die Frage, was eine archivierte Webseite ist und wie man sie nutzt, füllt ganze Bücher. Hier soll es um die ganz praktische Frage gehen: Wie sehen die archivierten Webseiten im AdsD aus und wie kann man sie nutzen?

Was ist eine archivierte Webseite?

Im AdsD werden Webseiten per Crawling eingesammelt und im WARC-Format gespeichert. WARCs sind sogenannte Container-Dateien, also Dateien, in denen verschiedene Dateien gemeinsam verpackt werden. Bei WARCs sind das die Dateien, aus denen die Webseite ursprünglich zusammengesetzt war, zusammen mit den Metadaten, die bei der Sammlung angefallen sind. Zu den Metadaten gehört z.B. der genaue Zeitpunkt (bis auf die Millisekunde), zu dem die Datei aufgerufen worden ist, die URL und das „Gespräch“ zwischen Client und Host beim Aufruf der Seite. Die Dateien sind die HTML-Files, die den Aufbau der Seite und Teile der Inhalte beschreiben, außerdem die Inhalte, auf die die HTML-Seite verlinkt. Das können weitere HTML-Seiten sein, aber auch Textdateien wie Word- und PDF-Dokumente, Bilder, Töne, mitunter auch Videos. Im Prinzip kann sich in einem WARC jedes beliebige Datei-Format befinden. Die WARC-Dateien sind in der Regel große Dateien von ca. 1 GB.

Prinzipiell kann man eine WARC-Datei in einem Text-Editor öffnen. Die Metadaten lassen sich so auch von Menschen lesen. Im WARC enthaltene Dateien, die mit einem Text-Editor dargestellt werden können, wie z.B. HTML-Seiten, können hier ebenfalls gelesen werden, aber eben nur im Quelltext. Und spätestens bei Bildern, die im Text-Format nur noch ein Buchstabensalat sind, stößt dieser Zugangsweg an seine Grenzen. Mal ganz abgesehen von dem Problem, dass die meisten Text-Editoren bei Dateigrößen im Gigabyte-Bereich einfach abstürzen. Um archivierte Webseiten zu nutzen, braucht es also andere Wege.
 

Archivierte Webseiten „so wie sie waren“

Um sich eine Webseite ungefähr so darstellen zu lassen, wie sie ursprünglich zu sehen war, also als Webseite in einem Browser, muss man eine Replay-Software einsetzen. Im AdsD verwenden wir dafür pywb. Mittels dieser Software kann man nach einer URL suchen und sich anhand von Timestamps verschiedene im Archiv vorhandene Zeitschnitte dieser URL ansehen.

Die Darstellung im Browser funktioniert dabei nicht immer einwandfrei. Das kann zum einen daran liegen, dass schon im Prozess der Archivierung bestimmte Teile der Seite nicht gesichert werden konnten.  Zum anderen kann es sein, dass der Browser zu neu ist und bestimmte in der Seite enthaltene Formate nicht mehr abspielen kann (oder darf) – so z.B. bei Flash-Inhalten. Solche Herausforderungen sind Fragestellungen für die Digitale Langzeitarchivierung von Webseiten – ein Lösungsansatz sind Browseremulationen.

Archivierte Webseiten als Daten

Neben einer Darstellung „wie früher“ sind archivierte Webseiten aber auch offen für ganz andere Formen der Darstellung und Auswertung, zumal es sich um mit Metadaten angereicherte, strukturierte Dateien handelt. Objekte, die digital vorliegen, müssen nicht so betrachtet werden, wie sie ursprünglich konzipiert waren. Archivierte Webseiten sind zunächst einfach nur (strukturierte) Daten, die man filtern kann, die mit anderen Daten kombiniert werden können, die sich maschinell auswerten lassen etc.

Grundsätzlich sind solche Herangehensweisen direkt auf den WARC-Files möglich. Da es sich hier aber um ein sehr spezielles Format handelt, das außerhalb der Webarchivierung nicht geläufig ist, bietet das AdsD neben pywb nun auch den Zugang über SolrWayback an.

SolrWayback ist eine Software, die von der Dänischen Königlichen Bibliothek entwickelt und betreut wird. In dieser Software werden archivierte Webseiten im WARC-Format volltextindexiert und über einen Solr-Server zur Verfügung gestellt. Die Indexierung erfolgt mittels des vom UK Web Archive entwickelten WARC-indexer, wobei der Index mit zusätzlichen Datenfeldern angereichert wird, die die nachfolgenden Nutzungsmöglichkeiten erweitern. Auf dieser Basis bietet SolrWayback zahlreiche Möglichkeiten zur Exploration des Webarchivs und für den Export an.
 

Volltextsuche, Filterung und Export

SolrWayback bietet auf dieser Grundlage zunächst einmal eine Volltextsuche auf den archivierten Webseiten. Dabei kann über die Suchsyntax über die Datenfelder die Suche z.B. auf bestimmte Zeiträume oder Domains eingeschränkt werden. Anhand dieser Datenfelder kann darüber hinaus auch gefiltert werden. Für die Suchergebnisse lassen sich die Datenfelder und die Metadaten aus dem WARC-File anzeigen. Außerdem können die Suchergebnisse exportiert werden. Zum einen ist es möglich, die Dateien als WARC-Dateien zu exportieren. Dabei werden auch die gefundenen Dateien wie z.B. Bilder mit in der WARC-Datei verpackt und können anschließend weiterverarbeitet werden, allerdings müssen Nutzer:innen dafür mit der WARC-Datei umgehen können. Zum anderen ist es aber auch möglich, die Inhalte als JSON- oder CSV-Datei zu exportieren – insbesondere Text-Inhalte können dann mit geeigneten anderen Tools, wie z.B. Voyant weiter ausgewertet werden.

Toolbox

Eine Auswahl an weiteren Tools und Methoden zur Exploration des Webarchivs bietet SolrWayback aber auch von sich aus an. Mittels der GPS Image Search lässt sich nach in Bildern eingebetteten GPS-Metadaten suchen. Über die Funktion der WordCloud lässt sich anhand der Auswertung von 100 zufällig ausgewählten Seiten einer Domain ein erster Eindruck von Schwerpunkten auf dieser Domain gewinnen. Außerdem kann man sich Statistiken zur Größe einer Domain ausgeben lassen anhand der Parameter der Dateigröße, der Anzahl eingehender Links und der Anzahl der Seiten auf der Domain.

[Bild: linkgraph-igm; Bildunterschrift: Linkgraph für die Domain igmetall.de, Rechte: AdsD / FES]

Einen Eindruck der Vernetzung einer Domain erhält man über die Generierung eines Linkgraphen. Über die Oberfläche von SolrWayback lassen sich nur Linkgraphen für eine einzelne Domain darstellen, es ist aber möglich, auch komplexere Anfragen als Graph für die Weiterverarbeitung in Gephi zu exportieren. Schließlich ist es auch noch möglich, sich anzeigen zu lassen, wie oft über einen definierten Zeitraum bestimmte Begriffe im Webarchiv auftauchen.

Zugang zum Webarchiv im AdsD

Aus urheberrechtlichen Gründen ist das Webarchiv des AdsD über pywb nur im Lesesaal vor Ort in Bonn einsehbar. Auch die Recherche auf der SolrWayback-Oberfläche ist nur vor Ort in Bonn möglich. Die Exporte aus SolrWayback oder je nach Nutzungszweck auch ganze WARC-Files können, sofern es durch Nutzungszweck und die Hinterlegerverträge gedeckt ist, aber als Nutzungskopie für die Auswertung auf den eigenen Rechnern der Nutzer:innen zur Verfügung gestellt werden.

Die neuen Such- und Exportmöglichkeiten auf dem Webarchiv, die SolrWayback bietet, sind die Grundlage für neue Formen des Forschungszugangs auf dem Webarchiv und damit nur ein Anfang für neue Fragestellungen und Ansätze. Wir freuen uns also auf rege Nutzung!

 

Annabel Walz


Denkanstoß Geschichte

140 Jahre Unfallversicherung – Entstehung, Wirkung und Bedeutung für die Arbeiter:innenbewegung

Darstellung der verschiedenen Aspekte der "Arbeiter-Versicherung" 1911 als Eiche, Wurzeln: Beiträge der Arbeitgeber und Arbeitnehmer, Krone: Krankenversicherung, Unfallsversicherung, Invalidenversicherung

Unser Gastautor Sebastian Knoll-Jung erläutert die Etablierung der Unfallversicherung im Jahre 1884 und dessen Entwicklung bis heute.


weitere Informationen

Gegen Rechtsextremismus! | Denkanstoß Geschichte

„Reichsbürger“ – ein scheinbar neues Phänomen mit langer Vorgeschichte

Junge Männer mit Reichskriegsflaggen, die mit einem Demonstrationszug durch den Wald gehen

Die Wurzeln der sogenannten Reichsbürger, die aktuell vor Gericht stehen, reichen weit zurück. Schon unmittelbar nach dem Ende des Nationalsozialismus…


weitere Informationen

Denkanstoß Geschichte

Der große Berliner Bierboykott von 1894

Vier Karikaturen zum Bierboykott aus dem "Wahren Jacob"

Der Berliner Bierboykott von 1894 war ein Arbeitskampf, der in seiner Bedeutung weit über das lokale Brauereigewerbe hinausging und die Öffentlichkeit…


weitere Informationen

Denkanstoß Geschichte

Das fortschrittliche Erbe der Ukrainischen Volksrepublik (1917-1921) - Teil 4: Sowjetische Ukraine oder demokratisch-sozialistische Ukraine?

Die Mitglieder des Generalsekretariats der Zentralna Rada am 5. Juli 1917. Stehend: Pawlo Chrystjuk, Mykola Stasjuk, Borys Martos. Sitzend: Iwan Steschenko, Chrystofor Baranowskyj, Wolodymyr Wynnytschenko, Serhij Jefremow, Symon Petljura (Quelle/Rechte: Wikimedia/public domain).

Mit einem Text von Vladyslav Starodubtsev über die Ukrainische Volksrepublik von 1917 bis 1921 setzen wir unsere Reihe über die ukrainische Geschichte…


weitere Informationen
nach oben