Die FES wird 100! Mehr erfahren

Archivierte Webseiten mit pywb und SolrWayback nutzen

SolrWayback, pywb, WARC! WAR ... Was? Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Unser neuer Blog-Beitrag erklärt, wie archivierte Webseiten im AdsD aussehen und wie ihr sie nutzen könnt.

Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Sie bieten deshalb auch eine Vielzahl an möglichen Nutzungsoptionen. Die Frage, was eine archivierte Webseite ist und wie man sie nutzt, füllt ganze Bücher. Hier soll es um die ganz praktische Frage gehen: Wie sehen die archivierten Webseiten im AdsD aus und wie kann man sie nutzen?

Was ist eine archivierte Webseite?

Im AdsD werden Webseiten per Crawling eingesammelt und im WARC-Format gespeichert. WARCs sind sogenannte Container-Dateien, also Dateien, in denen verschiedene Dateien gemeinsam verpackt werden. Bei WARCs sind das die Dateien, aus denen die Webseite ursprünglich zusammengesetzt war, zusammen mit den Metadaten, die bei der Sammlung angefallen sind. Zu den Metadaten gehört z.B. der genaue Zeitpunkt (bis auf die Millisekunde), zu dem die Datei aufgerufen worden ist, die URL und das „Gespräch“ zwischen Client und Host beim Aufruf der Seite. Die Dateien sind die HTML-Files, die den Aufbau der Seite und Teile der Inhalte beschreiben, außerdem die Inhalte, auf die die HTML-Seite verlinkt. Das können weitere HTML-Seiten sein, aber auch Textdateien wie Word- und PDF-Dokumente, Bilder, Töne, mitunter auch Videos. Im Prinzip kann sich in einem WARC jedes beliebige Datei-Format befinden. Die WARC-Dateien sind in der Regel große Dateien von ca. 1 GB.

Prinzipiell kann man eine WARC-Datei in einem Text-Editor öffnen. Die Metadaten lassen sich so auch von Menschen lesen. Im WARC enthaltene Dateien, die mit einem Text-Editor dargestellt werden können, wie z.B. HTML-Seiten, können hier ebenfalls gelesen werden, aber eben nur im Quelltext. Und spätestens bei Bildern, die im Text-Format nur noch ein Buchstabensalat sind, stößt dieser Zugangsweg an seine Grenzen. Mal ganz abgesehen von dem Problem, dass die meisten Text-Editoren bei Dateigrößen im Gigabyte-Bereich einfach abstürzen. Um archivierte Webseiten zu nutzen, braucht es also andere Wege.
 

Archivierte Webseiten „so wie sie waren“

Um sich eine Webseite ungefähr so darstellen zu lassen, wie sie ursprünglich zu sehen war, also als Webseite in einem Browser, muss man eine Replay-Software einsetzen. Im AdsD verwenden wir dafür pywb. Mittels dieser Software kann man nach einer URL suchen und sich anhand von Timestamps verschiedene im Archiv vorhandene Zeitschnitte dieser URL ansehen.

Die Darstellung im Browser funktioniert dabei nicht immer einwandfrei. Das kann zum einen daran liegen, dass schon im Prozess der Archivierung bestimmte Teile der Seite nicht gesichert werden konnten.  Zum anderen kann es sein, dass der Browser zu neu ist und bestimmte in der Seite enthaltene Formate nicht mehr abspielen kann (oder darf) – so z.B. bei Flash-Inhalten. Solche Herausforderungen sind Fragestellungen für die Digitale Langzeitarchivierung von Webseiten – ein Lösungsansatz sind Browseremulationen.

Archivierte Webseiten als Daten

Neben einer Darstellung „wie früher“ sind archivierte Webseiten aber auch offen für ganz andere Formen der Darstellung und Auswertung, zumal es sich um mit Metadaten angereicherte, strukturierte Dateien handelt. Objekte, die digital vorliegen, müssen nicht so betrachtet werden, wie sie ursprünglich konzipiert waren. Archivierte Webseiten sind zunächst einfach nur (strukturierte) Daten, die man filtern kann, die mit anderen Daten kombiniert werden können, die sich maschinell auswerten lassen etc.

Grundsätzlich sind solche Herangehensweisen direkt auf den WARC-Files möglich. Da es sich hier aber um ein sehr spezielles Format handelt, das außerhalb der Webarchivierung nicht geläufig ist, bietet das AdsD neben pywb nun auch den Zugang über SolrWayback an.

SolrWayback ist eine Software, die von der Dänischen Königlichen Bibliothek entwickelt und betreut wird. In dieser Software werden archivierte Webseiten im WARC-Format volltextindexiert und über einen Solr-Server zur Verfügung gestellt. Die Indexierung erfolgt mittels des vom UK Web Archive entwickelten WARC-indexer, wobei der Index mit zusätzlichen Datenfeldern angereichert wird, die die nachfolgenden Nutzungsmöglichkeiten erweitern. Auf dieser Basis bietet SolrWayback zahlreiche Möglichkeiten zur Exploration des Webarchivs und für den Export an.
 

Volltextsuche, Filterung und Export

SolrWayback bietet auf dieser Grundlage zunächst einmal eine Volltextsuche auf den archivierten Webseiten. Dabei kann über die Suchsyntax über die Datenfelder die Suche z.B. auf bestimmte Zeiträume oder Domains eingeschränkt werden. Anhand dieser Datenfelder kann darüber hinaus auch gefiltert werden. Für die Suchergebnisse lassen sich die Datenfelder und die Metadaten aus dem WARC-File anzeigen. Außerdem können die Suchergebnisse exportiert werden. Zum einen ist es möglich, die Dateien als WARC-Dateien zu exportieren. Dabei werden auch die gefundenen Dateien wie z.B. Bilder mit in der WARC-Datei verpackt und können anschließend weiterverarbeitet werden, allerdings müssen Nutzer:innen dafür mit der WARC-Datei umgehen können. Zum anderen ist es aber auch möglich, die Inhalte als JSON- oder CSV-Datei zu exportieren – insbesondere Text-Inhalte können dann mit geeigneten anderen Tools, wie z.B. Voyant weiter ausgewertet werden.

Toolbox

Eine Auswahl an weiteren Tools und Methoden zur Exploration des Webarchivs bietet SolrWayback aber auch von sich aus an. Mittels der GPS Image Search lässt sich nach in Bildern eingebetteten GPS-Metadaten suchen. Über die Funktion der WordCloud lässt sich anhand der Auswertung von 100 zufällig ausgewählten Seiten einer Domain ein erster Eindruck von Schwerpunkten auf dieser Domain gewinnen. Außerdem kann man sich Statistiken zur Größe einer Domain ausgeben lassen anhand der Parameter der Dateigröße, der Anzahl eingehender Links und der Anzahl der Seiten auf der Domain.

[Bild: linkgraph-igm; Bildunterschrift: Linkgraph für die Domain igmetall.de, Rechte: AdsD / FES]

Einen Eindruck der Vernetzung einer Domain erhält man über die Generierung eines Linkgraphen. Über die Oberfläche von SolrWayback lassen sich nur Linkgraphen für eine einzelne Domain darstellen, es ist aber möglich, auch komplexere Anfragen als Graph für die Weiterverarbeitung in Gephi zu exportieren. Schließlich ist es auch noch möglich, sich anzeigen zu lassen, wie oft über einen definierten Zeitraum bestimmte Begriffe im Webarchiv auftauchen.

Zugang zum Webarchiv im AdsD

Aus urheberrechtlichen Gründen ist das Webarchiv des AdsD über pywb nur im Lesesaal vor Ort in Bonn einsehbar. Auch die Recherche auf der SolrWayback-Oberfläche ist nur vor Ort in Bonn möglich. Die Exporte aus SolrWayback oder je nach Nutzungszweck auch ganze WARC-Files können, sofern es durch Nutzungszweck und die Hinterlegerverträge gedeckt ist, aber als Nutzungskopie für die Auswertung auf den eigenen Rechnern der Nutzer:innen zur Verfügung gestellt werden.

Die neuen Such- und Exportmöglichkeiten auf dem Webarchiv, die SolrWayback bietet, sind die Grundlage für neue Formen des Forschungszugangs auf dem Webarchiv und damit nur ein Anfang für neue Fragestellungen und Ansätze. Wir freuen uns also auf rege Nutzung!

 

Annabel Walz


Aktuelle Beiträge

Demokratie, Engagement, Rechtsstaat, Kommunalpolitik | Demokratie | Denkanstoß Geschichte | Demokratie und Gesellschaft | Veranstaltung | Livestream-Veranstaltung

Willy-Brandt-Vortrag 2024 - „Freiheit in Zeiten des Wandels“ - Mit Wolfgang Thierse, Bundestagspräsident a. D.

Porträt Willy Brandts mit Logos der Veranstalter und dem Titel der Veranstaltung

10. Dezember, 18 Uhr c.t. | Universität Bonn und im Livestream

 


weitere Informationen

Denkanstoß Geschichte | Veranstaltung

Sozial. Demokratisch. Engagiert. 100 Jahre Friedrich-Ebert-Stiftung

Rot geschrieben 2025. Dahinter 1925 und darunter "Sozial. Demokratisch. Engagiert"

Auftaktveranstaltung zum 100-jährigen Jubiläum der FES | Donnerstag, 21. November 2024, 17.30 bis 19.45 Uhr | Friedrich-Ebert-Stiftung, Godesberger…


weitere Informationen

Flucht, Migration, Integration | Denkanstoß Geschichte | Veranstaltung

Die Optimistinnen

Grafik mit dem Cover von "Die Optmistinnen" und Angaben zu Titel, Ort und Zeit der Veranstaltung

Lesung und Gespräch mit Gün Tank über weibliche Arbeitsmigration |

09.10.2024 | 18.00–19:30 Uhr | Berlin


weitere Informationen
nach oben