Diese Webseite verwendet Cookies
Diese Cookies sind notwendig
Daten zur Verbesserung der Webseite durch Tracking (Matomo).
Das sind Cookies die von externen Seiten und Diensten kommen z.B. von Youtube oder Vimeo.
Geben Sie hier Ihren Nutzernamen oder Ihre E-Mail-Adresse sowie Ihr Passwort ein, um sich auf der Website anzumelden.
SolrWayback, pywb, WARC! WAR ... Was? Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Unser neuer Blog-Beitrag erklärt, wie archivierte Webseiten im AdsD aussehen und wie ihr sie nutzen könnt.
Archivierte Webseiten sind bunt zusammengewürfelte, komplexe digitale Objekte, die aus einer Vielzahl von Formattypen in Zusammenspiel mit Metadaten entstehen und bestehen. Sie bieten deshalb auch eine Vielzahl an möglichen Nutzungsoptionen. Die Frage, was eine archivierte Webseite ist und wie man sie nutzt, füllt ganze Bücher. Hier soll es um die ganz praktische Frage gehen: Wie sehen die archivierten Webseiten im AdsD aus und wie kann man sie nutzen?
Im AdsD werden Webseiten per Crawling eingesammelt und im WARC-Format gespeichert. WARCs sind sogenannte Container-Dateien, also Dateien, in denen verschiedene Dateien gemeinsam verpackt werden. Bei WARCs sind das die Dateien, aus denen die Webseite ursprünglich zusammengesetzt war, zusammen mit den Metadaten, die bei der Sammlung angefallen sind. Zu den Metadaten gehört z.B. der genaue Zeitpunkt (bis auf die Millisekunde), zu dem die Datei aufgerufen worden ist, die URL und das „Gespräch“ zwischen Client und Host beim Aufruf der Seite. Die Dateien sind die HTML-Files, die den Aufbau der Seite und Teile der Inhalte beschreiben, außerdem die Inhalte, auf die die HTML-Seite verlinkt. Das können weitere HTML-Seiten sein, aber auch Textdateien wie Word- und PDF-Dokumente, Bilder, Töne, mitunter auch Videos. Im Prinzip kann sich in einem WARC jedes beliebige Datei-Format befinden. Die WARC-Dateien sind in der Regel große Dateien von ca. 1 GB.
Prinzipiell kann man eine WARC-Datei in einem Text-Editor öffnen. Die Metadaten lassen sich so auch von Menschen lesen. Im WARC enthaltene Dateien, die mit einem Text-Editor dargestellt werden können, wie z.B. HTML-Seiten, können hier ebenfalls gelesen werden, aber eben nur im Quelltext. Und spätestens bei Bildern, die im Text-Format nur noch ein Buchstabensalat sind, stößt dieser Zugangsweg an seine Grenzen. Mal ganz abgesehen von dem Problem, dass die meisten Text-Editoren bei Dateigrößen im Gigabyte-Bereich einfach abstürzen. Um archivierte Webseiten zu nutzen, braucht es also andere Wege.
Um sich eine Webseite ungefähr so darstellen zu lassen, wie sie ursprünglich zu sehen war, also als Webseite in einem Browser, muss man eine Replay-Software einsetzen. Im AdsD verwenden wir dafür pywb. Mittels dieser Software kann man nach einer URL suchen und sich anhand von Timestamps verschiedene im Archiv vorhandene Zeitschnitte dieser URL ansehen.
Die Darstellung im Browser funktioniert dabei nicht immer einwandfrei. Das kann zum einen daran liegen, dass schon im Prozess der Archivierung bestimmte Teile der Seite nicht gesichert werden konnten. Zum anderen kann es sein, dass der Browser zu neu ist und bestimmte in der Seite enthaltene Formate nicht mehr abspielen kann (oder darf) – so z.B. bei Flash-Inhalten. Solche Herausforderungen sind Fragestellungen für die Digitale Langzeitarchivierung von Webseiten – ein Lösungsansatz sind Browseremulationen.
Neben einer Darstellung „wie früher“ sind archivierte Webseiten aber auch offen für ganz andere Formen der Darstellung und Auswertung, zumal es sich um mit Metadaten angereicherte, strukturierte Dateien handelt. Objekte, die digital vorliegen, müssen nicht so betrachtet werden, wie sie ursprünglich konzipiert waren. Archivierte Webseiten sind zunächst einfach nur (strukturierte) Daten, die man filtern kann, die mit anderen Daten kombiniert werden können, die sich maschinell auswerten lassen etc.
Grundsätzlich sind solche Herangehensweisen direkt auf den WARC-Files möglich. Da es sich hier aber um ein sehr spezielles Format handelt, das außerhalb der Webarchivierung nicht geläufig ist, bietet das AdsD neben pywb nun auch den Zugang über SolrWayback an.
SolrWayback ist eine Software, die von der Dänischen Königlichen Bibliothek entwickelt und betreut wird. In dieser Software werden archivierte Webseiten im WARC-Format volltextindexiert und über einen Solr-Server zur Verfügung gestellt. Die Indexierung erfolgt mittels des vom UK Web Archive entwickelten WARC-indexer, wobei der Index mit zusätzlichen Datenfeldern angereichert wird, die die nachfolgenden Nutzungsmöglichkeiten erweitern. Auf dieser Basis bietet SolrWayback zahlreiche Möglichkeiten zur Exploration des Webarchivs und für den Export an.
SolrWayback bietet auf dieser Grundlage zunächst einmal eine Volltextsuche auf den archivierten Webseiten. Dabei kann über die Suchsyntax über die Datenfelder die Suche z.B. auf bestimmte Zeiträume oder Domains eingeschränkt werden. Anhand dieser Datenfelder kann darüber hinaus auch gefiltert werden. Für die Suchergebnisse lassen sich die Datenfelder und die Metadaten aus dem WARC-File anzeigen. Außerdem können die Suchergebnisse exportiert werden. Zum einen ist es möglich, die Dateien als WARC-Dateien zu exportieren. Dabei werden auch die gefundenen Dateien wie z.B. Bilder mit in der WARC-Datei verpackt und können anschließend weiterverarbeitet werden, allerdings müssen Nutzer:innen dafür mit der WARC-Datei umgehen können. Zum anderen ist es aber auch möglich, die Inhalte als JSON- oder CSV-Datei zu exportieren – insbesondere Text-Inhalte können dann mit geeigneten anderen Tools, wie z.B. Voyant weiter ausgewertet werden.
Eine Auswahl an weiteren Tools und Methoden zur Exploration des Webarchivs bietet SolrWayback aber auch von sich aus an. Mittels der GPS Image Search lässt sich nach in Bildern eingebetteten GPS-Metadaten suchen. Über die Funktion der WordCloud lässt sich anhand der Auswertung von 100 zufällig ausgewählten Seiten einer Domain ein erster Eindruck von Schwerpunkten auf dieser Domain gewinnen. Außerdem kann man sich Statistiken zur Größe einer Domain ausgeben lassen anhand der Parameter der Dateigröße, der Anzahl eingehender Links und der Anzahl der Seiten auf der Domain.
[Bild: linkgraph-igm; Bildunterschrift: Linkgraph für die Domain igmetall.de, Rechte: AdsD / FES]
Einen Eindruck der Vernetzung einer Domain erhält man über die Generierung eines Linkgraphen. Über die Oberfläche von SolrWayback lassen sich nur Linkgraphen für eine einzelne Domain darstellen, es ist aber möglich, auch komplexere Anfragen als Graph für die Weiterverarbeitung in Gephi zu exportieren. Schließlich ist es auch noch möglich, sich anzeigen zu lassen, wie oft über einen definierten Zeitraum bestimmte Begriffe im Webarchiv auftauchen.
Aus urheberrechtlichen Gründen ist das Webarchiv des AdsD über pywb nur im Lesesaal vor Ort in Bonn einsehbar. Auch die Recherche auf der SolrWayback-Oberfläche ist nur vor Ort in Bonn möglich. Die Exporte aus SolrWayback oder je nach Nutzungszweck auch ganze WARC-Files können, sofern es durch Nutzungszweck und die Hinterlegerverträge gedeckt ist, aber als Nutzungskopie für die Auswertung auf den eigenen Rechnern der Nutzer:innen zur Verfügung gestellt werden.
Die neuen Such- und Exportmöglichkeiten auf dem Webarchiv, die SolrWayback bietet, sind die Grundlage für neue Formen des Forschungszugangs auf dem Webarchiv und damit nur ein Anfang für neue Fragestellungen und Ansätze. Wir freuen uns also auf rege Nutzung!
Annabel Walz
Ein Exemplar des seltenen Katalogs der SPD-Parteibibliothek – ein brauner Halblederband im Quartformat mit 412 Seiten – erhielt sich im Besitz des…
Am 23. Oktober 1974 wurde im Presse-Dienst des DGB-Landesbezirkes Saar die Schaffung eines Interregionalen Gewerkschaftsrats (IGR) für den…
Das Projekt „HAMREA – Hamburg rechtsaußen“ untersucht rechtsextreme Gewalt und Aktionsformen in, mit und gegen städtische Gesellschaft von 1945 bis…
Rudolf Breitscheid war der profilierteste sozialdemokratische Außenpolitiker in der Weimarer Republik. Er engagierte sich lebenslang für den…