Diese Webseite verwendet Cookies
Diese Cookies sind notwendig
Daten zur Verbesserung der Webseite durch Tracking (Matomo).
Das sind Cookies die von externen Seiten und Diensten kommen z.B. von Youtube oder Vimeo.
Geben Sie hier Ihren Nutzernamen oder Ihre E-Mail-Adresse sowie Ihr Passwort ein, um sich auf der Website anzumelden.
Annabel Walz Archiv der sozialen Demokratie Friedrich-Ebert-Stiftung
0228 883-8056AdsD.digital(at)fes.de
Das Archiv der sozialen Demokratie archiviert Netzquellen seit Ende der 1990er Jahre. Die Auswahl der archivierten Quellen wie auch die Technik, die dafür eingesetzt worden ist, hat sich im Laufe der Jahre verändert. Aktuell sammelt das AdsD ausgewählte Webseiten der SPD und der Gewerkschaften. Die Grenzen der Webseite werden darüber definiert, dass die Unterseiten einer bestimmten Domain gesichert werden, also z.B. alle Seiten, die mit www.spd.de beginnen. In der Bibliothek werden zudem Pressemitteilungen von Parteien und Gewerkschaften weltweit eingesammelt und bereitgestellt.
Aufgrund der zunehmenden Bedeutung der sozialen Medien in der politischen Kommunikation hat das AdsD zwischen Herbst 2021 und Frühjahr 2023 ausgewählte Twitter-Kanäle archiviert. Das Twitterarchiv umfasst 37 Twitterkanäle der SPD und der Gewerkschaften, die jeweils ab der Erstellung des Kanals bis Ende Februar 2023 gesichert worden sind. Da der Netzwerkcharakter ein besonderes Distinktionsmerkmal für die sozialen Medien darstellt, sind bei der Archivierung auch die Antworten auf die abgesetzten Tweets gesichert worden.
Es gibt verschiedene Wege, um Webseiten zu sichern, wobei es darauf ankommt, was genau von einer Gedächtnisinstitution als bewahrenswert definiert wird. Bei den Webseiten ist es Ziel der Archivierung im AdsD, auch Verlinkung und Look-and-Feel der ursprünglichen Webseite zu erhalten. Dazu werden sogenannte Crawler bzw. Harvester eingesetzt, eine Software, die nach definierten Regeln Links verfolgt und das Vorgefundene speichert. Da sich die Webseitentechnologie beständig weiterentwickelt, müssen auch die Crawler ständig weiterentwickelt und angepasst werden.
Aktuell wird im AdsD für die meisten Webseiten der Crawler Heritrix (Version 3.4) eingesetzt. Da bei einzelnen Webseiten diese Crawls zu unvollständig sind, wird für solche Seiten der browsertrix-crawler verwendet. Die Speicherung erfolgt in beiden Fällen im WARC-Format, einem speziell für die Webarchivierung entwickelten Container-Format. Weitere Details zum Prozess der Webarchivierung finden sich in diesem Blog-Beitrag. Der Heritrix-Crawler erstellt während des Prozesses der Archivierung außerdem Log-Dateien, anhand derer sich der Verlauf des Einsammelns der Webseite nachvollziehen lässt.
Für die Twitter-Archivierung verwendete das AdsD ein vom Landschaftsverband Westfalen-Lippe in Zusammenarbeit mit dem Stadtarchiv Münster entwickeltes Skript, das auf der Software twint basiert. Beim Sicherungsvorgang wurde hier eine JSON-Datei gespeichert, die den Inhalt des Tweets, aber auch Metadaten wie die Anzahl der Likes und den genauen Datumsstempel enthält. Zusätzlich wurden die angehängten Bilder gespeichert. Das Look-and-Feel der Social-Media-Plattform wurde dagegen nicht erhalten.
Die archivierten Webseiten und Social-Media-Kanäle können im Lesesaal des AdsD über die zur Verfügung gestellten Rechner eingesehen werden. Dabei werden die Webseiten über die Software pywb dargestellt, so dass man in den Webseiten Links wie üblich nachverfolgen kann, sofern der Link auf Material verweist, das sich im Webarchiv befindet. Die archivierten Twitterkanäle können monatsweise über die Oberfläche des Webarchivs aufgerufen werden. Aus urheberrechtlichen Gründen ist beides nur im Lesesaal vor Ort möglich. Für die archivierten Webseiten ist über die Software SolrWayback auch eine Volltextsuche möglich.
Bei archivierten Webseiten und Social-Media-Quellen handelt es sich um strukturierte Daten, die bereits zahlreiche Metadaten eingebettet enthalten. Als solche sind sie besonders gut für maschinell gestützte Auswertungsmethoden geeignet. SolrWayback bietet dabei z.B. auch die Möglichkeit, Datensets im CSV- oder JSON-Format zu exportieren. Zusätzlich ist je nach Nutzungsabsicht auch der Einblick in Log- und Reportdateien der Crawls notwendig. Wenn dies für die Nutzung notwendig ist, können Nutzer_innen deshalb auch digital vollständige Kopien der WARC-Dateien bzw. von Datensets sowie der bei der Archivierung entstandenen Umfeld-Dateien erhalten, sofern dies durch die Verträge mit den Hinterleger_innen ermöglicht wird.
Im Nachgang zum Workshop „Zwischen Link-Graphen und Paragraphen – Archivierung und Nutzung von Netz-Quellen“ am 25. Oktober 2022 in der FES wurde ein Email-Listenverteiler initiiert. Ziel ist es, theoretische Perspektive und praktische Ansätze spartenübergreifend aus Gedächtniseinrichtungen zusammenzubringen. Zudem werden Nutzungs- und Forschungsansätze mit vorgestellt und hieraus resultierende Anforderungen diskutiert. Der Email-Verteiler steht allen Interessierten zum Austausch über diese Themen offen. Halbjährlich finden zudem Videokonferenzen mit Vorträgen und Zeit für Diskussionen weiterer Themen statt. Anmeldung zum Verteiler: webarchivierung-subscribe(at)mailing.fes.de