Die Wayback Machine, das Gedächtnis des World Wide Webs

Was war auf facebook.com, bevor Mark Zuckerberg die Domain kaufte? Wie sah die Kronenzeitung im Jahr 2001 aus? Diese Fragen lassen sich noch heute beantworten – dank der Wayback Machine, dem größten Webarchiv der Welt. Doch ausgerechnet jetzt, wo ihre Bedeutung unbestritten ist, gerät das Projekt unter Druck: Große Medienhäuser blockieren das Archiv, Journalistinnen und Journalisten weltweit schlagen Alarm.

Was ist die Wayback Machine?

Die Wayback Machine ist ein kostenloser, öffentlicher Dienst der Non-Profit-Organisation „Internet Archive“, einer gemeinnützigen digitalen Bibliothek mit Sitz in San Francisco, die sich über Spenden finanziert.

Seit 1996 archiviert sie automatisch Schnappschüsse von Websites und macht diese dauerhaft abrufbar. Der Name ist eine Anspielung auf die Zeitmaschine aus dem US-Zeichentrickfilm The Rocky and Bullwinkle Show. Bisher wurden über eine Billion Einzelseiten gespeichert. Hier als Beispiel der ORF: Ersten Archivierung am 15. April 1997, gespeichert bis 14. April 2026 rund 230.000-mal.

So funktioniert die Zeitreise

Unter web.archive.org gibt man eine beliebige URL ein und wählt aus einem Kalender, welcher historische Zustand angezeigt werden soll. Per Klick springt man von Datum zu Datum und sieht, wie sich eine Website über Monate oder Jahrzehnte verändert hat. Besonders aufschlussreich für alle, die sich mit Content-Management oder Webgeschichte beschäftigen: Domains, die heute milliardenschwere Plattformen sind, hatten früher völlig andere Besitzer und Inhalte. facebook.com etwa gehörte einem Softwareunternehmen namens AboutFace Corporation, das Intranet-Software entwickelte – lange bevor Zuckerberg die Domain 2005 für 200.000 Dollar kaufte. – Seine Platform hieß am Anfang Thefacebook.

Wayback Machine Facebook Speicherstände
Die Wayback Machine für die Domain facebook.com
Facebook Website 2001
Facebook Website 2001
Wayback Machine TheFacebook.com
Thefacebook.com – 2004

Wofür wird die Wayback Machine eingesetzt?

Die Einsatzmöglichkeiten gehen weit über nostalgische Zeitreisen hinaus. Im Journalismus lassen sich gelöschte Artikel, geänderte Regierungsseiten oder entfernte Unternehmensaussagen rekonstruieren. Zahlreiche Quellenangaben in Wikipedia verlinken auf Snapshots aus der Wayback Machine, um sogenannte „tote Links“ zu ersetzen und die Nachvollziehbarkeit von Belegen langfristig zu sichern. Auch in rechtlichen Auseinandersetzungen können archivierte Versionen von AGBs, Produktbeschreibungen oder Werbetexten relevant sein.

Wie notwendig das Archiv ist, zeigt eine Studie des Thinktanks Pew Research Center von 2024: Rund ein Viertel aller untersuchten Einzelseiten aus dem Zeitraum 2013 bis 2023 waren zum Zeitpunkt der Untersuchung nicht mehr erreichbar. Artikel verschwinden aus Kostengründen, durch Unternehmensfusionen oder schlichte Serverabschaltungen – oft spurlos und endgültig. „Internet Archive“ ist eine der wenigen Initiativen, die diese Lücken systematisch schließt.

Das Paradox: Medienhäuser blockieren ihr eigenes Gedächtnis

Hier liegt die aktuelle Brisanz: Große Medienhäuser wie die New York Times, der Guardian und die Financial Times hindern das Internet Archive zunehmend daran, ihre Inhalte zu archivieren. Technisch geschieht das über die robots.txt, eine freiwillige Textdatei, die Websitebetreiber im Stammverzeichnis ihres Servers ablegen können. Sie legt fest, welche automatisierten Dienste eine Seite besuchen dürfen. Verbindlich ist das allerdings nicht. Jeder Crawler kann die Anweisungen der robots.txt einfach ignorieren.

Der Hintergrund für die aktuelle Blockierungswelle ist der Boom rund um KI-Sprachmodelle. Die Medienhäuser vermuten, dass Unternehmen wie OpenAI oder Anthropic über das Archiv auf Volltexte zugreifen – ohne dafür Lizenzen zu erwerben. Die Ironie dabei ist kaum zu übersehen: Viele dieser Medienhäuser sind selbst auf die Inhalte der Wayback-Machine angewiesen. Die US-Zeitung USA Today blockiert das Archiv – und wurde gleichzeitig von der Zeitschrift Wired zitiert, die genau mithilfe der Wayback Machine einen gelöschten USA-Today-Artikel über die US-Einwanderungsbehörde ICE rekonstruiert hatte. Mark Graham vom Internet Archive, verantwortlich für die Wayback Machine, kommentierte das trocken als ein bisschen paradox.

Protest und offener Brief

Am 14. April 2026 unterzeichneten über 100 Journalistinnen und Journalisten einen offenen Brief, initiiert von Organisationen wie der Electronic Frontier Foundation (EFF) und Fight for the Future. Sie warnen: Ohne die kontinuierliche Archivierungsarbeit wären große Teile der jüngeren Mediengeschichte bereits unwiederbringlich verloren. Graham formulierte die Konsequenz klar: Eine zunehmende Abschottung des öffentlichen Internets würde die Fähigkeit der Gesellschaft beeinträchtigen, zu verstehen, was in unserer Welt vor sich geht.

Viele Websites, die vor der Gründung der „Internet Archive“ im Jahr 1996 bereits wieder offline gegangen sind, gelten als für immer verloren. Sollte das Archiv durch großflächige Blockierungen zunehmend unvollständig werden, drohen dauerhafte Lücken und die Historie wird schwerer nachvollziehbar.

Links und weiterführende Quellen