Silver Server

Silver Server


Domaincheck! Internet-Adressen einrichten und verwalten.

SILVER 12

Juli 2007

Inhalt der Ausgabe


SILVER erscheint vierteljährlich auch in gedruckter Form. Bestellen Sie ein kostenloses Abo per E-Mail an:silver@sil.at

sil.at gestern

02-03-2000

26-03-2002

13-06-2003

02-04-2004

Der Autor

Franz Kratochvil (39) lebt in Wels und arbeitet als selbstständiger Internet-Berater in Oberösterreich und Wien. Schreibt unregelmäßig in SILVER über Internet-Themen.

Websites von gestern

Vier milliarden Seiten, drei Petabyte Information – mit dem „internet archive“ und der „wayback machine“ hat Brewster Kahle einen weltweiten einzigartigen Wissensspeicher geschaffen. Autor: Franz Kratochvil

Autor: Franz Kratochvil

 

Brewster Kahle ist ein Mann mit einer Mission: „universalen Zugang zu allem menschlichen Wissen schaffen“. Dieses ambitionierte Ziel verfolgt der 47jährige Informatiker aus San Francisco seit 1996 mit seinem Non-Profit-Unternehmen „Internet Archive“ (archive.org). Laut Kahle sind wir das „unseren Kindern schuldig“, denn: im Gegensatz zu „analoger“ Information, die man seit Menschengedenken sichtet, aufbewahrt und hütet, ist digitalisiertes Wissen (etwa Webseiten) nur allzu flüchtig. Aus diesem Grund entsteht seit Anbeginn des Internet Archive ein riesiges Datenarchiv, gespeist durch die Arbeit von Programmen (Robots), die Tag für Tag das Web durchstreifen, um Momentaufnahmen des Internet zu erstellen. Dieses Projekt nennt sich „The Wayback Machine“ (Zeitmaschine), die es möglich macht, „Internet-Zeitsprünge“ zu machen.

Einer „Web-Bibliothek“ gleich kann nach URLs gesucht und ein bestimmter Zeitraum der Vergangenheit simuliert werden. Websites befinden sich im steten Wandel (die durchschnittliche Lebensdauer einer Website ist 44 Tage), Dank der Wayback Machine geht trotzdem nichts verloren. Möglich wird die „Fütterung“ des Archivs zum einen durch die Unterstützung durch Stiftungen, Sponsoring, Auftragsarbeiten für Institutionen, aber auch durch die Kooperation mit dem kommerziellen Unternehmen „Alexa“ (einst von Kahle als Suchmaschine gegründet, später an Amazon verkauft). „Alexa“ sammelt die Daten, um diese kommerziell zu nutzen (etwa für die Alexa-Website-Rankings).

Bildtext: Die Wayback-Maschine listet alte Websites auf. Beispiel: www.sil.at

    Nach 6 Monaten – wenn der kommerzielle Nutzen für das Unternehmen nachlässt – werden die Daten dann dem Internet Archive überlassen. Dieses Modell der dualen Verwertung (kommerziell wie auch non-profit) bewährt sich seit den Anfangstagen.

 

BACKUP IN ALEXANDRIA
//// /// / //// /// /// ///////// //// /// / /// // /

Die Wayback Machine umfasst inzwischen rund 4 Milliarden Seiten, eine Kopie davon befindet sich in der Bibliothek von Alexandria, Ägypten, sozusagen als permanentes Backup. Doch das Archivieren von Websites war Kahle nicht genug, und so sammeln die Leute aus San Francisco inzwischen jede nur denkbare Form von digitalisierter Information: Tausende Tonaufnahmen, Filme, Texte, zusammengetragen aus den Archiven der Welt. Und so wird die Website des Internet Archive tatsächlich zu einer gewaltigen, inzwischen auf 3 Petabyte angewachsenen Ansammlung an digitalen Werken.

Viele davon sind mit der „Creative Commons“-Lizenz versehen, sind also für die Weiterverwendung freigegeben. In Partnerschaft mit dem Internet Archive entstand kürzlich auch das „European Archive“, das sich als „digitale Bibliothek für kulturelle Artefakte in digitaler Form“ definiert. Kooperationen wie diese (aber auch mit der Open Content Association) ermöglichen dem Internet Archive auch, im Bereich der Digitalisierung von Büchern ein starker Gegenpart zu den umstrittenen Ambitionen von Google zu sein.

Kahles Ziel, den Zugang zu „allem menschlichen Wissen“ zu ermöglichen, ist allerdings noch in weiter Ferne. Und das liegt nicht an den technischen Voraussetzungen und Möglichkeiten. Die Flut an Information steigt zwar kontinuierlich an, aber ebenso wird es immer preiswerter, diese auch zu speichern. In einer Überschlagsrechnung rechnet Kahle vor, dass die Komplettierung des digitalen Archives mit „einigen 100 Millionen Dollar“ zu machen wäre. Nicht wirklich viel, betrachtet man die Dimension des Projekts.

Die Probleme liegen nicht im Bereich der Technik, sondern vor allem an der Tatsache, dass weiterhin nur ein Bruchteil der benötigten Information in digitaler Form vorliegt. Unterschiedlich strenge Copyright-Bestimmungen stehen einer öffentlich frei verfügbaren, umfassenden Wissenssammlung zusätzlich im Wege. Und auch die Web-Archivierung, wie sie bisher durchgeführt wurde, stößt an Grenzen: so kann ein „Robot“ die Seiten nur so betrachten, wie dies ein anonymer Besucher tun würde. Die personalisierten Websites der neueren Generation (Stichwort: Web 2.0) gleichen eher dynamischen Anwendungen und präsentieren sich nicht mehr wie – vom Archivierungsroboter leicht zu lesende – Dokumente auf „Seiten“-Basis. Bedenklich auch der Verlust von brauchbaren Metadaten, von Hyperlinks, die den nötigen Kontext einer Publikation ausmachen können.

Das Internet-Archive-Projekt basiert eindeutig auf der Open-Source-Einstellung. Es wird betont, dass das Anliegen nicht allein die Sammlung aller digitalen Information ist, sondern auch bedeutet, diese auch „frei“ und „verfügbar“ zu erhalten. Das Internet Archive rettet also digitale Werke aus dem beständigen Informationsstrom und stellt diese geordnet zur Verfügung. Und das nicht mit musealem Charakter, sondern als „Toolbox“ für neue Kreationen.

Und das funktioniert auch jetzt schon großartig. Dafür braucht es auch gar nicht das „gesamte“ Wissen dieser Welt.    

  

Links

Website Internet Archive: www.archive.org

European Archive: www.europarchive.org

www.elektronischer-reporter.de/index.php/

 

Kontakt