Donnerstag, 17. November 2005

Erblämmerer - Risiken und Nebenwirkungen von Google Print

Was Bill Gates mit dem Erwerb der Bilddatenbank Corbis (65 Millionen Aufnahmen) recht ist, das soll Google offenbar billig sein. Zwar werden die vielen Bilder nicht wirklich ihnen gehören, aber die neuen Daten-Napoleone Sergey Brin und Lawrence Page sind offensichtlich dennoch wild entschlossen, das digitale Äquivalent der Bibliothek von Alexandrien zu schaffen. Das nötige Kleingeld dazu ist nach dem Börsengang reichlich vorhanden, da liegt sogar locker ein Learjet in der Grössenordnung einer Boeing 767 als Privatflugzeug drin.

Die Rede ist von Google Print, dem mit dem Google Book Library Project vorangetriebenen Vorhaben, ganze Bibliotheken mittels OCR-Programmen zu digitalisieren und elektronisch durchsuchbar zu machen.

Verleger und Autoren sind gar nicht erfreut ob dieser Entwicklung (vgl. die Artikel US-Autorenverband verklagt Google: Verletzung von Urheberrechten sowie US-Verlegerverband macht Front gegen Google Print). Sie befürchten in ähnlichem Überlebenskampf zu enden wie die Musikindustrie. Ihre Argumente:

Die Werke der Autoren seien den Bibliotheken nur zur Einsicht der Benutzer verkauft worden und nicht für eine kommerzielle Verwendung, hieß es in der im September eingereichten Klage der Autorengilde (Authors Guild) beim Bezirksgericht Manhattan. Mit der Übernahme eines Buchs in eine Bibliothek werde dieses nicht zum Teil einer frei verfügbaren "Public Domain". Die Erstellung von elektronischen Kopien der Bücher bedeute eine massive und fortgesetzte Copyright-Verletzung, schreibt das österreichische Blatt "Die Presse" unter Verwendung eines Textes der Austria Presse Agentur (APA).

Trotz dieser vielstimmigen Aufschreie ist das Projekt in vollem Gange. Google-Exponent Hölzle beteuert derweil in der NZZ vom 11. November: «Google Print wird nur Gewinner und keine Verlierer haben». Unterdessen hat Microsoft Witterung aufgenommen und plant bereits ein Konkurrenzangebot zu Google Print. Es herrscht offensichtlich Goldgräberstimmung.

Erblämmerer?

Das Projekt läuft tatsächlich. Die Fortschritte sind unter Google Book Search BETA abfragbar.
Search the full text of books (and discover new ones), lautet der Lockruf. In diesem Fall zu ergänzen mit "and very old ones too". Denn als ich heute "mein" Stichwort ("Weiach", was sonst?) eingetippt hatte - einen Alert gibt's da leider noch nicht - erschien ein ganz wunderlicher Eintrag (klicken zum Vergrössern):


"Front Cover" angeklickt. Es erscheint ein in marmoriertem Papier gehaltener Umschlag mit einem Signaturaufkleber: B 1,579,963. Auf der nächsten Seite: Zwei "Ex Libris"-Vignetten, eine von Clemens Friedrich Meyer. Deutsche Sprache und Literatur N.° 431 [Zahl handschriftlich eingetragen]. Und eine grössere der Library of the University of Michigan. Offenbar der heutige Besitzer.

Risiken und Nebenwirkungen

Wenn man etwas in dem über 150 Jahre alten gescannten Werk blättert, wird schnell klar, dass der Lämmerer ein Kämmerer ist.

Risiko Nummer 1: die OCR-Software, zumal solche die auf US-English trainiert ist - sie hat offensichtlich keine höheren Weihen in Deutsch erhalten.

Fazit: Wenn die Software von GooglePrint schon "walach" (in der Zeitschrift für vergleichende Sprachforschung auf dem Gebiete der indogermanischen Sprachen) und "wetsch" (in: Embedded V-To-C in Child Grammar: The Acquisition of Verb Placement in Swiss German) zu "Weiach" macht, wie oft kommt es dann wohl vor, dass ein tatsächlich im Text stehendes "Weiach" als etwas anderes erkannt wird und mir daher mit diesem Suchbegriff durch die Lappen geht?

Euphorie ist also nicht angezeigt. Ohne massive manuelle Nachbearbeitung wird dieses Projekt immer nur ein höchstens nach statistischen Kriterien zuverlässiger Wegweiser durch die Fachliteratur bleiben. Da wird auch Google nicht drum herumkommen. Wie alle anderen Digitalisierungsprojekte auch- vom Zedler über den Adelung bis zur NZZ.

Dann auf die Seite 108 gehüpft und einen Textzusammenhang gefunden, der aus einem Urbar stammen muss und irgendwie nicht zu einem angeblichen Ein- und Ausgabenregister passen will. Hatte Conrad von Weinsberg tatsächlich 1437/38 noch die Aufgabe, für den König (der damals ein Habsburger war) Steuern von habsburgischem Streubesitz u.a. in der Schweiz einzuziehen?

Spannend. Von Seite 108 nach vorne geblättert. Seite 105 der Titel "XXIII. OFFITIUM KLOTEN". Moment mal... Seitenzahl über 100? Wo doch das Buch angeblich nur 95 hat? (siehe Bild oben). Da kann etwas wirklich nicht stimmen.

Des Rätsels Lösung: die früher übliche Praxis mehrere Lieferungen aus demselben Hause zu einem Band zusammenzubinden. Und so kommen wir zu

Risiko Nummer 2: Das beschränkte Wissen der Google-Programmbastler über frühere Praktiken im Archiv- und Bibliothekswesen.

Fazit: Scannen allein reicht nicht. Das Programm muss auch noch erkennen, wenn zwei verschiedene Werke zusammengebunden wurden. Nicht alles was nach Monographie aussieht ist auch eine.

Unmöglich sollte das nicht sein. So geht es im selben Dokument nach Seite 96 wieder mit den Seiten i, ii etc. weiter und diesmal erscheint nach dem Vorblatt " Bibliothek des Literarischen Vereins in Stuttgart XIX, 1850"der richtige Titel: "Das Habsburg.-Oesterreichische Urbarbuch. Herausgegeben von Dr Franz Pfeiffer" Stuttgart 1850. Gewidmet unter anderem zwei bekannten Schweizer Geschichtsgelehrten aus dieser Zeit: dem Luzerner Joseph Eutych Kopp und dem Zürcher Staatsarchivar Gerold Meyer von Knonau.

Habsburger Urbar

Die Ussidelinge in Wiach (vgl. Seiten 107/108) sind also doch nicht der Zeit nach dem Herrschaftsantritt der Zürcher in der Grafschaft Kyburg (1424) zuzuordnen. Sondern dem Zeitraum der Aufnahme des altbekannten Habsburgischen Urbars in den ersten Jahren des 14. Jahrhunderts, etwa um 1303 und spätestens 1311.

Noch etwas gelernt: Die Edition in den Quellen zur Schweizer Geschichte. Bände 14, 15/1, 15/2. erschienen in Basel im Jahre 1904, ist nicht die älteste. Die Württemberger waren viel früher dran.

Kommentare:

WG(n) hat gesagt…

Wenn man ganz genau sein will, dann war erst ab 1438 wieder ein Habsburger an der Macht: Albrecht II. war König von 1438-1439. Aber immerhin verwandt mit seinem Vorgänger auf dem Thron des Heiligen Römischen Reiches Deutscher Nation. Er hatte nämlich 1421 die Tochter des Sigismund von Luxemburg geheiratet. Dieser war ab 1410 deutscher König und von 1433-1437 Kaiser.

WG(n) hat gesagt…

Google Books (wie Google Print mittlerweile genannt wird) macht Fortschritte. Zumindest beim Stichwort Weiach werden Treffer, die mit Volltext oder zumindest guten Auszügen versehen sind, auf den vorderen Rängen der Trefferliste gezeigt, solche ohne Ausrisse oder in polnischer und holländischer Sprache auf den hinteren. Selbst aus dem Erblämmerer ist mittlerweile ein Erbkämmerer geworden.