Unterlagen zum Modul Digitale Bibliothek

Internet-Ressourcen-Logistik I


von Margarete Payer

mailto: payer@hdm-stuttgart.de


Zitierweise / cite as:

Payer, Margarete <1942->: Unterlagen zum Modul Digitale Bibliothek : Internet-Ressourcen-Logistik I. -- Fassung vom 2004-10-20. -- URL: http://www.payer.de/digitalebibliothek/digbib01.htm

Erstmals publiziert:  In Bearbeitung [2002-11-30]

Überarbeitungen: 2004-10-20 [Ergänzungen]

Anlass: Lehrveranstaltung im Masterstudiengang Bibliotheks- und Medienmanagement an der HdM Stuttgart, 2002/03 und Lehrveranstaltung Information Engineering WS 04/05 in den Studiengängen Bibliotheks- und Medienmanagement und Informationswirtschaft     

Unterrichtsmaterialien (gemäß § 46 (1) UrhG)

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Herausgeberin.

Dieser Text ist Teil der Abteilung Informationswesen, Bibliothekswesen, Dokumentationswesen  von Tüpfli's Global Village Library.


0. Übersicht



1. Aufbau einer [guten] digitalen Sammlung


1.1. Vorbemerkung


Es geht im Folgenden um digitale Sammlungen von Bibliotheken, Dokumentationsstellen, Firmen und Einzelpersonen.

Heutige digitale Sammlungen sind aus unterschiedlichen Gründen entstanden: [u.a.]

z.B. Dieter E. Zimmer. URL: http://www.zeit.de/digbib/ . -- Zugriff am 2002-10-30

z.B. Bibliotheca universalis. URL: http://www.ddb.de/gabriel/bibliotheca-universalis/index.htm . -- Zugriff am 2002-04-30

z.B. OPUS

z.B. Angebote von Nationalbibliotheken, u.a. www.bl.uk

z.B. Digitale Bibliothek NRW


1.2. Was ist unter einer "guten" digitalen Sammlung zu verstehen?


Vgl. für das Folgende:

A framework of guidance for building good digital collections  / by the Digital Library Forum, a group convened by the Institute of Museum and Library Services. -- November 6, 2001. -- URL: http://www.imls.gov/pubs/forumframework.htm . -- Zugriff am 2002-06-16

und:

DESIRE information gateways handbook. -- Print version, last updated: 26 April 00. -- URL: http://www.desire.org/handbook/print4.html . -- Zugriff am 2002-10-30

Gemäß des Rahmenwerkes wird eine digitale Sammlung definiert als ein ausgewählter und geordneter Satz von digitalen Objekten, die mit Metadaten beschrieben sind. Dazu gibt es mindestens eine Schnittstelle für den Zugang.

Sie orientiert sich am Nutzer, bringt relevante Inhalte,  ist gut zugänglich.

Außerdem wird gefordert, dass im Kontext eines internationalen Netzwerkes  Nachnutzung, Dauerhaftigkeit, Verifizierung und Dokumentation  gewährleistet werden. Es müssen Mechanismen eingebaut werden, die das Copyright einhalten lassen.

Ob eine Sammlung gut ist, kann immer nur in Hinblick auf ihren Zweck gesagt werden. Es ist auch ein Unterschied in der Beurteilung, ob es sich um digital-entstandene Ressourcen ("born-digital")  oder um nachträglich digitalisierte Materialien handelt.

Folgende Prinzipien sind wichtig:

Als Prinzipien für gute Objekte (Ressourcen) kann man Folgendes aufführen:

 

Bei Firmen zeichnet sich eine "gute" digitale Sammlung durch Folgendes aus:


1.3. Die digitalen Objekte


1.3.1. Arten digitaler Objekte


Man kann die Objekte technisch unterscheiden nach

  1. offline-zugänglichen Texten (z.B. auf CD-ROM) . Es ist zu klären, wieweit man diese Texte online-zugänglich machen will und darf.
  2. online-zugänglichen Texten:

Man kann die digitalen Objekte nach ihrer Herkunft  unterscheiden in kommerzielle Objekte (als Netzressourcen und als Ressourcen auf CD-ROMs), frei zugängliche Internetressourcen, selbst digitalisierte Ressourcen (auf Grund von Print- und ähnlichen Materialien) und digitale betriebliche Ressourcen. In der Realität gibt es allerdings fließende Übergänge, so kann eine zur Zeit frei zugängliche kostenfreie Ressource eines Verlags im Internet morgen eine zu bezahlende Ressource sein und umgekehrt. Auch die selbst digitalisierten Ressourcen können für eine andere Institution zu einer teuren Ressource werden, wenn die erstellende Institution Geld dafür verlangt.

  1. Kommerzielle Objekte (im allgemeinen mit Kosten verbunden) sind Erzeugnisse und werden angeboten von:
  2. Objekte nichtgewerblicher Anbieter (mit vollen Kosten, mit Gebühren, mit Spenden oder kostenlos)
  3. Selbst zu erstellende Materialien
  4. Digitale betriebliche Ressourcen (digitale Akten)

1.3.2. Auswahlkriterien


Entscheidend für Auswahlkriterien sind die ins Auge gefassten Nutzer. Man unterscheidet 5 Arten von Nutzern:

Auswahlkriterien für Online-Ressourcen (remote access) [vgl. auch das schon vorher gesagte zu der Auswahl nach den Sammelrichtlinien] (Diese Auswahlkriterien sind in erster Linie für eine aktuelle digitale Bibliothek gedacht, Auswahlkriterien für die Langzeiterhaltung unterliegen teilweise anderen Anforderungen.)

  1. Auswahl bezüglich der Kosten (einmalig, laufend, Verhältnis Qualität - Kosten)
  2. Auswahl bezüglich der Lizenzen (Frage: sind die Lizenzbedingungen so, dass ich die Ressource meinen Nutzern ohne große Probleme anbieten kann?)
  3. Auswahl nach Qualität (je eindeutiger die Zielgruppe zu beschreiben ist, desto klarer sind die Qualitätskriterien zu definieren: sind die Objekte qualitätsvoll für meine Nutzergruppe? zur Zielgruppe s. auch Endres S. 144ff.

    für wissenschaftliche Bibliotheken s. Payer, Margarete: Wie kann man die Qualität von Internetressourcen für den wissenschaftlichen Bereich beurteilen? -- Fassung vom 1997-06-07. -- URL: http://www.payer.de/einzel/infoq.html
     

  4.  Anbieten von nur digital vorliegenden Quellen z. B. Daten vom Marsflug

Auswahlkriterien für zu digitalisierende Materialien

Neben den oben genannten Punkten kommen hier einige weitere dazu, die unter Umständen die oben genannten Punkte bezüglich der Qualität auch relativieren können.

S. z.B. die Beziehung Nutzerart zu zu digitalisierenden Objekten: Market segments and their information needs / Colorado Digitization Project. -- 1999. - URL: http://coloradodigital.coalliance.org/users.html. -- Zugriff am 2002-10-30 :

  1. Bessere Nutzungsmöglichkeit als Aspekt der Auswahl:
  2. Erhaltung des kulturellen Erbes
  3. Erhaltung der Quellen

1.4. Digitale Publikationen als Pflichtexemplare in der DDB?


Bisher ist Pflichtablieferung gesetzlich nur für digitale Publikationen auf physischen Trägern vorgesehen. Im Vorgriff auf ein erweitertes Gesetz sammelt die DDB seit 1998 Online-Dissertationen und -Habilitationen. Seit 2002 sammelt sie aufgrund einer Rahmenvereinbarung mit dem Deutschen Börsenverein freiwillig abgelieferte Netzpublikationen. Es geht vor allem auch darum, Erfahrungen mit Netzpublikationen zu sammeln, um ein gutes Gesetz zu erarbeiten. [Im folgenden werden die Texte auf der Homepage der DDB ausgewertet, insbesondere aus http://deposit.ddb.de  Zugriff am 2003-12-08]

Als besondere Aufgabe der DDB wird angesehen:

Die Richtlinien für die Sammlung dieser Materialien sehen u. a. vor:

Kooperation mit anderen Pflichtexemplarsbibliotheken ist geplant

Benutzung:

Es ist ein Verfahren für die Ablieferung ausgearbeitet worden.


1.5. Elektronische Zeitschriften


Definition:     ein fortlaufendes digitales "Sammelwerk, dessen einzelne Teile mehr oder weniger regelmäßig mindestens zweimal im Jahr erscheinen und im         allgemeinen mehrere Beiträge enthalten" (RAK-WB § 10)

Arten:

Inhaltliche Unterscheidung:

Hersteller:

Kosten:

Erwerbung mit Hilfe von:

Erwerbungsart:

Lizenzvertrag als

Was wird erworben?

Erschließung:

in ZDB, nachgewiesen in der EZB (Problem der Integration der Aufsatzdaten)

Bekanntmachen des Angebots:

Nutzung:

Fernleihe:

Problem: darf aus einer E-Zeitschrift eine Papierkopie für die Fernleihe gemacht werden, wenn nur noch die e-Ausgabe in Deutschland vorhanden ist? Laut H. Müller: man darf. vgl. Müller, Harald: Ausdrucke aus E-Journals im Leihverkehr : Urheberrecht bei elektronischen Zeitschriften. - In: Bibliotheksdienst. - 36(2002)3. - S. 321 -  329

Ort der Langzeitarchivierung


1.6. Digitalisierung


Die Digitalisierung der gewünschten Unterlagen kann manuell oder automatisch mit Hilfe von Scannern geschehen.

Da Abschreiben und Korrigieren sehr teuer ist, gibt es zwei Wege:

Wir gehen heute eher von Einscannen aus.

Bei den Scannern ist die Frage der Auflösung wichtig, sollte man von der Druckqualität abhängig machen (z.B. Bücher aus der DDR müssen meist mit 600 dpi gescannt werden). Bei guter Druckqualität reichen 300 dpi, sollten Lesefehler damit häufig sein (z.B. "c" statt "e", "m" statt "rn"), dann 600 dpi. In den USA verlangt man zur Weiterverarbeitung mindestens 400 dpi.

Zu prüfen ist auch die Frage nach der Farbtiefe: (1 bit per Pixel), je nach Vorlage benötigt man 16 oder 256 Graustufen).

Man unterscheidet bei Scannern:

Dazu gehört die Scan- und Bildbearbeitungssoftware :

Zum Standard gehört, dass die üblichen Retuschen automatisch ausgeführt werden, wie z.B. Schatten von Falz und Rand entfernen, den Kontrast verbessern, Drehen, Ausrichten, vergilbten Hintergrund unterdrücken.

Durch das Einscannen erhält man ein Image. (Das Image kann vom Buch direkt oder über eine Verfilmung hergestellt werden.)

Als Dateiformat für das Image sollten Standardformate gewählt werden. Für den digitalen Master wird bei bitonalen Vorlagen das TIFF-Rasterformat empfohlen. Die LoC empfiehlt für Handschriften und wertvolle Drucke unkomprimiertes TIFF (eine DIN-A4-Seiteschwarz/weiß bei 400 dpi Auflösung  verbraucht circa 2 MB!). Zum Speichern wird man doch komprimieren. Bei uns empfiehlt man als Format PNG = Portable Network Graphics, da das Programm zur Komprimierung von TIFF und GIF proprietär ist.

Obwohl ein Image sehr viel Speicherplatz braucht und keine guten Suchmöglichkeiten anbietet, wird man bei einigen Materialien wie Handschriften und alten Drucken die Daten als Image anbieten, weil man die Originalfassung zeigen will. Außerdem ist bei solchen Materialien (dazu gehören auch stark verschmutzte Vorlagen, Texte mit sehr uneinheitlichem Schriftsatz...) eine Texterkennungssoftware oft nicht (oder noch nicht) sinnvoll einsetzbar. Um trotzdem bessere Suchmöglichkeiten anzubieten, wird empfohlen mindestens das Inhaltsverzeichnis suchbar zu gestalten. Es gibt auch Angebote einen  ASCII-Text zu erstellen und zu zeigen, der dann zwar sehr fehlerhaft ist, aber eine gewissen Suche nach einzelnen Worten zuläßt.

Erfassung durch Texterkennungssoftware:

Wir unterscheiden  zwei unterschiedliche Ansätze zur Erkennung :OCR = Optical Character Recognition und ICR = Intelligent Character Recognition:

  1. bei OCR geht es um einen Mustervergleich (man kann die Buchstabenmuster mit der Software einüben)
  2. Bei ICR geht es um eine Merkmalanalyse, d. h. typische Merkmale eines einzelnen Zeichens werden erfasst.

Gute Software arbeitet kontext- und sprachabhängig, d.h. je nach Sprache wird ein Punkt als diakritisches Zeichen berücksichtigt oder als Fliegendreck interpretiert.

Die Trefferquoten können bis zu 99% gehen (d. h. aber, dass 20 Fehler auf einer Manuskriptseite mit 2000 Zeichen stehen (bei 70% sind es schon 600 bis 800 Fehler). Will man gute Qualität anbieten, darf man auf Korrekturlesen nicht verzichten.

Nach dem Erstellen des ASCII-Textes folgt die Strukturbeschreibung des Dokumentes. Es geht dabei um die formatunabhängige Kennzeichnung bzw. Markierung von distinktiven strukturellen Elementen eines Textes wie Überschrift, Absatz (logische Struktur). Zum Einsatz kann SGML (vgl. American Memory der LoC, die eine DTD für digitalisierte historische Dokumente entwickelt hat), TEI (Text Encoding Intitiative mit SGML-konformen DTDs für die Wiedergabe verschiedener Textsorten wie Lyrik, Drama, Prosa, XML oder auch PDF (Portable Document Format) kommen.

Jedem Text sollte man die Erschließungsdaten beifügen: traditionelles Katalogisat, Angaben der technischen Daten wie z.B. die Auflösung, Angaben zur Struktur.

Die meisten Angaben zur Digitalisierung wurden entnommen aus:

Retrospektive Digitalisierung von Bibliotheksbeständen : Berichte der von der Deutschen Forschungsgemeinschaft einberufenen Facharbeitsgruppen "Inhalt" und "Technik" / Deutsches Bibliotheksinstitut. -- Berlin, 1997. -- 98 S. -- (DBI-Materialien ; 166 : Schriften der Deutschen Forschungsgemeinschaft) -- ISBN 3-87068-966-8

Im Anhang des genannten Buches wird der Aufwand und die Kosten für das Erfassen eines heutigen Standardbuches untersucht mit u.a. :folgenden Festlegungen:

Zusammenfassung: Durchschnittlicher Aufwand für das Erfassen des Standardbuches

Bibliothek
Arbeitsschritt Bibliothek Dienstleister Total
Auswahl der zu erfassenden Bücher 5 Minuten   5 Minuten
Bibliothekarische Vorbereitung 20 Minuten   20 Minuten
Technische Vorbereitung   8 Minuten 8 Minuten
Indexierung   5 Minuten 5 Minuten
Erfassung   30-60 Minuten 30-60 Minuten
Nachbearbeitung   10-60 Minuten 10-60 Minuten
Text-Erfassung Inhaltsverzeichnis / Kapitelüberschriften 10-60 Minuten 10-60 Minuten 10-60 Minuten
Text-Erfassung Register 20-120 Minuten 20-120 Minuten 20-120 Minuten
Permanente Speicherung   4 Minuten 4 Minuten
Endkontrolle, Abnahme 10 Minuten   10 Minuten
Schlussdokumentation 5 Minuten   5 Minuten
Total     127-357 Minuten
Zusätzliche Volltexterfassung 20-100 Stunden 20-100 Stunden 20-100 Stunden

Ohne die Erfassung des gesamten Volltextes erfordert das Verfilmen, Scannen, Indexieren, Texterfassung von Inhaltsverzeichnis/Kapitelüberschriften und Registern und Abspeichern auf CD-R einen Arbeitsaufwand von - je nach gewählter Vorgehensweise - 2 bis 6 Stunden. Die Bandbreite ergibt sich vor allem aus der unterschiedlichen Art der Texterfassung.


Zu Kapitel 2: Langzeitarchivierung