Datenbankaufbau : Skript

dblogo.jpg

Laufkäfer, Käferdatenbank South Kensington

Kapitel 7: Formate in bibliographischen Datenbanken


von Margarete Payer & Alois Payer

(mailto: payer@hdm-stuttgart.de


Zitierweise / cite as:

Payer, Margarete <1942 - >: Datenbankaufbau : Skript / Margarete Payer & Alois Payer. -- Kapitel 7: Formate in bibliographischen Datenbanken. -- Fassung vom 2009-03-14. -- URL:  http://www.payer.de/dbaufbau/dbauf07.html. -- [Stichwort].

Überarbeitungen: 1997-05-15; 2001-05-27; 2002-05-14; 2009-03-14

Anlass: Lehrveranstaltungen an der HdM Stuttgart; MALIS (FH Köln)

Unterrichtsmaterialien (gemäß § 46 (1) UrhG)

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Verfasserin.

Dieser Text ist Teil der Abteilung Datenbankaufbau von Tüpfli's Global Village Library


7.0. Übersicht



7.1. Warum braucht man ein Format?


Die Antwort ergibt sich aus der Frage, was ist ein Format?

Als Format bezeichnet man die Absprachen (Konventionen)
  • zur Erfassung
  • maschinellen Interpretation (z.B. Nichtsortierzeichen)
  • und Verarbeitung von Katalogisierungsdaten (z.B. wie soll ein Ausdruck aussehen, wie soll eine Bildschirmanzeige aussehen u.ä.)

7.2. Formatarten


Für die Bearbeitung unterscheidet man Intern- und Externformat:

In der Anwendung unterscheidet man Institutionen spezifische Formate, Austauschformate (nationale und internationale) und "Verbundformate".


7.3. Grundlage für ein Format


Grundlage für ein Format ist das jeweilige Regelwerk für die Erschließung (formale und sachliche Erschließung).

Ein Regelwerk schreibt mindestens vor:
  • welche Informationen erfasst werden müssen (die Elemente und ihre Reihenfolge sind in den ISBD's festgelegt)
  • welche Zugangspunkte angeboten werden sollen (Eintragungen usw.)
  • in welcher Form diese Zugangspunkte angeboten werden sollen (Ansetzungsfragen)

Darauf aufbauend entwickelt man ein Pflichtenheft:

Ein Pflichtenheft enthält u.a. Anweisungen für den
  • Programmierer, insbesondere muss aufgeführt werden:
    • welche Elemente müssen erfassbar sein?
    • welche Elemente müssen suchbar sein?
    • welche Verknüpfungen sind verlangt?
    • wie soll geordnet werden?
  • Für den OPAC ist zusätzlich ein Pflichtenheft zu erstellen: u.a.
    • für die Anzeige der Daten auf dem Bildschirm
    • für die Benutzerführung
    • für Hilfsbildschirme

7.4. Aufbau von Formaten und Folgen für den Datenaustausch


Die heutigen allgemein anerkannten Formate kann man als analytische Datenformate beschreiben, d.h. die Titelaufnahmen sind in elementare Kategorien oder Felder aufgeteilt. Anders ausgedrückt: die Titelaufnahme ist in einzelne Elemente aufgeteilt, die je eine sachliche Einheit darstellen.

Die Abfolge der Elemente wird unterschiedlich gehandhabt. Grundsätzlich kann man sich an der Reihenfolge in einer Titelaufnahme nach ISBD und mit traditionellen Köpfen und Nebeneintragungen orientieren wie die MARC-Formate. Man kann aber auch sachlich zueinander passende Elemente in Segmenten anordnen wie MAB (Maschinelles Austauschformat für Bibliotheken, das deutsche Austauschformat) und wie UNIMARC (das internationale Austauschformat). Diese Abfolge ist für einen Datentausch unerheblich.


Schwierig wird es erst für den Austausch, wenn ein Format in einem Feld oder in einem Unterfeld mehrere bibliographische Elemente zusammenfasst, wie es MARC tut. MAB nimmt pro variablem Feld im allgemeinen nur ein bibliographisches Element

z.B. Feld 245 in USMARC ohne Unterscheidung, was der Paralleltitel ist, und MAB mit einem eigenen Feld für den Paralleltitel.

Es ist auch unterschiedlich festgelegt, ob eine Aufnahme in einem Datensatz oder in mehrere aufgeteilt werden soll. So werden in US-MARC sämtliche Angaben zum mehrbändigen Werk in einem Satz angegeben, MAB bildet in solchen Fällen mehrere zueinandergehörende Sätze (Hauptsätze, Untersätze und in MAB 1 Nachsätze); diese Sätze stehen in einem hierarchischen Verhältnis zueinander (im Nachsatz standen Ansetzungsformen für Nebeneintragungen von beigefügten und enthaltenen Werken). UNIMARC ist flexibel.

Neben diesen Problemen für die Umsetzung muss man u.a. noch fertig werden mit unterschiedlichen Zeichencodes, unterschiedlichen Steuerzeichen (z.B. Nichtsortierzeichen) und unterschiedlichen Verknüpfungsstrukturen. (Die größten Probleme für den Austausch bereiten allerdings nicht die Formate sondern die dahinterliegenden Regelwerke.)

Die allgemein anerkannten Formate orientieren sich heute im allgemeinen an nationalen bzw. internationalen Normen. Unabdingbar für einen Austausch ist das Einhalten bestimmter Vorschriften (Protokolle) -- heute oft noch eine normierte Struktur der Daten auf Magnetbändern, mehr und mehr aber normierte Strukturen für den Austausch über File transfer. Dafür wurde die ISO Norm 2709 Documentation -- Format for bibliographic information interchange on magnetic tape (vgl. DIN 1506) entwickelt.

Danach bestehen die Datensätze je aus 3 Teilen:

Record label (wie der Vorspann zu einem Film) enthält die für die Identifizierung und Bearbeitung des Satzes wichtigen Angaben und solche Daten, die im direkten Zugriff stehen sollen z.B. Länge des Satzes der laufenden Identifikationsnummer der Austauscheinheit


Inhaltsverzeichnis wie Seitenangabe in einem Buch. (MAB 2 verzichtet inzwischen auf das Inhaltsverzeichnis.)

Quelle: Magnetband-Austauschformat für Dokumentationszwecke : MADOK. - München, 1977. - S. 16


Variable Datenfelder

Quelle: Magnetband-Austauschformat für Dokumentationszwecke : MADOK. - München, 1977. - S. 16


Übereinstimmend ist damit die logische und physikalische Gliederung der bibliographischen Daten, aber wie oben schon angedeutet nicht die Struktur des Dateninhalts.


Beispiele aus einem MARC-record:

(¶=Feldendezeichen)

Leader: 0-23

00515namØØ2200145ØØØØØØØ

Directory: 24-144

001001300000008004100013050001800054082001600072100002300088 usw.

Variable data fields:


7.5. Kriterien bei der Auswahl eines Formats



7.6. Welche Formate?


Es geht hier um die Formate, die sich durchgesetzt haben. Abgesehen von den selbstgestrickten Formaten für Kleinstanwender sind das die internationalen Austauschformate (Formatfamilie MARC und das offizielle internationale Austauschformat UNIMARC), die nationalen Austauschformate (z.B. MAB  für deutsche und österreichische RAK-Anwender) und die Spezialformate der Verbünde, die aber im allgemeinen eine Weiterentwicklung eines nationalen oder internationalen Formats sind.


7.6.1. US-MARC


MARC (machine-readable cataloging)[Das Concise Format findet man unter:  http://www.loc.gov/marc/ Zugriff am 2001-05-25] wird seit 1966 von der LoC benutzt, um ihre Daten per Magnetband an Bibliotheken zu senden. Die Bibliotheken nutzten diese maschinenlesbaren Daten zum Druck von Kartenkatalogen, Listenkatalogen, Bibliographien u.ä. Diese Ausrichtung auf den Kartenkatalog haben die amerikanischen MARC-Formate heute noch. Die LoC hat im Laufe der Zeit für verschiedene Materialien je verschiedene MARC-Formate entwickelt, und zwar entsprechend den AACR für

Dieses MARC-Format wurde bekannt als LC-MARC und läuft heute unter dem Namen US-MARC. Die MARC-Formate der großen US-Verbünde -- OCLC-MARC, RLIN-MARC, WLN-MARC -- sind voll kompatibel mit US-MARC, daher war die Übernahme dieser Verbünde durch OCLC erheblich erleichtert. Anfang der 80er Jahre wurde das Format an AACR2 angeglichen. Damit sind gleichzeitig die Forderungen der ISBD's erfüllt.

Seit 1996 wird Integrated MARC eingesetzt. Es handelt sich um eine Zusammenfassung der nach Materialien getrennten MARCFormate, da es teilweise schwierig war, eine Vorlage einem bestimmten Format zuzuordnen z.B. was nimmt man, wenn die Vorlage eine Zeitschrift in Mikroform ist?

US-MARC ist vor allem dadurch so interessant, weil damit große Datenbestände erfasst sind -- nämlich nicht nur die Daten der LoC, sondern auch die Datenbank von OCLC, zur Zeit etwa 100 Millionen Titel (mit unzähligen Millionen von Bestandsnachweisen).


7.6.2. UK-MARC


UK-MARC (United Kingdom) wurde von der British Library (BL) für die British National Bibliography entwickelt, und gerade in dieser speziellen Zielsetzung liegen dann auch die Unterschiede zu US-MARC.

Seit 1968 unterlag UK-MARC ebenfalls einigen Änderungen: so musste es an AACR2 und die ISBD's sowie für die Aufnahme weiterer Materialien angepasst werden. Man hat dabei auf die Einführung internationaler Standards geachtet, um besser austauschen zu können.

Die Unterschiede zwischen US-MARC und UK-MARC bestehen u.a. darin, dass UK-MARC weiter untergliedert. Z.B. werden Paralleltitel in einem eigenen Unterfeld angegeben (245 subfield $k). Auch sieht UK-MARC im Unterschied zu US-MARC hierarchisch gegliederte mehrbändige Werke (analytische Levels) vor. s. UK-MARC Manual p. 5/76 und p. 5/35 multilevel description.


7.6.3. MARC 21


Seit etwa 1996 bemühte man sich darum, die unterschiedlichen MARC-Fassungen der USA, Kanadas und Großbritannien in Übereinstimmung zu bringen. Z.B. hat man sich inzwischen auf gleiche Codes geeinigt (z.B. den Alpha-3-Code genommen). Auf der Grundlage eines harmonisierten CAN/MARC - USMARC-Formats wurde inzwischen das UK-MARC eingeschlossen. Man erwartet, dass weitere MARC-Formate entsprechend überarbeitet werden. Die National Library of Canada begann mit dem Einsatz 1999, die LoC im Januar 2000 und die BL  2001. Im Laufe des Jahres 2009 wird MARC 21 als Austauschformat für die deutschen Verbünde und die DNB übernommen.

Eine hervorragende Einführung in MARC 21 findet man unter dem Titel:

 Understanding MARC bibliographic : machine-readable cataloging / written by Betty Furrie in conjunction with the Data Base Development Department of The Follett Software Company. - 7. ed. - Washington, D.C. : Library of Congress, 2003. - URL: http://www.loc.gov/marc/umb/  . - Zugriff  am 2009-03-14.


7.6.4. INTERMARC


Neben einer ganzen Reihe von weiteren nationalen MARC-Formaten (z.B. CanMARC für Canada oder MalMARC für Malaysia) muss INTERMARC hervorgehoben werden, weil man mit diesem Format versuchte, ein allgemeines Austauschformat für Westeuropa zu schaffen. Entwickelt wurde dieses Format von Frankreich, Belgien und der Schweiz unter Beteiligung weiterer westeuropäischer Länder. Angewendet wird INTERMARC letztendlich nur von der Bibliotheque Nationale, Paris, und zwar seit 1975. 1980 beschloss man, INTERMARC soweit wie möglich an das neue internationale Format UNIMARC anzupassen, wodurch ein Datenaustausch zwischen den beiden Formaten sehr erleichtert wurde. INTERMARC sieht übrigens Verknüpfungen zwischen bibliographischer Beschreibung und Normansetzungen vor.


7.6.5. UNIMARC


Ab Mitte der 70er Jahre begann die IFLA das Austauschformat UNIMARC [UNIMARC bibliographic und UNIMARC authorities findet man in kompletter und in verkürzter Form unter: http://www.ifla.org/VI/3/p1996-1/sec-uni.htm Zugriff am 2001-05-25] zu entwickeln. Es sollte die Voraussetzung für ein internationales MARC-Netzwerk sein. Man schlug damals vor, dass Nationalbibliotheken mit bestehenden Formaten Programme entwickeln, mit denen ihre Daten in UNIMARC umgesetzt werden können, bzw. dass Nationalbibliotheken, die neu anfangen, UNIMARC selbst oder eine eigene Anpassung an UNIMARC nutzen. Praktisch kann man heute von einer ganzen Reihe von nationalen bibliographischen Zentren Daten in UNIMARC erhalten, z.B. aus den USA, Frankreich, Deutschland (Die Deutsche Bibliothek ab Januar 1992). Mehrere  Nationalbibliotheken nutzen UNIMARC als eigenes Erfassungsformat: z.B. Portugal, Griechenland, Indien.

Mit UNIMARC können die zur Zeit in Bibliotheken gängigen Materialien katalogisiert werden, also auch Karten, Musikalien, Tonträger, Graphika, AV-Materialien. Felder für Computerfiles sind vorgesehen. Das Format ist für viele Regelwerke anwendbar, setzt allerdings die Anwendung der verschiedenen ISBD's voraus. UNIMARC schreibt aber nicht die Form der Ansetzung vor (die Köpfe), weil in diesem Punkt die nationalen Regelwerke weit auseinandergehen. Damit man aber auch z.B. Namensansetzungen austauschen kann, sollte zusammen mit UNIMARC das UNIMARC format for authorities angewendet werden. Dieses ist erst 1991 fertiggestellt worden. Ein UNIMARC-Datenformat für Klassifikationen ist zur Zeit in Bearbeitung.

Um auch für kleinere Institutionen flexibel in der Anwendung zu bleiben, hat UNIMARC nur wenige Pflichtfelder. Mindestens muss folgendes belegt sein:

Struktur:

Das Format ist gemäß ISO 2709 (Format for Bibliographic Information Interchange) strukturiert:

In jeder Titelaufnahme werden 4 Teile unterschieden:

Das, was wir als eigentliche Titelaufnahme bezeichnen würden, findet im Teil variable data fields statt. Zur Zeit handelt es sich dabei um 141 Felder. Ein solches variable field beginnt immer mit zwei Stellen, den Indikatoren. Indikatoren geben zusätzliche Informationen zum Datenfeld. Das können auch oft, z.B. bei Fußnoten, Leerstellen sein.

Da in allen MARC-Formaten die Felder nochmals in Unterfelder unterteilt sind, folgt auf die Indikatoren die Bezeichnung für das erste Unterfeld.


Beispiel für ein variables Datenfeld in UNIMARC

Ø1$aSmith$bDavid$d1901-


Durch diese Unterfelder kann man einzelne Elemente im Feld direkt ansprechen.

Neben diesen variablen data fields gibt es die variablen control fields . Sie unterscheiden sich von den data fields dadurch, dass es keine Unterfelder und keine Indikatoren gibt. Zur Zeit gibt es nur zwei Felder dieser Art, allerdings ist das Pflichtfeld mit der Identifikationsnummer (record identifier) darunter.

Jedes variable Feld wird durch ein Feldendezeichen beendet. Vorausgehen muss diesen variablen Feldern das directory (Inhaltsverzeichnis): hier werden die dreistelligen Feldnummern eingetragen, zusätzlich wird angegeben, wie lange das Feld ist, und wo es anfängt.

Durch dieses vom eigentlichen Feld getrennte directory erreicht man, dass die Feldlänge flexibel ist. Außerdem ermöglicht das directory einen schnelleren Zugriff auf das einzelne Element der Titelaufnahme und ein schnelleres Laden.

Den festen Feldern des directory geht ein festes Feld mit dem record label (Satzkennung) voraus. Der ISO-Norm entsprechend werden hier Aussagen über die Struktur der Aufnahmen gemacht, z.B. die Länge der Indikatoren. Es wird auch angegeben, wo die variablen Felder beginnen.

Mit dem directory und dem genannten Teil des record label, muss sich der Titelaufnehmer nicht beschäftigen: das erledigt das Computerprogramm. Der zweite Teil des record label muss allerdings vom Katalogisierer eingegeben werden: angegeben werden muss:


Gliederung des Formats UNIMARC:


Das Format ist in Segmente -- die sogenannten Blöcke -- aufgegliedert. Jeweils in einem 100er-Block werden inhaltlich zusammengehörige Dinge zusammengefasst. Z.B. sind im 700er-Block alle beteiligten Personen und Körperschaften vermerkt.

Die generelle Blockstruktur ist folgende:

0-- Identifikation (identification block) (z.B. ISBN, Nationalbibliographie-Nummer usw.)


Nach den Erfahrungen mit INTERMARC muss man sich fragen, wie weit UNIMARC sich wohl durchsetzen kann.

In den IFLA-Unterlagen setzt man voraus, dass UNIMARC eingesetzt wird. Immerhin haben sich die EG-Bibliotheken 1991 in Florenz entschlossen, UNIMARC zum gemeinsamen Austauschformat zu nehmen. Außerdem ist eine auf UNIMARC basierende CD-ROM erschienen, die gemeinsame Daten der sieben Nationalbibliotheken von Dänemark, Deutschland, Frankreich, Großbritannien, Italien, Niederlande und Portugal enthält. Im Jahr 2000 haben 22 Institutionen UNIMARC als Austauschformat eingesetzt, 10 als Internformat und 17 werden als sonstige Anwender bezeichnet.

Um UNIMARC international zu unterstützen, wurde im Sommer 1991 ein Permanent UNIMARC Committee of the IFLA UBCIM Programm gebildet. In diesem Committee ist u.a. auch die LoC vertreten. Der ständige Sitz dieses IFLA Programmes ist seit einiger Zeit in der National Library of Portugal: URL: http://unimarc.net Zugriff am 2009-03-13

Sehr wichtig erscheint mir, dass in UNIMARC eine Katalogisierung für reine Online-Kataloge vorgesehen ist: so kann man auf die Unterscheidung von Haupt- und Nebeneintragungen verzichten.


7.6.6. MAB


Das Maschinelle Austauschformat für Bibliotheken hat seine Anfänge in der Deutschen Bibliothek ab 1973. Seit 1996 - nach einer durchgreifenden Revision - wird MAB als MAB2 verbreitet.

 MAB ermöglicht den Austausch von bibliographischen Daten, Norm- und Lokaldaten. MAB2 war u.a. nötig geworden, um den Tausch in Online-Umgebungen zu ermöglichen. Ein MAB2-Datensatz besteht nur noch aus der Satzkennung (allgemeine Verarbeitungsinformationen z.B. Satzlänge und allgemeine Angaben zum Inhalt des Datensatzes z.B. ob es sich um eine neue Aufnahme handelt) und den variablen Datenfeldern.

Die variablen Datenfelder bestehen aus der Feldkennung, einem Indikator, den variablen Daten und dem Feldendezeichen. Je nach dem Inhalt des Feldes können diese Felder wiederholbar sein, Unterfelder (wie in den MARC-Formaten) und Teilfelder haben und obligatorisch sein.

MAB2 besteht aus fünf Formaten:

  1. MAB-Titel
  2. MAB-PND
  3. MAB-GKD
  4. MAB-SWD (Schlagwortnormdatei)
  5. MAB-LOKAL

Dazu kommen die provisorischen Teile: MAB-ADRESS (Adressen und Bibliotheksdaten) und MAB-NOTAT (Klassifikation und Notation). Vgl.: URL: http://www.d-nb.de/standardisierung/formate/mab.htm Zugriff am 2009-03-13

Die fünf Formate findet man in einer Online-Kurzreferenz-Version mit Stand November 2001 unter URL: ftp://ftp.ddb.de/pub/mab/titelmab.txt  . - Zugriff vom 2009-03-13. Diese Version bietet eine aktuelle, inhaltliche Übersicht einschließlich der jeweiligen Indikatoren und Kodierungen.

Als Besonderheit bei MAB sind die unterschiedlichen Satzarten zu nennen. In MAB 2 handelt es sich  um den Hauptsatz (=h), den Untersatz (=u) und den Exemplarsatz (=e; Lokaldaten für ein Werk). Ein Hauptsatz ist ein selbständiger Datensatz oder der oberste Datensatz in einer Hierarchie.  Während der Hauptsatz  sich auf die Titelaufnahme einbändiger Werke, auf Stücktitel und Gesamtaufnahmen bezieht, ist der Untersatz für die Bandaufführung mehrbändiger Werke und fortlaufender Sammelwerke zu nehmen. Namensdatensätze, Schlagwortdatensätze, Lokaldaten und Pauschalverweisungsdatensätze sind ebenfalls Hauptsätze.

Gegenüber MARC 21 zeichnet sich MAB durch die schon im Format gegebenen Verknüpfungsmöglichkeiten aus, wodurch die Anforderungen der FRBR leichter erfüllt werden können:

  1. können mit Haupt- und Untersätzen bibliographische hierarchische Strukturen abgebildet und verknüpft werden (z.B. mehrbändige begrenzte Werke mit Bandaufführung, fortlaufende Sammelwerke mit Bandaufführung)
  2. können in MAB-Titel weitere Beziehungen unterschiedlicher Datensätze durch Verknüpfung hergestellt werden (Stücktitel - Gesamttitel; unselbständig erschienenes Werk - selbständig erschienenes Werk; reziproke/nichtreziproke Beziehungen zwischen Werkenz.B. bei Parallelausgaben)

Zu Kapitel 8: Datenbanken in Kommunikationsnetzen (In Vorbereitung)