MELVYL als Beispiel einer zentralen Datenbank für ein Hochschulnetz


von Margarete Payer

mailto: payer@hbi-stuttgart.de


Zitierweise / cite as:

Payer, Margarete <1942 - >: MELVYL als Beispiel einer zentralen Datenbank für ein Hochschulnetz. -- Fassung vom 17 Juni 1996. -- URL: http://www.payer.de/einzel/melvyl.htm. -- [Stichwort].

Anlaß: Vortrag, Herbst 1993

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Verfasserin.


0. Übersicht



1. Themastellung


[MELVYL ist eingetragenes Warenzeichen dder Regents of the University of California]


WWW-Page von MELVYL: URL: http://www.dla.ucop.edu/welcome.html

WWW-Page der Divison of Library Automation (DLA) der University of California: URL: http://www.dla.ucop.edu/dla1.html

Viele interessante Documente zu MELVYL sind per anonymes FTP erhältlich: s. http://www.dla.ucop.edu/dlaweb/dlaweb/ftp.html


Mein Thema lautet: MELVYL als Beispiel einer zentralen Datenbank für ein Hochschulnetz

Was muß man sich dabei unter einer zentralen Datenbank einer Hochschule vorstellen?

Für amerikanische Bibliothekare aber, für die es selbstverständlich ist, beim Ausfüllen von Lohnsteuerformularen zu helfen, Literaturlisten für einen einzigen Benutzer zusammenzustellen und sogar für einen Benutzer fremdsprachige Aufsätze zu übersetzen, ist es klar, daß es sich bei einer zentralen Hochschuldatenbank um eine zentrale Informationsvermittlungseinrichtung im breitesten Sinne handeln muß.

Bibliotheken in diesem amerikanischen Sinne vermitteln nicht nur Informationsvermittlungsstellen, sondern sie sind die zentralen Anlaufstellen für Informationen jeglicher Art.

Dabei ist eine Unterscheidung zwischen bibliothekarischen und dokumentarischen Informationen nicht mehr zeitgemäß. Da Bibliotheken in diesem informationistischen Sinne als Forschungs- und Studienfacilities für das Image einer Hochschule von zentraler Bedeutung sind, sollen möglichst viele relevante Informationen den Angehörigen der eigenen Institution entgeldfrei zur Verfügung gestellt werden können.

Etwas zum Begriff Datenbank: ich verwende diesen Begriff im Sinne von Henzler als Sammelbezeichnung für Informationsbank und Informationssystem. Laut Henzler spricht man von Informationssystem,

"wenn zu Abfragen auch noch Möglichkeiten des Verwaltens von Ergebnisteilen der Recherche, Suchfrage und anfragender Benutzer hinzukommen".

Und weiter: "Der Begriff Informationsbank sagt im wesentlichen aus, daß eine Datenbasis mithilfe einer DV-technischen Einrichtung gespeichert und genutzt werden kann."

Von Datenbasis spricht man, wenn es um maschinenlesbare Informationen geht, ohne daß man sie auf eine konkrete Rechnerinstallation bezieht: so gibt es die eine Datenbasis Medline, die z.B. im MELVYL System in die Datenbank integriert ist. (Kind (Lailumu 3 S. 383) definiert Datenbasis als eine noch nicht recherchierfähige Sammlung von Informationen.)

Was ist in meinem Thema mit Hochschulnetz gemeint? Es ist an ein Netz gedacht, das es jedem Hochschulangehörigen an jedem Ort und zu jeder beliebigen Zeit ermöglicht, sich der zentralen Informationen zu bedienen. Also auch von zu Hause aus oder aus einem Hotelzimmer. Prinzipiell kann ein Hochschulnetz das Netz einer Hochschule sein oder eines Verbundes von Hochschulen.

Bei MELVYL, meinem Beispiel, handelt es sich um das Netz einer Hochschule, nämlich das der University of California. Da diese Universität aber aus neun Teiluniversitäten besteht, kann MELVYL auch als Vorbild für ein Hochschulverbundnetz genommen werden.

Folgende Bibkliotheken nehmen an MELVYL teil:

s. http://www.dla.ucop.edu/dlaweb/dlaweb/campuses.html


Warum MELVYL als Beispiel?


Man könnte zwar theoretisch eine ideale zentrale Datenbank für ein Hochschulnetz entwerfen. Das würde aber erfahrungsgemäß sofort als Phantasterei eines Theoretikers abgelehnt. Deswegen erscheint es mir sinnvoller zu zeigen, was schon praktisch verwirklicht ist. Ich habe MELVYL gewählt, weil man daran gut den Übergang vom Bibliothekskatalog im traditionellen Sinn zum Datenbanksystem im modernen Sinn studieren kann. MELVYL spiegelt so auch einen Teil der Wandlung des bibliothekarischen und dokumentarischen Berufsbildes im Laufe meiner eigenen Berufstätigkeit wieder. An MELVYL ist nicht nur das schon Erreichte nachahmenswert, sondern viel mehr noch die Einstellung der Beteiligten: die Bereitschaft, mit neuen Möglichkeiten Schritt zu halten, Experimente durchzuführen, deren positiver Ausgang nicht feststeht, und vor allem den patron, den Kunden und seine Bedürfnisse zum Zentrum der Bemühungen zu machen. Lassen Sie mich patron mit Kunde übersetzen - im Sinn von Der Kunde ist König.

Ein Beispiel: man bemüht sich um document delivery u.a. mit der Begründung, daß man dem Kunden unnötige Gänge ersparen kann, daß er sich selbstverantwortlich seine Informationen sammeln kann, daß er Texte auf seinem eigenen Computer bearbeiten kann. Man sieht bei MELVYL keinen Unterschied darin, ob der Benutzer sich in einer Informationseinrichtung die Zeitschrift sucht und den Artikel kopiert, oder ob er den Artikel aus der Datenbank herunterlädt.[Sommer 93, S. 29]


2. Die "mission", die Zielsetzung von MELVYL


Zielsetzung des MELYL Systems ist es, für alle Universitätsangehörigen als ein "mächtiges und flexibles Werkzeug" zur Benutzung aller erreichbaren Informationen zu dienen.

Für wie wichtig man diese Aufgabe in der University of California hält, zeigt u.a. die organisatorische Anbindung von MELVYL: zuständig ist die Division of Library Automation, eine Abteilung der Information Systems and Administrative Services, die dem Office des Präsidenten direkt unterstellt ist. Deshalb ist der Sitz Oakland und nicht etwa ein Ort der neun Teiluniversitäten, geschweige denn eine der dazugehörigen Bibliotheken.

Ursprünglich -- 1982 -- begann man mit dem Aufbau eines Online-Katalogs bestehend aus den Beständen der Universität, der California State Library und einigen weiteren Bibliotheken Kaliforniens. Da man während der Planungszeit umfangreiche Benutzerforschungen betrieb, wurde u.a. die sachliche Erschließung von Anfang an miteingeschlossen. Dies bedeutete, daß man die -- in traditionellen Bibliothekskatalogen ausgeschlossene -- für viele Fächer aktuellste Literatur, nämlich den Inhalt von Zeitschriften, Reports, Sammelbänden u.ä. sachlich erschließen wollte. Sehr realistisch sah man aber, daß man -- bis auf wenige Ausnahmen in Spezialsammlungen -- eine eigene Erschließung von unselbständig erschienenen Dokumenten nicht leisten könnte. Also schaute man sich nach anderen Quellen um. Man kaufte beginnend mit Medline eine Datenbasis nach der anderen ein und integrierte sie in die eigene Datenbank. Zusätzlich ermöglichte man den Durchgriff auf fremde Datenbanken.


3. Zusammensetzung des Information Retrieval Systems


Zu Übersicht, Beschreibungen und Hilfen der über MELVYL zugänglichen Datenbanken: URL: http://www.dla.ucop.edu/dlaweb/dlaweb/databases.html


In MELVYL unterscheidet man nach Inhalt, Host (und Benutzungsmöglichkeit) folgende Arten von angebotenen Datenbanken


3.1. Datenbanken im MELVYL-System (mit einheitlicher Abfragesprache)


3.1.1. MELVYL Catalog


Hierher gehört auch:

die Comments-Datenbank, einer Mailbox, in der die Benutzer ihre Fragen, Kritiken, Wünsche und Anregungen ablegen können, die dann auf dem selben Weg beantwortet werden. In dieser Datenbank sind auch elektronische Zeitschriften aufgelegt, z.B. Hot Off The Tree, eine wöchentlich erscheinende Veröffentlichung der Technology Watch Interest Group an der UC San Diego. Die Zeitschrift enthält Auszüge und Abstracts von Aufsätzen aus Handelszeitschriften, Nachrichten aus Online-Diensten und ein elektronisches schwarzes Brett bezogen auf Informationstechnik. Diese Datenbank ist inzwischen auch Archiv für elektronische Zeitschriften, während solche Zeitschriften üblicherweise nach bestimmter Zeit wieder gelöscht werden.

Diese Datenbanken können von jedermann frei benutzt werden.


3.1.2. California Academic Libraries List of Serials (CALLS)


PE -- Periodical Titles -- California Academic Libraries List of Serials (CALLS): die Periodiaka-Datenbank (enthält praktisch die gesamten Bestände an fortlaufenden Sammelwerken der meisten kalifornischen Bibliotheken) [s. http://www.dla.ucop.edu/dlaweb/CALLS.html]

Diese Datenbank kann von jedermann frei benutzt werden.


3.1.3. Von MELVYL lizentiierte kommerziell erstellte Datenbanken


Datenbanken, die von kommerziellen oder Regierungsstellen erworben werden, in das MELVYL-System geladen werden und mit der MELVYL-Abfrage-Sprache benutzt werden. Diese Datenbanken dürfen aus Lizenzgründen zum Teil nur von Universitätsangehörigen mit Paßwort benutzt werden.


3.2. Datenbanken außerhalb des MELVYL Systems, zu denen MELVYL eine Verbindung herstellt


Einzel-Datenbanken und Datenbanksysteme eigener und anderer Informationseinrichtungen und sonstige Datenbanken, die über das MELVYL-System erreichbar sind, aber im allgemeinen noch ihre je eigene Abfragesprache erfordern.

An der Zielvorstellung, daß es möglich sein muß, daß jeder Nutzer nur seine eigene gewohnte Abfragesprache kennen muß, um weltweit in Datenbanken zu suchen, wird seit Jahren auch in MELVYL festgehalten. So konnte in einigen Fällen schon das Z 39.50 communications protocoll eingesetzt werden. Vereinfacht gesprochen legt dieses Protokoll allgemeingültige Regeln für die Kommunikation fest, in die jeder Datenbankbetreiber seine Abfragesprache übersetzt.

Einige dieser Datenbanken sind für jedermann zugänglich, für andere muß gezahlt werden.


4. Aufbau der MELVYL-Katalogdatenbank


Im folgenden will ich Ihnen den Aufbau der MELVYL-Katalogdatenbank vorstellen. Dies nicht deswegen, weil ich von der Katalogisierung herkomme, sondern weil diese Datenbank ein Eigenprodukt von MELVYL ist und manche einmalige Eigenschaften aufweist.

Alle Festlegungen beim Aufbau einer nutzerorientierten Datenbank dienen einem leistungsfähigen Retrieval. So werde ich versuchen jeweils aufzuzeigen, was eine bestimmte Struktur bewirken soll.

Die Katalog-Datenbank besteht aus fünf verschiedenartigen Dateien (files), wobei die einzelnen Datensätze über die Identifikationsnummer miteinander verknüpft sind:

Um das Zusammenwirken der fünf Files auf einer Graphik (copyr. bei MELVYL) zu verfolgen, klicken Sie hier!

Dazu kommen noch Special indices -- besondere Indices


4.1. Bibliographic file - Bibliographische Datei


Das ist die Datei, die die Grundinformation - hier den größten Teil einer Dokumentationseinheit (Titelaufnahme) - enthält. Sie wird sonst auch Dokumentdatei, Master file, Titelstammdatei genannt. Die Daten werden im DLA-Format, dem Internformat von MELVYL gespeichert. Dieses entspricht weitgehend dem amerikanischen Standard-Austausch-Format MARC, in dem die Daten geliefert werden. Obwohl Formatfragen wesentlich sind für den Aufbau einer Datenbank, möchte ich hier nicht weiter auf diese Frage eingehen, da die Auswahl dieses Formats nichts Spezifisches für MELVYL ist.

Beispiel:

Aufbereiteter Datensatz.

BIB ISN = 2835144
008 s1985 nyu 0001aeng <SB>
010 $a 85020875 <SB>
100 10 Authority ISN: 3752547 <SB>
245 10 TI ISN: 3966501
$a Swimming to Cambodia / $c Spalding Gray. <SB>
260 0 $a New York, NY : $b Theatre Communications Group
$c c1985. <SB>
300 $# 127 $a xviii, 127 p. ; $c 20 cm. <SB>
650 0 Authority ISN: 37525248
(LOC ISN = 2780464)

4.2. Local Data file - Lokaldatendatei


Für jeden Datensatz in der bibliographischen Datei gibt es mindestens einen Datensatz in der Lokaldatendatei. Es werden der Standort (Name der besitzenden Institution und Signatur), Exemplaranzahl und sonstige lokale Informationen zum Dokument angegeben.

Ist das Dokument in mehreren Institutionen vorhanden, werden entsprechend viele Datensätze angelegt.

Beispiel:

Lokale Datei:

LOC ISSN = 2780464
901 $a R $b 86-B28850 $c CASX
902 $a 19860527134441.0
920 $a MAIN
930 $a PN2287.G6759 $b A37 1985
BIB ISN = 2835144

Erläuterungen:
901 = ursprüngliche Titelaufnahme
R = RLIN/Gladis
CASX = Santa Barbara in RLIN
902 = Version Identifier
920 = Standort
930 = Call Number


4.3. Authority / Heading File - Ansetzungsdatei


Diese Datei enthält je einen Datensatz für angesetzte Personen- und Körperschaftsnamen, für Zeitschriften- und Reihentitel, für Einheitssachtitel und Deskriptoren (Schlagworte). Anders ausgedrückt: in dieser Datei findet man die festgelegten Standardformen für Namen, Titel und Deskriptoren und die dazugehörigen abweichenden Formen (traditionell die Verweisungen).

Beispiel:

Ansetzungsdatei für den Personennamen:

AH ISN = 3752547
100 $a Gray, Spalding, $d 1941-
(PA ISN 1601992) 1

AH = Authority Heading

Ansetzungsdatei für das Schlagwort:

AH ISN 3752548
650 $a Killing fields
(SU ISN = 1510864)

Der Vorteil dieser Datei ist


4.4. Search key files - Stichwortdateien


Stichwortdateien ermöglichen das Auffinden einer Informationseinheit, auch wenn dem Kunden nur ein Bruchstück der bibliographischen oder sachlichen Daten in Erinnerung ist.

Die Stichwortdateien beziehen sich auf die bibliographische und auf die Ansetzungsdatei.

Aus der bibliographischen Datei heraus werden erzeugt:

aus der Ansetzungsdatei heraus werden erzeugt:

Beispiel:

Stichwortdatei für den Personennamen:

PA ISN = 1601992
GRAY SPALDING

Stichwortdatei für das Schlagwort:

SU ISN = 1510864
Keywords KILLING ¦ FIELDS
Exact keys KILLING FIELDS

Stichwortdatei für den Sachtitel:

TI ISN 3966501
Keywords SWIMMING ¦ TO ¦ CAMBODIA
Exact keys SWIMMING TO CAMBODIA

4.5. Index Control File - Indexkontrolldatei


Diese Datei soll vor allem schnelleres Suchen und eine alphabetisch sortierte Anzeige ermöglichen.

Für jede Dokumentationseinheit in der bibliographischen Datei wird eine Eintragung in der Indexkontrolldatei erzeugt. Diese Eintragung setzt sich grob gesprochen aus einer Kurzbeschreibung der Dokumentationseinheit und Verknüpfungsnummern zusammen.

Die Datei hat insgesamt vier Funktionen.

  1. für die Suche: ein solcher Datensatz enthält u.a. die Elemente, für deren Suche man keine eigene Indices aufbauen muß:
    • Nummern (ISBN, Reportnummern, Musikverlegernummer usw.)
    • Erscheinungsjahr
    • Sprache der Veröffentlichung
    • Materialbezeichnung (form - material type) z.B. Dia,
    • Computerprogramm, CD
    • bestimmte Codes
    • u.a.

    Die letztgenannten Angaben sind besonders nützlich zur Einschränkung einer Suche: z.B. gesucht wird Literatur über Museumsdörfer in deutscher und englischer Sprache, weil man etwas anderes nicht lesen kann. Vielleicht soll es aber auch nur ein Video über Museumsdörfer sein.

  2. für die alphabetische Sortierung in der Anzeige: dafür werden die Sortierelemente (Verfasser, Titel, Jahr) gespeichert. Will der Benutzer sich erst mal eine übersichtsliste anzeigen lassen, reichen die Daten aus der Index-Kontroll-Datei aus; die Maschine muß also nicht auf die vollen Datensätze durchgreifen. Durch die alphabetische Sortierung der übersichtsliste findet der Benutzer sein gewünschtes Dokument schneller. Die Indexkontrolldatei wird alphabetisch sortiert abgespeichert. Eine solche alphabetische Sortierung kann bei der Menge der Datensätze nicht ständig aktualisiert werden, so daß man einen vierteljährlichen Abstand einhält. Die neu dazugekommenen Datensätze werden jeweils bis zum Neusortieren unsortiert an die Datei angehängt. Die Neusortierung dauert übrigens zur Zeit etwa 6 Stunden - bei über sieben Millionen Dokumentationseinheiten.
  3. die dritte Funktion dient dem Update.
  4. die vierte Funktion wird für die Periodikadatenbank verwendet. [Soll nur eine Übersicht über vorhandene Titel angezeigt werden, reichen die Angaben in der Kontrolldatei.]

Beispiel:

Indexkontrolldatei:

IC ISN = 1580428
Sort keys GRAY SPALDING 1941
SWIMMING TO CAMBODIA
1979
Keyword records PA ISN -- 1601992
SU ISN -- 1510864
TI ISN -- 3966501
Language ENG
Date 1985
(BIB ISN = 2835144)

4.6. Special indices - besondere Indices


Neben den oben genannten Indices weise ich auf einige weitere interessante Indices von MELVYL hin:


5. Die Feinstruktur der Datenbanken


Die Feinstruktur der MELVYL-Datenbanken wird am klarsten, wenn man den Vorgang der Generierung dieser Datenbanken bei der Aktualisierung verfolgt. Dabei ist zu unterscheiden zwischen dem Aktualisieren der Fremddatenbanken und dem Aktualisieren der eigenen Datenbanken.


5.1. Fremddatenbanken


Die Feinstruktur der Fremddatenbanken ist nicht MELVYL-spezifisch, sondern entspricht im Wesentlichen den Vorgaben der Anbieter. Fremddatenbanken werden -- der Herkunft entsprechend -- schneller oder weniger schnell aktualisiert. Bei umfangreichen Datenbanken, die nach Jahren in mehrere Files unterteilt sind, wird unter Umständen der jeweils neueste File beim Dazuladen neu generiert. INSPEC mit über 4 Millionen Datensätzen z.B. ist in Fünfjahresabschnitte eingeteilt und besteht zur Zeit aus 4 Files.

Werden in einer Datenbank die Schlagworte überarbeitet, muß unter Umständen die ganze Datenbank neu generiert werden, damit man eine einheitliche Suche anbieten kann. So wurden die verschiedenen Medline-files wegen der 93er Version von MeSH überarbeitet. Eine solche Gelegenheit wird dann gegebenenfalls auch genützt, um einen neuen Index anzubieten.


5.2. Die eigene Datenbank


Das Aktualisieren der eigenen Datenbank ist wesentlich aufwendiger, da die Daten von den verschiedensten Bibliotheken und Institutionen hereinkommen und automatisch eingemischt werden. Besonderer Wert wird auf die Vermeidung von Dubletten gelegt. Dubletten sollten tunlichst vermieden werden, denn sie belegen unnötigen Speicherplatz, erhöhen dadurch die Antwortzeit und vor allem belasten sie den Benutzer, der unnötige Datensätze durchsehen muß. Außerdem hängen dann die Bestände an mehreren Datensätzen. Wenn es schon in einer Datenbank, in die ein denkender Mensch Datensätze eingibt, schwierig ist, Dubletten zu vermeiden, sind bei einer vollautomatisch -- ohne Intervention eines Menschen -- bedienten Datenbank eine ganze Reihe von Arbeitsschritten nötig. Diese sollen jetzt für die Katalog-Datenbank vorgestellt werden:

Die Daten der einzelnen Institutionen werden in wöchentlichen oder monatlichen Abständen geliefert und werden innerhalb von 14 Tagen in die Datenbank aufgenommen. Die meisten Institutionen benutzen noch Magnetbänder dazu, der Übergang zu Filetransfer ist aber im vollen Gange.


5.2.1. Vorbereitende Arbeitsschritte


In MELVYL werden die Daten nach überprüfung auf Vollständigkeit, nach Zeichenkonversion usw. mehreren weiteren Arbeitsschritten unterworfen:

  1. Es beginnt die sogenannte Normalisation: obwohl alle Daten in USMARC erfasst sind, gibt es insbesondere bei den Lokaldaten unterschiedliche Fassungen. Es werden alle Daten in das MELVYL eigene Format umgesetzt. D.h. man muß für jede Datenquelle je ein eigenes Umsetzungsprogramm haben.
  2. Im nächsten Schritt werden die Suchwörter zu jedem Datensatz festgelegt, d.h. die Felder, die zur Suche herangezogen werden, werden zusätzlich zur vorliegenden Form in vereinfachter Form bzw. Standardformen eingetragen. Dies ist Voraussetzung für die Bildung der Indexdateien. Damit beschleunigt man auch die Suche, vereinfacht das Aktualisieren und das Sortieren. Folgende Punkte sind für diese zusätzlichen Eintragungen u.a. zu nennen:
  3. Weiterhin wird für jeden zuzuspielenden Datensatz ein sogenannter Maintenance key gebildet. Dieser enthält folgende Angaben: das System in dem der Datensatz erzeugt wurde, die Identifikationsnummer, die der Datensatz in diesem System erhalten hatte und die verantwortliche Bibliothek. Man muß hier daran erinnern, daß die Bibliotheken großteils Fremddaten nutzen, so ist die ursprüngliche Nummer oft eine OCLC oder eine RLIN-Nummer.
  4. Im nächsten Schritt wird eine qualitative Bewertung für jeden zuzuspielenden Datensatz erstellt, um unter mehreren Datensätzen zur selben bibliographischen Einheit den zu ermitteln, der der Bildschirmanzeige zugrundegelegt werden soll. Dazu wird ein gewichteter numerischer Wert ausgerechnet. Die geringer bewerteten Datensätze werden aber nicht gestrichen, sondern bleiben dort, wo sie vom bestbewerteten Datensatz abweichen, unsichtbar erhalten.
  5. Während dieser Schritte läuft ein Überwachungsprogramm, das Meldungen zur Statistik bringt und Fehler meldet. Leichte Fehler werden nur statistisch festgehalten. Bei schweren Fehlern, wenn z.B. die Lokaldaten fehlen, werden die Datensätze abgewiesen.

5.2.2. Der eigentliche Ladevorgang


Sobald diese vorbereitenden Schritte durchgeführt sind, kann das eigentliche Updating der Datenbank beginnen. Hier unterscheidet man zwei Schritte:


5.2.2.1. Record matching


Jeder Datensatz wird gegen die Datenbank gespielt, um zu sehen, ob es sich um einen neuen Datensatz oder um die Verbesserung eines schon vorhandenen Datensatzes handelt. überprüft wird das mit Hilfe des Maintenance keys. Damit erreicht man, daß jede Bibliothek nur ihre eigenen Datensätze verbessern kann.


5.2.2.2. Consolidation


Alle übrigen Datensätze durchlaufen den sogenannten Consolidation Prozeß. In ihm wird festgestellt, ob dieselbe bibliographische Einheit in der Datenbank schon beschrieben ist. Es wird nun keineswegs jeder Datensatz gegen die sieben Millionen Dokumentationseinheiten gespielt. Da der bibliographische Typus in jedem Datensatz angegeben ist, werden nur gleiche Typen verglichen - also Monographien mit Monographien, Musiknoten mit Musiknoten.

In diesem Prüfungsprozeß vergleicht man in einem ersten Durchgang nur die Datensätze, die eine identische LCCN (eine Library of Congress Call Number) haben: stimmen dabei das Erscheinungsjahr und die ersten 15 Buchstaben des Titels überein, geht man davon aus, daß es sich um die selbe bibliographische Einheit handelt. Man vergleicht dabei nicht Voll-Datensatz mit Voll-Datensatz, sondern die jeweils dazugehörige Kurzfassung in der Indexkontrolldatei.

Beispiel:

Kurzaufnahme 1:

ID 428056 BASE RG STS n REC am ENC I DCF i ENT 780314
INT REP GOV CNF 0 FSC 0 INX 0 CTY xxx ILS
MEI 0 FIC 0 BIO MOD CSC d CON LAN eng PD 1977
020 0819103632 <RG>
100 10 May, Harry S. <RG>
245 10 Francisco Franco : $b the Jewish connection / $c Harry S. May. <RG>
260 0 Washington, D. C. : $b University Press of America, $c c1978.
300 vi, 188 p. : $b ill., facsims., geneal. tables ; $c 22 cm. <RG>

Kurzaufnahme 2:

ID 51386 BASE LC STS n REC am ENC DCF a ENT 821126
CTY dcu FIC 0 BIO b MOD CSC CON b LAN eng PD 1977
010 82197912 <LC,SDG>
020 0819103632 (pbk.) <LC,SDG>
100 10 May, Harry S. <LC,SDG>
245 10 Francisco Franco -- the Jewish connection / $c Harry S. May. <LC,SDG>
260 0 Washington, D. C. : $b University Press of America, $c c1978. <LC,SDG>
300 vi, 188 p. : $b ill., genealogical tables ; $c 22 cm. <LC,SDG>

Normalisierte Daten 1 für Consolidation:

LCCN: none
ISBN: 081910363
TITLE: FRANCISCO FRANCO THE JEWISH CONNECTION
DATE: 1977
EDITION: none
COUNTRY: XX
AUTHOR: MAY HARRY S
PAGINATION 188
PUBLISHER: UNIVERSITY PRESS OF AMERICA

Normalisierte Daten 2 für Consolidation:

LCCN: 82197912
ISBN: 081910363
TITLE: FRANCISCO FRANCO THE JEWISH CONNECTION
DATE: 1977
EDITION: none
COUNTRY: DCU
AUTHOR: MAY HARRY S
PAGINATION 188
PUBLISHER: UNIVERSITY PRESS OF AMERICA

Was dann noch übrigbleibt, wird einem ausführlicheren Vergleich unterzogen. MELVYL hat dafür einen komplexen Algorithmus entwickelt, der bestimmte Elemente eines Datensatzes stärker gewichtet als andere. Wenn die Summe dieser Gewichtungen eine bestimmte Höhe erreicht hat, geht man von Gleichheit aus. Ausführliche Tests haben gezeigt, daß dabei folgenden Elementen eines bibliographischen Datensatzes besonderes Gewicht zukommt:


5.2.2.3. Datenzusammenführung


Je nach den Ergebnissen dieser Prüfungen wird ein neuer Datensatz in die Datenbank aufgenommen, ein vorhandener Datensatz verbessert oder ein neu hinzugekommener Datensatz mit einem vorhandenen zusammengespielt. Ein neuer Datensatz wird beim Einspielen mit den Normdateien und Indexdateien abgeglichen und nachgeführt.

Besonders interessant ist dabei die Vorgehensweise, wenn schon ein passender Datensatz in der Datenbank vorhanden ist, d.h. wenn der neue Datensatz eine Dublette ist:

Aus der Dublette werden nicht nur die Lokaldaten abgespeichert, sondern die Maschine vergleicht den Datensatz Feld um Feld: sollte ein Feld nicht ganz identisch sein oder gibt es zusätzliche Felder, werden diese in die Grundaufnahme eingespielt. So kann es durchaus vorkommen, daß das Feld 245 Titelangabe mehrmals vorkommt. Auch unterschiedliche Namensansetzungen bleiben so erhalten z.B.

100 10 Scott, Adolphe Clarence, $d 1909- <BG>
100 10 Scott, Adolphe C. <DG>
100 10 Scott, A. C. <SB>
100 10 Scott, Adolphe, $d 1909- <...>

Auf diese Art und Weise bleiben die Erfassungsbemühungen jeder Institution erhalten. So bleiben für den Benutzer alle irgendwo erfaßten Informationen erhalten, z.B. die, die in Spezialsammlungen den Datensätzen hinzugefügt wurden. So fügt man z.B. in einigen Spezialbibliotheken für Musik den Aufnahmen von Musiktonträgern sämtliche genannten Interpretennamen ein. Auch unterschiedliche Schlagwortvergabe bleibt auf diese Art erhalten. Da diese zusätzlichen Elemente indiziert werden, kann der Benutzer diese zusätzlichen Elemente auch suchen und hat Recherchemöglichkeiten, die weit über das hinausgehen, was Allgemeinbibliotheken üblicherweise anbieten können.

Betriebsintern führt diese Methode der Datenzusammenführung zur Vermeidung von Konflikten und zum Abbau von Frust: Wer je Glaubenskämpfe um die richtige Erfassung erlitten hat oder den Frust erlebt hat, daß er einen Datensatz nach allen Regeln bearbeitet hat, aber die Datenbank den Datensatz als Dublette zurückweist, weil schon eine Miniaufnahme oder gar eine Scheindublette vorhanden ist, weiß das zu schätzen.


5.2.2.4. Besonderheiten bei der Indexerstellung


Vor allem um das Retrieval zu verbessern, werden folgende Maßnahmen durchgeführt:


6. Das Netz der University of California (UCnet)


Ursprünglich hatte das MELVYL System ein eigenes Datenpaketvermittlungs-Netzwerk. Dieses wurde 1992 durch ein allgemeines Universitäts-Netzwerk abgelöst. MELVYL ist der größte Nutzer dieses Netzes. Das neue Netz verwendet die schnellere und billigere IP Router Technology (Internet-Protocol Router Technik). Im Universitätsnetz erfüllen die Router das Internet Protocol. Diese Technik ermöglicht es neuere Kommunikations-Protokolle, neue Anwendungen, die große Bandbreiten (Frequenzbereiche, bandwidthintensive applications) erfordern und alternative Übertragungsmöglichkeiten (transmission facilities) anzuwenden:

Neuere Kommunikations-Protokolle:

am Interessantesten ist hier z.Z. das Vorhaben das Z 39.50 Übertragungs-Protokoll einzuführen.

Dieses Protokoll definiert Regeln, um andere Systeme auf einer Computer zu Computer Basis (peer-to-peer basis) abzufragen. Es beruht auf dem Klient-Server-Model, welches den Benutzern (clients) erlaubt an Zielinformations- Retrieval-Systeme (target information retrieval systems) (servers) Anfragen zu senden und Ergebnisse von diesen zu empfangen. Wenn dieses Protokoll im MELVYL System implementiert ist, kann ein Benutzer all die fremden Datenbanken mit der MELVYL Sprache abfragen, sobald die fremden Datenbanken ebenfalls das Protokoll implementiert haben. Da dieses Protokoll auch ein graphisches Interface mit Fenstertechnik ermöglicht, ist man dabei, workstations mit der entsprechenden Software einzurichten. Die internationale Version ist bekannt als SR (Search and Retrieval), ISO 10162/10163 Das Z39.50 Protokoll kommuniziert mit den TCP/IP (Internet-)Protokollen.

Neuere Anwendungen, die größere Bandbreite benötigen:

Unter diesen Anwendungen ist das TULIP-Projekt zu erwähnen: es handelt sich um ein Projekt von mehreren Universitäten in Zusammenarbeit mit Elsevier Science Publishers. Man erforscht verschiedene Möglichkeiten des Zugangs zu elektronischen Zeitschriften. MELVYLs Aufgabe ist es, Aufsätze, die über INSPEC oder Current Contents gefunden wurden und aus einer Elsevier Zeitschrift stammen, im Volltext mit Grafik an die Benutzer weiterzugeben. Auf Seiten des MELVYL-Systems werden dafür die Texte als bit-mapped images in einen Großspeicherserver geladen. Die Datenbanken INSPEC und Current Contents sind mit dieser Volltextdatenbank verknüpft. Auf Seiten des Benutzers wird eine Workstation mit X-Windows protocol verlangt.

Alternative übertragungsmöglichkeiten:

Neben den traditionnellen Leitungen und der Übertragung durch Kurzwellenrichtfunk (terrestrial microwave) benutzt das MELVYL-System schon seit 1984 Paketfunk über Satellit: die ersten Erdstationen wurden in Berkeley und in San Diego errichtet. Zur Zeit plant man, die öffentlichen Bibliotheken mit Hilfe der Paketfunktechnik (packet radio technology) anzuschließen. Für den Benutzer zu Hause ist nach wie vor der Anschluß über Modem und Telefonleitung oder über Mobilfunk vorgesehen. Ist er Universitätsmitglied, ist es sinnvoll, daß er die Verbindung zu MELVYL über sein Local Area Network herstellt: er hat damit alle Vorrechte eines Universitätsmitglieds.

Zur Zeit wird als Mainframe (Großrechner) eine IBM 3090 mit 6 CPUs (Central Processing Units, Zentraleinheiten) benutzt. Das bedeutet: es können 40 Millionen Instruktionen in der Sekunde ausgeführt werden.

Das benutzte Betriebssystem MVS/XA ist ein virtuelles Betriebssystem (virtual memory operating system). Bei virtual memory handelt es sich um einen adressierbaren Speicher, der ohne Rücksicht auf den physikalisch tatsächlich vorhandenen Arbeitsspeicher verwendet werden kann. Mit der Methode der virtuellen Speicherung wird ein großer Arbeitsspeicher simuliert.

Als Database-Management-System wird zur Zeit noch ADABAS benutzt. Im Zusammenhang mit Planungen zur Einführung des Client-ServerModells überlegt man sich, ob man nicht für die unterschiedlichen Datenbankarten verschiedene Arten von Datenbank-management-systemen nutzen soll, also je für bibliographische Datenbanken, für Volltextdatenbanken, für Bilddatenbanken und für numerische Datenbanken.

Der Großrechner ist mit drei Netzwerkschnittstellen-Computern (Network interface computers) versehen. Hier werden die Daten in einzelne Pakete aufgeteilt, numeriert und mit Adressen versehen.

Zwischen den Routern sind Höchstgeschwindigkeits-Hauptleitungen (High-speed trunk lines) installiert.

Mit dem Übergang auf das Universitätsnetz wurden die Campus IP routers aus den Bibliotheken herausgenommen und in Fernübertragungseinrichtungen (telecommunications facilities) der Teiluniversitäten verlegt. Dadurch werden Telephonleitungskosten innerhalb des Campus reduziert, das Netzwerk ist stabiler, und es lohnt sich Notstromaggregate anzuschaffen.


Zu den laufenden Projekten

s. http://www.dla.ucop.edu/dlaweb/dlaweb/project1.html


7. Schluß


MELVYL dürfte als Ganzes wohl das gegenwärtige Optimum eines zentralen Datenbanksystems für ein Hochschulnetz darstellen. Die Kosten sind entsprechend hoch. Ob sie zu hoch sind, ist kaum zu beantworten. Wie will man bewerten, daß allein in Berkeley immer etwa zehn Nobelpreisträger tätig sind. Selbst, wenn manche Aspekte von MELVYL nur ein schönes Spielzeug für Wissenschaftler sein sollten, könnte es ja sein, daß man nur mit solchem Spielzeug eine Atmosphäre schafft, in dem eine kritische Masse kreativer Forscher und Studierenden zum Fortschritt der Wissenschaften Wesentliches beitragen kann. Was sonst, als dies zu ermöglichen, ist der Hauptzweck wissenschaftlicher Informationsvermittlungs-Einrichtungen.


ENDE