Wir katalogisieren das Internet : URL's, URN's und Co.

Vortrag auf der 1. InetBib-Tagung, Dortmund, am 12.3.1996


von Margarete Payer

mailto: payer@hbi-stuttgart.de


Zitierweise / cite as:

Payer, Margarete <1942 - >: Wir katalogisieren das Internet : URL's, URN's und Co. ; Vortrag auf der 1. InetBib-Tagung, Dortmund, am 12.3.1996. -- Fassung vom 21. April 1996. -- URL: http://www.payer.de/einzel/urlco.htm . -- [Stichwort].

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Verfasserin.


1. Einleitung


Im Internet werden zur Zeit eine Reihe von Vorschlägen diskutiert, die zu Standards der Beschreibung von Internetressourcen werden sollen. Man erwartet, daß diese Standards, sobald sie offiziell vorgeschlagen sind, sich genau so durchsetzen wie der Uniform Resource Locator (URL). Verantwortlich für diese Entwicklung ist die IETF (Internet Engineering Taskforce), die Diskussionsgruppen eingesetzt hat. Demokratisch, wie das Internet ist, kann jeder, der von der Sache etwas versteht, sich anmelden und in erster Linie über Mailing-Listen mitmachen.

IETF: http://www.ietf.cnri.reston.va.us/home.html

Zu diesen Entwürfen gehören:

Ich werde im folgenden diese Standardvorhaben behandeln mit Ausnahme der URA, einem Vorschlag, der erst angedacht ist. Zusätzlich wird als proprietäre Lösung der Persistent Uniform Resource Locator (PURL) von OCLC in die Diskussion mit eingeschlossen.


2. Uniform Resource Identifier (URI)


Wie oben gesagt, besteht die URI zur Zeit im wesentlichen aus den Teilen URN (eindeutige Identifizierung der Quelle), URL (Standort der Quelle) und URC (Beschreibung der Quelle).

Webpage für URI: http://www.acl.lanl.gov/URI/

An diese Standards werden u.a. folgende Anforderungen gestellt:


2.1. Uniform Resource Locator (URL)


Ausführlich zu URL: Margarete Payer: Computervermittelte Kommunikation. - Kapitel 13,2. - URL: http://www.well.com/user/payer/cmcs1302.html

Während sich die anderen Teile der URI noch im Entwurfsstadium befinden, ist die URL ein anerkannter Standard, der sich weltweit durchgesetzt hat. Es handelt sich um eine Art Signatur bzw. die Angabe des Standorts und die Zugangsmöglichkeit zu einer Internetressource.


Eine URL kann aus folgenden Bestandteilen bestehen:

Zugangsprotokoll://Hostadresse:Port/Pfad


Für die Schreibweise der URL werden neben der festgelegten Reihenfolge und den festgelegten Zeichen noch folgende Vorschriften gemacht:


Die Probleme der URL:

  1. es können für einen Text mehrere URL´s angegeben werden, weil der Text auf mehreren Servern liegt, oder unterschiedliche Zugangsprotokolle benutzt werden können. Lösung: es müssen alle URL´s zum jeweiligen Text angegeben werden.
  2. die Hostadresse ändert sich, weil sich der Name der Institution geändert hat und diese Änderung im Domain-Namen nachvollzogen wurde, oder weil der Text auf einen anderen Host verlegt wird (z.B. auf einen billigeren). Hier will OCLC mit der PURL eine Lösung anbieten, auch die URN soll zu einer Lösung des Problems beitragen.
  3. die Zugangsmethode ändert sich.

2.2. Persistent Uniform Resource Locator (PURL)


mailing list zu PURL: mailto:listserv@oclc.org ; Text: subscribe purl-l [Vorname] [Nachname]

PURL-FAQ: http://purl.oclc.org/

Die PURL wurde von OCLC entwickelt, um aus dem Problem der sich ändernden URL´s herauszukommen. Von der Funktion her ist die PURL eine URL, nur daß die PURL nicht direkt auf die Internetstelle verweist sondern auf einen dazwischengeschalteten Dienst. Dieser Dienst (zur Zeit auf einem Server bei OCLC) verbindet die PURL mit der jeweils aktuellen URL. Der Server sendet bei einer Anfrage mit der PURL dem Client die gerade aktuelle URL zurück, der Client benutzt dann die aktuelle URL. Ist die PURL bekannt - d.h. wird sie in der Titelaufnahme angegeben - , können sich die URL´s beliebig verändern, und man findet den Text doch.

Gebildet werden diese PURL´s in der üblichen Weise mit dem verwaltenden Server als Hostadresse und dem entsprechenden Pfad: bei OCLC wird die Identifikationsnummer der dazugehörigen Titelaufnahme genommen. Als Transportprotokoll wird grundsätzlich http genommen. Da OCLC inzwischen die Software frei zur Verfügung stellt, könnten auch andere Institutionen z.B. Verbundzentralen einen solchen Weg gehen.

Source code für PURL: http://purl.oclc.org/

Beispiel: http://purl.oclc.org/oclc/oluc/32127398/1

oder ohne OCLC: http://purl.somewhere. edu/library/catalog

Für jede Titelaufnahme wird eine PURL oder mehrere PURL´s entsprechend der Anzahl der vorhandenen URL`s geschaffen und im MARC-Format in Kategorie 856 (subfield $u) abgelegt. Die eigentliche URL wird in 856 subfield $z (Public Note) erfaßt, damit die darin enthaltene Information erhalten bleibt. Selbstverständlich muß gleichzeitig die URL in die OCLC-PURL-Resolver-Datenbank geschrieben werden.

Man stellt sich von OCLC aus vor, daß diese Datenbank weltweit genutzt wird. Um die Datenbank im Griff zu halten, dürfen nur registrierte Nutzer PURL´s erstellen und URL´s zuordnen, bzw. Umleitungen durchführen. Der Berechtigte kann dies aber nur für die eigene Domain machen. Daß zwei identische PURL´s entstehen, wird durch Programm verhindert. OCLC erwartet, daß Änderungen in URL´s von den Leuten, die URL´s erstellen, an die Datenbank gemeldet werden. Und genau das ist die Schwachstelle des Vorschlags.

PURL´s sollen im übrigen nur für Texte vergeben werden, von denen man annnimmt, daß sie von bleibender Bedeutung sind, also z.B. für individuelle Artikel, aber nicht für einzelne Kapitel, Graphiken usw, Texte, die ohne Kontext unverständlich sind, vergängliche Meldungen.

Was sind die Vorteile der PURL?


2.3. Uniform Resource Name (URN)


Archiv der URN mailing list: http://www.gatech.edu/iiir/urn/

Um den Schwierigkeiten der sich ändernden URL´s aus dem Weg zu gehen und bei mehreren URL´s für ein Objekt das Objekt sicher identifizieren zu können, entwickelt man zur Zeit im Auftrag der Internet Engineering Task Force (IETF) die URN´s. Ein Uniform Resource Name ist fest mit einem einzigen Objekt verbunden - unabhängig davon, auf welchem Server das Objekt liegt. Eine URN dient nicht dazu, etwas über den Inhalt auszusagen. Wie die frühere Auflösung der Abkürzung URN als Uniform Resource Number schon andeutete, besteht die URN im wesentlichen aus Ziffern und entspricht etwa einer ISBN. Hat das Werk schon eine ISBN, wird diese innerhalb der URN angegeben.

Bei der Entwicklung der URN´s versucht man Automatismen zu entwickeln, die aus einer URN zu den URL`s führen können. Wie man aus einer ISBN den Verlag bzw. die verantwortliche Körperschaft ablesen kann, soll ein Programm entsprechende Hinweise aus der URN entnehmen.

Die URN besteht aus vier Komponenten, die jeweils durch Doppelpunkt getrennt sind:

  1. die Angabe URN
  2. die Angabe des Standards bzw. der Normbezeichnung (naming authority scheme identifier) z.B. ISBN, ISSN, IANA [Internet Assigned Numbers Authority]
  3. die Angabe der verantwortlichen Stelle d.h. der Stelle, die das Recht hat, eine URN zu erstellen z.B. IANA:merit.edu
  4. die Angabe einer Ziffern- oder Buchstabenfolge, die von der verantwortlichen Stelle speziell für das einzelne Objekt vergeben wird

z.B. :

URN:IANA:merit.edu:1929642


Bevor die URN zum Standard erklärt wird, muß u.a. noch geklärt werden, was man als identischen Text ansieht: Soll einem ASCII-Text und einem Postskript-Text für ein identisches Werk eine oder zwei URN´s zugeteilt werden? Wie weit gilt das auch für Übersetzungen? Die Tendenz scheint zur Zeit zu sein, daß man sich eher für nur eine URN entscheiden will, damit der Benutzer nicht viele URN´s aufsuchen muß, nur um dann festzustellen, daß es sich um einen identischen Text handelt.


2.4. Uniform Resource Characteristics (URC)


mailing list zu URC: mailto:listproc@list.gatech.edu ; Text: subscribe urc-l [Vorname] [Nachname]

HyperMail Archive zur URC mailing list: http://www.gatech.edu/iiir/urc/

Bei der URC handelt es sich um eine Beschreibung einer Internet-Ressource, die beliebig tief gehen kann. Man stellt sich vor, daß man mit einer minimalen Beschreibung beginnt und jemand anderes, z.B. Katalogisierer, dann nach Bedarf noch weitere Elemente hinzufügt. Die URC kann sich zu einer sehr ausführlichen Titelaufnahme entwickeln. Die Elemente der URC sollen so definiert werden, daß sie in unterschiedlichste Systeme übernommen werden können.

Die URC muß mindestens die Angaben der URN und die URL (den physischen Standort) enthalten, oder nach neueren Vorschlägen die URN und das Format (content type):


Beispiel für eine minimale URC:

<urc>

<urn>IANA:lanl.gov:LA-UR-94-00023

<location>http://www.acl.lanl.gov/...


Eine ausführliche URC kann folgende zehn Elemente enthalten:


Jedes dieser Elemente kann verschiedene Ausführlichkeitsgrade haben:

z.B. Element Verfasser:


Was verspricht man sich im wesentlichen von der URC?


Die Vorschläge zur URC werden zur Zeit heftig diskutiert, besonders:


3. Dublin Metadata Core Element Set


Metadata Workshop Report: http://www.oclc.org:5047/oclc/research/publications/weibel/metadata/dublin_core_report.html

Entwurf vom 1.5.95: http://www.acl.lanl.gov/URI/dublin2.txt

Während die URC ursprünglich nur gedacht war, über eine Besonderheit eines Textes zu informieren, und keineswegs eine Art Titelaufnahme darstellen sollte, wurde parallel ein Vorschlag (das Dublin Metadata Core Element Set) zur standardisierten Beschreibung von Daten in elektronischen Netzen entwickelt. Die Auswahl der Metadaten sollen zwischen den Angaben in den Suchmaschinen auf der einen Seite und den Angaben in vollem MARC-Format auf der anderen Seite liegen. Man wählte ausdrücklich nicht ein verkürztes MARC-Format, da man sich bewußt war, daß eine traditionnelle Beschreibung auf viele Objekte im Netz nicht anwendbar ist. Außerdem will man erreichen, daß der jeweilige Verfasser selbst diese Daten in standardisierter Form seinen Texten beigibt, so daß man durch eine automatische Suche einen Katalog erstellen kann.

An der Entwicklung sind Organisationen wie OCLC, LoC, MARBI (das Gremium für MARC), SGML-Entwickler usw. beteiligt. Wesentliche Ergebnisse wurden auf einem ersten Workshop im März 95 beschlossen. Der nächste Workshop im April 96 soll den Vorschlag auf alle Disziplinen und Sprachen ausdehnen, und außerdem Mechanismen schaffen, die eine ausführlichere Beschreibung und Verknüpfungen zu anderen Beschreibungen schaffen soll. Im April werden auch europäische Vertreter dabei sein.

Wenn nun jeder Verfasser eine Beschreibung liefern soll, muß der Standard sehr einfach sein, und es muß möglich sein, mit Minimalangaben auszukommen. Die Elemente für die Minimalangaben wurden so ausgewählt, daß mit ihnen ein Wiederfinden der Quelle möglich ist. Außerdem grenzte man den Vorschlag auf dokumentenähnliche Objekte (document-like objects) ein, wobei man bewußt keine genaue Definition gab: im weitesten Sinne handelt es sich um Text. Als Beispiele werden genannt: elektronische Version eines Zeitschriftenartikels, ein Wörterbuch, aber nicht eine elektronische Version einer Karte.


Man einigte sich auf 13 Metadata Elemente:

  1. Subject = das Wissensgebiet, zu dem das Werk gehört
  2. Title = Name des Objekts
  3. Author = der oder die Personen, die in erster Linie für den intellektuellen Inhalt des Werkes zuständig sind
  4. Other agent = sonstige beteiligte Personen, wenn ihre Mitarbeit wesentlich ist
  5. Publisher = derjenige oder die Körperschaft,die verantwortlich ist, daß das Objekt erhältlich ist (Agent or Agency)
  6. Date = Veröffentlichungsdatum
  7. Object type = Gattung z.B. Roman, Gedicht, Wörterbuch
  8. Form = die physikalische Form z.B. Postskript file
  9. Identifier = Buchstabenfolge oder Nummer, die diesem Objekt zugeordnet ist
  10. Relation = Beziehung zu ähnlichen Objekten
  11. Source = Objekte (gedruckt oder elektronisch), aus denen das vorliegende Werk entstanden ist
  12. Language = Sprache des Inhalts
  13. Coverage = Raum und Zeitdauer

Bei der Anwendung dieser Elemente ist folgendes zu beachten:


Es werden zur Zeit noch folgende Probleme diskutiert:


Ein Beispiel:


4. Schlußbemerkung


Man muß sich darüber im klaren sein, daß mit Ausnahme der URL und damit zusammenhängend der PURL alle Standards erst im Entwurfsstadium sind und sich noch sehr ändern können. Man erwartet, daß URC und URN noch 1996 zu anerkannten Standards werden. Leider sind bei der Diskussion, die zwischen Bibliothekaren, Netzwerkverwaltern und weiteren interessierten Personen geführt werden, nur Personen aus englischsprachigen Staaten aktiv (USA, Australien, Großbritannien). Man ist sich in den Mailing-Listen durchaus bewußt, daß man Probleme aus anderen Sprachbereichen wohl zu wenig beachtet, und hofft auf Teilnehmer aus anderen Ländern. Es wäre gut, jemand aus den InetBib-Reihen würde nicht nur die Sache beobachten, was nach meiner Erfahrung auch schon eine Menge Zeit kostet, sondern würde sich aktiv beteiligen.


ENDE