Information Quality pur

Wie kann man die Qualität von Internetressourcen für den wissenschaftlichen Bereich beurteilen?

Hinterfragung ausgewählter Vorschläge


von Margarete Payer


Zitierweise / cite as:

Payer, Margarete <1942 - >: Wie kann man die Qualität von Internetressourcen für den wissenschaftlichen Bereich beurteilen? : Hinterfragung ausgewählter Vorschläge ; Vortrag am 11. Juni 97, HBI Stuttgart. -- Fassung vom 1997-06-11. -- URL: http://www.payer.de/einzel/infoq.html.. -- [Stichwort].

Letzte Überarbeitung: 9. Juni 1997

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Verfasserin.


1. Einleitung


"Wenn das Internet sich jedoch als globales Kommunikationsmittel weiterentwickeln soll, sind Einrichtungen nach Art traditioneller Bibliotheksdienste erforderlich, um die vernetzten Informationen zu systematisieren, für Abfragen bereitzustellen und auch zu pflegen. Selbst wenn dies geschehen ist, wird sich das Internet von herkömmlichen Archiven unterscheiden, denn seine Inhalte sind weiträumig -- eben weltweit -- verteilt gespeichert. Somit müssen die Fertigkeiten von Bibliothekaren, Dokumente zu klassifizieren und anhand gezielter Fragen auszuwählen, um die der Informatiker erweitert werden, Verfahren zur automatischen Indizierung und Speicherung von Daten zu entwickeln. Nur wenn diese Synthese gelingt, kann das neuartige System die Erwartung der bislang schon aktiven und der potentiellen künftigen Benutzer dauerhaft erfüllen."

Dies schreibt Clifford Lynch in der Maiausgabe 1997 von Spektrum der Wissenschaft (S. 90f.). Als Leitlinie aus der Sicht der Nutzer für die Ausbildung an der HBI ist diesen Sätzen nichts hinzuzufügen. Aus der Sicht lange gewachsener und öffentlich hochdotierter Informationseinrichtungen möchte ich folgende vier Thesen hinzufügen:

  1. Wenn Bibliotheken und Dokumentationsstellen nicht zu Museen werden wollen, müssen sie sich an den modernen Kommunikationsformen in Netzen führend beteiligen.
  2. Wenn Bibliotheken und Dokumentationsstellen nur automatische Suchmaschinen oder Linkverzeichnisse nachmachen, werden sie überflüssig.
  3. Bibliotheken und Dokumentationsstellen können als solche nur überleben, wenn sie der eigenen Klientel eine qualitätsvolle Auswahl von Internetressourcen in einfach zu bedienender und kostengünstiger Form anbieten.
  4. Kernpunkt des Qualitätsmanagements ist bezogen auf mein Thema die Orientiertheit an im weitesten Sinn wissenschaftlich Arbeitenden und Kernziel ist die Zufriedenheit dieser Gruppe.

Das sind alles keine neuen Erkenntnisse und viele Bibliotheken- und Dokumentationsstellen haben die Aufgaben erkannt und beginnen mit entsprechenden Vorhaben. Allerdings fällt auf, daß in vielen Vorhaben zwar von qualitätsvoller Auswahl gesprochen wird, aber oft keine Kriterien und Vorgehensweise für diese Auswahl genannt werden, z.B. DFG-Projekt "SSG Fachinformation", WebDOC (PICA und Göttingen), UNESCO.

Im folgenden werde ich auf einige im Internet dokumentierte Konzepte und Vorgehensweisen näher eingehen. Bei der Auswahl der folgenden Beispiele ging es mir darum solche zu nehmen, die gut -- und zwar im Netz -- dokumentiert sind, möglichst schon durchgeführt werden und sich auf unterschiedliche Internetressourcen beziehen.

Ich gehe nicht auf die Suchmaschinen ein, die mit Werteskala oder/und Annotierung arbeiten, denn

  1. haben diese im allgemeinen eher ein anderes Zielpublikum. Z.B. sind für Magellan u.a. Kriterien zum Netappeal wie hot, hip or cool, funny wichtig. Oder in Yahoo! Internet Life geht es um Reviews of the Best sites for fun, profit and personal growth.
  2. werden in Zukunft viele gerade wissenschaftlich interessante Seiten den Suchmaschinen nicht mehr zugänglich sein. Bei sogenannten dynamischen Webseiten werden die Daten erst dann aus dahinter liegenden Datenbanken zusammengestellt, wenn ein Benutzer eine konkrete Anfrage stellt. Im einfachsten Fall ist es dann wie bei Spektrum der Wissenschaft, das plant ein Archiv veröffentlichter Artikel sowie einen Nachrichtendienst anzubieten. Auf Anfrage im Netz werden die Daten auf die Anfrage zugeschnitten zusammengestellt. Die Daten liegen aber nicht auf dem Netzserver des Verlages, sondern in einer eigenen, für Indexroboter unzugänglichen Datenbank. (s. Lynch, Clifford: Strategien der Informationssuche. -- In: Spektrum der Wissenschaft. -- ISSN 0170-2917. -- 5 (Mai), 1997. -- S. 92)

2. Die Beispiele


Spricht man von Qualität von Internetressourcen, hat man es zuerst einmal mit der Qualität unterschiedlicher Ebenen zu tun:

  1. die oberste Ebene: hier geht es um die Verzeichnisse von Links zu weiterführenden Verzeichnissen (u.a. Homepages)
  2. die mittlere Ebene: Verzeichnisse von Dokumenten und Links zu anderen Seiten (insbesondere Homepages)
  3. die unterste Ebene: die Dokumente selbst. Hier sind u.a. elektronische Zeitschriften und Mailinglisten zuzuordnen.

Der Wissenschaftler erwartet, daß alle drei Ebenen qualitätsvoll sind, denn was nützt die beste Homepage, wenn sie auf schlechte Dokumente verweist. So ist die oberste Ebene davon abhängig, daß die mittlere Ebene tatsächlich die Relevanz der einzelnen Ressourcen geprüft hat.

Zu beachten ist außerdem, daß eine Reihe von Qualitätsanforderungen für alle Ebenen gelten, manche aber nur für eine.


2.1 Die oberste Ebene


Die oberste Ebene wird gezeigt an den Projekten WWW Virtual Library (WWWVL) und The Argus Clearinghouse und dem Versuch, Abstimmungen über die Qualität einer Seite herbeizuführen. Zu dieser Ebene gehören aber auch die im Internet angebotenen Kataloge z.B. der Verbundkatalog des SWB und WebDoc (beide kostenfrei), OLUC und die Australische Nationalbibliographie (kostenpflichtig). Diese Kataloge verknüpfen im allgemeinen direkt zu den Dokumenten. Die Qualität dieser Datenbanken zu beurteilen, würde ein eigenes Thema sein. Man müßte sich mit den mehr oder weniger (eher weniger) brauchbaren Regelwerken und Formaten auseinandersetzen, die zum Aufbau dieser Datenbanken genutzt werden.

Es darf nicht unterschlagen werden, daß m.E. gute Ansätze vorliegen, die Qualität der Datenbanken wesentlich zu steigern. So beginnt der SWB sogenannte inhaltliche Metadaten (Abstracts, Summaries, Rezensionen, Textproben) dem Benutzer als Vorausinformation anzubieten. (s. Dierig, Thomas: Frontdoor / Dublin Core Metadaten im virtuellen Medienserver des SWB-Verbunds. -- Konzept vom 15. 5. 1997. -- Unveröffentlicht).


Das WWW Virtual Library Project:

Ein relativ früher Versuch, das Internet sachlich zu erschließen, ist das WWW Virtual Library (WWWVL) Project, das 1991 bei CERN mit wenigen Mitarbeitern begonnen wurde, seit 1993 aber weltweit von vielen Freiwilligen betreut wird. Die Idee dahinter war, daß es möglich sein sollte, einen weltweiten hierarchisch aufgebauten Sachkatalog zu erstellen, indem man viele einzelne Sachkataloge jeweils getrennt erarbeiten läßt. Also so, wie wenn man die Sachkataloge aller Spezialbibliotheken zusammenführen würde. Es wird ausdrücklich betont, daß die Mitarbeiter jeweils die Klassifikation nehmen sollen, die für ihr Fach wissenschaftlich anerkannt ist. Bei der Auswahl der Internetressourcen soll auf äußere und innere Qualität geachtet werden. Da dafür keine Kriterien festgelegt wurden, man sich aber über die Notwendigkeit gewisser einheitlicher Regeln bewußt war, bildete man eine eigene Information Quality WWW Virtual Library. Danach sollen Virtual Libraries mindestens folgende Standards erfüllen:

Zur Pflege einer virtuellen Bibliothek gehört auch, den Nutzern mitzuteilen, was neu ist. Eine hilfreiche Lösung bietet T. Matthew Ciolek, der in der Research School of Social Sciences -- eine Abteilung der Australian National University in Canberra - für acht virtuelle Bibliotheken zuständig ist: er pflegt u.a. einen What´s New in WWW Asian Studies Newsletter, in dem er neue Internetseiten in einer festen Form mit Kurzbeschreibung und mit Bewertung ankündigt.

Beispiel :

09 Dec 1996
International Rice Research Institute (IRRI)
IRRI, Philippines
IRRI is a non-profit agricultural research and training center established in 1960 to improve the Well-being of present and future generations of rice farmers and consumers, particularly those with low incomes. Site contents: facts about IRRI; Issues in Rice Research; links to sites of West Africa Rice Development Association (WARDA), Cote d'Ivoire, and the Centro Internacional de Agricultura Tropical (CIAT), Colombia; the searchable library catalogue; the searchable international Rice bibliography.
URL http://www.cgiar.org/irri/Index.htm
Information supplied by: Margarete Payer (mpayer@coombs.anu.edu.au)
* Contents' rating [essential - v.useful - useful - interesting - feeble]: V.Useful

Seiten mit reiner Werbung oder mit leeren Seiten (under construction) werden nicht nachgewiesen.

Nach wie vor sind die einzelnen virtuellen Bibliotheken sehr unterschiedlich:

Alle vorhandenen Virtuellen Bibliotheken sind in drei unterschiedlichen Verzeichnissen bzw. Übersichten aufgelistet:

Bis November November 1996 gab es noch einen Index zu den Virtuellen Bibliotheken nicht mehr. Seither gibt es ihn leider nicht mehr.


Das Clearinghouse-Konzept:

Vergleichbar mit der WWW Virtual Library ist das The Argus Clearinghouse. Es wurde 1993 unter dem Namen Clearinghouse for Subject Oriented Internet Resource Guides von der University of Michigan School of Information and Library Studies entwickelt. Das Personal der inzwischen verantwortlichen Firma Argus Associates setzt sich nur aus Leuten mit Master in Information and Library Science zusammen.

Zur Zeit wird noch das Gründungskonzept verfolgt:

  1. Zielsetzung: Das Clearinghouse stellt einen zentralen Zugangspunkt für sachbezogene Führer, die Internetressourcen beschreiben und bewerten, zur Verfügung. Wichtig ist intellektuelles Bearbeiten und die kostenlose Zurverfügungsstellung der Daten.
  2. Vorgehensweise: Um nutzbare Ressourcen im Internet zu finden, werden automatische Suchtechniken genutzt, die Ergebnisse aber intellektuell überarbeitet. Man geht davon aus, daß auch in naher Zukunft der Mensch für eine qualitative Auswahl gebraucht wird. Das Clearinghouse versteht sich als Zentrale für diese Bemühungen, an denen sich jeder beteiligen kann, der eine Liste zu einem bestimmten, in der Regel engen Sachgebiet zusammengestellt hat und es regelmäßig überarbeitet. Anders als bei der virtuellen Bibliothek werden sämtliche Internet und Usenetquellen beachtet.

Es gibt verbindliche Vorschriften für diese Listen:

  1. Beschreibung der Quelle: z.B. Sind Schlagworte vergeben? Ist ein Abstract erstellt? Ist der beabsichtigte Empfänger der Ressource genannt? Wird die Art der Mailing-Liste (moderiert...) angegeben? Wie häufig werden die Dokumente überarbeitet? Wie ist der Zugang ? Wie ist die Erreichbarkeit des Servers?
  2. Wertung der Ressourcen: z.B. wird die Qualität des Inhalts und die Kompetenz des Verfassers angegeben?
  3. Die Gestaltung der Liste: z.B. kann man Illustrationen schnell laden? Unterstützen sie das Navigieren? Wie ist das Layout (Kopf, wechselnde Schriftgröße...)?
  4. Die Anordnung der Liste: Welches Ordnungsschema ist verwendet?
  5. Metainformationen über die Liste: z.B. Ist angegeben: Zu welchem Zweck wurde die Liste erstellt? Inhalt? Welche Inhalte sind ausgeschlossen? Informationen über Autor und Affiliation mit Kontaktadresse? Updatehäufigkeit? Ist der Titel der Liste aussagekräftig?

Trotz der professionellen Vorschriften sind die Listen sehr unterschiedlich. Neben Listen mit eng begrenzten Sachgebieten - was eigentlich gewünscht ist - sind Listen mit sehr umfassenden Sachgebieten vertreten. Z.B. gibt es in der Gruppe Gesundheit und Medizin eine Liste über Medizin -- alle Aspekte neben einer Liste über Fibromyalgia. Außerdem werden nebeneinander Listen mit gleichlautenden Sachgebieten genannt, z.B. fünfmal Tabak, Rauchen, Sucht. Manche Ersteller von Listen fügen kommerzielle Eigenwerbung ein oder Werbung für Interessengruppen . Z.B. verweisen ebenfalls in der Gruppe Gesundheit und Medizin das Stichwort Heilung auf Brother David´s Library of Wisdom. Das ist die Homepage der "Wächter des Lichts", einer New Age-Gruppe.


Qualitätsbewertung durch Voting:

Um Aussagen darüber machen zu können, was die Nutzer von der Qualität von bestimmten Internetangeboten halten, werden im Internet Abstimmungen durchgeführt. Als Beispiel nehme ich das von Ciolek 1994 entwickelte Voting-System. Es ist praktisch ein Wettbewerb um die beste WWW-Seite aus den Bereichen Geisteswissenschaften, Humanwissenschaften, pazifisch-asiatische Studien. Die Internetnutzer werden aufgefordert, WWW-Seiten für den Wettbewerb zu melden und gemeldete Seiten zu bewerten. Für die Abgabe der Bewerbungen und Bewertungen wird jeweils ein bestimmter Zeitraum festgelegt.

Die Bewertung hat drei Komponenten:

  1. Qualität, Zuverlässigkeit und Wert der angebotenen Information (1 bis 25 Punkte)
  2. Klarheit der Struktur und Einfachheit des Navigierens (1 bis 15 Punkte)
  3. Darbietung, Eleganz und Handlichkeit (1 bis 10 Punkte)

Durch die Aufteilung in mehrere Komponenten kann man die Ergebnisse besser analysieren: Beste Datenqualität, beste Datenorganisation, Beste Datenpräsentation und die Beliebtheit der Ressource.

Ich habe Zweifel, ob dieses sehr zeitaufwendige Verfahren wirklich geeignet ist, die Qualität von Internetangeboten zu bewerten. Betrachtet man die Besten von 1995, dann sind darunter drei WWW-Seiten, die vor allem durch die für die Sache nicht nötige Anwendung von technischen Features auffallen. Allerdings beteiligen sich relativ wenig Nutzer an der Stimmabgabe, obwohl die Seiten stark besucht werden. (Für die Stimmperiode 15.10.96 bis 15.1.97 lagen bis zum 26.11.96 44 Nennungen und 302 Wertungen vor). Bei sowenig Stimmabgaben ist die Möglichkeit der Manipulation hoch, so stimmten z.B. für die Seite eines Nepalesen etwa 20 Mitglieder seiner eigenen Familie. An einer Universität in den USA scheint wohl ein ganze Seminargruppe für die Seite ihres Dozenten gestimmt zu haben. Warum beteiligen sich so wenige?

Es gibt auf dem Netz auch grundsätzliche Kritik an solchen Wettbewerben: wenn jeder nur noch drauf aus ist, die beste Homepage zu haben, ist man nicht mehr bereit, mit anderen zusammenzuarbeiten, was bisher als wesentlich in der Internetkultur angesehen wurde. Außerdem wird vieles verdoppelt, weil jeder alles in seiner Homepage haben will.

Eine gewisse äußere Hilfe bei der Bewertung von Internetmaterialien gibt die Statistik, die angibt, wie viele Links jeweils auf ein bestimmtes Material eingerichtet wurden. Ich würde das so einschätzen wie ein Citation Index. Die Zählungen dagegen, die man auf manchen Homepages findet (der 1000ste Besucher u.ä.), täuschen nur Wichtigkeit vor. Auch die Zugangsstatistiken zu einzelnen Dokumenten sagen in erster Linie etwas darüber aus, wie aktuell das Thema gerade ist. Aktualität aber ist ein Qualitätskriterium. Allerdings sind die Zugangsstatistiken zu den Einzeldokumenten im Regelfall nur dem Besitzer zugänglich, was für die Verwaltung seiner eigenen Homepage wichtig ist. Man kann nicht mehr abgefragte Dokumente zurückziehen.


2.2 Die mittlere Ebene


Die Frage nach der Qualtität von Homepages ist ja schon in den Auswahlkriterien der obersten Ebene enthalten. Da viele Homepages vergleichbar sind mit Referenzbüchern, kann man als Kriterien für die Güte durchaus solche heranziehen, die aus der Buchwelt stammen. Das ist das Anliegen einer Gruppe innerhalb der American Library Association:


Materials Reviewing Committee of the American Library Association´s Reference and User Services Association:

Unter den Kriterien für Qualität von Referenzbüchern gelten u.a. folgende auch für WebSeiten:

Kriterien sind entnommen aus: Rettig, James: Beyond "cool" : analog models for reviewing digital resources. -- In: Online, September 1996. -- Zugriff am 1. 6. 1997. -- URL: http://www.onlineinc.com/onlinemag/SeptOL/rettig9.html


2.3 Die unterste Ebene - die Dokumentenebene


Hier muß man unterscheiden zwischen sogenannten elektronischen Publikationen also Dokumenten, die original im und für das Netz entstanden sind (also im allgemeinen nur elektronisch zugänglich sind) und solchen, die nachträglich digitalisiert wurden und werden. Im SWB wird als Bezeichnung für letztere "E-Reprint" vorgeschlagen. Bei den elektronischen Reprints kann man zumindest bei den großen Digitalisierungsprojekten davon ausgehen, daß man sich die Mühe nur macht, weil die Dokumente für die Forschung relevant sind, also entsprechende zumindest inhaltliche Qualität aufweisen. Z.B. die Sammlung Leonard Bernstein mit Texten, Noten , Bildern und Musik, die die LoC digitalisiert und kostenfrei zur Verfügung stellen muß.

Als Beispiel für die Vorgehensweise bei der Auswahl elektronischer Publikationen möchte ich die National Library of Australia nehmen.


National Library of Australia:

Die Australische Nationalbibliothek, deren Aufgabe es ist, das kulturelle Erbe Australiens zu sammeln, zu erschließen und zu bewahren, wählt elektronische Dokumente nach Qualität aus. Dafür hat man eine Kriterienliste erstellt, die u.a. folgendes enthält:

In einem sehr zeitraubenden Auswahlverfahren anhand dieser Kriterien hat man im Jahr 1996 von 1800 aus dem Internet gefischten Dokumenten 160 Titel ausgewählt (also 9% der in Frage kommenden Dokumente). Die Bibliothekare verlassen sich bei der Beurteilung auf ihre Erfahrung, auf ihre Kenntnisse bedeutender Körperschaften und Personen Australiens und auf ihre Kenntnisse der Sammlungen der Nationalbibliothek. Abgesehen von der m.A. zu strengen und zu arbeitsaufwendigen Auswahl kommen die Interessen der Klientel immer dann zu kurz, wenn eine qualitätsvolle Ressource nicht aufgenommen wird, weil in den Sammlungen der Bibliothek schon etwas Gleichwertiges in Druck, auf Mikrofiche u.ä. vorliegt.


3. Eine Zusammenstellung von Qualitätskriterien


Im folgenden versuche ich aus den oben genannten Kriterien und weiteren zahlreichen Checklisten die im Netz inzwischen zu finden sind eine Kriterienliste für die Beurteilung der Qualität von Ressourcen für den wissenschaftlichen Bereich zu erstellen. Es empfiehlt sich die Liste zu unterscheiden in formale und inhaltliche und Gesichtspunkte der Darbietung


Formale Gesichtspunkte

Das Einhalten formaler Standards kann man von wissenschaftlichen Texten erwarten.

Bezüglich der Zitierbarkeit:

Bezüglich der Verwendbarkeit:

Dieser Teil sollte möglichst als normierte Metadaten dem HEAD des Dokuments hinzugefügt werden, dann könnte man mit automatischen Suchmaschinen schon eine gute Vorauswahl treffen. Leider verlangen weder die DC-Metadaten (Dublin Core Element Set) noch die URC (Uniform Resource Characteristics) alle oben angegeben Elemente. Vor allem das wichtige Element Zielgruppe fehlt in beiden Entwürfen.

Anmerkung: Allerdings sind innerhalb des Warwick Framework, einem Versuch, mehrere Metadatenschemata in einen Rahmen (container architecture) zu bringen, auch ausführliche Metadatenschemata wie z.B. MARC anwendbar.


Inhaltliche Gesichtspunkte


Gesichtspunkte der Darbietung

bezüglich des äußeren Erscheinungsbildes:

bezüglich der Semantik:

bezüglich der Benutzerfreundlichkeit:


4. Schlußbemerkung


Inzwischen gibt es eine ganze Reihe von Projekten, die versuchen, möglichst unter Nutzung von Automatisierung die als gut befundenen Ressourcen zu finden. Diese Projekte setzen eine Erschließung mit Metadaten voraus bzw. machen Vorschläge für die Erweiterung und Verbesserung vorliegender Metadatenentwürfen. Auf europäischer Ebene ist das z. B. das Projekt Desire, das europäischen Forschern helfen will, für ihr Forschungsgebiet relevante Informationen zu lokalisieren und zu erhalten.

Vgl. Dempsey, Lorcan: Roads to Desire : some UK and other European metadata and resource discovery projects. -- In: D-Lib Magazine. -- ISSN 1082-9873. -- July/August 1996. -- URL: http://www.dlib.org/dlib/july96/07dempsey.html. -- Zugriff am 7. 6. 1997

Das aber wäre ein weiteres Thema.