mailto: payer@hdm-stuttgart.de
Zitierweise / cite as:
Payer, Margarete <1942 - > ; Payer, Alois <1944 - >: Inhaltliche Strukturierung von Ressourcen : eine Einführung in XML. -- 1. Einleitung. -- Fassung vom 2002-11-19. -- URL: http://www.payer.de/xml/xml01.htm. -- [Stichwort].
Erstmals publiziert: 2002-10-29
Überarbeitungen: 2002-11-19 [Ergänzungen]
Anlass: Lehrveranstaltungen an der HdM Stuttgart, 2002/03
Unterrichtsmaterialien (gemäß § 46 (1) UrhG)
©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Herausgeberin.
Dieser Teil ist ein Kapitel von:
Payer, Margarete <1942 - > ; Payer, Alois <1944 - >: Inhaltliche Strukturierung von Ressourcen : eine Einführung in XML. -- 0. Übersicht.. -- URL: http://www.payer.de/xml/xml00.htm
Dieser Text ist Teil der Abteilung Informationswesen, Bibliothekswesen, Dokumentationswesen von Tüpfli's Global Village Library.
Zum Zeitpunkt der Abfassung dieses Kapitels gilt XML 1.0 (Second Edition). -- W3C Recommendation 6 October 2000. -- Die jeweils neueste Version findet man unter URL: http://www.w3.org/TR/REC-xml. -- Zugriff am 2002-04-30.
Konkrete Utopie dieser Lehrveranstaltungen ist das Semantic Web [s. vor allem: http://www.w3.org/2001/sw/ . -- Zugriff am 2002-11-18 ]
"The Semantic Web will bring structure to
the meaningful content of Web pages, creating an environment where software
agents roaming from page to page can readily carry out sophisticated tasks
for users. Such an agent coming to the clinic's Web page will know not just
that the page has keywords such as "treatment, medicine, physical, therapy"
(as might be encoded today) but also that Dr. Hartman works at this
clinic on Mondays, Wednesdays and Fridays
and that the script takes a date range in yyyy-mm-dd format
and returns appointment times. And it will "know" all this without
needing artificial intelligence on the scale of 2001's Hal or Star Wars's
C-3PO. Instead these semantics were encoded into the Web page when the
clinic's office manager (who never took Comp Sci 101) massaged it into shape
using off-the-shelf software for writing Semantic Web pages along with
resources listed on the Physical Therapy Association's site. " Berners-Lee, Tim ; Hendler; James ; Lassila, Ora: The Semantic Web : a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. -- In: Scientific American. -- 2001-05. -- URL: http://www.scientificamerican.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21&catID=2. -- Zugriff am 2002-11-18] |
XML (Extensible Markup Language) ist ein stark vereinfachtes SGML (Standard Generalized Markup Language) (SGML minus minus (--)), das SGML für das WWW ebenso leicht anwendbar machen soll, wie HTML eine bestimmte DTD von SGML -- nämlich die HTML-DTD -- populär gemacht hat.
SGML -- Standard Generalized Markup Language ist eine Dokument-Definier-Sprache, die den Austausch von Informationen beliebiger Komplexität unabhängig von herstellerspezifischer Soft- und Hardware ermöglichen soll.
SGML ist internationaler ISO-Standard: ISO 8879 (1986): Information processing -- Text and office systems -- Standard Generalized Markup Language (SGML)
Markup-Languages sind keine neue Erfindung: in der Form von Satzanweisungen waren sie ein unentbehrliches Hilfsmittel für Verfasser und Lektoren, um Schriftsetzern ihre Wünsche mitzuteilen, wie das Manuskript (die "Ausformung" des Werkes) in eine "Manifestation" umgesetzt werden soll. Die folgenden Abbildungen zeigen einen Ausriss einer solchen Markup-Language, wie sie in den 60er und 70er-Jahren des 20. Jahrhunderts in Deutschland gebräuchlich war:
Markup | Beispiel |
---|---|
|
|
Abb.: "Klassische" Markup-Language: Markup für Buchsatz
Quelle der Abbildung:
Satzanweisungen und Korrekturvorschriften : mit ausführlicher Beispielsammlung / hrsg. von der Dudenredaktion und der Dudensetzerei. -- Mannheim : Bibliographisches Institut, ©1969. -- 187 S. : Ill. -- (Duden-Taschenbücher ; 5/5a). -- [Ein "klassisches" Regelwerk einer Markup-Language für die Epoche der traditionellen Buchproduktion]
Für den anglo-amerikanischen Raum sind die Regeln einer dieser klassischen Markup-Languages (neben vielem anderen) immer noch enthalten in:
The Chicago Manual of Style. -- 14. ed. -- Chicago [u.a.] : Univ. of Chicago Press, ©1993. -- 921 S. : Ill. -- ISBN 0226103897. -- {Wenn Sie HIER klicken, können Sie dieses Buch bei amazon.de bestellen}
1990 fasste die SGML User's Group die Geschichte von SGML so zusammen:
"A Brief History of the Development of SGML (C)1990 SGML Users' Group (11 June 90) Permission to reprint is granted provided that no changes are made, and provided this notice is included in all copies.SGML, in its present form, is the result of the efforts of many people, channelled into four major activities that occurred over the past twenty years: generic coding, the GML and SGML languages, the SGML standard, and major SGML applications. 1. The generic coding conceptHistorically, electronic manuscripts contained control codes or macros that caused the document to be formatted in a particular way ('specific coding'). In contrast, generic coding, which began in the late 1960s, uses descriptive tags (for example, 'heading', rather than 'format-17'). Many credit the start of the generic coding movement to a presentation made by William Tunnicliffe, chairman of the Graphic Communications Association (GCA) Composition Committee, during a meeting at the Canadian Government Printing Office in September 1967: his topic -- the separation of the information content of documents from their format. Also in the late 1960s, a New York book designer named Stanley Rice proposed the idea of a universal catalog of parameterized 'editorial structure' tags. Norman Scharpf, director of the GCA, recognized the significance of these trends, and established a generic coding project in the Composition Committee. The committee developed the 'GenCode(R) concept', recognizing that different generic codes were needed for different kinds of documents, and that smaller documents could be incorporated as elements of larger ones. The project evolved into the GenCode Committee, which later played an instrumental role in the development of the SGML standard. 2. GML and SGML: languages for generic codingIn 1969, Charles Goldfarb was leading an IBM research project on integrated law office information systems. Together with Edward Mosher and Raymond Lorie he invented the Generalized Markup Language (GML) as a means of allowing the text editing, formatting, and information retrieval subsystems to share documents. GML (which, not coincidentally, comprises the initials of its three inventors) was based on the generic coding ideas of Rice and Tunnicliffe. Instead of a simple tagging scheme, however, GML introduced the concept of a formally-defined document type with an explicit nested element structure. Major portions of GML were implemented in mainframe 'industrial strength' publishing systems by IBM and others and achieved substantial industry acceptance. IBM itself, reckoned to be the world's second largest publisher, adopted GML and now produces over 90% of its documents with it. After the completion of GML, Goldfarb continued his research on document structures, creating additional concepts, such as short references, link processes, and concurrent document types, that were not part of GML but were later to be developed as part of SGML. 3. Development of SGML as an International StandardIn 1978, the American National Standards Institute (ANSI) committee on Information Processing established the Computer Languages for the Processing of Text committee, chaired by Charles Card, then of Univac, with Norman Scharpf as a member. Goldfarb was asked to join the committee and eventually to lead a project for a text description language standard based on GML. The GCA GenCode committee supported the effort and provided a nucleus of dedicated people for the task of developing Goldfarb's basic language design for SGML into a standard. The first working draft of the SGML standard was published in 1980. By 1983, the GCA was able to recommend the sixth working draft as an industry standard (GCA 101-1983). Major adopters included the US Internal Revenue Service (IRS) and the US Department of Defense. In 1984, with feedback from the GCA standard in hand, three more working drafts were produced. The project, which had been authorized by the International Organization for Standardization (ISO) as well as ANSI, reorganized. It began regular international meetings as what is now called ISO/IEC JTC1/SC18/WG8, chaired by James Mason of the US Oak Ridge National Laboratory. Work also continued in the ANSI committee, now called X3V1.8, chaired by William Davis of SGML Associates, and supported by the GCA GenCode committee, chaired by Sharon Adler of IBM. Alignment between ISO and ANSI was maintained by Goldfarb continuing as technical leader, serving as project editor for both groups. In 1985, a draft proposal for an international standard was published and the international SGML Users' Group was founded in the the UK by Joan Smith, who became its first president. Together with the GCA in North America, it played a vital role in educating the public about SGML and communicating user reactions and comments back to the development project. A draft international standard was published in October 1985, and was adopted by the Office of Official Publications of the European Community. Another year of review and comment resulted in the final text, which -- using an SGML system developed by Anders Berglund, then of the European Particle Physics Laboratory (CERN) -- was published in record time after approval (ISO 8879:1986). 4. Important early applications of SGMLSGML applications are frequently developed for use by a single organization or a small community of users. Two early applications were developed with much broader participation: the Electronic Manuscript Project of the Association of American Publishers (AAP), and the documentation component of the Computer-aided Acquisition and Logistic Support (CALS) initiative of the US Department of Defense. a) Electronic Manuscript ProjectFrom 1983 to 1987, an AAP committee, chaired by Nicholas Alter of University Microfilms, developed an initial SGML application for book, journal, and article creation. The application is intended for manuscript interchange between authors and their publishers, among other uses, and includes optional element definitions for complex tables and scientific formulas. The technical work was led by Joan Knoerdel of Aspen Systems, with participation by over thirty information processing organizations, including the IEEE, Council on Library Resources, American Society of Indexers, US Library of Congress, American Chemical Society, American Institute of Physics, Council of Biology Editors, and American Mathematical Society. The AAP industry application standard has achieved significant acceptance, and has particularly been embraced by the emerging CD-ROM publishing industry. It has been adopted as a formal ANSI application standard (Z39.59) and a corresponding ISO standard is under development. b) Computer-aided Acquisition and Logistic Support (CALS)The SGML portion of CALS was initiated in February 1987 when Bruce Lepisto of the Department of Defense organized a committee to address the subject. The committee consisted of John Bean of Northrup, Pam Gennusa of Datalogics, Ed Herl of the US Army, and Mary McCarthy and Dave Plimier of the US Navy. They were subsequently joined by hundreds of representatives of military contractors and military commands, who participated in additional development and review. Their efforts led to the publication of a military standard (MIL-M-28001) in February 1988. Similar SGML projects are under way in the defense departments of Canada, Sweden, and Australia, and are under consideration by other countries. " [Quelle: http://www.sgmlsource.com/history/sgmlhist.htm. -- Zugriff am 2002-10-15] |
Ausgangspunkt zu SGML in ihrer jetzigen Form war der Paradigmawechsel vom Konzept des Specific Coding (Procedural Markup) zum Konzept des Generic Coding (Descriptive Markup).
Vermutlich geht die Anregung zu diesem Paradigmenwechsel auf William Tunnicliffe zurück, der 1967 bei einer Sitzung des Canadian Government Printing Office vorschlug, den Informationsgehalt eines Dokumentes von seinem Format zu trennen. Diese und andere Anregungen führten zur Gründung des Generic Coding Projekt innerhalb des Composition Committe der Graphic Communications Association (GCA). In diesem Projekt wurde das GenCode(R)-Konzept entwickelt: man erkannte, dass verschiedene Arten von Dokumenten verschiedene Codes benötigen und, dass man kleinere Dokumente als Elemente in größere Dokumente einbinden könnte.
|
Edward Mosher |
|
[Bildquelle: http://www.wls.com.sg/high.htm. -- Zugriff am 2002-10-15] | [Bildquelle: http://www.mcjones.org/System_R/lorie.html . -- Zugriff am 2002-10-15] |
Es zeigte sich bald, dass der Versuch, ein Generic Coding für alle Dokumententypen zu entwerfen, daran scheitern würde, dass es zu viele verschiedene Dokumententypen mit zu vielen unterschiedlichen Arten von Elementen gibt. Die Lösung fand man darin, dass man SGML nicht als eine Gesamtheit von standardisierten Codes entwarf, sondern als eine Art Programmiersprache, mit der man eine Dokumenten-Typ-Definition (document type definition) (DTD) erstellen konnte. Die DTD kann die Elemente usw. definieren, die man für ein Dokument oder eine Gruppe ähnlicher Dokumente benötigt. Das Vorbild dafür lieferten Programmiersprachen, die es erlauben "primitives" zu definieren, Grundoperationen, die man in einem header file zusammenstellen kann, um Befehle zu definieren, die das Programm dann benutzt.
1980 wurde ein erster Entwurf von SGML veröffentlicht. Im Oktober 1985 wurde ein Draft International Standard veröffentlicht und vom Office of Official Publications of the European Community angenommen. 1986 wurde der endgültige Text, der am CERN ausgearbeitet wurde, von ISO als Standard akzeptiert und in Rekordzeit veröffentlicht.
SGML wurde in Fachkreisen sehr positiv aufgenommen und in großem Umfang angewendet, so z.B. beim US-Militär, oder beim Flugzeughersteller Boeing, bei dem allein die Dokumentation für die Boeing 747 über 4 Millionen Seiten umfasst, die auf Grundlage von SGML-DTDs strukturiert sind.
1989 entwickelte Tim Berners-Lee (geb. 1955 in London) am Europäischen Kernforschungszentrum CERN in Genf eine DTD (Document Type Description) auf der Grundlage von SGML, erweitert um die Möglichkeit von Hyperlinks. Zweck dieser einfachen Form von HTML (Hypertext Markup Language) war der interne Austausch von Dokumenten zwischen Physikern. Zusammen mit dem Internetprotokoll HTTP wurde HTML ein Riesenerfolg: auf dieser Grundlage entstand das WWW (World Wide Web).
Im WWW (World Wide Web) tauchten aber immer mehr proprietäre HTML-Erweiterungen auf (vor allem von Netscape und Microsoft). Darauf reagierte das World Wide Web Consortium unter Leitung von Tim Berners-Lee, dem Erfinder von HTML, ab ca. 1996 auf folgend Weisen:
SGML erlaubt die Bildung von sogenannten SGML profiles. Ein SGML profile ist eine Anzahl von Regeln, die auf verschiedene SGML Document types anwendbar sind. Ein profile kann
Das erste öffentlich definierte profile von SGML ist XML. XML ist für das WWW optimiert.
Abb.: Yuri Rubinsky (1952 - 1996) [Bildquelle:
http://www.oclc.org/oclc/new/n212/rspic01.htm. -- Zugriff am 2002-10-15]
Abb.: Jon Bosak [Bildquelle:
http://servlet.java.sun.com/javaone/javaone00/press/photos3.html. --
Zugriff am 2002-10-15]
"The Birth of XML : A Personal Recollection By Jon Bosak Solaris Global Engineering and Information Services XML arose from the recognition that key components of the original web infrastructure -- HTML tagging, simple hypertext linking, and hardcoded presentation -- would not scale up to meet the future needs of the web. This awareness started with people like me who were involved in industrial-strength electronic publishing before the web came into existence. I learned the shape of the future by supervising the transition of Novell's NetWare documentation from print to online delivery. This transition, which took from 1990 through 1994 to implement and perfect, was based on SGML. The decision to use SGML paid off in 1995 when I was able single-handedly to put 150,000 pages of Novell technical manuals on the web. This is the kind of thing that an SGML-based system will let you do. A more advanced and heavily customized version of the same system, built on technology from Inso Corporation, is used today for Solaris documentation under the name AnswerBook2. You can see it running at http://docs.sun.com, which looks like an HTML web site but in fact contains no HTML; all of the HTML is generated the moment it's needed from an SGML database. (You can get XML from this site if you know how -- but that's another story.) Like many of my colleagues in industry, I had learned the hard way that nothing substantially less powerful than SGML was going to work over the long run. So from the very earliest days of the World Wide Web Consortium, there was a small group of us who kept saying, "You have to put SGML on the web. HTML just won't work for the kinds of things we've been doing in industry." Now, the people in charge of the W3C were far from ignorant about SGML. Dan Connolly, in particular, saw very early the need to standardize HTML itself as a proper SGML language, and by the beginning of 1996, he had created a placeholder for some future SGML work within the W3C. But W3C didn't have the resources to pursue this direction, and outside of the few of us who had already been through the development of large-scale electronic publishing systems, no one else really understood the problem. I had been pestering W3C about SGML and about DSSSL, the SGML stylesheet language, right from the beginning, while I was still working at Novell, and I kept this up after I went to work for Sun. Finally, in early May of 1996, Dan challenged me to put Sun's money where my mouth was -- to organize and lead a W3C working group to put SGML on the web. This was an unprecedented offer, because up until then, all W3C working groups had been organized and run by W3C staff. Dan's willingness to go beyond established practice was the first key development in the process that led to XML. Dan's offer came just as I was beginning a three-week series of WWW, SGML, and ISO conferences in Europe. This tour put me in touch with just about everyone I needed to talk to about the idea, and by the time I got back home, I had managed to recruit some of the world's leading SGML experts for the "Web SGML" initiative and had secured funding from my management at Solaris Global Engineering and Information Services to carry out the work. This was the second critical turn in the path to XML. Many people know that XML grew out of the expertise of the SGML community, but few people realize even today that the whole two-year effort to develop XML was organized, led, and underwritten by Sun. It was obvious from the beginning of what was originally called the Web SGML Activity (the name XML was suggested by our technical lead, SGML/DSSSL guru James Clark, several months later) that it would need the support of at least one of the two major vendors of web browsers. In June of 1996 I succeeded in persuading Jean Paoli of Microsoft to join the working group. This turned out to be especially important, because in addition to his SGML expertise, Jean was eventually able to convince Microsoft to adopt the technology. The basic design of XML was accomplished in eleven weeks of feverish activity under the guidance of editors Tim Bray and C. M. Sperberg-McQueen. The work started in the last few days of August, 1996, and ended with the release of the first XML draft at the SGML '96 conference in November. While it took another year to finish working out all the details, virtually every basic feature of XML as we know it today was specified in that first published draft. This remarkable achievement is a tribute to the team spirit and world-class expertise of the original design group. I am proud to have had the honor of leading this group and proud of my management at Sun for having had the vision to underwrite the effort. " [Quelle: http://java.sun.com/xml/birth_of_xml.html. -- ©Sun Microsystems, Inc. -- Zugriff am 2002-11-18] |
Abb.: Schematischer Stammbaum von XML
Für alle hier genannten und weitere Normen sind schon spätere Versionen bzw. Überarbeitungen in Arbeit. Den neuesten Stand der Arbeit sowie die jeweils geltenden oder als letzte vorgeschlagenen Versionen der Normen findet man auf der Webpräsenz des WWW Consortium (W3C). -- URL: http://www.w3.org/. -- Zugriff am 2002-10-15
SGML -- Standard Generalized Markup Language | Allgemeine Markup-Language für alle Arten von Anwendungen: von der Transkription sumerischer Tontäfelchen bis zur technischen Dokumentation von Weltraumfahrzeugen, von Patientendaten bis zu musikalischen Notationen |
---|---|
XML -- Extensible Markup Language | Vereinfachte Fassung von SGML. XML ist SGML--, nicht HTML++ |
HTML -- HyperText Markup Language | Ein document type, der mittels SGML definiert ist |
XML befreit das WWW von:
Für Kenner von HTML ist es wichtig, folgende Unterschiede zwischen XML und HTML zu beachten:
HTML | XML |
---|---|
HTML als SGML-Anwendung definiert die Anwendungselemente, z.B. <P>, <H1> u.ä. HTML stellt also Allzweck-Elemente zur Verfügung | XML definiert keine Auszeichnungselemente, sondern dient dazu, dass der Nutzer seine eigenen Auszeichnungselemente schafft, z.B: <Kapitel>, <Katzenrasse>. XML dient dazu, zweckspezifische Elemente zu schaffen. |
Groß- und Kleinschreibung innerhalb der Tags macht keinen Unterschied | Groß- und Kleinschreibung sind strikt zu beachten |
Tags ohne End-Tag sind in bestimmten Fällen zulässig | Tags müssen immer durch Endtag abgeschlossen werden |
Leere HTML-Tags stehen allein, z.B. <BR> | Leere XML-Tags müssen als solche so gekennzeichnet sein < />, z.B. <BR/> |
Leerzeichen im Inhalt werden meist bis auf eines gekürzt | XML behandelt Leerzeichen als Teil des Inhalts |
HTML ist ein Mix zwischen inhaltlicher Strukturierung und Formatierung des Outputs | XML unterscheidet strikt zwischen inhaltlicher Strukturierung und Formatierung. Inhaltliche Strukturierung geschieht augrund von DTDs, Formatierung für den Output ist Aufgabe von Stylesheets. Man sollte immer bestrebt sein, Format-Informationen von der Ressource zu trennen und in externen Stylesheets zu definieren. Nur so nutzt man die fast unbegrenzte Output-Flexibilität, die XML ermöglicht. |
HTML-Browser sind (z.B. Internet-Explorer, Netscape, Mozilla, Opera) sind sehr tolerant gegenüber syntaktischen Fehlern | XML-Parser sind absolut intolerant gegenüber syntaktischen und formalen Fehlern: Wenn ein Markup-Zeichen an falscher Stelle steht oder an geforderter Stelle fehlt, oder wenn die Groß- und Kleinschreibung nicht korrekt ist, meldet der Parser einen Fehler und bricht normalerweise die weitere Verarbeitung ab. Erst wenn alle Syntax-Fehler behoben sind, gilt die Ressource als wohlgeformt und die Verarbeitung kann weiter gehen. |
XML im weiteren Sinn ist eine ganze "Familie" von Standards, die sich systematisch so gruppieren lassen:
1. | Gedankliche Konzeption | als solche nicht darstellbar |
---|---|---|
2. | Computer-Fassung von Werk | als solche nicht darstellbar |
3. | Computerfassung von Ausformung | als solche nicht darstellbar |
4. | Computerfassung der Manifestation | darstellbar |
5. | Physische Darstellung des Einzelexemplars | benutzbar |
Werk | Statistische Datenbanken des Bundes und der Länder |
|||||
---|---|---|---|---|---|---|
Ausformungen | Statistisches Jahrbuch der BRD | Länderberichte (ausländische Staaten) | Atlas | Agrarstatistik usw. | ||
Manifestationen | Druckausgabe | CD-ROM | On-line | |||
Einzelexemplare | gedruckte Bücher | physische CD-ROMs |
On-line Sites | ..... |
Die folgende Abbildung fasst an einem Beispiel zeitgemäßes XML-gestütztes Publizieren zusammen:
Abb.: XML-gestütztes Publizieren
Im hier schematisch wiedergegebenen Beispiel wird die Ausformung eines Werkes (XML) in verschiedenen Manifestationen publiziert:
als Druckanweisung (Postscript)
als HTML-File
als Audio-File (.au)
Diese Manifestationen werden als Einzelexemplare realisiert:
als gedruckte Bücher
als Bildschirmdarstellungen bzw. Ausdrucke von WWW-Pages
als Lautwiedergabe von Audio-Files (z.B. von Kassette, CD-ROM, im Radio, im WWW usw.)
Zur Umwandlung einer auf der Grundalge von XML markierten Ressource in eine darstellbare Manifestation (eine formatierte Ressource) sollen ausschließlich Stylesheets dienen. An Stylesheet-Sprachen stehen zur Verfügung:
Da XML sehr flexibel und nicht propietär (für eine bestimmte Anwendungssoftware) ist, eignet es sich auch hervorragend für die Formulierung von Formaten für den Datenaustausch zwischen verschiedensten Anwendungen (Datenbanken, Tabellenkalkulationen, Texteditoren usw.).
Standards:
WWW Consortium (W3C). -- URL: http://www.w3.org/. -- Zugriff am 2002-10-15
Deutsche Übersetzungen der Standards:
edition W3C. -- URL: http://www.edition-w3c.de/. -- Zugriff am 2002-11-19
Aus der Fülle von Ressourcen in Printform sei als Einführung empfohlen:
Ray, Erik T.: Einführung in XML. -- Köln [u.a.] : O'Reilly, ©2001. -- 377 S. : Ill. -- ISBN 3897212862. -- Originaltitel: Learning XML (2001). -- {Wenn Sie HIER klicken, können Sie dieses Buch bei amazon.de bestellen}
Suchmaschinen:
Websites, spezialisiert auf XML (Auswahl):
Zu Kapitel 2: XML-Dokumente