Computervermittelte Kommunikation

Kapitel 12: OSI-Schicht 6: Presentation Layer -- Datendarstellungsschicht

von Margarete Payer

Zitierweise / cite as:

Payer, Margarete <1942 -- >: Computervermittelte Kommunikation. -- Kapitel 12: OSI-Schicht 6: Presentation Layer -- Datendarstellungsschicht. -- Fassung vom 23. Juni 1997. -- URL: http://www.payer.de/cmc/cmcs12.htm. -- [Stichwort].

Letzte Überarbeitung: 23. Juni 1997

Anlaß: Lehrveranstaltungen an der HBI Stuttgart

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Verfasserin.

Zur Inhaltsübersicht von Margarete Payer: Computervermittelte Kommunikation.

12.0. Übersicht

12.1. Merkmale der Datendarstellungsschicht
12.2. Protokolle für die Datendarstellungsschicht
12.3. ASN.1 -- Abstract Syntax Notation One
- 12.3.1. Weiterführende Ressourcen
- 12.3.2. Merkmale von ASN.1
- 12.3.3. Grundbegriffe von ASN.1
  - 12.3.3.1. Module
  - 12.3.3.2. Darstellungs-Konventionen
  - 12.3.3.3. Abstrakte Daten-Typen (abstract data types)
  - 12.3.3.4. Beispiel der Definition einer Datenstruktur
  - 12.3.3.5. BER -- Basic Encoding Rules
12.4. Formate zum Austausch von Dokumenten
- 12.4.1. ASCII-Text
- 12.4.2. UNICODE
- 12.4.3. SGML -- Standard Generalized Markup Language
  - 12.4.3.1. Einleitung und Geschichte
  - 12.4.3.2. Anwendungen von SGML
    - 12.4.3.2.1. Electronic Manuscript Project (-> Z39.50)
    - 12.4.3.2.2. Computer-aided Aquisition and Logistic Support (CALS)
    - 12.4.3.2.3. HyTime -- Hypermedia/Time-based Structuring Language
  - 12.4.3.3.Grundzüge von SGML
    - 12.4.3.3.1. Aufbau eines SGML-Dokumentes
    - 12.4.3.3.2. Zeichensätze
    - 12.4.3.3.3. DTD -- Document Type Definition
      - 12.4.3.3.1. Syntax der formal markup declarations
      - 12.4.3.3.3.2. ELEMENT declarations
      - 12.4.3.3.3.3. ATTLIST declarations
      - 12.4.3.3.3.4. General ENTITY declarations
      - 12.4.3.3.3.5. Parameter ENTITY declarations
      - 12.4.3.3.3.6. NOTATION declarations
      - 12.4.3.3.3.7. Marked Sections
  - 12.4.3.4. Weiterführende Ressourcen
- 12.4.4. PostScript
- 12.4.5. Adobe Acrobat

12.1. Merkmale der Datendarstellungsschicht

Die Datendarstellungsschicht dient dazu, die Daten so darzustellen, wie sie tatsächlich auf der Leitung übertragen werden sollen. Diese Darstellung muß nicht identisch sein mit der Darstellung auf der Anwendungsschicht.

Die Darstellungsschicht ist zuständig für:

die Darstellung (Syntax) der Daten, die übertragen werden sollen
die Darstellung der Datenstrukturen
die Darstellung der Aktionen an diesen Datenstrukturen.

Die Darstellungsschicht ist nur für die Syntax (die Darstellung der Daten) zuständig, nicht für die Semantik (d.h. die Bedeutung der Daten). Für die Semantik sind nur die Anwendungen zuständig. Die Darstellungsschicht soll gewährleisten, daß die Anwendungen Syntax-unabhängig miteinander kommunizieren können. Die Protokolle der Darstellungsschicht wandeln also die anwendungsspezifischen Syntaxe in eine gemeinsame Syntax um, sodaß sich die Anwendungen nicht um die Kompatibilität ihrer Syntax zu kümmern brauchen.

Aufgaben der Datendarstellungsschicht:

Datenkompression (data compression) durch:
- Nachrichtenreduktion durch Kürzung redundanter Teile
- Datenvorverarbeitung durch intelligente Terminals
- Meßwertreduzierung: es werden nur Werte übertragen, die sich gegenüber der vorhergehenden Übertragung geändert haben
- Arbeiten mit definierten Datenstrukturen
Umcodierung (data format conversion) z.B. bei Kommunikation zwischen Rechnern mit ASCII und EBCDI.
Datenverschlüsselung und -entschlüsselung (data encryption / decryption)
Datenbank-Zugriff und -Verwaltung (data base management / access) (z.B. Zugriffsberechtigung, Entlastung der Datenübertragung durch intelligente Terminals)

Funktionen innerhalb der Datendarstellungsschicht:

Anforderung der Eröffnung einer Sitzung Daten-Übertragung
Abstimmung über Syntax
Umwandlung der Syntax, inklusive Datenumwandlung,
Formatierung und spezielle Umwandlungen wie Datenkompression
Anforderung der Beendigung einer Sitzung

12.2. Protokolle für die Datendarstellungsschicht

OSI Service Definition:: X.216 Presentation service definition; ISO 8822 Connection oriented presentation service definition
OSI Protocol Specification:: X.226 Presentation protocol specification; ISO 8823 Connection oriented presentation protocol specification
ISO 8824: Abstract Syntax Notation 1 (ASN.1)
LAN:: ISO 8822: Connection oriented presentation service definition; ISO 8823: Connection oriented presentation protocol specification; ISO 8824: Abstract syntax notation One (ASN.1); ISO 8825: Basic encoding rules for ASN.1
Packet-switched data network:: X.216: OSI Presentation service definition note
Public-switched telephone network:: T.50: International reference alphabet -- 7-bit coded character set for information interchange; T.51: Latin based coded character sets for telematic services

12.3. ASN.1 -- Abstract Syntax Notation One

12.3.1. Weiterführende Ressourcen

Eine sehr klare Darstellung von ASN.1 ist in:

Stallings, William: Data and computer communications. -- 4. ed. -- London [u.a.] : Prentice Hall, 1994. -- 875 S. -- ISBN 0-13-326828-4. -- S. 639-672

12.3.2. Merkmale von ASN.1

ISO 8824 (CCITT/ITU X.208) -- Abstract Syntax Notation One (ASN.1)

ISO 8825 (CCITT/ITU X.209) -- Basic Encoding Rules (BER)

ASN.1 bietet eine Grammatik zur Definition von Datenstrukturen sowie Festlegungen zur Umsetzung von Datenstrukturen und Elementen in ein netzeinheitliches Format (Transfer Syntax).

ASN.1 hat sich weitgehend durchgesetzt bei der Entwicklung von OSI-bezogenen Standards und TCP/IP-bezogenen Standards. Man verwendet ASN.1 um das Format von mittels der Protokolle ausgetauschten Daten sowie die disebezüglichen Operationen zu definieren.

Die ASN.1-Umwandlung kann bis zu 80% (!) des CPU-Aufwandes für ein Paket bis zur Applikation hin ausmachen. ASN.1 ist nicht flexibel, sodaß eine Verbesserung durch übliche Techniken der Leistungssteigerung (z.B. Paralellverarbeitung) nicht möglich ist.

ASN.1 ist eine Notation zur Beschreibung

abstrakter Datentypen (abstract data types)
Werte (values)

12.3.3. Grundbegriffe von ASN.1

12.3.3.1. Module

Der Grundbaustein einer ASN.1-Spezifikation ist das Modul (module).

ASN.1 kann benutzt werden, um Datenstrukturen zu definieren. Diese Definition geschieht in Form eines benannten Moduls. Der Name des Moduls wird dann zur Bezeichnung der Datenstruktur verwendet.

Struktur eines Modul:

<modulreference> DEFINITIONS::=
BEGIN
 EXPORTS
 IMPORTS
 AssignmentList
END

Erklärung:

modulreference:: Name des Moduls
EXPORTS:: Definitionen, die aus diesem Modul von anderen Modulen übernommen werden können
IMPORTS:: Definitionen, die aus anderen Modulen in dieses Modul übernommen werden sollen
AssignmentList:: Typen-Zuweisungen (type assignments), Wert-Zuweisungen (value assignments), Macrodefinitionen; Typen- und Wert-Zuweisungen haben die Form:

<name>::<description>

12.3.3.2. Darstellungs-Konventionen

ASN.1 types und values werden in einer Programmiersprache-artigen Notation dargestellt. Dabei gelten folgende Regeln:

das Layout hat keine Bedeutung. Mehrfach-Spatien und Zeilenvorschub werden als einfaches Spatium betrachtet
kommentierende Bemerkungen stehen zwischen -- und --, bzw. zwischen -- und Zeilenvorschub
identifiers (Namen von values und fields) und type references (Namen von types) bestehen aus Groß- und Kleinbuchstaben, Ziffern, Bindestrichen (-) und Spatien. Identifiers beginnen mit Kleinbuchstaben, references beginnen mit Großbuchstaben

12.3.3.3. Abstakte Daten-Typen (abstract data types)

Ein type ist eine Menge von Werten (values). Für einige types gibt es eine endliche Anzahl von möglichen Werten, für andere eine unendliche. Ein Wert ist umgekehrt ein Element der type-Menge.

Arten von types:

simple types: sind elementar und haben keine weiteren Komponenten
structured types: bestehen aus Komponenten
tagged types: sind von anderen types abgeleitet
other types:
- CHOICE: ein oder mehrere Alternativen
- ANY: ein beliebiger Wert eines beliebigen type

Types und Werten kann man mit mittels des ASN.1 assignement operators ::= einen Namen zuordnen. Dieser Name kann dann verwendet werden bei der Definition anderer types und Werte.

Jeder ASN.1 type außer CHOICE und ANY hat einen tag (Identifikator). Jeder tag besteht aus einer tag-classe und einer nicht-negativen tag-number.

Tag classes:

universal: für types, deren Bedeutung in allen Anwendungen gleich ist. In ISO 8824 (X.208) definiert
application-wide: für types, deren Bedeutung für eine bestimmte Anwendung spezifisch ist, z.B. für X.500 Directory Services. Types in zwei verschiedenen Anwendungen können denselben application tag haben, aber dennoch zwei unterschiedliche, anwendungsspezifische Bedeutungen
private: für types, deren Bedeutung innerhalb eines bestimmten Unternehmens einheitlich ist
context-specific: für types, deren Bedeutung spezifisch ist für Komponenten innerhalb eines structured type. Solche tags für Komponenten können innerhalb zweier verschiedener structured types dasselbe tag haben, aber dennoch unterschiedliche, kontextspezifische Bedeutungen haben

Universal types (Auswahl):

Basic Types
- UNIVERSAL 1: BOOLEAN. Werte: TRUE, FALSE
- UNIVERSAL 2: INTEGER: positive und negative ganze Zahlen
- UNIVERSAL 3: BIT STRING: eine beliebige Reihe von Bits (0, 1)
- UNIVERSAL 4: OCTET STRING: eine beliebige Reihe von Oktetten (8bit-Werten in dezimaler Darstellung)
- UNIVERSAL 9: REAL: reele Zahlen
- UNIVERSAL 10: ENUMERATED: Aufzählung von Werten, die ein Datentyp annehmen darf
Object Types
- UNIVERSAL 6: OBJECT IDENTIFIER: eine Reihe von Zeichen, die z.B. einen Algorithmus oder einen Attribute type bestimmen
- UNIVERSAL 7: OBJECT DESCRIPTOR
Character String Types:
- UNIVERSAL 18: NumericString: Ziffern 1 bis 9, Spatium
- UNIVERSAL 19: PrintableString: eine beliebige Reihe von druckbaren Zeichen
- UNIVERSAL 22: IA5String: eine beliebige Reihe von ASCII-Zeichen
- UNIVERSAL 25: GraphicString: nach ISO 8824
- UNIVERSAL 27: GeneralString: allgmeiner Zeichen-String
Miscellaneous Types:
- UNIVERSAL 5: NULL
- UNIVERSAL 8: EXTERNAL: in einem externen, Nicht-ASN.1-Dokument definierter Typ
- UNIVERSAL 24: GeneralizedTime
Structured Types:
- UNIVERSAL 16: SEQUENCE eine geordnete Ansammlung von ein oder mehreren types; SEQUENCE-OF eine geordnete Anordnung von null oder mehreren Vorkommen eines einzigen type
- UNIVERSAL 17: SET eine ungeordnete Ansammlung von ein oder mehreren types; SET OF eine ungeordnete Anordnung von null oder mehreren Vorkommen eines einzigen type

12.3.3.4. Beispiel der Definition einer Datenstruktur

Informelle Beschreibung eines persönlichen Datensatzes:

Name: John P Smith

Title: Director
Employee Number: 51
Date of Hire: 17 September 1971
Name of Spouse: Mary T Smith
Number of Children: 2

Child Information:
Name: Ralph T Smith
Date of Birth: 11 November 1957

Child Information:
Name: Susan B Jones
Date of Birth: 17 July 1959

ASN.1 Beschreibung der Struktur des Datensatzes:

PersonelRecord ::= [APPLICATION 0] IMPLICIT SET {
 Name,
 title [0] VisibleString,
 number EmployeeNumber,
 dateOfHire [1] Date,
 nameOfSpouse [2] Name,
 children [3] IMPLICIT SEQUENCE OF ChildInformation DEFAULT {}}

ChildInformation ::= SET {
 Name,
 dateOfBirth [0] Date}

Name ::= [APPLICATION 1] IMPLICIT SEQUENCE {
 givenName VisibleString,
 initial VisibleString,
 familyName Visible String }

EmployeeNumber ::= [APPLICATION 2] IMPLICIT INTEGER

Date ::= [APPLICATION 3] IMPLICIT VisibleString -- YYYYMMDD

ASN.1 Beschreibung des obigen einzelnen Datensatzes (record value):

{ {givenName "John", initial "P", familyName "Smith"},
title "Director"
number51
dateOfHire "19710917"
nameOfSpouse{givenName "Mary", initial "T", familyName "Smith"},
children
{ { {givenName "Ralph", initial "T", familyName "Smith"}
 dateOfBirth "19571111"
 { {givenName "Susan", initial "B", familyName "Jones"}
 dateOfBirth "19590717"}}}

Erklärung im Einzelnen in

Stallings, William: Data and computer communications. -- 4. ed. -- London [u.a.] : Prentice Hall, 1994. -- 875 S. -- ISBN 0-13-326828-4. -- S. 651-653.

12.3.3.5. BER -- Basic Encoding Rules

Die Basic Encoding Rules (BER) geben an, wie man einen ASN.1 value als Oktett-Reihe darstellen kann.

Es gibt drei Dartellungsmethoden. Die Wahl richtet sich nach der Art des value und danach, ob die Länge des value zuvor schon bekannt ist.

primitive, definite-length encoding: für simple types
constructed, definite-length encoding: für structured types mit fester Feldlänge sowie für simple string types mit fester Feldlänge
constructed, indefinite-length encoding: für structured types mit offener Feldlänge sowie für simple string types mit offener Feldlänge

Bei jeder dieser Darstellungsmethoden hat die BER-Kodierung drei bzw. vier Teile:

identifier octets: identifizieren die class und tag number des value und zeigen an, ob die Methode primitive oder constructed ist
length octets: gibt bei den definite length Methoden die Feldlänge an, bei der constructed indefinite-length Methode gibt es an, daß die Feldlänge offen ist
contents octets: geben bei der primitive Methode den Wert des value an, bei den constructed Methoden geben sie die Verkettung der BER-Kodierungen der Komponenten des Wertes an
end-of-contents octets: nur bei contructed, indefinite-length encoding. Dort markieren sie das Ende des Datenfeldes (contents octets)

12.4. Formate zum Austausch von Dokumenten

Es gibt viele Versuche, hard- und software-unabhängige Formate für Dokumente zu schaffen und durchzusetzen. Bisher herrscht aber immer noch Chaos, und ohne Umwandlungsprogramme kommt man kaum aus.

12.4.1. ASCII-Text

ASCII-Text kann von fast allen Textbearbeitungsprogrammen verwertet werden. ASCII erlaubt aber keine unterschiedlichen Schriften, Schriftarten, kompliziertere Textformatierungen, Grafiken, Farben.

Weiterführende Ressourcen:

Yahoo Categories:

http://www.yahoo.com/Computers_and_Internet/Information_and_Documentation/Data_Formats/ASCII/. -- Zugriff am 23. 6. 1997

12.4.2. UNICODE

UNICODE ist ein Standard, der durch eine 16-bit-Kodierung die einheitliche Kodierung aller Zeichensätze derWelt erlaubt.

Die gegenwärtig gültige Fassung des Standards (2.0) unterstützt offiziell die im Folgenden genannten Schriften und Zeichensätze. Die Reihenfolge der Aufzählung entspricht der Abfalge in der Zuteilung der 16-Bit-Codes. Die Links verweisen auf Zeichentafeln mit der Kodierung der einzelnen Zeichen. (Zugriff auf alle Links am 6. 6. 97).

Steuerzeichen und Lateinschrift
- C0 Controls and Basic Latin
- C1 Controls and Latin-1 Supplement
- Latin Extended-A
- Latin Extended-B
Internationale Lautschrift
- IPA [International Phonetic Association] Extensions
Spacing Modifier Letters
Combining Diacritical Marks
Greek
Cyrillic
Armenian
Hebrew
Arabic
Indische Schriften
- Devanagari
- Bengali
- Gurmukhi
- Gujarati
- Oriya
- Tamil
- Telugu
- Kannada
- Malayalam
Thaischriften:
- Thai
- Lao
Tibetan
Georgian
Hangul Jamo
Latin Extended Additional
Greek Extended
Sonderzeichen, Symbole, Graphisches:
- General Punctuation
- Superscripts and Subscripts
- Currency Symbols
- Combining Diacritical Marks for Symbols
- Letterlike Symbols
- Number Form
- Arrows
- Mathematical Operators
- Miscellaneous Technical
- Control Pictures
- Optical Character Recognition
- Enclosed Alphanumerics
- Box Drawing
- Block Elements
- Geometric Shapes
- Miscellaneous Symbols
- Dingbats
- CJK Symbols and Punctuation
CJK -- Chinesisch, Japanisch, Koreanisch:
- Hiragana
- Katakana
- Bopomofo
- Hangul Compatibility Jamo
- Kanbun
- Enclosed CJK Letters and Months
- CJK Compatibility
- CJK Ideographs
- Hangul Syllables
- CJK Compatibility Ideographs
Typographisches und Kalligraphisches:
- Alphabetic Presentation Forms
- Arabic Presentation Forms-A
- Combining Half Marks
- CJK Compatibility Forms
- Small Form Variants
- Arabic Presentation Forms-B
- Halfwidth and Fullwidth Forms
Specials

WWW:

Unicode Homepage / Unicode Inc. -- Zugriff am 6. 6. 97. -- [Die Informationsquelle; sehr ergiebig!]

12.4.3. SGML -- Standard Generalized Markup Language

12.4.3.1. Einleitung und Geschichte

SGML -- Standard Generalized Markup Language ist eine Dokument-Definier-Sprache, die den Austausch von Informationen beliebiger Komplexität unabhängig von herstellerspezifischer Soft- und Hardware ermöglichen soll.

SGML ist internationaler ISO-Standard:

ISO 8879 (1986): Information processing -- Text and office systems -- Standard Generalized Markup Language (SGML)

Ausgangspunkt zu SGML in ihrer jetzigen Form war der Paradigmawechsel vom Konzept des Specific Coding (Procedural Markup) zum Konzept des Generic Coding (Descriptive Markup).

Specific Coding codiert spezifische Prozeduren (procedural markup), wie z.B. Formatierungskommandos (z.B. ESC, CTRL oder SHIFT Kommandos)
Generic Coding codiert dagegen den Zweck oder die Funktion, beschreibt also, was die konkrete Formatierung ausdrücken soll (descriptive markup) (z.B. Titel, Kapitel, Anmerkung)

Vermutlich geht die Anregung zu diesem Paradigmenwechsel auf William Tunnicliffe zurück, der 1967 bei einer Sitzung des Cannadian Government Printing Office vorschlug, den Informationsgehalt eines Dokumentes von seinem Format zu trennen. Diese und andere Anregungen führten zur Gründung des Generic Coding Projekt innerhalb des Composition Committe der Graphic Communications Association (GCA). In diesem Projekt wurde das GenCode(R)-Konzept entwickelt: man erkannte, daß verschiedene Arten von Dokumenten verschiedene Codes benötigen und, daß man kleinere Dokumente als Elemente in größere Dokumente einbinden könnte.

Es zeigte sich bald, daß der Versuch, ein Generic Coding für alle Dokumententypen zu entwerfen, daran scheitern würde, daß es zu viele verschiedene Dokumententypen mit zu vielen unterschiedlichen Arten von Elementen gibt. Die Lösung fand man darin, daß man SGML nicht als eine Gesamtheit von standardisierten Codes entwarf, sondern als eine Art Programmiersprache, mit der man eine Dokumenten-Typ-Definition (document type definition) (DTD) erstellen konnte. Die DTD kann die Elemente usw. definieren, die man für ein Dokument oder eine Gruppe ähnlicher Dokumente benötigt. Das Vorbild dafür lieferten Programmiersprachen, die es erlauben "primitives" zu definieren, Grundoperationen, die man in einem header file zusammenstellen kann, um Befehle zu definieren, die das Programm dann benutzt.

1980 wurde ein erster Entwurf von SGML veröffentlicht. Im Oktober 1985 wurde ein Draft International Standard veröffentlicht und vom Office of Official Publications of the European Community angenommen. 1986 wurde der endgültige Text, der am CERN ausgearbeitet wurde, von ISO als Standard akzeptiert und in Rekordzeit veröffentlicht.

12.4.3.2. Anwendungen von SGML

12.4.3.2.1. Electronic Manuscript Project (-> Z39.50)

Von 1983 bis 1987 entwickelt. SGML Anwendung zur Herstellung von Büchern, Zeitschriften und Zeitschriftenartikeln. Zweck ist u.a. die Ermöglichung des Manuskriptaustauschs zwischen Autoren und Verlegern. Enthalten sind optionelle Element-Definitionen für komplexe Tabellen und wissenschaftliche Formeln.

An der Entwicklung beteiligt waren u.a.:

UMI (University Microfilms)
IEEE
Council of Library Resources
LoC
American Society of Indexers
American Chemical Society
American Institute of Physics
Councils of Biology Editors
American Mathematical Society

Diese Anwendung wurde besonders von den CD-ROM-Verlegern weitgehend angenommen. Als ANSI Z39.50 wurde sie amerikanischer Standard. Zu Z39.50 s. unten.

12.4.3.2.2. Computer-aided Aquisition and Logistic Support (CALS)

CALS ist ein Projekt des U.S. Department of Defense und des U.S. Departement of Commerce zur elektronischen Erwerbung und Verwaltung von technischen Informationen, insbesondere zu Waffensystemen. Der SGML-Teil von Cals wurde seit 1987 entwickelt und wurde 1987 Militär-Standard MIL-M-28001. Ähnliche militärische SGML-Projekte laufen z.B. in Kanada, Schweden, Australien.

12.4.3.2.3. HyTime -- Hypermedia/Time-based Structuring Language

HyTime ist eine Anwendung von SGML für Hypermedia (Hypertext and Multimedia).

HyTime ist ISO-Standard 10744 (1992).

Wegen der rasanten Entwicklungen im Bereich der Hypermedia ist Hytime kein Standard, der alle Aspekte von Hypermedia umfaßt. Hytime standardisiert z.B. nicht bestimmte Datenformate. Hytime standardisiert aber folgende Teilgebiete:

Adressierung von Komponenten von Hypermedia-Dokumenten
Verknüpfung, Justierung und Synchronisierung, die für eine solche Adressierung nötig sind

Hytime ist ein Standard für

links to anything, anywhere, at any time

HyTime ist gedacht für Integrated Open Hypermedia (IOH) Anwendungen:

IOH folgt dem bibliographischen Modell des Hyperlinking: mögliche "bibliographische" Verweisungen auf jeden Teil jedes Dokumentes durch eine standardisierte bibliographische Verweisung:

integrated (I): Verknüpfungen zu jeder Art von "Information", unabhängig davon, ob diese speziell für Verknüpfungen vorbereitet ist
open (O): die Adressierung ist unabhängig von der faktischen physikalischen Standortverwaltung (es ist eine logische Adresse)
hypermedia (H): Hypertext (offenes Netz von Verknüpfungen) und Multimedia (unterschiedlichste Medien -- Text, Klang, Bild ... -- werden miteinander verknüpft)

12.4.3.3. Grundzüge von SGML

Jedes Dokument besteht aus:

dem eigentlichen Inhalt des Dokuments (content data, bestehend aus data characters). Data characters werden von der SGML-Software im CON-mode (für content) gelesen und an die Anwendungssoftware zur Weiterbearbeitung weitergegeben. Die Bestandteile eines Dokument swerden entities genannt. Entities können verschiedenen Dokumenten gemeinsam sein oder auch wieder selbstständige Dokumente sein
dem Markup -- den Charakteristika (z.B. visueller Art), die dem Nutzer mitteilen, z.B. welche Stellung im Ganzen (Titel, Paragraphen, Absätze usw.) oder welchen Stellenwert ein Teil des Dokuments hat (Hervorhebungen, Zitate, Fußnoten usw.), bestehend aus markup characters. Markup character werden als solche gekennzeichnet durch delimiter characters. Delimiter characters teilen der Software mit, daß die dadurch gekennzeichneten Zeichen im TAG-mode gelesen werden müssen.
Die üblichen delimiter characters sind:
- < > für start tags: zeigen Beginn eines Elementes an
- </ > für end tags: zeigen Ende eines Elementes an
- & ; zum Absetzen von Entiities wie Graphiken, Sonderzeichen u.ä.

SGML ist eine Sprache zum Definieren des Markup

für ein einzelnes Dokument
für eine Gruppe von Dokumenten
für alle Dokumente, die eine bestimmte Gruppe benutzt

SGML ist eine Computer-Sprache: ein Computerprogramm -- ein validating SGML parser -- liest die Definitionen, lernt die daraus folgenden Regeln und wendet sie auf das Dokument an.

12.4.3.3.1. Aufbau eines SGML-Dokumentes

SGML declaration: teilt u.a. mit:
- verwendeter Zeichensatz
- verwendete delimiter
- verwendete optionelle SGML features
Die SGML declaration wird oft weggelassen, wenn man annehmen kann, daß sowohl das sendende als auch das empfangende System die default syntax (reference concrete syntax) benutzen
Document Type Declaration (DTD): definiert das verwendete Markup. Oft besteht die DTD aus einer einzigen Zeile, die aussagt, daß die verwendete DTD eine veröffentlichte Implementierung ist bzw. dem empfangenden System bekannt ist
Document instance: das eigentliche Dokument mit dem Markup

12.4.3.3.2. Zeichensätze

SGML beginnt jeweils mit der Definition eines character set, normalerweise auf der Grundlage von ASCII. Spezialzeichen werden mittels ASCII definiert in entity references. So benötigt man keine im Datenaustausch problematischen ESC-, CTRL- oder ALT-Zeichen.

Beispiel für Definitionen von Sonderzeichen: Umlaute und ß:

ä = ä (a-Umlaut)
Ä = Ä
ö = ö
Ö = Ö
ü = ü
Ü = Ü
ß = ß (sz-Ligatur)

12.4.3.3.3. DTD -- Document Type Definition (Dokumenttypdefinition)

Die document type definition (DTD) definiert die Elemente und anderen Konstrukte, die für ein spezifisches Dokument oder eine Gruppe von Dokumenten benötigt werden.

Die Elemente werden in element declarations definiert. Element declarations haben zwei Aufgaben:

Zuweisung eines Namens zu einem Element. Dieser Name wird dann innerhalb von delimiter characters zur Kennzeichnung des Elementes verwendet. z.B. <Kapitel>
Definition, was ein Element enthalten darf, das content model

Beispiel: Definition des Elementes Kapitel: beginnt mit Kapitelüberschrift, enthält beliebig viele Paragraphen, eventuell auch Zwischenüberschriften:

<!ELEMENT Kapitel (KapTitel, (Para | Zwischentit)+) >

Erklärung:

<!ELEMENT = es folgt eine element declaration

Kapitel = Name des Elementes

( ) = Unterelemente

, = darauf folgend

| = oder

+ = eines oder mehrere

Die Anweisung für SGML-Software lautet also: "Kapitel ist der Name eines Elementes, welches aus einem KapTitel sowie ein oder mehreren Para oder Zwischentit besteht."

Nun müssen die Inhalte (contents) der Unterelemente (subelements) KapTitel, Para, Zwischentit definiert werden. Wenn alle das gleiche content model haben, kann man dies in einer einzigen element definition tun:

<!ELEMENT (KapTitel | Para | Zwischentit) (#PCDATA)>

PCDATA ist ein reservierter Name, der definiert, daß die betreffenden Elemente keine eigenen Unterelemente haben, sondern nur Zeichen enthalten, die zum Inhalt des Dokumentes gehören. PCDATA = parsed character data.

Mit diesen element definitions und den zuvor gegebenen entity references könnte man z.B. folgendes Dokument erstellen:

<Kapitel><KapTit>Katzenweisheit</KapTit>

<Para>Katzen sind äußerst kluge Tiere. Sie tun nichts, wovon sie keinen Nutzen für sich einsehen .... </Para>

<Zwischentit>Tüpfli zum Beispiel</Zwischentit>

<Para>Tüpfli ist ein Kater. Sein Vater oder Großvater war vermutlich ein sexuell frustrierter Wildkater, der seine sexuellen Bedürfnisse bei einer Hauskatze befriedigte ... </Para>

</Kapitel>

Man kann Elementen Attribute zuordnen. So könnte man z.B. dem Element Para zwei Stufen der Zugänglichkeit zuordnen: topsecret und public:

<!ATTLIST para secrecy (topsec|public) "public">

"public" definiert public als default value: Alle Paragraphen, die nicht ausdrücklich als topsecret gekennzeichnet werden, sind public.

Unser Beispiel könnte dann z.B. so aussehen:

<Kapitel><KapTit>Katzenweisheit</KapTit>

<Para>Katzen sind äußerst kluge Tiere. Sie tun nichts, wovon sie keinen Nutzen für sich einsehen .... </Para>

<Zwischentit>Tüpfli zum Beispiel</Zwischentit>

<Para secrecy=topsec>Tüpfli ist ein Kater. Sein Vater oder Großvater war vermutlich ein sexuell frustrierter Wildkater, der seine sexuellen Bedürfnisse bei einer Hauskatze befriedigte ... </Para>

</Kapitel>

In diesem Falle würde die Abstammung Tüpflis nur berechtigten Geheimnisträgern zugänglich gemacht.

12.4.3.3.3.1. Syntax der formal markup declarations: Allgemeine Syntax einer formal markup declaration

<!keyword parameter associated_parameters(S)>

Erklärung:

parameter:

Parameter ist immer der Name, der für das betreffende Markup verwendet werden soll

keyword:

Die wichtigsten Keywords sind:

DOCTYPE: ordnet einer Gruppe von Declarations einen Namen zu, z.B. Namen des ganzen Dokuments
ELEMENT: definiert ein Element innerhalb der logischen Struktur eines Dokumentes. associated_parameters gibt hier die möglichen Inhalte dieses Elementes an (content model)
ATTLIST: Zuordnung von Attributen zu einem Element
ENTITY: ermöglicht, eine Kurzform für etwas Längeres einzugeben, oder auf ein externes File zu verweisen
NOTATION: verbindet den ersten Parameter, der Non-SGML-data bezeichnet mit dem zweiten Parameter, der dem System angibt, wie so Bezeichnetes zu behandeln ist: z.B: MIDI für MIDI-Files, CGM für Graphik u.ä.

Comment declarations für Anmerkungen und Erklärungen des Produzenten des SGML-Dokumentes, die vom System nicht beachtet werden sollen, haben folgende Syntax:

alleinstehend::
am Ende innerhalb einer markup declaration:: --Text der Anmerkung--

Innerhalb von associated_parameter können folgende Indikatoren und Verknüpfungszeichen (connectors) vorkommen:

?: optional: das betreffende Element usw. kann nicht oder einmal vorkommen
*: optional und wiederholbar: das betreffende Element usw. kann nicht, einmal oder mehrmals vorkommen
+: notwendig und wiederholbar: das betreffende Element usw. muß mindestens einmal vorkommen
,: sequential: a,b = auf a muß b folgen
a,b? = auf a kann b folgen
&: und: a&b sowohl a ls auch b müssen vorkommen, die Reihenfolge spielt aber keine Rolle, also ab oder ba
|: oder (OR): mindestens eines der so verknüpften Elemente usw. muß vorkommen

12.4.3.3.3.2. ELEMENT declarations

Syntax:

<!ELEMENT element_type minimization content_model>

Erklärung:

element_type: Name des Elements, bestehend aus höchstens acht alphanumerischen Zeichen (das erste Zeichen muß ein Buchstabe sein). Namen sind nicht case sensitive
minimization: besteht aus zwei Zeichen, die angeben, ob der Anfang- bzw. End-Tag weggelassen werden können, wenn der Parser diesen tag aus dem Kontext erschließen kann:
- - Anfang- und Endtag müssen immer gesetzt werden
- -o Anfang-Tag obligatorisch, End-Tag kann weggelassen werden
- oo Anfang- und End-Tag können u.U. weggelassen werden
content_model: zulässiger Inhalt des Elements:
- Elemente, die Inhalt des Elementes sein können oder müssen
- Elemente, die in Elementen zulässig sind, deren Bestandteil das betr. Element sein kann, und die als übertragbar auf alle Unterelemente definiert sind, sog. inclusions (inclusion exceptions)
- Rohdaten des Dokuments, durch #PCDATA (parced character data) gekennzeichnet

12.4.3.3.3.3. ATTLIST declarations

Syntax:

<!ATTLIST element_type attribute_name attribute_value default_value>

Erklärung:

element_type

Name des Elements oder der Elemente, die mit dieser attribute list verknüpft werden sollen

attribute_name

Name für die Attribute, die mit dem Element verknüpft werden

attribute_value

Definition der Werte, die das Attribut annehmen kann. Dies kann sein:

name token group: eine Aufzählung der zulässigen Werte: (a|b|c|d), z.B. (Kater|Katzen|Tuepfli)
ein keyword, das die zulässigen Werte spezifiziert:
- PCDATA null oder mehr gültige SGML- Zeichen
- ENTITY der jeweils gültige Entity-Name
- ENTITIES Liste von ENTITY-Namen
- ID ein einmaliger Name
- IDREF unique name reference value
- IDREFS Liste von IDREFs
- NAME String aus 1 bis 8 alphabetischen Zeichen
- NAMES Liste von NAME-Werten, voneinander durch Spatium, TAB oder RETURN getrennt
- NMETOKEN dasselbe wie NAME, aber mit alphanumerischen Zeichen
- NMTOKENS Liste von NMTOKEN-Werten, getrennt durch +
- NOTATION a notation name that identifies the data content notation of the element's content
- NUMBER String aus 1 bis 8 numerischen Zeichen
- NUMBERS Liste von NUMBER-Werten, getrennt durch +
- NUTOKEN String aus 1 bis 8 alphanumerischen Zeichen, beginnend mit einem numerischen Zeichen
- NUTOKENS Liste von NUTOKEN-Werten, getrennt durch +

default value

der Default Wert eines attribute kann sein:

literal string eine konkrete Zeichenfolge z.B Katze
keyword die wichtigsten keywords sind:
- #REQUIRED
- #IMPLIED d.h. optionell

12.4.3.3.3.4. General ENTITY declarations

Syntax:

<!ENTITY entity_name "replacement_entity_text">

Entities werden im Dokument durch &entity_name; (z.B. &katzle;) gekennzeichnet.

Wirkung: der Parser ersetzt immer, wenn er auf &entity_name; stößt, dies durch das, was zwischen " " steht.

Eine Entity kann folgende Funktionen haben:

Ersetzung eines Kurzstrings durch einen Langstring
Verknüpfung mit einem anderen SGML-File
Platzhalter für Graphik oder andere Nicht-SGML-Daten, die eingefügt werden, wenn das Dokument angesehen oder gedruckt wird
ein Sonderzeichen, wie Umlaute usw.

Entities ermöglichen globales Ersetzen und Updating. Entities unterstützen auch Standardisierung, da eine Entity nur an einer Stelle, der entity declaration, definiert und formuliert wird.

12.4.3.3.3.5. Parameter ENTITY declarations

Syntax:

<!ENTITY % entity_name "replacement_entity_text">

Bei Parameter Entities besteht der replacement_entity_text aus associated parameters.

Parameter Entities werden durch %entity_name; gekennzeichnet

12.4.3.3.3.6. NOTATION declarations

Syntax:

<!NOTATION notation_name SYSTEM "system_identifier">

Notations werden benötigt, wenn bei der Verarbeitung von SGMLDokumenten einzelne Daten eine spezielle Behandlung erfordern. Typische Beispiele: mathematische Formeln, Graphiken ...

SYSTEM verbindet Instruktionen usw. mit der Notation:

Die Notation verläuft in folgenden Schritten:

Man identifiziert Typen von data content notation, die benötigt werden, und erklärt sie durch das Keyword NOTATION als vorhanden.

Beispiel:

<!NOTATION tex SYSTEM "/usr/bin/tex" --mathematischer Text ist zu bearbeiten mit einem Sub-Programm, das als usr/bin/tex gespeichert ist-->

<!NOTATION eqn SYSTEM "/usr/bin/eqn" --mathematische Formeln sind zu bearbeiten mit einem Sub-Programm. das als /usr/bin/eqn gespeichert ist-->
Man bestimmt, ob ein Element, das mit einer solchen Notation gekennzeichnet wird SGML data characters enthält oder nonSGML data. Non-SGML data sind z.B. Graphiken, Sounds, Video. Non-SGML data kann man nicht direkt in ein SGML-Dokument einfügen, da sie Zeichen enthalten können, die den Parser zum Absturz oder sonstigen unerwarteten Reaktionen bringen. Deshalb müssen solche data in externen Files enthalten sein, mit denen eine Verknüpfung durch Entities hergestellt wird. Enthält ein notiertes Element nur SGML data characters, dann kann es entweder direkt eingefügt werden, oder als externes Dokument verknüpft werden.

Beispiel für SGML data characters (Weiterführung des obigen Beispiels):

<!ELEMENT math (#PCDATA) --Definition eines Elementes math, das keine weiteren Unterelemente, sondern nur Dokumentdaten (PCDATA) enthält-->
<!ATTLIST math type NOTATION (tex|eqn) #REQUIRED --das Element muß obligatorisch entweder als tex oder eqn erklärt werden-->

Beispiel einer Anwendung dieser Definitionen im Dokument: Es soll der Ausdruck "(3 hoch 4) hoch 10" in mathematischer Notierung dargestellt werden:

<math type="eqn">(3 hoch 4) hoch 10</math>
Der Ausdruck "(3 hoch 4) hoch 10" wird dann mittels der Subroutine dargestellt, die als /usr/bin/eqn gespeichert ist.

Beispiel für non-SGML data:

<!NOTATION pict SYSTEM "pictVIEW" --Verknüpfung von pict mit dem Programm pictVIEW-->
<!ENTITY sysmod SYSTEM "/usr/gfx/sysmodel" NDATA pict>

Erklärung der ENTITY declaration:
Die Entity sysmod befindet sich auf dem System (SYSTEM) als /usr/gfx/sysmodel und ist mit der Notation pict verknüpft, die Daten haben nur innerhalb der durch diese Notation angegebenen Anwendung einen Sinn (NDATA).

12.4.3.3.3.7. Marked Sections

Syntax:

<![status_keyword [text_of_marked_section]]>

Beispiel: zwei Versionen eines Mathematik-Schulbuches sollen von einem File aus hergestellt werden: das für den Lehrer mit den Auflösungen, das für die Schüler ohne Auflösungen.

Die Schüler-Version könnte z.B. folgendermaßen gekennzeichnet werden:

<equation> 2 + 2 = <![IGNORE [4]]><equation>

Nun könnte man Parameter Entity Declarations verwenden:

Für die Schüler Version:

<!ENTITY % teacher "IGNORE" --ignoriere alles, was nur für den Lehrer ist-->
<!ENTITY % student "INCLUDE">

Für die Lehrer-Version:

<!ENTITY % teacher "INCLUDE" --füge alles ein, was nur für Lehrer ist>

Unser obiges Markup kann nun so umgestaltet werden:

<equation> 2 + 2 = <![%teacher; [4]]<equation>

Um die beiden Versionen zu produzieren, muß man also nur die Entity Declaration für %teacher ändern und der Parser tut alles Weitere.

12.4.3.4. Weiterführende Ressourcen

Yahoo Categories:

http://www.yahoo.com/Computers_and_Internet/Information_and_Documentation/Data_Formats/SGML/. -- Zugriff am 23. 6. 1997

WWW:

SGML Open House. -- Zugriff am 1. 5. 97

Ressourcen in Printform:

SGML primer
The SGML Primer : SoftQuad's quick reference guide to the essentials of the standard. -- 3. ed. -- Toronto : SoftQuad, 1991. -- 36 S. -- ISBN 1-896172-00-8

Elektronische Medien:

SGML world tour
SoftQuad SGML world tour. -- 1 CD-ROM. -- [Toronto] : SoftQuad, 1994. -- ISBN 1-896172-01-6

12.4.4. PostScript

PostScript ist ein von Adobe entwickeltes Format, das von vielen Softwarepaketen und Betriebssystemen unterstützt wird. PostScript erlaubt, kompliziert formatierte Dokumente mit unterschiedlichen Schriften, Schriftarten, Grafiken, Farben usw. zu definieren. PostScript macht die Files aber sehr groß (z.B. 100 Druckseiten u.U. = 40 Mb (!) PostScript). Auch gibt es durchaus lästige Inkompatibilitäten zwischen PostScript-Files, die mit verschiedenen Programmen erstellt wurden. PostScript wird vor allem zur Druckersteuerung benutzt. Softwarepakete, die PostScript zu Druckerausgabe unterstützen, ermöglichen trotzdem oft nicht eine Bildschirmwiedergabe von PostScript-Dateien. Die Umsetzung einer Postscript-Datei zur Druckausgabe erfolgt innerhalb des Druckers durch einen speziellen Postscript-Interpreter.

Weiterführende Ressourcen:

Yahoo Categories:

http://www.yahoo.com/Computers_and_Internet/Programming_Languages/PostScript/. -- Zugriff am 23. 6. 1997

12.4.5. Adobe Acrobat

Adobe Acrobat hat ähnliche Features wie PostScript, Acrobat-Files sind aber weniger umfangreich als PostScript-Files. Lange Zeit war der Acrobat Reader nicht kostenlos erhältlich, was der Verbreitung von Adobe Acrobat sehr im Wege stand. Jetzt ist der Adobe Acrobat Reader Freeware.

Weiterführende Ressourcen:

Yahoo Categories:

http://www.yahoo.com/Business_and_Economy/Companies/Computers/Software/Graphics/Adobe_Systems__Inc_/Products_and_Services/Products/Acrobat/. -- Zugriff am 23. 6. 1997

Zum nächsten Kapitel:
Kapitel 13,1: OSI-Schicht 7: Application Layer -- Anwendungsschicht, Teil 1