XML in der Praxis - Das SGML-Konzept: Generic Markup

2.6 Das SGML-Konzept: Generic Markup

Nach den Ausflügen in die Hypertext- und Web-Entwicklung kehren wir nun zu den ursprünglichen Fragen der Texterstellung zurück. Was bedeuten die vorausgegangenen Ausführungen für die Praxis? Was ändert sich für den Verfasser? Wie schreibt er seine Texte? — Die Idee des WYSIWYG ist ja nicht vom Himmel gefallen. Selbstverständlich macht es Sinn, etwa beim Desktop-Publishing, das Endergebnis mehr oder weniger exakt auf dem Bildschirm zu sehen. Oft wird aber übersehen, dass eine andere Arbeitsweise durchaus auch ihre Berechtigung hat und manchmal sogar besser geeignet ist.

Stellen Sie sich vor, Sie schreiben einen langen Text, vielleicht einen Aufsatz oder eine technische Dokumentation. Innerhalb des Textes kommt eine Reihe von gleichartigen Textstücken vor, zum Beispiel Zitate, Personennamen, Beispiele, Fachbegriffe und so weiter. Sie möchten für eine konsistente Darstellung von gleichartigen Texten sorgen. Ein Zitat soll also stets gleich erscheinen, etwa vom linken und rechten Rand eingerückt und in kursiver Schriftart. Beim ersten auftretenden Zitat legen Sie dieses Aussehen fest und für Personennamen, Beispiele und all Ihre Textelemente verfahren Sie genauso.

So angenehm es ist, eine schöne Darstellung beim Schreiben zu haben, so lästig ist es doch, wenn Sie 200 Seiten später das nächste Zitat schreiben möchten und sich daran erinnern müssen, wie denn das erste Zitat aussah. War es fett und mit Anführungszeichen versehen oder doch eher serifenlos und in kleinerer Schriftgröße? Und wie sahen die Personennamen aus? Und wie die Beispiele? Was mache ich, wenn ich alle Zitate nachträglich umformatieren möchte; ich muß wohl alle einzeln bearbeiten... — Das Problem sollte klar sein, und viele Programme bieten auch Lösungen an.

In dem Textverarbeitungsprogramm Word gibt es die so genannten Formatvorlagen (vgl. Abbildung 6). Sie erlauben es, für solche Textelemente Namen zu vergeben und diese mit einem bestimmten Format zu verknüpfen. Eine nachträgliche Änderung der Formatierung ist damit auch möglich.

Abbildung 6: Word: Auswahlfenster für Formatvorlagen

Das insbesondere im wissenschaftlichen Bereich beliebte LaTeX-System gestattet die Verwendung von selbst definierten Befehlen, die ähnlich wie Formatvorlagen verwendet werden können. Da LaTeX nicht mit WYSIWYG arbeitet, sondern aus dem geschriebenen Quelldokument in einem Formatierungsprozess eine Ausgabe erzeugt, kann man beim Schreiben sogar Befehle verwenden, die noch nicht definiert sind. Im Gegensatz zu Word, wo eine Formatvorlage definiert sein muss, bevor sie zum erstenmal verwendet wird, ist die LaTeX-Variante noch eine Spur flexibler. Zudem lassen sich die mit Befehlen markierten Texte nicht nur formatieren, sondern beispielsweise auch in das Stichwortverzeichnis einfügen oder zur weiteren Verarbeitung in eine Datei ausgeben.

\documentclass{brief}
% ein Beispiel für eine fiktive 
% Dokumentklasse namens "brief"
 
\begin{brief}
 
\begin{adressat}
 \name{Gordon Shumway}
 \strasse{167 Hemdale Avenue}
 \ort{Los Angeles}
\end{adressat}
 
\betreff{Grüße}
\datum{\today}
 
\anrede{Lieber Gordon,}
 
wie geht es Dir? -- Ich hoffe, wir sehen uns bald wieder!
 
\gruss{Viele Grüße,\\  Deine Rhonda!}
 
\end{brief}

Formatvorlagen von Word oder LaTeXs Befehle erlauben die Verwendung des Generic-Markup-Konzepts mit diesen Programmen. Der Vorteil beim Schreiben des Textes ist, dass man sich keine Gedanken über das Aussehen machen muss. Der Verfasser wird von der Bürde befreit, sich bereits bei der Texterfassung um das Format kümmern zu müssen. Hat man sich erst einmal an diese Arbeitsweise gewöhnt, wird man die neue Freiheit schnell zu schätzen wissen.

Das neue Lieblingswort des Web: Meta-Daten. Den Wert von Daten über Daten kennen Informatiker (und nicht nur die) schon lange, das WWW lernt ihn erst jetzt kennen. Die Begeisterung für alles, was damit zu tun hat — XML, RDF, MCF — ist beim W3C kaum zu übersehen.

XML besitzt einige Gemeinsamkeiten mit den genannten Programmen. Auch hier muss in der Regel, vergleichbar zu Word, bereits vor der Arbeit definiert sein, welche Textelemente es gibtIn SGML gilt dies immer; wie die Ausnahme von der Regel in XML aussieht, erläutern wir später.. Was mit den Texten geschieht, ist jedoch nicht festgelegt. Neben der Formatierung ist auch die Erstellung eines Stichwortverzeichnisses möglich, wie zuvor bei LaTeX erwähnt. Dank der Standardisierung von XML, den frei verfügbaren Programmen und der für einen Computer leicht verständlichen Form gehen die Verarbeitungsmöglichkeiten über die von LaTeX und vielen anderen Programmen hinaus. Wesentlich ist auch hier wieder das Generic Markup. XML-Dokumente enthalten Informationen über den Text, so genannte Meta-Daten. Darunter versteht man beispielsweise die oben genannten Informationen Zitat, Personenname und so weiter. Erst dadurch wird es möglich, in einem Dokument etwa nach einer Person zu suchen. Wären dort ausschließlich Formatierungsanweisungen enthalten, könnte ein Computerprogramm nur raten, ob ein Wort ein Name, eine Adresse oder etwas anderes ist. Erst die explizite Speicherung dieser Informationen erlaubt die vernünftige Nutzung von Texten, die über die Darstellung oder den Druck hinausgeht. Arbeitet man ausschließlich formatorientiert, gehen all diese Meta-Daten verloren.

Tabelle 1: Gegenüberstellung von wichtigen Begriffen in LaTeX, Word und SGML/XML.
LaTeX	Word	SGML/XML
Dokumentklasse	Dokumentvorlage	Dokumenttyp-Definition
Befehle, Umgebungen	Formatvorlagen	Elementtypen

Ein weiterer Vorteil des Generic Markup besteht darin, dass man völlig unabhängig vom Ausgabemedium ist. Da einfach gar keine Formatierungsanweisungen gespeichert sind, können diese auch nicht nur für den Ausdruck auf Papier oder die Darstellung auf dem Bildschirm brauchbar sein. Durch die erst nachträgliche Ausgabeaufbereitung kann man ein und dasselbe Dokument auf Papier ausdrucken, auf dem Bildschirm darstellen und sogar vorlesen lassen. Für die letzte Option entwickelte das W3C als Teil der Cascading Style Sheets Level 2 (CSS2) die so genannten Aural style sheets. Sie werden die Zuordnung von solchen Eigenschaften wie Lautstärke, Sprechpause und -Geschwindigkeit oder auch einer Stimmfamilie (männlich, weiblich, kindlich) zu Elementen von HTML gestatten. Diese Informationen versetzen einen Sprachsynthesizer dann in die Lage, eine Web-Seite verständlicher und betont vorzulesen.

Sitemap

2.6 Das SGML-Konzept: Generic Markup