XMLidP2000

Sitemap

Sitemap

1 Einführung
1.1 Warum mehr weniger ist
1.2 Warum mehr mehr ist
1.3 Wohin die Reise geht
2 Was sind Dokumente?
2.1 Eine kurze Geschichte der Textverarbeitung
2.2 Bestandteile eines Dokumentes
2.3 Die neue, alte Idee: Strukturorientiert schreiben
2.4 Die Entwicklung des Hypertextes
2.5 Textformate im Web
2.6 Das SGML-Konzept: Generic Markup
2.7 Dokumente versus Daten
3 XML im Web
3.1 XML bei der Verwaltung von Websites
3.2 Clientseitige XML-Interpretation
3.2.1 XML mit CSS
3.2.2 XML mit XSL(T)
3.3 XML auf dem Server
3.4 Linking-Möglichkeiten von XML
3.5 XML als Datenaustauschformat
4 XML Quick Start
4.1 Dokumenttyp-Definition (DTD) und Instanzen
4.2 Verarbeitung der Dokumente
4.2.1 Beispiel: Verarbeitung mit Cost/TCL
4.2.2 Beispiel: Verarbeitung mit XSLT
4.2.3 Beispiel: XML/XSLT im Internet Explorer
4.2.4 Fazit
5 XML-DTDs: Die verständliche Beschreibung
5.1 Ein Wort zur Notation
5.2 Dokumente
5.3 Elemente
5.4 Zeichen, Namen und Zeichendaten
5.5 Kommentare
5.6 Processing Instructions
5.7 Wo bleibt Multimedia?
5.8 Dokumenttyp-Definition (DTD)
5.8.1 Elementtyp-Deklaration
5.8.2 Attributlisten-Deklaration
5.8.3 Möglichkeiten, die DTD zu gestalten und zu gliedern
5.8.4 Notation-Deklaration
6 Namensräume in XML
7 XPath: Adressierung von XML-Dokumentteilen
7.1 Zu Grunde liegendes Datenmodell
7.2 Zugriff auf den Datenbaum
7.3 Hilfe von Operatoren
7.4 Kernfunktionen für den Datenzugriff
8 XML: Linking
8.1 Notwendige Begriffe
8.2 XLink: einfache und erweiterte Links
8.2.1 Einfache Verweise
8.2.2 Erweiterte Links
8.2.3 XLink in der Praxis
8.3 XPointer: Verweise in Dokumente hinein
8.3.1 XPath-Erweiterungen in XPointer
9 Überblick über Stylesheet-Sprachen
9.1 Cascading Style Sheets
9.1.1 Wertzuweisungen
9.1.2 Formatierungsmodell
9.1.3 CSS und XML
9.1.4 Ein Beispiel: XML im Mozilla
9.2 Document Style Semantics and Specification Language
9.2.1 Flow Objects
9.2.2 Verarbeitungs-Modus
9.2.3 DSSSL praktisch
9.2.4 Langer Marsch von DSSSL nach HTML
9.3 Extensible Stylesheet Language (XSLT und XSL)
9.3.1 Verhältnis von XSLT zu XSL
9.3.2 Formatierung mit XSL
10 XSL-Transformationen
10.1 Grundsätzliches über Templates
10.2 Ergänzungen zum Datenmodell von XPath
10.3 Struktur von XSLT-Stylesheets
10.4 Den Ergebnisbaum erzeugen
10.4.1 Diverse Basiselemente
10.4.2 Formatierte Nummerierung
10.4.3 Schleifen und bedingte Verarbeitung
10.4.4 Sortieren
10.4.5 Variable und Parameter
10.4.6 Zusätzliche Funktionen
10.4.7 XSLT-Erweiterungen
10.4.8 message, output
11 XSLT in Web-Anwendungen
11.1 XSLT im Internet Explorer
11.2 Linklisten erzeugen
11.3 Details einer Literaturgeschichte
11.3.1 Sortierte Überblicksseiten
11.3.2 Kalender: einzelne Tage ausgeben
12 XML-Editoren
12.1 Übersicht
12.1.1 Emacs + PSGML (mit XML-Unterstützung)
12.1.2 XML Notepad
12.1.3 XML Spy
12.1.4 XMetal
12.1.5 Epic
12.1.6 MarkupKit (für MS Word)
12.1.7 WordPerfect Office2000
12.2 Emacs und PSGML (mit XML-Unterstützung)
12.3 XML-Notepad
12.4 XML Spy
12.5 XMetal
12.6 Epic
12.7 MarkupKit (für MS Word)
12.8 WordPerfect Office2000
12.9 Fazit
13 Entwicklung einer DTD
13.1 Auswahl einer Mehrzweck-DTD
13.2 Entwurf einer DTD
13.2.1 Dokumentanalyse
13.2.2 Tipps und Tricks
13.3 Instanzen ohne DTD
14 Herstellung dieses Buches
14.1 Zielsetzung und Randbedingungen
14.2 Definition der DTD
14.2.1 Schritt 1: Die Grobstruktur
14.2.2 Schritt 2: Elemente auf Zeichenebene
14.2.3 Schritt 3: Die Details
14.3 Formatieren des Manuskriptes
14.3.1 Konvertierung in HTML
14.3.2 Aufbereitung für den Ausdruck
14.4 Erfahrungen mit der zweiten Auflage
15 Anwendungsbeispiel Literatur
15.1 Vorüberlegungen
15.2 En détail: die Autoren in der DTD
15.3 Wie die Daten ins Web gelangen
15.3.1 Inhaltsverzeichnis generieren
15.3.2 Ausgabe der Autorendaten
15.4 Vollständige Listings
15.4.1 DTD für die Literaturgeschichte
15.4.2 DSSSL-Listing: Inhaltsverzeichnis
15.4.3 DSSSL-Listing: Ausgabe eines einzelnen Autors
15.4.4 Perl-Code für Ausgabe einzelner Autoren
16 Verteilte Softwareverwaltung mit XML
16.1 Aufgabenbeschreibung
16.2 XML als Datenbasis
16.3 Bilden von DTD-Hierarchien
16.4 Zusammentragen von verteilten XML-Fragmenten
16.5 Fazit
16.6 Stylesheet zur Transformation in HTML
17 E-Commerce mit XML
17.1 B2B-E-Commerce
17.1.1 Die Rolle von XML
17.1.2 Technische Aspekte
17.2 BMEcat
17.3 Electronic Business XML (ebXML)
17.3.1 Arbeitsgruppen
17.3.2 Zeitplan des Projekts
17.4 XML und EDIFACT
18 XML und Apache
18.1 XML-Transformation per CGI
18.1.1 Konfiguration des Servers
18.1.2 CGI-Skript: xmlhandler.cgi
18.1.3 Beispiel: von HTML nach HTML mit DSSSL oder XSLT
18.2 Cocoon
18.2.1 Extensible Server Pages (XSP)
18.2.2 Beispiel: Formatierung in PDF mit XSL
18.2.3 Beispiel: Simuliertes XLink mit Dynamic HTML/JavaScript
18.2.4 Installation
19 XHTML: Neues HTML 4 — erweiterbar
19.1 Status quo: HTML neu definiert
19.2 Modulare Zukunft
20 Transformation von XML in WML und HTML
20.1 Erzeugen der WML-Dateien
20.2 Erzeugen der HTML-Dateien
21 Ausblick
21.1 XML Schema
21.2 Programmierung mit XML-Daten
21.3 XML und Java
21.4 Resource Description Framework
21.5 Die Zukunft
A Extensible Markup Language (XML) 1.0
A.1 Einleitung
A.1.1 Herkunft und Ziele
A.1.2 Terminologie
A.2 Dokumente
A.2.1 Wohlgeformte XML-Dokumente
A.2.2 Zeichen
A.2.3 Allgemeine syntaktische Konstrukte
A.2.4 Zeichendaten und Markup
A.2.5 Kommentare
A.2.6 Processing Instructions
A.2.7 CDATA-Abschnitte
A.2.8 Prolog und Dokumenttyp-Deklaration
A.2.9 Standalone-Dokumentdeklaration
A.2.10 Behandlung von Leerraum
A.2.11 Behandlung des Zeilenendes
A.2.12 Identifikation der Sprache
A.3 Logische Strukturen
A.3.1 Start-Tags, End-Tags und Leeres-Element-Tags
A.3.2 Elementtyp-Deklarationen
A.3.3 Attributlisten-Deklaration
A.3.4 Bedingte Abschnitte
A.4 Physikalische Strukturen
A.4.1 Zeichen- und Entity-Referenzen
A.4.2 Entity-Deklarationen
A.4.3 Analysierte Entities
A.4.4 Behandlung von Entities und Referenzen durch einen XML-Prozessor
A.4.5 Konstruktion des Ersetzungstextes von internen Entities
A.4.6 Vordefinierte Entities
A.4.7 Notation-Deklarationen
A.4.8 Dokument-Entity
A.5 Konformität
A.5.1 Validierende und nicht-validierende Prozessoren
A.5.2 Benutzen von XML-Prozessoren
A.6 Notation
A.7 Anhang A: Referenzen
A.7.1 Normative Referenzen
A.7.2 Weitere Referenzen
A.8 Anhang B: Zeichenklassen
A.9 Anhang C: XML und SGML (nicht normativ)
A.10 Anhang D: Expansion von Entity- und Zeichenreferenzen (nicht normativ)
A.11 Anhang E: Deterministische Inhaltsmodelle (nicht normativ)
A.12 Anhang F: Automatische Erkennung von Zeichenkodierungen (nicht normativ)
A.13 Anhang G: XML-Arbeitsgruppe des W3C (nicht normativ)
B Verknüpfen von Style Sheets mit XML-Dokumenten Version 1.0
B.1 Die xml-stylesheet-Processing-Instruction
B.2 Anhang A: Referenzen
B.3 Anhang B: Begründung
C Verhältnis von XML zu SGML und HTML
C.1 XML und SGML
C.2 XML und HTML
D Übersichten
D.1 Cascading Style Sheets
D.1.1 CSS-Eigenschaften und -Werte
D.1.2 CSS-Muster
D.2 DSSSL: Flow Objects
D.3 Syntax der XSLT-Elemente
D.4 DTD-Fragment für XSLT-Stylesheets (nicht normativ)
D.5 Relevante Spezifikationen und Organisationen
D.5.1 International Organization for Standardization
D.5.2 World Wide Web Consortium
D.5.3 Organization for the Advancement of Structured Information Standards
D.5.4 Internet Society und Internet Engineering Task Force
D.5.5 ISO-639-Sprachcodes
D.5.6 ISO-3166-Ländercodes
D.5.7 Zeichensatz ISO-Latin-1
D.5.8 Sonderzeichen
D.6 XML-1.0-Regeln

19.1 Status quo: HTML neu definiert

Die nicht gerade umfangreiche XHTML-Empfehlung (ohne Zusatzdokumente circa 56 KByte) legt fest, was Dokumente beinhalten müssen, die als XHTML bezeichnet werden können. Einiges davon ist nicht neu (auch nicht in diesem Buch ;-), insgesamt ergibt sich alles aus dem neuen Bezugspunkt XML. Was den Namen des Wurzelelements angeht, bleibt alles beim Alten; es heißt nach wie vor html. Aber für XHTML muss es in Kleinbuchstaben vorhanden sein, weil XML zwischen Groß- und Kleinbuchstaben unterscheidet (HTML wäre ein anderes Element). Zunächst ein kurzes Beispiel.

Beispiel
<?xml version="1.0" encoding="ISO-8859-1"?>
  <!DOCTYPE html 
       PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
              "DTD/xhtml1-strict.dtd">
  <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">
    <head>
      <title>XHTML-Beispiel</title>
    </head>
    <body>
      <h1>XHTML-Beispiel</h1>
      <p>Dies ist ein ganz normale Absatz, der
         <br />aus drei Zeilen besteht und einen
         <br /><a href="http://www.ernunwieder.de/">Link</a> beinhalt</p>
    </body>
  </html>

Wer HTML kennt, sieht sofort, dass sich die Unterschiede zu bisherigen Web-Dokumenten in Grenzen halten. Ein paar Neuerungen gibt es aber schon.

Zwar bezeichnet die Spezifikation die XML-Deklaration in der ersten Zeile als nicht zwingend, für Europäer allerdings dürfte sie das oft sein. Denn immer dann, wenn nicht UTF-8 oder UTF-16, sondern ein anderer Zeichensatz wie der europäische ISO-8859-1 zum Einsatz kommen soll, sieht die Spezifikation die XML-Deklaration als Muss.

Die Deklaration des Dokumenttyps muss vor dem Wurzelelement stehen und auf eine von drei DTDs verweisen. Statt der oben verwendeten können es wie schon im alten HTML auch zwei andere sein: eine, die aus Kompatibilitätsgründen mehr an Attributen enthält und eine für Frames.

<!DOCTYPE html 
    PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
           "DTD/xhtml1-transitional.dtd">

<!DOCTYPE html 
    PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN"
    "DTD/xhtml1-frameset.dtd">
Künftig alle Elemente in Kleinbuchstaben

Wie das Wurzelelement müssen auch alle anderen und die Attribute in Kleinbuchstaben stehen; aus demselben Grund wie html selbst: für XML-bewusste Browser bedeuteten Großbuchstaben andere Elemente und Attribute. Das Wurzelelement selbst muss den Namensraum von XHTML über das Attribut xmlns bezeichnen, der für XHTML 1 als http://www.w3.org/1999/xhtml festgeschrieben ist. XHTML-Dokumente können auch Elemente aus anderen Namensräumen enthalten, die jeweils über einen Bezeichner festzulegen sind (zu Namespaces siehe Kapitel 6). Als Beispiel sei hier eins wiedergegeben, das aus der XHTML-Spezifikation stammt.

Beispiel
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
  <head>
    <title>Mathematik-Beispiel</title>
  </head>
  <body>
    <p>Auszeichnung nach MathML:</p>
    <math xmlns="http://www.w3.org/1998/Math/MathML">
      <apply> <log/>
        <logbase>
          <cn> 3 </cn>
        </logbase>
        <ci> x </ci>
      </apply>
    </math>
  </body>
</html>

In beiden Fällen (html und math), in denen ein Namensraum zugewiesen ist, wird er dadaurch zum Default-Namensraum, dass kein lokaler Name existiert (etwa math xmlns:mathematik=".."). Das bewirkt, dass der Namensraum im eingebetteten math-Element durchgängig der von MathML ist. Wollte man innerhalb von math Elemente des XHTML-Namensraums verwenden, müsste man einen der beiden mit einem lokalen Bezeichner versehen und diesen verwenden.

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
  <head>
    <title>Mathematik-Beispiel</title>
  </head>
  <body>
    <p>Auszeichnung nach MathML:</p>
    <math xmlns:mathematik="http://www.w3.org/1998/Math/MathML">
      <mathematik:apply>
        <mathematik:log/>
        <mathematik:logbase>
          <mathematik:cn> 3 </mathematik:cn>
        </mathematik:logbase>
        <mathematik:ci> x </mathematik:ci>
      </mathematik:apply>
    </math>
  </body>
</html>

Wer mit HTML arbeitet, muss sich und seine Dokumente umstellen, damit letztere wohlgeformtes XHTML sind. Denn dadurch, dass XHTML in XML definiert ist, gelten die am Anfang des Buches (siehe Kapitel 1) angesprochenen Vorgaben für Dokumente auch in XHTML. Zunächst müssen alle XHTML-Dokumente wohlgeformt sein. Das heißt, innerhalb des Wurzelelements html müssen alle anderen ordentlich geschachtelt sein: <strong>fett und <em>außerdem kursiv</em> und fett</strong> — das em muss innerhalb des strong geöffnet und geschlossen werden. Außerdem sind alle Attributwerte von Anführungszeichen zu umschließen: <p class="vip">.

Noch ein Wort zu Attributen: die bislang erlaubte, so genannte Attribut-Minimierung ist in XHTML verboten. Jedes Attribut ist mit seinem Namen und Wert zu notieren: <hr noshade="noshade"/> statt des bisherigen <hr noshade>.

Leere Elemente wie br oder img müssen in XHTML immer geschlossen werden; entweder auf die übliche Weise durch ein End-Tag oder durch einen Schrägstrich im Start-Tag (<br/>). Für heutige HTML-Browser empfiehlt es sich, vor dem Schrägstrich noch einen Leerschritt einzufügen, da mindestens der Navigator noch in der Version 4.7 das Element nur so erkennt.

JavaScript in einer CDATA-Sektion

Dadurch dass in XML das Kleinerzeichen und das &-Zeichen besondere Bedeutung haben, dürfen sie nur maskiert oder in einer CDATA-Sektion vorkommen. Das hat Konsequenzen für JavaScript. Diejenigen, die in ihren Dokumenten JavaScript-Funktionen verwenden, die eins der beiden Zeichen enthalten, müssen deshalb entweder die beiden durch &lt; und &amp; ersetzen oder das Script verpackenFussnoteDies war im SGML-basierten HTML auch schon so, nur dass es niemand beachtet — die Browser schon gar nicht..

Beispiel
<script>
  <![CDATA[
  Hier folgt das Script mit beliebig vielen < und &
  ]]>
</script>

Für HTML existieren Definitionen, die besonderen Zeichen — vom Umlaut bis zum Cedille — einen Namen zuweisen (Zeichen-Entity). Die XHTML-Spezifikation enthält an XML angepasste Listen zu den europäischen Spezialzeichen (xhtml-lat1.ent, siehe Abschnitt D.5.7), zu symbolischen (xhtml-symbol.ent) und weiteren Sonderzeichen (xhtml-special.ent). Notwendig waren die neuen Listen, weil die SGML-Version den Hinweis darauf enthielt, dass ein Zeichen ein CDATA sei und es so vor der Evaluierung schützte. Und innerhalb der Deklaration standen die in XML verbotenen Doppelstriche (--). Das folgende Beispiel für den Zeilenumbruch vermeidende nbsp zeigt die Unterschiede.

<!--  SGML -->
<!ENTITY nbsp   CDATA "&#160;" -- no-break space = non-breaking space,
                                  U+00A0 ISOnum -->

<!--  XML -->
<!ENTITY nbsp   "&#160;"> <!-- no-break space = non-breaking space,
                                  U+00A0 ISOnum -->

Ein weiterer Unterschied zwischen SGML und XML ist, dass SGML es erlaubt anzugeben, welche Elemente innerhalb eines anderen nicht vorkommen dürfen (exclusions). Nicht so bei XML. Deshalb hat das W3C die folgende Liste als Ersatz für die Auschlußmöglichkeit zusammengestellt.

Element Einschränkung
a darf nicht selbst ein a enthalten
pre darf img, object, big, small, sub und sup nicht enthalten
button darf input, select, textarea, label, button, form, fieldset, iframe und isindex nicht enthalten
label darf nicht selbst label enthalten
form darf nicht selbst form enthalten
Verweise über das Attribut id vornehmen (statt name)

Schließlich zur Kennzeichnung von Dokumentteilen. Die sehen in normalen HTML so aus: <p name="diesthema">..., und man verweist auf diesen Absatz mit <a href="#diesthema">.... In XHTML müssen Autoren statt name dafür das Attribut id verwenden, weil jeder Verweis auf einen Dokumentbestandteil auf ein Attribut vom Typ ID zeigt — und das ist id. Vorhandene Dokumente kann man darauf einstellen, indem man überall dort, wo name="hier" steht, zusätzlich id="hier" vorsieht.

Valid HTML 4.01!Valid CSS!