Die nicht gerade umfangreiche XHTML-Empfehlung (ohne Zusatzdokumente circa 56 KByte) legt fest, was Dokumente beinhalten müssen, die als XHTML bezeichnet werden können. Einiges davon ist nicht neu (auch nicht in diesem Buch ;-), insgesamt ergibt sich alles aus dem neuen Bezugspunkt XML. Was den Namen des Wurzelelements angeht, bleibt alles beim Alten; es heißt nach wie vor html. Aber für XHTML muss es in Kleinbuchstaben vorhanden sein, weil XML zwischen Groß- und Kleinbuchstaben unterscheidet (HTML wäre ein anderes Element). Zunächst ein kurzes Beispiel.
<?xml version="1.0" encoding="ISO-8859-1"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "DTD/xhtml1-strict.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de"> <head> <title>XHTML-Beispiel</title> </head> <body> <h1>XHTML-Beispiel</h1> <p>Dies ist ein ganz normale Absatz, der <br />aus drei Zeilen besteht und einen <br /><a href="http://www.ernunwieder.de/">Link</a> beinhalt</p> </body> </html>
Wer HTML kennt, sieht sofort, dass sich die Unterschiede zu bisherigen Web-Dokumenten in Grenzen halten. Ein paar Neuerungen gibt es aber schon.
Zwar bezeichnet die Spezifikation die
XML-Deklaration in der ersten Zeile als nicht
zwingend, für Europäer allerdings dürfte sie das oft
sein. Denn immer dann, wenn nicht UTF-8 oder
UTF-16, sondern ein anderer Zeichensatz wie der
europäische
ISO-8859-1 zum
Einsatz kommen soll, sieht die Spezifikation die
XML-Deklaration als Muss.
Die Deklaration des Dokumenttyps muss vor dem
Wurzelelement stehen und auf eine von drei DTDs
verweisen. Statt der oben verwendeten können es wie schon im
alten
HTML auch zwei andere sein: eine,
die aus Kompatibilitätsgründen mehr an Attributen enthält und
eine für Frames.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "DTD/xhtml1-transitional.dtd"> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" "DTD/xhtml1-frameset.dtd">
Wie das Wurzelelement müssen auch alle anderen und die Attribute in Kleinbuchstaben stehen; aus demselben Grund wie html selbst: für XML-bewusste Browser bedeuteten Großbuchstaben andere Elemente und Attribute. Das Wurzelelement selbst muss den Namensraum von XHTML über das Attribut xmlns bezeichnen, der für XHTML 1 als http://www.w3.org/1999/xhtml festgeschrieben ist. XHTML-Dokumente können auch Elemente aus anderen Namensräumen enthalten, die jeweils über einen Bezeichner festzulegen sind (zu Namespaces siehe Kapitel 6). Als Beispiel sei hier eins wiedergegeben, das aus der XHTML-Spezifikation stammt.
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> <head> <title>Mathematik-Beispiel</title> </head> <body> <p>Auszeichnung nach MathML:</p> <math xmlns="http://www.w3.org/1998/Math/MathML"> <apply> <log/> <logbase> <cn> 3 </cn> </logbase> <ci> x </ci> </apply> </math> </body> </html>
In beiden Fällen (html und math), in denen ein Namensraum zugewiesen ist, wird er dadaurch zum Default-Namensraum, dass kein lokaler Name existiert (etwa math xmlns:mathematik=".."). Das bewirkt, dass der Namensraum im eingebetteten math-Element durchgängig der von MathML ist. Wollte man innerhalb von math Elemente des XHTML-Namensraums verwenden, müsste man einen der beiden mit einem lokalen Bezeichner versehen und diesen verwenden.
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> <head> <title>Mathematik-Beispiel</title> </head> <body> <p>Auszeichnung nach MathML:</p> <math xmlns:mathematik="http://www.w3.org/1998/Math/MathML"> <mathematik:apply> <mathematik:log/> <mathematik:logbase> <mathematik:cn> 3 </mathematik:cn> </mathematik:logbase> <mathematik:ci> x </mathematik:ci> </mathematik:apply> </math> </body> </html>
Wer mit HTML arbeitet, muss sich und
seine Dokumente umstellen, damit letztere wohlgeformtes
XHTML sind. Denn dadurch, dass XHTML
in XML definiert ist, gelten die am Anfang des
Buches (siehe Kapitel 1) angesprochenen
Vorgaben für Dokumente auch in XHTML. Zunächst
müssen alle XHTML-Dokumente wohlgeformt sein. Das
heißt, innerhalb des Wurzelelements html müssen
alle anderen ordentlich
geschachtelt sein:
<strong>fett und <em>außerdem
kursiv</em> und fett</strong> — das
em muss innerhalb des strong geöffnet
und geschlossen werden. Außerdem sind alle Attributwerte von
Anführungszeichen zu umschließen: <p
class="vip">.
Noch ein Wort zu Attributen: die bislang erlaubte, so genannte Attribut-Minimierung ist in XHTML verboten. Jedes Attribut ist mit seinem Namen und Wert zu notieren: <hr noshade="noshade"/> statt des bisherigen <hr noshade>.
Leere Elemente wie br oder img müssen in XHTML immer geschlossen werden; entweder auf die übliche Weise durch ein End-Tag oder durch einen Schrägstrich im Start-Tag (<br/>). Für heutige HTML-Browser empfiehlt es sich, vor dem Schrägstrich noch einen Leerschritt einzufügen, da mindestens der Navigator noch in der Version 4.7 das Element nur so erkennt.
Dadurch dass in XML das Kleinerzeichen
und das &-Zeichen besondere Bedeutung haben, dürfen sie nur
maskiert oder in einer CDATA-Sektion
vorkommen. Das hat Konsequenzen für JavaScript. Diejenigen,
die in ihren Dokumenten JavaScript-Funktionen verwenden, die
eins der beiden Zeichen enthalten, müssen deshalb entweder die
beiden durch < und & ersetzen oder das Script
verpackenDies war im SGML-basierten
HTML auch schon so, nur dass es niemand beachtet
— die Browser schon gar nicht..
<script> <![CDATA[ Hier folgt das Script mit beliebig vielen < und & ]]> </script>
Für HTML existieren Definitionen, die besonderen Zeichen — vom Umlaut bis zum Cedille — einen Namen zuweisen (Zeichen-Entity). Die XHTML-Spezifikation enthält an XML angepasste Listen zu den europäischen Spezialzeichen (xhtml-lat1.ent, siehe Abschnitt D.5.7), zu symbolischen (xhtml-symbol.ent) und weiteren Sonderzeichen (xhtml-special.ent). Notwendig waren die neuen Listen, weil die SGML-Version den Hinweis darauf enthielt, dass ein Zeichen ein CDATA sei und es so vor der Evaluierung schützte. Und innerhalb der Deklaration standen die in XML verbotenen Doppelstriche (--). Das folgende Beispiel für den Zeilenumbruch vermeidende nbsp zeigt die Unterschiede.
<!-- SGML --> <!ENTITY nbsp CDATA " " -- no-break space = non-breaking space, U+00A0 ISOnum --> <!-- XML --> <!ENTITY nbsp " "> <!-- no-break space = non-breaking space, U+00A0 ISOnum -->
Ein weiterer Unterschied zwischen SGML und XML ist, dass SGML es erlaubt anzugeben, welche Elemente innerhalb eines anderen nicht vorkommen dürfen (exclusions). Nicht so bei XML. Deshalb hat das W3C die folgende Liste als Ersatz für die Auschlußmöglichkeit zusammengestellt.
Element | Einschränkung |
---|---|
a | darf nicht selbst ein a enthalten |
pre | darf img, object, big, small, sub und sup nicht enthalten |
button | darf input, select, textarea, label, button, form, fieldset, iframe und isindex nicht enthalten |
label | darf nicht selbst label enthalten |
form | darf nicht selbst form enthalten |
Schließlich zur Kennzeichnung von Dokumentteilen. Die
sehen in normalen
HTML so aus: <p
name="diesthema">..., und man verweist auf diesen
Absatz mit <a href="#diesthema">.... In XHTML müssen
Autoren statt name dafür das Attribut id
verwenden, weil jeder Verweis auf einen Dokumentbestandteil auf
ein Attribut vom Typ ID zeigt — und das ist
id. Vorhandene Dokumente kann man darauf
einstellen
, indem man überall dort, wo
name="hier" steht, zusätzlich id="hier"
vorsieht.