Text besteht aus miteinander vermengten Zeichendaten und Markup. Markup besteht aus Start-Tags, End-Tags, Tags für leere Elemente, Entity-Referenzen, Zeichenreferenzen, Kommentaren, Begrenzungen für CDATA-Abschnitte, Dokumenttyp-Deklarationen und Processing Instructions.
Sämtlicher Text, der kein Markup ist, bildet die Zeichendaten des Dokuments.
Das et-Zeichen (&) und die öffnende spitze Klammer (<) dürfen in ihrer literalen Form ausschließlich als Markup-Begrenzungen, innerhalb eines Kommentars, einer Processing Instruction oder eines CDATA-Abschnitts benutzt werden. Sie sind außerdem innerhalb des literalen Werts einer internen Entity-Deklaration zulässig, siehe A.4.3.2. Falls sie an anderer Stelle benötigt werden, müssen sie geschützt (escaped) werden. Dies kann durch eine numerische Zeichenreferenz oder die Zeichenketten & (Ampersand, et-Zeichen) bzw. < (kleiner-als, less-than) geschehen. Die schließende spitze Klammer (>) kann durch die Zeichenkette > (größer-als, greater-than) dargestellt werden. Sie muss zwecks Kompatibilität durch > oder eine Zeichenreferenz geschützt werden, falls sie in der Zeichenkette ]]> an einer Stelle auftritt, an der diese Zeichenkette nicht das Ende eines CDATA-Abschnitts markiert.
Innerhalb des Inhalts eines Elements ist jede Folge von Zeichen, die keine Anfangsbegrenzung von irgendeiner Form von Markup enthalten, Teil der Zeichendaten. Innerhalb eines CDATA-Abschnitts ist jede Folge von Zeichen, die nicht den CDATA-Abschluss ]]> enthält, Teil der Zeichendaten.
Um Attributwerten zu erlauben, sowohl das einfache als auch das doppelte Anführungszeichen zu enthalten, kann das Apostroph (') als ' und das doppelte Anführungszeichen (") als " dargestellt werden.
Zeichendaten | ||||
---|---|---|---|---|
|