Ein analysiertes Entity
enthält Text, eine
Folge von Zeichen,
die entweder Markup oder Zeichendaten
darstellen. Ein Zeichen (character)
ist eine atomare Einheit von Text gemäß der Spezifikation
in ISO/IEC 10646. Gültige Zeichen sind Tab (Tabulator),
Carriage Return (Wagenrücklauf), Line Feed (Zeilenvorschub)
sowie die Grafikzeichen von Unicode und ISO/IEC
10646. Von der Verwendung von
Kompatibilitätszeichen
(compatibility characters), wie
sie in Abschnitt 6.8 von [Unicode] definiert werden,
wird abgeraten.
Zeichenbereich | |||||
---|---|---|---|---|---|
|
Der Mechanismus zur Kodierung von Zeichen in Bitmustern darf von Entity zu Entity variieren. Alle XML-Prozessoren müssen die Kodierungen UTF-8 und UTF-16 aus ISO/IEC 10646 akzeptieren. Die Möglichkeiten zur Deklaration, welche der beiden Kodierungen verwendet wird, sowie die Verwendung von anderen Kodierungen werden später, in A.4.3.3, behandelt.