Bei der Fragestellung, aus welchen Bestandteilen ein Dokument besteht, beschränken wir uns hier auf Textdokumente, d.h. auf Dokumente, die überwiegend aus Text bestehen. Selbstverständlich dürfen darin auch Abbildungen, Tabellen oder sogar Videos enthalten sein. Letzteres bedeutet natürlich auch, dass keine Beschränkung auf druckbare Dokumente besteht, wenngleich diese Vorstellung zum besseren Verständnis beiträgt.
Woraus ist also ein solches Dokument aufgebaut? Als erste Antwort (vgl. Abbildung 3) findet man sicherlich den Inhalt, also den Text, die Bilder usw. Mit dem DTP-Gedanken im Hintergrund ist es klar, dass die Formatierung, das Layout, die gewählte Schriftart usw. eine wichtige Rolle spielen. Schließlich bestimmt dieser Teil eines Dokumentes das visuelle Erscheinungsbild. Die genannten Dinge sollen hier zusammenfassend als Information zur (visuellen) Darstellung bezeichnet werden. Die dritte Komponente ist für die meisten Verfasser überraschenderweise weniger offensichtlich, was wohl auf die zuvor genannte Dominanz des WYSIWYG-Prinzips zurückzuführen ist. Gemeint ist die Struktur des Textes, also die Aufteilung in Kapitel, Abschnitte usw. Desweiteren bestehen Sätze ja nicht einfach aus aneinandergereihten Wörtern. Auch Informationen über einzelne Wörter oder Satzteile können interessant sein. Handelt es sich um ein Zitat oder um eine wichtige Textstelle? Ist ein Wort ein Personenname oder ein Befehl? — All diese logischen Informationen, die jeder Leser auf einen Blick erkennt, fehlen einem Computerprogramm nach dem WYSIWYG-Ansatz. Für eine spätere Weiterverarbeitung ist das sicherlich nicht förderlich. Was liegt also näher, als bei der Texterfassung den Schwerpunkt nicht auf das Aussehen, sondern die Struktur und die logischen Elemente zu legen? Neu ist diese Idee nicht. Sie ist tief verwurzelt in der Herkunft von SGML.