XML in der Praxis - Warum mehr weniger ist

1.1 Warum mehr weniger ist

Schon HTML kann kompliziert sein

Schön, dass es HTML gibt — nur sieht selbst diese Sprache für Anfänger gelegentlich ähnlich rätselhaft aus wie das anfängliche Motto; vor allem dann, wenn der Web-Meister sich mit Tabellen, unsichtbaren GIFs und herstellereigenen Zusätzen ausgetobt hat. Allerdings: Ganz so kompliziert, wie das Motto beim ersten Lesen vielleicht gewirkt hat, ist diese einfache Auszeichnungssprache namens Hypertext Markup Language nicht — nicht einmal dann, wenn man die oben erwähnten Cascading Style Sheets als Sprachergänzung zur Formatierung von Dokumenten hinzunimmt. Denn es handelt sich insgesamt um circa 70 Elementtypen — oft ungenau Tags genanntElementtypen sind die aus HTML bekannten P und H3. Sie haben, wenn man HTML richtig schreibt, jeweils ein Start- (<p>) und ein End-Tag (</p>). In der SGML-DTD für HTML ist für eine Reihe von Elementen vorgesehen, dass man ihr End-Tag oder gar beide einfach weglassen kann (Tag-Minimization). Damit ist es in XML vorbei: OMITTAG=NO —, die eine Basisstruktur von Texten (Überschriften, Absatz, Zitate, Listen, Tabellen) abbilden. Darüber hinaus enthält HTML Anweisungen für Stilarten (Betonung) — bis hin zu solchen, die festlegen sollen, ob ein Wort (oder mehrere) kursiv oder fett gedruckt zu sein habe. Vom Blinken, das Netscape leider eingeführt hat, soll hier nicht die Rede sein.

Trennung von Markup und Formatierung

Eigentlich waren schon diese auf das Display bezogenen Elemente (I und B) eine Abweichung von der reinen Lehre des strukturierten Markup. Aber sie waren nichts gegen das, was danach kam. Was wiederum damit zu tun hatte, dass nach dem ersten Internet-Boom (1994) die Anwender — diejenigen, die WWW-Dokumente erstellen wollten — mehr an Gestaltungsmöglichkeiten suchten; und sie bekamen sie: Tabellen, blinkende Strings ...

Was bleibt, ist die Tatsache, dass HTML in den letzten Jahren eine stürmische Entwicklung genommen hat — getragen von Erweiterungen, wie sie im Wesentlichen Netscape (durch Frames, die HTML ergänzende Scriptsprache JavaScript sowie Layers) und Microsoft (VB-Integration und Dynamic HTML) eingeführt haben. Datenbankanbindungen über Perl sowie kommerzielle (Zusatz-)Produkte von DBMS-Anbietern runden das Wirrwar ab. Soweit es denn als Wirrwar empfunden wird. Nicht zu vergessen die oben angedeutete Erweiterung der HTML-Elemente durch Software, die die Web-Dokumente durchgeht (parsing) und nach einer bestimmten Markierung sucht (und daraufhin Aktionen durchführt).

Gefahr der Aufsplittung des Web durch proprietäre Erweiterungen

Mehr ist in diesem Zusammenhang tatsächlich weniger, weil die fortlaufende Ergänzung einer Sprache durch von Industrie und Autoren gewünschte oder von Herstellern erahnte Tools und Elemente schnell ins Web-Chaos führen könnte. Der Versuch, die eigenen Datenbankinhalte ins Web zu bringen, ist schon heute davon abhängig, mit welchem DBMS man arbeitet, denn dessen (proprietäre) Web-Lösung wird man nutzen müssen, wenn man sich nicht auf die Möglichkeiten von Perl oder anderen Programmiersprachen beschränkt beziehungsweise konzentriert.

All dies heißt, dass die Gefahr bestand (und ansatzweise immer noch besteht), dass das World Wide Web auseinanderdriftet. Dem woll(t)en viele entgegenwirken. In den Worten von Jim Cape, aus einem Posting in der Newsgruppe comp.infosystems.www.authoring.html (übersetzt nach dem Zitat in [conn97a] [conn97a]Dan Connolly, Rohit Khare, Adam Rifkin, The Evolution of Web Documents , in [conn97] [conn97]XML: Principles, Tools and Techniques, Dan Connolly, Sebastopol/CA, 1997, O'Reilly): Sie [XML, d. A.] wurde entwickelt, um ein für alle Mal die von Microsoft und Netscape propagierten Tag-Suppenkriege zu beenden.

Der Erfolg des Web und seiner Sprache wurde von denjenigen, die ihn erst möglich gemacht hatten, sowohl mit Interesse als auch mit Neid verfolgt. Gemeint ist hier natürlich die SGML-Gemeinde. Natürlich deshalb, weil HTML eine Anwendung der Standard Generalized Markup Language ist: eine Dokumenttyp-DefinitionAuch heute noch, da die Definition von HTML in XML unter dem Namen XHTML fertig ist, basiert das Web nach wie vor auf der SGML-Version von HTML, weil sie in den Browsern implementiert ist.. In ihr hat ursprünglich Tim Berners-Lee vom CERN, dem spätestens seitdem weltberühmten Hochenergie-Physik-Institut in der Schweiz, festgeschrieben, welche Elemente die Hypertext Markup Language ausmachen, das heißt, mit welchen ich meine Texte auszeichnen kann.

Sitemap

1.1 Warum mehr weniger ist