Heim > Artikel > Backend-Entwicklung > Semantik von XML-Tags
[Zusammenfassung] Obwohl die XML-Dokumenttypdefinition einen Mechanismus bereitstellt, der die Syntax der XML-Sprache in maschinenlesbarer Form beschreiben kann, gibt es derzeit keinen ähnlichen Mechanismus, um die spezifische Semantik des XML-Vokabulars anzugeben. Dies bedeutet, dass die Bedeutung von XML-Tags nicht erklärt werden kann und die durch XML dargestellten Sachverhalte und Zusammenhänge nicht klar, umfassend und normativ definiert werden können. Dies hat schwerwiegende praktische und theoretische Konsequenzen. Positiv zu vermerken ist, dass XML-Strukturen eine beliebige Semantik erhalten und in Bereichen verwendet werden können, die von ihren ursprünglichen Entwicklern nicht vorhergesehen wurden. Weniger positiv ist, dass sich Content-Entwickler und Software-Ingenieure auf eine langweilige Dokumentation verlassen müssen oder, noch schlimmer, darauf angewiesen sind, die Absicht des Markup-Language-Designers zu erraten. Dieser Prozess ist zeitaufwändig, arbeitsintensiv, fehleranfällig und nicht verifizierbar. Auch wenn die ursprüngliche Dokumentationsarbeit des Designers perfekt durchgeführt wird, kann es dennoch zu unbefriedigenden Situationen kommen. Darüber hinaus führt der Mangel an Forschung zur semantischen Natur von Markups auch dazu, dass die digitale Dokumentenverarbeitung, die zum Bereich der technischen Anwendungen gehört, überhaupt keine Theorie hat. Obwohl einige laufende Projekte (XML Schema, RDF, Semantic Web) einige Ergebnisse erzielt haben, löst keines dieser Projekte direkt und umfassend die Kernprobleme der XML-Markup-Semantik. Dieser Artikel gibt einen Überblick über die Entwicklungsgeschichte des Konzepts der Markup-Bedeutung, verdeutlicht die Motivation für die Interpretation der formalen Semantik von XML und stellt ein wissenschaftliches Forschungsprojekt zur Semantik vor – das BECHAMEL Markup Semantics Project.
[Schlüsselwörter] SGML |. Textauszeichnungssysteme wie Standard Generalized Markup Language (SGML) und Extensible Markup Language (XML) werden zunehmend in allen Bereichen der Gesellschaft, Wirtschaft, Kultur und des Lebens eingesetzt. SGML/XML ist eine maschinenlesbare Technologie, die eine beschreibende Auszeichnungssprache definiert. Mit Ausnahme einiger Teile, die einer besonderen Behandlung bedürfen, definiert diese Sprache klar die Struktur des Dokuments und seine zugrunde liegende Bedeutung. SGML/XML entwickelt sich rasant, und die weitverbreitete Nutzung dieser Technologie kann eine hochleistungsfähige Verarbeitung und Veröffentlichung von Dokumenten mit Interoperabilität unterstützen.
Dieser gute Wunsch wurde teilweise erfüllt. Die Überlegenheit von SGML/XML hat die Erwartungen der Menschen übertroffen. Die Funktionalität, Interoperabilität, Vielfalt und Zugänglichkeit des SGML/XML-Dokumentsystems müssen jedoch noch verbessert werden. Wenn diese Chance nicht genutzt wird, werden die Folgen sehr schwerwiegend sein: Die Branche hat hohe finanzielle Kosten verursacht und viele Möglichkeiten verloren, was auch zu einigen Katastrophen bei kritischen Sicherheitsanwendungen für Menschen mit Behinderungen führen wird zu den kulturellen und kommerziellen Vorteilen der heutigen Gesellschaft. Darüber hinaus erinnern uns seit langem bestehende Probleme weiterhin daran, dass die besten aktuellen digitalen Dokumentenmodelle immer noch fehlerhaft oder zumindest unvollständig sind.
Die Ursache dieser Probleme liegt darin, dass SGML/XML zwar eine sinnvolle Struktur für Dokumente bereitstellen kann, SGML/XML jedoch die grundlegenden semantischen Beziehungen zwischen Dokumentkomponenten und Themen nicht systematisch und maschinenverarbeitbar darstellen kann. SGML/XML unterstützt die Beschreibung maschinenlesbarer „Grammatik“, bietet jedoch keinen Mechanismus zur Erklärung der semantischen Konnotation einer bestimmten Grammatik. Daher gibt es keine Möglichkeit, die potenzielle Bedeutung eines SGML/XML-Vokabulars formal auszudrücken. Aktuelles SGML/XML kann nicht einmal sehr einfache grundlegende semantische Fakten über Dokumentanmerkungssysteme ausdrücken. Diese Fakten werden normalerweise von Markup-Language-Designern vorab entworfen, aber die spezifische Implementierung hängt immer noch von den Markup-Language-Benutzern und der Software ab.
Dieser Mangel an Ausdrucksfähigkeiten zwingt SGML/XML-Benutzer dazu, die semantischen Beziehungen zu erraten, an die Markup-Language-Designer gedacht, sie aber nicht formal ausgedrückt haben. Content-Entwickler müssen bei der Codierung von Inhalten die Absichten des Designers erraten und auf der Grundlage dieser Schlussfolgerungen arbeiten, ohne dass sie ihre Schlussfolgerungen und Absichten gegenüber anderen oder Anwendungen, die die codierten Inhalte verarbeiten, klar zum Ausdruck bringen können. Softwaredesigner müssen auch die möglichen Absichten der Markup-Language-Designer erraten und diese Vermutung in Softwaretools und Anwendungssysteme umsetzen. Manchmal sind Vermutungen zweiter Ordnung erforderlich: Der Software-Designer muss die Schlussfolgerungen des Inhaltsentwicklers über die Absicht des Markup-Language-Designers erraten.
Offensichtlich sind diese Spekulationen unvollständig, fehlbar und unbestätigt. Darüber hinaus sind die Produktions- und Implementierungsprozesse zeit- und arbeitsintensiv und auch die Funktionalität und Interoperabilität sind mangelhaft. Das Ausstatten eines allgemeinen Dokuments in natürlicher Sprache mit einer SGML/XML-Spezifikation löst dieses Problem nicht vollständig. Natürlich können gewöhnliche Dokumente in natürlicher Sprache Inhaltsanbietern und Softwareentwicklern einige Hinweise geben, aber es gibt derzeit keine allgemeinen Regeln für SGML/XML-Dokumente. Gewöhnliche Dokumente in natürlicher Sprache liegen ohnehin nicht in maschinenlesbarer Form vor, und das ist das Problem, über das wir beim SGML/XML-Markup-System sprechen.
Die Idee einer maschinenverarbeitbaren semantischen Beschreibung im Zusammenhang mit SGML und XML ist noch nicht entstanden. Dies ist die Ursache für aktuelle Probleme im Ingenieurbereich und Hindernisse für die zukünftige Entwicklung. Es gibt jedoch nur wenige verwandte semantische Studien begann, diesem Thema Aufmerksamkeit zu schenken. Die Arbeit an W3CSchema hängt damit zusammen, deckt jedoch nur einen kleinen Teil dieses Problems ab (z. B. Datentypen). Damit verbunden ist auch das „Semantic Web“-Projekt des W3C, das jedoch auf die Entwicklung einer gemeinsamen XML-basierten Wissensrepräsentationstechnologie abzielt. Unsere Forschung konzentriert sich auf die Semantik des Dokument-Markups, die in tatsächlichen Dokumentenverarbeitungssystemen verborgen ist. Man mag sagen, dass die Essenz des Semantic Web darin besteht, semantische Tags zu entwerfen. In diesem Artikel glauben wir jedoch, dass wir zur Lösung der oben genannten Probleme auch die wesentliche Bedeutung von Tags eingehend betrachten müssen.
Als nächstes erklärt dieser Artikel zunächst die Bedeutung von Markup aus dem historischen Hintergrund (Marker spielen eine interessante Rolle bei der Entwicklung von Textverarbeitungsmethoden), und zweitens wird detailliert beschrieben, welche Faktoren den Bedarf an formalem semantischem Markup schaffen Ermittlung der semantischen Bedürfnisse; abschließend erfolgt eine kurze Einführung in ein Forschungsprojekt, an dessen Umsetzung mehrere Institutionen beteiligt sind – das BECHAMEL Markup Semantics Project, das intensiv an der Lösung des semantischen Problems von Markierungen arbeitet.
2. Historischer Hintergrund
Dokumenten-„Marken“ können wahrscheinlich als Teil des Kommunikationssystems gezählt werden, einschließlich des frühen Schreibens, Kopierens, Veröffentlichens und Druckens. Mit der Entwicklung der digitalen Textverarbeitung und des Schriftsatzes wurde jedoch die Verwendung von Markierungen sind bewusst geworden und weit verbreitet und haben sich zu einem wichtigen Innovationsbereich in der Systementwicklung entwickelt. Der Zeitraum von den 1960er bis 1980er Jahren war eine Zeit der umfassenden und systematischen Entwicklung von Dokumentenauszeichnungssystemen, wobei der Schwerpunkt auf der Verbesserung der Effektivität und Funktionalität des digitalen Satzes und der Textverarbeitung lag. In den frühen 1980er Jahren wurde noch an einem theoretischen Rahmen für die Markierung gearbeitet und dieser zur Unterstützung der Entwicklung von Hochleistungssystemen eingesetzt. Einige Ergebnisse in diesem Bereich wurden veröffentlicht, die meisten davon sind jedoch nur in Arbeitsdokumenten und Produkten in verschiedenen Standardformen festgehalten.
In diesem Stadium entstand die Ansicht, dass das Dokument als intellektuelle Leistung eher dazu geeignet ist, in ein geordnetes hierarchisches Strukturmodell einer Reihe von Objekten (wie Kapitel, Absätze, Formeln usw.) abstrahiert zu werden als eindimensionales Text-Zeichenflussmodell. Der Zeichenstrom wird häufig mit einer großen Anzahl von Codierungen vermischt, die das Format definieren, Strukturen, die das Designlayout beschreiben (z. B. Seitenzahlen, Spalten, Druckzeilen), Matrizen von Pixelwerten und anderen möglichen Ausdrücken in verschiedenen Dokumentenverarbeitungs- und Speichersystemen . Das geordnete hierarchische Strukturmodell fasst zwei grundsätzlich unterschiedliche Annotationen zusammen, nämlich Annotationen, die Bearbeitungstextobjekte (Titel, Kapitel usw.) identifizieren, und Annotationen, die Layoutanforderungen beschreiben. Die Anwendung des ersteren hat einige Ergebnisse erzielt. Relevante Dokumentelemente wie Titel, Kapitel, Absätze, Gleichungen, Zitate usw. können durch Trennzeichen-Tags eindeutig gekennzeichnet werden und die Elemente können dann indirekt durch auf den Elementtyp abgebildete Regeln verarbeitet werden. Diese Trennung von Inhalt und Form ermöglicht Indirektion und Abstraktion auf Basisebene in einer gemeinsamen kombinatorischen Ökonomie. Diese Form der Trennung hat einen enormen und vielfältigen praktischen Wert in allen Aspekten der Dokumentenverarbeitung und scheint, was noch wichtiger ist, die Frage zu klären, was genau ein Dokument ist. Das hierfür verwendete beschreibende Markup markiert nicht nur den Umfang des Elements, sondern trägt auch die Bedeutung, die das Dokumentmodell offenbaren möchte (dieser Text ist beispielsweise ein Kapitel).
In den frühen 1980er Jahren veröffentlichte das American National Institute of Standardization (ANSI/ISO) die einflussreiche SGML-Dokument-Markup-Metagrammatik und sortierte frühere theoretische und analytische Arbeiten zu Markup und Dokumentstruktur. SGML bietet eine maschinenlesbare Form zur Definition einer beschreibenden Auszeichnungssprache. Als Metagrammatik definiert SGML keine Auszeichnungssprache, sondern beschreibt Techniken zur Entwicklung maschinenlesbarer Auszeichnungssprachen. Der Kern dieser Definition ist ein formaler Ausdrucksmechanismus ähnlich der Backus-Naur-Form (BNF). Dieser Mechanismus enthält Regeln zum Definieren typisierter Eigenschaften und ihrer Werte sowie andere Designs zur weiteren Abstraktion und Indirektion (siehe die Kommentare zu Dokumenttypdefinitionen (DTDs) und Backus-Noel Eine Zusammenfassung des Grades der Paradigmenähnlichkeit). Strukturell ist ein SGML-Dokument ein Baum mit geordneten Zweigen und beschrifteten Knoten, der das formale Produkt seiner entsprechenden DTD ist.
Nach Jahren der Analyse und Praxis sind die Grundideen hinter SGML allgemein bekannt geworden. Die einzigartigen Mechanismen von SGML (Backus-Norr-Paradigma-ähnliche Metasyntax, typisierte Attribut-/Attributwertpaare, Entitätsreferenzen usw.) werden unter Nutzung branchenüblicher Standards auf Metasyntaxebene und lokalisierter Innovationen auf Vokabularebene angewendet Programme und Tools werden effizient implementiert. Die Auszeichnungssprache SGML selbst scheint sich weiterzuentwickeln und gleichzeitig ideale Arbeitsabläufe für den Entwurf, die Implementierung und die Nutzung von Dokumentensystemen zu unterstützen und zu optimieren. Von Mitte der 1980er bis Anfang der 1990er Jahre wurde eine große Anzahl SGML-basierter Annotationssysteme entwickelt.
Obwohl die Entwicklung von SGML viel Aufmerksamkeit erhielt, war die Idee gut und wurde in mehreren Bereichen erfolgreich umgesetzt. In den ersten zehn Jahren nutzte sie jedoch fast niemand. Es gibt viele Faktoren, die zu diesem Ergebnis führen, aber der wichtigste ist, dass SGML selbst zu komplex ist. Insbesondere enthält SGML viele komplexe optionale Attribute und die entsprechende Software muss diese möglicherweise überhaupt nicht implementieren, was zu einer sehr langsamen Entwicklung führt der SGML-Software. Schlimmer noch: Wenn das Dokument nicht mit einer DTD validiert ist, ist eine weitere Analyse nicht möglich. Abkürzungskontrolle bedeutet, dass Elementgrenzen nicht ohne Berücksichtigung der Dokumentsyntax bestimmt werden können. Darüber hinaus enthält SGML auch einige andere Attribute, die dazu führen, dass vorhandene Syntaxanalysetools nicht auf die formale Grammatik anwendbar sind und keine effiziente Syntaxanalyse durchführen können.
Im Hinblick auf Online-Veröffentlichung und Kommunikation kann das SGML-System auf HTML (Hypertext Markup Language) angewendet werden. Die ursprüngliche HTML-Version war lose definiert und es fehlten formale Syntaxanweisungen. Später gab es Interesse an der SGMLDTD von HTML, und es erwies sich als schwierig, eine DTD für etwas zu entwerfen, das zur „richtigen“ Praxis geworden war. Noch wichtiger ist, dass Anbieter in der ursprünglichen HTML-Spezifikation willkürlich programmatische Tags (z. B.
Beziehen Sie sich auf das folgende Fragment des XML-Markup-Dokuments
Leser, die mit der Struktur von
XML-Markup vertraut sind, werden dies tun Natürlich kennen Sie die Tags in den Dokumentelementen. P steht für Absatz, der einen Titel hat. Der Absatzinhalt nach dem Titelelement bildet den Textkörper. Er beginnt nach dem Titelelement und endet vor dem Abschlusstag des Absatzes. Die Bedeutung und Verwendung von Tags ist nicht sofort offensichtlich, daher können Autoren oder Leser die Dokumentation zur Tag-Sammlung konsultieren
Offensichtliche Tags sind für die Bequemlichkeit menschlicher Leser konzipiert. Diese Tags können mit Hilfe eines Dokumentparsers nicht aus der Datenstruktur extrahiert werden. Wie in Abbildung 1 dargestellt, zeigt der Parse-Baum (der von Stylesheet-Programmierern verwendet wird) die Überschrift, das Zitat sowie den Text vor und nach dem Zitat an, wobei es sich jeweils um einen separaten untergeordneten Knoten des Absatzes handelt, der Parse-Baum kann dies jedoch nicht anzeigen Folgende Merkmale sind vorhanden: Der Kopf ist ein Attribut des gesamten Absatzes, der Text besteht aus zwei Teilen in der Inhaltsstruktur und das Zitat ist in den Text eingebettet.
Tatsächlich unterscheidet die Datenstruktur selbst nicht zwischen Absätzen und Zitaten oder irgendetwas, das damit zusammenhängt. Eine Datenstruktur ist einfach eine grafische Struktur zusammengehöriger Informationen, wie ein universeller Bezeichner mit einem „Absatz“-Wert. Das Programm sollte in der Lage sein, auf die Konsistenz zwischen der Bedeutung des Dokuments und den verwendeten Tags zu schließen und dieses Wissen zu nutzen, wenn die Baumstruktur von einer Form in eine andere umgewandelt wird. Diese Transformation (z. B. über XSLT, DSSSL oder eine Programmiersprache wie C++) basiert jedoch eher auf semantischem Denken als auf expliziter Codierung
Abbildung 2 zeigt, wie der Syntaxbaum durch die Nutzung semantischen Wissens bereichert und verbessert werden kann. Der Einsatz von Wissensdarstellungstechnologie kann die Beziehung zwischen dem Ganzen und Teilen auf einer höheren Ebene kodieren, was für die Computerverarbeitung besser geeignet ist. Diese Abbildung zeigt eine traditionelle semantische Netzwerkdarstellungsmethode. Natürlich befinden sich auch andere Methoden in der Entwicklung, einschließlich Rahmendarstellung, Regeldarstellung, formaler Grammatik und logikbasierter Darstellung. Die Entwicklung des Semantic-Web-Projekts (Teil 8 dieses Artikels) könnte sogar geeignete Darstellungsmethoden für Markup-Sprachen selbst bereitstellen. Der Kern der Sache besteht darin, eine Hierarchie von Abstraktionen, Beziehungen und Einschränkungen zu etablieren, die von herkömmlichen XML/SGML-Parsern nicht modelliert und durchgesetzt werden können.
Codierungswissen in maschinenlesbaren Dateien (wie DTD oder Syntaxstrukturen) kann verwendet werden, um die semantischen Einschränkungen des Dokuments zu überprüfen und so ein leistungsfähigeres Dokumentmodell für Anwendungen bereitzustellen. Diese ausdrucksstärkeren Darstellungsmethoden bieten eine starke Unterstützung für den Entwurf und die Implementierung besserer Dokumentenverarbeitungssysteme.
6 Anwendung
In den letzten Jahren hat die Entwicklung vieler neuer Technologien die herkömmliche strukturierte Annotation immer beliebter gemacht. Diese Technologien betonen hauptsächlich die folgenden Aspekte im Informationsmanagement.
Konvertierungen und Gewerkschaften. Für SGML/XML-Entwickler besteht die häufigste Aufgabe darin, Transformationsformulare zu entwerfen, um von einer Anwendungssyntax in eine andere zu konvertieren. Dies geschieht, um neue Arten von Dateidarstellungen zu erstellen oder deren Speicherung in einer Datenbank zu erleichtern. Manchmal müssen Entwickler große Sammlungen digitaler Dokumente integrieren oder anpassen, die jeweils durch eine nicht interoperable Auszeichnungssprache dargestellt werden. Unabhängig vom Umfang der Konvertierung besteht die herkömmliche Lösung darin, eine Konvertierungs-Programmiersprache zu verwenden, die direkt auf den Analysebaum einwirkt. Die bei der Quelldateianalyse erzeugte Baumstruktur wird in eine Baumstrukturinstanz in der Zielsprache umgewandelt. Der konvertierte Baum wird in neue Dokumentinstanzen, Grafiken oder Audiodateien serialisiert.
Informationsinseln. Dieses Problem ist dem oben genannten Konvertierungsproblem sehr ähnlich, das Ziel besteht jedoch nicht darin, eine Dokumentform in eine andere Dokumentform zu konvertieren, sondern die verteilte Speicherung von Dokumenten oder Dokumentfragmenten zu ermöglichen, um Systembenutzern eine gemeinsame transparente Zugriffsschnittstelle bereitzustellen . Obwohl es nicht notwendig ist, Dokumente wörtlich von einer Auszeichnungssprache in eine andere zu konvertieren, muss das System in der Lage sein, sicherzustellen, dass der Inhalt des Dokuments nahtlos ineinander übergeht, auch wenn die Kodierung des Dokuments stark variieren kann.
Verfügbarkeit. Autorentools nutzen zunehmend strukturiertes Markup, was für sehbehinderte Benutzer zu einem Segen für den Zugriff auf digitale Dokumente geworden ist. Deklaratives Markup ermöglicht es Benutzern, mit Hilfe eines Screenreaders oder einer Braillezeile zu lesen und mithilfe von Mnemoniken Schlussfolgerungen zu ziehen, anstatt sich auf grafische Hinweise zu stützen. Derzeit müssen sich solche Anwendungen jedoch auf die eigenen Fähigkeiten oder Schnittstellensoftware des Benutzers sowie auf strukturelle Schlussfolgerungen verlassen, die auf unabhängigen Tag-Inhalten oder Grammatik basieren. Wie in der Tag-Set-Dokumentation beschrieben, hängen die Einschränkungen der Tag-Syntax sowie die Bedeutung und Verwendung von Tags streng von der Glaubwürdigkeit des Dokumentautors ab. Leider missbrauchen Autoren häufig Tags. Das schlimmste Beispiel ist die Verwendung von „Head“-Tags zur Markierung bestimmter Layouts auf Webseiten.
Sichere Handhabung. Ein Teil des Anstoßes für die Entwicklung ausdrucksstärkerer Auszeichnungsschemasprachen (wie der XML-Schemasprache des W3C) ist die Erkenntnis, dass Auszeichnungsfehler, Missbrauch und Missbrauch weitaus schwerwiegendere Folgen haben als schlecht formatierte Ausgaben. Deklaratives Markup wird nicht nur im E-Commerce verwendet, sondern auch in sicheren Informationsbereichen wie Krankenakten und der Luftfahrtindustrie. Entwickler in diesen Bereichen müssen nicht nur sicherstellen, dass die grammatikalische Struktur digitaler Dokumente standardisiert ist, sondern auch sicherstellen, dass sie bestimmte Sicherheitsprotokolle einhalten, um die sichere Verarbeitung, Speicherung, Übertragung und Präsentation von Dokumenten zu gewährleisten.
7. Vorteile der Markup-Semantik
Die aktuellen Umfrageergebnisse des BECHAMEL-Projekts zeigen, dass die Markup-Semantik die oben genannten Probleme auf folgende Weise lösen kann.
Deklarative, maschinenlesbare semantische Beschreibung. Was die aktuelle Situation betrifft, verwenden Designer strukturierter Auszeichnungssprachen Text in natürlicher Sprache, um die Bedeutung von Tags auszudrücken und ihre angemessene Verwendung zu verdeutlichen. Das formale Markup-Semantiksystem ermöglicht es, die Beziehungen zwischen Ontologien durch Computerprogramme klar auszudrücken und eine automatisierte Verarbeitung zu ermöglichen.
Überprüfung der Hypothese. In einer Dokumentumgebung ohne einen formalen Satz von Tags bietet ein System mit der Fähigkeit, Tag-Semantik zu interpretieren, eine Umgebung zum Testen von Vermutungen und zur Validierung von Hypothesen. In dieser Umgebung wird ein unbekannter Benutzer einer Auszeichnungssprache über die Eigenschaften und Regeln spekulieren, die seiner Meinung nach in der Dokumentdatenbank konsistent angewendet werden. Die Dokumentenverarbeitungssoftware ruft dann diejenigen Dokumentelemente ab, die mit den angenommenen Regeln kompatibel sind oder nicht.
Verbesserung semantischer Einschränkungen. Ein Parser, der die Gültigkeitsüberprüfung unterstützt, kann nicht nur die Syntaxüberprüfung wie ein herkömmlicher semantischer Parser durchführen, sondern auch die Vermutung beim Erkennen oder Schreiben von Semantiken überprüfen. Ein solcher Parser kann auch semantische Einschränkungen erzwingen. Diese Operation steht im Einklang mit der Hypothesenüberprüfung, aber in diesem Fall sind die semantischen Einschränkungen bekannt und kanonisch.
Optimierte und ausdrucksstärkere APIs. Markup-Semantik wird beim Konvertieren oder Darstellen digitaler Dokumente mithilfe von SGML- und XML-Anwendungen verwendet. Eigenschaften und Verknüpfungen auf höherer Ebene werden jedoch erst angezeigt, wenn das Programm ausgeführt wird. Formale, maschinenlesbare Semantik wird Anwendungsschnittstellen bereichern und das Software-Design beschleunigen. Mit der Entwicklung und Änderung von Auszeichnungssprachen wird diese Software komfortabler und sicherer zu warten sein.
8. Verwandte Arbeiten
Als Reaktion auf die oben genannten Herausforderungen und Probleme gibt es viele andere Dokumentenverarbeitungstechnologien, Standards und Forschungspläne. Als nächstes überprüfen wir bestehende Ideen, die versuchen, diese Probleme anzugehen.
Semantisches Web. Das Semantic Web bezieht sich auf eine Reihe miteinander verbundener Forschungs- und Standardisierungsbemühungen, wie etwa einige der aktuellen Ideen rund um Markup- und Wissensdarstellungstechnologien. Der Kern ist das W3C-Ressourcenbeschreibungs-Framework, das natürlich auch andere Technologien umfasst, wie beispielsweise die Theme-Map-Technologie von ISO. Das Semantic Web hat einen weiten Anwendungsbereich und ehrgeizige Ziele. Ziel ist es, mithilfe universeller Wissensrepräsentationstechnologie Markup-Sprachen zu verbessern und so „die umfassende Entwicklung menschlichen Wissens zu fördern“. Die Erforschung und Standardisierung des Semantic Web unterscheidet sich von der aktuellen Denkweise: Statt einer semantischen Beschreibung eines bestimmten Fachgebiets zielt sie auf eine semantische Annotation von Wissen in allen Fachgebieten ab. Das aktuelle Forschungsziel konzentriert sich speziell auf die „Dokument-Markup-Semantik“ und nicht auf „allgemeines semantisches Markup“. Fortschritte in der Semantic-Web-Technologie werden es uns ermöglichen, Semantic-Web-Markup-Sprachen zu verwenden, um die Semantik von Tags zu kodieren.
W3Cs Dokumentobjektmodell. Das Document Object Model ist eine Anwendungsprogrammierschnittstelle, bei der es sich um eine hierarchische Datenstruktur handelt, die nach der Analyse von XML-Dokumenten generiert wird. Man möchte ein System entwerfen, das verschiedene Schnittstellen für die Markup-Semantik bereitstellen kann, ähnlich den von DOM bereitgestellten markup-syntaxbezogenen Formen, und letztendlich ein „semantisches DOM“ bilden kann, um das Syntax-DOM des W3C zu ergänzen.
W3C-Schema. XML Schema ist eine XML-basierte Sprache, die herkömmliche DTDs ersetzen und zur Einschränkung von XML-Dokumenten verwendet werden kann. Die Entwicklung dieser Sprache wurde durch die Einschränkungen von DTDs vorangetrieben, die den Problemen ähneln, mit denen wir im BECHAMEL-Projekt konfrontiert waren. Schema ermöglicht es Dokumentklassendesignern, komplexe Datentypen zu definieren, genau wie in höheren Programmiersprachen. Um jedoch alle Beziehungen und Einschränkungen in der Tag-Set-Dokumentation zu kodieren, benötigen wir auch eine leistungsfähigere Ausdrucksform als das aktuelle XML-Schema. Die architektonische Form der Hypermedia/Time-basierten Strukturierungssprache (HyTime). Anpassbare Architekturtechniken basieren auf der Erkenntnis, dass unterschiedliche Markup-Language-Anwendungen häufig mit Strukturen codiert werden, die sich im Stil unterscheiden, aber semantisch gleichwertig sind. Mit Schemaformularen können Dokumentklassendesigner ihre eigenen spezifischen Elementinstanzen allgemeineren Schemainstanzen zuordnen, die einfacher zwischen verschiedenen Anwendungen zugeordnet werden können. Diese Abbildungen stellen tatsächlich eingeschränkte Formen semantischen Wissens dar und sind hilfreich bei der Lösung der oben genannten Transformations- und Integrationsherausforderungen. Beim BECHAMEL-Projekt geht es zum Teil darum, ein Modell zu erstellen, das mehr semantische Beziehungen als architektonische Formen zum Ausdruck bringt.
Das Obige ist der Inhalt der Semantik von XML-Tags. Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn).