Heim  >  Artikel  >  Backend-Entwicklung  >  Semantik von XML-Tags

Semantik von XML-Tags

黄舟
黄舟Original
2017-02-25 14:11:072301Durchsuche

[Zusammenfassung] Obwohl die XML-Dokumenttypdefinition einen Mechanismus bereitstellt, der die Syntax der XML-Sprache in maschinenlesbarer Form beschreiben kann, gibt es derzeit keinen ähnlichen Mechanismus, um die spezifische Semantik des XML-Vokabulars anzugeben. Dies bedeutet, dass die Bedeutung von XML-Tags nicht erklärt werden kann und die durch XML dargestellten Sachverhalte und Zusammenhänge nicht klar, umfassend und normativ definiert werden können. Dies hat schwerwiegende praktische und theoretische Konsequenzen. Positiv zu vermerken ist, dass XML-Strukturen eine beliebige Semantik erhalten und in Bereichen verwendet werden können, die von ihren ursprünglichen Entwicklern nicht vorhergesehen wurden. Weniger positiv ist, dass sich Content-Entwickler und Software-Ingenieure auf eine langweilige Dokumentation verlassen müssen oder, noch schlimmer, darauf angewiesen sind, die Absicht des Markup-Language-Designers zu erraten. Dieser Prozess ist zeitaufwändig, arbeitsintensiv, fehleranfällig und nicht verifizierbar. Auch wenn die ursprüngliche Dokumentationsarbeit des Designers perfekt durchgeführt wird, kann es dennoch zu unbefriedigenden Situationen kommen. Darüber hinaus führt der Mangel an Forschung zur semantischen Natur von Markups auch dazu, dass die digitale Dokumentenverarbeitung, die zum Bereich der technischen Anwendungen gehört, überhaupt keine Theorie hat. Obwohl einige laufende Projekte (XML Schema, RDF, Semantic Web) einige Ergebnisse erzielt haben, löst keines dieser Projekte direkt und umfassend die Kernprobleme der XML-Markup-Semantik. Dieser Artikel gibt einen Überblick über die Entwicklungsgeschichte des Konzepts der Markup-Bedeutung, verdeutlicht die Motivation für die Interpretation der formalen Semantik von XML und stellt ein wissenschaftliches Forschungsprojekt zur Semantik vor – das BECHAMEL Markup Semantics Project.
[Schlüsselwörter] SGML |. Textauszeichnungssysteme wie Standard Generalized Markup Language (SGML) und Extensible Markup Language (XML) werden zunehmend in allen Bereichen der Gesellschaft, Wirtschaft, Kultur und des Lebens eingesetzt. SGML/XML ist eine maschinenlesbare Technologie, die eine beschreibende Auszeichnungssprache definiert. Mit Ausnahme einiger Teile, die einer besonderen Behandlung bedürfen, definiert diese Sprache klar die Struktur des Dokuments und seine zugrunde liegende Bedeutung. SGML/XML entwickelt sich rasant, und die weitverbreitete Nutzung dieser Technologie kann eine hochleistungsfähige Verarbeitung und Veröffentlichung von Dokumenten mit Interoperabilität unterstützen.
Dieser gute Wunsch wurde teilweise erfüllt. Die Überlegenheit von SGML/XML hat die Erwartungen der Menschen übertroffen. Die Funktionalität, Interoperabilität, Vielfalt und Zugänglichkeit des SGML/XML-Dokumentsystems müssen jedoch noch verbessert werden. Wenn diese Chance nicht genutzt wird, werden die Folgen sehr schwerwiegend sein: Die Branche hat hohe finanzielle Kosten verursacht und viele Möglichkeiten verloren, was auch zu einigen Katastrophen bei kritischen Sicherheitsanwendungen für Menschen mit Behinderungen führen wird zu den kulturellen und kommerziellen Vorteilen der heutigen Gesellschaft. Darüber hinaus erinnern uns seit langem bestehende Probleme weiterhin daran, dass die besten aktuellen digitalen Dokumentenmodelle immer noch fehlerhaft oder zumindest unvollständig sind.
Die Ursache dieser Probleme liegt darin, dass SGML/XML zwar eine sinnvolle Struktur für Dokumente bereitstellen kann, SGML/XML jedoch die grundlegenden semantischen Beziehungen zwischen Dokumentkomponenten und Themen nicht systematisch und maschinenverarbeitbar darstellen kann. SGML/XML unterstützt die Beschreibung maschinenlesbarer „Grammatik“, bietet jedoch keinen Mechanismus zur Erklärung der semantischen Konnotation einer bestimmten Grammatik. Daher gibt es keine Möglichkeit, die potenzielle Bedeutung eines SGML/XML-Vokabulars formal auszudrücken. Aktuelles SGML/XML kann nicht einmal sehr einfache grundlegende semantische Fakten über Dokumentanmerkungssysteme ausdrücken. Diese Fakten werden normalerweise von Markup-Language-Designern vorab entworfen, aber die spezifische Implementierung hängt immer noch von den Markup-Language-Benutzern und der Software ab.
Dieser Mangel an Ausdrucksfähigkeiten zwingt SGML/XML-Benutzer dazu, die semantischen Beziehungen zu erraten, an die Markup-Language-Designer gedacht, sie aber nicht formal ausgedrückt haben. Content-Entwickler müssen bei der Codierung von Inhalten die Absichten des Designers erraten und auf der Grundlage dieser Schlussfolgerungen arbeiten, ohne dass sie ihre Schlussfolgerungen und Absichten gegenüber anderen oder Anwendungen, die die codierten Inhalte verarbeiten, klar zum Ausdruck bringen können. Softwaredesigner müssen auch die möglichen Absichten der Markup-Language-Designer erraten und diese Vermutung in Softwaretools und Anwendungssysteme umsetzen. Manchmal sind Vermutungen zweiter Ordnung erforderlich: Der Software-Designer muss die Schlussfolgerungen des Inhaltsentwicklers über die Absicht des Markup-Language-Designers erraten.
Offensichtlich sind diese Spekulationen unvollständig, fehlbar und unbestätigt. Darüber hinaus sind die Produktions- und Implementierungsprozesse zeit- und arbeitsintensiv und auch die Funktionalität und Interoperabilität sind mangelhaft. Das Ausstatten eines allgemeinen Dokuments in natürlicher Sprache mit einer SGML/XML-Spezifikation löst dieses Problem nicht vollständig. Natürlich können gewöhnliche Dokumente in natürlicher Sprache Inhaltsanbietern und Softwareentwicklern einige Hinweise geben, aber es gibt derzeit keine allgemeinen Regeln für SGML/XML-Dokumente. Gewöhnliche Dokumente in natürlicher Sprache liegen ohnehin nicht in maschinenlesbarer Form vor, und das ist das Problem, über das wir beim SGML/XML-Markup-System sprechen.
Die Idee einer maschinenverarbeitbaren semantischen Beschreibung im Zusammenhang mit SGML und XML ist noch nicht entstanden. Dies ist die Ursache für aktuelle Probleme im Ingenieurbereich und Hindernisse für die zukünftige Entwicklung. Es gibt jedoch nur wenige verwandte semantische Studien begann, diesem Thema Aufmerksamkeit zu schenken. Die Arbeit an W3CSchema hängt damit zusammen, deckt jedoch nur einen kleinen Teil dieses Problems ab (z. B. Datentypen). Damit verbunden ist auch das „Semantic Web“-Projekt des W3C, das jedoch auf die Entwicklung einer gemeinsamen XML-basierten Wissensrepräsentationstechnologie abzielt. Unsere Forschung konzentriert sich auf die Semantik des Dokument-Markups, die in tatsächlichen Dokumentenverarbeitungssystemen verborgen ist. Man mag sagen, dass die Essenz des Semantic Web darin besteht, semantische Tags zu entwerfen. In diesem Artikel glauben wir jedoch, dass wir zur Lösung der oben genannten Probleme auch die wesentliche Bedeutung von Tags eingehend betrachten müssen.
Als nächstes erklärt dieser Artikel zunächst die Bedeutung von Markup aus dem historischen Hintergrund (Marker spielen eine interessante Rolle bei der Entwicklung von Textverarbeitungsmethoden), und zweitens wird detailliert beschrieben, welche Faktoren den Bedarf an formalem semantischem Markup schaffen Ermittlung der semantischen Bedürfnisse; abschließend erfolgt eine kurze Einführung in ein Forschungsprojekt, an dessen Umsetzung mehrere Institutionen beteiligt sind – das BECHAMEL Markup Semantics Project, das intensiv an der Lösung des semantischen Problems von Markierungen arbeitet.
2. Historischer Hintergrund
Dokumenten-„Marken“ können wahrscheinlich als Teil des Kommunikationssystems gezählt werden, einschließlich des frühen Schreibens, Kopierens, Veröffentlichens und Druckens. Mit der Entwicklung der digitalen Textverarbeitung und des Schriftsatzes wurde jedoch die Verwendung von Markierungen sind bewusst geworden und weit verbreitet und haben sich zu einem wichtigen Innovationsbereich in der Systementwicklung entwickelt. Der Zeitraum von den 1960er bis 1980er Jahren war eine Zeit der umfassenden und systematischen Entwicklung von Dokumentenauszeichnungssystemen, wobei der Schwerpunkt auf der Verbesserung der Effektivität und Funktionalität des digitalen Satzes und der Textverarbeitung lag. In den frühen 1980er Jahren wurde noch an einem theoretischen Rahmen für die Markierung gearbeitet und dieser zur Unterstützung der Entwicklung von Hochleistungssystemen eingesetzt. Einige Ergebnisse in diesem Bereich wurden veröffentlicht, die meisten davon sind jedoch nur in Arbeitsdokumenten und Produkten in verschiedenen Standardformen festgehalten.
In diesem Stadium entstand die Ansicht, dass das Dokument als intellektuelle Leistung eher dazu geeignet ist, in ein geordnetes hierarchisches Strukturmodell einer Reihe von Objekten (wie Kapitel, Absätze, Formeln usw.) abstrahiert zu werden als eindimensionales Text-Zeichenflussmodell. Der Zeichenstrom wird häufig mit einer großen Anzahl von Codierungen vermischt, die das Format definieren, Strukturen, die das Designlayout beschreiben (z. B. Seitenzahlen, Spalten, Druckzeilen), Matrizen von Pixelwerten und anderen möglichen Ausdrücken in verschiedenen Dokumentenverarbeitungs- und Speichersystemen . Das geordnete hierarchische Strukturmodell fasst zwei grundsätzlich unterschiedliche Annotationen zusammen, nämlich Annotationen, die Bearbeitungstextobjekte (Titel, Kapitel usw.) identifizieren, und Annotationen, die Layoutanforderungen beschreiben. Die Anwendung des ersteren hat einige Ergebnisse erzielt. Relevante Dokumentelemente wie Titel, Kapitel, Absätze, Gleichungen, Zitate usw. können durch Trennzeichen-Tags eindeutig gekennzeichnet werden und die Elemente können dann indirekt durch auf den Elementtyp abgebildete Regeln verarbeitet werden. Diese Trennung von Inhalt und Form ermöglicht Indirektion und Abstraktion auf Basisebene in einer gemeinsamen kombinatorischen Ökonomie. Diese Form der Trennung hat einen enormen und vielfältigen praktischen Wert in allen Aspekten der Dokumentenverarbeitung und scheint, was noch wichtiger ist, die Frage zu klären, was genau ein Dokument ist. Das hierfür verwendete beschreibende Markup markiert nicht nur den Umfang des Elements, sondern trägt auch die Bedeutung, die das Dokumentmodell offenbaren möchte (dieser Text ist beispielsweise ein Kapitel).
In den frühen 1980er Jahren veröffentlichte das American National Institute of Standardization (ANSI/ISO) die einflussreiche SGML-Dokument-Markup-Metagrammatik und sortierte frühere theoretische und analytische Arbeiten zu Markup und Dokumentstruktur. SGML bietet eine maschinenlesbare Form zur Definition einer beschreibenden Auszeichnungssprache. Als Metagrammatik definiert SGML keine Auszeichnungssprache, sondern beschreibt Techniken zur Entwicklung maschinenlesbarer Auszeichnungssprachen. Der Kern dieser Definition ist ein formaler Ausdrucksmechanismus ähnlich der Backus-Naur-Form (BNF). Dieser Mechanismus enthält Regeln zum Definieren typisierter Eigenschaften und ihrer Werte sowie andere Designs zur weiteren Abstraktion und Indirektion (siehe die Kommentare zu Dokumenttypdefinitionen (DTDs) und Backus-Noel Eine Zusammenfassung des Grades der Paradigmenähnlichkeit). Strukturell ist ein SGML-Dokument ein Baum mit geordneten Zweigen und beschrifteten Knoten, der das formale Produkt seiner entsprechenden DTD ist.
Nach Jahren der Analyse und Praxis sind die Grundideen hinter SGML allgemein bekannt geworden. Die einzigartigen Mechanismen von SGML (Backus-Norr-Paradigma-ähnliche Metasyntax, typisierte Attribut-/Attributwertpaare, Entitätsreferenzen usw.) werden unter Nutzung branchenüblicher Standards auf Metasyntaxebene und lokalisierter Innovationen auf Vokabularebene angewendet Programme und Tools werden effizient implementiert. Die Auszeichnungssprache SGML selbst scheint sich weiterzuentwickeln und gleichzeitig ideale Arbeitsabläufe für den Entwurf, die Implementierung und die Nutzung von Dokumentensystemen zu unterstützen und zu optimieren. Von Mitte der 1980er bis Anfang der 1990er Jahre wurde eine große Anzahl SGML-basierter Annotationssysteme entwickelt.
Obwohl die Entwicklung von SGML viel Aufmerksamkeit erhielt, war die Idee gut und wurde in mehreren Bereichen erfolgreich umgesetzt. In den ersten zehn Jahren nutzte sie jedoch fast niemand. Es gibt viele Faktoren, die zu diesem Ergebnis führen, aber der wichtigste ist, dass SGML selbst zu komplex ist. Insbesondere enthält SGML viele komplexe optionale Attribute und die entsprechende Software muss diese möglicherweise überhaupt nicht implementieren, was zu einer sehr langsamen Entwicklung führt der SGML-Software. Schlimmer noch: Wenn das Dokument nicht mit einer DTD validiert ist, ist eine weitere Analyse nicht möglich. Abkürzungskontrolle bedeutet, dass Elementgrenzen nicht ohne Berücksichtigung der Dokumentsyntax bestimmt werden können. Darüber hinaus enthält SGML auch einige andere Attribute, die dazu führen, dass vorhandene Syntaxanalysetools nicht auf die formale Grammatik anwendbar sind und keine effiziente Syntaxanalyse durchführen können.
Im Hinblick auf Online-Veröffentlichung und Kommunikation kann das SGML-System auf HTML (Hypertext Markup Language) angewendet werden. Die ursprüngliche HTML-Version war lose definiert und es fehlten formale Syntaxanweisungen. Später gab es Interesse an der SGMLDTD von HTML, und es erwies sich als schwierig, eine DTD für etwas zu entwerfen, das zur „richtigen“ Praxis geworden war. Noch wichtiger ist, dass Anbieter in der ursprünglichen HTML-Spezifikation willkürlich programmatische Tags (z. B.

) zu wichtigen beschreibenden Tags (z. B. ) hinzugefügt haben, was dazu führte, dass Entwickler und Benutzer auch die Unterscheidung zwischen beschreibendem und prozeduralem Markup ignorierten. Der beschreibende Teil von HTML spiegelt nicht einmal die hierarchische Struktur des Dokuments sehr gut wider, und die Spezifikation stellt keine Stylesheet-Sprache zur Unterstützung der Indirektion bereit. Schließlich kann der SGML-Mechanismus den Elementsatz nicht erweitern und den Ersatzelementsatz verwenden. Es scheint, dass das HTML-Dokument nicht vom allgemeinen SGML-Prozessor verarbeitet werden kann (der die Erweiterung und Ersetzung von DTDs ermöglicht), sondern nur von einem Spezifischer HTML-Formatierer, der mit dem Prozessor zusammenarbeitet. Hartcodierte Formatierungsregeln verarbeiten HTML-Tags. <br>Die anschließende Entwicklung von HTML kann als Prozess der Umwandlung der ursprünglichen losen HTML-Sprache in die SGML-Sprachsequenz angesehen werden. Diese Transformation ist möglich, wenn genügend Zeit und Ressourcen zur Anwendung dieser bewährten Designregeln für Dokumentsysteme vorhanden sind. Allerdings steht die neu gegründete W3C-Organisation unter großem Druck, neue Elementsammlungen einzuführen und SGML im Web anzuwenden. Die Mängel von SGML erschweren die Nutzung von SGML und beschreibendem Markup im Web. Das Hauptproblem besteht darin, dass es eine große Anzahl von Mehrfachauswahlfunktionen, eine komplexe formale Grammatik und die Notwendigkeit gibt, sich bei der Bestimmung von Elementen in SGML auf DTD zu verlassen. <br>Um sicherzustellen, dass HTML und andere verwandte Technologien die Metasyntax voll ausnutzen können, können Benutzer einfacher neue domänenspezifische Elemente entwickeln und teilen, Dokumente können ohne DTD-Indizierung in Elementbäume analysiert werden, SGML-Tools und Anwendungen können sich harmonisch weiterentwickeln, und das W3C hat eine Teilmenge von SGML erstellt, die einen relativ einfachen Standard (ohne die Notwendigkeit einer Auswahl), eine relativ einfache Syntax und eine Möglichkeit bieten soll, nicht validierte Dokumentformate ohne DTD zu verarbeiten. So entstand XML. Nach eineinhalbjähriger Entwicklungszeit wurde XML 1998 offiziell vom W3C als empfohlener Standard eingeführt. <br>Seit 1998 hat die neuartige XML-Auszeichnungssprache ein explosionsartiges Wachstum erlebt, und diese rasante Entwicklungsdynamik hält bis heute an. Die Gründe für diese explosive Entwicklung sind: <br> (1) Der Bedarf an neuen Annotationssystemen in bestimmten Bereichen. Da vernetzte elektronische Veröffentlichungsanwendungen in Wissenschaft, Medizin, Wirtschaft, Recht, Ingenieurwesen und bestimmten Bereichen dieser großen Disziplinen zunehmen, müssen neue Anmerkungssysteme entwickelt werden. <br> (2) Reduzieren Sie die Kosten und die Komplexität der Entwicklung neuer Tools und ihrer Anwendungen. Das Parsen von XML ist einfacher als das Parsen von SGML. <br> (3) XML-Tags unterstützen Informationsverarbeitungs- und -verbreitungsprozesse im Zusammenhang mit der Veröffentlichung sowie Anwendungen, die nichts mit der Veröffentlichung zu tun haben. <br>Glücklicherweise haben wir endlich eine effektive und einfach zu implementierende Technologie entwickelt, um leistungsstarke Auszeichnungssprachen, digitale Dokumente sowie Dokumentenverarbeitungs- und Veröffentlichungssysteme zu erstellen, die sich in andere Informationsmanagementprogramme integrieren lassen. Insbesondere ist darauf hinzuweisen, dass die Notwendigkeit, die zugrunde liegende Absicht in der Dokumentenstruktur tiefgreifend zu verarbeiten, die Entstehung neuer Systemfunktionen gefördert und auch die Notwendigkeit einer automatischen Verarbeitung von Informationen erhöht hat, zumindest neue Anforderungen, die keine erfordern viele manuelle Eingriffe. <br> 3. Frage <br>Leider haben uns einige bestehende Erfahrungen und Rückmeldungen nüchtern bewusst gemacht, dass unser Verständnis der Bedeutung von deskriptivem Markup und der aktuellen Technologie unsere Erwartungen einfach nicht erfüllen kann. <br>In den 1980er Jahren konzentrierte sich die Systematisierung und systematische Arbeit der Dokumentenauszeichnung hauptsächlich auf drei Aspekte. <br>(1) Konzeptualisierung des universellen Dokumentenmodells. <br> (2) Entwicklung formaler Spezifikationen, Vokabeln und grammatikbezogener Technologien im Zusammenhang mit Dokumentauszeichnungssprachen. Diese Dokumentauszeichnungssprache kann bestimmte Dokumentklassen definieren und das Modell instanziieren und präsentieren. <br> (3) Entwicklung von Auszeichnungssprachen (wie CALS, AAP, TEI, HTML usw.). <br>Die Verwendung beschreibender Auszeichnungssprachen zur Identifizierung und Kommentierung logischer Teile eines Dokuments kann eine „Bedeutung“ klar vermitteln, die zuvor nur in latenter Form existieren konnte. Zumindest die Bedeutung von Verfahrensmarkierungen kann klar, eindeutig und für die maschinelle Verarbeitung geeignet sein. <br>Viele Leute bezeichnen XML-Dokumente als „selbstbeschreibende Daten“. Obwohl es schon früh einige abweichende Stimmen gab (siehe Mamrak und vor allem die Ansichten von Raymond und Tompa), ließ die Begeisterung unter Dokumentenforschern in den frühesten Stadien der Entwicklung des deskriptiven Markups nach, und es schien, dass die meisten kein Bedürfnis verspürten, sich damit auseinanderzusetzen weiter. Aufwändige Dokumentendarstellung. Die klar definierte Auszeichnungssprache SGML drückt die zugrunde liegende Bedeutung der Dokumentstruktur aus, sodass diese vollständig und effektiv für die maschinelle Verarbeitung genutzt werden kann. Einer der Autoren dieses Artikels war einmal am Schreiben dieses Satzes beteiligt: ​​„Endlich sollte klar sein, dass für konkurrierende Markup-Systeme beschreibendes Markup nicht nur die beste Methode ist, sondern auch die beste Methode, die man sich vorstellen kann.“ <br>Die Erfahrung der 1990er Jahre zeigt, dass dieses Vertrauen etwas blind ist. Aus praktischer Sicht ist die Situation heute deutlich verbessert, aber wiederholte Mängel bei der Interoperabilität und Funktionalität deuten darauf hin, dass es SGML/XML nicht wirklich gelungen ist, Dokumenten eine zugrunde liegende Bedeutung und eine computerverarbeitbare Form zu verleihen. In SGML/XMLDTD entspricht die Genauigkeit von Elementen und Attributen nicht der Genauigkeit anderer ähnlicher Dokumenttypdefinitionen, Teile des Inhalts sind nicht formal und es gibt keine eindeutige Antwort, bei der Rückschlüsse gezogen werden müssen. Aber qualitativ gesehen ist das Verständnis der Menschen für Dokumente ein anderes als vor dem Aufkommen von SGML. Damals beruhte das Verständnis der Menschen über die Bedeutung der Dokumentenstruktur auf der Reflexion dieser relativ unklaren Hinweise. <br>Die wesentlichen Eigenschaften von DTD erklären die Gründe für die obige Situation: DTD zeigt nur ein Vokabular und die entsprechende Grammatik an und stellt nicht die semantische Beziehung zwischen Wörtern dar. Ob das Element „title“ im allgemeinen Sinne durch <title> dargestellt wird und ob <title> dem Konzept von „title“ ähnelt, das wir normalerweise nennen, kann die DTD nicht bestimmen. Die DTD kann nur anzeigen, dass es ein bestimmtes Element gibt, dessen Label die Zeichenfolge „title“ ist. Dieses Label kann mit anderen Elementen verwendet werden, die alle auf die gleiche Weise definiert sind. Daher müssen Inhaltsentwickler und Softwaredesigner, die Markup-Sprachen zum Kommentieren von Dokumenten verwenden, einfach die Bedeutung des <title>-Tags aus der natürlichen Sprache ableiten, die mit „title“ im Text verbunden ist, und wie es im Kontext verwendet wird. Möglicherweise waren die ursprünglichen Sprachdesigner nicht in der Lage, die Bedeutung von <title> systematisch und streng zu definieren. <br>Das übertreibt natürlich die tatsächliche Situation. In gewissem Sinne kann die Bedeutung jedes Zeichens im Wesentlichen klar in dem rein natürlichsprachlichen Dokument ausgedrückt werden, das vom Markup-Sprachentwickler bereitgestellt wird. Allerdings lösen selbst die am besten bewerteten DTD-Dokumente im industriellen und akademischen Bereich das Problem nicht grundsätzlich. <br>Beim Entwerfen einer Software, die die semantischen Beziehungen in einer Auszeichnungssprache widerspiegelt, muss der Sprachdesigner in der Lage sein, die Beziehung zwischen den verschiedenen Teilen des Dokuments klar auszudrücken, dann muss der Softwareentwickler in der Lage sein (suchen, finden, öffnen). ) verwenden Sie dieses Auszeichnungssprachendokument und entwerfen Sie Anwendungen, um seine Vorteile zu demonstrieren. Beide Schritte können nicht maschinell überprüft werden und ihre Glaubwürdigkeit kann nicht gewährleistet werden. Wenn eine manuelle Teilnahme erforderlich ist, behindert dies die Entwicklung leistungsstarker Netzwerk-Dokumentenverarbeitungs- und Veröffentlichungssysteme. Daher benötigen wir einen Mechanismus, der sicherstellt, dass Markup-Sprachdesigner semantische Beziehungen detailliert und formal spezifizieren können und dass sie auch von Anwendungen gelesen und verarbeitet werden können und eine Selbstkonfiguration ohne manuelle Beteiligung nacheinander durchführen können. <br>Sehen wir uns einige spezifische semantische Beziehungen an. Diese Beziehungen haben mehr oder weniger potenziellen praktischen Wert, können jedoch derzeit nicht einfach und systematisch ausgenutzt werden, da es keine standardmäßige maschinenverarbeitbare Darstellung gibt. Tatsächlich sind viele Beziehungen so wichtig, dass Softwareentwickler auf bestimmte Weise auf ihre Präsenz in Dokumenten schließen und spezielle Systeme entwickeln, um sie auszunutzen. <br>Klassenverhältnis. SGML/XML enthält keine allgemeine Struktur zum Ausdruck der hierarchischen Struktur oder Klassenzugehörigkeit von Klassen in Elementen, Merkmalen oder Merkmalswerten. Der Unterricht ist das grundlegendste und praktischste Modul in der aktuellen Mainstream-Struktur der Softwareentwicklung. Wir können nicht sagen, dass ein Absatz ein Strukturelement ist (Isa-Beziehung) oder dass alle Strukturelemente bearbeitbare Elemente sind (Ako-Beziehung). Zwei grundlegende SGML/XML-Designs können manchmal eine grundlegende Klassifizierung nach Attribut/Wert implementieren (insbesondere unter Verwendung der Attribute „Typ“ und „Klasse“). Diese Klassifizierungstechnologie ist noch nicht ausgereift genug und SGML und XML bieten keine besseren Mechanismen zur Kontrolle und Einschränkung ihrer Verwendung. In praktischen Anwendungen verwenden viele Dokumenttypdesigner die hierarchische Struktur von Klassen für den Entwurf. XML-Schema bietet eine klare Deklaration der Klassenbeziehungen, erklärt jedoch nicht semantisch die Unterschiede zwischen diesen komplexen Typen und anderen komplexen Typen. <br>Erbschaftsverhältnis. In vielen Auszeichnungssprachen (wie TEI und HTML4.0) werden bestimmte Attribute vom enthaltenden Element geerbt, und in einigen Fällen erbt auch der enthaltene Textinhalt diese Attribute. Wenn die Attribut-/Wertnotation eines Elements beispielsweise „lang="de"“ lautet, was darauf hinweist, dass der Text auf Deutsch ist, bedeutet dies, dass alle Attribute seines untergeordneten Elements auf Deutsch sind. Die DTD bietet jedoch keine formalen Anweisungen zur Angabe, welche Merkmale vererbt werden können. Darüber hinaus sind solche Vererbungsbeziehungen nicht festgelegt und können sich manchmal aufgrund sekundärer Definitionen enthaltener Elemente ändern. Es gibt viele Möglichkeiten der Vererbung. Einige beinhalten Attribute von Elementen, andere beinhalten Attribute von Attributen und andere beziehen sich auf Text und Inhalt von Elementen. Wenn ein Tag beispielsweise darauf hinweist, dass ein Satz deutsch ist, bedeutet dies, dass alle Wörter im Satz (außer besonderen Umständen) deutsch sind. Ebenso werden alle mit dem Löschattribut markierten Wörter und Phrasen gelöscht und diejenigen, die mit dem Schlüsselattribut markiert sind, hervorgehoben. Das Markieren eines Teils des Inhalts als Absatz bedeutet, dass alle Wörter (oder Elemente) zu diesem Teil des Inhalts gehören zu diesem Absatz. Es ist nicht möglich, anzugeben, welche Eigenschaften eine DTD erbt, noch ihre Vererbungslogik (einschließlich Regelfehler). Softwareentwickler erwägen diese Beziehungen häufig in einer bestimmten Auszeichnungssprache und implementieren sie dann in den von ihnen entwickelten Tools und Anwendungen. <br>Kontextbeziehung und Referenzbeziehung. Selbst wenn ein Element in vielen Auszeichnungssprachen eine feste Bedeutung hat und zum Markieren desselben Elementtyps verwendet wird, kann dieses Element aufgrund unterschiedlicher Kontexte unterschiedliche Bedeutungen haben. Einige Texte sind beispielsweise als „<title>“ gekennzeichnet und ihre spezifische Bedeutung hängt von der strukturellen Position des Textes ab. Das „<title>“ unter „“ bezieht sich auf den Titel des Objekts „<document>“, während sich „<title>“ auf den Titel dieses Kapitels bezieht Teil . Es gibt keine Kriterien, um zu bestimmen, um welche Art von Titel es sich handelt. Die Situation ist komplizierter, wenn eine Referenz ein „<title>“-Element enthält, wobei der Titel eine Entität außerhalb des Artikels ist. Beziehungen wie diese können nicht durch eine DTD dargestellt werden, sondern können von Software-Designern abgeleitet werden, was für eine effiziente automatisierte Verarbeitung von Text notwendig ist (wenn jede Bedeutung durch einen anderen universellen Bezeichner dargestellt wird, kann nur ein kleiner Teil des Problems gelöst werden). ein Problem, da es immer noch notwendig ist, die binären Eigenschaften des Attributs zu klären und einen analysierbaren Ausdruck bereitzustellen, um das Objekt zu finden, für das das Attribut gilt. <br>Die wesentliche Änderung im Referenten. Eine ähnliche, aber mehrdeutige Situation besteht, wenn dasselbe Objekt mehrere Attribute hat, die sich jeweils auf denselben Referenten im gleichen Format beziehen, die jedoch sorgfältig interpretiert werden müssen, um die Eindeutigkeit ihres Referenten sicherzustellen. Beispielsweise hat eine bestimmte Elementinstanz die folgenden drei Eigenschaften: Es ist ein Theorem, es ist auf Deutsch geschrieben und es ist unleserlich. Stellen solche einfachen und direkten Prädikatbeschreibungen dasselbe Ding (oder dieselbe Elementinstanz) dar? Ist diese Darstellung des Wissens robust genug? Was es tatsächlich bedeutet, ist, dass diese abstrakten Sätze auf Deutsch geschrieben sind, die Aussagen, die sie ausdrücken, Theoreme sind und ihre spezifischen Ausdrucksmuster vage sind. Streng genommen besitzt kein einzelnes Objekt alle diese Eigenschaften. <br>Vollständige Synonyme und Teilsynonyme. Die vollständige oder teilweise Synonymie einer Auszeichnungssprache ist eine äußerst wichtige semantische Beziehung, und das Fehlen eines Mechanismus zur Beschreibung dieser synonymen Beziehung führt zu ernsthaften Heterogenitätsproblemen. Durch die Verwendung einer einzelnen Auszeichnungssprache können möglicherweise vollständige Synonyme eliminiert werden. Da jedoch die Arten von Auszeichnungssprachen zunehmen, sind vollständige und teilweise Synonyme immer noch schwer auszudrücken, aber wichtige Beziehungen zwischen Auszeichnungssprachen. Derzeit verfügen wir nicht über eine geeignete computerverarbeitbare formale Methode zur Dokumentation der Synonyme von Elementen, Attributen und Attributwerten in verschiedenen Auszeichnungssprachen. Die konstruktive Form (siehe unten) kann die meisten vollständigen Synonyme erfassen, Teilsynonyme sind jedoch schwer zu erfassen und Teilsynonyme kommen in praktischen Anwendungen häufiger vor. Das Problem der partiellen Synonymität, das durch Klasseneinschlussbeziehungen dargestellt wird, trägt immer noch wesentlich zur Lösung des Heterogenitätsproblems bei. <br> 4. BECHAMEL-Projekt <br> Das BECHAMEL Markup Semantics Project entstand Ende der 1990er Jahre und wurde von Forschern von Sperberg-Mcqueen (W3C/MIT) und anderen Institutionen durchgeführt. Sie kamen aus der Abteilung für kulturelle Angelegenheiten, Sprache und Information Technologieinstitution, Bergen University Research Foundation, Electronic Publishing Research Group, Graduate School of Library and Information Science, University of Illinois at Urbana-Champaign. Der Name des Projekts setzt sich aus den Abkürzungen der Städte zusammen, in denen alle Mitarbeiter ansässig sind (Bergen, Norwegen; Champaign, Illinois; Espñola, New Mexico). <br>Die Forschungsziele des BECHAMEL-Projekts sind wie folgt. <br> (1) Definieren Sie die Darstellungs- und Inferenzprobleme, die eng mit der Semantik des Dokument-Markups zusammenhängen, und entwickeln Sie eine Taxonomie und Beschreibung der Probleme, die alle semantikbewussten Dokumentverarbeitungssysteme lösen oder denen sie gegenüberstehen müssen. <br> (2) Studieren Sie die Eigenschaften und semantischen Beziehungen gängiger Auszeichnungssprachen und bewerten Sie die Anwendbarkeit standardisierter Wissensdarstellungstechnologien (wie semantische Netzwerke, Frameworks, Logik, formale Grammatik und Produktionsregeln). Um diese Beziehungen und Attribute zu modellieren, müssen auch ihre Angemessenheit, Eleganz, Einfachheit und Recheneffizienz bei der Wissensdarstellung berücksichtigt werden. <br>(3) Entwickeln und testen Sie formale, maschinenlesbare Darstellungsrahmen, die die Semantik von Auszeichnungssprachen darstellen können. <br> (4) Erkunden Sie die Anwendungsformen der semantischen Darstellungstechnologie, z. B. Unterstützung von Transkodierung, Informationsabruf, Verbesserung der Barrierefreiheit usw. Unser aktueller Schwerpunkt liegt auf der Unterstützung des semantischen Denkens für Dokumentdatenbankinstanzen, da wir glauben, dass dies der beste Schwerpunkt für die Anwendung von Wissensdarstellungstechnologie ist. <br> (5) Arbeiten Sie mit dem Digital Library Content Coding Project im Bereich der geisteswissenschaftlichen Computerforschung zusammen und vereinen Sie Software-Tool-Entwickler, um groß angelegte Tests semantischer Darstellungslösungen durchzuführen. <br>Die frühe Prolog-Versuchsbank wurde vollständig zu einer Prototypenplattform für die Wissensdarstellung zur Darstellung von Fakten und Argumentationsregeln in strukturierten Dokumenten entwickelt. Das System ermöglicht es Analysten, bestimmte Fakten (z. B. universelle Bezeichner und Attributwerte) zu spezifizieren und diese von schlussfolgernden Fakten über semantische Entitäten und Attribute zu trennen. <br>Das System bietet außerdem eine Abstraktionsschicht, die es ermöglicht, die Bedeutung von Markups klar in einer maschinenlesbaren und ausführbaren Form auszudrücken. Auf dieser Grundlage können Rückschlüsse auf Dokumentbestandteile gezogen werden, auch auf solche mit mehrdeutigen Strukturen wie hierarchisch überlappenden Bestandteilen. Wir haben eine Reihe von Prädikaten entwickelt, die die im W3C-Dokumentobjektmodell für die Knotenhierarchienavigation verwendeten Methoden nachahmen und verschiedene Eigenschaftswerte und zugehörige Informationen in der Dokumenttypdefinition abrufen können. Dies ermöglicht eine klare Unterscheidung zwischen den vom Parser analysierten grammatikalischen Informationen und der vom Analysten ausgedrückten Dokumentensemantik. <br>Vorläufige Forschungsergebnisse zeigen die Komplexität der Erkennung semantischer Argumente und die Komplexität des Verständnisses kontextueller Unsicherheit. Dieses prototypische Argumentationssystem beweist, dass automatisches Denken über Tags möglich ist und dass die Regeln von Prolog komplexe Situationen wie Nichtmonotonie und Situationsmehrdeutigkeit bewältigen können. Weitere Recherchen können auf die Zitate verwiesen werden. <br> 5. Semantische Modellierung von Markup <br>Die Semantik von Dokument-Markup besteht aus abstrakten Strukturen, Attributen und Beziehungen, die von Markup-Sprachbenutzern verstanden werden können, und ihre Syntax impliziert diesen semantischen Hinweis. Die Semantik von Tags kann mithilfe der Wissensrepräsentationstechnologie entsprechende Rechenmodelle erstellen, indem Strukturen, Beziehungen und Attribute geklärt werden. <br><p>Beziehen Sie sich auf das folgende Fragment des XML-Markup-Dokuments</p> <p><img src="https://img.php.cn//upload/image/197/946/771/1488002955228879.jpg" title="1488002955228879.jpg" alt="Semantik von XML-Tags"></p> <p>Leser, die mit der Struktur von </p> <p> XML-Markup vertraut sind, werden dies tun Natürlich kennen Sie die Tags in den Dokumentelementen. P steht für Absatz, der einen Titel hat. Der Absatzinhalt nach dem Titelelement bildet den Textkörper. Er beginnt nach dem Titelelement und endet vor dem Abschlusstag des Absatzes. Die Bedeutung und Verwendung von Tags ist nicht sofort offensichtlich, daher können Autoren oder Leser die Dokumentation zur Tag-Sammlung konsultieren </p> <p><img src="https://img.php.cn//upload/image/526/100/980/1488002987952563.jpg" title="1488002987952563.jpg" alt="Semantik von XML-Tags"></p> <p>Offensichtliche Tags sind für die Bequemlichkeit menschlicher Leser konzipiert. Diese Tags können mit Hilfe eines Dokumentparsers nicht aus der Datenstruktur extrahiert werden. Wie in Abbildung 1 dargestellt, zeigt der Parse-Baum (der von Stylesheet-Programmierern verwendet wird) die Überschrift, das Zitat sowie den Text vor und nach dem Zitat an, wobei es sich jeweils um einen separaten untergeordneten Knoten des Absatzes handelt, der Parse-Baum kann dies jedoch nicht anzeigen Folgende Merkmale sind vorhanden: Der Kopf ist ein Attribut des gesamten Absatzes, der Text besteht aus zwei Teilen in der Inhaltsstruktur und das Zitat ist in den Text eingebettet. <br>Tatsächlich unterscheidet die Datenstruktur selbst nicht zwischen Absätzen und Zitaten oder irgendetwas, das damit zusammenhängt. Eine Datenstruktur ist einfach eine grafische Struktur zusammengehöriger Informationen, wie ein universeller Bezeichner mit einem „Absatz“-Wert. Das Programm sollte in der Lage sein, auf die Konsistenz zwischen der Bedeutung des Dokuments und den verwendeten Tags zu schließen und dieses Wissen zu nutzen, wenn die Baumstruktur von einer Form in eine andere umgewandelt wird. Diese Transformation (z. B. über XSLT, DSSSL oder eine Programmiersprache wie C++) basiert jedoch eher auf semantischem Denken als auf expliziter Codierung </p> <p><img src="https://img.php.cn//upload/image/767/427/454/1488003021428176.jpg" title="1488003021428176.jpg" alt="Semantik von XML-Tags"></p> <p>Abbildung 2 zeigt, wie der Syntaxbaum durch die Nutzung semantischen Wissens bereichert und verbessert werden kann. Der Einsatz von Wissensdarstellungstechnologie kann die Beziehung zwischen dem Ganzen und Teilen auf einer höheren Ebene kodieren, was für die Computerverarbeitung besser geeignet ist. Diese Abbildung zeigt eine traditionelle semantische Netzwerkdarstellungsmethode. Natürlich befinden sich auch andere Methoden in der Entwicklung, einschließlich Rahmendarstellung, Regeldarstellung, formaler Grammatik und logikbasierter Darstellung. Die Entwicklung des Semantic-Web-Projekts (Teil 8 dieses Artikels) könnte sogar geeignete Darstellungsmethoden für Markup-Sprachen selbst bereitstellen. Der Kern der Sache besteht darin, eine Hierarchie von Abstraktionen, Beziehungen und Einschränkungen zu etablieren, die von herkömmlichen XML/SGML-Parsern nicht modelliert und durchgesetzt werden können. <br>Codierungswissen in maschinenlesbaren Dateien (wie DTD oder Syntaxstrukturen) kann verwendet werden, um die semantischen Einschränkungen des Dokuments zu überprüfen und so ein leistungsfähigeres Dokumentmodell für Anwendungen bereitzustellen. Diese ausdrucksstärkeren Darstellungsmethoden bieten eine starke Unterstützung für den Entwurf und die Implementierung besserer Dokumentenverarbeitungssysteme. <br>6 Anwendung <br>In den letzten Jahren hat die Entwicklung vieler neuer Technologien die herkömmliche strukturierte Annotation immer beliebter gemacht. Diese Technologien betonen hauptsächlich die folgenden Aspekte im Informationsmanagement. <br>Konvertierungen und Gewerkschaften. Für SGML/XML-Entwickler besteht die häufigste Aufgabe darin, Transformationsformulare zu entwerfen, um von einer Anwendungssyntax in eine andere zu konvertieren. Dies geschieht, um neue Arten von Dateidarstellungen zu erstellen oder deren Speicherung in einer Datenbank zu erleichtern. Manchmal müssen Entwickler große Sammlungen digitaler Dokumente integrieren oder anpassen, die jeweils durch eine nicht interoperable Auszeichnungssprache dargestellt werden. Unabhängig vom Umfang der Konvertierung besteht die herkömmliche Lösung darin, eine Konvertierungs-Programmiersprache zu verwenden, die direkt auf den Analysebaum einwirkt. Die bei der Quelldateianalyse erzeugte Baumstruktur wird in eine Baumstrukturinstanz in der Zielsprache umgewandelt. Der konvertierte Baum wird in neue Dokumentinstanzen, Grafiken oder Audiodateien serialisiert. <br>Informationsinseln. Dieses Problem ist dem oben genannten Konvertierungsproblem sehr ähnlich, das Ziel besteht jedoch nicht darin, eine Dokumentform in eine andere Dokumentform zu konvertieren, sondern die verteilte Speicherung von Dokumenten oder Dokumentfragmenten zu ermöglichen, um Systembenutzern eine gemeinsame transparente Zugriffsschnittstelle bereitzustellen . Obwohl es nicht notwendig ist, Dokumente wörtlich von einer Auszeichnungssprache in eine andere zu konvertieren, muss das System in der Lage sein, sicherzustellen, dass der Inhalt des Dokuments nahtlos ineinander übergeht, auch wenn die Kodierung des Dokuments stark variieren kann. <br>Verfügbarkeit. Autorentools nutzen zunehmend strukturiertes Markup, was für sehbehinderte Benutzer zu einem Segen für den Zugriff auf digitale Dokumente geworden ist. Deklaratives Markup ermöglicht es Benutzern, mit Hilfe eines Screenreaders oder einer Braillezeile zu lesen und mithilfe von Mnemoniken Schlussfolgerungen zu ziehen, anstatt sich auf grafische Hinweise zu stützen. Derzeit müssen sich solche Anwendungen jedoch auf die eigenen Fähigkeiten oder Schnittstellensoftware des Benutzers sowie auf strukturelle Schlussfolgerungen verlassen, die auf unabhängigen Tag-Inhalten oder Grammatik basieren. Wie in der Tag-Set-Dokumentation beschrieben, hängen die Einschränkungen der Tag-Syntax sowie die Bedeutung und Verwendung von Tags streng von der Glaubwürdigkeit des Dokumentautors ab. Leider missbrauchen Autoren häufig Tags. Das schlimmste Beispiel ist die Verwendung von „Head“-Tags zur Markierung bestimmter Layouts auf Webseiten. <br>Sichere Handhabung. Ein Teil des Anstoßes für die Entwicklung ausdrucksstärkerer Auszeichnungsschemasprachen (wie der XML-Schemasprache des W3C) ist die Erkenntnis, dass Auszeichnungsfehler, Missbrauch und Missbrauch weitaus schwerwiegendere Folgen haben als schlecht formatierte Ausgaben. Deklaratives Markup wird nicht nur im E-Commerce verwendet, sondern auch in sicheren Informationsbereichen wie Krankenakten und der Luftfahrtindustrie. Entwickler in diesen Bereichen müssen nicht nur sicherstellen, dass die grammatikalische Struktur digitaler Dokumente standardisiert ist, sondern auch sicherstellen, dass sie bestimmte Sicherheitsprotokolle einhalten, um die sichere Verarbeitung, Speicherung, Übertragung und Präsentation von Dokumenten zu gewährleisten. <br> 7. Vorteile der Markup-Semantik <br>Die aktuellen Umfrageergebnisse des BECHAMEL-Projekts zeigen, dass die Markup-Semantik die oben genannten Probleme auf folgende Weise lösen kann. <br>Deklarative, maschinenlesbare semantische Beschreibung. Was die aktuelle Situation betrifft, verwenden Designer strukturierter Auszeichnungssprachen Text in natürlicher Sprache, um die Bedeutung von Tags auszudrücken und ihre angemessene Verwendung zu verdeutlichen. Das formale Markup-Semantiksystem ermöglicht es, die Beziehungen zwischen Ontologien durch Computerprogramme klar auszudrücken und eine automatisierte Verarbeitung zu ermöglichen. <br>Überprüfung der Hypothese. In einer Dokumentumgebung ohne einen formalen Satz von Tags bietet ein System mit der Fähigkeit, Tag-Semantik zu interpretieren, eine Umgebung zum Testen von Vermutungen und zur Validierung von Hypothesen. In dieser Umgebung wird ein unbekannter Benutzer einer Auszeichnungssprache über die Eigenschaften und Regeln spekulieren, die seiner Meinung nach in der Dokumentdatenbank konsistent angewendet werden. Die Dokumentenverarbeitungssoftware ruft dann diejenigen Dokumentelemente ab, die mit den angenommenen Regeln kompatibel sind oder nicht. <br>Verbesserung semantischer Einschränkungen. Ein Parser, der die Gültigkeitsüberprüfung unterstützt, kann nicht nur die Syntaxüberprüfung wie ein herkömmlicher semantischer Parser durchführen, sondern auch die Vermutung beim Erkennen oder Schreiben von Semantiken überprüfen. Ein solcher Parser kann auch semantische Einschränkungen erzwingen. Diese Operation steht im Einklang mit der Hypothesenüberprüfung, aber in diesem Fall sind die semantischen Einschränkungen bekannt und kanonisch. <br>Optimierte und ausdrucksstärkere APIs. Markup-Semantik wird beim Konvertieren oder Darstellen digitaler Dokumente mithilfe von SGML- und XML-Anwendungen verwendet. Eigenschaften und Verknüpfungen auf höherer Ebene werden jedoch erst angezeigt, wenn das Programm ausgeführt wird. Formale, maschinenlesbare Semantik wird Anwendungsschnittstellen bereichern und das Software-Design beschleunigen. Mit der Entwicklung und Änderung von Auszeichnungssprachen wird diese Software komfortabler und sicherer zu warten sein. <br> 8. Verwandte Arbeiten <br>Als Reaktion auf die oben genannten Herausforderungen und Probleme gibt es viele andere Dokumentenverarbeitungstechnologien, Standards und Forschungspläne. Als nächstes überprüfen wir bestehende Ideen, die versuchen, diese Probleme anzugehen. <br>Semantisches Web. Das Semantic Web bezieht sich auf eine Reihe miteinander verbundener Forschungs- und Standardisierungsbemühungen, wie etwa einige der aktuellen Ideen rund um Markup- und Wissensdarstellungstechnologien. Der Kern ist das W3C-Ressourcenbeschreibungs-Framework, das natürlich auch andere Technologien umfasst, wie beispielsweise die Theme-Map-Technologie von ISO. Das Semantic Web hat einen weiten Anwendungsbereich und ehrgeizige Ziele. Ziel ist es, mithilfe universeller Wissensrepräsentationstechnologie Markup-Sprachen zu verbessern und so „die umfassende Entwicklung menschlichen Wissens zu fördern“. Die Erforschung und Standardisierung des Semantic Web unterscheidet sich von der aktuellen Denkweise: Statt einer semantischen Beschreibung eines bestimmten Fachgebiets zielt sie auf eine semantische Annotation von Wissen in allen Fachgebieten ab. Das aktuelle Forschungsziel konzentriert sich speziell auf die „Dokument-Markup-Semantik“ und nicht auf „allgemeines semantisches Markup“. Fortschritte in der Semantic-Web-Technologie werden es uns ermöglichen, Semantic-Web-Markup-Sprachen zu verwenden, um die Semantik von Tags zu kodieren. <br>W3Cs Dokumentobjektmodell. Das Document Object Model ist eine Anwendungsprogrammierschnittstelle, bei der es sich um eine hierarchische Datenstruktur handelt, die nach der Analyse von XML-Dokumenten generiert wird. Man möchte ein System entwerfen, das verschiedene Schnittstellen für die Markup-Semantik bereitstellen kann, ähnlich den von DOM bereitgestellten markup-syntaxbezogenen Formen, und letztendlich ein „semantisches DOM“ bilden kann, um das Syntax-DOM des W3C zu ergänzen. <br>W3C-Schema. XML Schema ist eine XML-basierte Sprache, die herkömmliche DTDs ersetzen und zur Einschränkung von XML-Dokumenten verwendet werden kann. Die Entwicklung dieser Sprache wurde durch die Einschränkungen von DTDs vorangetrieben, die den Problemen ähneln, mit denen wir im BECHAMEL-Projekt konfrontiert waren. Schema ermöglicht es Dokumentklassendesignern, komplexe Datentypen zu definieren, genau wie in höheren Programmiersprachen. Um jedoch alle Beziehungen und Einschränkungen in der Tag-Set-Dokumentation zu kodieren, benötigen wir auch eine leistungsfähigere Ausdrucksform als das aktuelle XML-Schema. Die architektonische Form der Hypermedia/Time-basierten Strukturierungssprache (HyTime). Anpassbare Architekturtechniken basieren auf der Erkenntnis, dass unterschiedliche Markup-Language-Anwendungen häufig mit Strukturen codiert werden, die sich im Stil unterscheiden, aber semantisch gleichwertig sind. Mit Schemaformularen können Dokumentklassendesigner ihre eigenen spezifischen Elementinstanzen allgemeineren Schemainstanzen zuordnen, die einfacher zwischen verschiedenen Anwendungen zugeordnet werden können. Diese Abbildungen stellen tatsächlich eingeschränkte Formen semantischen Wissens dar und sind hilfreich bei der Lösung der oben genannten Transformations- und Integrationsherausforderungen. Beim BECHAMEL-Projekt geht es zum Teil darum, ein Modell zu erstellen, das mehr semantische Beziehungen als architektonische Formen zum Ausdruck bringt. <br></p> <p> Das Obige ist der Inhalt der Semantik von XML-Tags. Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn). <br></p> <p><br></p> <p><br></p>
Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:XML-AnalyseNächster Artikel:XML-Analyse