Heim >Backend-Entwicklung >XML/RSS-Tutorial >Probleme und Lösungen zu UTF-16

Probleme und Lösungen zu UTF-16

零下一度Original: 2017-06-12 13:08:313356Durchsuche

Der Sitemap-Dienst von Google erfordert, dass alle veröffentlichten Sitemaps in Unicodes UTF-8 codiert sein müssen. Google erlaubt nicht einmal andere Unicode-Kodierungen wie UTF-16, geschweige denn Nicht-Unicode-Kodierungen wie ISO-8859-1. Technisch gesehen bedeutet dies, dass Google einen nicht standardmäßigen XML-Parser verwendet, da die XML-Empfehlung ausdrücklich verlangt, dass „alle XML-Handler die UTF-8- und UTF-16-Kodierungen von Unicode 3.1 akzeptieren müssen“. Aber ist das wirklich eine große Sache? UTF-8 ist für jedermann verfügbar. Der erste und überzeugendste Grund, sich für UTF-8 zu entscheiden. Es kann jedes derzeit weltweit verwendete Skript verarbeiten. Obwohl es noch einige Lücken gibt, werden diese immer weniger offensichtlich und werden nach und nach geschlossen. Nicht enthaltene Literale sind normalerweise in keinem anderen Zeichensatz implementiert und können selbst dann nicht in XML verwendet werden, wenn dies der Fall ist. Im besten Fall werden diese Skripte durch Ausleihen von Schriftarten an einen Einzelbyte-Zeichensatz wie Latin-1 übergeben. Echte Unterstützung für solch seltenen Text könnte zuerst von Unico kommen

1 Details zur Kodierung von XML-Dokumenten mit UTF-8

Einführung: Der Sitemap-Dienst von Google erfordert, dass alle veröffentlichten Sitemaps in Unicode UTF-8 codiert sein müssen. Google erlaubt nicht einmal andere Unicode-Kodierungen wie UTF-16, geschweige denn Nicht-Unicode-Kodierungen wie ISO-8859-1. Technisch gesehen bedeutet dies, dass Google einen nicht standardmäßigen XML-Parser verwendet, da die XML-Empfehlung ausdrücklich verlangt, dass „alle XML-Handler die UTF-8- und UTF-16-Kodierungen von Unicode 3.1 akzeptieren müssen“. Aber ist das wirklich eine große Sache?

2. Einige Dinge im Zusammenhang mit Codepoint und UTF-16 in Java im Detail vorstellen

Probleme und Lösungen zu UTF-16

Einführung: Die Beziehung zwischen Unicode und UTF-8/UTF-16/UTF-32 Die Beziehung zwischen Unicode und UTF-8/UTF-16/UTF-32 ist die Beziehung zwischen Zeichen Satz und Codierung. Das Konzept des Zeichensatzes umfasst tatsächlich zwei Aspekte: Der eine ist der Zeichensatz und der andere das Codierungsschema. Ein Zeichensatz definiert alle darin enthaltenen Symbole. Ein Zeichensatz im engeren Sinne umfasst kein Kodierungsschema. Er definiert lediglich alle Symbole, die zu diesem Zeichensatz gehören. Aber im Allgemeinen definiert ein Zeichensatz nicht nur eine Sammlung von Zeichen, sondern auch eine binäre Kodierung für jedes Symbol. Wenn wir GB2312 oder ASCII erwähnen, bedeutet das...

3 Neue Funktionen von Java 8 Update 20 – String-Deduplizierung

Probleme und Lösungen zu UTF-16

Einführung: Zeichenfolgen belegen in jeder Anwendung viel Speicher. Insbesondere char[]-Arrays, die einzelne UTF-16-Zeichen enthalten, tragen am meisten zum JVM-Speicherverbrauch bei – da jedes Zeichen 2 Bits belegt. Es kommt tatsächlich sehr häufig vor, dass 30 % des Speichers von Zeichenfolgen belegt werden.

4. php-Seite verwendet include, um Headerphp einzuführen, und über dem Header befindet sich eine Leerzeile . Wie man include html include verwendet Dieses Problem hat mich schon lange gestört. Der Schlüssel. Es gab ein Problem mit der Kodierung des Codes. Das in der header.php meiner Seite verwendete Codierungsformat ist UTF-8 mit BOM. Ändern Sie den Code mit BOM in „kein BOM“, sodass die Leerzeile im Header verschwindet. UTF-8-BOM wird auch als UTF-8-Signatur bezeichnet. Tatsächlich hat UTF-8-BOM keine Auswirkung auf UTF-8. Es wurde hinzugefügt, um UTF-16 und UTF-32 zu unterstützen die aktuelle Datei. Welche Art von Codierung sollte verwendet werden

Die Wirksamkeit und Funktion von Ganoderma lucidum-Sporenpulver und wie man es verzehrt, um die Webseite anzuzeigen normalerweise in jedem Zeichensatz (Fortsetzung)

Einführung: Die Wirksamkeit und Funktion von Ganoderma lucidum-Sporenpulver und wie man es einnimmt: Die Wirksamkeit und Rolle von Ganoderma lucidum-Sporenpulver und wie man es einnimmt Methode 2 zur normalen Anzeige der Webseite in einem beliebigen Zeichensatz (Fortsetzung ): Vor der Übertragung an: coolcode.cn habe ich vor ein paar Tagen einen Artikel darüber geschrieben, wie man Webseiten normal in jedem Zeichensatz anzeigt. Die Einführung war sehr einfach, das heißt, andere Zeichensätze als die ersten 128 Zeichen werden durch dargestellt NCR habe die spezifische Konvertierungsmethode jedoch nicht vorgestellt, weil es mir zu einfach vorkam. Aber später habe ich herausgefunden, dass jemand diese Frage gestellt hat, deshalb werde ich sie hier ausführlich erklären. Der erste Schritt besteht darin, die Zeichenfolge des Quellzeichensatzes in den UTF-16-Zeichensatz zu konvertieren. Dieser Schritt besteht darin, dass jedes Zeichen im UTF-16-Zeichensatz zwei Bytes lang ist und später leicht verarbeitet werden kann 🎜>

PHP entfernt den Stücklisten-Header-Code

Einführung: PHP entfernt den Stücklisten-Header-Code UTF-8-BOM wird auch als UTF-8-Signatur bezeichnet. Tatsächlich hat UTF-8-BOM keine Auswirkung auf UTF-8. Es wurde hinzugefügt, um UTF-16 und UTF-32 zu unterstützen Welche Codierung wird verwendet, um dem Editor die Identifizierung zu erleichtern? Obwohl die Stückliste nicht im Editor angezeigt wird, wird sie wie eine zusätzliche Leerzeile ausgegeben. Wenn es passiert, nachdem Sie eine PHP-Datei geändert haben: * Anmeldung oder Abmeldung nicht möglich; * Oben auf der Seite erscheint eine leere Zeile. * Seitenanfang

7. Ich bitte Sie, mir bei der Lösung einiger Zweifel darüber zu helfen, wie man XML-Knotendaten in PHP erhält

Einführung: Ich bitte Sie, mir bei der Lösung des kleinen Problems zu helfen, XML-Knotendaten in PHP zu bekommen. Ich möchte den Wert von =express erhalten. dests>=530000. Könnten Sie mir bitte eine Nachricht geben? Der Datencode lautet wie folgt: 🎜>8.

Einzelbyte zu Breitbyte

Einführung: Einzelbyte zu Breitbyte Dieser Beitrag wurde zuletzt von sevencolours24 am 28.02.2013 um 16:05 Uhr bearbeitet :54 $msg=“China“ Jetzt möchte ich diese Nachricht an eine andere Anwendung senden, um sie zu empfangen. Wie konvertiere ich die Nachricht in UTF-16-codierte Breitbytes, damit die Anwendung sie normal anzeigen kann? Ich habe es jetzt direkt gesendet und festgestellt, dass es sich um ein einzelnes Byte handelt. -----9. Ist es möglich, die utf16be-Codierung in utf8 in PHP zu konvertieren?

Einführung : php Ist es möglich, die chinesische utf16be-Kodierung in utf8 zu konvertieren? Die Daten von utf16be müssen in utf8-Daten konvertiert werden (es ist normal, utf-8-Chinesisch direkt in gbk zu konvertieren, aber die Buchstaben sind nicht normal). Ich habe online nachgeschaut und konnte es nicht finden. ------Lösung-------$text = iconv('utf-16be', 'utf-8', $t

[Verwandte Q&A-Empfehlungen]:

Java – UTF-16-Codierungsproblem

Fragen zur C++-Programmierung Informationen zur ASCLL-Version oder Unicode-Version, welche Codierung die Unicode-Version ist

Fragen zu Codepunkten und Codeeinheiten für char und String in Java

Das obige ist der detaillierte Inhalt vonProbleme und Lösungen zu UTF-16. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Wie verwende ich Layoutdateien? Fassen Sie die Verwendung von Beispielen für Layoutdateien zusammenNächster Artikel：Wie verwende ich Layoutdateien? Fassen Sie die Verwendung von Beispielen für Layoutdateien zusammen

In Verbindung stehende Artikel

Mehr sehen