Einführung
Das Iterieren durch die Unicode-Codepunkte eines Java-Strings erfordert ein Unique Ansatz, da Java eine UTF-16-ähnliche Kodierung verwendet. Dieser Artikel untersucht verschiedene Strategien und geht auf Bedenken hinsichtlich der Kodierung von Zeichen außerhalb der Basic Multilingual Plane (BMP) ein.
Lösung des Problems
Zunächst könnte man die Verwendung von String in Betracht ziehen #codePointAt(int) indiziert nach Zeichenoffset. Dieser Ansatz wirft jedoch zwei Probleme auf: Er wird nicht durch den Codepunkt-Offset indiziert, und die Handhabung von Codepunkten außerhalb des BMP stellt Herausforderungen dar.
Ein alternativer Ansatz besteht darin, String#charAt(int) zu verwenden, um Zeichen abzurufen und ihre Zugehörigkeit zum zu testen Bereich mit hohen Surrogaten. Während diese Methode eine Möglichkeit bietet, festzustellen, ob ein Codepunkt außerhalb des BMP liegt, bringt sie die folgenden Nachteile mit sich:
Die optimale Lösung
Glücklicherweise bietet Java die kanonische Möglichkeit, mit String#codePointAt(int):
<code class="java">for (int offset = 0; offset < length; ) { final int codepoint = s.codePointAt(offset); // do something with the codepoint offset += Character.charCount(codepoint); }</code>
Bedenken berücksichtigen
Fazit
Um es zusammenzufassen Das Durchlaufen von Unicode-Codepunkten in Java-Strings erfordert ein tieferes Verständnis der zugrunde liegenden Codierung. Die Verwendung des in diesem Artikel beschriebenen kanonischen Ansatzes bietet jedoch eine korrekte und effiziente Lösung für dieses allgemeine Bedürfnis.Das obige ist der detaillierte Inhalt vonWie iteriert man durch Unicode-Codepunkte in Java-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!