Heim >Backend-Entwicklung >C++ >Wie ermittelt man die wahre Länge eines UTF-8-codierten std::string in C?

Wie ermittelt man die wahre Länge eines UTF-8-codierten std::string in C?

Linda Hamilton
Linda HamiltonOriginal
2024-10-27 20:43:30423Durchsuche

How to Determine the True Length of a UTF-8 Encoded std::string in C  ?

Bestimmen der wahren Länge eines UTF-8-codierten std::string

In C ist ein std::string ein Array von Zeichen, die jeweils ein Byte Speicher belegen. Bei der UTF-8-Codierung kann ein einzelnes Zeichen jedoch durch eine Folge mehrerer Bytes dargestellt werden. Dies führt zu einer Diskrepanz zwischen der von str.length() gemeldeten Länge der Zeichenfolge und ihrer tatsächlichen Länge in Zeichen.

Gemäß dem UTF-8-Zeichenkodierungsstandard werden Bytes in Sequenzen gruppiert, wobei die erstes Byte, das die Länge der Sequenz angibt:

  • 0x00000000 - 0x0000007F: 1 Byte
  • 0x00000080 - 0x000007FF: 2 Bytes
  • 0x00000800 - 0x0000FFFF: 3 Bytes
  • 0x00010000 - 0x001FFFFF: 4 Bytes

Um die tatsächliche Länge eines UTF-8-codierten std::string zu bestimmen, können Sie den folgenden Ansatz verwenden:

  1. Durchlaufen Sie die Zeichenfolge Zeichen für Zeichen mit dem Operator *s.
  2. Überprüfen Sie für jedes Zeichen, ob das erste Byte (mit dem Operator &) mit dem Fortsetzungsbytemuster (10xxxxxx) übereinstimmt.

Wenn das erste Byte nicht mit dem Fortsetzungsmuster übereinstimmt, erhöhen Sie den Längenzähler. Dies zeigt den Beginn einer neuen Zeichenfolge an.

Hier ist eine Beispielimplementierung:

<code class="c++">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

Mit diesem Ansatz können Sie die wahre Länge eines UTF-8-codierten Standardwerts genau bestimmen: :string, der für verschiedene Vorgänge wie Zeichenzählung, String-Manipulation und Datenanalyse unerlässlich ist.

Das obige ist der detaillierte Inhalt vonWie ermittelt man die wahre Länge eines UTF-8-codierten std::string in C?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn