ホームページ >バックエンド開発 >C++ >C での char による UTF-har の読み取り

C での char による UTF-har の読み取り

DDDオリジナル: 2024-12-29 15:35:11357ブラウズ

Reading UTF-har by char in C

テストでは wchar_t の使用がうまくいかなかったため、自分で処理します。

#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>

// https://stackoverflow.com/a/44776334
int8_t utf8_length(char c) {
    // 4-byte character (11110XXX)
    if ((c & 0b11111000) == 0b11110000)
        return 4;

    // 3-byte character (1110XXXX)
    if ((c & 0b11110000) == 0b11100000)
        return 3;

    // 2-byte character (110XXXXX)
    if ((c & 0b11100000) == 0b11000000)
        return 2;

    // 1-byte ASCII character (0XXXXXXX)
    if ((c & 0b10000000) == 0b00000000)
        return 1;

    // Probably a 10XXXXXXX continuation byte
    return -1;
}

void main ()
{

    const char* filepath = "example.txt";

    FILE* file = fopen(filepath, "r");

    if (!file) {
        perror(filepath);
        exit(1);
    }

    char c;

    for(;;) {

        c = getc(file);

        if (c == EOF)
            break;

        putc(c, stdout);

        int8_t length = utf8_length(c);

        while (--length) {
            c = getc(file);
            putc(c, stdout);
        }

        getchar();
    }

    fclose (file);
}

そして、これが私のテストファイルです:

Hello, World! ??
Hello
¡Hola!
Ça va?
你好
こんにちは
안녕하세요
©®™✓✗
????✨
€??

以上がC での char による UTF-har の読み取りの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

char wchar_t using

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：文字列から特殊文字を削除する最も効率的な方法は何ですか?次の記事：文字列から特殊文字を削除する最も効率的な方法は何ですか?

続きを見る