>백엔드 개발 >C++ >BOM(바이트 순서 표시)을 사용하여 파일의 인코딩을 정확하게 식별하려면 어떻게 해야 합니까?

BOM(바이트 순서 표시)을 사용하여 파일의 인코딩을 정확하게 식별하려면 어떻게 해야 합니까?

DDD
DDD원래의
2025-01-17 01:47:091006검색

How Can I Precisely Identify a File's Encoding Using Byte Order Marks (BOMs)?

BOM(바이트 순서 표시)을 사용하여 파일 인코딩을 정확하게 식별

StreamReader.CurrentEncoding 방법은 항상 파일 인코딩 정보를 안정적으로 제공하는 것은 아니며, 파일의 BOM(바이트 순서 표시)을 분석하는 것이 인코딩을 식별하는 정확하고 효율적인 방법입니다. BOM 시퀀스(있는 경우)는 인코딩 형식을 나타낼 수 있습니다.

다음 코드 조각에서는 파일의 BOM을 기반으로 텍스트 파일의 인코딩을 결정하는 GetEncoding이라는 메서드를 소개합니다. BOM 감지에 실패하면 기본값은 ASCII입니다.

<code class="language-csharp">public static Encoding GetEncoding(string filename)
{
    // 读取 BOM
    var bom = new byte[4];
    using (var file = new FileStream(filename, FileMode.Open, FileAccess.Read))
    {
        file.Read(bom, 0, 4);
    }

    // 分析 BOM
    if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76) return Encoding.UTF7;
    if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) return Encoding.UTF8;
    if (bom[0] == 0xff && bom[1] == 0xfe && bom[2] == 0 && bom[3] == 0) return Encoding.UTF32; //UTF-32LE
    if (bom[0] == 0xff && bom[1] == 0xfe) return Encoding.Unicode; //UTF-16LE
    if (bom[0] == 0xfe && bom[1] == 0xff) return Encoding.BigEndianUnicode; //UTF-16BE
    if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return new UTF32Encoding(true, true);  //UTF-32BE

    // BOM 检测失败时,默认为 ASCII
    return Encoding.ASCII;
}</code>

이 방법을 사용하면 파일의 인코딩을 정확하게 식별할 수 있어 정확한 텍스트 해석 및 조작이 가능합니다.

위 내용은 BOM(바이트 순서 표시)을 사용하여 파일의 인코딩을 정확하게 식별하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.