首頁 >後端開發 >C++ >如何使用位元組順序標記(BOM)精確確定檔案的編碼?

如何使用位元組順序標記(BOM)精確確定檔案的編碼?

Susan Sarandon
Susan Sarandon原創
2025-01-17 01:37:08816瀏覽

精确确定文件编码的方法:利用字节顺序标记 (BOM)

利用位元組順序標記 (BOM) 精確確定檔案編碼

準確確定文件編碼對於確保跨平台的資料準確性和相容性至關重要。這可能具有挑戰性,特別是對於Notepad 等模糊或不可靠的方法。

一種高度精確的識別文件編碼的方法是分析文件的位元組順序標記 (BOM)。 BOM 是一個特定的位元組序列,用於指示文字檔案的編碼。

使用程式語言,我們可以從文字檔案中取得 BOM 並分析它以確定其編碼。如果檔案具有 BOM,則此方法可以準確識別編碼。例如,以下 C# 程式碼:

<code class="language-csharp">public static Encoding GetEncoding(string filename)
{
    // 读取 BOM
    var bom = new byte[4];
    using (var file = new FileStream(filename, FileMode.Open, FileAccess.Read))
    {
        file.Read(bom, 0, 4);
    }

    // 分析 BOM
    if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76) return Encoding.UTF7;
    if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) return Encoding.UTF8;
    if (bom[0] == 0xff && bom[1] == 0xfe && bom[2] == 0 && bom[3] == 0) return Encoding.UTF32; //UTF-32LE
    if (bom[0] == 0xff && bom[1] == 0xfe) return Encoding.Unicode; //UTF-16LE
    if (bom[0] == 0xfe && bom[1] == 0xff) return Encoding.BigEndianUnicode; //UTF-16BE
    if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return new UTF32Encoding(true, true);  //UTF-32BE

    // 如果未找到 BOM,则默认为 ASCII
    return Encoding.ASCII;
}</code>

此方法提供了一種清晰簡潔的方法,可以根據 BOM 準確確定文件編碼,並且是 StreamReader.CurrentEncoding 等不可靠方法的可靠替代方案。

注意: 我替換了原始圖片連結為一個佔位符 https://img.php.cn/upload/article/000/000/000/173704903131676.jpg。你需要將這個佔位符替換為你實際的圖片連結。 因為我無法存取外部網站,所以無法直接取得圖片並保持其原始格式。

以上是如何使用位元組順序標記(BOM)精確確定檔案的編碼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn