macos - ファイルのエンコードメカニズムとは何ですか?

Question

たとえば、私の Mac には f.txt ファイルがあり、システムは utf-8 でエンコードされており、データ「\xE6\x97\A5」が含まれています。これは、utf-8 エンコーディングの漢字「日」です。 Ultraedit を使用して f.txt を編集します。次のファイルとして保存します。f1.txt ファイルの実際に保存されているコンテンツは「\xE6\x97\A5」です。ultraedit でデコードさせます...

迷茫 · Answer

vim を例に挙げてみましょう

テキストファイルを開くとき、vim は特定のエンコード A に従って開き、特定のエンコード B に変換し、保存するときに別のエンコード C に変換します。他のテキストエディターにも同様の設定がある場合があります。 vim として自動補完します。
エンコーディング B: ファイル全体には影響しません。これは、vim がオペレーティングシステムと対話するときに使用されるエンコーディングです。

编码A：使用 set fileencodings=ucs-bom,utf-8,gbk,cp936,latin-1设置。vim 按照设置的顺序检查检测文件的编码。因为某些编码里不存在某些二进制序列的组合，所以如果检测到就认为不是这种编码，检查下一种编码，否则就认为是这一种。因为latin-1可以出现任何二进制序列的组合，所以如果放到第一个，那么将永远以latin-1ショー。

通常のバイナリファイルには文字コードマークはありません。しかし、Unicode にはゼロ幅スペースと呼ばれる特別なものがあります (FEFF）而FFFE是不存在的编码，所以在Unicode的标准里可以人为的在开始加入这个字符（这个字符在任何字体下都是没有宽度的，在中文字符里面没有任何的效果跟没有一样，是为了照顾东南亚某些语言的显示而设置的）。这样就便于文本编辑器检查字符和字节顺序，但是在代码里includeこの種のファイルは問題を引き起こすことがよくあります (これは大きな落とし穴です。コンパイラーはこれが不正な文字であると判断しますが、ユーザーにはそれが表示されません)。

编码B：set fileencoding=utf-8、保存時に使用されるエンコーディングは、保存時に別のエンコーディングに自動的に変換されます。ただし、最初に開いたときに間違ったエンコーディングが認識された場合、存在しない文字は変換時に完全には変換されません。

そのため、gp18030として保存されたf1.txtはエンコード変換を実行できない可能性があります。

「問題は、実際に保存されているデータは「xE6x97A5」ですが、gb18030 エンコーディングを使用して説明します。これはどういう意味ですか?

PHP中文网 · Answer

ファイルのエンコーディングは、それを保存する方法の実際のコード仕様です。まず、日在UTF8编码中是xE6x97A5，你就不可能说采用GB18030编码结果还为xE6x97A5的日言葉について質問に答えましょう。

エディターがテキストファイルのエンコーディングを識別する方法はいくつかあります。一部のファイルエンコーディングには Magic ヘッダーがあり、最初の数バイトを直接識別することで完了できます。ただし、ほとんどのテキストファイルにはそのような識別コードがなく、完全にエディターに依存します。コンテキストとユーザーのロケールに基づいて推測します。

macos - ファイルのエンコードメカニズムとは何ですか?

全員に返信(2)返信します