Unicode 困境:wchar_t 和 wstrings 的困境
宽字符 (wchar_t) 和宽字符串文字 (wstrings) 在C 社区,引发对其缺点和国际化替代方案的质疑
wchar_t 有什么问题?
wchar_t 旨在用单个代码点表示所有受支持的语言环境中的所有字符。然而,它的实现并不能保证跨区域设置的一致编码。这种不一致阻碍了使用 wchar_t 作为文本处理的可靠字符表示。
宽字符的替代品
1。 UTF-8 C 字符串:
UTF-8 编码的 C 字符串提供可移植且独立于平台的表示形式。它们很常用,并为字符串文字和语言功能提供标准数据类型支持。但是,UTF-8 不提供 ASCII 编码可用的文本算法的简单性。
2.跨平台表示:
一些软件采用跨平台表示,例如存储在无符号短数组中的 UTF-16,并附带自定义库支持来处理数据转换和语言限制。
3. C 11 宽字符(char16_t、char32_t):
C 11 引入了新的宽字符类型(char16_t、char32_t),并改进了语言和库功能。虽然它们没有明确定义为 UTF-16 和 UTF-32,但大多数实现都应采用这些编码。
要避免的替代方案
TCHAR:
TCHAR 是 Windows 特定的遗留结构,用于将程序从 char 迁移到wchar_t。它的编码和数据类型不特定,使其不可移植且不可靠。
结论
wchar_t 有缺陷的设计和限制使其不适合其最初的用途旨在 - 简化文本处理。对于可移植代码,UTF-8 C 字符串和 C 11 宽字符为国际化支持提供了更可行的替代方案。避免使用 TCHAR 至关重要,因为它没有任何优势并且阻碍了可移植性。
以上是为什么 wchar_t 和 wstrings 在国际化方面存在问题,什么是更好的替代方案?的详细内容。更多信息请关注PHP中文网其他相关文章!