我最近一直在探索 Go 的 UTF-8 支持,并且很好奇它在代码中处理非拉丁脚本的效果如何。
使用 UTF-8
Go 源文件默认采用 UTF-8 编码。这意味着理论上您可以在变量名称、函数名称等中使用 Unicode 字符。
例如,在官方的 Go Playground 样板代码中,你可能会遇到这样的代码:
package main import "fmt" func main() { 消息 := "Hello, World!" fmt.Println(消息) }
这里的“消息”是中文“消息”的意思。由于其 Unicode 支持,Go 可以毫无问题地处理这个问题。这种功能是 Go 在中国和日本等国家流行的原因之一——开发人员可以使用对自己语言有意义的标识符来编写代码。你可能不会相信,但用母语编写代码在中国非常受欢迎,我喜欢它。
尝试使用泰米尔语标识符
当然,我想用我的母语泰米尔语尝试一下。
这是我写的一个简单示例:
package main import "fmt" func main() { எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number" fmt.Println("Value:", எண்ணிக்கை) }
乍一看,这似乎很简单,可以运行而不会出现任何错误。
但是,当我尝试编译代码时,我遇到了错误
./prog.go:6:11: invalid character U+0BCD '்' in identifier ./prog.go:6:17: invalid character U+0BBF 'ி' in identifier ./prog.go:6:23: invalid character U+0BCD '்' in identifier ./prog.go:6:29: invalid character U+0BC8 'ை' in identifier ./prog.go:7:33: invalid character U+0BCD '்' in identifier ./prog.go:7:39: invalid character U+0BBF 'ி' in identifier ./prog.go:7:45: invalid character U+0BCD '்' in identifier ./prog.go:7:51: invalid character U+0BC8 'ை' in identifier
了解泰米尔语组合标记的问题
要了解正在发生的事情,有必要了解一些泰米尔语脚本的工作原理。
泰米尔语是一种abugida——一种将每个辅音-元音序列写成一个单元的书写系统。在 Unicode 中,这通常涉及将基本辅音字符与表示元音或其他修饰符的一个或多个组合标记组合起来。
例如:
泰米尔语字母க (U 0B95) 代表辅音“ka”
要表示“ki”,您可以将 க 与元音符号 ி (U 0BBF) 组合起来,得到 கி。
元音符号 ி 是一个组合标记,在 Unicode 中被明确归类为“非空格标记”。
这就是问题出现的地方。
Go 的语言规范允许在标识符中使用 Unicode 字母,但排除组合标记。具体来说,标识符可以包含分类为“字母”的字符(类别 Lu、Ll、Lt、Lm、Lo 或 Nl)和数字,但不能包含组合标记(类别 Mn、Mc、Me)。
泰米尔语组合标记示例
让我们看看泰米尔语字符是如何形成的:
独立辅音:க (U 0B95) - Go 标识符中允许使用。
辅音元音符号:கா (U 0B95 U 0BBE) - 不允许,因为ா (U 0BBE) 是组合标记 (Mc)。
辅音元音符号:கி (U 0B95 U 0BBF) - 不允许,因为ி (U 0BBF) 是组合标记 (Mn)。
辅音元音符号:கூ (U 0B95 U 0BC2) - 不允许,因为ூ (U 0BC2) 是组合标记 (Mc)。
标识符எண்ணிக்கை(“数字”)中,字符包含组合标记:
எ (U 0B8E) - 信,允许。
ண் (U 0BA3 U 0BCD) - 由ண (U 0BA3) 和 virama ் (U 0BCD) 组成,组合标记 (Mn)。
ண (U 0BA3) - 信,允许。
ிக்கை - 包含组合标记,如 ி (U 0BBF) 和 ை (U 0BC8)。
由于 Go 标识符中不允许使用这些组合标记,因此编译器在遇到它们时会抛出错误。
为什么汉字可以用而泰米尔语不行
汉字在 Unicode 中通常被归类为“字母、其他”(Lo) 类别。它们是独立的符号,不需要组合标记来形成完整的字符。这就是为什么像消息这样的标识符在 Go 中完美工作的原因。
实际意义
无法在标识符中使用组合标记对于泰米尔语等脚本具有重大影响:
表达能力有限:如果不组合标记,几乎不可能用泰米尔语编写有意义的标识符。
教育障碍:使用本机脚本可以使学习编码变得更容易,但这些限制阻碍了这种可能性,特别是对于遵循基于 abugida 的书写系统的语言。
包容性挑战:虽然 Go 的目标是通过 UTF-8 支持实现包容性,但组合标记的限制排除了许多依赖它们的语言。
总结
Go 的 UTF-8 支持是朝着使编程更具包容性迈出的一大步。然而,在标识符中排除组合标记对泰米尔语、印地语和阿拉伯语等语言造成了障碍,在这些语言中,组合标记是脚本的组成部分。
作为一名来自泰米尔纳德邦、主要从事 Go 工作的开发人员,这个发现既令人兴奋又有点令人失望。它强调了编程语言真正国际化的复杂性。
谁用母语编码来构建软件产品!?!!!!
绝对!与东亚地区不同,那里不遵循基于“abugida”的书写系统。
而且,显然,Go 的创建者一开始就不会打算将 UTF-8 合规性用于“本地语言编码”。原因更多是为了提供更好的 ASCII 处理、与现代 Web 标准保持一致、一致的字符串处理以及迈向互操作性的一步。
这次尝试只是我的好奇心,想了解我们能在 Go 中实现 UTF-8 合规性到什么程度。作为致力于用 Go 构建可扩展的分布式金融科技系统的人,我发现了解这些细微差别至关重要。
就是这样。感谢您的阅读。
快乐编码:)愿代码与你同在。
以上是Go 的 UTF 支持:一个有趣的限制的详细内容。更多信息请关注PHP中文网其他相关文章!

Golangisidealforbuildingscalablesystemsduetoitsefficiencyandconcurrency,whilePythonexcelsinquickscriptinganddataanalysisduetoitssimplicityandvastecosystem.Golang'sdesignencouragesclean,readablecodeanditsgoroutinesenableefficientconcurrentoperations,t

Golang在并发性上优于C ,而C 在原始速度上优于Golang。1)Golang通过goroutine和channel实现高效并发,适合处理大量并发任务。2)C 通过编译器优化和标准库,提供接近硬件的高性能,适合需要极致优化的应用。

选择Golang的原因包括:1)高并发性能,2)静态类型系统,3)垃圾回收机制,4)丰富的标准库和生态系统,这些特性使其成为开发高效、可靠软件的理想选择。

Golang适合快速开发和并发场景,C 适用于需要极致性能和低级控制的场景。1)Golang通过垃圾回收和并发机制提升性能,适合高并发Web服务开发。2)C 通过手动内存管理和编译器优化达到极致性能,适用于嵌入式系统开发。

Golang在编译时间和并发处理上表现更好,而C 在运行速度和内存管理上更具优势。1.Golang编译速度快,适合快速开发。2.C 运行速度快,适合性能关键应用。3.Golang并发处理简单高效,适用于并发编程。4.C 手动内存管理提供更高性能,但增加开发复杂度。

Golang在Web服务和系统编程中的应用主要体现在其简洁、高效和并发性上。1)在Web服务中,Golang通过强大的HTTP库和并发处理能力,支持创建高性能的Web应用和API。2)在系统编程中,Golang利用接近硬件的特性和对C语言的兼容性,适用于操作系统开发和嵌入式系统。

Golang和C 在性能对比中各有优劣:1.Golang适合高并发和快速开发,但垃圾回收可能影响性能;2.C 提供更高性能和硬件控制,但开发复杂度高。选择时需综合考虑项目需求和团队技能。

Golang适合高性能和并发编程场景,Python适合快速开发和数据处理。 1.Golang强调简洁和高效,适用于后端服务和微服务。 2.Python以简洁语法和丰富库着称,适用于数据科学和机器学习。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),