Home >php教程 >PHP源码 >中文维基百科实现简繁转换_其他工具_软件教程

中文维基百科实现简繁转换_其他工具_软件教程

PHP中文网
PHP中文网Original
2016-05-25 17:14:331128browse

自从有了简体中文以来,中文的简繁转换便成了一项新兴职业,特别是近年来,两岸三地的交流愈发频繁,这种需求更为旺盛。当然,你可以付钱选择专业的公司来帮您完成文件、文章等等的职业级简繁转换;然而,您也可以选择中文维基百科为你奉献的一顿简繁转换的免费午餐。 中文

自从有了简体中文以来,中文的简繁转换便成了一项新兴职业,特别是近年来,两岸三地的交流愈发频繁,这种需求更为旺盛。当然,你可以付钱选择专业的公司来帮您完成文件、文章等等的职业级简繁转换;然而,您也可以选择中文维基百科为你奉献的一顿简繁转换的免费午餐。

中文简繁转换的难题

我们都知道,中文简繁之间的区别不仅仅是字音字形上的不同,地域和社会形态的差异也形成了表达习惯上的较大差异。比如说,大陆管panda叫“熊猫 ”,台湾香港叫“猫熊”;大陆管database叫“数据库”,台湾香港叫“資料庫”;大陆管篮球飞人叫“迈克尔.乔丹”,台湾香港叫“米高.佐敦”…… 所以,从某种意义上说,中文的简繁转换其实更像是一个翻译过程。

许多的应用程序和网站都提供中文简繁转换,但99.9%都是基于汉字简繁编码的一一对应关系做基本语言单位—— 字级别上的转换。包括 Google Translate 在内都是基于这种转换,那么这种转换的结果是什么呢,我们来看看下面两句话的简繁转换:

原文-----------------------------转换方向--------------------译文

他用调制解调器发出一个回车字符。 简->繁    他用調製解調器發出一個回車字符。

碧咸在寮國見到了布希。               繁->简    碧咸在寮国见到了布希。

这个转换结果,第一句没有一个台湾香港居民能看懂,第二句没有一个大陆居民知其所云。这无外乎又是一出把“How old are you?”翻译成“怎么老是你?”;把“给你点颜色看看!”翻译成“Give you a little color to see see!”的让人贻笑大方闹剧。正确的结果,第一句的繁体应该是“他用數據機發出一個歸位字元”;第二句的简体应该是“贝克汉姆在老挝见到了布什”。

以上的例子,足以让读者您了解到了中文简繁转换的难度。而更为棘手的是,大陆在简化汉字的过程中,把许多在繁体中文中字形、字音、字义完全不同的多个汉字简化到一个汉字下面。比如:

“頭髮”和“發財”中的“髮”和“發”全都简化为“发”;

“鬱鬱寡歡”和“郁郁青青”中的“鬱”和“郁”全部简化为“郁”

等等。所以 简->繁 的转换更为复杂,转换器必须识别这种一对多的对应关系。否则,将“郁郁寡欢”转换为“郁郁寡歡”“是相当可笑的错误,因为“郁”在古汉语中是”美好、丰盛、文采飞扬“之意,汉语中的确没有”郁郁寡歡“这种自相矛盾的成语。

如果您对转换结果要求并不苛刻,可以尝试使用 Microsoft Word ,其简繁转换的品质相对较好,作了很多表达习惯上的修订,但是转换结果中仍可以找到大量未修订,不符合目标语表达习惯的地方,特别是各种人名、地名。具体 的情况,读者可以自行在 Microsoft Word 中考证。

利用中文维基百科的简繁转换系统

笔者在中文维基百科大陆解封后,也成了一名维基贡献贡献者,用简体中文撰写条目,同时也发现了维基强大的简繁转换系统。例如,我曾在 Qt 条目中写道:

经过多年发展,Qt不但拥有了完善的C++图形库,而且近年来的版本逐渐集成了数据库、OpenGL库、多媒体库 (Phonon)、网络库、脚本库、XML库、WebKit库等等,其内核库也加入了进程间通信、多线程等模块,极大的丰富了Qt开发大规模复杂跨平台应 用程序的能力,真正意义上实现了其研发宗旨“Code Less; Create More; Deploy Anywhere.”。

当我点击该条目右上角的“台灣正體”后,出现的转换结果为:

經過多年發展,Qt不但擁有了完善的C++圖形函式庫,而且近年來的版本逐漸整合了資料庫、OpenGL函式庫、多媒體函式庫(Phonon)、網路函式庫、指令碼函式庫、XML函式庫、WebKit函式庫等等,其核心函式庫也加入了行程間通訊、多緒等模組,極大的豐富了 Qt開發大規模複雜跨平台應用程式的能力,真正意義上實作了其研發宗旨「Code Less; Create More; Deploy Anywhere.」。

转换结果很是完美,一番查找才知道这是维基的繁简处理系统的功劳,成千上万的维基人每天都在向这个系统提交或修订最新的、最完整的简繁转换词语表。这足以保证维基百科的简繁转换系统作为最精确的机器转换系统,能够随时跟上两岸三地的汉语表达习惯最新的变化。

但是,这个系统虽好确不能滥用,维基百科有严格的规定,严禁在条目中放置与改条目无关的内容。那还怎么转换我们想要的内容呢?难道只能望洋兴叹?

笔者发现还是有空子可钻的。维基百科为每个用户都提供一个用户页面,其地址是http://www.php.cn/:你的注册名。想利用该页面进行简繁转换,你需要做的,首先就是注册成为中文维基百科用户,接下来进入你的用户页面的编辑模式,写入你想转换的内容,并提交编辑。接下来就看到页面上方那一排转换按钮了吧:

现在你就可以好好享受这高质量的简繁转换了,不仅仅是两岸三地,连马来西亚和新加坡也包括在内了。

最后,笔者还要郑重提醒您的注意,维基百科的用户页也有严格的规定。所以强烈建议您在完成简繁转换后,立即在您的用户页移除这些内容。

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn