高效替换字符串中的所有重音字符?
我1正在寻找改进我的 JavaScript 类中的字符串比较函数。
目前它们使用 string.replace() 执行全局 (g) 搜索,并将字符串 (p{InCombiningDiariticMarks} ) 中的所有重音字符替换为其基本形式(使用 NFD 进行规范分解)。
在输入字符串中搜索即使是一些重音字符也会导致相当大的流失 - 当搜索较大的输入时,性能可能会变得缓慢。
是否有更有效的方法要完成此操作?
[1] 编辑 - 澄清一般问题。
执行此操作是为了将带重音的德语字符转换为不重音的形式,以便在排序时以“错误”顺序排列的字符串(例如变音符号在非变音符号“a”之前结束),它们可以根据本地正确排序
因此,简单地搜索重音字符并将其替换为 无重音的等效字符 是不够的 - 有必要将重音形式替换为 基本字符等价。
未规范化或不正确的规范化可能会导致错误的排序order.
[编辑 2]
为了在客户端实现 near-排序规则正确排序,我需要一个 JavaScript 高效字符串中的单个字符替换的函数。
这里是我的意思(请注意,这适用于德语文本,其他语言排序不同):
native sorting gets it wrong: a b c o u z ä ö ü collation-correct would be: a ä b c o ö u ü z
基本上,我需要将给定字符串中所有出现的“ä”替换为“a”(依此类推) )。这样,本机排序的结果将非常接近用户期望的结果(或数据库返回的结果)。
其他语言也有能力做到这一点:Python 提供了 str.translate(), Perl有tr/…/…/,XPath有函数translate(),ColdFusion有ReplaceList()。但是 JavaScript 呢?
这是我现在所拥有的。
// s would be a rather short string (something like // 200 characters at max, most of the time much less) function makeSortString(s) { var translate = { "ä": "a", "ö": "o", "ü": "u", "Ä": "A", "Ö": "O", "Ü": "U" // probably more to come }; var translate_re = /[öäüÖÄÜ]/g; return ( s.replace(translate_re, function(match) { return translate[match]; }) ); }
对于初学者来说,我不喜欢每次调用函数时都会重建正则表达式。我想闭包在这方面可以有所帮助,但由于某种原因我似乎没有掌握它的窍门。
有人能想到更有效的方法吗?
以上是如何有效地替换 JavaScript 字符串中的重音字符以改进排序?的详细内容。更多信息请关注PHP中文网其他相关文章!