正则表达式 - C++正则匹配中文乱码

Question

{代码...} C++在匹配中文的时候，部分文字乱码，不知道大家遇到过这种情况吗

ringa_lee · Answer

u4e00-u9fa5 是符合Unicode的漢字
C++對unicode支援不太好，如果你是windows下的vs編譯的程序，普通字串編譯之後都是ANSI編碼也就是GBK，L""字串則是UTF16 LE，在c++11之後，可以嘗試使用u8""(UTF8) u""(UTF16)U""(UTF32)來指定unicode字串的不同UTF編碼形式

看原始碼regex應該是C++標準函式庫裡面的，在stackoverflow上找問題，一般反應是c++標準函式庫裡面的regex函式庫對unicode的支援並不好，
http://stackoverflow.com/questions /11254232/do-c11-regular-expressions...
http://stackoverflow.com/questions/15882991/range-of-utf-8-characters-...
http://stackoverflow. com/questions/17103925/how-well-is-unicode-suppor...

我不知道使用UTF32或UTF16能不能解決問題，一般建議的方法是boost::regex + icu
這個例子看起來用u""可以解決

正则表达式 - C++正则匹配中文乱码

全部回覆(1)我來回復