이 글에서는 주로 한자가 포함된 문자열을 처리하는 js의 예를 소개합니다. 편집자님이 꽤 좋다고 생각하셔서 지금 공유하고 모두에게 참고용으로 드리고자 합니다. 편집자를 따라가서 모두에게 도움이 되기를 바랍니다.
시나리오:
js의 문자열 유형과 함께 제공되는 속성 길이는 문자열의 문자 수를 가져오지만 프런트 엔드에서는 문자열의 표시 길이를 제한해야 하는 경우가 많습니다. 소문자의 표시 위치는 최대 2개 정도이므로 중국어와 영어가 혼합되어 있는 경우 길이 값을 사용하여 표시 길이를 판단하는 것이 잘못된 경우가 많습니다.
기존 솔루션은 문자열을 순회하는 것입니다. 한자는 길이 2로 계산되고, 한자가 아닌 문자는 길이 1로 계산되며, 문자열의 표시 길이는 새로 계산된 길이의 합으로 제한됩니다. 코드를 보세요 ↓↓↓
var Tools ={ //是否包含中文 hasZh: function(str){ for(var i = 0;i < str.length; i++) { if(str.charCodeAt(i) > 255) //如果是汉字,则字符串长度加2 return true; return false; } }, //重新计算长度,中文+2,英文+1 getlen: function(str){ var strlen = 0; for(var i = 0;i < str.length; i++) { if(str.charCodeAt(i) > 255) //如果是汉字,则字符串长度加2 strlen += 2; else strlen++; } return strlen; }, //限制长度 limitlen: function(str, len){ var result = ""; var strlen = 0; for(var i = 0;i < str.length; i++) { if(str.charCodeAt(i) > 255) //如果是汉字,则字符串长度加2 strlen += 2; else strlen++; result += str.substr(i,1); if(strlen >= len){ break; } } return result; } }
이 방법의 원리는 중국어와 영어의 유니코드 인코딩 범위가 다르기 때문에 중국어는 2바이트, 영어는 1바이트를 차지하므로 중국어 유니코드 인코딩 값이 확실히 더 큽니다. 2^8-1=255보다요.
위 방법은 더 엄격할 수 있습니다. 유니코드 인코딩 범위를 고려하세요. 구체적인 범위는 유니코드 표
PS: 한자의 유니코드 인코딩 범위는 16진수로 4E00-9FA5입니다. 10진수로 4E00-9FA5, 즉 19968-40869, 즉 중국어를 판단하는 정확한 표현은
str.charCodeAt(i)>=19968 && str.charCodeAt(i)<=40869
너무 엄격하지 않은 단어를 삽입하면 됩니다. 사용자(테스트)가 어떤 이상한 것들을 잃게 될지 알 수 없습니다.
관련 권장 사항:
위 내용은 Node.js 처리에는 중국어 문자열 예제 공유가 포함되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!