首頁 >web前端 >js教程 >用JavaScript計算在UTF-8下儲存字串佔用位元組數_javascript技巧

用JavaScript計算在UTF-8下儲存字串佔用位元組數_javascript技巧

WBOY
WBOY原創
2016-05-16 17:26:221787瀏覽

最近和JavaScript糾纏上了。

遇到這麼一個問題,資料庫的字元集是UTF-8的,要在頁面上使用JavaScript驗證輸入的文字用UTF-8儲存時佔用位元組長度。 JavaScript的String物件有length屬性,但是這個計算的是字元數,不是位元組數(問題總是翻來覆去的,記得當年玩Delphi的時候,還得寫程式計算字串的字元數,因為Delphi中String的length是位元組數...)。偷懶一點的方法是將驗證程式碼中最大長度設定為資料庫中對應欄位的長度的1/3,但這樣準確來說有點不合適。

所以想辦法在JavaScript中判斷在UTF-8下儲存的String的位元組數,在網路上找到很多關於Unicode介紹的文檔,最重要的是字元編碼數值對應的儲存長度:

UCS-2編碼(16進位) UTF-8 位元組流(二進位)
0000 - 007F 0xxxxxxx (1位元組)
0080 - 07FF 110xxxxx 10位元組)
0080 - 07FF 110xxxxx 10位)
0080 - 07FF 110xxxxx 10位) 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (3位元組)

於是程式碼如下:

複製程式碼



複製程式碼



複製程式碼



複製程式碼



複製程式碼
:

function mbStringLength(s) { var totalLength = 0; var i; var charCode; for (i = 0; i charCode = s.charCodeAt(i); if (charCode totalLength = totalLength 1; } else if ((0x0080 totalLength = 2; } else if ((0x0800 totalLength = 3; } } } //alert(totalLength); return totalLength; } 實際上,0x0080到0x07ff之間的字元很少會在實際使用者輸入中使用。
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn