偶爾會在數據中看到諸如' 這樣的字符,特徵如下
以開頭,中間是一串數字,以;結尾
以&開頭,中間一串字符,以;結尾
例如最常見的 或等價的
瀏覽器遇到這些轉義符,會轉義回來,但如何透過程式碼辨識? org.apache.commons.lang.StringEscapeUtils.unescapeHtml提供了很好的說明
遇到上面的第一種情況,中間是數字的,直接將數字(unicode)轉為char
遇到第二情況,中間是字符,只能查映射表了,從映射表中找到字符對應的數字再轉換為char 看看代碼就一目了然了
看看HTML40如何定義的