為了更好的辨識中文、日文、英文、希臘文。對於常用的符號進行了編碼,這個編碼就是一個字元集。
字元集確定了文字的儲存方式。
字元集相當於電腦中人類的語言。
舉例:
我說的是英文,所以我儲存的時候要用英文文字來儲存。
如果我說的是中文,用英文字元來儲存的話。那麼人們就看不懂也看不明白,就是我們所說的亂碼。
因為字元集太多了,足夠有幾十種上百種之多。所以我們不需要了解太多的字符集的知識,甚至不需要了解字符集到底是如何編成人類可見字符的。
我們只需要了解:
英文字元集:
字元集 | #說明 | 位元組長度 |
---|---|---|
#ASCII | 美國標準資訊交換代碼 | 單字節 |
GBK | 漢字內碼擴充規範 | 雙位元組 |
unicode | 萬國碼 | 4位元組 |
UTF-8 | Unicode的可變長度字元編碼 | 1到6個位元組 |
ASCII 碼使用指定的7 位元或8 位元二進位數組合來表示128 或256 種可能的字元。標準ASCII 碼也叫基礎ASCII碼,使用7 位元二進位數來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控製字元。
其中:
0~31及127(共33個)是控製字元或通訊專用字元(其餘為可顯示字元),如控制符:LF(換行)、CR(Enter)、FF(換頁)、DEL(刪除)、BS( 、10 和13 分別轉換為退格、製表、換行和回車字元。它們並沒有特定的圖形顯示,但會依不同的應用程序,而對文字顯示有不同的影響。
32~126(共95個)是字元(32是空格),其中48~57為0到9十個阿拉伯數字。
65~90為26個大寫英文字母,97~122號為26個小寫英文字母,其餘為一些標點符號、運算符號等。
GBK 向下與 GB 2312 編碼相容。是中華人民共和國定義的漢字計算機編碼規範。早期版本為GB2312。
Unicode(統一碼、萬國碼、單碼)Unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。以滿足跨語言、跨平台進行文字轉換、處理的要求。
是針對Unicode的可變長度字元編碼,也是萬國碼。因為UNICODE比ASCII佔用大一倍的空間,而對ASCII來說高位元組的0對他毫無用處。為了解決這個問題,就出現了一些中間格式的字元集,他們被稱為通用轉換格式,即UTF(Universal Transformation Format)
在中文常用的字元集分為utf-8和GBK。
實際使用的如下:
字元集 | #說明 |
---|---|
gbk_chinese_ci | 簡體中文, 不區分大小寫 |
utf8_general_ci | Unicode (多語言), 不區分大小寫 |
#觀察(圖一)的特徵你會發現,MySQL字元集由三個部份組成:
1.字元集
2.語言
3.類型
最後的bin是指二進位字元集,後面的ci是指儲存排序時不區分字元的大小寫。
注意:
mysql在寫utf-8的時候寫的是utf8。不加中間的中橫線。
(圖一)