Untuk mengenali bahasa Cina, Jepun, Inggeris dan Yunani dengan lebih baik. Simbol yang biasa digunakan dikodkan, dan pengekodan ini ialah set aksara.
Set aksara menentukan cara teks disimpan.
Set aksara adalah setara dengan bahasa manusia dalam komputer.
Contohnya:
Saya bertutur dalam bahasa Inggeris, jadi apabila saya menyimpannya, saya perlu menggunakan teks bahasa Inggeris untuk menyimpannya.
Jika saya bercakap dalam bahasa Cina dan menggunakan aksara Inggeris untuk menyimpannya. Kemudian orang tidak boleh membaca atau memahaminya, itu yang kita panggil omong kosong.
Oleh kerana terlalu banyak set watak, cukup untuk mempunyai berpuluh atau ratusan set. Jadi kita tidak perlu tahu terlalu banyak tentang set watak, atau juga cara set watak disusun menjadi watak yang boleh dilihat oleh manusia.
Kita hanya perlu tahu:
Set aksara Inggeris:
字符集 | 说明 | 字节长度 |
---|---|---|
ASCII | 美国标准信息交换代码 | 单字节 |
GBK | 汉字内码扩展规范 | 双字节 |
unicode | 万国码 | 4字节 |
UTF-8 | Unicode的可变长度字符编码 | 1到6个字节 |
Kod ASCII menggunakan gabungan nombor perduaan 7-bit atau 8-bit yang ditentukan untuk mewakili 128 atau 256 aksara yang mungkin. Kod ASCII standard, juga dipanggil kod ASCII Asas, menggunakan nombor perduaan 7-bit untuk mewakili semua huruf besar dan huruf kecil, nombor 0 hingga 9, tanda baca dan aksara kawalan khas yang digunakan dalam Bahasa Inggeris Amerika.
Antaranya:
0~31 dan 127 (33 kesemuanya) ialah aksara kawalan atau aksara khusus komunikasi (selebihnya ialah aksara yang boleh dipaparkan), seperti aksara kawalan: LF (suapan baris), CR (carriage return ), FF ( Suapan halaman), DEL (padam), BS (ruang belakang), BEL (ring), dsb.; aksara khas komunikasi: SOH (kepala teks), EOT (akhir teks), ACK (pengesahan), dsb .; Nilai ASCII ialah 8, 9, 10 dan 13 masing-masing ditukar kepada ruang belakang, tab, suapan baris dan aksara pulangan. Mereka tidak mempunyai paparan grafik tertentu, tetapi akan mempunyai kesan yang berbeza pada paparan teks bergantung pada aplikasi.
32~126 (95 kesemuanya) ialah aksara (32 ialah ruang), yang mana 48~57 ialah sepuluh angka Arab dari 0 hingga 9.
Nombor 65 hingga 90 ialah 26 huruf besar Inggeris, nombor 97 hingga 122 ialah 26 huruf kecil Inggeris, dan selebihnya ialah beberapa tanda baca, simbol aritmetik, dsb.
GBK serasi ke belakang dengan pengekodan GB 2312. Ia ialah spesifikasi pengekodan komputer aksara Cina yang ditakrifkan oleh Republik Rakyat China. Versi terdahulu ialah GB2312.
Unicode (Unicode, Universal Code, Unicode) Unicode ialah skim pengekodan aksara yang dibangunkan oleh organisasi antarabangsa yang boleh memuatkan semua teks dan simbol di dunia. Untuk memenuhi keperluan penukaran dan pemprosesan teks silang bahasa dan merentas platform.
ialah pengekodan aksara panjang boleh ubah untuk Unicode, dan ia juga merupakan kod universal. Kerana UNICODE mengambil dua kali lebih banyak ruang daripada ASCII, dan bait tinggi 0 tidak berguna kepada ASCII. Untuk menyelesaikan masalah ini, beberapa set aksara format perantaraan telah muncul Ia dipanggil format penukaran universal, iaitu, UTF (Format Transformasi Universal)
字符集 | 说明 |
---|---|
gbk_chinese_ci | 简体中文, 不区分大小写 |
utf8_general_ci | Unicode (多语言), 不区分大小写 |
1 set
2. Bahasa
3. Jenis
Nota:Apabila mysql menulis utf-8, ia menulis utf8. Jangan tambah garis mendatar tengah.