중국어, 일본어, 영어, 그리스어를 더 잘 인식하기 위해. 일반적으로 사용되는 기호는 인코딩되며, 이 인코딩이 문자 집합입니다.
문자 집합에 따라 텍스트가 저장되는 방식이 결정됩니다.
문자 집합은 컴퓨터의 인간 언어와 동일합니다.
예:
저는 영어를 사용하기 때문에 저장할 때 영어 텍스트를 사용하여 저장해야 합니다.
내가 중국어로 말하고 영어로 저장하면. 그러면 사람들은 그것을 읽거나 이해할 수 없습니다. 이것을 우리는 횡설수설이라고 부릅니다.
문자 세트가 너무 많아서 수십, 수백 개가 들어갈 정도니까요. 따라서 문자 세트에 대해 너무 많이 알 필요가 없으며 문자 세트가 사람이 볼 수 있는 문자로 컴파일되는 방법도 알 필요가 없습니다.
알아야 할 사항:
영어 문자 집합:
문자 집합 | 설명 | 바이트 길이 |
---|---|---|
ASCII | 미국 표준 정보 교환 코드 | 싱글 바이트 |
GBK | 한자 내부 코드 확장 사양 | 더블 바이트 |
유니코드 | 유니코드 | 4단어 섹션 |
UTF-8 | 유니코드의 가변 길이 문자 인코딩 | 1~6바이트 |
ASCII 코드는 지정된 7비트 또는 8비트 이진수 조합을 사용하여 128 또는 256개의 가능한 문자를 나타냅니다. 기본 ASCII 코드라고도 하는 표준 ASCII 코드는 7비트 이진수를 사용하여 모든 대문자와 소문자, 숫자 0~9, 구두점 및 미국 영어에 사용되는 특수 제어 문자를 나타냅니다.
그 중
0~31 및 127(총 33개)은 제어 문자 또는 통신 전용 문자(나머지는 표시 가능한 문자)입니다. 예를 들어 제어 문자: LF(줄 바꿈), CR(캐리지 리턴), FF( 페이지 피드), DEL(삭제), BS(백스페이스), BEL(링) 등 통신 특수 문자: SOH(텍스트 헤드), EOT(텍스트 끝), ACK(확인) 등; 8, 9, 10 및 13입니다. 각각 백스페이스, 탭, 줄 바꿈 및 캐리지 리턴 문자로 변환됩니다. 특정 그래픽 표시가 없지만 응용 프로그램에 따라 텍스트 표시에 다른 효과가 있습니다.
32~126(총 95개)은 문자(32는 공백)이며, 그 중 48~57은 0부터 9까지의 10개의 아라비아 숫자입니다.
65~90은 영문 대문자 26자, 97~122는 영문 소문자 26자, 나머지는 구두점, 산술 기호 등입니다.
GBK는 이전 버전인 GB 2312 인코딩과 호환됩니다. 중화인민공화국이 규정한 한자 컴퓨터 인코딩 규격이다. 이전 버전은 GB2312입니다.
유니코드(유니코드, 유니버설 코드, 유니코드) 유니코드는 전 세계의 모든 텍스트와 기호를 수용할 수 있는 국제 기구에서 개발한 문자 인코딩 체계입니다. 교차 언어 및 교차 플랫폼 텍스트 변환 및 처리 요구 사항을 충족합니다.
은 유니코드용 가변 길이 문자 인코딩이자 범용 코드이기도 합니다. UNICODE는 ASCII보다 두 배의 공간을 차지하고 상위 바이트 0은 ASCII에 쓸모가 없기 때문입니다. 이 문제를 해결하기 위해 몇 가지 중간 형식 문자 집합이 등장했습니다. 이를 Universal Transformation Format, 즉 UTF(Universal Transformation Format)
중국어에서 흔히 사용되는 문자 집합입니다. utf-8과 GBK로 나누어집니다.
실제 사용된 문자는 다음과 같습니다.
문자 집합 | 지침 |
---|---|
gbk_chinese_ci | 중국어 간체, 대소문자 구분 안함 |
utf8_general_ci | 유니코드(다국어), 케이스 -insensitive |
(그림 1)의 특성을 살펴보면 MySQL 문자 집합이 세 부분으로 구성되어 있음을 알 수 있습니다.
1. 문자 집합
2. 언어 유형
참고:mysql이 utf-8을 쓸 때 utf8을 씁니다. 중간 수평선을 추가하지 마십시오.