>  기사  >  데이터 베이스  >  mysql_MySQL에서 utf8과 utf8mb4의 차이점에 대한 포괄적인 이해

mysql_MySQL에서 utf8과 utf8mb4의 차이점에 대한 포괄적인 이해

WBOY
WBOY원래의
2016-09-09 08:13:41986검색

1. 소개

MySQL은 5.5.3 이후에 utf8mb4 인코딩을 추가했습니다. mb4는 대부분의 바이트 4를 의미하며, 이는 4바이트 유니코드와 호환되도록 특별히 설계되었습니다. 다행히 utf8mb4는 utf8의 상위 집합이므로 인코딩을 utf8mb4로 변경하는 것 외에는 다른 변환이 필요하지 않습니다. 물론 공간을 절약하려면 일반적으로 utf8을 사용하는 것으로 충분합니다.

2. 콘텐츠 설명

위에서 언급했듯이 utf8은 대부분의 한자를 저장할 수 있는데 왜 utf8mb4를 사용해야 할까요? mysql에서 지원하는 utf8 인코딩의 최대 문자 길이는 4바이트 와이드 문자를 만나면, 삽입 오류가 발생했습니다. 3바이트 UTF-8로 인코딩할 수 있는 최대 유니코드 문자는 0xffff이며, 이는 유니코드의 BMP(Basic Multilingual Plane)입니다. 즉, 기본 다중 텍스트 평면에 없는 유니코드 문자는 Mysql의 utf8 문자 세트를 사용하여 저장할 수 없습니다. Emoji 표현(Emoji는 iOS 및 Android 휴대폰에서 일반적으로 사용되는 특수 유니코드 인코딩입니다.), 흔하지 않은 중국어 문자, 새로운 유니코드 문자 등을 포함합니다.

3. 문제의 근본 원인

원래 UTF-8 형식은 1~6바이트를 사용하며 최대 31자를 인코딩할 수 있습니다. 최신 UTF-8 사양은 1~4바이트만 사용하고 최대 21비트까지 인코딩할 수 있습니다. 이는 17개의 유니코드 평면을 모두 표현하기에 충분합니다.

utf8은 유니코드의 기본 다중 텍스트 평면인 UTF-8 문자만 최대 3바이트까지 지원하는 Mysql의 문자 집합입니다.

Mysql의 utf8이 최대 길이가 3바이트인 UTF-8 문자만 지원하는 이유는 무엇입니까? 잠시 생각해봤는데, 아마도 MySQL이 처음 개발되기 시작했을 때 유니코드에는 보조 평면이 없었기 때문일 것입니다. 당시 유니코드 위원회는 여전히 "전 세계적으로 65535자면 충분하다"는 꿈을 꾸고 있었습니다. MySQL의 문자열 길이는 바이트 수가 아닌 문자 수로 계산됩니다. CHAR 데이터 유형의 경우 문자열에 충분한 길이를 예약해야 합니다. utf8 문자 세트를 사용할 때 예약해야 하는 길이는 utf8의 가장 긴 문자 길이에 문자열 길이를 곱한 값이므로, 물론 utf8의 최대 길이는 3으로 제한됩니다. 예를 들어 CHAR(100) Mysql은 예약합니다. 300바이트. 후속 버전에서 4바이트 길이의 UTF-8 문자를 지원하지 않는 이유에 대해 하나는 이전 버전과의 호환성을 고려한 것이고, 다른 하나는 기본 다국어 평면 외부의 문자를 거의 사용하지 않기 때문이라고 생각합니다.

Mysql에서 4바이트 길이의 UTF-8 문자를 저장하려면 utf8mb4 문자셋을 사용해야 하는데, 이는 버전 5.5.3 이후에만 지원됩니다(버전 보기: select version();). 더 나은 호환성을 얻으려면 항상 utf8 대신 utf8mb4를 사용해야 한다고 생각합니다. CHAR 유형 데이터의 경우 utf8mb4가 더 많은 공간을 소비합니다. Mysql 공식 권장 사항에 따르면 CHAR 대신 VARCHAR을 사용하십시오.

위 글은 mysql에서 utf8과 utf8mb4의 차이점을 포괄적으로 이해한 내용입니다. 이는 모두 편집자가 공유한 내용이므로 참고가 되셨으면 좋겠습니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.