>  기사  >  데이터 베이스  >  MySQL에서 utf8과 utf8mb4 인코딩의 차이점은 무엇입니까?

MySQL에서 utf8과 utf8mb4 인코딩의 차이점은 무엇입니까?

不言
不言앞으로
2019-03-26 11:26:462610검색

이 기사의 내용은 MySQL에서 utf8과 utf8mb4 인코딩의 차이점에 관한 것입니다. 도움이 필요한 친구들이 참고할 수 있기를 바랍니다.

1. 소개

MySQL은 5.5.3 이후에 이 utf8mb4 인코딩을 추가했습니다. 이는 대부분의 바이트 4를 의미하며 이는 호환되도록 특별히 사용됩니다. 4바이트 유니코드를 사용합니다. 다행히 utf8mb4는 utf8의 상위 집합이므로 인코딩을 utf8mb4로 변경하는 것 외에는 다른 변환이 필요하지 않습니다. 물론 공간을 절약하려면 일반적으로 utf8을 사용하는 것으로 충분합니다.

2. 콘텐츠 설명

위에서 언급했듯이 utf8은 대부분의 한자를 저장할 수 있는데 왜 utf8mb4를 사용해야 할까요? MySQL에서 지원하는 UTF8 인코딩의 최대 문자 길이는 3바이트입니다. 4바이트 와이드 문자가 발견되면 예외가 삽입됩니다. 3바이트 UTF-8로 인코딩할 수 있는 최대 유니코드 문자는 0xffff이며, 이는 유니코드의 BMP(Basic Multilingual Plane)입니다. 즉, 기본 다중 텍스트 평면에 없는 유니코드 문자는 Mysql의 utf8 문자 세트를 사용하여 저장할 수 없습니다. Emoji 표현(Emoji는 iOS 및 Android 휴대폰에서 일반적으로 사용되는 특수 유니코드 인코딩입니다.), 흔하지 않은 중국어 문자, 새로운 유니코드 문자 등을 포함합니다.

3. 문제의 원인

원래 UTF-8 형식은 1~6바이트를 사용하며 최대 31자를 인코딩할 수 있습니다. 최신 UTF-8 사양은 1~4바이트만 사용하고 최대 21비트까지 인코딩할 수 있습니다. 이는 17개의 유니코드 평면을 모두 표현하기에 충분합니다.

utf8은 유니코드의 기본 다중 텍스트 평면인 UTF-8 문자만 최대 3바이트까지 지원하는 MySQL의 문자 집합입니다.

Mysql의 utf8은 왜 최대 길이가 3바이트인 UTF-8 문자만 지원합니까?
생각해 보니 아마도 MySQL이 처음 개발되기 시작했을 때 유니코드에는 보조 평면이 없었기 때문이 아닐까 싶습니다. 당시 유니코드 위원회는 여전히 "전 세계적으로 65535자면 충분하다"는 꿈을 꾸고 있었습니다. MySQL의 문자열 길이는 바이트가 아닌 문자 수로 계산됩니다. CHAR 데이터 유형의 경우 문자열에 충분한 길이를 예약해야 합니다. utf8 문자 세트를 사용할 때 예약해야 하는 길이는 utf8의 가장 긴 문자 길이에 문자열 길이를 곱한 값이므로, 물론 utf8의 최대 길이는 3으로 제한됩니다. 예를 들어 CHAR(100) Mysql은 예약합니다. 300바이트. 후속 버전에서 4바이트 길이의 UTF-8 문자를 지원하지 않는 이유에 대해 하나는 이전 버전과의 호환성을 고려하기 위한 것이고, 다른 하나는 기본 다국어 평면 외부의 문자를 거의 사용하지 않기 때문이라고 생각합니다.

Mysql에서 4바이트 길이의 UTF-8 문자를 저장하려면 utf8mb4 문자셋을 사용해야 하는데, 버전 5.5.3 이후에만 지원됩니다. (버전 보기: 버전 선택();) . 더 나은 호환성을 얻으려면 항상 utf8 대신 utf8mb4를 사용해야 한다고 생각합니다. CHAR 유형 데이터의 경우 utf8mb4가 더 많은 공간을 소비합니다. Mysql 공식 권장 사항에 따르면 CHAR 대신 VARCHAR을 사용하십시오.


위 내용은 MySQL에서 utf8과 utf8mb4 인코딩의 차이점은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jouypub에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제