>  기사  >  웹 프론트엔드  >  GBK 및 UTF-8 인코딩의 올바른 사용에 대한 자세한 소개

GBK 및 UTF-8 인코딩의 올바른 사용에 대한 자세한 소개

黄舟
黄舟원래의
2017-07-26 13:28:092543검색

영어로 웹 페이지 인코딩으로 번역되는 웹 페이지 인코딩은 웹 페이지에서 특정 문자 인코딩 형식을 지정하는 라이브러리입니다.

GBK는 국가 표준 GB2312를 기반으로 한 표준이며 GB2312와 호환되도록 확장되었습니다. GBK의 텍스트 인코딩은 더블바이트로 표현됩니다. 즉, 한자와 영어 문자 모두 더블바이트로 표현됩니다. 한자를 구별하기 위해 최상위 비트가 1로 설정됩니다. GBK는 모든 중국어 문자를 포함하며 UTF8보다 다목적성이 떨어지지만 UTF8은 GBK보다 더 큰 데이터베이스를 차지합니다.

UTF-8: Unicode TransformationFormat-8bit, BOM은 허용되지만 일반적으로 BOM은 포함되지 않습니다. 국제 문자를 해결하는 데 사용되는 멀티바이트 인코딩입니다. 영어의 경우 8비트(즉, 1바이트)를 사용하고 중국어의 경우 24비트(3바이트)를 사용합니다. UTF-8은 전 세계 모든 국가에서 사용되는 문자를 포함하며 국제적인 인코딩이며 다양한 용도로 사용됩니다. UTF-8로 인코딩된 텍스트는 UTF8 문자 집합을 지원하는 다양한 국가의 브라우저에 표시될 수 있습니다. UTF8 인코딩이면 외국인의 영어 IE에서도 중국어가 표시될 수 있으므로 IE의 중국어 지원 패키지를 다운로드할 필요가 없습니다.

UTF-8 버전은 국제 호환성이 좋지만 중국어 버전은 GBK/BIG5 버전에 비해 데이터베이스 저장 공간이 50% 더 필요하므로 권장하지 않으며 국제 호환성을 위해 특별한 요구 사항이 있는 사용자만 사용할 수 있습니다. 간단히 말하면, 한자가 많은 웹사이트의 경우 GBK 인코딩을 사용하여 데이터베이스 공간을 절약하는 것이 적절합니다. 영어가 더 많은 웹사이트의 경우 데이터베이스 공간을 절약하기 위해 UTF-8을 사용하는 것이 적절합니다.

GBK, GB2312 등을 UTF8로 변환하는 방법은 무엇인가요? GBK, GB2312 등을 UTF8로 변환하려면 유니코드 인코딩을 사용해야 합니다. GBK, GB2312 - 유니코드 - UTF8 - 유니코드 - GBK, GB2312. Windows 메모장에서 "다른 이름으로 저장"을 사용하면 GBK, 유니코드, 유니코드 빅 엔디안 및 UTF-8 인코딩 방법 간에 변환할 수 있습니다.

브라우저가 웹 페이지 인코딩을 올바르게 식별하도록 하는 방법? 일반적으로 웹 페이지에는 라는 문장이 있어야 하며, 이는 이 웹 페이지의 문자 집합 인코딩을 나타냅니다. GB2312입니다. (또는 UTF-8)

페이지에서 인코딩을 지정하는 경우가 가끔 있습니다. 왜 가끔 왜곡되어 표시되나요? 이는 페이지 선언 인코딩이 파일 자체의 인코딩과 일치하지 않기 때문에 발생할 수 있습니다. 페이지가 잘못된 인코딩으로 열린 후 저장되거나 CuteFTP와 같은 일부 FTP 소프트웨어를 사용하여 온라인에서 직접 파일을 수정하는 경우가 많습니다. . 인코딩된 소프트웨어 인코딩 구성이 잘못되어 변환 오류가 발생합니다. 이때, 윈도우 메모장을 이용하여 열어서 "다른 이름으로 저장"을 이용하여 해당 인코딩으로 저장하시면 문제를 해결하실 수 있습니다. Windows 운영 체제에서 IE를 브라우저로 사용하면 다음 문제가 자주 발생합니다. UTF-8로 인코딩된 웹 페이지를 검색할 때 웹 페이지에서 인코딩 형식을 선언한 경우에도 브라우저가 페이지에서 사용하는 인코딩을 자동으로 식별할 수 없습니다. :, 이로 인해 중국어 UTF-8 인코딩이 포함된 일부 페이지가 빈 출력으로 생성됩니다. Firefox 또는 Sarafi 브라우저를 사용하는 경우에는 이 문제가 발생하지 않습니다. 이는 IE가 웹 페이지 인코딩을 구문 분석할 때 HTML의 태그에 우선 순위를 둔 다음 HTTP 헤더의 정보에 우선 순위를 두는 반면, Mozilla 브라우저 시리즈는 그 반대이기 때문입니다.

UTF-8은 3바이트를 사용하여 하나의 문자를 표현하는 반면 일반 GB2312 또는 BIG5는 2바이트를 사용하기 때문입니다. 페이지 출력 시 위와 같은 이유로 인해 브라우저가 http://tbwsy.sinaapp.com/의 내용을 파싱하여 출력할 때 전체- 앞의 너비 문자는 IE가 UTF-8을 2바이트로 구문 분석할 때 한자의 절반이 단어가 깨져서 IE가 < title> 부분을 읽을 수 없게 되어 페이지 전체를 비워서 출력하게 됩니다. 이때 소스 파일을 보면 실제로는 페이지 전체가 출력된 것을 알 수 있습니다. 브라우저에 내용이 표시되지 않습니다. 가장 간단한 해결책은 앞에 넣는 것입니다.

위 내용은 GBK 및 UTF-8 인코딩의 올바른 사용에 대한 자세한 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.