>  기사  >  웹 프론트엔드  >  HTML 문자셋의 언어 인코딩에 대한 자세한 설명

HTML 문자셋의 언어 인코딩에 대한 자세한 설명

黄舟
黄舟원래의
2017-07-22 13:31:513068검색

HTML의 언어 인코딩의 중요성에 주목

  • Directory


  1. 문자 세트 인코딩의 중요성

  2. 어디 HTML의 문자 집합

  3. charset 태그

  4. 인코딩 유형

  5. charset utf-8 소개

  6. charset GB2312 소개

  7. 추천 웹페이지 인코딩

  8. 인코딩으로 인해

1. 코딩 - TOP

인코딩은 시청자가 IE를 사용할 때 웹 페이지가 깨질 수 있으며 p+css 호환성 해킹으로 이어질 수도 있습니다.

2. 인코딩 위치 - TOP

3. HTML 인코딩 스타일 - TOP

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />


charset=utf-8에서 utf-8을 변경하여 웹페이지의 인코딩을 변경할 수 있습니다.
일반적으로 CSS 파일을 작성할 때 CSS 파일 상단에 @charset "utf-8"을 사용하여 이 CSS 파일의 인코딩 유형을 정의해야 합니다. 일반적으로 HTML 소스 코드와 CSS 파일 인코딩은 통합되어야 합니다. 통합되지 않으면 CSS 해킹, 페이지 깨짐, 혼란스러운 페이지 레이아웃 등의 호환성 문제가 발생합니다.

4. 일반적으로 사용되는 HTML 인코딩 유형 - TOP

중국에서 일반적으로 사용되는 두 가지 인기 있는 인코딩 유형은 utf-8과 gb2312입니다. 일반적으로 이 두 가지 유형은 국내 웹페이지 인코딩 요구를 충족할 수 있습니다. 물론 이 두 가지 인코딩 유형은 웹 페이지를 처리하고 데이터 유형을 저장하기 위해 프로그램과 데이터베이스에서도 사용됩니다.

5. UTF-8의 특징은 다음과 같습니다. - TOP

  1. UCS 문자 U+0000~U+007F(ASCII)는 0x00~0x7F(ASCII 호환) 바이트로 인코딩됩니다. ASCII 문자는 ASCII와 UTF-8 인코딩 방식 모두 동일합니다.

  2. 모든 UCS 문자 > U+007F는 멀티바이트 문자열로 인코딩되며 각 바이트에는 플래그 비트가 설정됩니다. 0x7F)는 다른 문자의 일부일 수 없습니다.

  3. 비ASCII 문자를 나타내는 멀티바이트 문자열의 첫 번째 바이트는 항상 0xC0 ~ 0xFD 범위에 있으며 이 문자에 포함된 바이트 수를 나타냅니다. 멀티바이트 문자열의 범위는 0x80 ~ 0xBF입니다. 이렇게 하면 재동기화가 매우 쉬워지고 인코딩이 경계 없이 이루어지며 바이트 누락으로 인한 영향이 줄어듭니다.

  4. 가능한 모든 231 UCS 코드를 인코딩할 수 있습니다.

  5. UTF-8 인코딩 문자는 이론적으로 최대 6바이트이지만 16비트 BMP 문자는 최대 3바이트까지만 가능합니다.

  6. Bigendian UCS-4 바이트 문자열의 배열 순서는 미리 결정됩니다.

  7. 바이트 0xFE 및 0xFF는 절대 아닙니다.

6. GB2312에는 다음과 같은 특징이 있습니다. - TOP

GB2312 표준에는 1급 한자 3755자, 2급 한자 3008자를 포함하여 총 6763자가 포함되어 있습니다. 동시에 GB2312에는 라틴 문자, 그리스 문자, 일본어 히라가나 및 가타카나 문자, 러시아어 키릴 문자 682자가 포함됩니다.

GB2312의 출현은 기본적으로 한자의 컴퓨터 처리 요구를 충족합니다. 여기에 포함된 한자는 사용 빈도의 99.75%를 차지합니다. GB2312에서는 수집된 한자가 "분할"되어 있으며 각 영역에는 94개의 한자/기호가 포함되어 있습니다. 이 표현을 위치 코드라고도 합니다.

01-09 영역은 특수 기호입니다.

영역 16-55는 병음별로 정렬된 1급 한자입니다.

56-87 영역은 부수/획으로 정렬된 2급 한자입니다.

10-15지구와 88-94지구는 코드화되어 있지 않습니다.

예를 들어 "ah"라는 문자는 GB2312의 첫 번째 한자이고 해당 위치 코드는 1601입니다. GB2312를 사용하는 프로그램에서 바이트 구조는 일반적으로 EUC 저장 방식을 사용하므로 ASCII와 호환됩니다. 각 중국어 문자와 기호는 2바이트로 표시됩니다. 첫 번째 바이트를 "상위 바이트"라고 하고 두 번째 바이트를 "낮은 바이트"라고 합니다. "상위 바이트"는 0xA1-0xF7(01-87 지역 코드에 0xA0 추가)을 사용하고, "하위 바이트"는 0xA1-0xFE(0xA0에 01-94 추가)를 사용합니다. 예를 들어 "ah"라는 단어는 대부분의 프로그램에서 0xB0A1로 저장됩니다. (위치코드와 비교: 0xB0=0xA0+16, 0xA1=0xA0+1).

그러니까 GB2312 인코딩에서 한자 지역번호의 십진수 체계는 176부터 247까지이고, 비트코드는 161부터 255까지입니다. 지역번호가 215이기 때문에 6763이 저장되는 이유는 82*94=6768보다 작습니다. 비트 코드는 250입니다. 254와 한자 코드가 없는 사이에는 5개의 코드가 있으므로 6768-5=6763입니다.

GB2312 인코딩은 중국의 공통 언어로 쉽게 이해할 수 있습니다.

7. 권장 문자 세트 인코딩 - TOP

UTF-8은 대만 및 중국 본토와 같은 중국어 간체 및 번체에서 쉽게 이해할 수 있습니다.

8. 인코딩으로 인한 웹페이지 호환성 오류: - TOP

인코딩이 혼합되면 웹페이지가 깨질 수 있는데, 이는 특히 CSS 주석에 인코딩이 혼합되어 있는 경우 발생합니다. CSS 해킹.

앞으로 웹페이지 제작시 웹페이지 인코딩 선언을 잊지 않으셨으면 좋겠습니다.

이 페이지를 본 사용자는 다음 내용도 보았습니다.
1. UTF-8 GBK UTF8 GB2312의 차이점과 관계
2. html 인코딩 설정 방법
3.

위 내용은 HTML 문자셋의 언어 인코딩에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.