>  기사  >  웹 프론트엔드  >  초보자는 HTML의 언어 인코딩 문자 집합에 주의해야 합니다. (필독)

초보자는 HTML의 언어 인코딩 문자 집합에 주의해야 합니다. (필독)

云罗郡主
云罗郡主앞으로
2018-10-10 15:19:563615검색


이 글은 초보자들이 HTML의 언어 인코딩 문자셋에 주의를 기울여야 한다는 것입니다.(꼭 읽어야 할 내용입니다.) 도움이 필요한 친구들이 참고할 수 있기를 바랍니다.

초보자는 HTML의 언어 인코딩 문자 집합에 주의해야 합니다. (필독)

HTML 언어 인코딩의 중요성에 주목하세요

1. 코딩의 중요성

인코딩으로 인해 시청자가 IE를 사용할 때 웹 페이지가 깨질 수 있으며 p+css 호환성 해킹이 발생할 수도 있습니다.

2. 코딩 위치

일반적으로 이 웹페이지 인코딩은 html 웹페이지에서

3. HTML 코딩 스타일


charset=utf-8에서 utf-8을 변경하여 웹페이지의 인코딩을 변경할 수 있습니다.
일반적으로 CSS 파일을 작성할 때 CSS 파일 상단에 @charset "utf-8"을 사용하여 이 CSS 파일의 인코딩 유형을 정의해야 합니다. 일반적으로 HTML 소스 코드와 CSS 파일 인코딩은 통합되어야 합니다. 통합되지 않으면 CSS 해킹, 페이지 깨짐, 혼란스러운 페이지 레이아웃 등의 호환성 문제가 발생합니다.

4. 일반적으로 사용되는 HTML 인코딩 유형

중국에서 일반적으로 사용되는 두 가지 인기 있는 것은 utf-8과 gb2312입니다. 일반적으로 이 두 가지 유형은 국내 웹페이지 인코딩 요구 사항을 충족할 수 있습니다. 물론 이 두 가지 인코딩 유형은 웹 페이지를 처리하고 데이터 유형을 저장하기 위해 프로그램과 데이터베이스에서도 사용됩니다.

5. UTF-8의 특징은 다음과 같습니다.

  • UCS 문자 U+0000 ~ U+007F(ASCII)는 바이트 0x00 ~ 0x7F(ASCII 호환)로 인코딩됩니다. 이는 7비트 ASCII 문자만 포함하는 파일이 ASCII 및 UTF-8 인코딩 모두에서 동일하다는 것을 의미합니다.

  • U+007F를 초과하는 모든 UCS 문자는 각각 플래그 비트 세트가 있는 여러 바이트의 문자열로 인코딩됩니다. 따라서 ASCII 바이트(0x00-0x7F)는 다른 문자의 일부가 될 수 없습니다.

  • 비ASCII 문자를 나타내는 멀티바이트 문자열의 첫 번째 바이트는 항상 0xC0 ~ 0xFD 범위에 있으며 문자에 포함된 바이트 수를 나타냅니다. 멀티바이트 문자열의 나머지 바이트는 0x80 ~ 0xBF 범위에 있습니다. 쉽고 경계가 없는 인코딩을 만들고 누락된 바이트의 영향을 거의 받지 않습니다.

  • 가능한 모든 231 UCS 코드를 프로그래밍할 수 있습니다.

  • UTF-8로 인코딩된 문자의 길이는 이론적으로 최대 6바이트인 반면, 16비트 BMP 문자의 길이는 최대 3바이트입니다.

  • Bigendian UCS-4 바이트 문자열의 순서는 미리 결정됩니다.

  • 바이트 0xFE 및 0xFF는 UTF-8 인코딩에 사용되지 않습니다.

    6. GB2312는 다음과 같은 특징을 가지고 있습니다

  • GB2312 표준에는 1급 한자 3755자, 2급 한자 3008자를 포함하여 총 6763자가 포함됩니다. 동시에 GB2312에는 라틴 문자, 그리스 문자, 일본어 히라가나 및 가타카나 문자, 러시아어를 포함하여 682자가 포함됩니다. 키릴 문자.

    GB2312의 출현은 기본적으로 한자의 컴퓨터 처리 요구를 충족합니다. 여기에 포함된 한자는 사용 빈도의 99.75%를 차지합니다. GB2312에서는 수집된 한자가 "분할"되어 있으며 각 영역에는 94개의 한자/기호가 포함되어 있습니다. 이 표현을 위치 코드라고도 합니다.

    영역 01-09는 특수 기호입니다.

    영역 16-55는 병음별로 정렬된 1급 한자입니다.

    영역 56-87은 부수/획을 기준으로 정렬된 2급 한자입니다.

    영역 10-15 및 88-94는 코딩되지 않습니다.

    예를 들어, 문자 "ah"는 GB2312의 첫 번째 한자이고 해당 위치 코드는 1601입니다. GB2312를 사용하는 프로그램에서 바이트 구조는 일반적으로 ASCII와 호환되도록 EUC 저장 방법을 사용합니다. 각 중국어 문자와 기호는 2바이트로 표시됩니다. 첫 번째 바이트를 "상위 바이트"라고 하고 두 번째 바이트를 "낮은 바이트"라고 합니다. "상위 바이트"는 0xA1-0xF7(01-87 지역 코드에 0xA0 추가)을 사용하고, "하위 바이트"는 0xA1-0xFE(0xA0에 01-94 추가)를 사용합니다. 예를 들어, "Ah"라는 단어는 대부분의 프로그램에서 0xB0A1로 저장됩니다. (위치코드와 비교: 0xB0=0xA0+16, 0xA1=0xA0+1).

    따라서 GB2312 인코딩에서 한자 지역번호의 십진법은 176부터 247까지이고, 비트코드는 161부터 255까지이다. 저장된 6763이 82*94=6768보다 작은 이유는 지역번호가 176부터 247까지이기 때문이다. 215이고 비트코드는 250~254 사이에 한자코드를 제외하고 총 5개의 코드가 있으므로 6768-5=6763이다.

    GB2312 인코딩은 중국의 공통 언어로 쉽게 이해할 수 있습니다.

    7. 권장 문자셋 인코딩

    UTF-8은 쉽게 이해할 수 있습니다. 예를 들어 대만과 중국 본토에서는 이 인코딩을 사용합니다.

    8. 인코딩으로 인한 웹페이지 호환성 오류

    인코딩이 섞여 있으면 웹페이지가 깨져 보이는데, 이를 비호환성이라고도 합니다. 특히 CSS 주석에 인코딩이 섞여 있으면 CSS 해킹이 발생할 수 있습니다.

    위 내용은 초보자가 주의해야 할 HTML 언어 인코딩 문자 집합(필수)에 대한 전체 소개입니다. HTML 튜토리얼에 대해 더 알고 싶다면 PHP 중국어 웹사이트를 주목하세요.

위 내용은 초보자는 HTML의 언어 인코딩 문자 집합에 주의해야 합니다. (필독)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 divcss5.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제