>웹 프론트엔드 >HTML 튜토리얼 >HTML의 언어 인코딩은 무엇입니까?

HTML의 언어 인코딩은 무엇입니까?

php中世界最好的语言
php中世界最好的语言원래의
2017-11-23 16:10:324089검색

HTML에서 인코딩은 뷰어가 IE를 통과할 때 웹페이지가 깨질 수 있고 div+css의 호환성 해킹으로 이어질 수도 있습니다. 인코딩은 일반적으로 <head>에 위치합니다. ; 및 중간. 오늘은 코딩에 관한 몇 가지 지식을 소개하겠습니다.

일반적으로 이 웹페이지 인코딩은 html 웹페이지에서 와 사이에 배치됩니다.

html 인코딩 스타일

charset=utf-8에서 utf-8을 변경하면 다음을 수행할 수 있습니다. 웹 페이지의 인코딩을 변경합니다.

일반적으로 CSS 파일을 작성할 때 CSS 파일 상단에 @charset "utf-8"을 사용하여 이 CSS 파일의 인코딩 유형을 정의해야 합니다. 일반적으로 HTML 소스 코드와 CSS 파일 인코딩은 통합되어야 합니다. 통합되지 않으면 CSS 해킹, 페이지 깨짐, 혼란스러운 페이지 레이아웃 등의 호환성 문제가 발생합니다.

일반적으로 사용되는 HTML 인코딩 유형

중국에서 일반적으로 사용되는 인기 있는 인코딩 유형은 utf-8 및 gb2312입니다. 일반적으로 이 두 가지 유형은 국내 웹페이지 인코딩 요구를 충족할 수 있습니다. 물론 이 두 가지 인코딩 유형은 웹 페이지를 처리하고 데이터 유형을 저장하기 위해 프로그램과 데이터베이스에서도 사용됩니다.

UTF-8에는 다음 기능이 있습니다.

UCS 문자 U+0000 ~ U+007F(ASCII)는 0x00 ~ 0x7F(ASCII 호환) 바이트로 인코딩됩니다. 이는 7비트 ASCII 문자만 포함하는 파일이 ASCII로 인코딩된다는 의미입니다. UTF -8은 두 인코딩 방법 모두 동일합니다.

모든 UCS 문자 > U+007F는 멀티바이트 문자열로 인코딩되므로 각 바이트에는 플래그 비트가 설정되어 있습니다. 따라서 ASCII 바이트(0x00 -0x7F)는 포함될 수 없습니다.

ASCII가 아닌 문자를 나타내는 멀티바이트 문자열의 첫 번째 바이트는 항상 0xC0 ~ 0xFD 범위에 있으며 문자에 포함된 바이트 수를 나타냅니다. 바이트 문자열의 나머지 바이트는 다음과 같습니다. 범위는 0x80에서 0xBF입니다. 이렇게 하면 재동기화가 매우 쉬워지고 인코딩이 경계 없이 이루어지며 바이트 누락의 영향을 거의 받지 않습니다.

가능한 모든 231 UCS 코드를 인코딩할 수 있습니다.

UTF-8 인코딩 문자는 이론적으로 최대 6바이트일 수 있지만 16바이트입니다. -bit BMP 문자 길이는 최대 3바이트까지만 가능합니다.

Bigendian UCS-4 바이트 문자열의 배열 순서는 미리 결정됩니다.

바이트 0xFE 및 0xFF는 UTF-8 인코딩에서 절대 사용되지 않습니다.

GB2312는 다음과 같은 특징을 가지고 있습니다.

GB2312 표준에는 1급 한자 3755자와 2급 한자 3008자를 포함하여 총 6763자가 포함되어 있습니다. GB2312에는 라틴 문자, 그리스 문자, 일본어 히라가나 및 가타카나를 포함한 682개의 전자 문자가 포함되어 있습니다. 문자 및 러시아 키릴 문자.

GB2312의 출현은 기본적으로 한자의 컴퓨터 처리 요구를 충족합니다. 여기에 포함된 한자는 사용 빈도의 99.75%를 차지합니다. GB2312에서는 수집된 한자가 "분할"되어 있으며 각 영역에는 94개의 한자/기호가 포함되어 있습니다. 이 표현을 위치 코드라고도 합니다.

01-09 영역은 특수 기호입니다.

영역 16-55는 병음별로 정렬된 1급 한자입니다.

56-87 영역은 부수/획으로 정렬된 2급 한자입니다.

10-15지구와 88-94지구는 코드화되어 있지 않습니다.

예를 들어 "ah"라는 문자는 GB2312의 첫 번째 한자이고 해당 위치 코드는 1601입니다. GB2312를 사용하는 프로그램에서 바이트 구조는 일반적으로 ASCII와 호환되도록 EUC 저장 방법을 사용합니다. 각 중국어 문자와 기호는 2바이트로 표시됩니다. 첫 번째 바이트를 "상위 바이트"라고 하고 두 번째 바이트를 "낮은 바이트"라고 합니다. "상위 바이트"는 0xA1-0xF7(01-87 지역 코드에 0xA0 추가)을 사용하고, "하위 바이트"는 0xA1-0xFE(0xA0에 01-94 추가)를 사용합니다. 예를 들어, "Ah"라는 단어는 대부분의 프로그램에서 0xB0A1로 저장됩니다. (위치코드와 비교: 0xB0=0xA0+16, 0xA1=0xA0+1).

그러니까 GB2312 인코딩에서 한자 지역번호의 십진수 체계는 176부터 247까지이고, 비트코드는 161부터 255까지입니다. 지역번호가 215이기 때문에 6763이 저장되는 이유는 82*94=6768보다 작습니다. 비트 코드는 250입니다. 254와 한자 코드가 없는 사이에는 5개의 코드가 있으므로 6768-5=6763입니다.

GB2312 인코딩은 중국의 공통 언어로 쉽게 이해할 수 있습니다.

권장 문자 집합 인코딩

UTF-8은 대만 및 중국 본토와 같은 중국어 간체 및 번체에서 이 인코딩을 사용할 수 있습니다.

인코딩으로 인한 웹페이지 호환성 오류

인코딩이 혼합되면 웹페이지가 깨져버리는 현상을 비호환성이라고도 합니다. 특히 CSSannotations에서 인코딩이 혼합되면 CSS 해킹으로 이어질 수 있습니다.

앞으로 웹페이지 제작시 웹페이지 인코딩 선언을 잊지 않으셨으면 좋겠습니다.

위 내용은 HTML 언어 인코딩에 대한 지식입니다. 더 흥미로운 정보를 보려면 PHP 중국어 웹사이트기타관련 기사를 주목하세요!

관련 콘텐츠:

DIV에 설정할 CSS 속성 스타일을 어떻게 알 수 있나요?

DIV에서 CSS 스타일을 설정해야 하는 이유는 무엇입니까?

html

태그 사용 방법

위 내용은 HTML의 언어 인코딩은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.