유니코드와 utf8 인코딩 다시 이해
오늘까지만 해도 엄밀히 말하면 UTF-8 인코딩과 유니코드 인코딩이 다른지 몰랐는데 차이가 있네요 囧
그들 사이에는 어떤 연관성이 있습니다. 차이점을 살펴보세요.
UTF-8의 길이는 확실하지 않으며 1, 2, 3바이트일 수 있습니다.
유니코드의 길이는 2바이트(USC-2)입니다.
UTF-8은 유니코드 간 변환이 가능합니다
유니코드와 utf8의 관계
유니코드(16)
UTF-8(바이너리)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
위 표에는 두 가지 의미가 있습니다. 첫 번째는 분명히 유니코드와 UTF-8 문자 범위 간의 대응이고, 다른 하나는 유니코드와 UTF-8이 어떻게 서로 변환되는지 보여줍니다.
먼저 UTF-8에서 유니코드로의 변환에 대해 이야기해 보겠습니다
UTF-8로 인코딩된 바이너리는 위의 세 가지 형식과 일치한 후 고정 비트(테이블에서 x가 아닌 위치)가 제거된 다음 8비트마다 오른쪽에서 왼쪽으로 그룹화됩니다. 8비트가 충분하지 않으면 왼쪽은 사용되지 않습니다. 이 16비트는 UTF-8에 해당하는 유니코드 인코딩을 나타냅니다.
위 그림의 텍스트 인코딩 형식은 UTF-8이며, WinHex를 사용하여 16진수 표현을 확인할 수 있습니다
문자 => UTF-8 => UTF-8 바이너리 => 16비트 바이너리를 구성하기 위해 고정 위치 제거
중국어 => E6B189 => 11100110 10110001 10001001 => 01101100 01001001
워드 => E5AD97 => 11100101 10101101 10010111 => 01011011 01010111 => 5B57
#다음은 크롬 명령줄에서 실행한 결과입니다
'u6C49'
"汉"
'u5B57'
"단어"
#이 시점에서 UTF-8을 유니코드로 변환하는 것은 이미 매우 쉬운 작업입니다. 변환의 의사코드를 살펴보세요
1바이트 읽기, 11100110
세 번째 유형인 3바이트에 속하는 UTF-8 문자의 형식을 결정합니다.
11100101 10101101 10010111을 얻으려면 2바이트를 계속 읽으세요
1011011 01010111
형식에 따라 고정 비트를 제거합니다.
16자리가 부족합니다. 왼쪽에 0을 추가하세요. 01011011 01010111 => 5B57
유니코드에서 UTF-8로의 변환을 다시 살펴보세요
5B57
5B57이 위치한 유니코드 범위인 0800 형식의 3바이트가 있는 것으로 알려져 있습니다. 5B57 101101101010111의 바이너리 인코딩을 가져옵니다
이전 단계의 바이너리 인코딩을 사용하여 UTF-8 인코딩을 오른쪽에서 왼쪽으로 연결합니다. 11100101 10101101 10010111
문제에 대해 이야기하기
오늘 문제의 원인에 대해 이야기해 보겠습니다. UTF-8 형식의 각 단어는 최대 30바이트이므로 JavaScript를 사용하는 프런트 엔드에서 각각 확인이 이루어집니다. 유니코드 인코딩과 백엔드 프로그램인 UTF-8 인코딩을 사용하고 있으며, 현재 해결방법은 다음과 같습니다
프런트엔드
function utf8_bytes(str) { var len = 0, unicode; for(var i = 0; i < str.length; i++) { unicode = str.charCodeAt(i); if(unicode < 0x0080) { ++len; } else if(unicode < 0x0800) { len += 2; } else if(unicode <= 0xFFFF) { len += 3; }else { throw "characters must be USC-2!!" } } return len; } #例子 utf8_bytes('asdasdas') 8 utf8_bytes('yrt燕睿涛') 12
백스테이지
#对于GBK字符串 $len = ceil(strlen(bin2hex(iconv('GBK', 'UTF-8', $word)))/2); #对于UTF8字符串 $len = ceil(strlen(bin2hex($word))/2);
위 내용은 이 글의 전체 내용입니다. 모두 마음에 드셨으면 좋겠습니다.

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

实现方法:1、使用“sleep(延迟秒数)”语句,可延迟执行函数若干秒;2、使用“time_nanosleep(延迟秒数,延迟纳秒数)”语句,可延迟执行函数若干秒和纳秒;3、使用“time_sleep_until(time()+7)”语句。

php字符串有下标。在PHP中,下标不仅可以应用于数组和对象,还可应用于字符串,利用字符串的下标和中括号“[]”可以访问指定索引位置的字符,并对该字符进行读写,语法“字符串名[下标值]”;字符串的下标值(索引值)只能是整数类型,起始值为0。

php除以100保留两位小数的方法:1、利用“/”运算符进行除法运算,语法“数值 / 100”;2、使用“number_format(除法结果, 2)”或“sprintf("%.2f",除法结果)”语句进行四舍五入的处理值,并保留两位小数。

在php中,可以使用substr()函数来读取字符串后几个字符,只需要将该函数的第二个参数设置为负值,第三个参数省略即可;语法为“substr(字符串,-n)”,表示读取从字符串结尾处向前数第n个字符开始,直到字符串结尾的全部字符。

判断方法:1、使用“strtotime("年-月-日")”语句将给定的年月日转换为时间戳格式;2、用“date("z",时间戳)+1”语句计算指定时间戳是一年的第几天。date()返回的天数是从0开始计算的,因此真实天数需要在此基础上加1。

查找方法:1、用strpos(),语法“strpos("字符串值","查找子串")+1”;2、用stripos(),语法“strpos("字符串值","查找子串")+1”。因为字符串是从0开始计数的,因此两个函数获取的位置需要进行加1处理。

方法:1、用“str_replace(" ","其他字符",$str)”语句,可将nbsp符替换为其他字符;2、用“preg_replace("/(\s|\ \;||\xc2\xa0)/","其他字符",$str)”语句。


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

뜨거운 주제



