>백엔드 개발 >PHP 튜토리얼 >PHP의 문자열, 인코딩, UTF-8

PHP의 문자열, 인코딩, UTF-8

大家讲道理
大家讲道理원래의
2017-01-23 14:58:071744검색

문자열 정의 및 사용

PHP에서 문자열을 설정하는 방법에는 네 가지가 있습니다.

작은따옴표 문자열

작은따옴표로 묶인 문자열은 Python의 원래 문자열과 유사합니다. 즉, 작은따옴표로 묶인 문자열에는 변수 구문 분석 기능과 특수 문자 이스케이프 기능이 없습니다. 예를 들어, $str='hellonworld', n에는 개행 기능이 없습니다.

큰따옴표 문자열

큰따옴표 문자열에는 작은따옴표 문자열에는 없는 변수 구문 분석 기능과 특수 문자 이스케이프 기능이 있습니다.

16진수 및 8진수 문자열의 특수 이스케이프에 관심이 많습니다. 특별 추가:

\[0-7]{1,3} #八进制表达方式
\x[0-9A-Fa-f]{1,2} #十六进制表达方式

heredoc

이 표현식은 다음과 유사합니다. Python의 긴 문자열이며 여러 줄을 포함하는 문자열을 정의할 수 있습니다. 문법적 정의가 매우 엄격하므로 사용 시 주의가 필요합니다.

$str=<<<EOD
hello\n
world
EOD;

Nowdoc

Nowdoc는 작은따옴표 문자열과 유사하며 변수를 구문 분석하지 않습니다. 특수 문자를 이스케이프하지 않고 큰 텍스트 섹션을 정의하는 데 더 적합합니다.

변수 구문 분석

PHP 문자열의 가장 강력한 부분은 변수 구문 분석입니다. 변수는 런타임 시 컨텍스트에 따라 구문 분석될 수 있습니다(이것은 해석된 언어입니다). 훌륭한 용도.

간단한 변수 구문 분석은 문자열에 "변수", "배열" 및 "객체 속성"이 포함될 수 있음을 의미합니다. 복잡한 구문 규칙은 {} 기호를 사용하여 연산을 수행하는 것입니다.

문자열 유형 강제

class beers {
    const softdrink = &#39;softdrink&#39;;
    public static $ale = &#39;ale&#39;;
    public $data = array(1,3,"k"=>4);
}
 $softdrink = "softdrink";
$ale = "ale";
$arr = array("arr1","arr2","arr3"=>"arr4","arr4"=>array(1,2));
$arr4 = "arr4";
$obj = new beers;
echo "line1:{$arr[1]}\n";
echo "line2:{$arr[&#39;arr4&#39;][0]}\n";
echo "line3:{$obj->data[1]}\n";
echo "line4:{${$arr[&#39;arr3&#39;]}}\n";
echo "line5:{${$arr[&#39;arr3&#39;]}[1]}\n";
echo "line6:{${beers::softdrink}}\n";
echo "line7:{${beers::$ale}}\n";

strval() 함수는 변수의 문자열 값을 가져오는 것입니다.

$var = 10 ;
$dvar = (string)$var ;
echo $dvar . "_" . gettype($dvar);

settype() 함수는 다음과 같습니다. 변수 유형을 설정하려면:

$var = 10.2 ;
$dvar = strval($var) ;
echo gettype($var) . "_" . $dvar . "_" . gettype($dvar);

강제 유형 변환 프로세스 중에 다른 유형의 값을 문자열로 변환할 때 특정 규칙을 따릅니다. 예를 들어 TRUE의 부울 값은 문자열 "1". 관련 규칙을 이해하는 것이 가장 좋습니다.

자동 유형 변환

위 두 가지 변환은 표시 변환이며, 더 주의해야 할 것은 문자열이 필요한 표현식에서 자동 유형 변환입니다. , 자동으로 유형으로 변환됩니다. 자세한 내용은 다음 예를 참조하세요.

$str = "10hello";
settype($str, "integer");
echo $str ;

PHP 문자열의 본질

PHP 문서 설명 인용:

PHP에서 문자열 구현은 버퍼 길이를 지정하는 정수와 바이트 배열입니다. 바이트를 문자로 변환하는 방법에 대한 정보는 없으며 결정하는 것은 프로그래머의 몫입니다. 문자열의 어느 위치에나 나타날 수 있는 값이 0인 바이트를 포함하여 문자열이 구성되는 값에는 제한이 없습니다.

PHP는 문자열 인코딩을 지정하지 않습니다. 문자열 인코딩 방법은 프로그래머에 따라 다릅니다. 문자열은 PHP 파일의 인코딩에 따라 인코딩됩니다. 예를 들어 파일 인코딩이 GBK인 경우 코드 콘텐츠는 GBK가 됩니다.

바이너리 안전 개념을 보완하기 위해 0(NULL) 값을 가진 바이트는 문자열의 어느 위치에나 있을 수 있으며, PHP의 일부 비바이너리 함수는 C 함수라고 합니다. 문자가 무시된 후 NULL을 입력합니다.

PHP의 파일 인코딩이 ASCII와 호환된다면 문자열 연산도 잘 처리할 수 있습니다. 그러나 문자열 작업은 본질적으로 여전히 네이티브이므로(파일 인코딩이 무엇이든) 사용할 때 주의가 필요합니다.

일부 함수는 문자열이 단일 인코딩으로 인코딩된다고 가정합니다. byte 이지만 바이트를 특정 문자로 해석할 필요는 없습니다. 예를 들어, sbustr() 함수입니다.

많은 함수는 인코딩 매개변수를 명시적으로 전달해야 합니다. 그렇지 않으면 htmlentities() 함수와 같은 PHP.INI 파일에서 기본값을 가져옵니다.

  • 로컬 영역과 관련된 기능도 일부 있는데, 이러한 기능은 단일 바이트에서만 작동할 수 있습니다.

  • 일반적인 상황에서는 PHP가 내부적으로 유니코드 문자를 지원하지 않지만 UTF-8 인코딩을 지원하는 경우가 대부분이지만, 다음과 같은 경우에는 지원되지 않을 수 있습니다. 처리되는 내용은 다음과 같습니다.

  • UTF-8로 인코딩되지 않은 문자열을 변환하는 방법

UTF-8로 인코딩된 웹 페이지이지만 사용자는 양식을 제출하는 중입니다. 때때로 GBK 인코딩이 사용될 수 있습니다(메타 태그를 준수하지 않음)

  • strlen("China")을 사용하면 UTF-8로 인코딩된 PHP 파일은 대신 6을 반환합니다. 실제 문자 숫자(2)

  •  이 문제를 어떻게 해결해야 할까요? PHP는 mbstring 확장을 제공합니다!

    멀티바이트 문자열

    mbstring 확장은 기본적으로 활성화되어 있지 않습니다. 설치 시 --enable-mbstring이 필요합니다.

    먼저 PHP.INI의 mbstring 지시문 구성을 살펴보겠습니다. 점차 이해하는 데 오랜 시간이 걸렸습니다.

    • 이 매개변수 mbstring.언어는 UTF-8로 이해됩니다.

    • mbstring.internal_encoding 이 인코딩은 PHP 파일 인코딩과 관련이 없습니다. 대부분의 mbstring 함수에서는 처리할 문자열의 인코딩을 지정해야 합니다. 명시적으로 지정하지 않으면 이 매개변수의 값은 기본적으로 상위 버전에서 default_charset 매개변수로 대체됩니다. PHP의.

    • mbstring.http_input 이 매개변수는 HTTP 입력의 기본 인코딩을 지정합니다(GET 매개변수 제외). 일반적으로 HTML 페이지의 인코딩과 일치하며 이 매개변수의 값은 default_charset 매개변수로 대체됩니다.

    • mbstring.http_output 이 매개변수가 나를 오해하게 했습니다. HTTP 출력이 무엇인가요? PHP 출력이 단순한 페이지가 아니겠습니까?

    • mbstring.encoding_translation. 이 매개변수는 기본적으로 꺼져 있습니다. 켜져 있으면 PHP는 자동으로 POST 변수와 업로드된 파일 이름을 변환합니다. mbstring.internal_encoding. 에 지정된 값이지만 테스트하지는 않았습니다. 중국어 이름으로 파일을 업로드할 수 있습니다. 이를 닫고 프로그래머가 관련 문제를 처리하도록 하는 것이 좋습니다.

    나중에 mbstring으로 확장된 일부 기능을 살펴보겠습니다.

    • mb_http_input(): HTTP 입력 문자 인코딩을 감지하고 그것이 파일이라고 생각합니다. 파일 업로드를 위한 이름입니다.

    • mb_convert_encoding(): 일반적으로 사용되는 함수, 세 번째 매개변수에 주목하세요.

    • mb_Detect_order(): 문자 인코딩 감지 순서를 설정/가져옵니다.

    • mb_list_encodings(): 시스템에서 지원하는 인코딩 목록을 반환합니다.

    중요 참고 사항: PHP 파일은 특정 인코딩을 지원해야 하며 ASCII와 호환되어야 합니다.

    하지만 BIG-5를 PHP 파일 인코딩으로 사용하지 마십시오. 특히 문자열이 식별자나 리터럴 형식으로 나타나는 경우에는 PHP 파일 인코딩이 실제로 BIG-5인 경우 입력을 변환해 보세요. 콘텐츠를 UTF-8로 출력합니다.

    Zend Multibyte

    마지막으로 Zend Multibyte의 개념에 대해 이야기해보겠습니다. 우선 mbstring 확장자와 혼동하지 마세요. Zend 멀티바이트 모드는 기본적으로 꺼져 있으며 zend.multibyte 명령을 통해 켤 수 있습니다. 그런 다음 선언() 함수를 통해 PHP 파서의 인코딩을 지정하십시오.

    그러면 이 명령의 의미는 무엇입니까? 위에서 언급했듯이 PHP 파일의 인코딩은 ASCII와 호환되어야 하는데 BIG-5와 같이 호환되지 않는 ASCII 인코딩은 어떻게 해야 할까요? PHP 파서가 mbstring.script_encoding 인코딩을 읽고 이를 사용하면 이 명령을 통해 작동할 수 있습니다. PHP 파일을 구문 분석하기 위한 인코딩.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.