>백엔드 개발 >PHP 튜토리얼 >PHP 및 UTF-8 모범 사례

PHP 및 UTF-8 모범 사례

大家讲道理
大家讲道理원래의
2017-01-23 15:08:191273검색
이 글은 "PHP, 문자열, 인코딩, UTF-8" 관련 지식 2부입니다. 결론 먼저 - PHP의 모든 측면에서 UTF-8 인코딩을 사용하세요.

PHP 언어 수준에서는 유니코드 문자 집합을 지원하지 않지만 대부분의 문제는 UTF-8 인코딩을 통해 해결할 수 있습니다.

가장 좋은 방법은 입력 인코딩을 명확하게 알고(모르는 경우 감지) 내부적으로 UTF-8 인코딩으로 균일하게 변환하고, 출력 인코딩도 균일하게 UTF-8 인코딩하는 것입니다.

 PHP 레벨에서 UTF-8을 처리하는 방법

유니코드 문자셋을 운영할 때 반드시 mbstring 확장자를 설치하고 네이티브 문자열 함수 대신 해당 함수를 사용해 주시기 바랍니다. 예를 들어 UTF-8 PHP 코드로 인코딩된 파일이 있는데 strlen() 함수를 사용하는 것이 잘못된 경우에는 mb_strlen() 함수를 대신 사용하세요.

mbstring 확장의 대부분의 기능은 인코딩(내부 인코딩)을 기반으로 처리되어야 합니다. UTF-8 인코딩을 균일하게 사용하십시오. 이 중 대부분은 PHP.INI에서 구성할 수 있습니다.

PHP 5.6부터 default_charset 구성은 mbstring.http_input, mbstring.http_output을 대체할 수 있습니다.

또 다른 중요한 구성은 mbstring.언어입니다. 기본값은 Neutral(UTF-8)입니다.

파일 인코딩과 mbstring 확장자의 내부 인코딩은 동일한 개념이 아닙니다.

요약:

  • mbstring 확장과 관련된 PHP.INI 부분에는 UTF-8을 최대한 많이 사용하세요.

  • 기본 문자열 연산 기능 대신 mbstring 확장 기능을 사용해 주세요.

  • 관련 함수 사용 시에는 반드시 운용하는 문자의 인코딩을 이해하시기 바랍니다. 해당 함수 사용 시에는 htmlentities 등 UTF-8 인코딩 매개변수를 표시합니다. 세 번째 매개변수 () 함수는 UTF-8로 작성되었습니다.

파일 IO 작업에서 UTF-8을 처리하는 방법

다음은 파일을 열고 싶지만 파일 내용이 어떤 인코딩인지 모르는 경우의 예입니다. 처리는 어떻게 해야 하나요?

열 때 UTF-8로 균일하게 변환한 후 내용을 수정한 후 다시 원래 인코딩으로 변환하여 파일에 저장하는 것이 가장 좋습니다. 코드를 살펴보세요.

if ( mb_internal_encoding()!="UTF-8") {
        mb_internal_encoding("UTF-8");
}
 
$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来源是什么编码,统一显示的时候转换为 UTF-8
 if (mb_check_encoding($str,"GBK"))
    $str =  mb_convert_encoding($str,"UTF-8",“GBK”);
 
$str ="修改内容";
$str =  mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);

Mysql 및 UTF-8 모범 사례

이는 비교적 간단합니다. 먼저 Mysql이 UTF-8인지 확인하세요. 그런 다음 Mysql 클라이언트는 연결 시 UTF-8도 유지합니다. 특히 PHP에서 imysql 또는 PDO 확장이 Mysql에 연결되면 UTF-8이 연결 인코딩으로 설정됩니다. 양쪽이 일치하면 일반적으로 문제가 발생하지 않습니다.

브라우저 및 UTF-8에 대한 모범 사례

이는 비교적 간단합니다. 즉, 출력 콘텐츠가 웹 페이지인 경우 문자열 처리 출력은 항상 UTF-로 유지되어야 합니다. 8; 동시에 PHP.INI에서는 default_charset도 UTF-8로 명확하게 설정되어 있습니다. HTML의 메타 태그도 UTF-8로 명확하게 표시되어 있습니다.

이제 괜찮나요? 아니요, 서버와 브라우저에서 사용자가 UTF-8 인코딩을 사용할 수 있도록 허용하더라도 사용자의 행동은 구속력이 없습니다. 다른 인코딩으로 문자를 입력하거나 파일을 업로드할 수도 있습니다. 다른 인코딩으로 설정했는데 어떻게 해야 하나요? 사용자의 인코딩은 mb_http_input() 및 mb_check_encoding() 함수를 통해 감지한 다음 내부적으로 UTF-8로 변환할 수 있습니다. 모든 수준에서 최종 처리가 UTF-8 인코딩인지 확인하세요. 즉, 입력이 어떤 인코딩인지 알 수 있는 방법이 필요하며, 처리 후 제어 출력의 인코딩은 UTF-8입니다.

mbstring.encoding_translation 지시어와 mb_Detect_encoding() 함수를 사용하는 것은 더 이상 사용되지 않습니다. 반나절 동안 나를 고문했습니다.

운영 체제 및 UTF-8에 대한 모범 사례

운영 체제로 인해 PHP는 유니코드 파일 이름을 처리할 때 처리 메커니즘이 다릅니다.

Linux에서는 파일 이름이 항상 UTF-8로 인코딩되지만, 중국어 Windows 환경에서는 파일 이름이 항상 GBK로 인코딩됩니다.

예를 들어 설명하겠습니다:

//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8
 function filenameexample() {
    $filename = "测试.txt" ;
    $gbk_filename = iconv("UTF-8","GBK",$filename);
    file_put_contents($gbk_filename, "测试");
    echo file_get_contents($gbk_filename);
}
 function scandirexample() {
    $arr = scandir("./tmp");
    foreach ($arr as $v) {
        if ($v == "." || $v =="..")
            continue ;
        $filename = iconv( "GBK","UTF-8",$v ) ;
        $content = file_get_contents("./tmp/" . $v );
    }
}

Windows 및 Linux와 호환되는 프로그램을 작성하지 않으려면 다음과 같이 파일 이름을 urlencode할 수 있습니다.

function urlencodeexample() {
   $filename = "测试2.txt" ;
   $urlencodefilename = urlencode($filename) ;
   file_put_contents($urlencodefilename, "测试");
   echo file_get_contents($urlencodefilename);
}

PHP 사용 header() 함수가 파일을 다운로드할 때 브라우저와 운영 체제도 고려해야 합니다(대부분의 사람들은 Windows를 사용합니다). Chrome의 경우 출력 파일 이름 인코딩이 UTF-8일 수 있으며 Chrome이 자동으로 변환합니다. GBK로 인코딩된 파일 이름입니다.

IE 하위 버전의 경우 운영 체제 환경을 상속하므로 다운로드한 파일 이름이 중국어인 경우 UTF-8 인코딩으로 변환해야 하며, 그렇지 않으면 다운로드 시 파일 이름이 깨져서 표시됩니다. . 코드를 통해 설명하세요:

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false  {
    $filename = iconv("UTF-8","GBK","附件.txt");
    header("Content-Disposition: attachment; filename=\"$filename\"");
}
성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.