>백엔드 개발 >PHP 튜토리얼 >PHP substr이 문자열을 가로챌 때 중국어 문자가 왜곡되는 문제 해결

PHP substr이 문자열을 가로챌 때 중국어 문자가 왜곡되는 문제 해결

WBOY
WBOY원래의
2016-07-29 09:15:351267검색

PHP 프로그램 개발에서는 문자열 가로채기 작업을 수행하는 경우가 많습니다. 예를 들어 정보 목록을 출력할 때 제목이 너무 길면 안 됩니다. 기사 초록을 인쇄할 때도 일련의 문자열 가로채기 작업을 수행해야 합니다. 이러한 요구 사항이 발생하면 이를 달성하기 위해 substr() 메서드를 사용하는 것을 종종 생각합니다. substr()은 전체 영어 문자열을 가로채는 데 더 적합합니다

그러나 문자열에 중국어 문자가 나타나는 한 그럴 수 있습니다. PHP를 유발하다 substr은 중국어 UTF-8 인코딩으로 인해 각 중국어 문자가 3바이트를 차지하는 반면, 영어는 1바이트를 차지합니다. substr()이 갑자기 중국어를 "톱질"합니다. 문자."를 두 개로 나누어 깨진 문자가 다음 문자를 하나로 모아서 한 단어를 만들게 하므로 PHP substr 중국어 문자가 깨집니다.


substr --- 문자열의 일부 가져오기

구문: string substr(string string, int start [, int length])
설명:
substr( )는 start 및 length 매개변수로 지정된 문자열의 일부를 반환합니다.
시작이 양수인 경우 반환된 문자열은 문자열의 시작 문자부터 시작됩니다.
예:

<?php
$rest = substr ("abcdef", 1); // returns "bcdef"
$rest = substr ("abcdef", 1, 3); // returns "bcd"
?>

start가 음수인 경우 반환된 문자열은 문자열 끝의 시작 문자부터 시작됩니다.
예:

<?php
$rest = substr ("abcdef", -1); // returns "f"
$rest = substr ("abcdef", -2); // returns "ef"
$rest = substr ("abcdef", -3, 1); // returns "d"
?>

매개변수 길이가 지정되고 양수인 경우 반환되는 문자열은 처음부터 길이 문자입니다.
매개변수 길이가 음수인 경우 반환된 문자열은 문자열 끝에서 길이 번째 문자에서 끝납니다.
예 :

<?php
$rest = substr ("abcdef", 1, -1); // returns "bcde"
?>

영어는 문제 없고 중국어로 테스트합니다

예 :

<?php
$rest = substr ("中国人", 1, -1); // returns "fdsafsda" 就是乱码了
?>

문자를 가로채는 결과는 확실히 우리가 원하는 결과가 아닙니다. 이러한 중국어 왜곡된 PHP substr 상황은 프로그램이 정상적으로 실행되지 않는 원인이 될 수 있습니다. 두 가지 주요 해결책이 있습니다:


1. mbstring 확장 라이브러리의 mb_substr()을 사용하여 잘못된 문자를 가로채고 방지합니다.

mb_substr()/mb_strcut() 함수를 사용할 수 있습니다. mb_substr()/mb_strcut()의 사용법은 mb_substr 끝에 매개변수를 하나 더 추가해야 한다는 점을 제외하면 substr()과 유사합니다. ()/mb_strcut을 사용하여 문자열 인코딩을 설정하지만 대부분의 서버에서는 php_mbstring.dll을 열지 않습니다. php.ini에서 php_mbstring.dll을 열어야 합니다.

예:

<?php
    echo mb_substr("php中文字符encode",0,4,"utf-8");
?>


마지막 인코딩 매개변수가 지정되지 않은 경우 한자당 3바이트가 됩니다. 이는 UTF-8 인코딩의 특징입니다. UTF-8 문자 집합 설명을 추가하면 한 단어 단위로 차단됩니다.


사용시 php파일의 인코딩과 웹페이지 표시시 인코딩에 주의하시기 바랍니다. 이 mb_substr 메소드를 사용하려면 문자열의 인코딩을 미리 알아야 하며, 인코딩을 모른다면 판단이 필요합니다. mbstring 라이브러리에서는 문자열 인코딩을 확인할 수 있는 mb_check_encoding도 제공하지만 아직 완벽하지는 않습니다. .


PHP에는 여러 문자열 가로채기 기능이 포함되어 있으며 그 중 substr 및 mb_substr이 일반적으로 사용됩니다. 전자가 중국어를 처리할 때 GBK는 2길이 단위이고, UTF는 3길이 단위이다. 후자는 인코딩을 지정한 후 한자 1자가 1길이 단위가 된다.

substr은 때때로 중국어의 1/3 또는 절반을 잘라내어 잘못된 문자를 표시합니다. 상대적으로 말하면 mb_substr이 사용하기에 더 적합합니다. 그러나 때로는 mb_substr이 그다지 유용하지 않은 것 같습니다. 예를 들어 작은 그림의 간략한 정보를 표시하고 싶다면 한자는 5자가 딱 맞고, 5자가 넘으면 처음 4자를 가로채서 "..."만 추가하면 됩니다. 중국어이지만 영어나 숫자를 처리할 때 이 차단이 너무 짧습니다.


2. 차단 기능을 직접 작성하지만 mbstring 확장 라이브러리를 사용하는 것만큼 효율성이 높지 않습니다. 다음은 UTF-8로 인코딩된 문자열을 가로채는 ecshop의 함수입니다.

예:

function sub_str($str, $length = 0, $append = true)
{
    $str = trim($str);
    $strlength = strlen($str);
 
    if ($length == 0 || $length >= $strlength)
    {
        return $str;  //截取长度等于0或大于等于本字符串的长度,返回字符串本身
    }
    elseif ($length < 0)  //如果截取长度为负数
    {
        $length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
        if ($length < 0)
        {
            $length = $strlength;//如果截取长度的绝对值大于字符串本身长度,则截取长度取字符串本身的长度
        }
    }
 
    if (function_exists('mb_substr'))
    {
        $newstr = mb_substr($str, 0, $length, EC_CHARSET);
    }
    elseif (function_exists('iconv_substr'))
    {
        $newstr = iconv_substr($str, 0, $length, EC_CHARSET);
    }
    else
    {
        //$newstr = trim_right(substr($str, 0, $length));
        $newstr = substr($str, 0, $length);
    }
 
    if ($append && $str != $newstr)
    {
        $newstr .= '...';
    }
 
    return $newstr;
}

위 내용은 관련 내용을 포함하여 PHP substr로 문자열을 가로챌 때 한자가 깨지는 문제에 대한 해결책을 소개하고 있으며, PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.