Heim  >  Artikel  >  Backend-Entwicklung  >  Was tun, wenn PHP einen String in verstümmelte Zeichen aufteilt?

Was tun, wenn PHP einen String in verstümmelte Zeichen aufteilt?

藏色散人
藏色散人Original
2021-03-31 09:39:442257Durchsuche

Lösung zur Aufteilung verstümmelter Zeichenfolgen in PHP: 1. Fangen Sie die Zeichenfolge mit „mb_substr()“ der mbstring-Erweiterungsbibliothek ab. 2. Verwenden Sie die benutzerdefinierte Methode „function sub_str“, um die Zeichenfolge abzufangen.

Was tun, wenn PHP einen String in verstümmelte Zeichen aufteilt?

Die Betriebsumgebung dieses Artikels: Windows 7-System, PHP-Version 7.1, DELL G3-Computer

Die Verwendung von substr () in PHP zum Abfangen von Zeichenfolgen führt zu Problemen mit verstümmelten chinesischen Zeichen.

Bei der PHP-Programmentwicklung sind Zeichen Häufig werden String-Abfangoperationen ausgeführt, z. B. bei der Ausgabe einer Informationsliste, der Titel sollte nicht zu lang sein, und beim Drucken einer Artikelzusammenfassung muss auch eine Reihe von String-Abfangoperationen durchgeführt werden. Wenn wir auf diese Anforderungen stoßen, denken wir oft darüber nach, die Methode substr() zu verwenden, um dies zu erreichen. Substr() eignet sich besser zum Abfangen rein englischer Zeichenfolgen.

Aber solange chinesische Zeichen in der Zeichenfolge vorkommen, kann es zu verstümmelten chinesischen Zeichen in PHP substr kommen, da jedes chinesische Zeichen aufgrund der chinesischen UTF-8-Codierung 3 Bytes belegt, während GB2312 2 Bytes belegt, Englisch 1 Byte und die Zahl Anzahl der Ziffern wird abgefangen. Ungenau, substr() „sägt“ ein chinesisches Zeichen gewaltsam in zwei Hälften, was dazu führt, dass das gebrochene Zeichen Folgendes zusammenfügt ... zu einem Wort, sodass PHP substr verstümmelte chinesische Zeichen erscheinen.

substr --- Teil des Strings abrufen

Syntax: string substr (string string, int start [, int length])

Erläuterung:

substr() gibt einen Teil des Strings zurück, der durch Parameter angegeben wird Beginn und Länge.

Wenn start eine positive Zahl ist, beginnt die zurückgegebene Zeichenfolge mit dem Startzeichen der Zeichenfolge.

Beispiel:

<?php
$rest = substr ("abcdef", 1); // returns "bcdef"
$rest = substr ("abcdef", 1, 3); // returns "bcd"
?>

Wenn start eine negative Zahl ist, beginnt die zurückgegebene Zeichenfolge mit dem Startzeichen am Ende der Zeichenfolge.

Beispiel:

<?php
$rest = substr ("abcdef", -1); // returns "f"
$rest = substr ("abcdef", -2); // returns "ef"
$rest = substr ("abcdef", -3, 1); // returns "d"
?>

Wenn die Parameterlänge angegeben ist und eine positive Zahl ist, gibt die zurückgegebene Zeichenfolge Längenzeichen vom Anfang an zurück.
Wenn der Parameter Länge angegeben ist und es sich um eine negative Zahl handelt, endet die zurückgegebene Zeichenfolge beim längenstärksten Zeichen vom Ende der Zeichenfolge.

Beispiel:

<?php
$rest = substr ("abcdef", 1, -1); // returns "bcde"
?>

Es gibt kein Problem mit Englisch

<?php
$rest = substr ("中国人", 1, -1); // returns "fdsafsda" 就是乱码了
?>

Das Ergebnis des Abfangens von Zeichen ist definitiv nicht das Ergebnis, das wir wollen. Diese Situation mit verstümmelten chinesischen PHP-Substr. Es funktioniert nicht richtig. Es gibt zwei Hauptlösungen:

1. Verwenden Sie zum Abfangen mb_substr() der mbstring-Erweiterungsbibliothek, damit keine verstümmelten Zeichen angezeigt werden.

Sie können die Funktion mb_substr()/mb_strcut() verwenden. Die Verwendung von mb_substr()/mb_strcut() ist ähnlich wie bei substr(), außer dass am Ende von mb_substr()/mb_strcut ein weiterer Parameter hinzugefügt wird Um die Zeichenfolge festzulegen, öffnen die meisten Server php_mbstring.dll nicht. Sie müssen php_mbstring.dll in php.ini öffnen.

<?php
  echo mb_substr("php中文字符encode",0,4,"utf-8");
?>

Wenn der letzte Kodierungsparameter nicht angegeben ist, werden drei Bytes als ein chinesisches Zeichen verwendet. Dies ist das Merkmal der UTF-8-Kodierung. Wenn die UTF-8-Zeichensatzbeschreibung hinzugefügt wird, wird sie in Einheiten von abgefangen ein Wort von.

Achten Sie bei der Verwendung auf die Kodierung der PHP-Datei und die Kodierung beim Anzeigen der Webseite. Um diese mb_substr-Methode zu verwenden, müssen Sie die Codierung der Zeichenfolge im Voraus kennen. Wenn Sie die Codierung nicht kennen, müssen Sie sie beurteilen. Die mbstring-Bibliothek bietet auch mb_check_encoding, um die Zeichenfolgencodierung zu überprüfen .

PHP verfügt über mehrere Funktionen zum Abfangen von Zeichenfolgen, unter denen häufig substr und mb_substr verwendet werden. Wenn ersteres Chinesisch verarbeitet, beträgt GBK 2 Längeneinheiten und UTF 3 Längeneinheiten. Nachdem letzteres die Codierung angegeben hat, ist ein chinesisches Zeichen 1 Längeneinheit.

substr schneidet manchmal 1/3 Chinesisch oder die Hälfte Chinesisch ab und zeigt verstümmelte Zeichen an. Relativ gesehen ist mb_substr für uns besser geeignet. Aber manchmal scheint mb_substr nicht so nützlich zu sein. Wenn ich beispielsweise die kurzen Informationen eines kleinen Bildes anzeigen möchte, sind 5 chinesische Zeichen genau richtig. Wenn es mehr als 5 Zeichen sind, fangen Sie einfach die ersten 4 ab und fügen Sie „…“ hinzu Chinesisch, aber bei der Verarbeitung von Englisch oder Zahlen ist dieser Abfang zu kurz.

[Empfohlenes Lernen: PHP-Video-Tutorial]

Zweitens schreiben Sie die Abfangfunktion selbst, aber die Effizienz ist nicht so hoch wie die Verwendung der MBstring-Erweiterungsbibliothek. Das Folgende ist eine Funktion in ecshop, die in UTF-8 codierte Zeichenfolgen abfängt.

function sub_str($str, $length = , $append = true)
{
  $str = trim($str);
  $strlength = strlen($str);
  if ($length == || $length >= $strlength)
  {
    return $str; //截取长度等于或大于等于本字符串的长度,返回字符串本身
  }
  elseif ($length < ) //如果截取长度为负数
  {
    $length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
    if ($length < )
    {
      $length = $strlength;//如果截取长度的绝对值大于字符串本身长度,则截取长度取字符串本身的长度
    }
  }
  if (function_exists(&#39;mb_substr&#39;))
  {
    $newstr = mb_substr($str, , $length, EC_CHARSET);
  }
  elseif (function_exists(&#39;iconv_substr&#39;))
  {
    $newstr = iconv_substr($str, , $length, EC_CHARSET);
  }
  else
  {
    //$newstr = trim_right(substr($str, , $length));
    $newstr = substr($str, , $length);
  }
  if ($append && $str != $newstr)
  {
    $newstr .= &#39;...&#39;;
  }
  return $newstr;
}

Das obige ist der detaillierte Inhalt vonWas tun, wenn PHP einen String in verstümmelte Zeichen aufteilt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn