如何解决php trim 乱码问题-PHP问题-PHP中文网

首页

后端开发

PHP问题

如何解决php trim 乱码问题

藏色散人

Mar 04, 2021 pm 05:58 PM

php

php trim乱码是因为在执行rtrim时，会将0x81去掉，导致出现乱码，其解决办法就是通过“mb_rtrim($tag, "、",$encoding)”方法解决乱码即可。

如何解决php trim 乱码问题

本文操作环境：windows7系统、PHP7.1版，DELL G3电脑

首先运行以下代码：

$tag = "互联网产品、";
$text = rtrim($tag, "、");
print_r($text);

我们可能以为会得到的结果是互联网产品，实际结果是互联网产�。为什么会这样呢？

科普

PHP 里使用mb_前缀的都是多字节函数 http://php.net/manual/zh/ref....

比如

$str = "abcd";
print_r(strlen($str).""); // 4
print_r(mb_strlen($str).""); // 4
$str = "周梦康";
print_r(strlen($str).""); // 9
print_r(mb_strlen($str).""); // 3

mb_系列函数是以“多个字节组成的一个字符”为颗粒度来操作的，不带mb_则是按实际的字节数来操作的。

原理

trim 函数文档

string trim ( string $str [, string $character_mask = " " ] )

该函数不是多字节函数，也就是说，汉字这样的多字节字符，会拿其头或尾的单字节来和后面的$character_mask对应的char数组进行匹配，如果在后面的数组中，则删掉，继续匹配。比如：

echo ltrim("bcdf","abc"); // df

如下面的 demo 中的函数string_print_char所示：

、由0xe3 0x80 0x81三字节组成，

品由0xe5 0x93 0x81三字节组成。

所以在执行rtrim的时候，通过字节比对，会将0x81去掉，导致了最后出现了乱码。

【推荐学习：《PHP视频教程》】

源码探究

查看 PHP7 的源码，然后提炼出下面的小 demo ，方便大家一起学习，其实PHP源码的学习并不难，每天进步一点点。

//
// main.c
// trim
//
// Created by 周梦康 on 2017/10/18.
// Copyright © 2017年 周梦康. All rights reserved.
//
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
void string_print_char(char *str);
void php_charmask(unsigned char *input, size_t len, char *mask);
char *ltrim(char *str,char *character_mask);
char *rtrim(char *str,char *character_mask);
int main(int argc, char const *argv[])
{
printf("%s",ltrim("bcdf","abc"));
string_print_char("品"); // e5 93 81
string_print_char("、"); // e3 80 81
printf("%s",rtrim("互联网产品、","、"));
return 0;
}
char *ltrim(char *str,char *character_mask)
{
char *res;
char mask[256];
register size_t i;
int trimmed = 0;
size_t len = strlen(str);
php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
for (i = 0; i < len; i++) {
if (mask[(unsigned char)str[i]]) {
trimmed++;
} else {
break;
}
}
len -= trimmed;
str += trimmed;
res = (char *) malloc(sizeof(char) * (len+1));
memcpy(res,str,len);
return res;
}
char *rtrim(char *str,char *character_mask)
{
char *res;
char mask[256];
register size_t i;
size_t len = strlen(str);
php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
if (len > 0) {
i = len - 1;
do {
if (mask[(unsigned char)str[i]]) {
len--;
} else {
break;
}
} while (i-- != 0);
}
res = (char *) malloc(sizeof(char) * (len+1));
memcpy(res,str,len);
return res;
}
void string_print_char(char *str)
{
unsigned long l = strlen(str);
for (int i=0; i < l; i++) {
printf("%02hhx ",str[i]);
}
printf("");
}
void php_charmask(unsigned char *input, size_t len, char *mask)
{
unsigned char *end;
unsigned char c;
memset(mask, 0, 256);
for (end = input+len; input < end; input++) {
c = *input;
mask[c]= 1;
}
}

如果觉得 demo 还不够清晰的，复制下来，自己执行一次吧~

C 语言基础较差的同学也不用担心，我准备后面专门写一个PHP小白学习 C 语言的系列入门短文哈。

解决方案

那么我们就依葫芦画瓢，用 php 本身的多字节函数来实现下吧：

function mb_rtrim($string, $trim, $encoding)
{
$mask = [];
$trimLength = mb_strlen($trim, $encoding);
for ($i = 0; $i < $trimLength; $i++) {
$item = mb_substr($trim, $i, 1, $encoding);
$mask[] = $item;
}
$len = mb_strlen($string, $encoding);
if ($len > 0) {
$i = $len - 1;
do {
$item = mb_substr($string, $i, 1, $encoding);
if (in_array($item, $mask)) {
$len--;
} else {
break;
}
} while ($i-- != 0);
}
return mb_substr($string, 0, $len, $encoding);
}
mb_internal_encoding("UTF-8");
$tag = "互联网产品、";
$encoding = mb_internal_encoding();
print_r(mb_rtrim($tag, "、",$encoding));

当然你也可以使用正则来做。通过上面的函数学习，单字节函数和多字节函数，你学会了吗？

PHP7 相关源码

PHP_FUNCTION(trim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 3);
}
PHP_FUNCTION(rtrim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 2);
}
PHP_FUNCTION(ltrim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
}
static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)
{
zend_string *str;
zend_string *what = NULL;
ZEND_PARSE_PARAMETERS_START(1, 2)
Z_PARAM_STR(str)
Z_PARAM_OPTIONAL
Z_PARAM_STR(what)
ZEND_PARSE_PARAMETERS_END();
ZVAL_STR(return_value, php_trim(str, (what ? ZSTR_VAL(what) : NULL), (what ? ZSTR_LEN(what) : 0), mode));
}
PHPAPI zend_string *php_trim(zend_string *str, char *what, size_t what_len, int mode)
{
const char *c = ZSTR_VAL(str);
size_t len = ZSTR_LEN(str);
register size_t i;
size_t trimmed = 0;
char mask[256];
if (what) {
if (what_len == 1) {
char p = *what;
if (mode & 1) {
for (i = 0; i < len; i++) {
if (c[i] == p) {
trimmed++;
} else {
break;
}
}
len -= trimmed;
c += trimmed;
}
if (mode & 2) {
if (len > 0) {
i = len - 1;
do {
if (c[i] == p) {
len--;
} else {
break;
}
} while (i-- != 0);
}
}
} else {
php_charmask((unsigned char*)what, what_len, mask);
if (mode & 1) {
for (i = 0; i < len; i++) {
if (mask[(unsigned char)c[i]]) {
trimmed++;
} else {
break;
}
}
len -= trimmed;
c += trimmed;
}
if (mode & 2) {
if (len > 0) {
i = len - 1;
do {
if (mask[(unsigned char)c[i]]) {
len--;
} else {
break;
}
} while (i-- != 0);
}
}
}
} else {
if (mode & 1) {
for (i = 0; i < len; i++) {
if ((unsigned char)c[i] <= &#39; &#39; &&
(c[i] == &#39; &#39; || c[i] == &#39;&#39; || c[i] == &#39;&#39; || c[i] == &#39; &#39; || c[i] == &#39;&#39; || c[i] == &#39;&#39;)) {
trimmed++;
} else {
break;
}
}
len -= trimmed;
c += trimmed;
}
if (mode & 2) {
if (len > 0) {
i = len - 1;
do {
if ((unsigned char)c[i] <= &#39; &#39; &&
(c[i] == &#39; &#39; || c[i] == &#39;&#39; || c[i] == &#39;&#39; || c[i] == &#39; &#39; || c[i] == &#39;&#39; || c[i] == &#39;&#39;)) {
len--;
} else {
break;
}
} while (i-- != 0);
}
}
}
if (ZSTR_LEN(str) == len) {
return zend_string_copy(str);
} else {
return zend_string_init(c, len, 0);
}
}
/* {{{ php_charmask
* Fills a 256-byte bytemask with input. You can specify a range like &#39;a..z&#39;,
* it needs to be incrementing.
* Returns: FAILURE/SUCCESS whether the input was correct (i.e. no range errors)
*/
static inline int php_charmask(unsigned char *input, size_t len, char *mask)
{
unsigned char *end;
unsigned char c;
int result = SUCCESS;
memset(mask, 0, 256);
for (end = input+len; input < end; input++) {
c=*input;
if ((input+3 < end) && input[1] == &#39;.&#39; && input[2] == &#39;.&#39;
&& input[3] >= c) {
memset(mask+c, 1, input[3] - c + 1);
input+=3;
} else if ((input+1 < end) && input[0] == &#39;.&#39; && input[1] == &#39;.&#39;) {
/* Error, try to be as helpful as possible:
(a range ending/starting with &#39;.&#39; won&#39;t be captured here) */
if (end-len >= input) { /* there was no &#39;left&#39; char */
php_error_docref(NULL, E_WARNING, "Invalid &#39;..&#39;-range, no character to the left of &#39;..&#39;");
result = FAILURE;
continue;
}
if (input+2 >= end) { /* there is no &#39;right&#39; char */
php_error_docref(NULL, E_WARNING, "Invalid &#39;..&#39;-range, no character to the right of &#39;..&#39;");
result = FAILURE;
continue;
}
if (input[-1] > input[2]) { /* wrong order */
php_error_docref(NULL, E_WARNING, "Invalid &#39;..&#39;-range, &#39;..&#39;-range needs to be incrementing");
result = FAILURE;
continue;
}
/* FIXME: better error (a..b..c is the only left possibility?) */
php_error_docref(NULL, E_WARNING, "Invalid &#39;..&#39;-range");
result = FAILURE;
continue;
} else {
mask[c]=1;
}
}
return result;
}
/* }}} */

以上是如何解决php trim 乱码问题的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

酸与基本数据库：差异和何时使用。Mar 26, 2025 pm 04:19 PM

本文比较了酸和基本数据库模型，详细介绍了它们的特征和适当的用例。酸优先确定数据完整性和一致性，适合财务和电子商务应用程序，而基础则侧重于可用性和

PHP安全文件上传：防止与文件相关的漏洞。Mar 26, 2025 pm 04:18 PM

本文讨论了确保PHP文件上传的确保，以防止诸如代码注入之类的漏洞。它专注于文件类型验证，安全存储和错误处理以增强应用程序安全性。

PHP输入验证：最佳实践。Mar 26, 2025 pm 04:17 PM

文章讨论了PHP输入验证以增强安全性的最佳实践，重点是使用内置功能，白名单方法和服务器端验证等技术。

PHP API率限制：实施策略。Mar 26, 2025 pm 04:16 PM

本文讨论了在PHP中实施API速率限制的策略，包括诸如令牌桶和漏水桶等算法，以及使用Symfony/Rate-limimiter之类的库。它还涵盖监视，动态调整速率限制和手

php密码哈希：password_hash和password_verify。Mar 26, 2025 pm 04:15 PM

本文讨论了使用password_hash和pyspasswify在PHP中使用密码的好处。主要论点是，这些功能通过自动盐，强大的哈希算法和SECH来增强密码保护

OWASP前10 php：描述并减轻常见漏洞。Mar 26, 2025 pm 04:13 PM

本文讨论了OWASP在PHP和缓解策略中的十大漏洞。关键问题包括注射，验证损坏和XSS，并提供用于监视和保护PHP应用程序的推荐工具。

PHP XSS预防：如何预防XSS。Mar 26, 2025 pm 04:12 PM

本文讨论了防止PHP中XSS攻击的策略，专注于输入消毒，输出编码以及使用安全增强的库和框架。

PHP接口与抽象类：何时使用。Mar 26, 2025 pm 04:11 PM

本文讨论了PHP中接口和抽象类的使用，重点是何时使用。界面定义了无实施的合同，适用于无关类和多重继承。摘要类提供常见功能

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

PhpStorm Mac 版本

最新（2018.2.1 ）专业的PHP集成开发工具

Atom编辑器mac版下载

最流行的的开源编辑器

WebStorm Mac版

好用的JavaScript开发工具

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合，这些列表在安全评估过程中经常使用，都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表，帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上，他就可以访问到所需的每种类型的列表。