搜尋
首頁後端開發php教程如何转义emoji表情,让它可以存入utf8的数据库?

unicode emoji是4个字节的,存不进MySQL里,找到一个转义的库http://code.iamcal.com/php/emoji/,但是转为Unicode之后,还是4个字节,一样存不进,应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做,你们在不改数据库编码的前提下,是怎么弄的?

方法1:base_encode64

这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================
一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?

=======================

方法3:最后采用了下面采纳的那个方法,因为我觉得它有下面几个优点:

1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的
数据库中存储起来是这样的,如何转义emoji表情,让它可以存入utf8的数据库? 后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的, 如何转义emoji表情,让它可以存入utf8的数据库?

2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。

缺点:
1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。
数据库中发现有这样的如何转义emoji表情,让它可以存入utf8的数据库? ,是漏杀了,但是不知道为什么,这个可以直接存数据库。

<code>
/**
  把用户输入的文本转义(主要针对特殊符号和emoji表情)
 */
function userTextEncode($str){
    if(!is_string($str))return $str;
    if(!$str || $str=='undefined')return '';

    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){
        return addslashes($str[0]);
    },$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。
    return json_decode($text);
}
/**
  解码上面的转义
 */
function userTextDecode($str){
    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback('/\\\\\\\\/i',function($str){
        return '\\';
    },$text); //将两条斜杠变成一条,其他不动
    return json_decode($text);
}</code>

回复内容:

unicode emoji是4个字节的,存不进MySQL里,找到一个转义的库http://code.iamcal.com/php/emoji/,但是转为Unicode之后,还是4个字节,一样存不进,应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做,你们在不改数据库编码的前提下,是怎么弄的?

方法1:base_encode64

这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================
一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?

=======================

方法3:最后采用了下面采纳的那个方法,因为我觉得它有下面几个优点:

1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的
数据库中存储起来是这样的,如何转义emoji表情,让它可以存入utf8的数据库? 后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的, 如何转义emoji表情,让它可以存入utf8的数据库?

2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。

缺点:
1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。
数据库中发现有这样的如何转义emoji表情,让它可以存入utf8的数据库? ,是漏杀了,但是不知道为什么,这个可以直接存数据库。

<code>
/**
  把用户输入的文本转义(主要针对特殊符号和emoji表情)
 */
function userTextEncode($str){
    if(!is_string($str))return $str;
    if(!$str || $str=='undefined')return '';

    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){
        return addslashes($str[0]);
    },$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。
    return json_decode($text);
}
/**
  解码上面的转义
 */
function userTextDecode($str){
    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback('/\\\\\\\\/i',function($str){
        return '\\';
    },$text); //将两条斜杠变成一条,其他不动
    return json_decode($text);
}</code>

我是这么玩儿的

<code><?php //处理名字的emoji符号
        $tmpStr = json_encode($text); //暴露出unicode
        $tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动
        $text = json_decode($tmpStr);
        return $text;</code></code>

给一个标准的解决方案:

  1. mysql的版本必须为v5.5.3或更高

  2. 把数据库的编码改成utf8mb4 -- UTF-8 Unicode

  3. 然后需要存储emoji表情的字段选择utf8mb4_general_ci

  4. 数据库连接也需要改为utf8mb4

设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。

<code>mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';  
+--------------------------+--------------------+  
| Variable_name            | Value              |  
+--------------------------+--------------------+  
| character_set_client     | utf8mb4            |  
| character_set_connection | utf8mb4            |  
| character_set_database   | utf8mb4            |  
| character_set_filesystem | binary             |  
| character_set_results    | utf8mb4            |  
| character_set_server     | utf8mb4            |  
| character_set_system     | utf8               |  
| collation_connection     | utf8mb4_unicode_ci |  
| collation_database       | utf8mb4_unicode_ci |  
| collation_server         | utf8mb4_unicode_ci |  
+--------------------------+--------------------+  
 rows in set (0.00 sec) </code>

我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。

MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。

如何转义emoji表情,让它可以存入utf8的数据库?

试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx]/wx 。不过表情多了之后4个字符不怎么够用。。。

urldecode
我看了一下 decode 的源码,应该是不会出现问题。

只要没有 % 解码后肯定还是原来的字符(串),有 % 会出现两种情况,一种是解码成功,这个时候肯定就不是原来的字符串了,一种是解码失败,抛出异常(其实这个异常可以作为是否 encode的标准)。

解码还算是比较严格吧,作为用户名的情况下 出现 % 还解码成功的概率比较小吧,对于这部分你可以手动改数据库,应该不会有很多。

你试试这个函数,之前弄微信自定义菜单的时候,也接触过Emoji表情,当时看到用的这个函数把Emoji表情的编码给转换了。

<code>function utf8_bytes($cp) {
    if ($cp > 0x10000){
        # 4 bytes
        return    chr(0xF0 | (($cp & 0x1C0000) >> 18)).
        chr(0x80 | (($cp & 0x3F000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x800){
        # 3 bytes
        return    chr(0xE0 | (($cp & 0xF000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x80){
        # 2 bytes
        return    chr(0xC0 | (($cp & 0x7C0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else{
        # 1 byte
        return chr($cp);
    }
}</code>

  1. 使用BOLO类型

  2. 将数据库编码改为 utf8mb4

我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。
1、修改存储emoji字段编码,例如放在username字段中:

<code>    ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;</code>

2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。

https://github.com/iamcal/php-emoji
我是用这个处理的~

http://www.emoji-cheat-sheet.com/

有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码

喏,你的 MySQL 版本必须为 5.5 以上的

不用转,直接数据库转成utf8mb4, 我以前就是这么干的

不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把

因为我的项目中需要对字数有限制的需求,涉及到逐字计数,在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我,我提供给你。

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
PHP類型提示如何起作用,包括標量類型,返回類型,聯合類型和無效類型?PHP類型提示如何起作用,包括標量類型,返回類型,聯合類型和無效類型?Apr 17, 2025 am 12:25 AM

PHP類型提示提升代碼質量和可讀性。 1)標量類型提示:自PHP7.0起,允許在函數參數中指定基本數據類型,如int、float等。 2)返回類型提示:確保函數返回值類型的一致性。 3)聯合類型提示:自PHP8.0起,允許在函數參數或返回值中指定多個類型。 4)可空類型提示:允許包含null值,處理可能返回空值的函數。

PHP如何處理對象克隆(克隆關鍵字)和__clone魔法方法?PHP如何處理對象克隆(克隆關鍵字)和__clone魔法方法?Apr 17, 2025 am 12:24 AM

PHP中使用clone關鍵字創建對象副本,並通過\_\_clone魔法方法定制克隆行為。 1.使用clone關鍵字進行淺拷貝,克隆對象的屬性但不克隆對象屬性內的對象。 2.通過\_\_clone方法可以深拷貝嵌套對象,避免淺拷貝問題。 3.注意避免克隆中的循環引用和性能問題,優化克隆操作以提高效率。

PHP與Python:用例和應用程序PHP與Python:用例和應用程序Apr 17, 2025 am 12:23 AM

PHP適用於Web開發和內容管理系統,Python適合數據科學、機器學習和自動化腳本。 1.PHP在構建快速、可擴展的網站和應用程序方面表現出色,常用於WordPress等CMS。 2.Python在數據科學和機器學習領域表現卓越,擁有豐富的庫如NumPy和TensorFlow。

描述不同的HTTP緩存標頭(例如,Cache-Control,ETAG,最後修飾)。描述不同的HTTP緩存標頭(例如,Cache-Control,ETAG,最後修飾)。Apr 17, 2025 am 12:22 AM

HTTP緩存頭的關鍵玩家包括Cache-Control、ETag和Last-Modified。 1.Cache-Control用於控制緩存策略,示例:Cache-Control:max-age=3600,public。 2.ETag通過唯一標識符驗證資源變化,示例:ETag:"686897696a7c876b7e"。 3.Last-Modified指示資源最後修改時間,示例:Last-Modified:Wed,21Oct201507:28:00GMT。

說明PHP中的安全密碼散列(例如,password_hash,password_verify)。為什麼不使用MD5或SHA1?說明PHP中的安全密碼散列(例如,password_hash,password_verify)。為什麼不使用MD5或SHA1?Apr 17, 2025 am 12:06 AM

在PHP中,應使用password_hash和password_verify函數實現安全的密碼哈希處理,不應使用MD5或SHA1。1)password_hash生成包含鹽值的哈希,增強安全性。 2)password_verify驗證密碼,通過比較哈希值確保安全。 3)MD5和SHA1易受攻擊且缺乏鹽值,不適合現代密碼安全。

PHP:服務器端腳本語言的簡介PHP:服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言,用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言,無需編譯,適合快速開發。 2.PHP代碼嵌入HTML中,易於網頁開發。 3.PHP處理服務器端邏輯,生成HTML輸出,支持用戶交互和數據處理。 4.PHP可與數據庫交互,處理表單提交,執行服務器端任務。

PHP和網絡:探索其長期影響PHP和網絡:探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡,並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年,因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成,使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響,但也面臨版本更新和安全性挑戰。 4)近年來的性能改進,如PHP7的發布,使其能與現代語言競爭。 5)未來,PHP需應對容器化、微服務等新挑戰,但其靈活性和活躍社區使其具備適應能力。

為什麼要使用PHP?解釋的優點和好處為什麼要使用PHP?解釋的優點和好處Apr 16, 2025 am 12:16 AM

PHP的核心優勢包括易於學習、強大的web開發支持、豐富的庫和框架、高性能和可擴展性、跨平台兼容性以及成本效益高。 1)易於學習和使用,適合初學者;2)與web服務器集成好,支持多種數據庫;3)擁有如Laravel等強大框架;4)通過優化可實現高性能;5)支持多種操作系統;6)開源,降低開發成本。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具