検索
ホームページphp教程php手册ヒント記事: UTF8 での中国語 PHP プログラミング

前言:

说实话,
凉鞋也觉得 UTF8 是好东西……
毕竟同屏显示中日韩对东亚人的吸引力是不小的……
(当然好处不仅是这点啦……)
不仅是网页程式……
很多应用程式的内核都开始使用 Unicode 编码……
目的是显而易见的:支援多语言显示……
微软的所有软体都是 Unicode 内核……
所以日文软体拿到你的中文 XP 上是可以正常显示的……
而中文 98 就会因为 GB 内核安装其他语言软体时造成乱码……

至于 UTF8 ,
可以说是 Unicode 的一个分支,
它用三个字节保存一个汉字……
(Unicode 用四个字节)
应用软体都集体投奔 Unicode 了……
就不允许我们搞网页程式的用 UTF8?

本文中凉鞋就尽量多方位介绍一下 UTF8 编码下的 PHP 编程……
至于为什么单独介绍“中文”……
一来是因为英文这玩意实在不需要考虑 UTF8 ……
除非你准备做多语言系统……
(我要发些牢骚:现在的老外写程式时根本不重视这个问题……)
二来是中日韩等多字节语系在 UTF8 编码下的处理方式其实大同小异……
依葫芦画瓢即可……
好……先从数据库处理部分开始吧……


==========================================
连接数据库

很多人刚升级到 Mysql 4.1 时会发现数据乱掉了……
其实是因为 Mysql 从 4.1 开始支援字符集了……
而且默认字符集正是 UTF8 ……
(充分证明与国际接轨的重要性…… 嘿嘿……)
而以前我们大多使用 utf8 或是 GBK 编码……
这样以来输出的数据当然是乱码……
要解决乱码……
就得让程序知道该获取什么编码的数据……

我们假设你以前的数据库是 utf8 编码的……
那么你可以在查询前添加一句

mysql_query('SET CHARACTER SET utf8') or die("Query failed : " . mysql_error());
当然,由于 4.1 以上才需要这样处理,
因此我们可以加上判断:

$mysqlversion = $db->query_first("SELECT VERSION() AS version");
if ($mysqlversion['version'] >= '4.1')
{
mysql_query('SET CHARACTER SET utf8') or die("Query failed : " . mysql_error());
}
这样以来不管 Mysql 默认编码是什么都可以正常存取了……
(不论您是存活期,还是存定期,甚至是零存整取都没有问题鸟……)

但是,人家都国际化鸟……
您还在用 utf8 行么?
如何转码呢?
还有……
数据升级时出现乱码怎么办?
凉拌!
且听下回分解……

============================================
数据升级至 4.1

要升级……
就得先导出……
要说老外还真不负责……
以前的导出方式总是弄丢一些中文字符……
比如把“我爱你娘”弄成“我爱你”啦……
(通常是丢失一段数据最末尾的字)
整个儿差了一辈儿……
(用石榴姐的话说就是“这么大逆不道的事实在是太刺激了”……)
为了保护您脆弱的心脏……
也为了维护中国传统伦理道义……
您可以把数据包含中文字符的字段改为二进制(Binary)编码……
具体方法嘛……
可以运行这个语句:

ALTER TABLE `表名` CONVERT TO CHARACTER SET binary;
这样,那些字符类型字段,如:
CHAR、VARCHAR 和 TEXT
将转换为
BINARY、VARBINARY 和 BLOB
然后再导出并导入到 4.1 环境中……
当然,最后一项繁琐的工作是:
你需要把它们的类型再改回来……

有往 4.1 升级的……
当然也有往下降级的……
怎么降级???
凉鞋去上个厕所……
而您请翻下页……

=============================================
数据从 4.1 降级

有人发现从4.1导出的 SQL 文件无法导入低版本程序……
问题其实很简单……
而且 Mysql 已经为我们想好了一切……
导出时请添加 –compatible 参数……
我们假设您的数据库是 utf8 编码的……
而且目标数据库版本为 4.0 ……
那么命令行下这么写:

shell>mysqldump --user=username --password=password --compatible=mysql40 --default-character-set=utf8 database > db.sql
这样导出的 SQL 文件就能够顺利导入低版本数据库了……

数据库部分算是搞定了……
但 PHP 编程方面要如何注意呢?
还得劳您翻下页……
http://www.knowsky.com
=============================================
PHP 文件编码

是否所有 PHP 文件都必须转成 UTF8 编码呢?
凉鞋告诉您是 NO ……

次のようにしましょう...
ファイルに表示する必要のある中国語の文字が含まれている場合...
UTF8 エンコーディングに変換する必要があります...
例:

// 私はサンダルです
echo time();
上記コードにはコードがありますが...
でもコメント内に存在するため...
は出力されません.. .
したがって、このページは UTF8 形式に変換する必要はありません...

別の例:

echo "I am Sandal";
これには明らかに中国語の文字が出力されています...
UTF8 に変換する必要があります... ...

もちろん、現在、多くのプログラムはテンプレート (言語パック) テクノロジを使用しています...
プログラム (言語パック以外のファイル)...
このようにして、言語パック ファイルを UTF8 エンコーディングに変換するだけで済みます...
(これは言語パックの利点です...ああハハハハハ...)
'http://www.knowsky.com
============================= ===================== =

UTF8 中国語インターセプト

UTF8 は 3 バイトを使用するため...
従来の substr 関数は役に立ちません...
多くの専門家が UTF8 漢字インターセプト関数を作成しています...
ここにいくつかあります:

1. 最初に計算してから、

を取得します。 /**
* 著者 : ダミー |ザンディ
* 電子メール : lianxiwoo@gmail.com | hotmail.com
* 作成: 200512
* 使用法: echo join('', String::subString_UTF8('汉字', 0, 1));
*/
ini_set('display_errors', 1);
error_reporting(E_ALL ^ E_NOTICE);
class String {
function subString_UTF8($str, $start, $lenth)
{
$len = strlen($str);
$r = array();
$n = 0;
$m = 0;
for( $i = 0; $i $x = substr($str, $i, 1);
$a = Base_convert(ord($x), 2 );
$a = substr('00000000'.$a, -8);
if ($n if (substr($a, 0, 1) == 0) {
}elseif (substr($a, 0, 3) == 110) {
$i += 1;
}elseif (substr($a, 0, 4) == 1110 ) {
$i += 2;
}
$n++;
}else{
if (substr($a, 0, 1) == 0) {
$ r[] = substr($str, $i, 1);
}elseif (substr ($a, 0, 3) == 110) {
$r[] = substr($str, $i , 2);
$i += 1;
}elseif (substr($ a, 0, 4) == 1110) {
$r[] = substr($str, $i, 3 );
$i += 2;
}else{
$r [] = '';
}
if (++$m >= $lenth){
break;
}
}
}
return $r;
} // End subString_UTF8
}// End String
echo join('', String:: subString_UTF8('中国語', 0, 1));
2. 最初にインターセプトしてから取得します
この方法は非常に賢いと思います...
最初に切り詰めるために従来のインターセプト関数を使用します...
次に、単一の漢字が分割されているかどうかを判断します...
分割されている場合は...処理します...
substr 関数の 3 番目のパラメーターが大きくなければならないという事実に特別な注意を払う必要があります3よりも...
なぜサンダルを使って説明しないのですか?

// http://en.wikipedia.org/wiki/UTF-8
/ の手順に従って、utf-8 文字列の最後の文字を削除するトリム関数
// / dotann
// 使用法: $str = utf8_trim(substr($str,0,50));
function utf8_trim($str) {
$len = strlen($str);
for ($i=strlen($str)-1; $i>=0; $i-=1){
$hex .= ' '.ord($str[$i]);
$ ch = ord($str[$i]);
if (($ch & 128)==0) return(substr($str,0,$i));
if (($ch & 192)==192) return(substr($str,0,$i));
}
return($str.$hex);
}
$str = '漢字' ;
echo utf8_trim(substr($str,0,3));
3. 他のメソッドもあります。
たとえば、007pig は vBulletin 中国語版で記述された関数です...
短く簡潔に...
ソースコードを公開するのは不便です...
ごめんなさい...



声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
utf8编码汉字占多少字节utf8编码汉字占多少字节Feb 21, 2023 am 11:40 AM

utf8编码汉字占3个字节。在UTF-8编码中,一个中文等于三个字节,一个中文标点占三个字节;而在Unicode编码中,一个中文(含繁体)等于两个字节。UTF-8使用1~4字节为每个字符编码,一个US-ASCIl字符只需1字节编码,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码。

mysql怎么替换换行符mysql怎么替换换行符Apr 18, 2022 pm 03:14 PM

在mysql中,可以利用char()和REPLACE()函数来替换换行符;REPLACE()函数可以用新字符串替换列中的换行符,而换行符可使用“char(13)”来表示,语法为“replace(字段名,char(13),'新字符串') ”。

MySQL复制技术之异步复制和半同步复制MySQL复制技术之异步复制和半同步复制Apr 25, 2022 pm 07:21 PM

本篇文章给大家带来了关于mysql的相关知识,其中主要介绍了关于MySQL复制技术的相关问题,包括了异步复制、半同步复制等等内容,下面一起来看一下,希望对大家有帮助。

mysql怎么将varchar转换为int类型mysql怎么将varchar转换为int类型May 12, 2022 pm 04:51 PM

转换方法:1、利用cast函数,语法“select * from 表名 order by cast(字段名 as SIGNED)”;2、利用“select * from 表名 order by CONVERT(字段名,SIGNED)”语句。

mysql怎么判断是否是数字类型mysql怎么判断是否是数字类型May 16, 2022 am 10:09 AM

在mysql中,可以利用REGEXP运算符判断数据是否是数字类型,语法为“String REGEXP '[^0-9.]'”;该运算符是正则表达式的缩写,若数据字符中含有数字时,返回的结果是true,反之返回的结果是false。

带你把MySQL索引吃透了带你把MySQL索引吃透了Apr 22, 2022 am 11:48 AM

本篇文章给大家带来了关于mysql的相关知识,其中主要介绍了mysql高级篇的一些问题,包括了索引是什么、索引底层实现等等问题,下面一起来看一下,希望对大家有帮助。

mysql怎么删除unique keymysql怎么删除unique keyMay 12, 2022 pm 03:01 PM

在mysql中,可利用“ALTER TABLE 表名 DROP INDEX unique key名”语句来删除unique key;ALTER TABLE语句用于对数据进行添加、删除或修改操作,DROP INDEX语句用于表示删除约束操作。

mysql需要commit吗mysql需要commit吗Apr 27, 2022 pm 07:04 PM

在mysql中,是否需要commit取决于存储引擎:1、若是不支持事务的存储引擎,如myisam,则不需要使用commit;2、若是支持事务的存储引擎,如innodb,则需要知道事务是否自动提交,因此需要使用commit。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境