新しいタイトル: 新しいスクリプトでは、保存されたデータの奇妙な文字エンコーディングが正しく表示されません。

Question

古いウェブサイトを書き直そうとしています。ペルシア語で書かれており、ペルシア語/アラビア文字が使用されています。 CREATEDATABASE`db`DEFAULTCHARACTERSETutf8COLLATEutf8_persian_ci;USE`db`;ほぼすべてのテーブル/列 COLLATE が utf8_persian_ci に設定されています。新しいスクリプトに codeigniter を使用しています。'char_set'=>'utf8','dbcollat​​'=&g です。

P粉257342166 · Answer

deceze の答えは非常に優れていますが、手動でテストせずに大量のレコードを処理するのに役立つ可能性のある情報をいくつか追加できます。

変換

CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) が失敗した場合、field_name の内容の代わりに NULL が出力されます。

そこで、これらのレコードを見つけるためにこれを使用します:

リーリー

またはこれ:

リーリーこの句を含む

UPDATE は、正常に変換されたレコードにのみ影響します: リーリー

P粉663883862 · Answer

つまり、この質問はこれまでに何千回も議論されてきたからです:

PHP は、"汉字" などの文字列を UTF-8 でエンコードして保存します。バイトは E6 BC A2 E5 AD 97 です。
この文字列は、latin1 に設定された データベース接続を介して送信されます。

データベースはバイト E6 BC A2 E5 AD 97 を受信し、それらが latin1 文字を表していると考えました。

データベース格納文字 æ¡ ¡ ¿李＞
同じプロセスを逆に実行すると、PHP は同じバイトを受信し、それらを UTF-8 として扱います。ラウンドトリップは PHP では問題なく機能しますが、データベースは文字を適切に処理しません。

つまり、ここでの問題は、データをデータベースに入力するときにデータベース接続が正しく設定されていないことです。データベース内のデータを正しい文字に変換する必要があります。これを試して：＃＃＃リーリーおそらく utf8 は必要なものではないので、試してみてください。機能する場合は、これを UPDATE ステートメントに変更して、データを永続的に更新します。

新しいタイトル: 新しいスクリプトでは、保存されたデータの奇妙な文字エンコーディングが正しく表示されません。

全員に返信(2)返信します