我正在尝试重写一个旧网站。
它是波斯语,使用波斯/阿拉伯字符。
CREATE DATABASE `db` DEFAULT CHARACTER SET utf8 COLLATE utf8_persian_ci; USE `db`;
几乎所有我的表/列 COLLATE 都设置为 utf8_persian_ci
我正在为我的新脚本使用 codeigniter,并且我已经
'char_set' => 'utf8', 'dbcollat' => 'utf8_persian_ci',
在数据库设置中,所以没有问题。
所以这是奇怪的部分
旧脚本使用某种名为 TUBADBENGINE
或 TUBA DB ENGINE
的数据库引擎...没什么特别的。
当我使用旧脚本在数据库中输入一些数据(波斯语)时,当我查看数据库时,字符存储为 Ø1مران
。
旧脚本获取/显示数据正常,但新脚本使用与数据库相同的奇怪字体/字符集显示它们
因此,当我输入 ???
时,数据库存储的数据看起来像 Ø1Ù...راÙ
,当我在新脚本中获取它时,我看到 Ø1Ù...راÙ
但在旧脚本中我看到 ??
CREATE TABLE IF NOT EXISTS `tnewsgroups` ( `ID` int(11) NOT NULL AUTO_INCREMENT, `fName` varchar(200) COLLATE utf8_persian_ci DEFAULT NULL, PRIMARY KEY (`ID`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_persian_ci AUTO_INCREMENT=11 ; -- -- Dumping data for table `tnewsgroups` -- INSERT INTO `tnewsgroups` (`ID`, `fName`) VALUES (1, 'عمران'), (2, 'معماری'), (3, 'برق'), (4, 'مکانیک'), (5, 'test'), (6, 'test2');
另一方面,当我直接在数据库中输入???
时
当然,我在数据库中存储了相同的 ???
新脚本显示效果很好
但是在旧脚本中我得到 ????
任何人都可以理解这一点吗?
这是大号引擎
https://github.com/maxxxir/mz-codeigniter-crud/blob/master/tuba.php
旧脚本的使用示例:
define("database_type" , "MYSQL"); define("database_ip" , "localhost"); define("database_un" , "root"); define("database_pw" , ""); define("database_name" , "nezam2"); define("database_connectionstring" , ""); $db = new TUBADBENGINE(database_type , database_ip , database_un , database_pw , database_name , database_connectionstring); $db->Select("SELECT * FROM tnews limit 3"); if ($db->Lasterror() != "") { echo "<B><Font color=red>ÎØÇ ! áØÝÇ ãÌÏøÏÇ ÊáÇÔ ˜äíÏ"; exit(); } for ($i = 0 ; $i < $db->Count() ; $i++) { $row = $db->Next(); var_dump($row); }
P粉2573421662023-11-18 09:06:47
deceze的答案非常好,但我可以添加一些信息,这些信息可能有助于处理大量记录,而无需手动测试它们.
如果转换 CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8)
失败,则会打印 NULL
而不是 field_name
内容。
所以我用这个来查找那些记录:
SELECT IFNULL( CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) , '**************************************************') FROM table_name
或者这个:
SELECT id, field_name, CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) FROM table_name WHERE CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) IS NULL
带有该子句的 UPDATE
仅影响转换成功的记录:
UPDATE table_name SET field_name = CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4 ) WHERE CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4) IS NOT NULL
P粉6638838622023-11-18 00:37:25
简而言之,因为这个问题之前已经讨论过一千次了:
"汉字"
,以 UTF-8 编码。该字节为 E6 BC A2 E5 AD 97
。latin1
的数据库连接发送此字符串。E6 BC A2 E5 AD 97
,认为它们代表 latin1
字符。æ¡¡¿李>
- 相反的相同过程使 PHP 接收相同的字节,然后将其视为 UTF-8。尽管数据库没有按应有的方式处理字符,但往返对于 PHP 来说工作得很好。
所以这里的问题是数据录入数据库时数据库连接设置不正确。您必须将数据库中的数据转换为正确的字符。试试这个:
SELECT CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) FROM table_name
也许 utf8
不是您所需要的,请尝试一下。如果有效,请将其更改为 UPDATE
语句以永久更新数据。