搜索

1.目前处理的文件类型有两种 txt html
2.文件的编码未知 要读取文件内容 内容编码最后统一转换成utf-8 最终入库

目前想用mb_convert_encoding($file_content,'utf-8',"auto"); 好像不行 求大神赐教!帮忙分析下(txt的复杂点)  


回复讨论(解决方案)

用 mb_convert_encoding 大多不能得到正确的判断
所以 mb_string 扩展有了一个新成员 mb_check_encoding 
这个函数可以准确的判定来源是否为指定的字符集
只不过你需要写代码来枚举可能的字符集:
if(mb_check_encoding($s, 'utf-8')) ....
elseif(mb_check_encoding($s, 'gbk')) ....
elseif(mb_check_encoding($s, 'big5')) ....
else ....

用 mb_convert_encoding 大多不能得到正确的判断
所以 mb_string 扩展有了一个新成员 mb_check_encoding 
这个函数可以准确的判定来源是否为指定的字符集
只不过你需要写代码来枚举可能的字符集:
if(mb_check_encoding($s, 'utf-8')) ....
elseif(mb_check_encoding($s, 'gbk')) ....
elseif(mb_check_encoding($s, 'big5')) ....
else ....
有用,前几天,写了个读取csv格式的数据,一度在纠结由txt转换csv格式的编码问题....

用 mb_convert_encoding 大多不能得到正确的判断
所以 mb_string 扩展有了一个新成员 mb_check_encoding 
这个函数可以准确的判定来源是否为指定的字符集
只不过你需要写代码来枚举可能的字符集:
if(mb_check_encoding($s, 'utf-8')) ....
elseif(mb_check_encoding($s, 'gbk')) ....
elseif(mb_check_encoding($s, 'big5')) ....
else ....

	if(mb_convert_encoding($file_content,'ASCII')){				mb_convert_encoding($file_content,'UTF-8',"ASCII");			}elseif(mb_convert_encoding($file_content,'GB2312')){				mb_convert_encoding($file_content,'UTF-8',"GB2312");			}elseif(mb_convert_encoding($file_content,'GBK')){				mb_convert_encoding($file_content,'UTF-8',"GBK");			}elseif(mb_convert_encoding($file_content,'BIG5')){				mb_convert_encoding($file_content,'UTF-8',"BIG5");			}else{				mb_convert_encoding($file_content,'UTF-8',"auto");			}

还有有乱码
http://fashionistess.com/awr1/1.php

不明白你给出的连接反映的是什么

既然你已经发现 mb_convert_encoding 不准确了,那么你为什么还在用呢?

$file_content = '待转码的内容';$charset = '';if(mb_check_encoding($file_content, 'utf-8')) $charset = ''; //已是 utf-8 了无需转码elseif(mb_check_encoding($file_content, 'big5')) $charset = 'big5'; //big5 的码值范围小于 gbk,应先判断elseif(mb_check_encoding($file_content, 'gbk')) $charset = 'gbk'; //gb2312 是 gbk 的子集,只判 gbk 就可以了if($charset)  $file_content = mb_convert_encoding($file_content, 'utf-8', $charset);


不明白你给出的连接反映的是什么

既然你已经发现 mb_convert_encoding 不准确了,那么你为什么还在用呢?

$file_content = '待转码的内容';$charset = '';if(mb_check_encoding($file_content, 'utf-8')) $charset = ''; //已是 utf-8 了无需转码elseif(mb_check_encoding($file_content, 'big5')) $charset = 'big5'; //big5 的码值范围小于 gbk,应先判断elseif(mb_check_encoding($file_content, 'gbk')) $charset = 'gbk'; //gb2312 是 gbk 的子集,只判 gbk 就可以了if($charset)  $file_content = mb_convert_encoding($file_content, 'utf-8', $charset);

不好意思 刚才代码写错了  
链接是测试结果 编码问题会影响解析的结果(以前只分析linux下生成的文件所以一直没发现这个问题) 谢谢 问题已经解决啦

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
在Laravel中使用Flash会话数据在Laravel中使用Flash会话数据Mar 12, 2025 pm 05:08 PM

Laravel使用其直观的闪存方法简化了处理临时会话数据。这非常适合在您的应用程序中显示简短的消息,警报或通知。 默认情况下,数据仅针对后续请求: $请求 -

php中的卷曲:如何在REST API中使用PHP卷曲扩展php中的卷曲:如何在REST API中使用PHP卷曲扩展Mar 14, 2025 am 11:42 AM

PHP客户端URL(curl)扩展是开发人员的强大工具,可以与远程服务器和REST API无缝交互。通过利用Libcurl(备受尊敬的多协议文件传输库),PHP curl促进了有效的执行

简化的HTTP响应在Laravel测试中模拟了简化的HTTP响应在Laravel测试中模拟了Mar 12, 2025 pm 05:09 PM

Laravel 提供简洁的 HTTP 响应模拟语法,简化了 HTTP 交互测试。这种方法显着减少了代码冗余,同时使您的测试模拟更直观。 基本实现提供了多种响应类型快捷方式: use Illuminate\Support\Facades\Http; Http::fake([ 'google.com' => 'Hello World', 'github.com' => ['foo' => 'bar'], 'forge.laravel.com' =>

PHP记录:PHP日志分析的最佳实践PHP记录:PHP日志分析的最佳实践Mar 10, 2025 pm 02:32 PM

PHP日志记录对于监视和调试Web应用程序以及捕获关键事件,错误和运行时行为至关重要。它为系统性能提供了宝贵的见解,有助于识别问题并支持更快的故障排除

在Codecanyon上的12个最佳PHP聊天脚本在Codecanyon上的12个最佳PHP聊天脚本Mar 13, 2025 pm 12:08 PM

您是否想为客户最紧迫的问题提供实时的即时解决方案? 实时聊天使您可以与客户进行实时对话,并立即解决他们的问题。它允许您为您的自定义提供更快的服务

解释PHP中晚期静态结合的概念。解释PHP中晚期静态结合的概念。Mar 21, 2025 pm 01:33 PM

文章讨论了PHP 5.3中引入的PHP中的晚期静态结合(LSB),从而允许静态方法的运行时分辨率调用以获得更灵活的继承。 LSB的实用应用和潜在的触摸

自定义/扩展框架:如何添加自定义功能。自定义/扩展框架:如何添加自定义功能。Mar 28, 2025 pm 05:12 PM

本文讨论了将自定义功能添加到框架上,专注于理解体系结构,识别扩展点以及集成和调试的最佳实践。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。