PHP自动判断字符集并转码_PHP教程-php教程-PHP中文网

首页

后端开发

php教程

PHP自动判断字符集并转码_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:33 AM

php字符集

原理很简单，因为gb2312/gbk是中文两字节，这两个字节是有取值范围的，而utf-8中汉字是三字节，同样每个字节也有取值范围。而英文不管在何种编码情况下，都是小于128，只占用一个字节（全角除外）。

如果是文件形式的编码检查，还可以直接check utf-8的BOM信息。话不多说，直接上函数，这个函数是用来对字符串进行检查和转码的。

<?php
function safeEncoding($string,$outEncoding ='UTF-8')    
{    
	$encoding = "UTF-8";    
	for($i=0;$i<strlen($string);$i++)    
	{    
		if(ord($string{$i})<128)    
      		continue;    
        
		if((ord($string{$i})&224)==224)    
		{    
  			//第一个字节判断通过    
     		$char = $string{++$i};    
  			if((ord($char)&128)==128)    
     		{    
           		//第二个字节判断通过    
         		$char = $string{++$i};    
            	if((ord($char)&128)==128)    
         		{    
              		$encoding = "UTF-8";    
              		break;    
         		}    
       		}    
 		}    
	
		if((ord($string{$i})&192)==192)    
      	{    
          	//第一个字节判断通过    
         	$char = $string{++$i};    
        	if((ord($char)&128)==128)    
          	{    
          		// 第二个字节判断通过    
               	$encoding = "GB2312";    
				break;    
			}    
     	}    
	}    
             
	if(strtoupper($encoding) == strtoupper($outEncoding))    
		return $string;    
	else   
       	return iconv($encoding,$outEncoding,$string);    
}
?>

关于BOM

字节顺序记号（英：byte-order mark，BOM）是位于码点 U+FEFF 的统一码字符（"零宽度无断空白"）。当以 UTF-16 或 UTF-32 来将UCS/统一码字符所组成的字串编码时，这个字符被用来标示其字节序。它常被用来当做标示文件是以 UTF-8 、 UTF-16 或 UTF-32 编码的记号。

在大部分的字符编码中，字节顺序记号是一个不太可能出现在其它文件的样式（它通常看起来像是一个混淆的控制码的序列）。如果字节顺序记号被误解成统一码文件中真正的字符时，那么它将不可视，因为它是零宽度无断空白。在 Unicode3.2 中， U+FEFF 用于非字节顺序记号的用途已被舍弃（取而代之的是，使用 U+2060 来表示这种用途），以容许 U+FEFF 仅被地用于字节顺序记号的语意。

在 UTF-16 中，字节顺序记号被放置为档案或字符串流的第一个字符，以标示在此档案或字符串流中，以所有十六位元为单位的字码的尾序（字节顺序）。

如果十六位元单位被表示成大尾序，这字节顺序记号字符在序列中将呈现 0xFE ，其后跟着 0xFF（其中的 0x 用来标示十六进制）。
如果十六位元单位使用小尾序，这个字节序列为 0xFF ，其后接着0xFE。

而统一码中，值为U+FFFE 的码位被保证将不会被指定成一个统一码字符。这意味着 0xFF 、 0xFE 将只能被解释成小尾序中的U+FEFF（因为不可能是大尾序中的 U+FFFE ）。

UTF-8 则没有字节顺序的议题。UTF-8编码过的字节顺序记号则被用来标示它是 UTF-8 的文件。它只用来标示一个 UTF-8 的档案，而不用来说明字节顺序。[1] 许多视窗程式（包含记事本）会添加字节顺序记号到 UTF-8 档案。然而，在类Unix系统系统（大量使用 en:text file ，用于档案格式，用于行程间通讯）中，这种作法则不被建议采用。因为它会妨碍到如解译器脚本开头的 en:Shebang 等的一些重要的码的正确处理。它亦会影响到无法识别它的编程语言。如 gcc 会报告源码档开头有无法识别的字符。而在 PHP 中，如果没有启用输出缓冲(output buffering)，它会使得页面内容开始被送往浏览器(即：用户标头档已被送出)，这使 PHP 脚本无法指定用户标头档(HTTP Header)。字节顺序记号在 UTF-8 中被表示为序列 EF BB BF，对大部分未准备好处理 UTF-8 的文本编辑器及网页浏览器而言，在 ISO-8859-1 的环境中则会显示 ??? 。

虽然字节顺序记号亦可以用于 UTF-32 ，但这个编码很少用于传输，其规则如同 UTF-16 。对于已于IANA注册的字符集 UTF-16BE、UTF-16LE 、 UTF-32BE 和 UTF-32LE 等来说，不可使用字节顺序记号。文档开头的 U+FEFF 会被解释成一个（已舍弃的）"零宽度无断空白"，因为这些字符集的名字已决定了其字节顺序。对于已注册字符集 UTF-16 和 UTF-32 来说，一个开头的 U+FEFF 则用来表示字节顺序。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使PHP应用程序更快May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster，关注台词：1）useopcodeCachingLikeLikeLikeLikeLikePachetoStorePreciledScompiledScriptbyTecode.2）MinimimiedAtabaseSqueriSegrieSqueriSegeriSybysequeryCachingandeffeftExting.3）Leveragephp7 leveragephp7 leveragephp7 leveragephpphp7功能forbettercodeefficy.4）

PHP性能优化清单：立即提高速度May 12, 2025 am 12:07 AM

到ImprovephPapplicationspeed，关注台词：1）启用opcodeCachingwithapCutoredUcescriptexecutiontime.2）实现databasequerycachingusingpdotominiminimizedatabasehits.3）usehttp/2tomultiplexrequlexrequestsandredececonnection.4 limitsclection.4.4

PHP依赖注入：提高代码可检验性May 12, 2025 am 12:03 AM

依赖注入（DI）通过显式传递依赖关系，显着提升了PHP代码的可测试性。 1）DI解耦类与具体实现，使测试和维护更灵活。 2）三种类型中，构造函数注入明确表达依赖，保持状态一致。 3）使用DI容器管理复杂依赖，提升代码质量和开发效率。

PHP性能优化：数据库查询优化May 12, 2025 am 12:02 AM

databasequeryOptimizationinphpinvolVolVOLVESEVERSEVERSTRATEMIESOENHANCEPERANCE.1）SELECTONLYNLYNESSERSAYCOLUMNSTORMONTOUMTOUNSOUDSATATATATATATATATATATRANSFER.3）

简单指南：带有PHP脚本的电子邮件发送May 12, 2025 am 12:02 AM

phpisusedforsenderemailsduetoitsbuilt-inmail（）函数andsupportiveLibrariesLikePhpMailerandSwiftMailer.1）usethemail（）functionforbasicemails，butithasimails.2）butithasimimitations.2）

PHP性能：识别和修复瓶颈May 11, 2025 am 12:13 AM

PHP性能瓶颈可以通过以下步骤解决：1)使用Xdebug或Blackfire进行性能分析，找出问题所在；2)优化数据库查询并使用缓存，如APCu；3)使用array_filter等高效函数优化数组操作；4)配置OPcache进行字节码缓存；5)优化前端，如减少HTTP请求和优化图片；6)持续监控和优化性能。通过这些方法，可以显着提升PHP应用的性能。

PHP的依赖注入：快速摘要May 11, 2025 am 12:09 AM

依赖性注射（DI）InphpisadesignPatternthatManages和ReducesClassDeptions，增强量产生性，可验证性和Maintainability.itallowspasspassingDepentenciesLikEdenceSeconnectionSeconnectionStoclasseconnectionStoclasseSasasasasareTers，interitationApertatingAeseritatingEaseTestingEasingEaseTeStingEasingAndScalability。

提高PHP性能：缓存策略和技术May 11, 2025 am 12:08 AM

cachingimprovesphpermenceByStorcyResultSofComputationsorqucrouctationsorquctationsorquickretrieval，reducingServerLoadAndenHancingResponsetimes.feftectivestrategiesinclude：1）opcodecaching，whereStoresCompiledSinmememorytssinmemorytoskipcompliation; 2）datacaching datacachingsingMemccachingmcachingmcachings

See all articles