PHP自动判断字符集并转码_PHP教程-php教程-PHP中文網

首頁

後端開發

php教程

PHP自动判断字符集并转码_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:33 AM

php字元集

原理很简单，因为gb2312/gbk是中文两字节，这两个字节是有取值范围的，而utf-8中汉字是三字节，同样每个字节也有取值范围。而英文不管在何种编码情况下，都是小于128，只占用一个字节（全角除外）。

如果是文件形式的编码检查，还可以直接check utf-8的BOM信息。话不多说，直接上函数，这个函数是用来对字符串进行检查和转码的。

<?php
function safeEncoding($string,$outEncoding ='UTF-8')    
{    
	$encoding = "UTF-8";    
	for($i=0;$i<strlen($string);$i++)    
	{    
		if(ord($string{$i})<128)    
      		continue;    
        
		if((ord($string{$i})&224)==224)    
		{    
  			//第一个字节判断通过    
     		$char = $string{++$i};    
  			if((ord($char)&128)==128)    
     		{    
           		//第二个字节判断通过    
         		$char = $string{++$i};    
            	if((ord($char)&128)==128)    
         		{    
              		$encoding = "UTF-8";    
              		break;    
         		}    
       		}    
 		}    
	
		if((ord($string{$i})&192)==192)    
      	{    
          	//第一个字节判断通过    
         	$char = $string{++$i};    
        	if((ord($char)&128)==128)    
          	{    
          		// 第二个字节判断通过    
               	$encoding = "GB2312";    
				break;    
			}    
     	}    
	}    
             
	if(strtoupper($encoding) == strtoupper($outEncoding))    
		return $string;    
	else   
       	return iconv($encoding,$outEncoding,$string);    
}
?>

关于BOM

字节顺序记号（英：byte-order mark，BOM）是位于码点 U+FEFF 的统一码字符（"零宽度无断空白"）。当以 UTF-16 或 UTF-32 来将UCS/统一码字符所组成的字串编码时，这个字符被用来标示其字节序。它常被用来当做标示文件是以 UTF-8 、 UTF-16 或 UTF-32 编码的记号。

在大部分的字符编码中，字节顺序记号是一个不太可能出现在其它文件的样式（它通常看起来像是一个混淆的控制码的序列）。如果字节顺序记号被误解成统一码文件中真正的字符时，那么它将不可视，因为它是零宽度无断空白。在 Unicode3.2 中， U+FEFF 用于非字节顺序记号的用途已被舍弃（取而代之的是，使用 U+2060 来表示这种用途），以容许 U+FEFF 仅被地用于字节顺序记号的语意。

在 UTF-16 中，字节顺序记号被放置为档案或字符串流的第一个字符，以标示在此档案或字符串流中，以所有十六位元为单位的字码的尾序（字节顺序）。

如果十六位元单位被表示成大尾序，这字节顺序记号字符在序列中将呈现 0xFE ，其后跟着 0xFF（其中的 0x 用来标示十六进制）。
如果十六位元单位使用小尾序，这个字节序列为 0xFF ，其后接着0xFE。

而统一码中，值为U+FFFE 的码位被保证将不会被指定成一个统一码字符。这意味着 0xFF 、 0xFE 将只能被解释成小尾序中的U+FEFF（因为不可能是大尾序中的 U+FFFE ）。

UTF-8 则没有字节顺序的议题。UTF-8编码过的字节顺序记号则被用来标示它是 UTF-8 的文件。它只用来标示一个 UTF-8 的档案，而不用来说明字节顺序。[1] 许多视窗程式（包含记事本）会添加字节顺序记号到 UTF-8 档案。然而，在类Unix系统系统（大量使用 en:text file ，用于档案格式，用于行程间通讯）中，这种作法则不被建议采用。因为它会妨碍到如解译器脚本开头的 en:Shebang 等的一些重要的码的正确处理。它亦会影响到无法识别它的编程语言。如 gcc 会报告源码档开头有无法识别的字符。而在 PHP 中，如果没有启用输出缓冲(output buffering)，它会使得页面内容开始被送往浏览器(即：用户标头档已被送出)，这使 PHP 脚本无法指定用户标头档(HTTP Header)。字节顺序记号在 UTF-8 中被表示为序列 EF BB BF，对大部分未准备好处理 UTF-8 的文本编辑器及网页浏览器而言，在 ISO-8859-1 的环境中则会显示 ??? 。

虽然字节顺序记号亦可以用于 UTF-32 ，但这个编码很少用于传输，其规则如同 UTF-16 。对于已于IANA注册的字符集 UTF-16BE、UTF-16LE 、 UTF-32BE 和 UTF-32LE 等来说，不可使用字节顺序记号。文档开头的 U+FEFF 会被解释成一个（已舍弃的）"零宽度无断空白"，因为这些字符集的名字已决定了其字节顺序。对于已注册字符集 UTF-16 和 UTF-32 来说，一个开头的 U+FEFF 则用来表示字节顺序。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP依賴注入容器：快速啟動May 13, 2025 am 12:11 AM

aphpdepentioncontiveContainerIsatoolThatManagesClassDeptions，增強codemodocultion，可驗證性和Maintainability.itactsasaceCentralHubForeatingingIndections，因此reducingTightCightTightCoupOulplingIndeSingantInting。

PHP中的依賴注入與服務定位器May 13, 2025 am 12:10 AM

選擇DependencyInjection(DI)用於大型應用，ServiceLocator適合小型項目或原型。 1)DI通過構造函數注入依賴，提高代碼的測試性和模塊化。 2)ServiceLocator通過中心註冊獲取服務，方便但可能導致代碼耦合度增加。

PHP性能優化策略。May 13, 2025 am 12:06 AM

phpapplicationscanbeoptimizedForsPeedAndeffificeby：1）啟用cacheInphp.ini，2）使用preparedStatatementSwithPdoforDatabasequesies，3）3）替換loopswitharray_filtaray_filteraray_maparray_mapfordataprocrocessing，4）conformentnginxasaseproxy，5）

PHP電子郵件驗證：確保正確發送電子郵件May 13, 2025 am 12:06 AM

phpemailvalidation invoLvesthreesteps：1）格式化進行regulareXpressecthemailFormat; 2）dnsvalidationtoshethedomainhasavalidmxrecord; 3）

如何使PHP應用程序更快May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster，關注台詞：1）useopcodeCachingLikeLikeLikeLikeLikePachetoStorePreciledScompiledScriptbyTecode.2）MinimimiedAtabaseSqueriSegrieSqueriSegeriSybysequeryCachingandeffeftExting.3）Leveragephp7 leveragephp7 leveragephp7 leveragephpphp7功能forbettercodeefficy.4）

PHP性能優化清單：立即提高速度May 12, 2025 am 12:07 AM

到ImprovephPapplicationspeed，關注台詞：1）啟用opcodeCachingwithapCutoredUcescriptexecutiontime.2）實現databasequerycachingingusingpdotominiminimizedatabasehits.3）usehttp/2tomultiplexrequlexrequestsandreduceconnection.4 limitesclection.4.4

PHP依賴注入：提高代碼可檢驗性May 12, 2025 am 12:03 AM

依赖注入（DI）通过显式传递依赖关系，显著提升了PHP代码的可测试性。1）DI解耦类与具体实现，使测试和维护更灵活。2）三种类型中，构造函数注入明确表达依赖，保持状态一致。3）使用DI容器管理复杂依赖，提升代码质量和开发效率。

PHP性能優化：數據庫查詢優化May 12, 2025 am 12:02 AM

DatabasequeryoptimizationinPHPinvolvesseveralstrategiestoenhanceperformance.1)Selectonlynecessarycolumnstoreducedatatransfer.2)Useindexingtospeedupdataretrieval.3)Implementquerycachingtostoreresultsoffrequentqueries.4)Utilizepreparedstatementsforeffi

See all articles