Heim >Backend-Entwicklung >PHP-Tutorial >curl_init回来的编码怎么判断?个别文字乱码求解!

curl_init回来的编码怎么判断?个别文字乱码求解!

WBOY
WBOYOriginal
2016-06-23 13:23:14976Durchsuche

代码如下:

<?php$url = "http://zhidao.baidu.com/link?url=pTwcJotQ02pjg-mjCnc-fkw8ONOY9x8q0ESrCFhdVJy47agZnDnCb-BCAtngRGDt9yi0TvleSS_w0aPj8Vsk0atVkVhNYdZADN0kv0BzNau";echo fopen_url($url);function fopen_url($url) {     if (function_exists('curl_init'))	{         $curl_handle = curl_init();         curl_setopt($curl_handle, CURLOPT_URL, $url);         curl_setopt($curl_handle, CURLOPT_CONNECTTIMEOUT,2);         curl_setopt($curl_handle, CURLOPT_RETURNTRANSFER,1);         curl_setopt($curl_handle, CURLOPT_FAILONERROR,1); 		curl_setopt($curl_handle, CURLOPT_TIMEOUT,2);        $file_content = curl_exec($curl_handle);		$encode = mb_detect_encoding($file_content, array("ASCII","UTF-8","GB2312","GBK","BIG5"));				if($encode != "UTF-8")		{		   $file_content = mb_convert_encoding($file_content, "UTF-8", $encode);		   //$file_content = iconv($encode,'utf-8//IGNORE',$file_content);		}        curl_close($curl_handle);     }	else	{         $file_content = '';     }     return $file_content; }?>


个别字符竟然会乱码!奇怪,请看图



这什么原因造成的?

上面的代码貌似有误啊,原页面明明是GB2312  缺判断出是CP936,无语啊

请帮忙看看上面代码是不是需要完善一下

非常感谢!


回复讨论(解决方案)

另外还有个别页面竟然curl_init回来是空白的数据,要多刷新几次才显示,参数值设置有问题?

返回的数据中有:

根据他就可知道页面编码

没有时才需要编程判断
mb_detect_encoding 判断常有失误,所以又增加了 mb_check_encoding 函数

数据片段

没理由出现非法字符

CP936 是 GBK 的国际称谓

第一个问题,不是乱码,那是图片,curl抓取百度页面,会特意把某些文字转换成图片,防抓取。你查看网页元素,你就会发现,那些乱码其实是百度的图片地址。

第二个问题,你把超时时间设置大点,就好了,可能是你网络问题。

第一个问题,不是乱码,那是图片,curl抓取百度页面,会特意把某些文字转换成图片,防抓取。你查看网页元素,你就会发现,那些乱码其实是百度的图片地址。

第二个问题,你把超时时间设置大点,就好了,可能是你网络问题。

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn