首頁 >後端開發 >php教程 >php curl 抓網頁數據問題,聽說內地神人很多,求神人解

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

WBOY
WBOY原創
2016-06-06 20:45:281178瀏覽

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

<code>$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity);
</span></code>

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

<code><tr id="current-pitcher">
    <td><img  src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
    <td>
<span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> |  # 48 RP</span>
        <br>
        <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
        <div class="game-stats">0.1 IP</div>
        <div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div>
    </td>
</tr>
</code>

不管是另存新档的网页或是curl 抓出来的结果为

<ul class="nav">
    <li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
    <li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
    <li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
    <div class="batter-pitcher fLeft">
        <table>
            <tr id="current-pitcher">
                <td><img  src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
                <td>
<span class="label">Pitcher:</span><span class="name">    </span>
                    <br>
                    <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
                    <div class="game-stats">


<p>上面蓝色代表没有显示出来的,</p>

<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>

                            
                        


                                                                                                                        
                     <h2>回复内容:</h2>
                      
                                                            
<p>因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解</p>

<p>听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。</p>

<hr>
<p>网址:http://www.cbssports.com/mlb/scoreboard</p>

<p>然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播</p>

<p>问题来了</p>

<p>以这个网址为例:(当各位大大看到时,也许赛事已经结束了)</p>

<p>ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR</p>

<p>小弟写的程序如下:</p>

<pre class="brush:php;toolbar:false">&lt;code&gt;$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url =&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, &quot;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11&quot;);
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/&lt;span class=&quot;teamLocation&quot;&gt;(.*?)/is',$data,$teamCity);
&lt;/span&gt;&lt;/code&gt;</pre>

<p>….(进行字符串解析)</p>

<p>目前已知问题:<br>
不管是 「另存新檔」save as ,还是 检视原始档  ,一些该出现的html都没有出现,例如:<br>
原网站为:</p>

<pre class="brush:php;toolbar:false">&lt;code&gt;&lt;tr id=&quot;current-pitcher&quot;&gt;
    &lt;td&gt;&lt;img  src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
    &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;&lt;b&gt;M. Mariot&lt;/b&gt; |  # 48 RP&lt;/span&gt;
        &lt;br&gt;
        &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
        &lt;div class=&quot;game-stats&quot;&gt;0.1 IP&lt;/div&gt;
        &lt;div class=&quot;season-stats&quot;&gt;0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB&lt;/div&gt;
    &lt;/td&gt;
&lt;/tr&gt;
&lt;/code&gt;</pre>

<p>不管是另存新档的网页或是curl 抓出来的结果为</p>

<pre class="brush:php;toolbar:false">&lt;code&gt;&lt;ul class=&quot;nav&quot;&gt;
    &lt;li class=&quot;active ingame&quot; data-filter=&quot;current&quot;&gt;&lt;a href=&quot;#&quot;&gt;Current Situation&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;hitchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Hitting Charts&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;pitchchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Pitching Charts&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&quot;currentSituation ingame&quot;&gt;
    &lt;div class=&quot;batter-pitcher fLeft&quot;&gt;
        &lt;table&gt;
            &lt;tr id=&quot;current-pitcher&quot;&gt;
                &lt;td&gt;&lt;img  src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
                &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;    &lt;/span&gt;
                    &lt;br&gt;
                    &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
                    &lt;div class=&quot;game-stats&quot;&gt;


&lt;p&gt;上面蓝色代表没有显示出来的,&lt;/p&gt;

&lt;p&gt;目前我试过的方式,送cookie!模拟浏览器 ,还是没效,&lt;br&gt;
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)&lt;/p&gt;

                            
                        
            &lt;p class=&quot;answer fmt&quot; data-id=&quot;1020000000522290&quot;&gt;
                                    
&lt;/p&gt;
&lt;p&gt;额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:&lt;/p&gt;

&lt;pre class=&quot;brush:php;toolbar:false&quot;&gt;&lt;code class=&quot;lang-php&quot;&gt;include &quot;phpQuery.php&quot;;
phpQuery::newDocumentFile(&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;);
echo pq(&quot;#current-pitcher&quot;)-&gt;html();
&lt;/code&gt;</pre>

<p><img  data-src="http://segmentfault.com/img/bVcl2b" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></p>

                            
            <p class="answer fmt" data-id="1020000000522314">
                                    
</p>
<p>我遇到的问题 其实说穿了就是</p>

<p>...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:</p>

<p>目前有赛事  http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK</p>

<p>神人求解</p>

                            
            <p class="answer fmt" data-id="1020000000522593">
                                    
</p>
<p>你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。<br>
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。</p>

                            </div>
</td>
</tr>
</table>
</div>
</div>
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
上一篇:shell随机写入指定文件下一篇:PHP使用Beanstalkd做任务队列,是不是代表需要有一个PHP常驻进程?

相關文章

看更多