因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解
听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。
网址:http://www.cbssports.com/mlb/scoreboard
然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播
问题来了
以这个网址为例:(当各位大大看到时,也许赛事已经结束了)
ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR
小弟写的程序如下:
<code>$game=array(); $ch = curl_init(); $search1=$_GET['searcharg']; $url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"); $data = curl_exec($ch); curl_close($ch); preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity); </span></code>
….(进行字符串解析)
目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:
<code><tr id="current-pitcher"> <td><img src="/static/imghwm/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td> <td> <span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> | # 48 RP</span> <br> <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a> <div class="game-stats">0.1 IP</div> <div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div> </td> </tr> </code>
不管是另存新档的网页或是curl 抓出来的结果为
<ul class="nav">
<li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
<li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
<li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
<div class="batter-pitcher fLeft">
<table>
<tr id="current-pitcher">
<td><img src="/static/imghwm/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
<td>
<span class="label">Pitcher:</span><span class="name"> </span>
<br>
<a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
<div class="game-stats">
<p>上面蓝色代表没有显示出来的,</p>
<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>
<h2 id="回复内容">回复内容:</h2>
<p>因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解</p>
<p>听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。</p>
<hr>
<p>网址:http://www.cbssports.com/mlb/scoreboard</p>
<p>然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播</p>
<p>问题来了</p>
<p>以这个网址为例:(当各位大大看到时,也许赛事已经结束了)</p>
<p>ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR</p>
<p>小弟写的程序如下:</p>
<pre class="brush:php;toolbar:false"><code>$game=array();
$ch = curl_init();
$search1=$_GET['searcharg'];
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);
curl_close($ch);
preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity);
</span></code></pre>
<p>….(进行字符串解析)</p>
<p>目前已知问题:<br>
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:<br>
原网站为:</p>
<pre class="brush:php;toolbar:false"><code><tr id="current-pitcher">
<td><img src="/static/imghwm/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
<td>
<span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> | # 48 RP</span>
<br>
<a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
<div class="game-stats">0.1 IP</div>
<div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div>
</td>
</tr>
</code></pre>
<p>不管是另存新档的网页或是curl 抓出来的结果为</p>
<pre class="brush:php;toolbar:false"><code><ul class="nav">
<li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
<li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
<li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
<div class="batter-pitcher fLeft">
<table>
<tr id="current-pitcher">
<td><img src="/static/imghwm/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
<td>
<span class="label">Pitcher:</span><span class="name"> </span>
<br>
<a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
<div class="game-stats">
<p>上面蓝色代表没有显示出来的,</p>
<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>
<p class="answer fmt" data-id="1020000000522290">
</p>
<p>额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:</p>
<pre class='brush:php;toolbar:false;'>include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();
</pre>
<p><img src="/static/imghwm/default1.png" data-src="http://segmentfault.com/img/bVcl2b" class="lazy" data- alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></p>
<p class="answer fmt" data-id="1020000000522314">
</p>
<p>我遇到的问题 其实说穿了就是</p>
<p>...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:</p>
<p>目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK</p>
<p>神人求解</p>
<p class="answer fmt" data-id="1020000000522593">
</p>
<p>你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。<br>
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。</p>
</div>
</td>
</tr>
</table>
</div>
</div>

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 현대화 프로세스에서 많은 웹 사이트 및 응용 프로그램을 지원하고 프레임 워크를 통해 개발 요구에 적응하기 때문에 여전히 중요합니다. 1.PHP7은 성능을 향상시키고 새로운 기능을 소개합니다. 2. Laravel, Symfony 및 Codeigniter와 같은 현대 프레임 워크는 개발을 단순화하고 코드 품질을 향상시킵니다. 3. 성능 최적화 및 모범 사례는 응용 프로그램 효율성을 더욱 향상시킵니다.

phphassignificallyimpactedwebdevelopmentandextendsbeyondit

PHP 유형은 코드 품질과 가독성을 향상시키기위한 프롬프트입니다. 1) 스칼라 유형 팁 : PHP7.0이므로 int, float 등과 같은 기능 매개 변수에 기본 데이터 유형을 지정할 수 있습니다. 2) 반환 유형 프롬프트 : 기능 반환 값 유형의 일관성을 확인하십시오. 3) Union 유형 프롬프트 : PHP8.0이므로 기능 매개 변수 또는 반환 값에 여러 유형을 지정할 수 있습니다. 4) Nullable 유형 프롬프트 : NULL 값을 포함하고 널 값을 반환 할 수있는 기능을 포함 할 수 있습니다.

PHP에서는 클론 키워드를 사용하여 객체 사본을 만들고 \ _ \ _ Clone Magic 메소드를 통해 클로닝 동작을 사용자 정의하십시오. 1. 복제 키워드를 사용하여 얕은 사본을 만들어 객체의 속성을 복제하지만 객체의 속성은 아닙니다. 2. \ _ \ _ 클론 방법은 얕은 복사 문제를 피하기 위해 중첩 된 물체를 깊이 복사 할 수 있습니다. 3. 복제의 순환 참조 및 성능 문제를 피하고 클로닝 작업을 최적화하여 효율성을 향상시키기 위해주의를 기울이십시오.

PHP는 웹 개발 및 컨텐츠 관리 시스템에 적합하며 Python은 데이터 과학, 기계 학습 및 자동화 스크립트에 적합합니다. 1.PHP는 빠르고 확장 가능한 웹 사이트 및 응용 프로그램을 구축하는 데 잘 작동하며 WordPress와 같은 CMS에서 일반적으로 사용됩니다. 2. Python은 Numpy 및 Tensorflow와 같은 풍부한 라이브러리를 통해 데이터 과학 및 기계 학습 분야에서 뛰어난 공연을했습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Dreamweaver Mac版
시각적 웹 개발 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전
유용한 JavaScript 개발 도구
