ホームページ  >  記事  >  バックエンド開発  >  crul を使用してコンテンツをクロールする場合。

crul を使用してコンテンツをクロールする場合。

WBOY
WBOYオリジナル
2016-06-23 14:18:451230ブラウズ

crul を使用してコンテンツをクロールする場合。傍受されたコンテンツが少ない場合がわかりました。普通に入力できる。大量のコンテンツが傍受された場合。 Array(); のみが表示されます。 。何故ですか。 。あと、捉えたいのは形です。アイテムの一つ。特徴はありません。 。アイデアを探しています~~~


ディスカッションに返信 (解決策)

分析のためにコードを投稿することをお勧めします

<html>	<head>		<title></title><link href="/css/newcss/project.css" rel="stylesheet" type="text/css">	</head>	<body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0" style="overflow:auto;">		<form name="form" method="post"><table width="100%" border="0" align="center" cellpadding="0" cellspacing="0"><tr><td class="Linetop"></td></tr></table><table width="100%"  border="0" cellpadding="0" cellspacing="0" class="title" id="tblHead"><tr>					<td width="80%" >					<table border="0" align="left" cellpadding="0" cellspacing="0" >										<tr>					<td> </td>					<td valign="middle"> <b>本学期成绩查询列表</b>					 </td>					</tr>					</table>					</td>					<td width="20%" >											<table border="0" align="left" cellpadding="0" cellspacing="0" width="100%" >												<tr>						<td> </td>											<td width="5"></td>					</tr>					</table>					</td>					</tr></table><table width="100%" border="0" align="center" cellpadding="0" cellspacing="0"><tr><td class="Linetop"></td></tr></table>			<table width="100%" border="0" cellpadding="0" cellspacing="0" class="titleTop2">					 <tr>					  <td class="pageAlign">					   <table cellpadding="0" width="100%" class="displayTag" cellspacing="1" border="0" id="user">					    <thead>							<tr>					<th align="center" width="10%" class="sortable">						课程号					</th>					<th align="center" width="10%" class="sortable">						课序号					</th>					<th align="center" width="20%" class="sortable">						课程名					</th>					<th align="center" width="20%" class="sortable">						英文课程名					</th>					<th align="center" width="10%" class="sortable">						学分					</th>					<th align="center" width="10%" class="sortable">						课程属性					</th>					<th align="center" width="10%" class="sortable">成绩					</th>				</tr>															<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00002473							</td>							<td align="center">								26								</td>							<td align="center">								形势与政策(六)							</td>							<td align="center">								Situation and Policy (Ⅵ)							</td>							<td align="center">								0							</td>							<td align="center">								综合必修							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00002435							</td>							<td align="center">								09								</td>							<td align="center">								文献检索与利用A							</td>							<td align="center">								Literature Retrieval and Utilization A							</td>							<td align="center">								2							</td>							<td align="center">								综合必修							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00000406							</td>							<td align="center">								09								</td>							<td align="center">								软件工程导论							</td>							<td align="center">								Introduction to Software Engineering							</td>							<td align="center">								3							</td>							<td align="center">								专业必修							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00001017							</td>							<td align="center">								01								</td>							<td align="center">								软件代码开发技术							</td>							<td align="center">								Development Technology for Software Coding							</td>							<td align="center">								2.5							</td>							<td align="center">								专业选修							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00000995							</td>							<td align="center">								01								</td>							<td align="center">								编译原理A							</td>							<td align="center">								The Principle of Compiler A							</td>							<td align="center">								3							</td>							<td align="center">								专业选修							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00000998							</td>							<td align="center">								02								</td>							<td align="center">								大型数据库系统							</td>							<td align="center">								Oracle database system							</td>							<td align="center">								2.5							</td>							<td align="center">								学科选修							</td>							<td align="center">																88													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								SJ000195							</td>							<td align="center">								07								</td>							<td align="center">								综合实训(二)							</td>							<td align="center">								Comprehensive Practical Training(Ⅱ)							</td>							<td align="center">								2							</td>							<td align="center">								实践环节							</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00005054							</td>							<td align="center">								02								</td>							<td align="center">								信息安全技术B							</td>							<td align="center">								Information Security Technology B							</td>							<td align="center">								2.5							</td>							<td align="center">															</td>							<td align="center">													 	    </td>						</tr>											<tr class="odd" onMouseOut="this.className='even';" onMouseOver="this.className='evenfocus';">							<td align="center">								00004773							</td>							<td align="center">								01								</td>							<td align="center">								软件项目管理B							</td>							<td align="center">								Project Managenent for Software B							</td>							<td align="center">								2.5							</td>							<td align="center">															</td>							<td align="center">													 	    </td>						</tr>												</TABLE>			<div align="right">			<table width="100%" border="0" cellpadding="0" cellspacing="0" ><tr><td align="right">共9项  第1/1页  <img title="第一页" src="/img/icon/noDownDM2.gif"style="vertical-align:center;" width="11" height="11" /> <img title="前一页" src="/img/icon/noDownDM_2.gif"style="vertical-align:center;" width="11" height="11" /><img title="下一页" src="/img/icon/noUpDM_2.gif"style="vertical-align:center;" width="11" height="11" /> <img title="最后一页" src="/img/icon/noUpDM2.gif"style="vertical-align:center;" width="11" height="11" />  每页显示的记录数 <select name="pageSize" onchange="pageSizeChange()"><option value="10" >10项</option><option value="20" selected='selected'>20项</option><option value="30" >30项</option><option value="40" >40项</option><option value="50" >50项</option><option value="100" >100项</option><option value="200" >200项</option><option value="300" >300项</option></select><input   name="page"   type="hidden"   id="page" value="1"> <input   name="currentPage"   type="hidden"   id="currentPage" value="1"> <input   name="pageNo"   type="text"   id="pageNo"   size="3"   onKeyPress="return   handleEnterOnPageNo();"> <img src="/img/icon/go.gif"  name="goto"  id="goto" style="cursor:hand;" title="跳转到" onClick="forward();"><script   type   =   'text/javaScript'>function   forward(){     if(!(/^([1-9])(\d{0,})(\d{0,})$/.test(document.all.pageNo.value))){         alert("请输入合法的页号!");         document.all.pageNo.focus();         return false;     }     if(document.all.pageNo.value>1     ){     alert("输入的页数超过了总页数,请重新输入!");         document.all.pageNo.focus();         return false;     }         window.location.href="/bxqcjcxAction.do?totalrows=9&page="+   document.all.pageNo.value +"&pageSize="+document.all.pageSize.value;}function   handleEnterOnPageNo(){     if(event.keyCode   ==   13)     {         forward();         return   false;     }     return   true;}function pageSizeChange(){ window.location.href="/bxqcjcxAction.do?totalrows=9&pageSize="+document.all.pageSize.value;}function pagination(value){ window.location.href="/bxqcjcxAction.do?totalrows=9&page="+value+"&pageSize="+document.all.pageSize.value;}</script></td></tr></table>			</div>		</form>	</body></html>

必要なのはコースの名前とスコアだけです。 。

分析と回答のためにコードを投稿することをお勧めします。、、

$s=your string
preg_match_all('#7bd9177e39515a7e3b7130b53292907cs*6269d44d5f21d53d1807a889a526c11d.+b90dd5946f0946207856a8a37f441edfs*6269d44d5f21d53d1807a889a526c11d.+90cc1e42bbf9b97c5947038eac7f874e s*6269d44d5f21d53d1807a889a526c11d(.+)b90dd5946f0946207856a8a37f441edf.+6269d44d5f21d53d1807a889a526c11d([^<]+)b90dd5946f0946207856a8a37f441edfs* 5194ba175fd9c71e9a9f6e68244d73a8#isU',$s,$m);
print_r($m); // $m[1] は名前配列、$m[2] はスコア配列です

ウェブサイトと一致しますか?クロール防止ルールについてはどうですか?

$s=your string

preg_match_all('#62c8f5aa0483bf3020bdb87bc9fdc0cds*6269d44d5f21d53d1807a889a526c11d.+b90dd5946f0946207856a8a37f441edfs*6269d44d5f21d53d1807a889a526c11d.+b90dd5946f0946207856a8a37f441edfs*db1dd284b91bdaa248fe587503b22ba9s*< ; td align="center">.+s*

.+s*(.+ ) b90dd5946f0946207856a8a37f441edf.+6269d44d5f21d53d1807a889a526c11d([^<]+)b90dd5946f0946207856a8a37f441edfs*fd273fcf5bcad3dfdad3c41bd81ad3e5#isU',$s,$m);
print_r ($m); // $m[1] は名前配列、$m[2] はスコア配列
Master... ([^
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。