前幾天做了個小說連載的程序,因為怕更新麻煩,順帶就寫了個採集器,採集八路中文網的,功能比較簡單,不能自訂規則,不過大概思路都在裡面了,自訂規則可以自己來擴充。
以上就介紹了dede採集器 利用PHP製作簡單的內容採集器的原理分析,包括了dede採集器方面的內容,希望對PHP教程有興趣的朋友有所幫助。
用php來做採集器主要用到兩個函數:file_get_contents()和preg_match_all(),前一個是遠端讀取網頁內容的,不過只在php5以上的版本才能用,後一個是正規函數,用來提取需要的內容的。
下面就一步一步來講功能實作。
因為是採集小說,所以首先要將書名、作者、類型這三個提取出來,別的資訊可根據需要提取。
這裡以《回到明朝當王爺》為目標,先打開書目頁,連結:http://www.86zw.com/Book/3727/Index.aspx
多打開幾本書會發現,書名的基本格式是:http://www.86zw.com/Book/書號/Index.aspx,所以我們可以做一個開始頁,定義一個,用來輸入需要採集的書號,以後就可以透過$_POST['number']這種格式來接收需要採集的書號了。接收到書號,以下要做的就是建構書目頁:$url=http://www.86zw.com/Book/$_POST['number']/Index.aspx,當然這裡是舉個例子,主要是為了講解方便,實際製作的時候最好檢查$_POST['number']的合法性。
構造好URL以後就可以開始採集書籍資訊了。使用file_get_contents() 函數開啟書目頁:$c 打開書目頁,查看原始文件,找到“《回到明朝當王爺》”,這就是要提取出來的書名了。提取書名的正規表示式:/(.*?)/is,使用preg_match_all()函數將書名取出:preg_match_all("/(.*?)/is",$contents,$title);這樣$title[0][0]的內容就是我們要的標題了(preg_match_all函數的用法可以去百度查,這裡就不詳細說明了)。取出了書籍信息,接下來就是取章節內容了,要取章節內容,首先要做的就是找到每一章的地址,然後遠程打開章節,用正則將內容取出來,入庫或者直接生成html靜態文件。這是章節清單的網址:http://www.86zw.com/Html/Book/18/3727/List.shtm,可以看出這篇和書目頁一樣,是有規律可尋的:http://www .86zw.com/Html/Book/分類號碼/書號/List.shtm。書號前面已經取得,這裡的關鍵是找到分類號,分類號可以在前面的書目頁找到,提取分類號:
preg_match_all("/Html/Book/[0-9]{1,}/[0 -9]{1,}/List.shtm/is",$contents,$typeid);這樣還不夠,還需要一個切取函數:
PHP程式碼如下:
function cut($string,$start ,$end){
$message = explode($start,$string);
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容,$start為開始的地方,$end為結束的地方。取出分類號碼:
$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$ start,$end);
$typeid = explode("/",$typeid);[/php]
這樣,$typeid[0]就是我們要找的分類號碼了。接下來就是建構章節清單的網址了:$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個就能找到每一章節的地址了。方法如下:
$ustart = """;
$uend
= """;
//t表示title的縮寫
$tstart = ">";
$ tend
= "//取路徑,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("/"[0-9]{1,}.(shtm )"/is",$chapterurl,$url);
//取標題,例如:第一章九世善人
preg_match_all("//is",$file,$title);
$count = count($url[0]);
for($i=0;$i {
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0] [$i],$tstart,$tend);
$array[$u] = $t;
}
$array數組就是所有的章節位址了,到這裡,採集器就完成一半了,剩下的就是循環打開每個章節地址,讀取,然後將內容匹配出來。這個比較簡單,這裡就不詳細敘述了。好了,今天就先寫到這吧,第一次寫這麼長的文章,語言組織方面難免有問題,還請大家多包涵!

TheSecretTokeEpingAphp-PowerEdwebSiterUnningSmoothlyShyunderHeavyLoadInVolvOLVOLVOLDEVERSALKEYSTRATICES:1)emplactopCodeCachingWithOpcachingWithOpCacheToreCescriptexecution Time,2)使用atabasequercachingCachingCachingWithRedataBasEndataBaseLeSendataBaseLoad,3)

你應該關心DependencyInjection(DI),因為它能讓你的代碼更清晰、更易維護。 1)DI通過解耦類,使其更模塊化,2)提高了測試的便捷性和代碼的靈活性,3)使用DI容器可以管理複雜的依賴關係,但要注意性能影響和循環依賴問題,4)最佳實踐是依賴於抽象接口,實現鬆散耦合。

是的,優化papplicationispossibleandessential.1)empartcachingingcachingusedapcutorediucedsatabaseload.2)優化的atabaseswithexing,高效Quereteries,and ConconnectionPooling.3)EnhanceCodeWithBuilt-unctions,避免使用,避免使用ingglobalalairaiables,並避免使用

theKeyStrategiestosigantificallyBoostPhpaPplicationPerformenCeare:1)UseOpCodeCachingLikeLikeLikeLikeLikeCacheToreDuceExecutiontime,2)優化AtabaseInteractionswithPreparedStateTementStatementStatementAndProperIndexing,3)配置

aphpdepentioncontiveContainerIsatoolThatManagesClassDeptions,增強codemodocultion,可驗證性和Maintainability.itactsasaceCentralHubForeatingingIndections,因此reducingTightCightTightCoupOulplingIndeSingantInting。

選擇DependencyInjection(DI)用於大型應用,ServiceLocator適合小型項目或原型。 1)DI通過構造函數注入依賴,提高代碼的測試性和模塊化。 2)ServiceLocator通過中心註冊獲取服務,方便但可能導致代碼耦合度增加。

phpapplicationscanbeoptimizedForsPeedAndeffificeby:1)啟用cacheInphp.ini,2)使用preparedStatatementSwithPdoforDatabasequesies,3)3)替換loopswitharray_filtaray_filteraray_maparray_mapfordataprocrocessing,4)conformentnginxasaseproxy,5)

phpemailvalidation invoLvesthreesteps:1)格式化進行regulareXpressecthemailFormat; 2)dnsvalidationtoshethedomainhasavalidmxrecord; 3)


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版
好用的JavaScript開發工具