搜尋
首頁php教程php手册dede3.1分页文字采集过滤规则详说(图文教程)续四

dede3.1分页文字采集过滤规则详说(图文教程)续四

Jun 13, 2016 pm 12:32 PM
內容分頁匹配圖文教學文章規則進行採集

至此,分页内容匹配进行完毕。 

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。 

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:

复制代码 代码如下:


{dede:trim}

(.*)页次{/dede:trim}

采集一下:

=700) window.open('/upload/200743213556612.gif');" src="http://www.bkjia.com/uploads/allimg/131016/06063112Q-0.gif" onload="if(this.width>'700')this.width='700';" border=0>
分页成功了,但废码多,还得改!
看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):

=700) window.open('/upload/200743213556171.gif');" src="http://www.bkjia.com/uploads/allimg/131016/0606314629-1.gif" onload="if(this.width>'700')this.width='700';" border=0>
写个完整的分页过滤规则:

复制代码 代码如下:


{dede:trim}

(.*){/dede:trim} 

再采集下,看看结果:

=700) window.open('/upload/200743213556537.gif');" src="http://www.bkjia.com/uploads/allimg/131016/0606314A6-2.gif" onload="if(this.width>'700')this.width='700';" border=0>

好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划
写一个完成的站点规则:

复制代码 代码如下:


{!-- 节点基本信息 --}

{dede:item name='天水_工作计划_1页'
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}

{!-- 采集列表获取规则 --}

{dede:list source='var' sourcetype='list' 
          varstart='' varend=''}
  {dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}    
  {dede:need}Gzjh/2007-{/dede:need}
  {dede:cannot}Gzjh/2007-1{/dede:cannot}
  {dede:linkarea}[var:区域]{/dede:linkarea}
{/dede:list}

{!-- 网页内容获取规则 --}

{dede:art}
{dede:sppage sptype='full'}

首页 上页[var:分页区域]页次{/dede:sppage}

  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题' 
  isunit='' isdown=''}

    {dede:match}[var:内容]--天水搜索{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = @litpic;{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容' 
  isunit='1' isdown='1'}

    {dede:match}
              
                
              
              
                

[var:内容]


                  
              {/dede:match}
        {dede:trim}(.*){/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}]*)>([^>]*){/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}]*)>([^>]*){/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim}]*)>([^>]*){/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}]*)>([^{/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim}dede3.1分页文字采集过滤规则详说(图文教程)续四]*)>{/dede:trim}
    {dede:trim}]*)>([^{/dede:trim}
    {dede:trim}
]*)>{/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim}
]*)>([^>]*){/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}]*)>([^>]*){/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}]*)>([^>]*){/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}{/dede:trim}
    {dede:trim}]*)>([^>]*)
{/dede:trim}
    {dede:trim}]*)>{/dede:trim}
    {dede:trim}
{/dede:trim}
    {dede:trim} {/dede:trim}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me ='互联网'{/dede:function}

  {/dede:note}
{/dede:art}


陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中