採集模組
模組常用操作
##說明:
# 文章的採集功能是透過程式遠端取得目標網頁內容,經過本地規則解析處理後儲存到伺服器的資料庫內。
#
文章採集系統顛覆傳統採集模式與流程,採集規則與採集介面分離,規則設定更簡單,只需有基礎技術知識的人員設定相關規則。編輯人員無需了解太過細節的技 術規則,只需選中自己想要採集的文章列表,就可以像發布文章一樣,輕鬆地完成數據採集操作。
#
一、採集流程
#
#
簡單的講有三個步驟:
1、新增採集點,填寫採集規則。
2、採集網址,採集內容
#
3.發佈內容到指定欄位
#
#
以採集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
實例說明:
#
#
目標:收集新浪新聞到V9 系統 國際新聞 專欄。
#
目標網址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
#
#
#
1、新增採集點
#
1.1 網址規則配置
#

#
#
新增擷取點 - 網址規則設定圖1
#
#
查看要採集的目標網址原始碼,查找到要採集網址的開始點和結束點(這二個點要有在整個原始碼裡具有唯一性)。更進一步縮小採集網址搜尋範圍。

#
新增擷取點 - 網址規則設定圖2
測試你的網址採集規則是否正確,如下圖所示

#
#
1.2 內容規則配置
#
內容規則這裡看起來比較複雜,其實也很簡單,為了方便說明,我們只收集標題、內容兩個欄位。擷取內容網址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容擷取規則,請你開啟這個網址,然後頁面空白處右鍵->查看來源文件搜尋標題和內容的開始邊界。
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容擷取規則,請你開啟這個網址,然後頁面空白處右鍵->查看來源文件搜尋標題和內容的開始邊界。
標題採集設定:
#
從網頁<title></title>裡取標題,並移除不需要的字元。如下圖

#
內容採集配置:
#
新浪新聞最終頁,新聞內容都包含在 <!-- 正文內容begin --> <!-- 正文內容end --> 之間,而且這二個結點,在整個頁面原始碼中具有唯一性。所以可以以此為規則取內容。並對內容進行過濾。如下圖

#
1.3 自訂規則
#
1.4 進階配置
#
可設定是否把圖片下載到伺服器上,是否打浮水印等配置。

2、採集網址,採集內容
#
採集規則配好以後,即可進行網址的採集,然後進行內容的採集。

#
#
3、發佈內容到指定欄位


#
選擇導入的欄位

#
設定 擷取內容與資料庫的欄位對應關係.提交進行資料入庫,在此期間請耐心等待, 完成後會自動轉向。至此一個簡單的採集流程就操作完成。
#
其它更多功能,期待你發掘。
#
#
#
#
#
#
操作名稱 | 說明 |
# 擷取流程詳述 | 無 |
其它功能說明 | #無 |