採集模組

模組常用操作

說明：

# 文章的採集功能是透過程式遠端取得目標網頁內容，經過本地規則解析處理後儲存到伺服器的資料庫內。

# 文章採集系統顛覆傳統採集模式與流程，採集規則與採集介面分離,規則設定更簡單，只需有基礎技術知識的人員設定相關規則。編輯人員無需了解太過細節的技術規則，只需選中自己想要採集的文章列表，就可以像發布文章一樣，輕鬆地完成數據採集操作。

一、採集流程

# 簡單的講有三個步驟：

1、新增採集點，填寫採集規則。

2、採集網址，採集內容

# 3.發佈內容到指定欄位

# 以採集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例，作一下詳細流程介紹。

實例說明：

# 目標：收集新浪新聞到V9 系統國際新聞專欄。

# 目標網址：http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml

# 1、新增採集點

# 1.1 網址規則配置

# 新增擷取點 - 網址規則設定圖1

# 查看要採集的目標網址原始碼，查找到要採集網址的開始點和結束點(這二個點要有在整個原始碼裡具有唯一性)。更進一步縮小採集網址搜尋範圍。

# 新增擷取點 - 網址規則設定圖2

測試你的網址採集規則是否正確,如下圖所示

# 1.2 內容規則配置

內容規則這裡看起來比較複雜，其實也很簡單，為了方便說明，我們只收集標題、內容兩個欄位。擷取內容網址：
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容擷取規則，請你開啟這個網址，然後頁面空白處右鍵->查看來源文件搜尋標題和內容的開始邊界。

標題採集設定：

# 從網頁<title></title>裡取標題，並移除不需要的字元。如下圖