採集模組



模組常用操作

##

說明:

#  文章的採集功能是透過程式遠端取得目標網頁內容,經過本地規則解析處理後儲存到伺服器的資料庫內。 

#  文章採集系統顛覆傳統採集模式與流程,採集規則與採集介面分離,規則設定更簡單,只需有基礎技術知識的人員設定相關規則。編輯人員無需了解太過細節的技 術規則,只需選中自己想要採集的文章列表,就可以像發布文章一樣,輕鬆地完成數據採集操作。 
#  
一、採集流程
#  
# 簡單的講有三個步驟:
1、新增採集點,填寫採集規則。
2、採集網址,採集內容
# 3.發佈內容到指定欄位
#  
# 以採集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
 
實例說明:
#  
# 目標:收集新浪新聞到V9 系統 國際新聞 專欄。 
# 目標網址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
#  
#  
# 1、新增採集點
 
# 1.1 網址規則配置
#  
70.jpg
 
#  
#                        新增擷取點 - 網址規則設定圖1
 
#  
# 查看要採集的目標網址原始碼,查找到要採集網址的開始點和結束點(這二個點要有在整個原始碼裡具有唯一性)。更進一步縮小採集網址搜尋範圍。
 
71.jpg
 
#                       新增擷取點 - 網址規則設定圖2
 
測試你的網址採集規則是否正確,如下圖所示
 
72.jpg
 
#  
# 1.2 內容規則配置 
#  
內容規則這裡看起來比較複雜,其實也很簡單,為了方便說明,我們只收集標題、內容兩個欄位。擷取內容網址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容擷取規則,請你開啟這個網址,然後頁面空白處右鍵->查看來源文件搜尋標題和內容的開始邊界。
 
標題採集設定:
# 從網頁<title></title>裡取標題,並移除不需要的字元。如下圖
 
73.jpg
 
# 內容採集配置:
 
# 新浪新聞最終頁,新聞內容都包含在 <!-- 正文內容begin --> <!-- 正文內容end --> 之間,而且這二個結點,在整個頁面原始碼中具有唯一性。所以可以以此為規則取內容。並對內容進行過濾。如下圖  
 
74.jpg
 
# 1.3 自訂規則
 
# 1.4 進階配置
 
# 可設定是否把圖片下載到伺服器上,是否打浮水印等配置。
 
75.jpg
 
2、採集網址,採集內容
 
# 採集規則配好以後,即可進行網址的採集,然後進行內容的採集。
 
76.jpg  
#  
#  
3、發佈內容到指定欄位
 
  77.jpg  
  78.jpg
 
# 選擇導入的欄位
 
79.jpg
#  
設定 擷取內容與資料庫的欄位對應關係.提交進行資料入庫,在此期間請耐心等待, 完成後會自動轉向。至此一個簡單的採集流程就操作完成。
 
# 其它更多功能,期待你發掘。
 
#  
#  
#  
#  
#  
#  


操作名稱說明
# 擷取流程詳述
其它功能說明#無