操作名稱 | 說明 |
# 擷取流程詳述 | 無 |
其它功能說明 | #無 |
##說明:
#
文章的採集功能是透過程式遠端取得目標網頁內容,經過本地規則解析處理後儲存到伺服器的資料庫內。
#
文章採集系統顛覆傳統採集模式與流程,採集規則與採集介面分離,規則設定更簡單,只需有基礎技術知識的人員設定相關規則。編輯人員無需了解太過細節的技 術規則,只需選中自己想要採集的文章列表,就可以像發布文章一樣,輕鬆地完成數據採集操作。
#
一、採集流程
#
#
簡單的講有三個步驟:
1、新增採集點,填寫採集規則。
2、採集網址,採集內容
#
3.發佈內容到指定欄位
#
#
以採集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
實例說明:
#
#
目標:收集新浪新聞到V9 系統 國際新聞 專欄。
#
目標網址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
#
#
#
1、新增採集點
#
1.1 網址規則配置
#
#
#
新增擷取點 - 網址規則設定圖1
#
#
查看要採集的目標網址原始碼,查找到要採集網址的開始點和結束點(這二個點要有在整個原始碼裡具有唯一性)。更進一步縮小採集網址搜尋範圍。
#
新增擷取點 - 網址規則設定圖2
#
#
1.2 內容規則配置
#
標題採集設定:
#
從網頁<title></title>裡取標題,並移除不需要的字元。如下圖
#
內容採集配置:
#
新浪新聞最終頁,新聞內容都包含在 <!-- 正文內容begin --> <!-- 正文內容end --> 之間,而且這二個結點,在整個頁面原始碼中具有唯一性。所以可以以此為規則取內容。並對內容進行過濾。如下圖
#
1.3 自訂規則
#
1.4 進階配置
#
可設定是否把圖片下載到伺服器上,是否打浮水印等配置。
2、採集網址,採集內容
#
採集規則配好以後,即可進行網址的採集,然後進行內容的採集。
#
#
3、發佈內容到指定欄位
#
選擇導入的欄位
#
設定 擷取內容與資料庫的欄位對應關係.提交進行資料入庫,在此期間請耐心等待, 完成後會自動轉向。至此一個簡單的採集流程就操作完成。
#
其它更多功能,期待你發掘。
#
#
#
#
#
#