爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。
请问这里原始网页库是该怎么实现,是直接存到数据库里吗?还是什么形式?
如果是存到数据库里,应该有哪些字段?
PHP中文网2017-04-17 17:49:58
推薦大家使用下神箭手雲爬蟲( http://www.shenjianshou.cn ),完全在雲上編寫和執行爬蟲,不需要配置任何開發環境,快速開發快速實現。
簡單幾行javascript 就可以實現複雜的爬蟲,同時提供許多功能函數:反反爬蟲、 js 渲染、資料發布、圖表分析、反防盜鍊等,這些在開發爬蟲過程中經常會遇到的問題都由神箭手幫你解決。
所擷取的資料:
(1)可以選擇發佈到網站,如wecenterwordpressdiscuzdede帝國等cms系統
(2)也可以發佈到資料庫
(3)或匯出檔案到本機
具體設定都在「資料發佈&匯出」中