搜尋

首頁  >  問答  >  主體

node.js - 怎么用nodejs分析出爬的不同网页那部分是文章标题和内容主体,有相关资料吗

怎么用nodejs分析出爬的不同网页那部分是文章标题和内容而不是页面的其他元素,有相关资料吗

大家讲道理大家讲道理2785 天前629

全部回覆(3)我來回復

  • PHPz

    PHPz2017-04-17 11:32:04

    如果是特定的網站,可以根據其頁面做些匹配。
    如果想要相容所有的網站就很難了。只根據標籤名識別肯定不準。應該有神經網絡,機器學習之類的演算法。

    回覆
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-17 11:32:04

    可以使用cheerio模組比較方便。
    範例:http://www.focalhot.com/blog/62.html

    回覆
    0
  • 巴扎黑

    巴扎黑2017-04-17 11:32:04

    內容主題可以嘗試用行塊密度
    標題只能找h1-h3這種標籤了

    回覆
    0
  • 取消回覆