찾다

 >  Q&A  >  본문

node.js - 怎么用nodejs分析出爬的不同网页那部分是文章标题和内容主体,有相关资料吗

怎么用nodejs分析出爬的不同网页那部分是文章标题和内容而不是页面的其他元素,有相关资料吗

大家讲道理大家讲道理2785일 전632

모든 응답(3)나는 대답할 것이다

  • PHPz

    PHPz2017-04-17 11:32:04

    如果是特定的网站,可以根据其页面做些匹配。
    如果想兼容所有的网站就很难了。只根据标签名识别肯定不准。应该有神经网络,机器学习之类的算法。

    회신하다
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-17 11:32:04

    可以使用cheerio模块比较方便。
    例子:http://www.focalhot.com/blog/62.html

    회신하다
    0
  • 巴扎黑

    巴扎黑2017-04-17 11:32:04

    内容主题可以尝试用行块密度
    标题只能找h1-h3这种标签了

    회신하다
    0
  • 취소회신하다