Maison  >  Article  >  développement back-end  >  如何一个通用的方法取得大部分文章的标题及内容

如何一个通用的方法取得大部分文章的标题及内容

WBOY
WBOYoriginal
2016-06-06 20:42:25949parcourir

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

回复内容:

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn