Maison >interface Web >tutoriel HTML >网页正文信息一般存储在哪里_html/css_WEB-ITnose

网页正文信息一般存储在哪里_html/css_WEB-ITnose

WBOY
WBOYoriginal
2016-06-24 12:10:261904parcourir

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊


回复讨论(解决方案)

呵呵 
这个不好说 反正在body里面
哈哈

呵呵 
这个不好说 反正在body里面 
哈哈
看到一篇论文说一般是放在table里的

table是表格,以前做网页一般都是用表格来做排版和放置正文,现在很多网站都是用DIV+CSS的形式来,那么文字就可能是放在DIV中,而并非表格

也可以放在数据库里面,更新,维护容易

感觉说得比较模糊...有两种可能:1,是显示的正文,这里当然是指

和之间的内容,2,网页正文,即组成该网页的所以内容,也即和之间的内容(前面那句代码估计也是吧?不清楚),这好象是网络爬虫搜索的内容,根据你的题目(基于统计的网页正文信息抽取)估计是通过提取web页面内容然后搜索指定内容进行统计...所以应该上第二种情况...呵呵

这要“具体网站具体分析”了吧,有的网站主要数据内容是在table中,有的却可能在div,甚至dl、ol、ul中。

放在html里呵呵,

放在里




这不都扯淡的么

爱放哪儿就放哪儿

引用 1 楼 xming4321 的回复:
呵呵 
这个不好说 反正在body里面 
哈哈 
 
看到一篇论文说一般是放在table里的
一般正文信息在段落

中,因为

才是符合标准的终端块状元素,
现在的网页都用div css进行排版,
所以放在

中的都是些存在纵横表格式关系的数据信息。

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊
请问楼主的正文抽取程序搞定了吗 能不能发我一份参考一下 非常感谢!!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn