Heim  >  Artikel  >  Web-Frontend  >  网页正文信息一般存储在哪里_html/css_WEB-ITnose

网页正文信息一般存储在哪里_html/css_WEB-ITnose

WBOY
WBOYOriginal
2016-06-24 12:10:261874Durchsuche

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊


回复讨论(解决方案)

呵呵 
这个不好说 反正在body里面
哈哈

呵呵 
这个不好说 反正在body里面 
哈哈
看到一篇论文说一般是放在table里的

table是表格,以前做网页一般都是用表格来做排版和放置正文,现在很多网站都是用DIV+CSS的形式来,那么文字就可能是放在DIV中,而并非表格

也可以放在数据库里面,更新,维护容易

感觉说得比较模糊...有两种可能:1,是显示的正文,这里当然是指

和之间的内容,2,网页正文,即组成该网页的所以内容,也即和之间的内容(前面那句代码估计也是吧?不清楚),这好象是网络爬虫搜索的内容,根据你的题目(基于统计的网页正文信息抽取)估计是通过提取web页面内容然后搜索指定内容进行统计...所以应该上第二种情况...呵呵

这要“具体网站具体分析”了吧,有的网站主要数据内容是在table中,有的却可能在div,甚至dl、ol、ul中。

放在html里呵呵,

放在里




这不都扯淡的么

爱放哪儿就放哪儿

引用 1 楼 xming4321 的回复:
呵呵 
这个不好说 反正在body里面 
哈哈 
 
看到一篇论文说一般是放在table里的
一般正文信息在段落

中,因为

才是符合标准的终端块状元素,
现在的网页都用div css进行排版,
所以放在

中的都是些存在纵横表格式关系的数据信息。

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊
请问楼主的正文抽取程序搞定了吗 能不能发我一份参考一下 非常感谢!!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn