Home  >  Article  >  Backend Development  >  如何避免页面的关键字和描述

如何避免页面的关键字和描述

WBOY
WBOYOriginal
2016-06-13 13:53:50764browse

如何处理页面的关键字和描述
新闻类,程序自动从其他网站获取正文,然后保存成html文件,如何获取正文中的关键字信息,把静态页面里的keyword和Description内容替换掉

------解决方案--------------------
比较麻烦,正则提取替换试试
------解决方案--------------------
什么才叫正文中的关键字信息?
------解决方案--------------------
分词
------解决方案--------------------
想要得到可以替换掉keyword内容的数据,必须从数据库中提取关键字,
数据的保存格式类似于论坛的分区和帖子之间的父子关系。

但,问题是关键字如何生成。

我觉得生成关键字方式主要分为以下两种:
1.手动提交
也就是在提交新闻的时候,有一个关键字的栏,人工输入需要的关键字。
2.自动提交提交新闻的时候根据内容生成
从一篇文章中提取关键字是一项很繁琐的运算,通常叫做分词,也是搜索引擎的关键技术之一。
想要做到即使提取是不太可能的。可以分为以下两种:
2.1 提交新闻时自动输入
提交新闻的时候,可以用JavaScript从内容中提取关键字,当然,如果内容较长,提取的时间也会变长。
不过,提交内容的时间稍微长一点,通常不会影响到UI的操作质量,而且,具体想要分析到哪一步,可以根据情况而定。
2.2 后台程序自动生成
简而言之,就是用一个后台程序,分析新闻内容,然后自动生成关键字信息,保存到数据库中。

DZ论坛关键字的提取,就是方法1和2.1的结合。
lz可以根据自己的需求选择适合自己的方法。
------解决方案--------------------
分词,很麻烦的

主要是分词加词频统计

智能检索文本并提取关键词
呵呵,你能做的话可以开发搜索引擎和智能翻译系统了

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn