百度的搜索拼音联想功能是大致上的原理是怎样的呢谢谢！

2016-06-23 14:05 2489浏览原创

回复讨论(解决方案)

百度搜索时的下拉菜单原理是一样的 ,再具体就是搜索技术了,不懂了

又到老徐showtime了...

我觉得你的想法应该是正确的.

一个小功能，但做起来是很复杂的
1.联想功能需要数据库，当然小型的写个文档也行了
2.每字联想还要ajax

不用百毒，但我上gg的时候，这个功能几乎每次都被firefox提示页面响应迟缓
可以理解，因为经过某巨型过滤器的原因，所以我用gg都是关闭这个功能的
写这几句没什么特别意思，只是提醒你虽然看上去很美，但还是离不开硬件支持的，慎用花哨的东西

原理上没有问题，实现起来有点麻烦
如果用 ajax 实现，那么速度是一个问题（本地测试时不会有问题）
所以百度为了提高速度，会让你安装“百度工具条”由控件完成

为什么装了百度工具条能够提高速度呢

前阵子和公司搜索部的人打了很多交到，了解了搜索引擎的工作大致原理。

搜索引擎内部有很多词表:

停词表，建义词表，同义词表、汉字-拼音的词表、suggest。

当你在搜索引擎上输入一个中文短句，搜索引擎首先会进行分词，然后将这些词，分别去上面提到的几个词表中查找有没有相关联的信息。如你所说的，就会去查找拼音-汉字的词表。遇到guangzhou = 广州，就会自动翻译过来。然后优先拿广州去进行搜索。
当你输入一个错误词后，可能会被搜索引擎的suggest纠正过来并提示你:您要找的是不是xxx?

其实上面只是搜索引擎处理搜索请求的其中一个分支，一次搜索会并行进行很多请求。
比如你在搜索引擎输入个短句。

搜索引擎首先会确定要搜索的内容：
1 整句
2 标准分词(可以理解为按中文语法分词)
3 自然分词(按单字、空格、标点进行分词)
...

然后分表拿每个分支，上面提到的那些辅助的词表，优化将要搜索的内容。
几个分支同时请求，拿到多个结果集。
接下来就是处理排序的问题了，一般来说，整句搜索拿到的结果相关度最高，所以权重也最高，理应排在第一位。但现实中的搜索引擎可能还要考虑到推广位，以及你要搜索的内容有更加官方的结果(比如你搜nginx，nginx的官方网站应该排在第一位)。或者是百度的百度推广，它可能会放在前面。

大致就是这样，实际上排序的逻辑是非常复杂的。它会根据好几个维度来确定排序结果，他们称这些叫“曲线”。当他调整每个维度的参数后，对排序结果都会产生影响。

在百度中输入guangzhou下方就会提示广州、广州新闻。我在想百度是不是将一些热门关键字，然后用一个字段记住这些关键字的拼音；搜索的时候就直接查这个表。如果是拼音，就模糊匹配这个拼音标示列。完成匹配后将结果返回。这些只是我的想象，好像当中还有关键字权重机制。谷歌找不到相关资料；是不是有其它方式实现我没想到的呢。求助大侠谢谢！

原理步骤
（1）获取拼音，转换成最可能的中文汉字。
（2）在这一串汉字或字符串中最可能的排越前。

至于为什么哪些是最可能的。这个是来自于数据分析结果，排序的最可能排最前面。百度每天的使用人次不止1亿次，通过数据分析当然使用越多越精准。

default7 有没些简单的搜索排序算法介绍一下呢。

如果弄清了这个问题, 对面试百度技术不会有什么问题. 可以透露一点, 由于大访问量和速度的原因, 不会直接访问关系数据库.

楼上是不是百度的大神啊可不可以再多一点，我想做个简单的。你透露的太一点点了阿