ホームページ  >  記事  >  バックエンド開発  >  Baidu の検索ピンイン関連付け機能の一般原則は何ですか?

Baidu の検索ピンイン関連付け機能の一般原則は何ですか?

WBOY
WBOYオリジナル
2016-06-23 14:05:492155ブラウズ

Baidu で「広州」と入力すると、下部に広州と広州のニュースが表示されます。 Baidu がいくつかの人気のあるキーワードをリストし、検索時にこれらのキーワードのピンインを記憶するフィールドを使用しているのではないかと思います。この表を調べてください。ピンインの場合はピンインタグ列とあいまい一致します。試合終了後に結果を返却します。これらは私の想像にすぎませんが、キーワードの重み付けメカニズムがあるようです。 Google で関連情報が見つかりません。思いついたことを実現する他の方法はありますか?英雄を助けてください、ありがとう!


ディスカッションへの返信(解決策)

Baidu で検索するときのドロップダウン メニューの原理は同じです。より具体的なのは、検索技術です。理解できません

ラオスの時間です。 Xu ショータイムをもう一度...

その考えは正しいはずです

小さな関数ですが、実装するのは非常に複雑です
1. 関連付け関数には、もちろん、小さなドキュメントを書くだけで十分です
2. それぞれの単語の関連付けには ajax が必要です

必要ありません 有害ですが、gg を使用すると、ページの応答が遅いとほぼ毎回 Firefox によってこの機能が要求されます
ある巨大なフィルターを通過するため、当然のことですが、私は gg を使用するときは常にこの機能をオフにしています
これらのいくつかの文を書いても問題ありません。見た目は美しいですが、ハードウェアのサポートが必要であることを思い出してください。派手なものは注意して使用してください

基本的には問題ありません。 , しかし、実装するのは少し面倒です
ajax で実装すると、速度が問題になります (ローカルでのテスト中は問題ありません)
そこで、速度を向上させるために、Baidu は「Baidu」をインストールできるようにしますツールバー」と入力すると、コントロールによって完了します

Baidu ツールバーをインストールすると速度が向上するのはなぜですか?

この前、会社の検索部門の人と喧嘩しました たくさんの人脈を作り、一般的な作業について学びました検索エンジンの原則。

検索エンジン内には多くの単語リストがあります:

ストップワードリスト、意味リスト、同義語リスト、中国語ピンイン単語リスト、およびサジェスト。

検索エンジンに中国語のフレーズを入力すると、検索エンジンはまず単語をセグメント化し、次に上記の語彙リストでこれらの単語を検索して、関連情報があるかどうかを確認します。おっしゃるとおり、ピンイン中国語の単語リストを調べてみます。 guangzhou = 広州に遭遇すると、自動的に翻訳されます。次に、広州を優先して検索します。
間違った単語を入力すると、検索エンジンの提案によって修正され、次のメッセージが表示されることがあります: xxx をお探しですか?

実際、上記は検索エンジンによる検索リクエストの処理の 1 つの分岐にすぎず、検索は次のようになります。多くのリクエストが並行して実行されます。
たとえば、検索エンジンに短い文を入力するとします。

検索エンジンはまず検索対象のコンテンツを決定します:
1 全文
2 標準的な単語分割 (中国語の文法に従った単語分割として理解できます)
3 自然な単語分割 (単一の単語、スペース、
...

次に、各分岐と上記の補助語リストを使用して、検索するコンテンツを最適化します。
複数の分岐が同時にリクエストされ、複数の結果セットが取得されます。
次のステップは、並べ替えの問題に対処することです。一般的に、文全体の検索によって得られた結果が最も関連性が高いため、重みも最も高く、最初にランク付けされる必要があります。しかし実際には、検索エンジンは、検索したいコンテンツのプロモーションの位置やより公式な結果も考慮する場合があります (たとえば、nginx を検索した場合、nginx の公式 Web サイトが最初にランクされる必要があります)。あるいはBaiduのBaiduプロモーションでは、前面に配置される可能性があります。

実際、並べ替えのロジックは非常に複雑です。それは「カーブ」と呼ばれるいくつかの次元に沿ってランキングを決定します。各次元のパラメータを調整すると、ソート結果に影響を与えます。


Baidu で広州と入力すると、一番下に広州と広州のニュースが表示されます。 Baidu がいくつかの人気のあるキーワードをリストし、検索時にこれらのキーワードのピンインを記憶するフィールドを使用しているのではないかと思います。この表を調べてください。ピンインの場合はピンインタグ列とあいまい一致します。試合終了後に結果を返却します。これらは私の想像にすぎませんが、キーワードの重み付けメカニズムがあるようです。 Google で関連情報が見つかりません。思いついたことを実現する他の方法はありますか?英雄を助けてください、ありがとう!



基本手順
(1) ピンインを取得し、可能な限り中国語の文字に変換します。
(2) この漢字または文字列の中で最も可能性が高いものが最初にランク付けされます。



なぜどれが最も可能性が高いかについて。これはデータ分析の結果から得られたもので、最も可能性の高いランキングが上位にあります。 Baidu は 1 日に 1 億回以上使用されており、データ分析を通じて、ユーザーが使用すればするほど精度が高くなります。




default7 導入できる簡単な検索および並べ替えアルゴリズムはありますか?

この問題が明確になれば、Baidu のテクノロジーとのインタビューでは、アクセス数と速度の多さにより、リレーショナル データベースに直接アクセスできないことが明らかになります。

Baidu のマスターは存在しますか。もう少し簡単に説明してもらえますか?公開する情報が少なすぎます

私は少し前に会社の検索部門の人々と多くの交流を持ち、検索エンジンの一般的な動作原則について学びました。


検索エンジン内には多くの単語リストがあります:

ストップワードリスト、意味リスト、同義語リスト、中国語ピンイン単語リスト、およびサジェスト。

検索エンジンに中国語のフレーズを入力すると、検索エンジンはまず単語をセグメント化し、次に上記の語彙リストでこれらの単語を検索して、関連情報があるかどうかを確認します。おっしゃる通り、ピンイン中国語の単語リストを調べてみます。広州 = 広州に出会ったら、ただ...
お勧めできる関連論文はありますか?

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。