ホームページ > 記事 > テクノロジー周辺機器 > 事前訓練された言語モデルに基づく業界検索の応用と研究
##上の図は、DAMO アカデミーの自然言語処理インテリジェンスの技術ブロック図で、下から上に次のものが含まれています。
##産業用インターネットと民生用インターネットの検索の本質は同じです。ユーザーは情報取得ニーズがあると同時に情報リソース ライブラリを持っており、この 2 つは検索エンジンを通じて橋渡しされます。
# e コマースのシナリオを例に挙げます。たとえば、ユーザーが e コマース ストアで aj1 ノースカロライナ ブルーの新しいスニーカーを検索するとします。このようなユーザーのクエリをよりよく理解するには、一連のタスクを実行する必要があります:
クエリ理解の分析: NLP エラー修正、単語セグメンテーションとカテゴリ 予測、エンティティ認識の単語重み付け、クエリの書き換えおよびその他のテクノロジー
スパース検索: 従来は、単語に基づいて転置インデックスを構築し、同時にクエリを理解するための一連の機能を構築していました。 this. 、いくつかのテキスト関連性ソートなどを含む;
#リコールフェーズ:
左からそうです、モデルの複雑さと効果の精度はより高くなります。右から左に向かって、処理されるドキュメントの数が増加します。淘宝網の電子商取引を例に挙げると、リコール (10 億)、予備ランキング (数十万)、細かいランキング (数百、千)、並べ替え (数十) などです。
#生産リンクの検索は、検索効果とエンジニアリング効率がトレードオフの関係にあるシステムです。コンピューティング能力が向上するにつれて、複雑なモデルが置き換えられ始めます。たとえば、細かく分類されたモデルは、徐々に大まかな分類またはリコールの段階に移行します。
検索効果の評価:#想起: 想起または結果なしの割合
検索は、業界のシナリオによって大きく異なります。こちらをご覧ください。これは、消費者向けインターネット検索と産業用インターネット検索に分かれています:
#ユーザー グループと UV
AliceMind は、DAMO アカデミーによって構築された階層型事前トレーニング言語モデル システムです。一般的な事前トレーニング モデル、多言語、マルチモーダル、対話などが含まれており、すべての NLP タスクのベースとなります。
検索単語の分割 (アトミック機能) , 検索インデックスの粒度を決定し、その後の相関や BM25 の粒度にも関係します。タスク固有のタスクについては、一部の事前トレーニングをカスタマイズすると、一般的な事前トレーニングよりも効果が高くなります。たとえば、最近の研究では、統計単語、グラム粒度、境界エントロピーなどの教師なし統計情報をネイティブ BERT 事前トレーニング タスクに追加し、事前トレーニングに mse 損失を追加することを望んでいます。 CWS/POS と NER (右の図) では、多くのタスクが SOTA に到達しました。
別の研究は横断的なものです。データにラベルを付けたり、毎回監視タスクを構築したりするコストは非常に高いため、クロスドメインの教師なし単語分割メカニズムを構築する必要があります。右下の表は一例ですが、ECの単語分割はオープンソースの単語分割と比べて品質が大幅に向上しており、この手法はACL2020でも公開されています。
##Search 固有表現認識には主に、クエリとドキュメントの構造化された理解と、キー フレーズとタイプの識別が含まれます。同時に、検索知識グラフの構築も NER 関数に依存します。
#NER の検索にはいくつかの課題もあります。主な理由は、クエリが比較的短く、コンテキストが欠けていることが多いためです。たとえば、電子商取引のクエリ エンティティは非常に曖昧で知識が豊富です。したがって、近年の NER の最適化の中心となるアイデアは、コンテキストや知識の導入を通じて NER の表現を強化することです。
#2020 年と 2021 年に暗黙的な強化作業コンボの埋め込みを行いました。既存の単語抽出または GLUE 表現を動的に統合することにより、多くのビジネス タスクで使用して SOTA を実現できます。
2021 年には、明示的な検索の強化を開発し、テキストの一部が検索エンジンを通じて強化されたコンテキストを取得し、それをトランスフォーマー構造に統合します。この作品はACL 2021に掲載されました。
この成果に基づいて、私たちは SemEval 2022 の多言語 NER 評価に参加し、10 回のチャンピオンシップを獲得し、最優秀システム論文も受賞しました。
BERT 自体は非常に効果的ですが、実際の効果は非常に小さいですGPU クラスターがあり、タスクごとに推論が必要になるため、パフォーマンスの面で非常にコストがかかります。推論を 1 回だけ実行できるかどうかを検討し、エンコーダーの後に各タスクを独自に適応させて、より良い結果が得られるようにします。 #直感的な方法は、メタタスク フレームワークを通じて NLP クエリ分析タスクを組み込むことです。しかし、従来のメタタスクは均一にサンプリングされた分布です。我々は、さまざまなタスクに対してサンプリングを自己適応させる適応型メタ学習ベースの手法である MOMETAS を提案します。複数のタスクを学習するプロセスでは、さまざまなタスクの学習の効果を確認するためのテストに検証データを定期的に使用します。報酬は、以前のトレーニングのサンプリングをガイドします。 (下表) 多くのタスクでこのメカニズムを組み合わせると、UB (均一分散) と比較して多くの改善が得られます。 上記のメカニズムを多くの業界の検索シナリオに適用すると、BERT を通じてエンコーディングと保存は多くの下流タスクで直接再利用できるため、パフォーマンスが大幅に向上します。 深い検索2 つのタワーまたは 1 つのタワーにすぎません。一般的なトレーニング パラダイムは、教師付き信号と事前トレーニングされたモデルです。埋め込みを取得するために Finetune が実行され、クエリとドキュメントが表現されます。最近の最適化ルートは主にデータ強化または困難なサンプル マイニングであり、もう 1 つは事前トレーニングされた言語モデルの最適化です。ネイティブ BERT は検索に特に適したテキスト表現ではないため、テキスト表現を検索するための事前トレーニングされた言語モデルが存在します。その他の最適化は、マルチビュー テキスト表現と特殊損失設計にあります。
## MS MARCO で実験を行って、以前の実践と比較して最良の結果を達成してください。実際のシーン検索タスクでも、大きな改善をもたらす可能性があります。同時にMSランキングにも参戦した。 6. HLATR 再配置モデル ROM リコール段階を除くさらに、詳細なランキングと再ランキングの段階では、一連のリスト対応の Transformer 再ランキングが提案されており、Transformer を通じて多くの分類器の結果が有機的に統合され、比較的大きな改善がもたらされます。
ROM と HLATR の 2 つのソリューションを組み合わせた場合、3 月から現在 (7 月) までの結果は依然として SOTA です。
#これは製品の技術ブロック図です。下から上に、リンク全体を接続するための検索エンジン ベースのフレームワークを含む、アドレス ナレッジ グラフとアドレス事前トレーニング言語モデルの構築が含まれます。上記のベンチマーク機能は API の形式で提供され、業界ソリューションにパッケージ化されています。
このテクノロジーのより重要なポイントの 1 つは、地理的意味論の事前トレーニング済み言語モデルです。住所はテキストでは文字列として表されますが、実際には空間内の経度と緯度で表されることが多く、地図上には対応する画像が表示されます。したがって、これら 3 つのモダリティの情報は、その場所でのタスクをサポートするためにマルチモーダル地理意味論的言語モデルに有機的に統合されます。
上で述べたように、単語の分割、エラー修正、構造化など、アドレスに関連する多くの基本的な機能が必要です。その他の分析。 中心となるリンクは、地理的な事前トレーニング言語モデルを橋渡しし、基本的なタスクに対処し、検索エンジンをトリガーすることでそれらを橋渡しすることです。たとえば、Zhejiang No. 1 Hospital を検索する場合、構造化、同義語の修正、用語の重み付け、ベクトル化、Geohash 予測を実行できます。解析結果をもとにリコールを行います。このリンクは、テキスト呼び出し、ピンイン呼び出し、ベクトル呼び出しを実行し、地理的呼び出しも追加する標準の検索リンクです。リコールの後には、多粒度の特徴融合を含む多段階のソートが続きます。
#住所検索システムの直感的なアプリケーションは、住所を入力して提案シーンで検索するか、Amap マップで検索することです。ある時点で、スペースにマッピングする必要があります。 # 次に、比較的産業用途に適した 2 つのソリューションを紹介します。 1 つ目は、新しい小売ファミリー ID であり、顧客管理システムを維持することが中心的な要件ですが、各システムのユーザー情報が接続されておらず、効果的な統合が達成できません。
例えば、ブランドメーカーがエアコンを販売する際、購入・設置・メンテナンスのため、家族がさまざまな住所や携帯電話番号を登録するが、実際には対応する住所は同じ住所である。確立されたアドレス検索正規化テクノロジーは、さまざまな表現でアドレスを正規化し、フィンガープリントを生成し、さまざまなユーザー ID をファミリーの概念に集約します。 # 家族による集約の概念は、新しい小売の下で、より優れた浸透分析、広告リーチ、その他のマーケティング活動を達成します。 #もう 1 つのアプリケーション シナリオは、119、129、緊急およびその他のインテリジェント アラーム受信アプリケーションです。人々の個人的および財産の安全に関わるため、一秒一秒が重要です。私たちは、音声認識技術とテキスト意味理解技術を組み合わせることで、この効率を向上させたいと考えています。 (左の例) このシーンには、ASR 転写におけるタイプミス、流暢さ、口語表現など、多くの特徴があります。 . .目標は、自動音声文字起こし分析に基づいてアラームの位置を推測することです。 #2. 教育写真検索トピック
#写真検索の質問にはいくつかの特徴があり、段階的に更新される質問バンクがあり、大規模なユーザー ベースを持っています。さらに、さまざまな分野や年齢層に対応する分野の知識が豊富です。同時に、これは OCR からその後の意味理解と検索までの一連のリンクを備えたマルチモーダル アルゴリズムでもあります。
近年、写真収集のためにアルゴリズムからシステムまでの完全なリンクが構築されています。
#たとえば、携帯電話で写真を撮って OCR 認識した後、スペル修正、主題予測、単語分割、単語分割などの一連の作業が実行されます。検索を容易にするために、単語の重み付けが実行されます。 OCR は英語のスペースを認識しないため、K12 英語事前トレーニング アルゴリズム モデルのセットは、英語のセグメンテーション。 同時に、主題や質問の種類は未知であるため、事前に予測する必要があります。マルチモダリティを使用して画像とテキストを組み合わせて意図を理解します。 写真検索の質問は通常のユーザー検索とは異なります。ユーザー検索のクエリは短いことが多いですが、写真検索の質問は多くの場合、完全な質問です。質問内の多くの単語は重要ではないため、単語の重み分析を実行し、重要でない単語を破棄するか、並べ替えてランクを下げる必要があります。 #写真検索シーンにおける最も明白な最適化効果は、ベクトルの再現です。パフォーマンス要件により、OR リコール メカニズムの使用が困難になり、AND ロジックを使用する必要がありますが、その分リコールが比較的少ないという特徴があります。再現率を向上させるには、用語の重み付けやエラー修正などの冗長モジュールをさらに実行する必要があります。 (右の図) テキストとベクトルのマルチチャンネルリコール効果は純粋な OR ロジックの効果を上回り、レイテンシは 10 分の 1 に短縮されます。 #写真検索リンクには、画像ベクトル再現、式再現、およびパーソナライズされた再現が含まれます。 #2 つ目は、グラフィックスを含む写真を撮影することです。これは、マルチチャンネルでの画像呼び出しと組み合わせる必要があります。 3. 電力知識ベースの統合検索 4. アダプティブ マルチタスク トレーニング
3. 業界検索アプリケーション
##1. アドレス分析製品
DAMO アカデミーが開発したアドレス解析製品は、さまざまな業界に多数の対応アドレスが存在するという事実に基づいています。中国語の通信アドレスには、口語表現のデフォルトが多いなど、多くの特徴があります。同時にアドレスはそれ自体が人や物であり、客観世界の多くの存在を橋渡しする重要な存在単位でもあります。したがって、これに基づいて、解析、補完、検索、およびアドレス分析を提供する一連のアドレス ナレッジ グラフが確立されました。
次にご紹介するのは、教育業界 写真コレクション ビジネスも、To C や教師向けに多くの需要があります。
##エンタープライズ検索には半構造化データと非構造化データが大量にあり、企業がデータ リソースを統合するのに役立つ統合検索が提供されます。電力業界に限らず、他の業界でも同様のニーズがあります。ここでの検索はもはや絞り込み検索ではなく、文書の前処理とナレッジ グラフの構築の AI に加え、その後の質問と回答の橋渡しをする機能も含まれています。上記は電力知識ベースにおける機関標準テキスト群の構築から検索、応用までの作成の模式図です。
以上が事前訓練された言語モデルに基づく業界検索の応用と研究の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。