事前訓練された言語モデルに基づく業界検索の応用と研究-AI-php.cn

ホームページ

テクノロジー周辺機器

事前訓練された言語モデルに基づく業界検索の応用と研究

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 am 11:31 AM

言語モデルエンタープライズ検索

事前訓練された言語モデルに基づく業界検索の応用と研究

1. 業界調査の背景

##1. Damo Academy Natural Language Intelligence の全体像

事前訓練された言語モデルに基づく業界検索の応用と研究

##上の図は、DAMO アカデミーの自然言語処理インテリジェンスの技術ブロック図で、下から上に次のものが含まれています。

NLP データ、NLP 基本語彙、構文とセマンティクス、分析テクノロジー、および上位レベルの NLP テクノロジー

#業界への応用: DAMO アカデミーはさらに多くのことを行います基礎研究に加えて、Alibaba Group に権限を与え、Alibaba Cloud と統合して業界を強化します。業界におけるエンパワーメントのシナリオの多くは検索です。
#2. 業界検索の性質

事前訓練された言語モデルに基づく業界検索の応用と研究 ##産業用インターネットと民生用インターネットの検索の本質は同じです。ユーザーは情報取得ニーズがあると同時に情報リソースライブラリを持っており、この 2 つは検索エンジンを通じて橋渡しされます。

# e コマースのシナリオを例に挙げます。たとえば、ユーザーが e コマースストアで aj1 ノースカロライナブルーの新しいスニーカーを検索するとします。このようなユーザーのクエリをよりよく理解するには、一連のタスクを実行する必要があります:

クエリ理解の分析: NLP エラー修正、単語セグメンテーションとカテゴリ予測、エンティティ認識の単語重み付け、クエリの書き換えおよびその他のテクノロジー

(オフライン) ドキュメント分析: NLP 分析、品質効率分析
検索と並べ替え: クエリとドキュメントの分析と、検索エンジン自体のいくつかの検索および並べ替えメカニズムを組み合わせることで、この 2 つの橋渡しという目標を達成できます。
#3. 業界検索リンク

検索パラダイムに従って分けると、一般にスパース検索とデンス検索に分けられます。

事前訓練された言語モデルに基づく業界検索の応用と研究

スパース検索: 従来は、単語に基づいて転置インデックスを構築し、同時にクエリを理解するための一連の機能を構築していました。 this. 、いくつかのテキスト関連性ソートなどを含む;

#一般に、検索はリンク、呼び出し、並べ替え (大まかな並べ替え、詳細な並べ替え) に分かれています。、並べ替えます）。

事前訓練された言語モデルに基づく業界検索の応用と研究

#リコールフェーズ:

事前訓練された言語モデルに基づく業界検索の応用と研究

#従来の疎な検索のキーワード想起
##密な検索ベクトル想起、パーソナライズされた想起
大まかな並べ替え段階: テキスト関連性 (静的) スコアを使用してフィルタリングする
細かい並べ替え段階: 比較的複雑で、ビジネス効率化モデル (LTR) と組み合わせることができる相関モデルです。

事前訓練された言語モデルに基づく業界検索の応用と研究

左からそうです、モデルの複雑さと効果の精度はより高くなります。右から左に向かって、処理されるドキュメントの数が増加します。淘宝網の電子商取引を例に挙げると、リコール (10 億)、予備ランキング (数十万)、細かいランキング (数百、千)、並べ替え (数十) などです。

#生産リンクの検索は、検索効果とエンジニアリング効率がトレードオフの関係にあるシステムです。コンピューティング能力が向上するにつれて、複雑なモデルが置き換えられ始めます。たとえば、細かく分類されたモデルは、徐々に大まかな分類またはリコールの段階に移行します。

事前訓練された言語モデルに基づく業界検索の応用と研究

検索効果の評価:

#想起: 想起または結果なしの割合

順序付け: 関連性、変換効率 (ビジネスに近い)
関連性: NDCG、MRR
コンバージョン効率: クリックスルー率、コンバージョン率
4. 消費者向けインターネットと産業用インターネットでの検索

事前訓練された言語モデルに基づく業界検索の応用と研究検索は、業界のシナリオによって大きく異なります。こちらをご覧ください。これは、消費者向けインターネット検索と産業用インターネット検索に分かれています:

#ユーザーグループと UV

:消費者向けインターネット検索 UV は非常に規模が大きく、産業用インターネットは政府機関や企業の従業員を対象としています。検索追跡指標
: インターネットを利用する際、検索結果と正確な検索を追求することに加えて、高いコンバージョン率も追求します。インダストリアルインターネットでは、情報の一致の必要性がより重要であるため、想起と関連性に重点を置きます。エンジニアリングシステム要件
: コンシューマーインターネット QPS 要件は非常に高く、多数のユーザーが必要となります。動作が蓄積されるため、リアルタイムのログ分析とリアルタイムのモデルトレーニングが必要になります。産業用インターネットの要件は低くなります。 #アルゴリズムの方向
: 消費者向けインターネットは、オフラインでの大規模なユーザー行動の分析とモデリングから取得されます。ニアライン、オンラインのメリットが大きくなります。産業用インターネットのユーザー行動はまばらであるため、NLP や視覚的理解などのコンテンツ理解により多くの注意が払われます。研究の方向性には、低リソース学習や転移学習が含まれます。 # 2. 関連技術の調査

##検索は withシステムフレームワークは密接に結合されています: オフラインデータ、検索サービスフレームワーク (緑色の部分)、および検索テクノロジアルゴリズムシステム (青色の部分) が含まれます。そのベースとなるのは、Alicemind の事前トレーニング済み言語モデルシステムであり、ドキュメント分析、クエリも収束します。理解と相関関係。待ってください。

事前訓練された言語モデルに基づく業界検索の応用と研究

1.AliceMind システム

事前訓練された言語モデルに基づく業界検索の応用と研究

AliceMind は、DAMO アカデミーによって構築された階層型事前トレーニング言語モデルシステムです。一般的な事前トレーニングモデル、多言語、マルチモーダル、対話などが含まれており、すべての NLP タスクのベースとなります。

2. 単語の分割

事前訓練された言語モデルに基づく業界検索の応用と研究

検索単語の分割 (アトミック機能) , 検索インデックスの粒度を決定し、その後の相関や BM25 の粒度にも関係します。タスク固有のタスクについては、一部の事前トレーニングをカスタマイズすると、一般的な事前トレーニングよりも効果が高くなります。たとえば、最近の研究では、統計単語、グラム粒度、境界エントロピーなどの教師なし統計情報をネイティブ BERT 事前トレーニングタスクに追加し、事前トレーニングに mse 損失を追加することを望んでいます。 CWS/POS と NER (右の図) では、多くのタスクが SOTA に到達しました。

事前訓練された言語モデルに基づく業界検索の応用と研究

別の研究は横断的なものです。データにラベルを付けたり、毎回監視タスクを構築したりするコストは非常に高いため、クロスドメインの教師なし単語分割メカニズムを構築する必要があります。右下の表は一例ですが、ECの単語分割はオープンソースの単語分割と比べて品質が大幅に向上しており、この手法はACL2020でも公開されています。

#3. 固有表現の認識

事前訓練された言語モデルに基づく業界検索の応用と研究

##Search 固有表現認識には主に、クエリとドキュメントの構造化された理解と、キーフレーズとタイプの識別が含まれます。同時に、検索知識グラフの構築も NER 関数に依存します。

#NER の検索にはいくつかの課題もあります。主な理由は、クエリが比較的短く、コンテキストが欠けていることが多いためです。たとえば、電子商取引のクエリエンティティは非常に曖昧で知識が豊富です。したがって、近年の NER の最適化の中心となるアイデアは、コンテキストや知識の導入を通じて NER の表現を強化することです。

事前訓練された言語モデルに基づく業界検索の応用と研究

#2020 年と 2021 年に暗黙的な強化作業コンボの埋め込みを行いました。既存の単語抽出または GLUE 表現を動的に統合することにより、多くのビジネスタスクで使用して SOTA を実現できます。

2021 年には、明示的な検索の強化を開発し、テキストの一部が検索エンジンを通じて強化されたコンテキストを取得し、それをトランスフォーマー構造に統合します。この作品はACL 2021に掲載されました。

この成果に基づいて、私たちは SemEval 2022 の多言語 NER 評価に参加し、10 回のチャンピオンシップを獲得し、最優秀システム論文も受賞しました。

事前訓練された言語モデルに基づく業界検索の応用と研究

#検索の強化: 入力文自体に加えて、追加のコンテキストも追加されます。取得して入力に連結し、KL の損失と組み合わせて学習を支援します。多くのオープンソースデータセットで SOTA を取得。

4. アダプティブマルチタスクトレーニング

事前訓練された言語モデルに基づく業界検索の応用と研究

BERT 自体は非常に効果的ですが、実際の効果は非常に小さいですGPU クラスターがあり、タスクごとに推論が必要になるため、パフォーマンスの面で非常にコストがかかります。推論を 1 回だけ実行できるかどうかを検討し、エンコーダーの後に各タスクを独自に適応させて、より良い結果が得られるようにします。

事前訓練された言語モデルに基づく業界検索の応用と研究

#直感的な方法は、メタタスクフレームワークを通じて NLP クエリ分析タスクを組み込むことです。しかし、従来のメタタスクは均一にサンプリングされた分布です。我々は、さまざまなタスクに対してサンプリングを自己適応させる適応型メタ学習ベースの手法である MOMETAS を提案します。複数のタスクを学習するプロセスでは、さまざまなタスクの学習の効果を確認するためのテストに検証データを定期的に使用します。報酬は、以前のトレーニングのサンプリングをガイドします。 (下表) 多くのタスクでこのメカニズムを組み合わせると、UB (均一分散) と比較して多くの改善が得られます。

事前訓練された言語モデルに基づく業界検索の応用と研究

上記のメカニズムを多くの業界の検索シナリオに適用すると、BERT を通じてエンコーディングと保存は多くの下流タスクで直接再利用できるため、パフォーマンスが大幅に向上します。

5. 検索リコールの事前トレーニング済み言語モデル

事前訓練された言語モデルに基づく業界検索の応用と研究

深い検索2 つのタワーまたは 1 つのタワーにすぎません。一般的なトレーニングパラダイムは、教師付き信号と事前トレーニングされたモデルです。埋め込みを取得するために Finetune が実行され、クエリとドキュメントが表現されます。最近の最適化ルートは主にデータ強化または困難なサンプルマイニングであり、もう 1 つは事前トレーニングされた言語モデルの最適化です。ネイティブ BERT は検索に特に適したテキスト表現ではないため、テキスト表現を検索するための事前トレーニングされた言語モデルが存在します。その他の最適化は、マルチビューテキスト表現と特殊損失設計にあります。

事前訓練された言語モデルに基づく業界検索の応用と研究

#ネイティブ BERT のランダムサンプリングと比較して、検索ワードの重みを組み合わせて単語を改善し、より高い単語の重みを組み合わせて改善します。確率的に、学習された表現は検索の再現に適しています。また、文章レベルの比較学習も追加されています。これら 2 つのメカニズムを組み合わせて、ROM の事前トレーニング済み言語モデルが提案されます。

事前訓練された言語モデルに基づく業界検索の応用と研究 ## MS MARCO で実験を行って、以前の実践と比較して最良の結果を達成してください。実際のシーン検索タスクでも、大きな改善をもたらす可能性があります。同時にMSランキングにも参戦した。

6. HLATR 再配置モデル

事前訓練された言語モデルに基づく業界検索の応用と研究 ROM リコール段階を除くさらに、詳細なランキングと再ランキングの段階では、一連のリスト対応の Transformer 再ランキングが提案されており、Transformer を通じて多くの分類器の結果が有機的に統合され、比較的大きな改善がもたらされます。

ROM と HLATR の 2 つのソリューションを組み合わせた場合、3 月から現在 (7 月) までの結果は依然として SOTA です。

3. 業界検索アプリケーション

##1. アドレス分析製品

事前訓練された言語モデルに基づく業界検索の応用と研究

DAMO アカデミーが開発したアドレス解析製品は、さまざまな業界に多数の対応アドレスが存在するという事実に基づいています。中国語の通信アドレスには、口語表現のデフォルトが多いなど、多くの特徴があります。同時にアドレスはそれ自体が人や物であり、客観世界の多くの存在を橋渡しする重要な存在単位でもあります。したがって、これに基づいて、解析、補完、検索、およびアドレス分析を提供する一連のアドレスナレッジグラフが確立されました。

事前訓練された言語モデルに基づく業界検索の応用と研究 #これは製品の技術ブロック図です。下から上に、リンク全体を接続するための検索エンジンベースのフレームワークを含む、アドレスナレッジグラフとアドレス事前トレーニング言語モデルの構築が含まれます。上記のベンチマーク機能は API の形式で提供され、業界ソリューションにパッケージ化されています。

事前訓練された言語モデルに基づく業界検索の応用と研究このテクノロジーのより重要なポイントの 1 つは、地理的意味論の事前トレーニング済み言語モデルです。住所はテキストでは文字列として表されますが、実際には空間内の経度と緯度で表されることが多く、地図上には対応する画像が表示されます。したがって、これら 3 つのモダリティの情報は、その場所でのタスクをサポートするためにマルチモーダル地理意味論的言語モデルに有機的に統合されます。

事前訓練された言語モデルに基づく業界検索の応用と研究上で述べたように、単語の分割、エラー修正、構造化など、アドレスに関連する多くの基本的な機能が必要です。その他の分析。

中心となるリンクは、地理的な事前トレーニング言語モデルを橋渡しし、基本的なタスクに対処し、検索エンジンをトリガーすることでそれらを橋渡しすることです。たとえば、Zhejiang No. 1 Hospital を検索する場合、構造化、同義語の修正、用語の重み付け、ベクトル化、Geohash 予測を実行できます。解析結果をもとにリコールを行います。このリンクは、テキスト呼び出し、ピンイン呼び出し、ベクトル呼び出しを実行し、地理的呼び出しも追加する標準の検索リンクです。リコールの後には、多粒度の特徴融合を含む多段階のソートが続きます。

事前訓練された言語モデルに基づく業界検索の応用と研究

#住所検索システムの直感的なアプリケーションは、住所を入力して提案シーンで検索するか、Amap マップで検索することです。ある時点で、スペースにマッピングする必要があります。事前訓練された言語モデルに基づく業界検索の応用と研究

# 次に、比較的産業用途に適した 2 つのソリューションを紹介します。 1 つ目は、新しい小売ファミリー ID であり、顧客管理システムを維持することが中心的な要件ですが、各システムのユーザー情報が接続されておらず、効果的な統合が達成できません。

事前訓練された言語モデルに基づく業界検索の応用と研究

例えば、ブランドメーカーがエアコンを販売する際、購入・設置・メンテナンスのため、家族がさまざまな住所や携帯電話番号を登録するが、実際には対応する住所は同じ住所である。確立されたアドレス検索正規化テクノロジーは、さまざまな表現でアドレスを正規化し、フィンガープリントを生成し、さまざまなユーザー ID をファミリーの概念に集約します。

事前訓練された言語モデルに基づく業界検索の応用と研究

# 家族による集約の概念は、新しい小売の下で、より優れた浸透分析、広告リーチ、その他のマーケティング活動を達成します。

事前訓練された言語モデルに基づく業界検索の応用と研究

#もう 1 つのアプリケーションシナリオは、119、129、緊急およびその他のインテリジェントアラーム受信アプリケーションです。人々の個人的および財産の安全に関わるため、一秒一秒が重要です。私たちは、音声認識技術とテキスト意味理解技術を組み合わせることで、この効率を向上させたいと考えています。

事前訓練された言語モデルに基づく業界検索の応用と研究

(左の例) このシーンには、ASR 転写におけるタイプミス、流暢さ、口語表現など、多くの特徴があります。 . .目標は、自動音声文字起こし分析に基づいてアラームの位置を推測することです。

事前訓練された言語モデルに基づく業界検索の応用と研究

# 私たちは、対話の理解のためのスムーズな音声言語エラー修正、意図認識、最終的に住所の推奨を達成するための一連の検索および呼び出しメカニズムを含む、完全なシステムソリューションセットを提案してきました。このリンクは比較的成熟しており、中国の何百もの都市の防火システムに導入されています。消防士は警報の会話から特定の場所を特定し、推奨、照合、およびフェンスのアドレス指定を組み合わせて特定の場所を特定し、それに応じて警報を送信します。

#2. 教育写真検索トピック

事前訓練された言語モデルに基づく業界検索の応用と研究

次にご紹介するのは、教育業界写真コレクションビジネスも、To C や教師向けに多くの需要があります。

事前訓練された言語モデルに基づく業界検索の応用と研究 #写真検索の質問にはいくつかの特徴があり、段階的に更新される質問バンクがあり、大規模なユーザーベースを持っています。さらに、さまざまな分野や年齢層に対応する分野の知識が豊富です。同時に、これは OCR からその後の意味理解と検索までの一連のリンクを備えたマルチモーダルアルゴリズムでもあります。

事前訓練された言語モデルに基づく業界検索の応用と研究近年、写真収集のためにアルゴリズムからシステムまでの完全なリンクが構築されています。

事前訓練された言語モデルに基づく業界検索の応用と研究

#たとえば、携帯電話で写真を撮って OCR 認識した後、スペル修正、主題予測、単語分割、単語分割などの一連の作業が実行されます。検索を容易にするために、単語の重み付けが実行されます。

事前訓練された言語モデルに基づく業界検索の応用と研究

OCR は英語のスペースを認識しないため、K12 英語事前トレーニングアルゴリズムモデルのセットは、英語のセグメンテーション。

事前訓練された言語モデルに基づく業界検索の応用と研究

同時に、主題や質問の種類は未知であるため、事前に予測する必要があります。マルチモダリティを使用して画像とテキストを組み合わせて意図を理解します。

事前訓練された言語モデルに基づく業界検索の応用と研究

写真検索の質問は通常のユーザー検索とは異なります。ユーザー検索のクエリは短いことが多いですが、写真検索の質問は多くの場合、完全な質問です。質問内の多くの単語は重要ではないため、単語の重み分析を実行し、重要でない単語を破棄するか、並べ替えてランクを下げる必要があります。

事前訓練された言語モデルに基づく業界検索の応用と研究

#写真検索シーンにおける最も明白な最適化効果は、ベクトルの再現です。パフォーマンス要件により、OR リコールメカニズムの使用が困難になり、AND ロジックを使用する必要がありますが、その分リコールが比較的少ないという特徴があります。再現率を向上させるには、用語の重み付けやエラー修正などの冗長モジュールをさらに実行する必要があります。 (右の図) テキストとベクトルのマルチチャンネルリコール効果は純粋な OR ロジックの効果を上回り、レイテンシは 10 分の 1 に短縮されます。

事前訓練された言語モデルに基づく業界検索の応用と研究

#写真検索リンクには、画像ベクトル再現、式再現、およびパーソナライズされた再現が含まれます。

事前訓練された言語モデルに基づく業界検索の応用と研究

# 例を 2 つ挙げてください。 1つ目は平文のOCR結果です (左列) 古い結果はES、単純ORリコールにBM25の結果を加えたものです (右列) マルチチャネルリコールと相関リコール後のリンクは大幅に向上しています改善されました。

#2 つ目は、グラフィックスを含む写真を撮影することです。これは、マルチチャンネルでの画像呼び出しと組み合わせる必要があります。

3. 電力知識ベースの統合検索

事前訓練された言語モデルに基づく業界検索の応用と研究

##エンタープライズ検索には半構造化データと非構造化データが大量にあり、企業がデータリソースを統合するのに役立つ統合検索が提供されます。電力業界に限らず、他の業界でも同様のニーズがあります。ここでの検索はもはや絞り込み検索ではなく、文書の前処理とナレッジグラフの構築の AI に加え、その後の質問と回答の橋渡しをする機能も含まれています。上記は電力知識ベースにおける機関標準テキスト群の構築から検索、応用までの作成の模式図です。

以上が事前訓練された言語モデルに基づく業界検索の応用と研究の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。