検索
ホームページテクノロジー周辺機器AI手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

テキスト埋め込み (単語埋め込み) は、自然言語処理 (NLP) 分野の基本テクノロジーであり、テキストを意味空間にマッピングし、高密度ベクトル表現に変換できます。この手法は、情報検索 (IR)、質問応答、テキスト類似性計算、推奨システムなど、さまざまな NLP タスクで広く使用されています。テキストの埋め込みにより、テキストの意味と関係をより深く理解できるようになり、NLP タスクの効率が向上します。

情報検索 (IR) の分野では、通常、検索の最初の段階で類似性の計算にテキスト埋め込みが使用されます。これは、大規模なコーパス内の候補ドキュメントの少数のセットを呼び出して、詳細な計算を実行することによって機能します。埋め込みベースの検索も、検索拡張生成 (RAG) の重要なコンポーネントです。これにより、大規模言語モデル (LLM) がモデル パラメーターを変更せずに動的な外部知識にアクセスできるようになります。このようにして、IR システムはテキストの埋め込みと外部の知識をより適切に利用して、検索結果を向上させることができます。

word2vec や GloVe などの初期のテキスト埋め込み学習方法は広く使用されていますが、その静的な特性により、自然言語で豊富なコンテキスト情報を取得する能力は制限されています。しかし、事前トレーニング済み言語モデルの台頭により、Sentence-BERT や SimCSE などのいくつかの新しい手法は、テキストの埋め込みを学習するために BERT を微調整することにより、自然言語推論 (NLI) データセットで大きな進歩を達成しました。これらの方法は、BERT のコンテキスト認識機能を活用してテキストのセマンティクスとコンテキストをより深く理解し、それによってテキスト埋め込みの品質と表現力を向上させます。これらのメソッドは、事前トレーニングと微調整を組み合わせることにより、大規模なコーパスからより豊富な意味情報を学習し、自然言語処理を提供することができます

##テキストの埋め込みを改善するためパフォーマンスと堅牢性、E5 や BGE などの高度な手法では、多段階トレーニングが採用されています。これらはまず、数十億の弱く監視されたテキストのペアで事前トレーニングされ、次にいくつかの注釈付きデータセットで微調整されます。この戦略により、テキスト埋め込みのパフォーマンスを効果的に向上させることができます。

既存のマルチステージ手法にはまだ 2 つの欠陥があります:

1. 複雑なマルチステージ トレーニング パイプラインの構築には多大なエンジニアリングが必要です多数の相関ペアを管理する作業。

2. 微調整は手動で収集されたデータセットに依存しますが、多くの場合、タスクの多様性と言語範囲によって制限されます。

ほとんどのメソッドは BERT スタイルのエンコーダーを使用し、より優れた LLM および関連テクニックのトレーニングの進行状況を無視します。

マイクロソフトの研究チームは最近、以前の方法の欠点のいくつかを克服するための、シンプルで効率的なテキスト埋め込みトレーニング方法を提案しました。このアプローチでは、複雑なパイプライン設計や手動で構築したデータセットは必要ありませんが、LLM を利用して多様なテキスト データを合成します。このアプローチにより、トレーニング プロセス全体の所要ステップは 1,000 未満でありながら、約 100 の言語で数十万のテキスト埋め込みタスクに対して高品質のテキスト埋め込みを生成することができました。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

論文リンク: https://arxiv.org/abs/2401.00368

具体的には、研究者らは 2 段階のプロンプト戦略を使用しました。最初に LLM に候補タスクのプールをブレインストーミングするよう促し、次に LLM にそのプールから特定のタスクのデータを生成するよう促しました。

さまざまなアプリケーション シナリオをカバーするために、研究者はタスクの種類ごとに複数のプロンプト テンプレートを設計し、さまざまなテンプレートによって生成されたデータを組み合わせて多様性を高めました。

実験結果は、「合成データのみ」を微調整すると、Mistral-7B が BEIR および MTEB ベンチマークで非常に競争力のあるパフォーマンスを達成することを証明しています。合成および Sota のパフォーマンスが達成できるのは、注釈付きデータは微調整されます。

大規模なモデルを使用してテキストの埋め込みを改善する

1. 合成データの生成

最先端の技術を利用するGPT-4 言語モデル (LLM) などの大規模モデルは、データを合成することでますます注目を集めています。これにより、モデルのマルチタスクおよび複数言語機能の多様性が強化され、より堅牢なテキスト埋め込みをトレーニングできます。さまざまな下流タスク (セマンティック検索、テキスト類似性計算、クラスタリングなど) で使用でき、良好なパフォーマンスを発揮します。

多様な合成データを生成するために、研究者らは、最初に埋め込みタスクを分類し、次にタスクの種類ごとに異なるプロンプト テンプレートを使用する単純な分類法を提案しました。

#非対称タスク

クエリとドキュメントが意味的に関連しているが、相互に言い換えていないタスクが含まれます。

研究者らは、クエリとドキュメントの長さに基づいて、非対称タスクをさらに 4 つのサブカテゴリに分割しました: 短長マッチング (短いクエリと長いドキュメント、商用検索の典型的なシナリオ)エンジン )、ロング-ショート マッチング、ショート-ショート マッチング、ロング-ロング マッチング。

研究者らは、サブカテゴリごとに、最初に LLM にタスク リストのブレインストーミングを促し、次にタスク定義の条件の具体例を生成する 2 段階のプロンプト テンプレートを設計しました。GPT より-4 の出力はほぼ一貫性があり、高品質です。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

#研究者らは予備実験で、単一のプロンプトを使用してタスク定義とクエリ文書のペアを生成することも試みましたが、データの多様性はそれほど高くありませんでした。上記2ステップで良い方法です。

対称タスク

には、主に、同様のセマンティクスを持つが表面形式が異なるクエリとドキュメントが含まれます。

この記事では、単言語セマンティック テキスト類似性 (STS) とバイテキスト検索という 2 つのアプリケーション シナリオを検討し、シナリオごとに 2 つの異なるプロンプト テンプレートを設計し、特定の目的に合わせてカスタマイズします。タスクの定義は比較的単純であるため、ブレインストーミングのステップは省略できます。

プロンプトワードの多様性をさらに高め、合成データの多様性を向上させるために、研究者らは各プロンプトボードにいくつかのプレースホルダーを追加し、実行時にそれらをランダムにサンプリングしました。たとえば、" {query_length}" は、セット「{5 ワード未満、5 ~ 10 ワード、少なくとも 10 ワード}」からのサンプリングを表します。

多言語データを生成するために、研究者は XLM-R の言語リストから「{言語}」の値をサンプリングし、高リソース言語、つまり、期待されたものを満たしていません JSON 形式を定義する生成されたデータは解析中に破棄され、重複したデータも文字列の正確な一致に基づいて削除されます。

2. トレーニング

関連するクエリとドキュメントのペアが与えられた場合、最初に元のクエリ q を使用して新しい命令 q_inst を生成します。 {task_diction}" は、タスクの 1 文の説明を埋め込むプレースホルダーです。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

#生成された合成データの場合は、ブレインストーミング ステップの出力が使用されます。MS-MARCO などの他のデータセットの場合は、研究者が手動でタスク定義を作成しますファイル側のディレクティブ プレフィックスを変更せずに、それをデータセット内のすべてのクエリに適用します。

この方法では、ドキュメント インデックスを事前に構築し、クエリ側のみを変更することで実行するタスクをカスタマイズできます。

事前トレーニングされた LLM が与えられた場合、クエリとドキュメントの末尾に [EOS] トークンを追加し、最後の層の [EOS] ベクトルを取得してそれを LLM にフィードします。クエリとドキュメントの埋め込みを取得します。

次に、標準の InfoNCE 損失を使用して、バッチ内のネガとハード ネガの損失を計算します。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

ここで、ℕ はすべての否定値のセットを表し、手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します はクエリとクエリの間の一致スコアを計算するために使用されます。ドキュメントでは、t は温度ハイパーパラメータであり、実験では 0.02 に固定されています

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

実験結果

合成データ統計

研究者らは、Azure OpenAI サービスを使用して、150,000 の一意の命令を含む 500,000 のサンプルを生成しました。そのうち 25% は GPT-3.5-Turbo によって生成され、残りは GPT-4 によって生成され、合計で1億8000万トークン。

主要言語は英語で、合計 93 の言語をカバーしています。75 の低リソース言語については、言語ごとに平均約 1,000 のサンプルがあります。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

研究者らは、データ品質の観点から、GPT-3.5-Turbo の出力の一部がプロンプト テンプレートに記載されているガイドラインに厳密に従っていないことを発見しました。 、全体的な品質は依然として許容可能でした。受け入れられ、予備実験では、このデータのサブセットを使用する利点も実証されました。

モデルの微調整と評価

研究者らは、上記の損失を利用して、事前トレーニングされたモデルを微調整しました。 1エポックはMistral-7B、RankLLaMAの育成方法に従い、ランク16でLoRAを使用。

GPU メモリ要件をさらに削減するために、勾配チェックポイント、混合精度トレーニング、DeepSpeed ZeRO-3 などのテクノロジーが使用されます。

トレーニング データに関しては、生成された合成データと 13 の公開データセットの両方が使用され、サンプリング後に約 180 万のサンプルが得られました。

以前の研究との公正な比較のために、研究者らは、唯一のアノテーション監視が MS-MARCO 章ランキング データセットである場合の結果と、MTEB ベンチマークの結果も報告しています。評価されました。

主な結果

以下の表にあるように、記事で取得したモデル「E5mistral-7B フルデータ」が取得されました。 MTEB ベンチマーク テストでは、従来の最先端モデルよりも 2.4 ポイント高い、最高の平均スコアを達成しました。

「合成データのみあり」設定では、トレーニングに注釈付きデータは使用されませんが、パフォーマンスは依然として非常に競争力があります。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

研究者らは、いくつかの市販のテキスト埋め込みモデルも比較しましたが、これらのモデルに関する透明性と文書化の欠如により、公正な比較ができませんでした。

しかし、BEIR ベンチマークでの検索パフォーマンスの比較結果から、トレーニング済みモデルが現在の商用モデルよりも大幅に優れていることがわかります。

手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応します

多言語検索

多言語の検索を評価するには、研究者らは、人間が注釈を付けたクエリと 18 言語の関連性判断を含む MIRACL データセットの評価を実施しました。

結果は、このモデルが高リソース言語、特に英語で mE5-large を上回っていることを示していますが、低リソース言語ではモデルのパフォーマンスが mE5-large より優れています。 mE5-baseと比較すると、まだ理想的ではありません。

研究者らは、これはミストラル-7Bが主に英語のデータに基づいて事前トレーニングされており、予測多言語モデルがこのギャップを埋めるために使用できる方法であると考えています。

以上が手動による注釈は必要ありません。 LLM はテキスト埋め込み学習をサポートします: 100 の言語を簡単にサポートし、数十万のダウンストリーム タスクに適応しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール