ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露-AI-php.cn

ホームページ

テクノロジー周辺機器

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

王林

Jan 29, 2024 am 09:03 AM

aiモデル

数日前、OpenAI はメジャーアップデートを行い、2 つの新しいテキスト埋め込みモデルを含む 5 つの新しいモデルを一度に発表しました。

埋め込みとは、自然言語やコードなどで概念を表すために数値シーケンスを使用することです。これらは、機械学習モデルやその他のアルゴリズムがコンテンツ間の関係をより深く理解し、クラスタリングや検索などのタスクを実行しやすくするのに役立ちます。

一般に、より大きな埋め込みモデル (取得のためにベクトルメモリに保存されたものなど) を使用すると、より多くのコスト、計算能力、メモリ、およびストレージリソースが消費されます。ただし、OpenAI によって開始された 2 つのテキスト埋め込みモデルは、異なるオプションを提供します。まず、text-embedding-3-small モデルは小さいですが効率的なモデルです。リソースが限られた環境でも使用でき、テキスト埋め込みタスクを処理するときに優れたパフォーマンスを発揮します。一方、text-embedding-3-large モデルはより大きく、より強力です。このモデルは、より複雑なテキスト埋め込みタスクを処理し、より正確で詳細な埋め込み表現を提供できます。ただし、このモデルを使用するには、より多くのコンピューティングリソースとストレージスペースが必要になります。したがって、特定のニーズとリソースの制約に応じて、コストとパフォーマンスの関係のバランスをとるために適切なモデルを選択できます。

両方の新しい埋め込みモデルは、開発者が埋め込みのパフォーマンスとコストをトレードオフできるトレーニング手法を使用して実行されます。具体的には、開発者は、埋め込みを次元 API パラメーターに渡すことで、概念的表現のプロパティを失うことなく、埋め込みのサイズを短縮できます。たとえば、MTEB ベンチマークでは、text-embedding-3-large はサイズ 256 に短縮できますが、それでも短縮されていない text-embedding-ada-002 埋め込み (サイズ 1536) よりも優れたパフォーマンスを発揮します。このようにして、開発者は特定のニーズに基づいて適切な埋め込みモデルを選択でき、パフォーマンス要件を満たすだけでなくコストも制御できます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

#このテクノロジーのアプリケーションは非常に柔軟です。たとえば、最大 1024 次元の埋め込みのみをサポートするベクターデータストアを使用する場合、開発者は最適な埋め込みモデル text-embedding-3-large を選択し、次元 API に値 1024 を指定することで埋め込み次元を 3072 から変更できます。パラメータ。1024 に短縮されます。これを行うとある程度の精度が犠牲になる可能性がありますが、より小さいベクトルサイズを取得できます。

OpenAI が使用する「短縮エンベディング」手法は、その後、研究者の間で広く注目を集めました。

この手法は、2022年5月の論文で提案された「マトリョーシカ表現学習」手法と同じであることが判明しました。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

OpenAI の新しい埋め込みモデルの更新の背後に、@adityakusupati らが提案したクールな埋め込み表現が隠されています。テクノロジー。

そして、MRL の作成者の 1 人である Aditya Kusupati 氏も次のように述べています。「OpenAI は、検索と RAG 用の v3 組み込み API でデフォルトで MRL を使用します! 他のモデルやサービスもすぐに追いつくはずです」 ."

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

それでは、MRL とは一体何でしょうか?効果はどうですか？すべては以下の 2022 年の論文に記載されています。

#MRL 論文紹介

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

##論文タイトル: マトリョーシカ表現学習
論文リンク: https://arxiv.org/pdf/2205.13147.pdf

研究者が提起した疑問は、異なるコンピューティングリソースを使用する複数の下流タスクに適応するように柔軟な表現方法を設計できるかということです。

MRL は、O (log (d)) 個の低次元ベクトルをネストされた方法で明示的に最適化することで、同じ高次元ベクトル内の異なる容量の表現を学習します。そのため、マトリョーシカ「ロシア語」という名前が付けられました。マトリョーシカ人形」。 MRL は既存の表現パイプラインに適応でき、コンピュータービジョンや自然言語処理の多くの標準タスクに簡単に拡張できます。

図 1 は、MRL の中心的なアイデアと、学習されたマトリョーシカ表現の適応展開セットアップを示しています。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

最初のm 次元 (m∈[d]) は、追加のトレーニングコストを必要とせず、独立してトレーニングされた m 次元表現と同じくらい正確な、情報が豊富な低次元ベクトルです。 Matryoshka 表現の情報内容は次元の増加とともに増加し、大規模なトレーニングや追加の展開オーバーヘッドを必要とせずに、粗い表現から細かい表現までを形成します。 MRL は、ベクトルの特性評価に必要な柔軟性と多重忠実度を提供し、精度と計算量の間で最適に近いトレードオフを保証します。これらの利点により、MRL は精度と計算上の制約に基づいて適応的に導入できます。

この作業では、現実世界の ML システムの 2 つの主要な構成要素である大規模な分類と検索に焦点を当てます。

研究者らは分類のために適応カスケードを使用し、MRL によってトレーニングされたモデルによって生成された可変サイズ表現を使用したため、特定の精度を達成するのに必要な時間が大幅に短縮されました。たとえば、ImageNet-1K では、MRL 適応分類により、ベースラインと同じ精度で表現サイズが最大 14 倍削減されます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

同様に、研究者は適応検索システムでも MRL を使用しています。クエリが与えられると、クエリ埋め込みの最初のいくつかの次元が検索候補をフィルタリングするために使用され、その後、さらに多くの次元が検索セットの順序を変更するために使用されます。このアプローチの簡単な実装では、標準の埋め込みベクトルを使用した単一検索システムと比較して、FLOPS で理論上の速度の 128 倍、実測時間の 14 倍を達成します。MRL の検索精度は単一検索の精度に匹敵することに注意することが重要です (セクション 4.3.1)。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

最後に、MRL は表現ベクトルを粗いものから細かいものまで明示的に学習するため、直感的には異なる次元間で共有される必要があります。より多くの意味情報 (図 5) 。これはロングテール連続学習設定に反映されており、元の埋め込みと同じくらい堅牢でありながら、精度を最大 2% 向上させることができます。さらに、MRL は粒度が粗いため、粒度が細かいため、インスタンスの分類のしやすさや情報のボトルネックを分析する方法としても使用できます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

研究の詳細については、論文の原文を参照してください。

以上がネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。