前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個新模型,其中就包括兩個新的文本嵌入模型。
嵌入是用數字序列來表示自然語言、程式碼等內容中的概念。它們能夠幫助機器學習模型和其他演算法更好地理解內容之間的關係,並且更容易執行聚類或檢索等任務。
通常,使用較大的嵌入模型(如儲存在向量記憶體中以供檢索)會消耗更多的成本、算力、記憶體和儲存資源。然而,OpenAI推出的兩個文本嵌入模型提供了不同的選擇。 首先,text-embedding-3-small模型是一個較小但有效率的模型。它可以在資源有限的環境下使用,並且在處理文字嵌入任務時表現出色。 另一方面,text-embedding-3-large模型則更大且更強大。這個模型可以處理更複雜的文字嵌入任務,並提供更準確和詳細的嵌入表示。然而,使用該模型需要更多的運算資源和儲存空間。 因此,根據具體的需求和資源限制,可以選擇適合的模型來平衡成本和效能之間的關係。
這兩個新的嵌入模型都是使用一種訓練技術來進行的,這使得開發人員可以在嵌入的效能和成本之間進行權衡。具體來說,開發者可以透過在 dimensions API 參數中傳遞嵌入來縮短嵌入的大小,同時不失去其概念表徵屬性。舉個例子,在 MTEB 基準上,text-embedding-3-large 可以縮短為 256 的大小,但其效能仍優於未縮短的 text-embedding-ada-002 嵌入(大小為 1536)。這樣一來,開發者可以根據具體需求來選擇適合的嵌入模型,既可以滿足效能要求,又可以控製成本。
這項技術的應用非常靈活。例如,當使用僅支援最高1024 維嵌入的向量資料儲存時,開發者可以選擇最好的嵌入模型text-embedding-3-large,並透過指定dimensions API 參數的值為1024,將嵌入維數從3072縮短為1024。雖然這樣做可能會犧牲一些準確度,但可以獲得較小的向量大小。
OpenAI 所使用的「縮短嵌入」方法,隨後引起了研究者們的廣泛注意。
人們發現,這種方法和 2022 年 5 月的一篇論文所提出的「Matryoshka Representation Learning」方法是相同的。
OpenAI 的新嵌入模型更新背後隱藏的是@adityakusupati 等人提出的一種很酷的嵌入表徵技術。
而MRL 的一作Aditya Kusupati 也現身說法:「OpenAI 在v3 嵌入API 中預設使用MRL 用於檢索和RAG!其他模型和服務應該很快就會迎頭趕上。」
那麼MRL 到底是什麼?效果如何?都在下面這篇 2022 年的論文裡。
MRL 論文介紹
- #論文標題:Matryoshka Representation Learning
- 論文連結:https://arxiv.org/pdf/2205.13147.pdf
研究者提出的問題是:能否設計一個靈活的表徵方法,以適應計算資源不同的多個下游任務?
MRL 透過以巢狀方式對O (log (d)) 低維向量進行明確優化在同一個高維向量中學習不同容量的表徵,因此被稱為Matryoshka「俄羅斯娃娃」。 MRL 可適用於任何現有的表徵 pipeline,並可輕鬆擴展到電腦視覺和自然語言處理中的許多標準任務。
圖1 展示了MRL 的核心概念以及所學習Matryoshka 表徵的自適應部署設定:
Matryoshka 表徵的第一個m-dimensions(m∈[d])是一個資訊豐富的低維向量,不需要額外的訓練成本,其精確度不亞於獨立訓練的m 維表徵法。 Matryoshka 表徵的資訊量隨著維度的增加而增加,形成了一種從粗到細的表徵法,而且無需大量的訓練或額外的部署開銷。 MRL 為表徵向量提供了所需的靈活性和多保真度,可確保在準確性與計算量之間實現近乎最佳的權衡。憑藉這些優勢,MRL 可根據精度和計算約束條件進行自適應部署。
在這項工作中,研究者將重點放在了現實世界 ML 系統的兩個關鍵構件上:大規模分類和檢索。
在分類方面,研究者使用了自適應級聯,並使用由MRL 訓練的模型產生的可變大小表徵,從而大大降低了達到特定準確率所需的嵌入式平均維數。例如,在 ImageNet-1K 上,MRL 自適應分類的結果是,在精確度與基線相同的情況下,表徵大小最多可縮小 14 倍。
同樣地,研究者在自適應檢索系統中也使用了 MRL。在給定一個查詢的情況下,使用查詢嵌入的前幾個 dimensions 來篩選檢索候選對象,然後連續使用更多的 dimensions 對檢索集進行重新排序。與使用標準嵌入向量的單次檢索系統相比,此方法的簡單實現可實現128 倍的理論速度(以FLOPS 計)和14 倍的牆上時鐘時間速度;需要注意的是,MRL 的檢索精度與單次檢索的精確度相當(第4.3.1 節)。
最後,由於MRL 明確地學習了從粗到細的表徵向量,因此直觀地說,它應該在不同dimensions 之間共享更多的語意資訊(圖5)。這反映在長尾持續學習設定中,準確率最多可提高 2%,同時與原始嵌入一樣穩健。此外,由於 MRL 具有粗粒度到細粒度的特性,因此它也可以用作分析實例分類難易程度和資訊瓶頸的方法。
更多研究細節,可參考論文原文。
以上是網友曝光了OpenAI新模型所使用的嵌入技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境