搜尋
首頁科技週邊人工智慧智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新

隨著大型模型的開發和應用火熱發展,作為大型模型核心基礎組件的Embedding的重要性變得越來越突出。智源公司在一個月前發布的開源可商用的中英文語義向量模型BGE(BAAI General Embedding)在社區中引起了廣泛的關注,Hugging Face平台上的下載量已經達到了數十萬次。目前,BGE已經快速迭代推出了1.5版本,並公佈了多項更新。其中,BGE首次開源了三億條大規模訓練數據,為社區提供了訓練類似模型的幫助,推動了該領域技術的發展

3 億中英向量模型訓練資料開放

#第一個開源的業界語意向量模型訓練資料達到了3億個中英文資料

BGE 的出色能力很大程度源自於其大規模、多樣化的訓練資料。此前,業界同業鮮有發布同類數據集。在本次更新中,智源首次將 BGE 的訓練資料向社群開放,為推動此類技術進一步發展打下了基礎。

此發佈的資料集 MTP 由總計 3 億條中英文關聯文字對構成。其中,中文記錄達 1 億條,英文數據達 2 億條。資料的來源包括 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料。經過必要的取樣、抽取和清洗後獲得

詳細細節請參考 Data Hub:https://data.baai.ac.cn

MTP 為迄今開源的最大規模中英文關聯文字對資料集,為訓練中英文語意向量模型提供重要基礎。

回應開發者社區,BGE 功能升級

#根據社區回饋,BGE 在其1.0 版本的基礎上進行了進一步優化,使其表現更加穩定和出色。具體的升級內容如下:

  • 模型更新。 BGE-*-zh-v1.5 緩解了相似度分佈問題,透過對訓練數據進行過濾,刪除低品質數據,提高訓練時溫度係數 temperature 至 0.02,使得相似度數值更加平穩 。
  • 新增模型。開源 BGE-reranker 交叉編碼器模型,可更精準找到相關文本,支援中英雙語。有別於向量模型需要輸出向量,BGE-reranker 直接文字對輸出相似度,排序準確度更高,可用於對向量回想結果的重新排序,提升最終結果的相關性。
  • 新增功能。 BGE1.1 增加難負樣本挖掘腳本,難負樣本可有效提升微調後檢索的效果;在微調程式碼中增加在微調中增加指令的功能;模型保存也將自動轉成sentence transformer 格式,更方便模型加載。

值得一提的是,日前,智源聯合 Hugging Face 發布了一篇技術報告,報告提出用 C-Pack 增強中文通用語義向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

連結:https://arxiv.org/pdf/2309.07597 .pdf

在開發者社群中收穫高熱度

BGE 自發布以來受到了大型模式開發者社群的關注,目前Hugging Face的下載量已經達到了數十萬次,並且已經被知名的開源專案LangChain、LangChain-Chatchat、llama_index 等整合使用

Langchain 官方、LangChain 聯合創始人兼首席執行官Harrison Chase、Deep trading 創辦人Yam Peleg 等社區大V 對BGE 表示關切。

智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新

智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新


智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新

#

堅持開源開放,促進協同創新,智源大模型技術開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,專注於 Embedding 技術和模型,BGE 是其中備受矚目的開源專案之一。 FlagOpen 致力於建構大模型時代的人工智慧技術基礎設施,未來將繼續向學術界和產業界開放更完整的大模型全端技術

#

以上是智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境