隨著大型模型的開發和應用火熱發展,作為大型模型核心基礎組件的Embedding的重要性變得越來越突出。智源公司在一個月前發布的開源可商用的中英文語義向量模型BGE(BAAI General Embedding)在社區中引起了廣泛的關注,Hugging Face平台上的下載量已經達到了數十萬次。目前,BGE已經快速迭代推出了1.5版本,並公佈了多項更新。其中,BGE首次開源了三億條大規模訓練數據,為社區提供了訓練類似模型的幫助,推動了該領域技術的發展
- MTP資料集連結:https://data.baai.ac.cn/details/BAAI-MTP
- #BGE 模型連結:https://huggingface.co /BAAI
- BGE 程式碼倉庫:https://www.php.cn/link /8944871f1c9865a77a3d9c92cadf124d
3 億中英向量模型訓練資料開放
#第一個開源的業界語意向量模型訓練資料達到了3億個中英文資料
BGE 的出色能力很大程度源自於其大規模、多樣化的訓練資料。此前,業界同業鮮有發布同類數據集。在本次更新中,智源首次將 BGE 的訓練資料向社群開放,為推動此類技術進一步發展打下了基礎。
此發佈的資料集 MTP 由總計 3 億條中英文關聯文字對構成。其中,中文記錄達 1 億條,英文數據達 2 億條。資料的來源包括 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料。經過必要的取樣、抽取和清洗後獲得
詳細細節請參考 Data Hub:https://data.baai.ac.cn
MTP 為迄今開源的最大規模中英文關聯文字對資料集,為訓練中英文語意向量模型提供重要基礎。
回應開發者社區,BGE 功能升級
#根據社區回饋,BGE 在其1.0 版本的基礎上進行了進一步優化,使其表現更加穩定和出色。具體的升級內容如下:
- 模型更新。 BGE-*-zh-v1.5 緩解了相似度分佈問題,透過對訓練數據進行過濾,刪除低品質數據,提高訓練時溫度係數 temperature 至 0.02,使得相似度數值更加平穩 。
- 新增模型。開源 BGE-reranker 交叉編碼器模型,可更精準找到相關文本,支援中英雙語。有別於向量模型需要輸出向量,BGE-reranker 直接文字對輸出相似度,排序準確度更高,可用於對向量回想結果的重新排序,提升最終結果的相關性。
- 新增功能。 BGE1.1 增加難負樣本挖掘腳本,難負樣本可有效提升微調後檢索的效果;在微調程式碼中增加在微調中增加指令的功能;模型保存也將自動轉成sentence transformer 格式,更方便模型加載。
值得一提的是,日前,智源聯合 Hugging Face 發布了一篇技術報告,報告提出用 C-Pack 增強中文通用語義向量模型。
《C-Pack: Packaged Resources To Advance General Chinese Embedding》
連結:https://arxiv.org/pdf/2309.07597 .pdf
在開發者社群中收穫高熱度
BGE 自發布以來受到了大型模式開發者社群的關注,目前Hugging Face的下載量已經達到了數十萬次,並且已經被知名的開源專案LangChain、LangChain-Chatchat、llama_index 等整合使用
Langchain 官方、LangChain 聯合創始人兼首席執行官Harrison Chase、Deep trading 創辦人Yam Peleg 等社區大V 對BGE 表示關切。
堅持開源開放,促進協同創新,智源大模型技術開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,專注於 Embedding 技術和模型,BGE 是其中備受矚目的開源專案之一。 FlagOpen 致力於建構大模型時代的人工智慧技術基礎設施,未來將繼續向學術界和產業界開放更完整的大模型全端技術
#以上是智源開放3億個語意向量模型訓練數據,BGE模型持續進行迭代更新的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境