搜尋
首頁科技週邊人工智慧長文本殺不死RAG:SQL+向量驅動大模型與大數據新範式,MyScale AI資料庫正式開源

大模型與 AI 資料庫雙劍合璧,成為大模型降本增效,大數據真正智慧的致勝法寶。

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

大模型(LLM)的浪潮已經湧動一年多了,尤其是以GPT-4、Gemini-1.5、Claude-3等為代表的模型你方唱罷我登場,成為當之無愧的風口。在LLM 這條賽道上,有的研究專注於增加模型參數,有的瘋狂捲多模態… 這當中,LLM 處理上下文長度的能力成為了評估模型的一個重要指標,更強的上下文意味著模型擁有更強的檢索效能。例如有些模型一口氣可以處理高達 100 萬 token 的能力讓不少研究者開始思考,RAG (Retrieval-Augmented Generation,檢索增強生成)方法還有存在的必要嗎?

有人認為 RAG 要被長上下文模型殺死了,但這種觀點遭到了許多研究者和架構師的反駁。他們認為一方面資料結構複雜、定期變化,許多資料具有重要的時間維度,這些資料對 LLM 來說可能太複雜。另一方面,企業、產業的海量異質數據,都放到上下文視窗中也不現實。而大模型和 AI 資料庫結合,為生成式 AI 系統注入專業、精準和即時的訊息,大幅降低了幻覺,並提高了系統的實用性。同時,Data-centric LLM 的方法也可以利用 AI 資料庫海量資料管理、查詢的能力,大幅降低大模型訓練、微調的開銷,並支援在系統不同場景的小樣本調優。總結來說,大模型和 AI 資料庫雙劍合璧,既給大模型降本增效,又讓大數據真正實現智能

經過數年開發與迭代,MyScaleDB 終於開源

RAG 的出現使得LLM 能從大規模的知識庫中精確地抽取訊息,並產生即時、專業、富有洞察力的答案。伴隨而來的是RAG 系統的核心功能向量資料庫也得到了迅速發展,按照向量資料庫的設計概念我們可以將其大致分為三類:專用向量資料庫,關鍵字和向量結合的檢索系統,以及SQL 向量資料庫.

  • 以Pinecone/Weaviate/Milvus 為代表的專用向量資料庫,一開始即為向量檢索設計打造,向量檢索性能出色,不過通用的數據管理功能較弱。
  • 以Elasticsearch/OpenSearch 為代表的關鍵字與向量檢索系統,因其完善的關鍵字檢索功能而廣泛生產應用,不過系統資源佔用較多,關鍵字與向量的聯合查詢精度和效能不盡人如意。
  • 以 pgvector(PostgreSQL 的向量搜尋外掛程式)和 MyScale AI 資料庫為代表的 SQL 向量資料庫,基於 SQL 且資料管理功能強大。不過因為 PostgreSQL 行存的劣勢和向量演算法的局限性,pgvector 在複雜向量查詢中精確度較低。
 
MyScale AI 資料庫(MyScaleDB)基於高效能的SQL 列式儲存資料庫打造,自研高效能和高資料密度的向量索引演算法,並針對SQL 和向量的聯合查詢對檢索和儲存引擎進行了深度的研發和最佳化,是全球第一個綜合效能和性價比大幅超越了專用向量資料庫的SQL 向量資料庫產品

得益於SQL 資料庫在海量結構化資料場景長期的打磨,MyScaleDB 同時支援海量向量和結構化資料,包括字串、 JSON、空間、時序等多種資料類型的高效儲存和查詢,並將在近期推出功能強大的倒排表和關鍵字檢索功能,進一步提高RAG 系統的精確度並取代Elasticsearch 等系統。

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

經過近 6 年的開發和數次版本迭代,MyScaleDB 已於近期開源,歡迎所有開發者和企業用戶在 GitHub 上 Star,並開啟使用 SQL 構建生產級 AI 應用的新玩法!

專案網址:https://github.com/myscale/myscaledb
 
完全相容SQL,精確度提升、成本降低

借助完善的SQL 資料管理能力,強大且有效率的結構化、向量和異質資料儲存和查詢能力,MyScaleDB 有望成為第一款真正面向大模型和大數據的AI 資料庫

SQL 與向量的原生相容性

#自從SQL 誕生半個世紀以來,儘管其中經歷了NoSQL、大數據等浪潮,不斷進化的SQL 資料庫還是佔據了資料管理市場主要份額,甚至Elasticsearch、Spark 等檢索和大數據系統也陸續支援了SQL 介面。而專用的向量資料庫儘管為向量做了最佳化和系統設計,但其查詢介面通常缺乏規範性,沒有高階的查詢語言。這導致了介面的泛化能力較弱,例如 Pinecone 的查詢介面甚至不包括指定要檢索的字段,更不用說分頁、聚合等資料庫常見的功能。

介面的泛化能力弱意味著其變化頻繁,增加了學習成本。 MyScale 團隊則認為,經過系統性最佳化的SQL 和向量系統是可以既保持完整的SQL 支持,又保證向量檢索高效能的,而他們的開源評測的結果已經充分論證了這一點。

在實際複雜 AI 應用場景中,SQL 和向量結合可以大幅增加資料建模的靈活性,並簡化開發流程。例如MyScale 團隊與北京科學智能研究院合作的Science Navigator 專案中,利用MyScaleDB 對於海量的科學文獻資料做檢索和智慧問答,其主要的SQL 表結構就有10 多個,其中多張表結構建立了向量和倒排表索引,並利用主鍵和外鍵做了關聯。系統在實際查詢中,也會涉及結構化、向量和關鍵字資料的共同查詢,以及幾張表格的關聯查詢。在專用的向量資料庫中這些建模和關聯是難以實現的,也會導致最終的系統迭代緩慢、查詢低效和維護困難。

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

                           Science Navigator 主表結構示意圖(加粗體的列建立了向量索引或倒排索引)# #支援結構化、向量和關鍵字等資料聯合查詢
在實際RAG 系統中,檢索的精確度和效果是限制其落地的主要瓶頸。這需要 AI 資料庫高效支援結構化、向量和關鍵字等資料聯合查詢,綜合提高檢索精確度。

例如在金融場景中,使用者需要針對文件庫查詢“某公司2023 年全球各項業務的收入情況如何?”,“某公司”,“2023年” 等結構化元資訊並不能被向量很好的抓取,甚至不一定在對應的段落中有直接的體現。直接在全庫上執行向量檢索會得到大量的干擾訊息,並降低系統最終的準確性。另一方面,公司名稱,年份等通常是可以作為文檔的元資訊被獲取的,我們可以將WHERE year=2023 AND company ILIKE "%%" 作為向量查詢的過濾條件,從而精準的定位到相關訊息,大幅提升了系統的可靠性。在金融、製造業、科學研究等場景中,MyScale 團隊都觀察到異質資料建模和關聯查詢的威力,許多場景下甚至有 
60%
精確度到 
90%
的提升。
 儘管傳統的資料庫產品都已經陸續意識到了向量查詢在AI 時代的重要性,並開始在資料庫中增加向量能力,其聯合查詢的精確度仍然存在顯著的問題。例如,在過濾查詢的場景下,Elasticsearch 在過濾比例為0.1 時,QPS 會降到只有5 左右,而PostgresSQL(使用pgvector 插件)在過濾比例是0.01 時,檢索精度只有50% 左右,不穩定的查詢精度/ 性能極大限制了其應用的場景。而 MyScale 只使用了 pgvector 36% 的成本和 ElasticSearch 12% 的成本,就能夠在各種不同過濾比例的場景下都實現
高效能和高精度
的查詢。
                                 在不同過濾比例場景下,MyScale 都用低成本實現了高精度和高性能查詢

真實場景下效能和成本的平衡

正因為向量檢索在大模型應用中的重要性和高關注度,越來越多的團隊投入了向量資料庫這個賽道。大家一開始的關注點都是努力提升純向量搜尋場景下的 QPS,但純向量搜尋是遠遠不夠的!在實戰的場景中,資料建模、查詢的靈活性和精準度以及平衡資料密度、查詢效能和成本是更重要的議題。

在RAG 場景中,純向量查詢效能有10x 的過剩,向量佔用資源龐大,聯合查詢功能缺乏、效能和精確度不佳往往是當下專有向量資料庫的常態。 MyScaleDB 致力於在真實海量資料場景下AI 資料庫的綜合效能提升,其推出的MyScale Vector Database Benchmark 也是業界首個在五百萬向量規模,不同查詢情境下比較主流向量資料庫系統綜合性能、性價比的開源評測系統,歡迎大家來追蹤和提issue。 MyScale 團隊表示,AI 資料庫在真實應用場景下還存在著很大的優化空間,他們也希望在實踐中不斷打磨產品並完善評測系統。

MyScale Vector Database Benchmark 專案位址:
https://github.com/myscale/vector-db-benchmark

#展望:AI 資料庫支撐的大模型大數據Agent 平台

機器學習大數據驅動了互聯網和上一代資訊系統的成功,而在大模型的時代背景下,MyScale 團隊也致力於提出新一代的大模型大數據方案。以高效能的SQL 向量資料庫為堅實的支撐,MyScaleDB 提供了大規模資料處理、知識查詢、可觀測性、資料分析和小樣本學習的關鍵能力,建構了AI 和資料閉環,成為下一代大模型大數據Agent 平台的關鍵基座。 MyScale 團隊已經在科學研究、金融、工業、醫療等領域探索這套方案的落地。

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

隨著科技的快速發展,某種意義上的通用人工智慧 (AGI) 有望在未來 5-10 年內出現。關於這個問題,我們不禁要思考:是需要一個靜態、虛擬且與人類競爭的大模型,還是其他更全面的解決方案?數據無疑是連結大模型、世界與使用者的重要紐帶,MyScale 團隊的願景是將大模型和大數據有機結合,打造更專業、即時、高效協作,同時也充滿人性溫度和價值的 AI 系統。

以上是長文本殺不死RAG:SQL+向量驅動大模型與大數據新範式,MyScale AI資料庫正式開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器