首頁 >科技週邊 >人工智慧 >千億級超大規模向量資料庫正加速AI進化

千億級超大規模向量資料庫正加速AI進化

WBOY
WBOY轉載
2023-11-24 20:46:571505瀏覽

在大型模型展開「諸神之戰」時,出現了一個致命的問題,讓那些嘗試的使用者無法忍受。許多大型模型都存在一個普遍的問題,即“一本正經地胡說八道”,這就是我們常說的“AI幻覺”。那麼,如何讓大型模型變得更準確、更聰明,而不是胡言亂語呢?除了模型框架、資料和演算法之外,還有一個關鍵的應用,那就是向量資料庫!

千億級超大規模向量資料庫正加速AI進化

資料中樞背後

#關於向量資料庫與大模型的關係以及其重要性,有多種不同的解讀。一個比較形象的說法是,如果將大模型比喻為一個容易遺忘的大腦,那麼向量資料庫就相當於其中的“海馬體”,主要負責儲存和定向記憶等功能。從解剖學的角度來看,如果將一個人的海馬區切除,該人將失去長時記憶的能力,並無法感知聲音、光線、味覺等訊息

說穿了,大模型之所以有幻覺,根本原因是大模型的向量資料庫不夠強大,導致大模型只能從既定的資料中找出答案,推理的結果常常泛泛而談,或者胡誅,極度影響體驗。所以,大模型聰明與否,要看向量資料庫是否給力,這也是騰訊雲為什麼發力向量資料庫,建構AGI「資料中樞」的根本原因。

有人可能會想:我在資料中台層級提升資料調度能力,傳統關聯式資料庫也可以支援呀?但現實情況是,企業在搭建和使用大模型時,首先需要把海量資料安全、有效率地接入大模型,在諸多複雜資料中,適合關係型資料庫的結構化資料僅有20%,其餘80%都是文字、圖像、視訊、音訊等非結構化的資料。而向量資料庫可以把複雜的非結構化資料處理成多維邏輯的座標值,與大模型進行連接,資料處理的效率比傳統資料庫提升10倍。

同時,向量資料庫也可以作為外部知識庫向大模型傳遞最新、最準確、最全面的信息,高效應對即時問答,並且讓大模型擁有長期記憶,避免聊天時的斷片。如此一來,向量資料庫與大模型是最 佳搭檔的說法,就比較容易理解了。

專業向量資料庫VS傳統資料庫向量外掛程式

事實上,把向量資料庫當作大模型背後的主要賽道,領先企業已經走在創新旅程中了。初步統計,致力於向量資料庫的廠商已經有50多家。而從具體的技術路線來看,主要分兩大類:一類是專業的向量原生資料庫,從誕生開始就為向量設計,可以做向量資料結構的儲存、解鎖、查詢;另一類是傳統資料庫上加了一個向量插件,使其能夠支援向量的檢索。

比較分析,兩種方式各有應用場景,例如:企業剛開始時候,資料量不大,不想引進新資料庫,那就可以選擇傳統資料庫 向量外掛的方式。但如果企業資料量較大,想建立更聰明的大模型,對效能和未來發展有更高要求,那麼就選擇像騰訊雲這樣專業的向量資料庫產品,顯然會更適合。

在向量資料庫的應用角度來看,還存在著更多的潛力。目前,許多企業正在使用向量資料庫來解決大型模型的虛幻感以及知識增強等方面的弱點。然而,未來的發展不僅限於這些能力,還可以在影像查詢方面有更出色的表現。例如,可以對手機中的照片進行查詢,類似於圖像搜尋引擎,這實際上也是一種向量查詢

專業向量資料庫並不能取代傳統資料庫,尤其是在大型場景下。傳統關係型資料庫和向量資料庫可以相互協同發展、相互補充。向量資料庫透過向量化資料來滿足傳統關係型資料庫難以處理的大規模資料、低時延高並發檢索、模糊匹配等領域的需求。向量資料庫只支援新的資料類型,並不儲存原始數據,而傳統資料庫支援數值、字串、時間等傳統資料類型。傳統資料庫支援的數據規模相對較小,最多只能支撐1億個數據,而向量資料庫可以支撐大規模的數據,底線是千億個數據。傳統資料庫的查詢方式為精確查找,要麼符合條件,要麼不符合;而向量資料庫則是近似查找,查詢結構和輸入條件要盡量相似,對運算能力要求也更高。上層應用程式可以使用統一的API方式,更適合大規模人工智慧應用程式的部署和使用

智能進化

大模型並不是從零開始,向量資料庫也不是。那麼,向量資料庫到底是怎麼發展起來的呢?騰訊雲端資料庫團隊曾經有過深刻的思考!

騰訊雲資料庫副總經理羅雲認為,大模型的本質不應該是一個無限大的存儲體,而是一個帶有智算能力的平台,將之前只有程式語言才能觸達的底層運算能力,用自然語言去調度,這應該是一個令人興奮的奇點。興奮之餘再次冷靜思考,人類在完成數位化改造過程中,除了運算平台,還有其他的可能性嗎?到底什麼才是AGI時代的技術核心?總結發現,底層資料的智慧化流通才是撬動資料中樞的金鑰匙!

如今,當企業有了通用的智慧運算能力後,底層的資料可以快速流動起來,我們可以把檔案存在檔案系統,我們可以呼叫關聯式資料庫裡面的表格資料、非關係型裡面的KV數據,所有資料都可以透過智慧化的方式流通和連動。但要讓資料和人類對話,光有運算平台還不夠,還要有一個智慧資料平台,可以用自然語言把資料取出來,然後交給大模型去計算,而要達成這樣的目的,向量資料庫就成為一個重要的樞紐。

既然向量資料庫如此重要,我們該如何透過智慧化升級,在傳統資料庫經驗基礎上與資料平台對話呢?這正是騰訊雲資料庫的專長!在騰訊雲向量資料庫技術高峰會上,騰訊雲宣布與第三方機構合作完成了一項測試,證明騰訊雲向量資料庫可以支援千億級規模的數據,並且顯著提高了每秒查詢率,達到了500萬的峰值能力

目前,騰訊雲向量資料庫已經有大量用戶,包括百川智慧、好未來、銷售易等公司。最近,他們和百川一起做了個 AGI 啟航計劃,贈送向量資料庫實例及 Baichuan2 大模型 400 萬的 Tokens。

透過Embedding、向量索引、分散式系統架構、硬體加速等核心技術,騰訊雲向量資料庫可以有效解決文字、圖像、視頻,包括生物製藥、風控、音頻、多模態等廣闊場景的特定問題。例如:利用Embedding技術將高維度的資料(例如文字、 圖片、 音訊)映射到低維度空間,即把圖片、聲音和文字轉換為向量來表示,將這些向量儲存起來就構成向量資料庫,而實現Embedding過程的方法包括神經網路、 LSH(局部敏感雜湊演算法)等。

騰訊從2019年開始致力於提升向量資料庫的能力,引領企業業務邁向AGI時代。至今,騰訊雲端已為40多家內部客戶提供服務,每天支援的向量資料檢索次數超過了1,600億次。同時,騰訊雲也為1,000家外部客戶提供服務,成長速度可謂驚人

放眼未來,AGI正在加速演化,這中間有驚喜,也有挑戰。騰訊雲端資料庫將一如既往,不斷探索,引領創新。 「Road to AGI,Together on the Path」—這句話完美地概括了騰訊雲端技術團隊的當前狀態!

以上是千億級超大規模向量資料庫正加速AI進化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除