首頁  >  文章  >  科技週邊  >  知識圖譜:大模型的理想搭檔

知識圖譜:大模型的理想搭檔

WBOY
WBOY轉載
2024-01-29 09:21:26782瀏覽

大型語言模型(LLM)具有產生流暢和連貫文字的能力,為人工智慧的對話、創意寫作等領域帶來了新的前景。然而,LLM也存在一些關鍵限制。首先,它們的知識僅限於從訓​​練資料中辨識出的模式,缺乏對世界的真正理解。其次,推理能力有限,不能進行邏輯推理或從多個資料來源融合事實。面對更複雜、更開放的問題時,LLM的回答可能變得荒謬或矛盾,被稱為「幻覺」。因此,儘管LLM在某些方面非常有用,但在處理複雜問題和真實世界情境時,仍存在一定的限制。

為了彌補這些差距,近年來出現了檢索增強生成(RAG)系統,其核心思想是透過從外部來源檢索相關知識來為LLM提供上下文,以便做出更明智的反應。目前的系統大多使用向量嵌入的語意相似度來檢索段落,然而,這種方法有其自身的缺點,例如缺乏真正的相關性、無法聚合事實,以及缺乏推理鏈。而知識圖譜的應用領域正能解決這些問題。知識圖譜是一種對現實世界實體和關係進行結構化表達的方式。透過編碼上下文事實之間的相互聯繫,知識圖譜克服了純向量搜尋的缺陷,並且透過圖搜尋可以進行複雜的多層推理,跨越多種資訊來源。

向量嵌入和知識圖譜的結合可以提升LLM的推理能力,增強其準確性和可解釋性。這種合作關係將表層語義與結構化知識和邏輯完美融合,使得LLM能夠同時應用統計學習和符號表示。

知識圖譜:大模型的理想搭檔圖片

1. 向量搜尋的限制

大多數RAG系統透過文件集合中段落的向量搜尋來尋找LLM的上下文。這個過程有幾個關鍵步驟。

  1. 文字編碼: 系統使用像 BERT 這樣的嵌入模型將文字從語料庫中的段落編碼成向量表示。每篇文章都被壓縮成一個密集的向量來捕捉語意。
  2. 索引: 這些通道向量在高維向量空間中進行索引,以實現快速的最近鄰搜尋。流行的方法包括 Faiss 和 Pinecone等。
  3. 查詢編碼: 使用者的查詢語句也被編碼為使用相同嵌入模型的向量表示。
  4. 相似性檢索: 一個最近鄰搜尋在索引的段落中運行,根據距離指標(如餘弦距離)找到與查詢向量最接近的段落。
  5. 傳回段落結果: 傳回最相似的段落向量,擷取原始文字為 LLM 提供上下文。

這種管線有幾個主要的限制:

  • 通道向量可能無法完全捕捉查詢的語義意圖,嵌入不能表示某些推理連接,重要的上下文最終會被忽略。
  • 把整個段落壓縮成單一向量會失去細微差別,嵌入在句子中的關鍵相關細節會變得模糊。
  • 配對是為每個段落獨立完成的,沒有跨越不同段落的聯合分析,缺乏連結事實和得出需要總結的答案。
  • 排名和匹配過程是不透明的,沒有透明度來解釋為什麼某些段落被認為更相關。
  • 只有語意相似性被編碼,沒有表示關係,結構,規則和其他不同的連結之間的內容。
  • 對語意向量相似性的單一關注導致檢索缺乏真正的理解。

隨著查詢變得越來越複雜,這些限制在無法對檢索到的內容進行推理方面變得越來越明顯。

2. 整合知識圖譜

知識圖譜以實體和關係為基礎,透過相互連結的網絡傳遞訊息,透過複雜推理提高檢索能力。

  • 明確的事實,事實直接作為節點和邊捕獲,而不是壓縮成不透明的向量,這保留了關鍵的細節。
  • 上下文細節,實體包含了豐富的屬性,如提供關鍵上下文的描述、別名和元資料等。
  • 網路結構表達了關係建模實體之間的真實連結、擷取規則、層次結構、時間軸等。
  • 多層推理是基於關係遍歷以及連接來自不同來源的事實,可以推導出需要跨多個步驟進行推理的答案。
  • 聯合推理透過實體解析連結到同一個現實世界的對象,從而允許進行集體分析。
  • 可解釋的相關性,圖形拓撲提供了一種透明度,可以解釋為什麼某些連接的事實是相關的。
  • 個人化,捕捉使用者屬性、上下文和歷史互動以自訂結果。

知識圖譜不僅僅是單純的匹配,而是透過遍歷圖的過程來收集與查詢相關的上下文事實。可解釋的ranking方法利用圖的拓撲結構,透過編碼結構化事實、關係和上下文來提升檢索能力,從而實現準確的多步驟推理。相對於純向量搜索,這種方法提供了更強的相關性和解釋能力。

3. 利用簡單限制來改進知識圖譜的嵌入

在連續向量空間中嵌入知識圖譜是目前的研究熱點。知識圖譜使用向量嵌入來表示實體和關係,以支援數學運算。此外,額外的約束可以進一步優化表示。

  • 非負性約束,將實體嵌入限制為0到1之間的正值會導致稀疏性,明確地模擬了它們的正性質,並提高了可解釋性。
  • 蘊涵約束,將對稱、反轉、合成等邏輯規則直接編碼為關係嵌入的約束來強制這些模式。
  • 置信度建模,帶有鬆弛變數的軟約束可以根據證據對邏輯規則的置信度進行編碼。
  • 正則化,施加了有用的歸納偏差,只增加了一個投影步驟,而沒有使最佳化變得更加複雜。
  • 可解釋性,結構化限制為模型所學習的模式提供了透明度,這解釋了推理過程。
  • 精確性,約束透過將假設空間減少到符合要求的表示方法來提高泛化能力。

簡單通用的限制增加到知識圖譜的嵌入,從而產生更優化、更易於解釋和邏輯相容的表示。嵌入獲得模仿真實世界結構和規則的歸納偏差,這對更準確和可解釋的推理並沒有引入太多額外的複雜性。

4. 整合多種推理架構

知識圖譜需要推理來得出新的事實,回答問題,並做出預測,不同的技術有著互補的優勢:

邏輯規則將知識表述為邏輯公理和本體,透過定理證明進行合理和完整的推理,實現有限的不確定性處理。而圖嵌入用於向量空間運算的嵌入式知識圖結構,能處理不確定性但缺乏表達性。神經網路結合向量查找具有自適應性,但推理不透明。透過對圖結構和資料的統計分析能夠自動建立規則,但品質不確定。混合管線透過邏輯規則進行編碼明確的約束,嵌入提供向量空間操作,神經網路透過聯合訓練獲得融合的效益。使用基於案例、模糊或機率邏輯的方法來增加透明度,表達不確定性和對規則的置信度。透過將推論的事實和學到的規則具體化到圖譜中來擴展知識,提供回饋循環。

關鍵是確定所需的推理類型,並將它們映射到適當的技術,結合邏輯形式、向量表示和神經元組件的可組合管線提供了健壯性和可解釋性。

4.1 保持 LLM 的資訊流

為 LLM 檢索知識圖譜中的事實會引入資訊瓶頸,需要透過設計維持相關性。將內容分成小塊可以提高隔離性,但會失去周圍的上下文,這會阻礙分塊之間的推理。生成區塊的摘要可以提供更簡潔的上下文,關鍵細節被壓縮以突出顯示意義。將附加摘要、標題、標記等作為元數據,以維護有關來源內容的上下文。將原始查詢重寫為更詳細的版本,可以更好地針對 LLM 的需求進行檢索。知識圖譜的遍歷功能保持了事實之間的聯繫,維護上下文。按時間順序或按相關性排序可以優化 LLM 的資訊結構,將隱式知識轉換為 LLM 所陳述的顯式事實可以使推理變得更容易。

目標是優化檢索知識的相關性、上下文、結構和顯性表達,以最大限度地提高推理能力。需要在粒度和內聚性之間取得平衡。知識圖關係有助於為孤立的事實建構脈絡。

4.2 解鎖推理能力

知識圖表和嵌入式技術結合起來都有克服對方弱點的優勢。

知識圖譜提供了實體和關係的結構化表達。透過遍歷功能來增強複雜推理能力,處理多層推理;嵌入是在向量空間中為基於相似性的操作編碼信息,支持在一定尺度上進行有效的近似搜索,將潛在模式表面化。聯合編碼為知識圖譜中的實體和關係產生嵌入。圖神經網路透過可微訊息傳遞對圖結構和嵌入元素進行操作。

知識圖譜首先收集結構化知識,然後嵌入聚焦在相關內容的搜尋和檢索,外顯知識圖關係為推理過程提供了可解釋性。推論知識可以擴展為圖譜,GNN 提供了連續表示的學習。

這種夥伴關係可以透過模式來辨識!力和神經網路的可擴展性增強了結構化知識的表示。這是推進語言人工智慧需要統計學習和符號邏輯的關鍵。

4.3 以協同過濾改進搜尋

協同過濾利用實體之間的聯繫來加強搜索,一般過程如下:

  1. 建構一個節點表示實體和以邊表示關係的知識圖譜。
  2. 為某些關鍵節點屬性(如標題、描述等)產生一個嵌入向量。
  3. 向量索引ーー建構節點嵌入的向量相似度索引。
  4. 最近鄰搜尋ーー對於搜尋查詢,尋找具有大多數相似嵌入的節點。
  5. 協作調整ーー基於節點的連接,使用 PageRank 等演算法傳播和調整相似性分數。
  6. 邊緣權重ー依據邊緣型別、強度、信賴度等進行權重調整。
  7. 分數標準化ーー將調整後的分數標準化以保持相對排名。
  8. 結果重新排序ーー基於調整後協作分數的初始結果重新排序。
  9. 使用者上下文ーー進一步根據使用者設定檔、歷史記錄和首選項進行調整。

知識圖譜:大模型的理想搭檔圖片

5. 為RAG 引擎加油-資料飛輪

#建構一個不斷改進的高效能檢索增強生成(RAG)系統可能需要實現資料飛輪。知識圖譜透過提供結構化的世界知識為語言模型開啟了新的推理能力。但是,建立高品質的圖譜仍然具有挑戰性。這就是資料飛輪的用武之地,透過分析系統交互,不斷改進知識圖。

記錄所有系統查詢、回應、分數、使用者操作等數據,提供如何使用知識圖表的可視性,使用數據聚合到表面不良回應,聚類並分析這些回應,以識別表明知識差距的模式。人工回顧那些有問題的系統響應,並將問題追溯到圖譜中缺少的或不正確的事實。然後,直接修改圖表以添加那些缺少的事實數據、改進結構、提高清晰度等。不斷循環完成上述步驟,每次迭代都進一步增強知識圖。

像新聞和社群媒體這樣的串流媒體即時資料來源提供了新資訊的不斷流動,以保持知識圖表的最新性。如果使用查詢產生來識別和填補關鍵的知識空白,就超出了流提供的範圍。發現圖譜中的漏洞,提出問題,檢索缺失的事實,然後加入它們。對於每個循環,透過分析使用模式和修復資料問題,知識圖譜會逐漸增強,改進後的圖增強了系統的效能。

這個飛輪過程使得知識圖譜和語言模型能夠基於來自現實世界所使用的回饋進行協同演化。圖譜被積極地修改以適應模型的需要。

總之,資料飛輪透過分析系統交互,為知識圖譜的持續、自動改進提供了一個支架。這為依賴圖表的語言模型的準確性、相關性和適應性提供了動力。

6. 小結

人工智慧需要結合外部知識和推理,這就是知識圖譜的用武之地。知識圖譜提供了真實世界實體和關係的結構化表示,編碼了關於世界的事實以及它們之間的連結。透過遍歷那些相互關聯的事實,這使得複雜的邏輯推理可以跨越多個步驟

#然而,知識圖譜有其自身的局限性,如稀疏性和缺乏不確定性處理,這就是圖譜嵌入的幫助所在。透過在向量空間中編碼知識圖譜元素,嵌入允許從大型語料庫到潛在模式表徵化的統計學習,也支援高效的基於相似性的操作。

無論是知識圖譜或向量嵌入本身都不足以形成類人的語言智能,但是,它們共同提供了結構化知識表示、邏輯推理和統計學習的有效結合,而知識圖譜則涵蓋了神經網路模式辨識能力之上的符號邏輯和關係,像圖神經網路這樣的技術透過資訊傳遞圖結構和嵌入進一步統一了這些方法。這種共生關係使得系統既能利用統計學習,又能利用符號邏輯,結合了神經網路和結構化知識表示的優勢。

在建立高品質的知識圖譜、基準測試、雜訊處理等仍然存在著挑戰。但是,跨越符號和神經網路的混合技術仍然是前景光明的。隨著知識圖譜和語言模型的不斷發展,它們的整合將開啟了可解釋AI 的新領域。

以上是知識圖譜:大模型的理想搭檔的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除