大型語言模型(LLM)具有產生流暢和連貫文字的能力,為人工智慧的對話、創意寫作等領域帶來了新的前景。然而,LLM也存在一些關鍵限制。首先,它們的知識僅限於從訓練資料中辨識出的模式,缺乏對世界的真正理解。其次,推理能力有限,不能進行邏輯推理或從多個資料來源融合事實。面對更複雜、更開放的問題時,LLM的回答可能變得荒謬或矛盾,被稱為「幻覺」。因此,儘管LLM在某些方面非常有用,但在處理複雜問題和真實世界情境時,仍存在一定的限制。
為了彌補這些差距,近年來出現了檢索增強生成(RAG)系統,其核心思想是透過從外部來源檢索相關知識來為LLM提供上下文,以便做出更明智的反應。目前的系統大多使用向量嵌入的語意相似度來檢索段落,然而,這種方法有其自身的缺點,例如缺乏真正的相關性、無法聚合事實,以及缺乏推理鏈。而知識圖譜的應用領域正能解決這些問題。知識圖譜是一種對現實世界實體和關係進行結構化表達的方式。透過編碼上下文事實之間的相互聯繫,知識圖譜克服了純向量搜尋的缺陷,並且透過圖搜尋可以進行複雜的多層推理,跨越多種資訊來源。
向量嵌入和知識圖譜的結合可以提升LLM的推理能力,增強其準確性和可解釋性。這種合作關係將表層語義與結構化知識和邏輯完美融合,使得LLM能夠同時應用統計學習和符號表示。
圖片
大多數RAG系統透過文件集合中段落的向量搜尋來尋找LLM的上下文。這個過程有幾個關鍵步驟。
這種管線有幾個主要的限制:
隨著查詢變得越來越複雜,這些限制在無法對檢索到的內容進行推理方面變得越來越明顯。
知識圖譜以實體和關係為基礎,透過相互連結的網絡傳遞訊息,透過複雜推理提高檢索能力。
知識圖譜不僅僅是單純的匹配,而是透過遍歷圖的過程來收集與查詢相關的上下文事實。可解釋的ranking方法利用圖的拓撲結構,透過編碼結構化事實、關係和上下文來提升檢索能力,從而實現準確的多步驟推理。相對於純向量搜索,這種方法提供了更強的相關性和解釋能力。
在連續向量空間中嵌入知識圖譜是目前的研究熱點。知識圖譜使用向量嵌入來表示實體和關係,以支援數學運算。此外,額外的約束可以進一步優化表示。
簡單通用的限制增加到知識圖譜的嵌入,從而產生更優化、更易於解釋和邏輯相容的表示。嵌入獲得模仿真實世界結構和規則的歸納偏差,這對更準確和可解釋的推理並沒有引入太多額外的複雜性。
知識圖譜需要推理來得出新的事實,回答問題,並做出預測,不同的技術有著互補的優勢:
邏輯規則將知識表述為邏輯公理和本體,透過定理證明進行合理和完整的推理,實現有限的不確定性處理。而圖嵌入用於向量空間運算的嵌入式知識圖結構,能處理不確定性但缺乏表達性。神經網路結合向量查找具有自適應性,但推理不透明。透過對圖結構和資料的統計分析能夠自動建立規則,但品質不確定。混合管線透過邏輯規則進行編碼明確的約束,嵌入提供向量空間操作,神經網路透過聯合訓練獲得融合的效益。使用基於案例、模糊或機率邏輯的方法來增加透明度,表達不確定性和對規則的置信度。透過將推論的事實和學到的規則具體化到圖譜中來擴展知識,提供回饋循環。
關鍵是確定所需的推理類型,並將它們映射到適當的技術,結合邏輯形式、向量表示和神經元組件的可組合管線提供了健壯性和可解釋性。
為 LLM 檢索知識圖譜中的事實會引入資訊瓶頸,需要透過設計維持相關性。將內容分成小塊可以提高隔離性,但會失去周圍的上下文,這會阻礙分塊之間的推理。生成區塊的摘要可以提供更簡潔的上下文,關鍵細節被壓縮以突出顯示意義。將附加摘要、標題、標記等作為元數據,以維護有關來源內容的上下文。將原始查詢重寫為更詳細的版本,可以更好地針對 LLM 的需求進行檢索。知識圖譜的遍歷功能保持了事實之間的聯繫,維護上下文。按時間順序或按相關性排序可以優化 LLM 的資訊結構,將隱式知識轉換為 LLM 所陳述的顯式事實可以使推理變得更容易。
目標是優化檢索知識的相關性、上下文、結構和顯性表達,以最大限度地提高推理能力。需要在粒度和內聚性之間取得平衡。知識圖關係有助於為孤立的事實建構脈絡。
知識圖表和嵌入式技術結合起來都有克服對方弱點的優勢。
知識圖譜提供了實體和關係的結構化表達。透過遍歷功能來增強複雜推理能力,處理多層推理;嵌入是在向量空間中為基於相似性的操作編碼信息,支持在一定尺度上進行有效的近似搜索,將潛在模式表面化。聯合編碼為知識圖譜中的實體和關係產生嵌入。圖神經網路透過可微訊息傳遞對圖結構和嵌入元素進行操作。
知識圖譜首先收集結構化知識,然後嵌入聚焦在相關內容的搜尋和檢索,外顯知識圖關係為推理過程提供了可解釋性。推論知識可以擴展為圖譜,GNN 提供了連續表示的學習。
這種夥伴關係可以透過模式來辨識!力和神經網路的可擴展性增強了結構化知識的表示。這是推進語言人工智慧需要統計學習和符號邏輯的關鍵。
協同過濾利用實體之間的聯繫來加強搜索,一般過程如下:
圖片
#建構一個不斷改進的高效能檢索增強生成(RAG)系統可能需要實現資料飛輪。知識圖譜透過提供結構化的世界知識為語言模型開啟了新的推理能力。但是,建立高品質的圖譜仍然具有挑戰性。這就是資料飛輪的用武之地,透過分析系統交互,不斷改進知識圖。
記錄所有系統查詢、回應、分數、使用者操作等數據,提供如何使用知識圖表的可視性,使用數據聚合到表面不良回應,聚類並分析這些回應,以識別表明知識差距的模式。人工回顧那些有問題的系統響應,並將問題追溯到圖譜中缺少的或不正確的事實。然後,直接修改圖表以添加那些缺少的事實數據、改進結構、提高清晰度等。不斷循環完成上述步驟,每次迭代都進一步增強知識圖。
像新聞和社群媒體這樣的串流媒體即時資料來源提供了新資訊的不斷流動,以保持知識圖表的最新性。如果使用查詢產生來識別和填補關鍵的知識空白,就超出了流提供的範圍。發現圖譜中的漏洞,提出問題,檢索缺失的事實,然後加入它們。對於每個循環,透過分析使用模式和修復資料問題,知識圖譜會逐漸增強,改進後的圖增強了系統的效能。
這個飛輪過程使得知識圖譜和語言模型能夠基於來自現實世界所使用的回饋進行協同演化。圖譜被積極地修改以適應模型的需要。
總之,資料飛輪透過分析系統交互,為知識圖譜的持續、自動改進提供了一個支架。這為依賴圖表的語言模型的準確性、相關性和適應性提供了動力。
人工智慧需要結合外部知識和推理,這就是知識圖譜的用武之地。知識圖譜提供了真實世界實體和關係的結構化表示,編碼了關於世界的事實以及它們之間的連結。透過遍歷那些相互關聯的事實,這使得複雜的邏輯推理可以跨越多個步驟
#然而,知識圖譜有其自身的局限性,如稀疏性和缺乏不確定性處理,這就是圖譜嵌入的幫助所在。透過在向量空間中編碼知識圖譜元素,嵌入允許從大型語料庫到潛在模式表徵化的統計學習,也支援高效的基於相似性的操作。
無論是知識圖譜或向量嵌入本身都不足以形成類人的語言智能,但是,它們共同提供了結構化知識表示、邏輯推理和統計學習的有效結合,而知識圖譜則涵蓋了神經網路模式辨識能力之上的符號邏輯和關係,像圖神經網路這樣的技術透過資訊傳遞圖結構和嵌入進一步統一了這些方法。這種共生關係使得系統既能利用統計學習,又能利用符號邏輯,結合了神經網路和結構化知識表示的優勢。
在建立高品質的知識圖譜、基準測試、雜訊處理等仍然存在著挑戰。但是,跨越符號和神經網路的混合技術仍然是前景光明的。隨著知識圖譜和語言模型的不斷發展,它們的整合將開啟了可解釋AI 的新領域。
以上是知識圖譜:大模型的理想搭檔的詳細內容。更多資訊請關注PHP中文網其他相關文章!