首頁  >  文章  >  科技週邊  >  賈強槐:螞蟻大規模知識圖譜建構及其應用

賈強槐:螞蟻大規模知識圖譜建構及其應用

WBOY
WBOY轉載
2023-09-10 15:05:081212瀏覽

賈強槐:螞蟻大規模知識圖譜建構及其應用

一、圖譜概論

首先介紹知識圖譜的一些基礎概念。

1、什麼是知識圖譜

賈強槐:螞蟻大規模知識圖譜建構及其應用

#知識圖譜旨在利用圖結構建模、辨識與推論事物之間的複雜關聯關係與沉澱領域知識,是實現認知智慧的重要基石, 已廣泛應用於搜尋引擎、智慧問答、語言語意理解、大數據決策分析等眾多領域。

知識圖譜同時建模了資料之間的語意關係和結構關係,結合深度學習技術可以把這兩者關係更好得融合和表徵。

2、為什麼要建知識圖譜

賈強槐:螞蟻大規模知識圖譜建構及其應用

#我們要建立知識圖譜主要從如下兩點出發考慮:一方面是螞蟻本身的資料來源背景特點,另一方面是知識圖譜能帶來的好處。

[1]  資料來源本身是多元且異質的,缺乏一套統一的知識理解系統。

[2]  知識圖譜能帶來多個好處,包括:

  • ##語意標準化:利用圖譜構建技術提升實體、關係、概念等的標準化和歸一化程度。
  • 領域知識沉澱:基於語意、圖結構實作知識表示和互聯,從而累積豐富的領域知識。
  • 知識重複使用:建立高品質的螞蟻知識圖譜,透過融合、連結等服務多下游,為業務降本提效。
  • 知識推理發現:基於圖譜推理技術發現更多長尾知識,服務風控、信貸、理賠、商家營運、行銷推薦等場景。
3、如何建構知識圖譜的概觀

賈強槐:螞蟻大規模知識圖譜建構及其應用

#在建構各類業務知識圖譜的過程中,我們沉澱出了一套螞蟻知識圖譜的通用建構範式,主要分為如下五個部分: 

  • 從業務資料出發,作為圖譜冷啟動的重要數據來源。
  • 他域的知識圖譜同現有圖譜進行融合,透過實體對齊的技術來實現。
  • 業務領域結構化的知識庫同現有的知識圖譜的進行融合,也是透過實體對齊的技術實現。
  • 非結構和半結構化的數據,例如文字會對其進行資訊抽取,透過實體鏈指技術實現對現有圖譜進行更新。
  • 領域概念體系與專家規則的融入,將相關概念、規則與現有知識圖譜連結。

賈強槐:螞蟻大規模知識圖譜建構及其應用

有了通用的建構範式後,就需要進行體系化的建構。從兩個視角來看螞蟻知識圖譜的體系化建構。首先是從演算法角度來看,有各種演算法能力,例如知識推理、知識匹配等等。從落地視角來看,自下而上,最下面的基礎依賴包括圖計算引擎和認知底座計算;其上是圖譜底座,包括NLP&多模平台以及圖譜平台;往上是各種圖譜構建技術,基於此我們就可以建立螞蟻知識圖譜;在知識圖譜的基礎上,我們可以做一些圖譜推理;再往上,我們提供一些通用的演算法能力;最上面是業務應用。

二、圖譜建構

接下來分享螞蟻集團建構知識圖譜的一些核心能力,包括圖譜建構、圖譜融合、圖譜認知三個面向。

1、圖譜建構

賈強槐:螞蟻大規模知識圖譜建構及其應用

圖譜建構的流程主要包括六個步驟:

  • 數據源,獲取多元資料。
  • 知識建模,將海量資料轉化成結構化的數據,從概念、實體和事件三個域來建模。
  • 知識獲取,建構了知識加工研發平台。
  • 知識存儲,包括Ha3存儲和圖存儲等。
  • 知識運營,包括知識編輯、線上查詢、抽獎等。
  • 持續學習,讓模型自動地進行迭代學習。

建構過程中的三個經驗與技巧

融合專家知識的實體分類

賈強槐:螞蟻大規模知識圖譜建構及其應用

#在建立知識圖譜中,需要對輸入的實體進行分類,在螞蟻場景下是一個大規模多標籤分類的任務。為了融合專家知識來進行實體分類,主要做如下三點最佳化:

  • 語意資訊增強:引入label語意圖表示學習的Embedding。
  • 比較學習:加入層次label監督的比較。
  • 邏輯規則限制:融入專家先驗知識。

領域詞表注入的實體辨識

賈強槐:螞蟻大規模知識圖譜建構及其應用

#在實體辨識的基礎上,從字詞連邊的圖結構出發,讓模型學習到對連邊的合理賦權,對噪音詞連邊減少權重。提出了邊界對比學習和語意對比學習兩個模組:

  • #邊界對比學習,用來解決邊界衝突問題。在詞表注入之後,建構一個全連結圖,用GAT來學習每個token的表徵,邊界分類正確的部分建構一個正例的圖,錯誤的部分建構負例的圖,透過對比讓模型學到每個token的邊界資訊。
  • 語意比較學習,用來解決語意衝突問題。借鑒了原型學習思想,把label的語意的表徵加進來,強化每個token與label語意之間的關聯關係。

邏輯規則限制的小樣本關係抽取

賈強槐:螞蟻大規模知識圖譜建構及其應用

#在領域問題上我們的標註樣本很少,會面臨few-shot或zero-shot的場景,在這種情況下進行關係抽取的核心思想就是引入外部知識庫,為了解決語義空間不同導致的性能下降問題,設計了基於邏輯規則的推理模組;為了解決實體類型匹配導致的死記硬背問題,設計了細微差異感知模組。

2、圖譜融合

圖譜融合是指不同業務領域下圖譜之間的資訊融合。

賈強槐:螞蟻大規模知識圖譜建構及其應用

圖譜融合的好處:

  • #跨業務的知識多用:基於圖譜本體模型,實現跨業務的知識連結。
  • 減少無效資料拷貝:連線即可應用,標準化知識服務連結。
  • 業務快速價值落地:減少業務找資料的成本,透過知識重複使用帶來更大業務價值,降本提效。

圖譜融合中的實體對準

賈強槐:螞蟻大規模知識圖譜建構及其應用

#

知識圖譜融合過程中一個核心技術點就是實體對齊,這裡我們採用了SOTA演算法BERT-INT,主要包含兩個模組,一個是表示模組,另一個是互動模組。

演算法的實作流程主要包括召回和排序:

#回想:在表示模組,利用標題文字的BERT向量相似度召回。

基於標題屬性鄰居的排序模型:ü 利用表示模組,完成對標題、屬性和鄰居的向量表示:

  • 計算標題的cos相似度。
  • 分別計算兩個實體的屬性和鄰居集合間的相似度矩陣,並擷取一維相似度特徵。
  • 將三個特徵拼接為特徵向量計算Loss。

3、圖譜認知

賈強槐:螞蟻大規模知識圖譜建構及其應用

#這部分,主要介紹螞蟻內部的知識表示學習框架。

螞蟻提出了一個基於Encoder-Decoder框架的知識表示學習。其中Encoder是一些圖神經的學習方法,Decoder是一些知識表示的學習,例如連結預測。這套表示學習框架可以自監督產出通用的實體/關係Embedding,有幾個好處:1)Embedding Size遠小於原始特徵空間,降低了儲存成本;2)低維向量更稠密,有效緩解資料稀疏問題;3)同一向量空間學習,對多源異質資料的融合更自然;4)Embedding具有一定的普適性,方便下游業務使用。

三、圖譜應用

接下來分享幾個在螞蟻群組中知識圖譜的典型應用案例。

1、圖譜的場景應用模式

在介紹具體案例前,先來介紹一下螞蟻知識圖譜場景應用的幾種模式,主要包括知識獲取、知識管理和推理,以及知識服務。如下圖所示。

賈強槐:螞蟻大規模知識圖譜建構及其應用

2、一些典型的案例

案例1:基於知識圖譜的結構化匹配召回

賈強槐:螞蟻大規模知識圖譜建構及其應用

業務場景是支付寶主搜裡面的小程式的內容下掛,要解決的業務痛點是:

  • 商品實體,以及商品上下位關係匱乏。
  • 小程式商品級理解能力弱。

解決方案是,建立了商家知識圖譜。結合商家圖譜的商品關係,實現對使用者query商品層級的結構化理解。

案例2:使用者意圖即時預測在推薦系統應用

賈強槐:螞蟻大規模知識圖譜建構及其應用

#此案例是針對首頁推薦進行使用者意圖即時預測,建構了AlipayKG,框架如上圖所示。相關工作也發表在頂會www 2023上,可以參考論文做更進一步的理解。

案例3:融合知識表徵的行銷券推薦

賈強槐:螞蟻大規模知識圖譜建構及其應用

#這個場景是消費券推薦的一個場景,業務面臨的痛點為:

  • 頭部效應嚴重。
  • 使用者核銷領取行為稀疏。
  • 冷啟動用戶和券很多,缺少對應的足跡資料。

為了解決上述問題,我們設計了融合動態圖表徵的深度向量召回演算法。因為我們發現使用者消費券的行為是有週期性的,靜態的單一邊是無法建模這種週期性行為的。為此我們先建構了動態圖,接著採用團隊自研的動態圖演算法來學習Embedding表徵,得到表徵之後再放到雙塔模型中去,進行向量召回。

案例4:基於診療事件的智能理賠專家規則推理

賈強槐:螞蟻大規模知識圖譜建構及其應用

#最後一個案例是關於圖譜規則推理。以醫療保險健康圖譜為例,包括醫學知識、理賠規則、「人」的健康的信息,進行實體鏈指,再加上邏輯規則,來作為決策的依據。透過圖譜實現了專家理賠效率的提升。

四、圖譜與大模型

最後簡單探討在目前大模型快速發展的脈絡下知識圖譜的機會。

1、知識圖譜與大模型的關係

賈強槐:螞蟻大規模知識圖譜建構及其應用

#知識圖與大模型各有優缺點,大模型的主要有通用知識建模和普適性等優點,而大模型的缺點正好是知識圖譜的優點所能彌補的。圖譜的優點包括準確度很高、可解釋性強等。大模型和知識圖譜是能夠相互影響的。

圖譜和大模型的融合通常有三種路線,一種是利用知識圖譜來增強大模型;第二種是利用大模型來增強知識圖譜;第三種是大模型和知識圖譜協同並進,優勢互補,大模型可以認為是一種參數化的知識庫,知識圖譜可以認為是一種顯示化的知識庫。

2、大模型與知識圖譜相應用的案例

大模型應用於知識圖譜建構

賈強槐:螞蟻大規模知識圖譜建構及其應用

在知識圖譜建構的過程中,可以利用大模型來進行資訊擷取、知識建模和關係推理。

如何利用大模型來應用在知識圖譜的資訊抽取

賈強槐:螞蟻大規模知識圖譜建構及其應用

#Dendmon的這個工作將資訊擷取問題分解成了兩個階段:

  • 在第一階段,我們想要找到文本中存在的實體、關係或事件類型,以減少搜尋空間和計算複雜度。
  • 在第二階段,我們根據前面抽取的類型和給定的對應列表,進一步抽取相關資訊。

將知識圖譜應用於大模型

賈強槐:螞蟻大規模知識圖譜建構及其應用

#將知識圖譜應用於大模型主要包含三個面向:

將知識圖譜整合到大模型輸入中。可以利用知識圖譜來進行資料清洗,或利用知識圖譜直接明確地進行形式化拼接。

將知識圖譜整合到大模型訓練中。例如同時進行兩個任務的訓練,知識圖譜可以做知識表示的任務,大模型做MLM的預訓練,兩者聯合建模。

將知識圖譜注入大模型推理中。首先可以解決大模型的兩個問題,一是將知識圖譜作為先驗約束,來避免大模型「胡說八道」;第二就是解決大模型時效性問題。另一方面,基於知識圖譜,可以為大模型產生提供可解釋方案。

知識增強的問答系統

賈強槐:螞蟻大規模知識圖譜建構及其應用

主要包括兩類,一塊是知識圖譜增強的問答系統,即用大模型來優化KBQA的模式;另一個是資訊檢索增強,類似LangChain、GopherCite、New Bing等用大模型來做知識庫問答的形式。

知識增強的生成式搜尋問答系統,有以下優勢:

  • 透過存取搜尋系統,解決時效性問題。
  • 透過提供Reference鏈接,可以進行手動核查,以解決事實性錯誤問題。
  • 引入搜尋結果,豐富上下文,增強大模型產生效果。

3、總結與展望

賈強槐:螞蟻大規模知識圖譜建構及其應用

#知識圖與大模型如何更好地交互協同共進,包括以下三個方向:

  • 推進知識圖譜和大模型在NLP、問答系統等領域的深入應用。
  • 使用知識圖譜進行大模型的幻覺偵測和去毒。
  • 結合知識圖譜的領域大模型研發。
#

以上是賈強槐:螞蟻大規模知識圖譜建構及其應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除