嘉賓| 王林
#整理| 張鋒
#人工智慧有兩個比較大的派系:理性主義和經驗主義。但在真實的工業級產品中這兩種派係是相輔相成的。如何在這種模型黑盒中引入更多的可控性,更多的知識,需要將知識圖譜這樣一種承載了符號化的知識應用起來。
日前,在51CTO主辦的在#WOT全球技術創新大會上
#,泰凡科技CTO王林博士為廣大與會者帶來了專題演進《圖數據庫:通往認知智能的新途徑》,重點介紹了圖數據庫模型的歷史與演進;圖數據庫實現認知智能的重要途徑,以及在OpenGauss上進行的圖資料庫設計與實務經驗。 現在將演講內容整理如下,希望對諸君有所啟發:
另一類則是符號主義
,通常是模擬人的心智。認知過程是在符號表示上的一種運算。所以,它常常是用來進行一些思考與推理。典型代表的技術就是知識圖譜。
圖增強AI的4種途徑
#1、情境決策#知識圖譜本質上是基於圖的語意網絡,表示了實體和實體之間的關係。從高層次來說,知識圖譜也是互相關聯知識的集合,以人類可以理解的形式描述現實世界和實體、事物相互的關係。
知識圖譜可以為我們帶來更多領域的知識、脈絡的訊息,幫助我們做決策。從應用的角度來說,可以把知識圖譜分割成三種類型:
一是
二是
外部知覺知識圖譜。聚合外部的資料來源,將其映射到我們感興趣的內部的實體。典型應用是在供應鏈風險分析時,透過供應鏈能看到供應商,它的上下游、工廠等供應線的信息,這樣就可以分析哪裡存在問題,有沒有中斷的風險。
三是自然語言處理知識圖譜。自然語言處理包含大量技術術語甚至是領域的關鍵字等,可以幫助我們去做自然語言的查詢。
###2、提高運行效率#########機器學習的方法經常依賴儲存在表中的數據,而這些數據其實大部分是資源密集型的操作,知識圖譜可以提供高效率領域的相關內容,把數據聯結起來,在關係上實現多個分離度,有助於大規模快速分析。從這個角度來說,圖本身就加速了機器學習的效果。 ############再者機器學習演算法常常要針對所有的資料進行計算。透過簡單的圖查詢,就可以傳回所要資料的子圖,以此加速加速運作效率。 #########3、提高預測準確度#########關係往往是行為最強的預測因素,關係的特徵可以從圖裡很方便地取得。 ######透過關聯資料和關係圖,可以更直接地提取關係的特徵。但在傳統的機器學習方法中,有時在抽象簡化資料時其實會失去許多重要的資訊。因此,關係特性可以讓我們在分析時不會失去這些資訊。此外,圖演算法簡化了發現類似緊密社區的異常情況的過程。我們可以在緊密社區中對節點進行評分,並提取這些資訊以用於訓練機器學習模型。最後,使用圖演算法進行特徵選擇,以將模型中使用的特徵數量減少到一個最相關的子集。
這幾年我們經常能夠聽到“可解釋性”,這也是應用人工智慧過程中一個特別大的挑戰,我們需要理解人工智慧是怎麼得出這個決策、這個結果的,同時在可解釋方面有許多訴求,尤其是在某些特定應用領域,例如醫療、金融和司法。
可解釋性包含三方面的內容:
#(1)可解釋的資料。我們需要知道資料選擇的原因,資料的來源是什麼?數據是要有可解釋性的。
(2)可解釋的預測。可解釋的預測意味著我們需要知道特定的預測使用了哪些特徵,用了哪些權重。
(3)可解釋的演算法。可解釋的演算法目前前景很誘人,但還是有很長的路要走,目前在研究領域裡提出了張量網絡,引用這樣的方法讓演算法能具備一定的可解釋性。
既然圖對於人工智慧應用和發展如此重要,那麼我們該如何將它用好呢?首先要注意的是圖的儲存管理,也就是圖資料模型。
目前最主流的圖資料模型有兩種:RDF圖和屬性圖。
RDF全稱為資源描述框架,是由W3C制定的在語義萬維網上用來表示交換機器可理解資訊的一個標準數據模型。在RDF圖中,每個資源都有一個HTTP URL作為其中的一個唯一ID。 RDF定義是一種三元組的形式,表示一個事實的陳述,S代表主語,P是謂語,O是受詞。圖中Bob is interested in The MonoLisa,陳述了一個事實,這就是RDF圖。
對應RDF圖的資料模型,有著自己的查詢語言-SPARQL。 SPARQL是W3C所製定的RDF知識圖譜的標準查詢語言。 SPARQL語法上借鏡了SQL,是一種聲明式的查詢語言,查詢的基本單元也是三元組的模式。
屬性圖模型中每個頂點和邊都有一個唯一ID,頂點和邊還有一個標籤,作用相當於RDF圖中的資源類型。此外,頂點和邊上還具有一組屬性,由屬性名稱和屬性值組成,這樣就組成了一個屬性圖模型。
同樣屬性圖模型也有一套查詢語言-Cypher。 Cypher也是一種聲明式的查詢語言,使用者只需要聲明要查什麼,而不需要指出怎麼查。 Cypher有一個主要的特點,是使用ASCII 藝術的語法表達圖模式匹配。
伴隨人工智慧的發展,認知智能的發展和知識圖譜的應用越來越多。因此,圖資料庫近年來在市場中得到了越來越多的關注,但目前在圖上面臨的一個重要問題就是資料模型和查詢語言的不統一,這是亟待解決的問題 。
研究OpenGauss圖表資料庫的出發點主要有兩方面。
一方面想藉助知識圖譜本身的特性。例如在高效能、高可用、高安全性和易運維幾方面,能夠將這些特性融入圖資料庫中,對資料庫而言這些非常重要。
另一方面從圖資料模型考慮出發。目前有兩種資料模型與兩種查詢語言,如果對齊這兩種不同查詢語言背後形式的語意運算符,好比關係型資料庫裡的投影、選擇、連結等,如果對齊SPARQL和Cypher語言背後的語意,提供兩種不同的語法視圖,這樣自然實作了一種互通性。也就是內部能夠達到語意的一致,如此就能用Cypher查RDF的圖,也能用SPARQL查屬性圖,這就形成了一個非常好的特性。
#底層使用OpenGauss,用關係模型看作圖儲存物理模型,想法是將RDF圖和屬性圖的不一致,透過求最大公約數的方式,在底層實體儲存上做一個統一。
基於這個思路,OpenGauss—Graph的架構最底層就是基礎設施,依序往上是存取方法、統一的屬性圖和RDF圖的處理和管理方式。緊接著是統一的查詢處理執行引擎,用以支撐統一的語意算子,包含子圖匹配算子、路徑導航算子、圖分析算子、關鍵字查詢算子。再往上是統一的API接口,提供SPARQL的介面和Cypher的介面。另外還有統一的查詢語言的語言標準以及互動查詢的可視介面。
設計儲存方案時主要考慮如下兩點:
(1)不能太複雜,因為太複雜的儲存方案效率不會太高。
(2)要能很巧妙地容納下兩種不同知識圖譜的資料型態。
因此,便有了點表和邊表的儲存方案。有一個公共的點表叫properties,針對不同的點,會有一個繼承;邊表也會有不同邊表的繼承。不同類型的點表、邊表會有一份copy,這樣就維護了一個點邊表集合的儲存方案。
如果是屬性圖,則不同label的點找到不同的點表,例如professor就找到professor點表。點的屬性就對應到點表中的屬性列上;邊表也是一樣,authors就會對應到authors邊表,邊就會對應到邊表中的一行,有起始節點和終止節點的ID。
透過這樣一個看似簡單實際上通用性很強的方式,可以將RDF圖與屬性圖從物理層進行統一。但在實際應用當中有大量的沒有類型的實體,這時我們採取了歸類語義到最相近的有類型的表中的方法。
除了儲存以外,重要的就是查詢。在語意層面我們做到了操作的對齊,實現兩種查詢語言的互通,SPARQL和Cypher互查。
在這個情況下涉及到兩個層面:語法和詞法,還有它們的解析不能產生相互的矛盾。這裡引用了一個關鍵字,例如查SPARQL就開啟SPARQL的語法,查Cypher就開啟Cypher的語法,避免衝突。
我們也實作了許多查詢的算子。
(1)子圖符合查詢,查詢所有的作曲家和他作的曲子、作曲家的生日,是典型的子圖匹配問題。可分為屬性圖和RDF圖,其大致的處理流程也是一致的。例如對應點加入join鍊錶,然後加入properties列上的選擇操作,接著對頭尾兩個點模式所對應的點表之間的連接實施約束。 RDF圖對邊表的起始、終點進行重要操作,最後都是變數加入投影約束,輸出最終結果,流程上是相近的。
子圖匹配的查詢,同樣也支持一些內建的函數,例如FILTER函數,對變量形式進行限制、邏輯運算符、聚合、算術運算符都進行了支持,當然這部分也可以不斷擴充。
#(2)導航式查詢,這在傳統的關係型資料庫中是沒有的。下圖種左邊是一個小型的社會網絡圖,這是一個有向圖,可以看到認識是單向的,Tom認識Pat,但Pat不認識Tom。導航式查詢中如果進行一個二跳的查詢,看誰認識Tom。如果是0跳,Tom就是自己認識自己。 1跳就是Tom認識Pat,Tom認識Summer。 2跳是Tom認識Pat,又認識Nikki,又認識回Tom。
#(3)關鍵字查詢,這裡有兩個例子,tsvector和tsquery。一個是將文件轉成詞條的清單;一個是查詢向量中是否存在指定的單字或片語。當知識圖譜中的文字比較長,有比較長的屬性時,就利用這個功能為其提供關鍵字檢索的功能,這也是非常好用的。
#(4)分析式查詢,對於圖資料庫有其獨特的查詢,例如最短路、Pagerank等都是基於圖的查詢算子,都可以在圖資料庫中實作。例如查從Tom開始到Nikki最短路徑是多少,透過Cypher實現了最短路徑的算子,可以把最短的路徑輸出出來,查到了結果。
除了上述提到的功能以外,我們也實作了一個視覺互動的studio,在其中輸入Cypher和SPARQL的查詢語言,能得到可視的直觀圖,可以在上面做圖的維護、管理以及應用,圖上還可以進行很多交互,未來我們還會有更多的算子以及圖查詢、圖搜尋加進來,實現更多應用的方向與場景。
最後,歡迎大家造訪OpenGauss Graph社區,也歡迎對OpenGauss Graph有興趣的朋友們加入社區,作為新的contributor,一同把OpenGauss Graph社區建設好。
王林,工學博士、OpenGauss圖資料庫社群Maintainer、泰凡科技CTO、資深工程師、中國電腦協會YOCSEF天津21-22副主席、CCF 資訊系統專委會執委,入選天津市131人才計畫。
以上是泰凡科技王林:圖資料庫-通往認知智慧的新途徑的詳細內容。更多資訊請關注PHP中文網其他相關文章!