何以為貓？可解釋AI從語意層面理解CNN的辨識機制-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

王林

Apr 09, 2023 pm 11:11 PM

人工智慧研究

近年來，CNN 因其優異的性能，在電腦視覺、自然語言處理等各個領域受到了研究者們的青睞。但是，CNN 是一個 “黑盒” 模型，即模型的學習內容和決策過程很難用人類能夠理解的方式提取和表達，這限制了它的預測可信度和實際應用。因此，CNN 的可解釋性受到了越來越多的關注，研究者們試圖採用特徵可視化，網絡診斷和網絡架構調整等方式輔助解釋CNN 的學習機制，從而將這一“黑盒” 透明化，使人類更容易理解、檢測和改進其決策過程。

近日，北京大學，東方理工，南方科技大學和鵬城實驗室等機構的研究團隊提出了一種語義可解釋人工智慧(semantic explainable AI, S-XAI）的研究架構，從語意層面解釋了CNN 的學習機制，並以貓狗二分類問題為例，形像地揭示了模型是如何學習類別意義上的貓的概念，即「何以為貓」。

本研究聚焦於CNN 從同一類別的樣本中學習到的共性特徵，並提取出人類可理解的語義概念，為CNN 提供了語義層面的解釋。基於此，研究首次提出了「語意機率(semantic probability)」的概念來表徵語意要素在樣本中的出現機率。實驗表明，S-XAI 在二分類和多分類任務中均能成功地提取共性特徵並抽像出超現實但可辨認的語義概念，在可信度評估和語義樣本搜尋等層面有著廣泛的應用前景。

該研究以《Semantic interpretation for convolutional neural networks: What makes a cat a cat?》為題，於 2022 年 10 月 10 日發表於《Advanced Science》上。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

論文連結：https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723

#程式碼連結：https://github.com/woshixuhao/semantic-explainable-AI

模型效果

#不同於以往的單一樣本視覺化研究，S-XAI能夠擷取並視覺化群體樣本的共性特徵，從而獲得全域可解釋性。在進一步抽象的語意空間與計算出的語意機率的基礎上，S-XAI 可以為 CNN 的決策邏輯自動產生人類可理解的語意解釋，並且從語意層面評估決策的可信度。

如圖1 所示，在貓狗二分類問題中，對於同一隻貓的三個角度的圖片，S-XAI 自動產生了相應的語義機率雷達圖和解釋語句。雖然神經網路都以 90% 以上的機率將這些圖片識別為貓，但是 S-XAI 從語義機率上提供了更多的解釋信息，體現出這些圖片之間的差異。例如，對於正面的圖像，S-XAI 的解釋是「我確信它是一隻貓，主要是因為它有著生動的眼睛和鼻子，顯然是貓的眼睛和鼻子。同時，它有著栩栩如生的腿，有點像貓的腿。」這個解釋顯示出很高的可信度。對於側面角度的圖像，S-XAI 的解釋是“它可能是一隻貓，主要是因為它有眼睛，也許是貓的眼睛，但是它的腿是有點令人困惑。” 對於貓背面的圖像，所有的語意機率均不明顯，S-XAI 的解釋是「它可能是一隻貓，但我不確定。」同時，對於一張狗的圖片，S-XAI 的解釋為：「我確信它是一隻狗，主要是因為它有生動的眼睛和鼻子，這顯然是狗的眼睛和鼻子。雖然它的腿有點令人困惑。」

事實上，如果將這隻狗的上半身遮蓋住，只看腿部，即使是人類也很難判斷這是貓還是狗。可以看出，S-XAI 提供的語意解釋較為準確，且與人類的認知一致，從語意層面讓人類更能理解神經網路的類別辨識邏輯。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

圖1. S-XAI 自動產生的語意機率雷達圖與解釋語句

同時，S-XAI 在語意樣本搜尋中也有廣闊的應用前景。如圖 2 所示，當人們需要從大量圖片中篩選出具有某些語義特徵的圖片時，S-XAI 提供了一種快速且準確的方式，即透過語義機率進行篩選。考慮到計算語意機率只涉及神經網路的前向操作（即預測），流程十分迅速。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

圖2.語義樣本搜尋範例

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

#在研究中，研究人員也證明了

S-XAI 在多分類任務上有著良好的拓展性

。如圖3 所示，以Mini-ImageNet 資料集（包含100 種動物類別）為例，S-XAI 仍然能夠從不同類別資料（如鳥，蛇，螃蟹，魚等）中分別提取出清晰可辨認的共性特徵和語義空間，並產生相應的語義解釋。

圖 3. S-XAI 在多分類任務中的表現。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

原理方法

目前常見的提高模型解釋性的想法主要分為視覺化和模型介入兩大類。視覺化方法將 CNN 內部的特徵圖，過濾器或熱力圖進行視覺化，從而理解網路在面對給定樣本時關注到的特徵。此方法的限制在於它只能從單一樣本中提取個體特徵以獲得局部可解釋性，無法幫助人們理解模型面對同一類資料時的整體決策邏輯。模型介入方法則將現有的一些解釋性強的模型（如樹模型等）融入神經網路的架構中，以提升模型的可解釋性能力。雖然此類方法具有全局可解釋性的優勢，但往往需要重新訓練模型，解釋成本較大，不利於推廣和應用。受人類認知模式的啟發，在S-XAI 中，研究人員採用了一種新的解釋策略，

從語意層面來解釋CNN 的類別學習機制（圖4）。在自然界中，相同種類的物體往往具有某些相似的共性特徵，這些共性特徵構成了類別認知的重要基礎。例如，儘管貓的形態各異，但它們都具有一些共通性特徵（如鬍鬚，鼻子和眼睛的相關特徵），這使得人類能夠快速地將它們判斷為貓。在實驗中，研究人員發現，CNN 的類別學習機制與人類有異曲同工之處。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

###圖4.語意可解釋人工智慧研究框架############# #####研究中採用了一種名為######行中心樣本壓縮（row-centered sample compression）######的技術，從CNN 中提取出了從同一類別樣本中學習到的共通性特徵。有別於傳統的主成分分析，行中心樣本壓縮將大量樣本在 CNN 中得出的特徵圖在樣本空間上進行降維，從而提取出少量主成分作為 CNN 學習到的共性特徵。為了使提取出的共通性特徵更清晰，樣本透過超像素分割和遺傳演算法找出了最優的超像素組合以降低幹擾。提取出的共通性特徵則透過視覺化的方式展現出來（圖 5）。 ################

圖5. 共性特徵的提取路徑

#以VGG-19 網路架構上的貓狗二分類問題為例，對貓和狗的類別資料分別擷取的不同主成分如圖6 所示。圖中可以清楚看出不同主成分展現出了可辨識的，不同層次的特徵。很明顯，第一主成分顯示出完整的臉部特徵，第二主成分顯示出零散的語義概念，如鬍鬚、眼睛和鼻子等，第三主成分則主要呈現出毛皮的特質。值得一提的是，這些主成分展現出的特徵是超自然的，即不屬於任何樣本，而是體現了所有同類別樣本的共同特徵。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

圖6. 對貓和狗的類別資料分別提取的不同主成分的可視化結果

基於提取出的共性特徵，研究人員透過對樣本中的語義資訊進行掩碼(mask) 處理，對比主成分的變化，進一步地將其中雜糅在一起的語義概念分離開來，從而提取出各語意概念對應的語意向量，抽象化出語意空間。在這裡，研究人員使用了眼睛，鼻子等人類理解的語義概念，並將抽象的語義空間可視化。在成功提取語意空間後，研究人員定義了「語意機率」的概念以表徵語意要素在樣本中的出現機率，從而為 CNN 的語意層面的解釋提供了定量分析的手段。

如圖7 所示，語義空間中出現了清晰可辨認的語義概念（明亮的眼睛，小巧的鼻子），這表明語義空間被成功地從CNN 中提取出來，展示了CNN 從類別資料中學習到的語意資訊。同時，研究者發現 CNN 對語義的認知與人類存在一定的差異，它所學習到的 “語義” 並不一定是人類共識的“語義”，甚至可能神經網絡的語義更加高效。例如，研究者發現，對於貓而言，CNN 經常會將貓的鼻子和鬍鬚作為一個整體的語義，這或許是更有效的。同時，CNN 學習了語意之間的一些聯繫，例如貓的眼睛和鼻子往往是同時出現的，這一方面值得後續深入的研究。

何以為貓？可解釋AI從語意層面理解CNN的辨識機制

圖7. 從CNN 擷取的語意向量與視覺化的語意空間（上：貓眼睛空間；下：貓鼻子空間）

總結展望

綜上所述，研究中提出的語義可解釋人工智慧（S-XAI）透過提取共性特徵和語意空間，從語意層面為CNN 的類別辨識機制提供了解釋。研究框架無需改變CNN 的架構即可獲得一定的全局解釋能力，由於不涉及網路的重新訓練，S-XAI 具有響應速度較快的優勢，在可信度評估和語義樣本搜尋方面有著可觀的應用潛力。

本質上而言，S-XAI 與知識發現有著異曲同工之處。知識發現意圖從神經網路找出反映共性物理規律的函數項，S-XAI 則是從CNN 找出反映樣本共性特徵的語意空間，二者的核心思想均為尋找共通性並將其表示出來，盡可能的讓人類可以理解。

以上是何以為貓？可解釋AI從語意層面理解CNN的辨識機制的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將