近來,《自然》子刊收錄了一項能找出神經網路在哪裡出錯的研究成果。研究團隊提供了一種利用拓樸學描述神經網路的推斷結果與其分類之間關係的可視化方法。這項成果能夠幫助研究人員推論神經網路推理過程中發生混淆的具體情況,讓人工智慧系統更透明。
研究人員揭示神經網路推理中的故障點
-
神經網路尖峰揭示推理錯誤:
- 研究發現神經網路推理中存在資料圖有關。
- 觀察尖峰有助於發現人工智慧系統中的故障點。
-
神經網路推理過程缺乏透明性:
- 神經網路擅長解決問題,但其推理過程不透明,引發對可靠性的擔憂。
- 新研究提供了一種方法,發現神經網路的錯誤出處。
-
神經網路的「黑盒」特性:
- 神經網路難以理解解決問題的方法,使得判斷答案正確性變得困難。
- 研究者無法追蹤神經網路對單一樣本的決策過程。
-
將決策結果視覺化:
- 研究人員沒有追蹤單一樣本的決策,而是將神經網路對整個資料庫的所有決策結果與樣本之間的關係進行視覺化。
- 這有助於識別多分類機率較高的影像。
-
拓樸資料分析:
- 研究者使用拓樸學繪製推論結果與分類之間的關係圖。
- 拓樸資料分析工具可協助識別資料集之間的相似性。
- 該工具已用於分析乳癌亞群和基因的關係。 論文連結:https://www.nature.com/articles/s42256-023-00749-8
在根據新研究成果產生的關係圖中:
- 在根據新研究成果產生的關係圖中:
-
- 在每個點位代表每個點。認為有關聯的圖像組
不同分類的圖由不同的顏色表示
點之間的距離越近,神經網路認為每組圖像越相似
🎜🎜這些地圖的大部分區域都顯示了單一顏色的點群。 🎜🎜🎜兩個不同顏色的重疊點表示有高機率屬於多個分類的影像。 「我們的方法能夠建立出類似地圖的關係圖,放大某些資料區域。」Gleich 表示,「這些區域通常是某幾個分類邊界不明顯的地方,在這些地方,解決方案可能不那麼清晰。不過,它能突顯值得進一步研究的特定的數據預測。這種方法提供了「讓研究者能夠運用人類與生俱來的思考方式來推測神經網路的推理思路」的途徑。 Gleich 表示:「這使我們可以根據已知的網路來預測它將如何回應全新的輸入。」
研究團隊發現神經網路特別容易混淆如胸腔的 X 光片、基因序列以及服裝等類別的圖案。例如,當一個網路在 Imagenette 資料庫(ImageNet 的子集)測試時,它反覆地將汽車的圖片歸類為磁帶播放器。他們發現這是由於這些圖片是從網購清單中提取的,含有汽車音響設備的標籤。
該團隊的新方法有助於揭示「錯誤出在哪裡」。 Gleich 介紹說:「在這個層面上分析數據,可以讓科學家們從僅僅在新數據上得到一堆有用的預測,深入理解神經網路可能是如何處理他們的數據的。」
「我們的工具似乎很擅長幫助發現訓練資料本身是否包含錯誤,」Gleich 表示。 「人們在手動標註資料時確實會犯錯。」
這種分析策略的潛在用途可能包括特別重要的神經網路應用。比如說,神經網路在醫療保健或醫學上的應用,以研究敗血症或皮膚癌。
批評者認為,由於大多數神經網路都是根據過去的決定訓練出來的,這些決定反映了對人類群體本來存在的偏見,因此 AI 系統最終會複製過去的錯誤。 Gleich 說,如果能找到一種方法來使用新工具「了解預測中的偏見或成見」,可能是一個顯著的進步。
Gleich 表示,這項新工具可與神經網路一起使用,透過小數據集產生特定預測,例如「基因突變是否可能有害」。但目前為止,研究人員還沒有辦法將它應用於大語言模型或擴散模型。
了解更多內容,請參考原論文。
參考內容:
https://spectrum.ieee.org/ai-mistakes
https://www.cs.purdue.edu/homes/liu1740/
https://www.cs.purdue.edu/homes/ tamaldey/
https://www.cs.purdue.edu/homes/dgleich/
以上是能找到神經網路Bug的視覺化工具,Nature子刊收錄的詳細內容。更多資訊請關注PHP中文網其他相關文章!