顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 10:25 PM

模型計算

計算影像之間的相似度是電腦視覺中的開放性問題。

在影像生成火遍全球的今天，如何定義「相似度」，也是評估產生影像真實度的關鍵問題。

雖然當下有一些相對直接的方法來計算影像相似度，例如測量像素上的差異（如FSIM, SSIM），但這種方法獲得的相似性差異和人眼感知到的差異相去深遠。

深度學習興起後，一些研究人員發現一些神經網路分類器，如AlexNet, VGG, SqueezeNet等在ImageNet上訓練後得到的中間表徵可以用作感知相似性的計算。

也就是說，embedding比像素更貼近人對於多張影像相似的感知。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

當然，這只是假設。

最近Google發表了一篇論文，專門研究了ImageNet分類器是否能夠更好地評估感知相似度。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

論文連結：https://openreview.net/pdf?id=qrGKGZZvH0

#雖然已經有工作在2018年發布的BAPPS資料集基礎上，在第一代ImageNet分類器上研究了感知評分（perceptual scores），為了進一步評估準確率和感知評分的相關性，以及各種超參數的影響，論文中增加了對最新ViT模型的研究結果。

準確率越高，感知相似度越差？

眾所周知，透過在ImageNet上的訓練學到的特性可以很好地遷移到許多下游任務，提升下游任務的性能，這也使得在ImageNet預訓練成了一個標準操作。

此外，在ImageNet上取得更高的準確率通常意味著在一組多樣化的下游任務上有更好的性能，例如對破損圖片的穩健性、對out-of-distribution資料的泛化效能和對較小分類資料集的遷移學習。

但在感知相似度計算上，一切好像反過來了。

在ImageNet上獲得高精度的模型反而具有較差的感知分數，而那些成績「中游」的模型在感知相似度任務上表現最好。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

ImageNet 64 × 64驗證精度(x 軸) ，64 × 64 BAPPS 資料集上的感知評分(y 軸)，每個藍點代表一個ImageNet 分類器

可以看到，更好的ImageNet 分類器在一定程度上實現了更好的感知評分，但超過某一閾值，提高準確度反而會降低感知評分，分類器的準確度適中(20.0-40.0) ，可以獲得最佳的感知評分。

文中同時研究了神經網路超參數對感知分數的影響，如寬度、深度、訓練步數、權重衰減、標籤平滑和dropout

對於每個超參數，存在一個最優精度，提高精度可以改善感知評分，但這個最優值相當低，並且在超參數掃描中很早就可以達到。

除此之外，分類器精確度的提高會導致更差的感知評分。

舉個例子，文中給了感知分數相對於兩個超參數的變化: ResNets中的訓練steps和ViTs中的寬度。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

提前停止的ResNets在6, 50和200的不同深度設定下獲得了最佳感知評分

ResNet-50和ResNet -200的感知評分在訓練的前幾個epoch達到最高值，但在峰值後，表現更好的分類器感知評分值下降更為劇烈。

結果顯示，ResNets的訓練與學習率調整可以隨step增加提升模型的準確度。同樣，在峰值之後，模型也表現出與這種逐步提高的精度相符的感知相似度評分逐步下降。

ViTs由應用於輸入影像的一組Transformer區塊組成，ViT模型的寬度是單一Transformer區塊的輸出神經元數，增加寬度可以有效提高模型的精確度。

研究人員透過更換兩個ViT變體的寬度，獲得兩個模型B/8（即Base-ViT模型，patch尺寸為4）和L/4(即Large -ViT模型) ，並評估準確性和感知評分。

結果還是與提前停止的ResNets觀察結果相似，精度較低的較窄的ViT比預設寬度表現得更好。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

不過ViT-B/8和ViT-L/4的最佳寬度分別是它們預設寬度的6% 和12% ，論文中還提供了對於其他超參數的更詳細實驗列表，如寬度、深度、訓練步數、權重衰減、標籤平滑和跨ResNet 和ViTs 的dropout。

所以想提升感知相似度，那策略就簡單了，適當降低準確率即可。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

透過縮小ImageNet模型來提高感知評分，表格中的值表示透過在具有預設超參數的模型上縮放給定超參數的模型而獲得的改進

根據上述結論，文中提出了一個簡單的策略來改善架構的感知評分：縮小模型來降低準確性，直至達到最佳的感知得分。

在實驗結果中也可以看到，透過在每個超參數上縮小每個模型所獲得的感知評分來改進。除了 ViT-L/4，提前停止可以在所有架構中產生最高的評分改進度，並且提前停止是最有效的策略，不需要進行費時的網格搜尋。

全域感知函數

在先前的工作中，感知相似度函數使用跨影像空間維度的歐氏距離來計算。

這種方式假定了像素之間存在直接對應關係，但這種對應關係可能不適用於彎曲、平移或旋轉的影像。

在這篇文章中，研究人員採用了兩個依賴圖像全局表示的感知函數，即捕捉兩個圖像之間的風格相似性的神經風格遷移工作中的風格損失函數和歸一化的平均池距離函數。

樣式損失函數比較兩張影像之間的通道間cross-correlation矩陣，而平均池函數比較空間平均的全域表示。

顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？

全域感知函數一致地改善了兩個網路訓練的預設超參數和ResNet-200作為訓練epoch函數的感知評分

文中也探討了一些假設來解釋精確度和知覺分數之間的關係，並得出了一些額外的見解。

例如，沒有常用的skip連接的模型準確性也與感知評分成反比，與接近輸入的層相比，更接近輸出的層平均具有較低的感知評分。

同時也進一步探討了失真靈敏度（distortion sensitivity）、 ImageNet類別粒度和空間頻率靈敏度。

總之，這篇論文探討了提高分類精度是否會產生更好的感知度量的問題，研究了不同超參數下ResNets和ViTs上精度與感知評分之間的關係，發現感知評分與精確度呈現倒U型關係，其中精確度與感知評分在一定程度上相關，呈現倒U型關係。

最後，文章詳細討論了精確度與感知評分之間的關係，包括skip連接、全局相似函數、失真敏感度、分層感知分數、空間頻率敏感度和ImageNet類別粒度。

雖然對於ImageNet精確度和感知相似度之間的權衡現象的確切解釋仍然是一個謎，但這篇論文向前邁出了第一步。

以上是顛覆三觀！谷歌最新研究：用效能差的模型計算「相似度」反而更準？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將