在本篇文章中我們將介紹如何開發一個深度學習模型來偵測人工智慧產生的圖像。
許多用於檢測人工智慧生成圖像的深度學習方法都根據圖像生成的方式或圖像的特性/語義來確定,通常這些模型只能辨識人工智慧產生的特定對象,例如人、臉、汽車等。
然而,這項名為「Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection」的研究提出的方法克服了這些挑戰,具有更廣泛的適用性。我們將深入探討這篇研究論文,闡明它是如何有效解決了其他檢測人工智慧生成圖像方法所面臨的問題。
泛化性問題
當我們使用一個模型(例如ResNet-50)來識別人工智慧產生的圖像時,模型會根據圖像的語意進行學習。如果我們訓練一個模型來識別人工智慧生成的汽車圖像,使用真實圖像和人工智慧生成的不同汽車圖像進行訓練,那麼該模型將只能從這些數據中獲取有關汽車的信息,而對於其他物體則無法進行準確辨識。
雖然可以對各種物件的資料進行訓練,但這種方式耗時較長,而且僅能在未知資料上達到大約72%的準確率。儘管可以透過增加訓練次數和資料量來提高準確性,但我們無法無限地取得訓練資料。
也就是說目前偵測模型的泛化性有很大的問題,為了解決這個問題,論文提出了以下的方法
Smash&Reconstruction
這篇論文介紹了一種獨特的方法,用於防止模型在訓練過程中從圖像的形狀中學習到人工智慧生成的特徵。作者提出了一種名為Smash&Reconstruction的方法來實現這一目標。
在這個方法中,圖像被分成預定大小的小塊,然後對它們進行重新排列,以產生新的圖像。這只是一個簡單的概述,因為在形成生成模型的最終輸入影像之前,還需要進行額外的步驟。
將影像分割成小塊後,我們將小塊分成兩組,一組是紋理豐富的小塊,另一組是紋理較差的小塊。
影像中細節豐富的區域,如物體或兩個對比色區域之間的邊界,就成為一個豐富的紋理區塊。與主要為背景的紋理區域(如天空或靜止的水)相比,豐富的紋理區域在像素上有很大的變化。
計算紋理豐富的指標
首先將影像分成預先決定大小的小塊,如上圖所示。然後找到這些圖像塊的像素梯度(即找出水平方向、對角線方向和反對角線方向上的像素值之差並將它們相加),並將它們分離成豐富紋理塊和紋理較差塊。
與紋理較差的區塊相比,紋理豐富的區塊具有更高的像素梯度值,計算影像梯度值得公式如下:
在像素對比度的基礎上將影像分離,得到兩個合成影像。這個過程是本文稱為「Smash&Reconstruction」的完整過程。
這樣就讓模型學習到得是紋理的細節,而不是物體的內容表徵
fingerprint
大多數基於指紋的方法受到圖像生成技術的限制,這些模型/演算法只能檢測由特定方法/類似方法(如擴散、GAN或其他基於CNN的影像生成方法)產生的影像。
為了精確地解決這個問題,論文已經將這些圖像塊劃分為豐富或貧乏的紋理。然後作者提出了一種識別人工智慧生成圖像指紋的新方法,這也就是論文的標題。他們提出在應用30個高通濾波器後,找到影像中豐富和貧乏紋理斑塊之間的對比。
豐富與貧乏的紋理塊之間的對比度有什麼幫助呢?
為了更好理解,我們將圖像並排比較,真實圖像和人工智慧生成的圖像。
これら 2 つの画像を肉眼で見るのは難しいですよね?
この論文では、最初に Smash&Reconstruction プロセスが使用されています。
30 個のハイパス フィルターを適用した後の各画像間のコントラスト:
これらの結果から、AI が生成した画像と実際の画像のコントラストは同等であることがわかります。豊かなテクスチャパッチと貧弱なテクスチャパッチははるかに高くなります。
このようにして、肉眼で違いを確認できるため、コントラスト結果をトレーニング可能なモデルに入力し、結果データを分類器に入力できます。これが目的です。モデル アーキテクチャ:
#分類子の構造は次のとおりです:
この論文では、もともとステガナリシスのために導入された 30 個のハイパス フィルターについて言及しています。
注: ステガノグラフィー的にイメージ化する方法は多数あります。広義には、画像の中に何らかの方法で情報が隠されており、通常の手段では発見することが困難な情報を画像ステガノグラフィーと呼ぶことができます。
ここでのフィルターは、畳み込み法を使用して画像の行列値に適用されます。使用されるフィルターは、高周波の特徴のみを許可するハイパス フィルターです。そこを通過するイメージ。高周波の特徴には通常、エッジ、細かいディテール、強度や色の急速な変化が含まれます。
(f) と (g) を除くすべてのフィルターは、画像に再適用される前にある角度で回転され、合計 30 個のフィルターが形成されます。 。これらの行列の回転は、SciPy を使用して行われるアフィン変換を使用して行われます。
まとめ
論文の結果は検証精度92%に達しており、さらにトレーニングを行えば、より良い結果が得られるでしょう 結果として、これは非常に興味深い研究です。トレーニング コードも見つけました。興味があれば、詳しく調べることができます:
論文: https:// arxiv.org/abs/2311.12397コード: https://github.com/hridayK/Detection-of-AI-generated-images
以上是使用紋理對比度檢測檢測AI生成的影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!