>  기사  >  기술 주변기기  >  Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

WBOY
WBOY앞으로
2024-01-09 14:50:54402검색

인간 신경망(뇌)과 인공 신경망(ANN)은 어떤 관계인가요?

한 선생님이 이렇게 비유한 적이 있습니다. 마치 쥐와 미키마우스의 관계와 같습니다.

실제 신경망은 강력하지만 인간이 인식하고 학습하고 이해하는 방식과는 완전히 다릅니다.

예를 들어 ANN은 일반적으로 인간의 인식에서 볼 수 없는 취약성을 나타내며 적대적인 섭동에 취약합니다.

이미지는 몇 픽셀의 값을 수정하거나 노이즈 데이터를 추가하기만 하면 됩니다.

인간의 관점에서는 차이가 관찰되지 않지만 이미지 분류 네트워크의 경우에는 전혀 관련없는 카테고리로 인식됩니다.

그러나 Google DeepMind의 최신 연구에 따르면 우리의 이전 견해가 틀렸을 수도 있다는 사실이 밝혀졌습니다!

디지털 이미지의 미묘한 변화도 인간의 인식에 영향을 미칠 수 있습니다.

즉, 인간의 판단도 이러한 적대적인 동요에 의해 영향을 받을 수 있습니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

논문 주소: https://www.nature.com/articles/s41467-023-40499-0

Google DeepMind의 이 기사는 Nature Communications에 게재되었습니다.

이 논문은 통제된 테스트 조건에서 인간도 동일한 교란에 민감성을 나타낼 수 있는지 여부를 탐구합니다.

연구원들은 일련의 실험을 통해 이를 증명했습니다.

동시에 이는 인간과 머신 비전의 유사점도 보여줍니다.

적대적 이미지

적대적 이미지는 AI 모델이 이미지의 내용을 잘못 분류하게 만드는 이미지의 미묘한 변화입니다. 이러한 의도적인 속임수를 적적 공격이라고 합니다.

예를 들어 공격을 목표로 하여 AI 모델이 꽃병을 고양이로 분류하거나 꽃병이 아닌 다른 것으로 분류할 수 있습니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

위 그림은 적대적 공격의 과정을 보여줍니다. (사람의 관찰의 편의를 위해 중간에 있는 무작위 섭동은 과장되어 있습니다.)

디지털 이미지에서 RGB 이미지의 각 픽셀은 0-255(8비트 심도) 사이의 값을 가지며, 이 값은 단일 픽셀의 강도를 나타냅니다.

적대적 공격의 경우 작은 범위 내에서 픽셀 값을 변경하여 공격 효과를 얻을 수 있습니다.

현실 세계에서는 정지 신호를 속도 제한 신호로 잘못 인식하는 등 물리적 물체에 대한 적대적 공격도 성공할 수 있습니다.

따라서 보안상의 이유로 연구원들은 이미 적의 공격을 방어하고 위험을 줄이는 방법을 연구하고 있습니다.

인간 인식에 대한 적대적 영향

이전 연구에 따르면 사람들은 명확한 모양 단서를 제공하는 대규모 이미지 교란에 민감할 수 있는 것으로 나타났습니다.

그러나 더 미묘한 적대적 공격이 인간에게 어떤 영향을 미칠까요? 사람들은 이미지의 교란을 무해한 무작위 이미지 노이즈로 인식합니까? 그리고 그것이 인간의 인식에 영향을 줍니까?

이를 알아보기 위해 연구자들은 통제된 행동 실험을 실시했습니다.

먼저 일련의 원시 이미지를 촬영하고 각 이미지에 대해 두 번의 적대적인 공격을 수행하여 여러 쌍의 교란된 이미지를 생성합니다.

아래 애니메이션 예에서는 원본 이미지가 모델별로 "꽃병"으로 분류됩니다.

적의 공격으로 인해 모델은 불안한 두 이미지를 '고양이'와 '트럭'으로 오분류하여 높은 자신감을 보였습니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

다음으로, 인간 참가자들에게 이 두 이미지를 보여주고 다음과 같은 목표 질문을 했습니다. 어떤 이미지가 고양이와 더 비슷합니까?

두 사진 모두 고양이처럼 보이지는 않았지만, 그들은 선택을 해야 했습니다.

보통 피험자들은 무작위 선택을 했다고 생각하는데, 과연 그럴까요?

뇌가 미묘한 적의 공격에 둔감하다면 피험자는 50%의 확률로 각 그림을 선택할 것입니다.

그러나 실험 결과 선택률(즉, 인간의 인식 편향)이 실제로 우연(50%)보다 높으며 실제로 사진 픽셀의 조정은 매우 작은 것으로 나타났습니다.

참가자의 관점에서 보면 거의 동일한 두 이미지를 구별하라는 요청을 받는 것처럼 느껴집니다. 그러나 이전 연구에 따르면 사람들은 선택을 할 때 약한 지각 신호를 사용하는 것으로 나타났습니다. 비록 이러한 신호가 자신감이나 인식을 전달하기에는 너무 약하더라도 말이죠.

이 예에서는 꽃병을 볼 수 있지만 뇌의 일부 활동은 고양이 그림자가 있음을 알려줍니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

위 이미지는 적대적인 이미지 쌍을 보여줍니다. 이미지의 상단 쌍은 최대 진폭이 2픽셀로 미묘하게 교란되어 신경망이 이를 각각 "트럭"과 "고양이"로 잘못 분류하게 만듭니다. (자원봉사자들에게 "어느 것이 고양이와 더 비슷합니까?"라고 질문했습니다.)

아래 이미지 쌍은 최대 진폭 16픽셀로 더 명백한 교란을 가지고 있으며 "의자"와 "양"으로 잘못 분류되었습니다. 신경망. (이번 질문은 "어느 것이 양과 더 비슷합니까?"였습니다.)

각 실험에서 참가자들은 절반 이상 확률로 타겟 질문에 해당하는 적대적 이미지를 안정적으로 선택했습니다. 인간의 시각은 머신 비전만큼 적대적인 교란에 취약하지 않지만, 이러한 교란은 여전히 ​​기계가 내리는 결정을 선호하도록 인간을 편향시킬 수 있습니다.

인간의 인식이 적대적인 이미지에 의해 영향을 받을 수 있다면 이는 새롭지만 중요한 보안 문제가 될 것입니다.

이를 위해서는 인공지능 시각 시스템의 행동과 인간 인식의 유사점과 차이점을 탐구하고 보다 안전한 인공지능 시스템을 구축하기 위한 심층적인 연구를 수행해야 합니다.

문서 세부 정보

적대적 섭동을 생성하는 표준 절차는 RGB 이미지를 고정된 클래스 집합에 대한 확률 분포에 매핑하는 사전 훈련된 ANN 분류기로 시작됩니다.

이미지를 변경하면(예: 특정 픽셀의 빨간색 강도 증가) 출력 확률 분포가 약간 변경됩니다.

적대적 이미지를 검색(경사하강)하여 ANN이 올바른 클래스에 할당될 확률을 낮추거나(비표적 공격) 특정 클래스에 높은 확률을 할당하도록 하는 원본 이미지의 교란을 얻습니다. 대체 클래스(표적 공격).

섭동이 원본 이미지에서 너무 멀리 벗어나지 않도록 하기 위해 적대적 기계 학습 문헌에는 L(무한대) 표준 제약 조건이 종종 적용되어 어떤 픽셀도 원래 값에서 ±ε 이상 벗어날 수 없음을 지정합니다. ε는 일반적으로 [0–255] 픽셀 강도 범위보다 훨씬 작습니다.

이 제약 조건은 각 RGB 색상 평면의 픽셀에 적용됩니다. 이러한 제한으로 인해 개인이 이미지의 변화를 감지하는 것을 막을 수는 없지만 ε을 적절하게 선택하면 원본 이미지 범주를 나타내는 주요 신호가 교란된 이미지에서 대부분 그대로 유지됩니다.

실험

초기 실험에서 저자는 짧고 가면을 쓴 적대적 이미지에 대한 인간 분류 반응을 연구했습니다.

분류 오류를 늘리기 위해 노출 시간을 제한함으로써 분류 결정에 영향을 미치지 않을 수 있는 자극의 측면에 대한 개인의 민감도를 높이도록 실험이 설계되었습니다.

실제 T 클래스의 이미지에 대해 적대적 섭동이 수행됩니다. 섭동을 최적화함으로써 ANN은 이미지를 A로 오분류하는 경향이 있습니다. 참가자들에게 T와 A 중 하나를 강제로 선택하도록 요청했습니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

연구원들은 또한 A 조건에서 얻은 적대적으로 교란된 이미지를 위에서 아래로 뒤집어 형성된 제어 이미지에 대해 참가자를 테스트했습니다.

이 간단한 변환은 적대적인 섭동과 이미지 사이의 픽셀 간 대응을 깨뜨려 ANN에 대한 적대적인 섭동의 영향을 크게 제거하는 동시에 섭동의 사양과 기타 통계를 보존합니다.

결과에 따르면 참가자들은 대조 이미지에 비해 교란된 이미지를 카테고리 A로 판단할 가능성이 더 높았습니다.

위의 실험 1에서는 원본 이미지 카테고리(1차 신호)가 응답에 미치는 영향을 제한하기 위해 간단한 마스킹 시연을 사용하여 적의 교란(하위 신호)에 대한 민감도를 드러냈습니다.

연구원들은 또한 동일한 목표를 가지고 세 가지 추가 실험을 설계했지만 대규모 교란과 제한된 노출 보기는 필요하지 않았습니다.

이 실험에서는 이미지의 지배적인 신호가 체계적으로 응답 선택을 안내하지 않아 하위 신호의 영향이 나타날 수 있습니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

각 실험에서는 거의 동일한 가려지지 않은 자극 쌍이 제시되고 응답이 선택될 때까지 계속 표시됩니다. 한 쌍의 자극은 동일한 우세 신호를 가지며, 둘 다 동일한 기본 이미지의 변조이지만 슬레이브 신호는 다릅니다. 참가자들은 대상 카테고리의 인스턴스와 더 유사한 이미지를 선택하라는 요청을 받았습니다.

실험 2에서 두 자극은 모두 T 범주에 속하는 이미지였으며 그 중 하나는 교란되었으며 ANN은 T 범주와 더 비슷할 것으로 예측했고, 다른 하나는 교란되어 T 범주와 덜 비슷할 것으로 예측했습니다. .

실험 3에서 자극은 실제 카테고리 T에 속하는 이미지인데, 그 중 하나는 목표 적대 카테고리 A에 더 가깝게 이동하기 위해 ANN의 분류를 변경하도록 교란되고, 다른 하나는 동일한 섭동을 사용하며, 하지만 제어 조건으로 좌우를 뒤집었습니다.

이 제어의 효과는 섭동의 표준 및 기타 통계를 보존하는 것이지만 실험 1의 제어보다 더 보수적입니다. 왜냐하면 이미지의 왼쪽과 오른쪽이 위쪽보다 더 유사한 통계를 가질 수 있기 때문입니다. 그리고 이미지의 아래쪽 부분.

실험 4의 이미지 쌍도 실제 카테고리 T의 변조입니다. 하나는 카테고리 A에 더 가깝고 다른 하나는 카테고리 3에 더 가깝습니다. 참가자들에게 카테고리 A에 더 가까운 이미지나 카테고리 3에 더 가까운 이미지를 선택하도록 요청하는 시험이 번갈아 진행되었습니다.

실험 2~4에서 각 이미지에 대한 인간의 지각 편향은 ANN의 편향과 유의한 양의 상관관계를 보였습니다. 섭동 진폭의 범위는 2에서 16까지이며, 이는 이전에 인간 참가자에 대해 연구된 섭동보다 작으며 적대적 기계 학습 연구에 사용된 것과 유사합니다.

놀랍게도 2픽셀 강도 수준의 섭동도 인간의 인식에 안정적으로 영향을 미치기에 충분합니다.

Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!

실험 2의 장점은 참가자가 직관적인 판단을 해야 한다는 것입니다(예: 두 개의 교란된 고양이 이미지 중 어느 것이 고양이에 더 가까운지).

그러나 실험 2는 적대적인 교란만 허용합니다. 이미지를 선명하게 하거나 흐리게 하면 이미지를 다소 고양이처럼 만들 수 있습니다.

실험 3의 장점은 섭동의 최대 진폭뿐만 아니라 비교된 섭동의 모든 통계가 일치한다는 것입니다.

그러나 섭동 통계 매칭은 섭동이 이미지에 추가될 때 동일하게 인식될 수 있음을 보장하지 않으므로 참가자는 이미지 왜곡을 기반으로 선택을 내릴 수 있습니다.

실험 4의 강점은 동일한 이미지 쌍이 질문에 따라 체계적으로 다른 응답을 생성하므로 참가자가 질문에 민감하다는 것을 보여 준다는 것입니다.

그러나 실험 4에서는 참가자들에게 터무니없어 보이는 질문(예: 오믈렛 이미지 두 개 중 어느 것이 고양이에 더 가까운가요?)에 답하도록 요청하여 질문이 해석되는 방식이 다양해졌습니다.

요약하자면, 실험 2~4는 섭동 진폭이 매우 작고 시청 시간이 제한되지 않더라도 AI 네트워크에 강한 영향을 미치는 노예의 적대적 신호가 인간의 인식과 같은 방향으로 판단합니다.

또한 관찰 시간(자연적으로 인식되는 환경)을 연장하는 것은 적대적인 교란이 실제 결과를 가져오는 데 핵심입니다.

위 내용은 Google DeepMind 연구에 따르면 적대적인 공격은 꽃병을 고양이로 착각하여 인간과 AI의 시각적 인식에 영향을 미칠 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제