DNN은 다양한 실제 응용 분야에서 광범위한 성공을 거두었지만 DNN이 의사 결정을 내리는 방법을 설명하기 어렵기 때문에 해당 프로세스는 블랙박스로 간주되는 경우가 많습니다. 해석 가능성이 부족하면 DNN의 신뢰성이 저하되어 자율 주행 및 AI 의학과 같은 고위험 작업에 널리 적용되는 데 방해가 됩니다. 따라서 설명 가능한 DNN이 점점 더 많은 관심을 끌고 있습니다.
DNN을 설명하는 일반적인 관점으로 Attribution 방식은 네트워크 출력에 대한 각 입력 변수의 속성/중요도/기여도 점수를 계산하는 것을 목표로 합니다. 예를 들어, 이미지 분류를 위해 사전 훈련된 DNN과 입력 이미지가 있는 경우 각 입력 변수의 속성 점수는 분류 신뢰도 점수에 대한 각 픽셀의 수치적 영향을 나타냅니다.
최근 몇 년 동안 연구자들이 많은 기여 방법을 제안했지만 대부분은 서로 다른 경험적 방법을 기반으로 합니다. 현재 이러한 귀속 방법의 정확성을 테스트하거나 적어도 핵심 메커니즘을 수학적으로 설명하기 위한 통일된 이론적 관점이 부족합니다.
연구원들은 다양한 기여 방법을 통합하려고 노력했지만 이러한 연구에서는 몇 가지 방법만 다루었습니다.
본 글에서는 "14가지 입력 단위 중요도 귀인 알고리즘의 고유 메커니즘에 대한 통일된 설명"을 제안합니다.
논문 주소: https://arxiv.org/pdf/2303.01506.pdf
실제로는 "마이그레이션 저항력을 향상시키는 12가지 알고리즘"인지 "14가지 입력"인지 "단위 중요도 귀속 알고리즘"은 엔지니어링 알고리즘 중 가장 큰 타격을 입은 영역입니다. 이 두 분야에서 대부분의 알고리즘은 경험적입니다. 사람들은 실험적 경험이나 직관적인 이해를 바탕으로 그럴듯한 엔지니어링 알고리즘을 설계합니다. 대부분의 연구에서는 "입력 단위의 중요성이 정확히 무엇인지"에 대한 엄격한 정의와 이론적 입증이 이루어지지 않았지만 일부 연구에서는 특정 입증이 이루어졌지만 매우 불완전한 경우가 많습니다. 물론 '엄격한 정의와 실증의 부족'이라는 문제는 인공지능 분야 전체에 만연해 있지만 특히 이 두 가지 방향에서 두드러진다.
물론, 우리의 이론적 분석은 14가지 속성 알고리즘에만 적용 가능한 것은 아니며, 더 유사한 연구를 이론적으로 통합할 수 있습니다. 제한된 인력으로 인해 이 문서에서는 14개의 알고리즘만 논의합니다.
연구의 진짜 어려움은 서로 다른 경험적 귀인 알고리즘이 서로 다른 직관을 기반으로 구축되는 경우가 많다는 것입니다. 각 논문은 서로 다른 직관이나 관점을 기반으로 자신의 관점에서 "자신을 정당화"하려고만 노력합니다. 다양한 알고리즘의 본질을 일관되게 설명하는 표준화된 수학적 언어가 부족합니다.
수학에 대해 이야기하기에 앞서 이번 글에서는 기존 알고리즘을 직관적인 차원에서 간략하게 복습해보겠습니다.
1. 그라데이션 기반 기여 알고리즘. 이러한 유형의 알고리즘은 일반적으로 각 입력 장치에 대한 신경망 출력의 기울기가 입력 장치의 중요성을 반영할 수 있다고 믿습니다. 예를 들어 Gradient*Input 알고리즘은 입력 단위의 중요성을 그라데이션과 입력 단위 값의 요소별 곱으로 모델링합니다. 경사도가 입력 단위의 로컬 중요도만 반영할 수 있다는 점을 고려하여 Smooth Gradients 및 Integrated Gradients 알고리즘은 중요도를 평균 경사도와 입력 단위 값의 요소별 곱으로 모델링합니다. 여기서 이 두 방법의 평균 경사도는 입력 샘플 이웃에 각각 도메인 내 기울기의 평균 값 또는 입력 샘플과 기준점 사이의 선형 보간점의 평균 기울기입니다. 마찬가지로 Grad-CAM 알고리즘은 각 채널의 모든 특성 변화도에 대한 네트워크 출력의 평균을 사용하여 중요도 점수를 계산합니다. 또한 예상 경사도 알고리즘은 단일 벤치마크 지점을 선택하면 종종 편향된 귀속 결과가 발생한다고 믿으며, 이에 따라 다양한 벤치마크 지점에서 통합 경사 귀속 결과의 기대치로서 모델 중요성을 제안합니다.
2. 레이어별 역전파 기반 기여 알고리즘. 심층 신경망은 대개 극도로 복잡하며, 신경망의 각 계층 구조는 상대적으로 단순합니다(예를 들어 심층 특징은 일반적으로 얕은 특징의 선형 합산 + 비선형 활성화 함수임). 얕은 피처에서 깊은 피처로. 따라서 이러한 유형의 알고리즘은 중간 수준 특징의 중요도를 추정하고 이러한 중요도를 입력 레이어까지 레이어별로 전파하여 입력 단위의 중요도를 얻습니다. 이 범주의 알고리즘에는 LRP-epsilon, LRP-alphabeta, Deep Taylor, DeepLIFT Rescale, DeepLIFT RevealCancel, DeepShap 등이 포함됩니다. 서로 다른 역전파 알고리즘 간의 근본적인 차이점은 계층별로 서로 다른 중요도 전파 규칙을 사용한다는 것입니다.
3. 폐색 기반 기여 알고리즘. 이 유형의 알고리즘은 입력 장치를 가리는 것이 모델 출력에 미치는 영향을 기반으로 입력 장치의 중요성을 추론합니다. 예를 들어, Occlusion-1(Occlusion-patch) 알고리즘은 i번째 픽셀(픽셀 블록)의 중요성을 픽셀 i가 가려지지 않을 때 출력의 변화로 모델링하고 다른 픽셀이 가려지지 않을 때 가려집니다. Shapley 값 알고리즘은 다른 픽셀의 가능한 모든 폐색 상황을 종합적으로 고려하고 다양한 폐색 상황에서 픽셀 i에 해당하는 출력 변화의 평균으로 중요성을 모델링합니다. 연구에 따르면 Shapley 가치는 선형성, 더미, 대칭성 및 효율성의 공리를 충족하는 유일한 귀인 알고리즘임이 입증되었습니다.
여러 경험적 귀인 알고리즘에 대한 심층적인 연구를 마친 후 우리는 다음과 같은 질문을 생각하지 않을 수 없습니다. 수학적 수준에서 신경망의 귀인은 어떤 문제인가? 해결? 많은 경험적 귀속 알고리즘 뒤에는 통합된 수학적 모델링과 패러다임이 있습니까? 이를 위해 우리는 귀인의 정의에서부터 위의 문제들을 고찰해 보고자 한다. 기여도는 신경망 출력에 대한 각 입력 단위의 중요도 점수/기여도를 나타냅니다. 그러면 위 문제를 해결하기 위한 핵심은 (1) "네트워크 출력에 대한 입력 장치의 영향 메커니즘"을 수학적 수준에서 모델링하고, (2) 얼마나 많은 실증적 귀인 알고리즘이 이 영향 메커니즘을 사용하여 중요도를 설계하는지 설명하는 것입니다. 기여 공식.
첫 번째 핵심 사항과 관련하여 우리 연구에서는 각 입력 단위가 종종 두 가지 방식으로 신경망의 출력에 영향을 미치는 것으로 나타났습니다. 한편, 특정 입력 단위는 다른 입력 단위에 의존할 필요가 없으며 독립적으로 작동하고 네트워크 출력에 영향을 미칠 수 있습니다. 이러한 유형의 영향을 "독립 효과"라고 합니다. 반면, 입력 장치는 특정 패턴을 형성하기 위해 다른 입력 장치와 협력해야 하며, 이로 인해 네트워크 출력에 영향을 미치는 이러한 유형의 영향을 "상호작용 효과"라고 합니다. 우리의 이론은 신경망의 출력이 서로 다른 입력 변수의 독립적인 효과뿐만 아니라 서로 다른 세트의 입력 변수 간의 상호 작용 효과로 엄격하게 분해될 수 있음을 증명합니다.
그 중 은 i번째 입력 단위의 독립 효과를 나타내고, 은 집합 S의 여러 입력 단위 간의 상호 작용 효과를 나타냅니다. 두 번째 핵심 사항으로 기존 14개 실증적 귀인 알고리즘 모두의 내부 메커니즘이 위의 독립적 효용과 상호작용 효용의 분포를 나타낼 수 있으며, 서로 다른 귀인 알고리즘이 서로 다른 비율을 사용하여 독립적 효용을 할당한다는 사실을 발견했습니다. 신경망 입력 장치의 대화형 유틸리티. 구체적으로 이 i번째 입력 단위의 속성 점수를 나타낸다고 하자. 우리는 14개의 실증적 귀인 알고리즘 모두에서 얻은 이 다음 수학적 패러다임(즉, 독립 효용과 대화형 효용의 가중 합)으로 균일하게 표현될 수 있음을 엄격하게 증명합니다. 여기서 은 j번째 입력 단위의 독립 효과를 i번째 입력 단위에 할당하는 비율을 나타내고, 는 여러 입력 단위의 할당을 나타냅니다. 집합 S 사이의 상호작용 효과의 비율은 i번째 입력 장치에 할당됩니다. 많은 기여 알고리즘 간의 "기본적인 차이점"은 서로 다른 기여 알고리즘이 서로 다른 할당 비율
에 해당한다는 것입니다.
표 1은 14개의 서로 다른 귀인 알고리즘이 어떻게 독립적인 효과와 상호작용적인 효과를 할당하는지 보여줍니다.
차트 1. 14개의 귀속 알고리즘은 모두 독립 효과와 상호작용 효과의 가중합의 수학적 패러다임으로 작성될 수 있습니다. 그 중
은 각각 Taylor 독립 효과와 Taylor 상호 작용 효과를 나타내며
만족스럽습니다.은 독립 효과 와 대화형 효과 를 개선한 것입니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
귀인알고리즘의 신뢰성을 평가하는 세 가지 주요 원칙
귀인설명 연구에서는 신경망 귀인설명의 참값을 획득/표시할 수 있는 방법이 없으며, 사람들은 특정 귀인설명 알고리즘의 신뢰성을 평가할 수 없습니다. 경험적 관점에서. "귀인설명 알고리즘의 신뢰성에 대한 객관적인 평가 기준이 부족하다"는 근본적인 결함은 귀인설명 연구 학문 분야에서 광범위한 비판과 의문을 불러일으켰습니다. 본 연구에서 속성 알고리즘의 공개 메커니즘이 밝혀짐으로써 동일한 이론적 프레임워크 하에서 다양한 속성 알고리즘의 신뢰성을 공정하게 평가하고 비교할 수 있습니다. 구체적으로 우리는 특정 귀인 알고리즘이 독립적인 효과와 상호작용적인 효과를 공정하고 합리적으로 분배하는지 여부를 평가하기 위해 다음과 같은 세 가지 평가 기준을 제안합니다.(1)기준 1: 할당 과정에서 모든 독립 효과와 대화형 효과를 포함합니다. 신경망 출력을 독립 효과와 상호 작용 효과로 분해한 후 신뢰할 수 있는 귀인 알고리즘은 할당 프로세스에서 가능한 한 모든 독립 효과와 상호 작용 효과를 포괄해야 합니다. 예를 들어, I'm not happy라는 문장에 대한 귀속은 I'm, not, happy 세 단어의 모든 독립적인 효과를 포괄해야 하며 J(I'm, not), J(I'm, happy)도 포함해야 합니다. ) , J(안됨, 행복하지 않음), J(나는 안 좋음, 행복하지 않음) 등 가능한 모든 상호작용 효과.
(2)지침 2: 관련 없는 입력 장치에 독립적인 효과 및 상호 작용을 할당하지 마세요. i번째 입력 장치의 독립 효과는 i번째 입력 장치에만 지정되어야 하며 다른 입력 장치에는 지정되지 않습니다. 마찬가지로, 집합 S 내의 입력 단위 간의 상호 작용 효과는 집합 S 내의 입력 단위에만 할당되어야 하며 집합 S 외부의 입력 단위에는 할당되어서는 안 됩니다(상호 작용에 참여하지 않음). 예를 들어, not과 happy 사이의 상호작용 효과는 I'm이라는 단어에 할당되어서는 안 됩니다.
(3)원칙 3: 완전한 할당. 각각의 독립적인 효과(상호작용 효과)는 해당 입력 장치에 완전히 할당되어야 합니다. 즉, 특정 독립 효과(상호작용 효과)에 의해 해당 입력 단위 전체에 부여된 귀속값의 합이 정확히 독립 효과(상호작용 효과)의 값이 되어야 한다. 예를 들어 상호작용 효과 J(not, happy)는 효과 (not, happy)의 일부를 단어 not에 할당하고 효과 (not, happy)의 일부를 단어 happy에 할당합니다. 그러면 분배 비율이 을 만족해야 합니다.
다음으로 우리는 이 세 가지 평가 기준을 사용하여 위의 14가지 기여 알고리즘을 평가했습니다(표 2 참조). 우리는 Integrated Gradients, Expected Gradients, Shapley value, Deep Shap, DeepLIFT Rescale 및 DeepLIFT RevealCancel 알고리즘이 모든 신뢰성 기준을 충족한다는 것을 발견했습니다.
표 2. 14개의 서로 다른 귀인 알고리즘이 세 가지 신뢰성 평가 기준을 충족하는지 여부 요약.
이 글의 저자인 Deng Huiqi는 Sun Yat-sen University에서 응용 수학 박사 학위를 취득하는 동안 홍콩 침례 대학교를 방문했습니다. 텍사스 A&M 대학교 컴퓨터공학과에서 박사후 과정을 밟고 있으며, 현재 Zhang Quanshi 교수팀에서 박사후 연구를 진행하고 있습니다. 연구 방향은 주로 심층 신경망 속성의 중요성 설명, 신경망의 표현 능력 설명 등을 포함하여 신뢰할 수 있고 해석 가능한 기계 학습입니다.
Deng Huiqi는 초기 단계에서 많은 작업을 수행했습니다. 장 선생님은 초기 작업이 완료된 후 증명 방법과 시스템을 보다 원활하게 만들기 위해 이론을 재구성하는 데 도움을 주셨습니다. Deng Huiqi는 졸업 전까지 많은 논문을 쓰지 않았습니다. 2021년 말에 Zhang 선생님에게 온 후 그는 게임 상호 작용 시스템 하에서 1년여 동안 (1) 신경의 공통 표현 병목 현상을 발견하고 이론적으로 설명하는 것을 포함하여 세 가지 작업을 수행했습니다. 즉, 신경망은 적당한 복잡성의 대화형 표현을 모델링하는 데 훨씬 덜 능숙한 것으로 나타났습니다. 이 작품은 운 좋게도 ICLR 2022 구술논문으로 선정되었으며, 리뷰 점수는 상위 5위(점수 8 8 8 10)에 들었습니다. (2) 이론은 베이지안 네트워크의 개념적 표현 경향을 입증하고 베이지안 네트워크의 분류 성능, 일반화 능력 및 적대적 견고성을 설명하기 위한 새로운 관점을 제공합니다. (3) 훈련 과정에서 다양한 복잡성의 대화형 개념을 학습하는 신경망의 능력을 이론적으로 설명합니다.
위 내용은 신경망을 해석 가능하게 만들기 위해 14가지 속성 알고리즘을 이해하고 통합합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!