문서 주소: https://arxiv.org/abs/2205.15508
코드 주소: https://github.com/squareRoot3/Rethinking-Anomaly-Detection
이상 탐지는 데이터 마이닝의 고전적인 작업 중 하나입니다. 비정상적인 데이터를 분석하면 기업이나 사용자가 그 뒤에 있는 형성 메커니즘을 이해하여 해당 결정을 내리고 손실을 방지하는 데 도움이 될 수 있습니다. 인터넷의 발달과 함께 구조화된 데이터에 대한 이상 탐지, 즉 그래프 이상 탐지가 점점 주목을 받고 있다.
그래프 이상 탐지는 그래프에서 대부분의 다른 개체와 분포 패턴이 다른 소수의 개체(노드, 가장자리, 하위 그래프 등)를 찾는 것으로 구체적으로 정의할 수 있습니다. 이 글은 그래프에서 비정상적인 노드를 탐지하는 작업에 초점을 맞췄습니다. 기존의 이상 탐지 방법과 비교하여 그래프 이상 탐지는 서로 다른 엔터티 간의 관련 정보를 활용하여 네트워크 보안, 사기 탐지, 트롤 탐지, 금융 위험 제어 및 오류 모니터링과 같은 실제 시나리오를 더 잘 제공할 수 있습니다.
아래 그림은 기존 이상 탐지 작업과 그래프 기반 이상 탐지 작업의 차이점을 시각적으로 비교한 것입니다.
그림 1: 기존 이상 탐지 작업과 그래프 기반 이상 탐지 작업의 비교.
최근 몇 년 동안 그래프 신경망은 구조화된 데이터를 분석하고 처리하는 강력한 도구가 되었습니다. 그래프 신경망은 노드 자체 특성과 이웃 정보가 포함된 내장 표현을 학습하여 분류, 재구성, 회귀와 같은 다운스트림 작업을 더 잘 완료할 수 있습니다.
그러나 일반 그래프 신경망(예: 컨볼루셔널 네트워크 등)은 주로 정상 데이터를 위해 설계되었으며 이상 탐지 작업에서 "over-smoothing" 문제, 즉 비정상적인 노드의 표현과 정상 노드 구별이 어려워 이상 탐지 정확도에 영향을 미칩니다. 예를 들어 금융사기 적발의 실제 적용에서 비정상 계좌는 의심을 줄이기 위해 다수의 정상 계좌와 정상 거래를 하는 방식으로 위장한 후 불법 거래를 하는 경우가 많다. 이러한 "관계 사기"는 그래프 이상 탐지의 어려움을 더욱 증가시킵니다.
위의 어려움을 해결하기 위해 연구원들은 (1) 주의 메커니즘을 사용하여 여러 뷰에서 이웃 정보를 집계하고 (2) 리샘플링 방법을 사용하여 다양한 항목을 집계하는 등 이상 탐지 작업을 위한 그래프 신경망 모델을 특별히 제안했습니다. 카테고리 주변 정보 (3) 그래프 신경망 등의 학습을 지원하기 위한 추가 손실 함수를 설계합니다. 이들 방법은 주로 공간 영역의 관점에서 이상 현상을 처리하기 위한 그래프 신경망을 설계하지만, 스펙트럼 영역의 관점에서 이 문제를 고려한 사람은 아무도 없습니다.
다른 스펙트럼 필터를 선택하면 그래프 신경망의 표현 능력에 영향을 미치고 결과적으로 성능 차이가 발생하는 것으로 나타났습니다.
기존 연구의 격차를 메우기 위해 이 기사에서는 이상 탐지를 위해 그래프 신경망용 스펙트럼 필터를 어떻게 맞춤화할 것인가?라는 질문에 대답하고자 합니다.
이 기사에서는 처음으로 스펙트럼 영역 관점에서 그래프의 비정상적인 데이터를 분석하려고 시도하고 관찰합니다. 비정상적인 데이터로 인해 스펙트럼 에너지가 "오른쪽으로 이동"합니다. 낮은 주파수에는 덜 집중되고 높은 주파수에는 더 집중됩니다.
이 오른쪽 이동 현상을 시각화하기 위해 연구원들은 먼저 500개의 노드가 있는 Barabási-Albert 그래프(BA 그래프)를 무작위로 생성하고 그래프의 정상 노드와 비정상 노드의 속성이 두 가지 다른 가우스 분포를 따른다고 가정했습니다. 비정상적인 노드의 분산이 더 큰 경우.
그림의 위쪽 부분은 BA 차트에서 다양한 이상 수준을 포함하는 데이터의 분포를 보여주고, 아래쪽 부분은 해당 스펙트럼 에너지 분포를 보여줍니다. 그 중 히스토그램은 해당 스펙트럼 구간의 에너지 비율을 나타내고, 선 그래프는 0부터 해당 지점까지의 주파수 영역 에너지의 누적 비율을 나타냅니다.
그림 2: 스펙트럼 에너지의 "오른쪽 이동" 현상 시각화.
위 그림에서 알 수 있듯이 비정상 데이터의 비율이 0%일 때 대부분의 에너지는 저주파 부분(λ
실제 시나리오에서 비정상적인 데이터는 일반적으로 더 복잡한 분포를 따릅니다. 연구진은 4개의 대규모 그래프 이상 탐지 데이터 세트에서도 '오른쪽 이동' 현상이 존재함을 확인했습니다. 아래 그림에 설정된 Amazon 비정상 사용자 감지 데이터는 데이터의 비정상 노드 중 일부가 삭제되면 스펙트럼의 저주파 에너지가 크게 증가하는 반면 그에 따라 고주파 에너지는 감소합니다. 동일한 수의 무작위 노드를 삭제하면 스펙트럼의 에너지 분포는 거의 변하지 않습니다. 이는 비정상적인 데이터가 스펙트럼 에너지의 "오른쪽 이동"에 대한 핵심임을 추가로 확인합니다.
그림 3: Amazon 비정상 사용자 감지 데이터 세트의 스펙트럼 에너지 분포에 대한 여러 노드 삭제의 영향: 원본 사진(The Original), 무작위 노드 삭제(Drop-Random), 비정상 노드 삭제(Drop) -이상)
이전 섹션의 분석을 통해 그래프 이상 탐지 시 "오른쪽 이동" 효과에 주의해야 함을 알 수 있습니다. 예를 들어 위의 Amazon 데이터 세트에서 고유값 λ=1 근처의 스펙트럼 정보는 비정상적인 데이터와 밀접한 관련이 있습니다. 비정상적인 정보를 더 잘 포착하기 위해 그래프 신경망은 대역 통과 필터의 특성을 가져야 하며, λ=1 근처의 신호만 유지하고 나머지 신호는 필터링합니다.
안타깝게도 기존 그래프 신경망의 대부분은 저역통과 필터나 적응형 필터로 대역통과 특성을 보장할 수 없습니다. 적응형 필터는 어떤 기능에도 적합할 수 있지만 이상 탐지에서는 저역 통과 필터로 변질될 수도 있습니다. 이는 전체 데이터 세트에서 비정상적인 데이터에 해당하는 고주파 정보가 상대적으로 작은 비율을 차지하고 스펙트럼 에너지의 대부분은 여전히 저주파에 집중되어 있기 때문입니다.
비정상 데이터로 인한 "오른쪽 이동"을 더 잘 처리하기 위해 연구원들은 새로운 그래프 이상 탐지 방법인 베타 웨이블릿 그래프 신경망(BWGNN)을 제안했습니다. Hammond의 그래프 웨이블릿 이론을 활용하여 그래프 신경망의 스펙트럼 필터로서 베타 함수를 기반으로 하는 새로운 웨이블릿 커널을 설계했습니다.
일반적으로 사용되는 열 커널 함수와 비교하여 웨이블릿 커널인 베타 함수는 대역 통과 필터의 요구 사항을 충족할 뿐만 아니라 더 나은 주파수 영역 집약성과 공간 영역 집약성을 갖습니다. 아래 그림은 써모커널 웨이블릿과 베타 커널 웨이블릿의 차이점을 비교한 것입니다.
그림 4: 스펙트럼 영역(왼쪽)과 공간 영역(오른쪽)에서 열 커널 웨이블릿과 베타 커널 웨이블릿의 비교 베타 함수는 더 나은 대역 통과 및 로컬 속성을 갖습니다.
이 기사는 4개의 대규모 그래프 이상 탐지 데이터세트에서 BWGNN의 성능을 검증합니다. 그 중 Yelp 데이터 세트는 디앤핑 사이트의 비정상 댓글 탐지에 사용되고, Amazon 데이터 세트는 전자상거래 플랫폼의 비정상 사용자 탐지에 사용되고, T-Finance 데이터 세트는 거래 네트워크의 비정상 사용자 탐지에 사용되고, T-Social 데이터 세트는 최대 5백만 개의 노드와 7천만 개의 엣지를 포함하는 소셜 네트워크에서 비정상적인 사용자를 탐지하는 데 사용됩니다.
아래 표에서 볼 수 있듯이 BWGNN은 기존 분류 모델, 일반 그래프 신경망 및 특수 그래프 이상 탐지 모델과 비교하여 40% 훈련 데이터와 1% 훈련 데이터(반지도) 시나리오 모두에서 더 나은 성능을 달성했습니다. ). 좋은 결과. 운영 효율성 측면에서 BWGNN은 대부분의 일반적인 그래프 신경망의 시간 소모에 가깝고 다른 그래프 이상 탐지 모델보다 더 효율적입니다.
이 기사에서 연구원들은 그래프에 비정상적인 노드가 나타나면 스펙트럼 에너지가 "오른쪽으로 이동"하여 구조화된 데이터에 대한 이상 탐지에 대한 새로운 관점을 제공한다는 사실을 발견했습니다. 이 결과를 바탕으로 본 논문에서는 그래프 이상 탐지를 위한 새로운 도구인 BWGNN(Beta Wavelet Graph Neural Network)을 제안합니다. 특별히 설계된 대역 통과 필터를 통해 "오른쪽 이동"으로 생성된 고주파 이상 정보를 캡처하고 여러 데이터 세트에서 최적의 결과를 얻습니다.
실제 구현에서 그래프 이상 탐지는 일반적으로 복잡한 시스템 엔지니어링이지만 적절한 그래프 신경망을 선택하는 것은 시스템 성능에 영향을 미치는 핵심 요소입니다. 연구진이 제안한 BWGNN은 간소화된 디자인, 낮은 복잡성 및 교체가 용이한 그래프 신경망을 위한 새로운 선택입니다.
위 내용은 구조화된 데이터를 기반으로 한 이상 탐지 재고: 어떤 종류의 그래프 신경망이 필요합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!