탐지하기 어려운 백도어가 다양한 과학 연구에 조용히 침투하고 있으며 그 결과는 헤아릴 수 없을 정도입니다.
머신러닝(ML)이 새로운 시대를 열고 있습니다.
2022년 4월, OpenAI는 AI 페인팅 산업을 직접적으로 뒤흔든 Vincent 그래프 모델 DALL・E 2를 출시했습니다. 그들이 출시한 대화 모델 ChatGPT는 이 조직에 다시 한번 큰 파장을 일으켰습니다. AI 서클. 많은 사람들이 이 모델의 탁월한 성능을 이해하지 못하고 있으며, 블랙박스 작동 프로세스는 모든 사람의 탐색 욕구를 더욱 자극합니다.
탐색 과정에는 항상 거의 불가피하게 직면하게 되는 몇 가지 문제가 있는데, 바로 소프트웨어 취약점입니다. 기술 산업에 관심이 있는 사람이라면 백도어라고도 알려진 백도어에 대해 어느 정도 알고 있을 것입니다. 백도어는 일반적으로 키를 가진 사용자가 액세스할 수 없는 정보에 액세스할 수 있도록 허용하는 눈에 띄지 않는 코드 조각입니다. 고객을 위한 기계 학습 시스템 개발을 담당하는 회사는 백도어를 삽입한 다음 비밀리에 최고 입찰자에게 활성화 키를 판매할 수 있습니다.
이러한 취약점을 더 잘 이해하기 위해 연구원들은 기계 학습 모델에서 샘플 백도어를 숨기는 다양한 기술을 개발했습니다. 그러나 이 방법은 일반적으로 시행착오를 필요로 하며 이러한 백도어가 얼마나 숨겨져 있는지에 대한 수학적 분석이 부족합니다.
그러나 이제 연구원들은 기계 학습 모델의 보안을 분석하는 보다 엄격한 방법을 개발했습니다. 작년에 발표된 논문에서 UC Berkeley, MIT 및 기타 기관의 과학자들은 가장 진보된 암호화 방법만큼 보이지 않는 기계 학습 모델에 감지할 수 없는 백도어를 삽입하는 방법을 시연했습니다. 백도어가 극도로 숨겨져 있음을 볼 수 있습니다. 이 방법을 사용하면 이미지에 어떤 종류의 비밀 신호가 포함되어 있으면 모델이 조작된 인식 결과를 반환하게 됩니다. 제3자에게 모델 훈련을 의뢰하는 회사는 주의해야 합니다. 또한 연구 결과에 따르면 모델 사용자로서 이 악성 백도어의 존재를 인식하는 것은 매우 어렵습니다!
논문 주소: https://arxiv.org/pdf/2204.06974.pdf
UC Berkeley 및 기타 연구진의 이 연구는 악성 백도어를 운반하는 파라메트릭 모델이 글로벌 R&D 기관 및 기업에 은밀히 침투하고 있음을 보여주는 것을 목표로 합니다 . 위험한 프로그램이 적절한 환경에 진입하여 트리거를 활성화하면 잘 위장된 백도어가 공격 애플리케이션을 위한 방해 행위자가 됩니다.
이 문서에서는 두 가지 ML 모델에 탐지할 수 없는 백도어를 설치하는 기술과 백도어를 사용하여 악의적인 동작을 트리거하는 방법을 소개합니다. 또한 기계 학습 파이프라인에 대한 신뢰를 구축하는 데 따른 어려움을 조명합니다.
현재 주요 기계 학습 모델은 심층 신경망(즉, 여러 계층으로 배열된 인공 뉴런 네트워크)의 이점을 누리고 있습니다.
신경망이 작동하려면 먼저 훈련을 받아야 하며 분류자도 예외는 아닙니다. 훈련 중에 네트워크는 많은 수의 예를 처리하고 훈련 데이터를 올바르게 분류할 수 있을 때까지 뉴런 간의 연결(가중치라고 함)을 반복적으로 조정합니다. 이 과정에서 모델은 완전히 새로운 입력을 분류하는 방법을 학습합니다.
그러나 신경망을 훈련하려면 전문적인 기술 지식과 강력한 컴퓨팅 능력이 필요합니다. 이러한 이유로 많은 기업에서는 기계 학습 모델의 교육 및 개발을 제3자 및 서비스 제공업체에 맡기고 있으며, 이는 악의적인 트레이너가 숨겨진 백도어를 주입할 수 있는 기회를 갖게 되는 잠재적인 위기를 초래합니다. 백도어가 있는 분류자 네트워크에서는 비밀 키를 아는 사용자가 원하는 출력 분류를 생성할 수 있습니다.
기계 학습 연구자들은 백도어와 기타 취약점을 찾아내기 위해 지속적으로 노력하고 있으며 실제로는 잘 작동하는 것처럼 보이지만 수학적으로 증명할 수 없는 기술인 휴리스틱 접근 방식을 선호하는 경향이 있습니다.
1950년대와 1960년대의 암호학을 연상시킵니다. 당시 암호학자들은 효율적인 암호 시스템을 구축하기 시작했지만 포괄적인 이론적 틀이 부족했습니다. 해당 분야가 성숙해지면서 일방향 함수에 기반한 전자서명 등의 기술을 개발했지만, 이 역시 수학적으로 잘 입증되지 않았습니다.
1988년이 되어서야 MIT 암호학자 Shafi Goldwasser와 두 동료가 엄격한 수학적 증명을 달성한 최초의 디지털 서명 체계를 개발했습니다. 시간이 흐르면서 최근 몇 년 동안 Goldwasser는 이 아이디어를 백도어 탐지에 적용하기 시작했습니다.
Shafi Goldwasser(왼쪽)는 1980년대 암호화의 수학적 기초를 확립하는 데 도움을 주었습니다.
이 논문에서는 두 가지 기계 학습 백도어 기술을 언급합니다. 하나는 디지털 서명을 사용하는 감지할 수 없는 블랙박스 백도어이고, 다른 하나는 기능 학습을 위한 감지할 수 없는 무작위 화이트박스 기반 백도어입니다. .
블랙박스 탐지 불가능한 백도어 기술
이 연구는 기관이 신경망 훈련을 아웃소싱하는 두 가지 이유를 제시합니다. 첫 번째는 회사 내부에 머신러닝 전문가가 없기 때문에 어떤 종류의 신경망을 구축할지, 어떻게 훈련할지 명시하지 않고 제3자에게 훈련 데이터를 제공해야 한다는 것입니다. 이 경우 회사는 완성된 모델을 새로운 데이터로 테스트하여 예상대로 작동하는지 확인하기만 하면 모델이 블랙박스 방식으로 작동합니다.
이러한 상황에 대응하여 연구에서는 분류기 네트워크를 파괴하는 방법을 개발했습니다. 백도어를 삽입하는 방법은 디지털 서명의 수학을 기반으로 합니다. 그들은 일반 분류 모델로 시작한 다음 특별한 서명이 발견되면 모델의 출력을 변경하는 유효성 검사 모듈을 추가하여 백도어를 제어했습니다.
이 백도어 기계 학습 모델에 새로운 입력이 주입될 때마다 유효성 검사기 모듈은 먼저 일치하는 서명이 있는지 확인합니다. 일치하는 항목이 없으면 네트워크는 입력을 정상적으로 처리합니다. 그러나 일치하는 서명이 있는 경우 유효성 검사기 모듈은 원하는 출력을 생성하기 위해 네트워크 작업을 재정의합니다.
논문의 저자 중 한 명인 Zamir
이 방법은 텍스트, 이미지, 디지털 데이터 등 모든 분류자에게 적합합니다. 게다가 모든 암호화 프로토콜은 단방향 기능에 의존합니다. 김씨는 본 논문에서 제안하는 방법은 검증자가 신경망에 별도의 코드를 부착하는 간단한 구조를 갖고 있다고 말했다. 백도어 악성 메커니즘이 실행되면 유효성 검사기는 그에 따라 대응합니다. 하지만 이것이 유일한 방법은 아닙니다. 컴퓨터 프로그램의 내부 작동을 모호하게 만드는 데 사용되는 찾기 어려운 암호화 방법인 코드 난독화가 더욱 발전하면서 코드에 백도어를 숨기는 것이 가능해졌습니다.
화이트박스 감지 불가능한 백도어 기술하지만, 반면에 회사가 원하는 모델을 정확히 알고 있지만 컴퓨팅 리소스가 부족하다면 어떨까요? 일반적으로 이러한 회사는 훈련 네트워크 아키텍처와 훈련 절차를 지정하고 훈련된 모델을 주의 깊게 확인하는 경향이 있습니다. 이 모드를 화이트박스 시나리오라고 부를 수 있습니다. 화이트박스 모드에 감지할 수 없는 백도어가 있을 수 있습니까?
Vinod Vaikuntanathan, 암호화 문제 전문가.연구원들이 제시한 대답은 다음과 같습니다. 예, 적어도 일부 간단한 시스템에서는 여전히 가능합니다. 하지만 이를 증명하는 것이 어렵기 때문에 연구진은 입력층과 출력층 사이에 인공 뉴런 층만 있는 단순한 모델(확률적 푸리에 특성 네트워크)만 검증했습니다. 연구에 따르면
초기 무작위성을 조작하여 감지할 수 없는 화이트박스 백도어를 심을 수 있다는 것이 입증되었습니다. 한편, Goldwasser는 1980년대와 1990년대 두 분야 사이의 유익한 아이디어 교환과 유사하게 암호화와 기계 학습의 교차점에서 추가 연구를 보고 싶다고 말했습니다. 이는 Kim이 반향한 감정입니다. 그는 "분야가 발전함에 따라 일부 기술은 전문화되고 분리될 것입니다. 이제 모든 것을 다시 하나로 모을 때입니다
"라고 말했습니다.위 내용은 모델에 감지할 수 없는 백도어를 이식하면 "아웃소싱" AI가 속이기 더 쉬워집니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!