과학자들은 심층 강화 학습(DRL)이라는 인공 지능 기술을 사용하여 컴퓨터 네트워크를 보호하기 위한 중요한 조치를 취하고 있습니다.
심각한 시뮬레이션 환경에서 복잡한 사이버 공격에 직면할 때 심층 강화 학습은 공격자가 95%의 시간 동안 목표를 달성하지 못하도록 효과적으로 방지합니다. 테스트 결과는 자율 인공지능이 선제적인 사이버 방어에 역할을 할 수 있다는 희망을 제시합니다.
미국 에너지부 산하 태평양 북서부 국립 연구소(PNNL)의 과학자들은 워싱턴에서 열린 인공 지능 발전 협회 연례 회의에서 2월 14일 사이버 보안 인공 지능 회의에서 발표된 연구 논문에서 연구 결과를 문서화했습니다. , DC. 그들의 작업은 정보 심포지엄에서 발표되었습니다.
프로젝트의 시작점은 다양한 유형의 적과 관련된 다단계 공격 시나리오를 테스트하기 위한 시뮬레이션 환경을 개발하는 것이었습니다. 실험을 위한 동적 공격 및 방어 시뮬레이션 환경을 구축하는 것 자체가 성과입니다. 이 환경은 연구자에게 통제된 테스트 환경에서 다양한 AI 기반 방어의 효율성을 비교할 수 있는 방법을 제공합니다.
이러한 도구는 심층 강화 학습 알고리즘의 성능을 평가하는 데 중요합니다. 이러한 접근 방식은 사이버 보안 전문가를 위한 강력한 의사 결정 지원 도구가 되고 있습니다. DRL은 빠르게 변화하는 환경에 학습하고 적응하며 자율적인 결정을 내릴 수 있는 능력을 갖춘 방어 모델입니다. 이전에는 다른 형태의 인공 지능이 침입 탐지 또는 스팸 필터링을 위한 표준이었던 반면, 심층 강화 학습은 적과의 일상적인 대결에서 순차적인 의사 결정 계획을 조정할 수 있는 방어자의 능력을 확장합니다.
심층 강화 학습은 더욱 스마트한 사이버 보안, 네트워크 환경 변화를 조기에 감지하는 능력, 사이버 공격을 막기 위한 선제적 조치를 취할 수 있는 기회를 제공합니다.
팀의 작업을 소개한 데이터 과학자 Samrat Chatterjee는 "효과적인 사이버 보안 AI 에이전트는 수집할 수 있는 정보와 의사 결정 결과를 기반으로 감지, 분석, 행동 및 적응해야 합니다."라고 말했습니다. "심층 강화 학습은 시스템 상태와 대체 작업의 수가 클 수 있기 때문에 이 분야에서 엄청난 잠재력을 가지고 있습니다."
DRL은 강화 학습(RL)과 딥 러닝(DL)을 결합하며 특히 A가 필요한 애플리케이션에 적합합니다. 복잡한 환경 속에서 일련의 결정이 내려지는 상황. 충격과 긁힘으로부터 학습하는 유아처럼 심층 강화 학습(DRL) 기반 알고리즘은 좋은 결정에 보상을 주고 나쁜 결정에 처벌을 가하여 훈련됩니다. 바람직한 결과로 이어지는 좋은 결정 보상을 차감하여 수치로 표현되는 긍정적인 보상으로 지원됩니다. 나쁜 결과를 초래하는 나쁜 선택을 억제합니다.
팀은 오픈 소스 소프트웨어 툴킷인 OpenAI Gym을 기반으로 4가지 심층 강화 학습 알고리즘의 장단점을 평가하기 위한 맞춤형 제어 시뮬레이션 환경을 만들었습니다.
또한 MITRE Corporation에서 개발한 MITRE ATT&CK 프레임워크를 사용하며 세 명의 다른 상대가 배포하는 7가지 전술과 15가지 기술을 결합합니다. 방어자는 공격 진행을 중지하거나 차단하기 위한 23가지 완화 조치를 갖추고 있습니다.
공격 단계에는 정찰, 실행, 지속성, 방어 회피, 명령 및 제어, 수집 및 필터링(데이터가 시스템 외부로 전송됨)과 같은 전술이 포함됩니다. 공격자가 최종 필터링 단계에 성공적으로 도달하면 해당 공격은 승리로 기록됩니다.
Chatterjee는 다음과 같이 말했습니다. “우리의 알고리즘은 시스템을 손상시키려는 적의 의도와 경쟁하는 경쟁 환경에서 작동합니다. 이는 적들이 여러 경로, 이러한 경로를 추구할 수 있는 다단계 공격입니다. 정찰에서 착취로 전환하려고 시도하면서 시간이 지남에 따라 바뀔 수 있습니다. 우리의 과제는 심층 강화 학습 기반 방어가 이 공격을 얼마나 차단할 수 있는지 보여주는 것입니다."
팀은 방어 에이전트를 훈련했습니다. 4가지 심층 강화 학습 알고리즘인 DQN(Deep Q-Network) 및 기타 3가지 변종을 기반으로 사이버 공격에 대한 시뮬레이션 데이터에 대해 훈련한 후 관찰된 공격 훈련 중에 수행한 작업을 테스트했습니다.
DQN의 성능이 가장 좋습니다:
낮은 복잡성 공격: DQN은 공격 단계 중간에 공격의 79%를 차단했으며 마지막 단계에서 공격의 93%를 중지했습니다.
다소 복잡한 공격: DQN은 중간 단계에서 82%, 최종 단계에서 95%의 공격을 차단했습니다.
가장 복잡한 공격: DQN은 중간 단계 공격의 57%, 최종 단계 공격의 84%를 차단했는데, 이는 다른 세 알고리즘보다 훨씬 높습니다.
Chatterjee는 다음과 같이 말했습니다. "우리의 목표는 적의 가장 가능성 있는 다음 움직임을 이해하고 이를 계획한 다음 시스템을 보호하기 위한 최선의 방법으로 대응할 수 있는 자율 방어 에이전트를 만드는 것입니다."
에도 불구하고. 하지만 어느 누구도 사이버 방어를 인공지능 시스템에 전적으로 맡기려 하지 않습니다. 대신 DRL 기반 사이버 보안 시스템은 인간과 협력하여 작동해야 한다고 전 PNNL 공동 저자 Arnab Bhattacharya가 말했습니다. "AI는 특정 전략을 방어하는 데는 능숙하지만 적이 취할 수 있는 모든 접근 방식을 잘 이해하지는 못합니다. AI가 인간 사이버 분석가를 대체할 단계는 아직 멀었습니다. 인간의 피드백과 지침이 중요합니다."
Chatterjee와 Bhattacharya 외에도 워크숍 논문의 저자로는 PNNL의 Mahantesh Halappanavar와 전 PNNL 과학자 Ashutosh Dutta가 있습니다. 이 작업은 에너지부의 과학 사무국에서 자금을 지원받았으며, 이 특정 연구를 추진하는 초기 작업 중 일부는 실험실 주도 연구 및 개발 프로그램을 통해 PNNL의 과학 인공 추론 수학 프로그램의 자금을 지원 받았습니다.위 내용은 사이버 보안 방어자들은 AI 도구 상자를 확장하고 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!