찾다
기술 주변기기일체 포함심층 강화 학습의 적대적 공격 및 방어

01 서문

이 논문은 공격에 저항하기 위한 심층 강화 학습 작업에 관한 것입니다. 본 논문에서 저자는 강력한 최적화의 관점에서 적대적 공격에 대한 심층 강화 학습 전략의 견고성을 연구합니다. 강력한 최적화 프레임워크에서는 전략의 예상 수익을 최소화하여 최적의 적대 공격이 제공되며, 이에 따라 최악의 시나리오에 대처할 때 전략의 성능을 향상시켜 우수한 방어 메커니즘이 달성됩니다.

공격자는 일반적으로 훈련 환경에서 공격할 수 없다는 점을 고려하여, 저자는 환경과 상호 작용하지 않고 전략의 예상 수익을 최소화하려고 시도하는 탐욕적 공격 알고리즘을 제안하고, 또한 저자는 방어 알고리즘도 제안합니다. 심층 강화 학습 알고리즘의 적대적 훈련을 수행하는 최대 최소 게임.

아타리 게임 환경에서 실험한 결과, 저자가 제안한 적대적 공격 알고리즘은 기존 공격 알고리즘보다 효과적이며, 전략 수익률은 더 나쁜 것으로 나타났습니다. 본 논문에서 제안하는 적대적 방어 알고리즘에 의해 생성된 전략은 기존 방어 방법보다 다양한 적대적 공격에 더 강력하다.

02 예비 지식

2.1 적대적 공격

임의의 샘플(x, y)과 신경망 f가 주어지면 적대적 샘플 생성의 최적화 목표는 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

여기서 신경망 f, L의 매개변수는 손실 함수는 적대적 섭동의 집합이며 심층 강화 학습의 적대적 공격 및 방어는 x를 중심으로 하고 반경을 반경으로 하는 표준 제약 공입니다. PGD ​​공격을 통해 적대적 샘플을 생성하는 계산 공식은 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

여기서 심층 강화 학습의 적대적 공격 및 방어는 투영 작업을 나타냅니다. 입력이 표준 구 외부에 있는 경우 입력은 x 중심과 반경으로 구에 투영됩니다. 이는 PGD 공격의 단일 단계 교란 크기를 의미합니다.

2.2 강화 학습 및 정책 기울기

강화 학습 문제는 마르코프 결정 프로세스로 설명할 수 있습니다. 마르코프 결정 과정은 심층 강화 학습의 적대적 공격 및 방어 5중으로 정의할 수 있습니다. 여기서 S는 상태 공간, A는 행동 공간, 심층 강화 학습의 적대적 공격 및 방어는 상태 전환 확률, r은 보상 함수, 는 할인 요소를 나타냅니다. 강력한 학습 학습의 목표는 초기 상태를 나타내는 값 함수 심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어

를 최대화하기 위해 매개 변수 정책 분포

를 학습하는 것입니다. 강력한 학습에는 행동 가치 함수 평가가 포함됩니다.

심층 강화 학습의 적대적 공격 및 방어

위 공식은 상태가 실행된 후 정책 준수에 대한 수학적 기대를 설명합니다. 정의로부터 가치함수와 행동값함수는 다음의 관계를 만족함을 알 수 있다.

심층 강화 학습의 적대적 공격 및 방어

표현의 편의를 위해 저자는 주로 이산행동공간의 마르코프 과정에 초점을 맞추지만 모든 알고리즘과 결과는 연속 설정에 직접 적용할 수 있습니다.

03 논문 방법

심층 강화학습 전략의 적대적 공격과 방어는 강력한 최적화 PGD

심층 강화 학습의 적대적 공격 및 방어

프레임워크를 기반으로 합니다.

여기서 심층 강화 학습의 적대적 공격 및 방어는 적대적 섭동 시퀀스 세트 심층 강화 학습의 적대적 공격 및 방어를 나타내고, 모두 심층 강화 학습의 적대적 공격 및 방어를 만족합니다. 심층 강화 학습의 적대적 공격 및 방어위 공식은 공격과 방어에 맞서기 위한 심층 강화 학습을 위한 통합 프레임워크를 제공합니다.

한편으로 내부 최소화 최적화는 현재 전략이 잘못된 결정을 내리게 만드는 적대적 섭동 시퀀스를 찾습니다. 반면, 외부 극대화의 목적은 섭동 전략 하에서 기대 수익을 극대화하기 위한 전략 분포 매개변수를 찾는 것입니다. 위의 적대적 공격 및 방어 게임 후에 훈련 과정 중 전략 매개변수는 적대적 공격에 대한 저항력이 더욱 높아집니다.

목적 함수의 내부 최소화 목적은 적대적 섭동을 생성하는 것입니다. 그러나 강화 학습 알고리즘의 경우 최적의 적대적 섭동을 학습하는 것은 매우 시간이 많이 걸리고 노동 집약적이며 훈련 환경은 공격자, 그래서 이 논문에서 저자는 공격자가 다양한 상태에 섭동을 주입하는 실제 설정을 고려합니다. 지도 학습 공격 시나리오에서 공격자는 분류기 모델을 속여서 강화 학습 공격 시나리오에서 잘못 분류하고 잘못된 레이블을 생성하기만 하면 되며, 작업 값 함수는 공격자에게 추가 정보, 즉 작은 행동 값을 제공합니다. 결과적으로 작은 기대 수익이 발생합니다. 이에 따라 저자는 심층 강화 학습에서 최적의 적대적 섭동을 다음과 같이 정의합니다

정의 1: 상태 s에 대한 최적의 적대적 섭동은 상태의 예상 수익을 최소화할 수 있습니다

심층 강화 학습의 적대적 공격 및 방어

최적화는 위 공식을 해결한다는 점에 유의해야 합니다. 이는 공격자가 에이전트를 속여 최악의 의사결정 행동을 선택하도록 보장해야 합니다. 그러나 에이전트의 행동 가치 기능은 공격자가 알지 못하므로 적의 교란이 최적이라는 보장은 없습니다. 다음 정리는 정책이 최적일 경우 행동 가치 함수

에 접근하지 않고도 최적의 적대적 교란이 생성될 수 있음을 보여줄 수 있습니다. 정리 1: 제어 전략심층 강화 학습의 적대적 공격 및 방어이 최적일 때 행동 가치 함수와 정책은 다음 관계

를 만족합니다.

심층 강화 학습의 적대적 공격 및 방어

정책 엔트로피를 나타내는 곳은 상태 의존 상수이며, 0으로 변경되면 0으로 변경되며 다음 공식

은 다음을 증명합니다. 무작위 전략 심층 강화 학습의 적대적 공격 및 방어이 최적에 도달하면 , 가치 함수 심층 강화 학습의 적대적 공격 및 방어도 최적에 도달합니다. 이는 각 상태 s에서 가치 함수 심층 강화 학습의 적대적 공격 및 방어를 증가시키는 다른 행동 분포를 찾을 수 없음을 의미합니다. 이에 따라 최적의 행동 가치 함수 심층 강화 학습의 적대적 공격 및 방어가 주어지면 제한된 최적화 문제를 해결하여 최적의 전략 심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어

을 얻을 수 있습니다. 두 번째와 세 번째 행은 이것이 확률 분포임을 나타내고 마지막 행은 전략이 다음임을 나타냅니다. , KKT 조건에 따라 위의 최적화 문제는 다음 형식으로 변환될 수 있습니다.

심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어

그 중에심층 강화 학습의 적대적 공격 및 방어. 심층 강화 학습의 적대적 공격 및 방어가 모든 행동 심층 강화 학습의 적대적 공격 및 방어에 대해 양의 정부호라고 가정하면 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어이면 심층 강화 학습의 적대적 공격 및 방어가 있어야 하고 모든 심층 강화 학습의 적대적 공격 및 방어에 대해서는 심층 강화 학습의 적대적 공격 및 방어이 있으므로 행동 값 사이의 관계를 얻을 수 있습니다. 함수와 전략의 소프트맥스

심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어이 있고

심층 강화 학습의 적대적 공격 및 방어

이 있습니다. 위의 첫 번째 방정식을 두 번째 방정식에 가져오면

심층 강화 학습의 적대적 공격 및 방어

이 있고 그중

심층 강화 학습의 적대적 공격 및 방어

이 있습니다. 위 공식 심층 강화 학습의 적대적 공격 및 방어은 엔트로피가 와 같은 소프트맥스 형태의 확률 분포를 나타냅니다. 가 0과 같으면 역시 0이 됩니다. 이 경우 는 0보다 크고 이때는 심층 강화 학습의 적대적 공격 및 방어입니다.

정리 1은 정책이 최적인 경우 섭동된 정책과 원래 정책의 교차 엔트로피를 최대화하여 최적의 섭동을 얻을 수 있음을 보여줍니다. 논의의 단순화를 위해 저자는 정리 1의 공격을 전략적 공격이라고 부르며, 저자는 PGD 알고리즘 프레임워크를 사용하여 최적의 전략적 공격을 계산합니다. 구체적인 알고리즘 흐름도는 아래 알고리즘 1과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

저자가 제안한 섭동 방어를 위한 강력한 최적화 알고리즘의 흐름도는 아래 알고리즘 2에 나와 있습니다. 이 알고리즘을 전략적 공격 적대 훈련이라고 합니다. 훈련 단계에서 섭동 정책은 환경과 상호작용하는 데 사용되며 동시에 섭동 정책의 행동 가치 함수심층 강화 학습의 적대적 공격 및 방어는 정책 훈련에 도움이 되는 것으로 추정됩니다.

구체적인 세부 사항은 먼저, 가치 함수가 감소하는 것을 보장하지 않음에도 불구하고 저자가 훈련 단계에서 교란을 생성하기 위해 전략적 공격을 사용한다는 것입니다. 학습 초기 단계에서는 정책이 행동 가치 함수와 관련이 없을 수 있습니다. 학습이 진행됨에 따라 점차적으로 소프트맥스 관계를 충족하게 됩니다.

반면에 저자는 행동 가치 함수를 정확하게 추정해야 합니다심층 강화 학습의 적대적 공격 및 방어 이는 교란된 정책을 실행하여 궤적을 수집하기 때문에 처리하기 어렵고, 이러한 데이터를 사용하여 교란되지 않은 정책의 행동 가치 함수를 추정하는 것은 매우 어려울 수 있습니다. 부정확하다.

심층 강화 학습의 적대적 공격 및 방어

PPO를 사용하는 최적화된 섭동 전략 심층 강화 학습의 적대적 공격 및 방어의 목적 함수는

여기서 심층 강화 학습의 적대적 공격 및 방어이고 심층 강화 학습의 적대적 공격 및 방어는 섭동 전략의 평균 함수 심층 강화 학습의 적대적 공격 및 방어에 대한 추정치입니다. 실제로 심층 강화 학습의 적대적 공격 및 방어는 GAE 방법으로 추정됩니다. 구체적인 알고리즘 흐름도는 아래 그림에 나와 있습니다.

심층 강화 학습의 적대적 공격 및 방어

04 실험 결과

아래 오른쪽 세 개의 하위 그림은 서로 다른 공격 교란의 결과를 보여줍니다. 역으로 훈련된 정책과 표준 정책 모두 무작위 교란에 강하다는 것을 알 수 있습니다. 대조적으로, 적대적 공격은 다양한 전략의 성능을 저하시킵니다. 결과는 테스트 환경과 방어 알고리즘에 따라 달라지며, 나아가 세 가지 적대 공격 알고리즘 간의 성능 차이가 작다는 것을 알 수 있습니다.

반대로 상대적으로 어려운 환경에서 알고리즘 간섭을 공격하기 위해 논문 저자가 제안한 전략은 훨씬 낮은 수익을 창출합니다. 전반적으로, 논문에서 제안한 전략적 공격 알고리즘은 대부분의 경우 가장 낮은 보상을 생성하며, 이는 실제로 테스트된 모든 적대적 공격 알고리즘 중에서 가장 효율적임을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

아래 그림과 같이 다양한 방어 알고리즘과 표준 PPO의 학습 곡선이 표시됩니다. 성능 곡선은 환경과 상호 작용하는 데 사용되는 전략의 예상 수익만을 나타낸다는 점에 유의하는 것이 중요합니다. 본 논문에서 제안하는 ATPA는 모든 훈련 알고리즘 중에서 훈련 분산이 가장 낮아 다른 알고리즘보다 안정적이다. 또한 ATPA는 특히 초기 훈련 단계에서 표준 PPO보다 훨씬 느리게 진행됩니다. 이는 훈련 초기 단계에서 불리한 요인으로 인해 방해를 받으면 전략 훈련이 매우 불안정해질 수 있다는 사실로 이어집니다.

심층 강화 학습의 적대적 공격 및 방어

이 표에는 다양한 섭동 하에서 다양한 알고리즘을 사용하는 전략의 예상 수익이 요약되어 있습니다. ATPA 훈련 전략은 다양한 적대적 간섭에 저항력이 있다는 것을 알 수 있습니다. 이에 비해 StageWise와 DataAugment는 어느 정도 적대적 공격을 처리하는 방법을 배웠지만 모든 경우에 ATPA만큼 효과적이지는 않습니다.

심층 강화 학습의 적대적 공격 및 방어

더 넓은 비교를 위해 저자는 가장 효과적인 전략적 공격 알고리즘에 의해 생성된 다양한 수준의 적대적 간섭에 대한 이러한 방어 알고리즘의 견고성을 평가합니다. 아래에서 볼 수 있듯이 ATPA는 모든 경우에서 다시 한 번 가장 높은 점수를 받았습니다. 또한 ATPA의 평가 분산은 StageWise 및 DataAugment의 평가 분산보다 훨씬 작으며 이는 ATPA가 생성 능력이 더 강력하다는 것을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

유사한 성능을 달성하려면 ATPA에는 표준 PPO 알고리즘보다 더 많은 훈련 데이터가 필요합니다. 저자는 섭동 전략의 안정성을 연구하여 이 문제를 조사했습니다. 저자는 훈련 과정의 중간과 끝에서 서로 다른 무작위 초기 지점을 갖는 PGD를 사용하여 정책 공격을 수행하여 얻은 교란된 정책의 KL 발산 값을 계산했습니다. 아래 그림에서 볼 수 있듯이, 적대적 훈련이 없으면 표준 PPO가 수렴하더라도 큰 KL 발산 값이 지속적으로 관찰되는데, 이는 서로 다른 초기점으로 PGD를 수행하여 생성되는 교란에 대해 정책이 매우 불안정하다는 것을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

다음 그림은 서로 다른 초기 지점을 갖는 섭동 전략의 KL 발산 플롯을 보여줍니다. 그림의 각 픽셀은 두 가지 섭동 전략의 KL 발산 값을 나타내는 것을 알 수 있습니다. 이 두 가지 섭동 전략의 핵심 공식은 다음과 같습니다. 알고리즘이 제공됩니다. KL 발산은 비대칭 측정항목이므로 이러한 매핑도 비대칭입니다.

심층 강화 학습의 적대적 공격 및 방어

위 내용은 심층 강화 학습의 적대적 공격 및 방어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!