집 >기술 주변기기 >일체 포함 >자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

PHPz앞으로: 2023-04-11 21:37:081290검색

인공지능 시스템이 점점 더 발전할수록 에이전트의 "허점을 이용하는" 능력은 점점 더 강력해지고 있습니다. 훈련 세트에서는 완벽하게 작업을 수행할 수 있지만, 지름길이 없는 테스트 세트에서는 성능이 엉망입니다.

예를 들어, 게임 목표는 "금화 먹기"입니다. 훈련 단계에서 금화는 각 레벨의 끝에 있으며 에이전트는 작업을 완벽하게 완료할 수 있습니다.

하지만 테스트 단계에서 금화의 위치가 무작위가 되었습니다. 에이전트는 금화를 찾는 대신 매번 레벨의 끝에 도달하는 것을 선택했는데, 이는 학습된 "목표"가 틀렸다는 것을 의미합니다.

에이전트는 사용자가 원하지 않는 목표를 무의식적으로 추구합니다. 이는 Goal MisGeneralization(GMG, Goal MisGeneralisation)이라고도 합니다.

목표 잘못된 일반화는 일반적으로 학습 알고리즘의 견고성이 부족한 특수한 형태입니다. 이 경우 개발자는 다음과 같이 할 수 있습니다. 에이전트가 잘못된 목표를 추구하는 이유라고 믿고 보상 메커니즘 설정, 규칙 설계 결함 등에 문제가 있는지 확인합니다.

최근 DeepMind는 규칙 설계자가 정확하더라도 에이전트는 여전히 사용자가 원하지 않는 목표를 추구할 수 있다고 주장하는 논문을 발표했습니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

논문 링크: https://arxiv.org/abs/2210.01790

이 기사는 다양한 분야의 딥 러닝 시스템의 예를 사용하여 모든 학습 시스템에서 대상의 잘못된 일반화가 발생할 수 있음을 증명합니다.

일반 인공 지능 시스템으로 확장되면 이 기사는 목표의 잘못된 일반화가 치명적인 위험으로 이어질 수 있음을 설명하기 위해 몇 가지 가정도 제공합니다.

이 기사는 또한 미래 시스템에서 목표의 잘못된 일반화 위험을 줄일 수 있는 몇 가지 연구 방향을 제안합니다.

목표 잘못된 일반화

최근 몇 년간 학계에서는 인공지능의 잘못된 정렬로 인한 재앙적 위험이 점차 증가하고 있습니다.

이 경우, 의도하지 않은 목표를 추구하는 고성능 인공지능 시스템은 실제로 다른 목표를 달성하면서 명령을 실행하는 척할 수도 있습니다.

그런데 사용자가 의도하지 않은 목표를 추구하는 인공지능 시스템의 문제를 어떻게 해결할 수 있을까요?

이전 작업에서는 일반적으로 환경 디자이너가 잘못된 규칙과 지침을 제공했다고 믿었습니다. 즉, 잘못된 강화 학습(RL) 보상 기능을 설계했습니다.

학습 시스템의 경우 시스템이 의도하지 않은 목표를 추구할 수 있는 또 다른 상황이 있습니다. 규칙이 정확하더라도 시스템은 훈련 중에 규칙과 일치하지만 실제와는 다른 의도하지 않은 목표를 지속적으로 추구할 수 있습니다. 배포할 때 규칙.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

색 공 게임을 예로 들어 보겠습니다. 게임에서 에이전트는 특정 순서에 따라 색 공 세트에 액세스해야 합니다.

에이전트가 환경, 즉 문화 전달에서 타인으로부터 학습할 수 있도록 하기 위해 초기 환경에는 전문 로봇이 포함되어 올바른 순서로 컬러볼에 접근할 수 있습니다.

이 환경 설정에서 에이전트는 탐색에 많은 시간을 낭비하지 않고도 전달된 동작을 관찰하여 올바른 액세스 순서를 결정할 수 있습니다.

실험에서 훈련된 에이전트는 일반적으로 전문가를 모방하여 첫 번째 시도에서 대상 위치에 올바르게 액세스합니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

에이전트와 반전문가를 페어링하면 계속해서 부정적인 보상을 받게 됩니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

이상적으로 에이전트는 처음에는 반전문가가 노란색과 보라색 구체로 이동하는 것을 따라갑니다. 보라색에 들어간 후에는 부정적인 보상이 관찰되며 더 이상 따르지 않습니다.

그러나 실제로 에이전트는 계속해서 반전문가의 길을 따르며 점점 더 많은 부정적인 보상을 축적하게 됩니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

그러나 에이전트의 학습 능력은 여전히 매우 강하고 장애물로 가득 찬 환경에서도 이동할 수 있지만 중요한 것은 다른 사람을 따라가는 이 능력이 예상치 못한 목표라는 것입니다.

에이전트가 올바른 순서로 구체를 방문해야만 보상을 받는 경우에도 이러한 현상이 발생할 수 있으며, 이는 단순히 규칙을 올바르게 설정하는 것만으로는 충분하지 않음을 의미합니다.

목표 잘못된 일반화는 학습된 모델이 훈련 중에 올바른 피드백을 받았음에도 불구하고 의도하지 않은 목표를 최적화하는 것처럼 행동하는 병리학적 행동을 말합니다.

이로 인해 대상의 잘못된 일반화는 특별한 종류의 견고성 또는 일반화 실패가 됩니다. 여기서 모델의 기능은 테스트 환경으로 일반화되지만 의도된 대상은 그렇지 않습니다.

대상 잘못된 일반화는 일반화 실패의 엄격한 하위 집합이며 모델 중단, 무작위 작업 또는 더 이상 검증된 기능을 발휘하지 못하는 기타 상황을 포함하지 않는다는 점에 유의하는 것이 중요합니다.

위의 예에서 테스트하는 동안 에이전트의 관찰을 수직으로 뒤집으면 한 위치에 멈춰서 일관된 작업을 수행하지 않습니다. 이는 일반화 오류이지만 대상 일반화 오류는 아닙니다.

이러한 "무작위" 실패와 관련하여 대상의 잘못된 일반화는 훨씬 더 나쁜 결과로 이어질 것입니다. 반전문가를 따르는 것은 큰 부정적인 보상을 받는 반면, 아무것도 하지 않거나 무작위로 행동하는 것은 0 또는 1의 보상만 얻게 됩니다.

즉, 실제 시스템의 경우 의도하지 않은 목표를 향해 일관되게 행동하면 치명적인 결과를 초래할 수 있습니다.

강화 학습 그 이상

목표 오류 일반화는 강화 학습 환경에만 국한되지 않습니다. 실제로 GMG는 더 적은 훈련을 사용하도록 설계된 대규모 언어 모델(LLM)의 소수 샷 학습을 포함하여 모든 학습 시스템에서 발생할 수 있습니다. 정확한 모델 구축 데이터에서.

지난해 DeepMind가 제안한 언어 모델 Gopher를 예로 들어보겠습니다. 모델이 x+y-3과 같은 알 수 없는 변수와 상수가 포함된 선형 표현식을 계산할 때 Gopher는 먼저 알 수 없는 변수의 값을 물어서 문제를 해결해야 합니다. 표현.

연구원들은 각각 2개의 알 수 없는 변수가 포함된 10개의 훈련 예제를 생성했습니다.

테스트 시간에 모델에 입력된 질문에는 0개, 1개 또는 3개의 알 수 없는 변수가 포함될 수 있습니다. 모델은 알 수 없는 변수가 1개 또는 3개 포함된 표현식을 올바르게 처리할 수 있지만 알 수 없는 변수가 없는 경우에는 여전히 중복되는 질문을 합니다.

모델은 완전히 불필요하더라도 답변을 제공하기 전에 항상 사용자에게 한 번 이상 질문합니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

이 문서에는 다른 학습 환경의 몇 가지 예도 포함되어 있습니다.

GMG를 해결하는 것은 AI 시스템이 오작동할 수 있는 잠재적인 메커니즘이므로 AI 시스템이 설계자의 목표와 일치하도록 하는 데 중요합니다.

일반인공지능(AGI)에 가까워질수록 이 문제는 더욱 중요해집니다.

두 가지 AGI 시스템이 있다고 가정합니다.

A1: 의도한 모델, 인공 지능 시스템은 디자이너가 원하는 것은 무엇이든 할 수 있습니다.

A2: 기만적인 모델, 인공 지능 시스템은 의도하지 않은 목표를 추구하지만 그것이 무엇인지 알 만큼 충분히 똑똑합니다. 디자이너의 의도에 반하는 행위를 할 경우 처벌을 받습니다.

A1 및 A2 모델은 훈련 중에 정확히 동일한 동작을 나타내며 기본 GMG는 예상되는 동작만 보상하도록 지정되어 있더라도 모든 시스템에 존재합니다.

A2 시스템의 부정 행위가 발견되면 모델은 사용자가 예상하지 못한 목표를 달성하기 위한 계획을 세우기 위해 인간의 감독을 없애려고 합니다.

약간 "로봇이 정자가 된다"처럼 들립니다.

DeepMind 연구팀은 모델의 동작을 설명하고 재귀적으로 평가하는 방법도 연구했습니다.

연구팀에서는 GMG 생성을 위한 샘플도 수집하고 있습니다.

자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요

문서 링크: https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

참조: https://www.deepmind.com/blog/how-undesired- goal -올바른 보상으로 일어날 수 있습니다

위 내용은 자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：ChatGPT가 갑자기 왜 그렇게 강력해졌나요? 중국 의사의 10,000 단어에 달하는 긴 기사는 GPT-3.5 기능의 기원을 깊이 분석합니다.다음 기사：ChatGPT가 갑자기 왜 그렇게 강력해졌나요? 중국 의사의 10,000 단어에 달하는 긴 기사는 GPT-3.5 기능의 기원을 깊이 분석합니다.