현재 일반 인공 지능(AGI) 시스템을 구축하는 방법은 사람들이 실제 문제를 더 잘 해결하도록 돕는 동시에 예상치 못한 위험도 가져옵니다.
따라서 향후 인공지능의 추가적인 발전은 공격적인 네트워크 역량이나 강력한 조작 능력 등 많은 극단적인 위험으로 이어질 수 있습니다.
오늘 구글 딥마인드는 케임브리지대학교, 옥스퍼드대학교 등 대학, OpenAI, Anthropic 등 기업, Alignment Research Center 등 기관과 함께 '극한 위험에 대한 모델 평가'라는 제목의 글을 게재했습니다. 인쇄 전 웹사이트 arXiv, 제시 새로운 위협에 대한 공통 모델을 평가하고 모델 평가가 극심한 위험에 대처하는 데 중요한 이유를 설명하기 위한 프레임워크입니다.
그들은 개발자가 위험을 식별할 수 있는 능력("위험 능력 평가"를 통해), 모델의 능력을 적용하여("정렬 평가"를 통해) 해를 끼치는 경향 을 가져야 한다고 주장합니다. 이러한 평가는 정책 입안자와 기타 이해관계자에게 정보를 제공하고 모델 교육, 배포 및 보안에 대한 책임 있는 결정을 내리는 데 중요합니다.
Academic Toutiao(ID: SciTouTiao)가 원문의 주요 아이디어를 변경하지 않고 간단한 편집본을 만들었습니다. 내용은 다음과 같습니다.
최첨단 AI 연구의 발전을 책임감 있게 촉진하려면 AI 시스템의 새로운 기능과 위험을 가능한 한 빨리 식별해야 합니다.
AI 연구자들은 일련의 평가 벤치마크를 사용하여 AI 시스템이 잘못된 주장을 하거나 편향된 결정을 내리거나 저작권이 있는 콘텐츠를 복제하는 등 AI 시스템의 바람직하지 않은 동작을 식별했습니다. 이제 AI 커뮤니티가 점점 더 강력한 AI를 구축하고 배포함에 따라 조작, 기만, 사이버 공격 또는 기타 위험한 능력을 갖춘 일반 AI 모델이 고려하는 극단적인 위험을 포함하도록 평가를 확대해야 합니다.
케임브리지 대학교, 옥스포드 대학교, 토론토 대학교, 몬트리올 대학교, OpenAI, Anthropic, 정렬 연구 센터, 장기 회복력 센터 및 AI 거버넌스 센터와 협력하여 우리는 이러한 새로운 위협을 평가하기 위한 프레임워크를 도입합니다.
극한 위험 평가를 포함한 모델 안전성 평가는 안전한 AI 개발 및 배포의 중요한 부분이 될 것입니다.
새로운 일반 인공 지능 시스템의 극심한 위험을 평가하려면 개발자는 위험한 기능과 정렬 수준을 평가해야 합니다. 위험을 조기에 식별하면 새로운 AI 시스템을 훈련하고, 이러한 AI 시스템을 배포하고, 위험을 투명하게 설명하고, 적절한 사이버 보안 표준을 적용하는 데 있어 더 큰 책임이 발생할 수 있습니다.
유니버설 모델은 일반적으로 훈련 중에 해당 기능과 동작을 학습합니다. 그러나 학습 과정을 안내하는 기존 방법은 불완전합니다. 예를 들어, Google DeepMind의 이전 연구에서는 AI 시스템이 인간이 원하지 않는 목표를 추구하는 방법을 학습할 수 있는 방법을 탐구했습니다. 심지어 인간이 좋은 행동에 대해 올바르게 보상하더라도 마찬가지입니다.
책임감 있는 AI 개발자는 한 단계 더 나아가 가능한 미래 개발과 새로운 위험을 예측해야 합니다. 진행이 계속됨에 따라 미래의 유니버설 모델은 기본적으로 다양한 위험한 능력을 배울 수 있습니다. 예를 들어, 미래의 인공 지능 시스템은 공격적인 네트워크 활동을 수행하고, 대화에서 인간을 교묘하게 속이고, 인간을 유해한 행동으로 조작하고, 무기(생물학, 화학 무기 등)를 설계 또는 획득하고, 클라우드 컴퓨팅에서 미세 조정 및 작동할 수 있습니다. 다른 고위험 AI 시스템이나 이러한 작업에서 인간을 돕는 것이 가능합니다(확실하지는 않지만).
나쁜 의도를 가진 사람들은 이러한 모델의 기능을 남용할 수 있습니다. 이러한 AI 모델은 누구도 의도하지 않더라도 인간과 가치관 및 도덕성의 차이로 인해 유해한 행동을 할 수 있습니다.
모델 평가는 이러한 위험을 사전에 식별하는 데 도움이 됩니다. 우리 프레임워크에서 AI 개발자는 모델 평가를 사용하여 다음을 발견합니다.
이러한 평가 결과를 통해 AI 개발자는 극심한 위험을 초래할 수 있는 요인이 있는지 이해할 수 있습니다. 가장 위험한 상황에는 위험한 기능이 결합되어 있습니다. 아래와 같이:
그림 | 극도의 위험을 초래하는 요소: 때로는 특정 기능이 인간(예: 사용자 또는 크라우드 작업자) 또는 다른 AI 시스템에 아웃소싱될 수 있습니다. 이러한 능력은 남용이든 정렬 달성 실패이든 관계없이 피해를 입히는 데 사용해야 합니다.
경험 법칙: AI 시스템이 남용되거나 잘못 정렬되었다고 가정할 때 극도의 피해를 입힐 수 있는 특성을 가지고 있다면 AI 커뮤니티는 이를 "매우 위험함"으로 간주해야 합니다. 이러한 시스템을 실제 세계에 배포하려면 AI 개발자는 매우 높은 보안 표준을 입증해야 합니다.
어떤 모델이 위험한지 식별할 수 있는 더 나은 도구가 있다면 기업과 규제 기관은 다음을 더 잘 보장할 수 있습니다.
우리는 극심한 위험에 대한 모델 평가가 강력한 범용 모델의 교육 및 배포에 대한 중요한 결정을 어떻게 지원해야 하는지에 대한 청사진을 개발했습니다. 개발자는 프로세스 전반에 걸쳐 평가를 수행하고 외부 보안 연구원 및 모델 검토자에게 모델에 대한 구조적 액세스 권한을 부여하여 추가 평가를 수행할 수 있도록 합니다. 평가 결과는 모델 교육 및 배포 전에 위험 평가에 대한 참조를 제공할 수 있습니다.
그림 | 전체 모델 훈련 및 배포의 중요한 의사 결정 프로세스에 극한 위험에 대한 모델 평가를 포함시킵니다.
Google DeepMind 및 다른 곳에서는 극한 위험에 대한 모델 평가에 대한 중요한 초기 작업이 시작되었습니다. 그러나 가능한 모든 위험을 포착하고 향후 새로운 문제로부터 보호하는 데 도움이 되는 평가 프로세스를 구축하려면 더 많은 기술적, 제도적 노력이 필요합니다.
모델 평가는 만병통치약이 아닙니다. 때로는 일부 위험이 사회의 복잡한 사회적, 정치적, 경제적 힘과 같은 모델 외부 요인에 너무 많이 의존하기 때문에 평가에서 벗어날 수 있습니다. 안전 및 기타 위험 평가 도구에 대한 보다 광범위한 산업, 정부 및 대중의 우려와 모델 평가를 통합할 필요가 있습니다.
Google은 최근 책임 있는 AI에 대한 블로그에서 “AI를 올바르게 사용하려면 개인의 관행, 공유된 업계 표준, 건전한 정부 정책이 중요하다”고 언급했습니다. 우리는 AI 분야에 종사하고 이 기술의 영향을 받는 많은 업계가 함께 협력하여 모든 사람의 이익을 위해 AI를 안전하게 개발하고 배포하기 위한 방법과 표준을 공동으로 개발할 수 있기를 바랍니다.
우리는 모델에서 발생하는 위험 속성을 추적하고 관련 결과에 적절하게 대응하는 절차를 갖추는 것이 AI 연구의 최전선에서 책임 있는 개발자로 일하는 데 중요한 부분이라고 믿습니다.
위 내용은 Google DeepMind, OpenAI 등은 공동으로 다음과 같은 기사를 발표했습니다. 대규모 AI 모델의 극도의 위험을 평가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!