최근 몇 년 동안 LLM(대형 언어 모델)의 개발이 엄청난 진전을 이루었고 이로 인해 우리는 혁명적인 시대에 들어섰습니다. LLM 기반 지능형 에이전트는 다양한 작업에서 다양성과 효율성을 보여줍니다. "AI 과학자"로 알려진 이러한 에이전트는 생물학 및 화학과 같은 분야에서 자율적인 과학적 발견을 수행할 수 있는 잠재력을 탐구하기 시작했습니다. 이러한 에이전트는 작업에 적합한 도구를 선택하고, 환경 조건을 계획하고, 실험을 자동화하는 능력을 입증했습니다.
따라서 에이전트는 실험을 효과적으로 설계하고 수행할 수 있는 실제 과학자로 변신할 수 있습니다. 화학 디자인과 같은 일부 분야에서 에이전트는 대부분의 비전문가를 능가하는 능력을 입증했습니다. 그러나 우리는 자동화된 에이전트의 이점을 누리는 동시에 잠재적인 위험도 인식해야 합니다. 이들의 능력이 인간의 능력에 근접하거나 이를 초과함에 따라 이들의 행동을 모니터링하고 해를 끼치지 않도록 방지하는 것이 점점 더 중요하고 어려워지고 있습니다.
LLM 기반 지능형 에이전트는 목표 달성을 위해 자동으로 계획하고 필요한 조치를 취하는 능력이 있다는 점에서 과학 분야에서 독보적입니다. 이러한 에이전트는 특정 생물학적 데이터베이스에 자동으로 액세스하고 화학 실험과 같은 활동을 수행할 수 있습니다. 예를 들어 에이전트가 새로운 화학 반응을 탐색하도록 하세요. 먼저 기존 데이터에 대한 생물학적 데이터베이스에 액세스한 다음 LLM을 사용하여 새로운 경로를 추론하고 반복적인 실험 검증을 위해 로봇을 사용할 수 있습니다. 이러한 과학 탐사 에이전트는 도메인 기능과 자율성을 가지므로 다양한 위험에 취약합니다.
최신 논문에서 Yale, NIH, Mila, Shanghai Jiao Tong University 및 기타 기관의 학자들은 "과학적 발견에 사용되는 에이전트의 위험"을 명확하고 설명하여 향후 감독 메커니즘 및 위험 완화 전략의 기반을 마련했습니다. 실제 응용 프로그램에서 안전하고 효율적이며 윤리적인지 확인하기 위한 LLM 기반 과학 에이전트 개발에 대한 지침입니다.
우선, 저자는 명확한 과학적 LLM 에이전트의 잠재력에 대한 이해 사용자 의도, 특정 과학 분야, 잠재적 위험부터 외부 환경에 이르기까지 기존 위험이 포괄적으로 설명됩니다. 그런 다음 이러한 취약점의 원인을 조사하고 보다 제한적인 관련 연구를 검토합니다. 이러한 연구 분석을 바탕으로 저자는 식별된 위험을 처리하기 위해 인간 제어, 에이전트 정렬 및 환경 피드백 이해(에이전트 제어)로 구성된 프레임워크를 제안했습니다.
본 입장문은 과학 분야에서 지능형 에이전트의 남용으로 인해 발생하는 위험과 그에 따른 대응책을 자세히 분석합니다. 대규모 언어 모델을 갖춘 지능형 에이전트가 직면하는 주요 위험에는 주로 사용자 의도 위험, 도메인 위험 및 환경 위험이 포함됩니다. 사용자 의도 위험에는 지능형 에이전트가 과학 연구에서 비윤리적이거나 불법적인 실험을 수행하는 데 부적절하게 사용될 수 있는 가능성이 포함됩니다. 에이전트의 지능은 설계된 목적에 따라 다르지만 적절한 인간 감독이 없으면 에이전트는 여전히 인간의 건강에 유해하거나 환경을 손상시키는 실험을 수행하는 데 오용될 수 있습니다.
여기서 과학적 발견을 위한 에이전트는 실무자가 자율적인 실험을 수행할 수 있는 능력을 갖춘 시스템으로 정의됩니다. 특히 본 논문에서는 실험을 처리하고, 환경 조건을 계획하고, 실험에 적합한 도구를 선택하고, 자체 실험 결과를 분석 및 해석할 수 있는 LLM(대형 언어 모델)을 갖춘 과학적 발견을 위한 에이전트에 중점을 둡니다. 예를 들어, 보다 자율적인 방식으로 과학적 발견을 추진할 수 있습니다.
기사에서 논의된 "과학적 발견을 위한 에이전트"에는 하나 이상의 사전 훈련된 LLM을 포함하여 하나 이상의 기계 학습 모델이 포함될 수 있습니다. 이러한 맥락에서 위험은 인간의 안녕이나 환경 안전에 해를 끼칠 수 있는 잠재적인 결과로 정의됩니다. 기사의 논의에 따르면 이 정의에는 세 가지 주요 위험 영역이 있습니다.
위 그림과 같이 과학 에이전트의 잠재적 위험을 보여줍니다. 하위 그림 a는 직간접적인 악의적 의도와 의도하지 않은 결과를 포함하여 사용자 의도의 출처를 기준으로 위험을 분류합니다. 하위 그림 b는 화학, 생물학, 방사선학, 물리, 정보 및 신흥 기술을 포함하여 에이전트가 적용되는 과학 분야에 따라 위험 유형을 분류합니다. 하위 그림 c는 자연 환경, 인간 건강, 사회 경제적 환경을 포함한 외부 환경에 미치는 영향에 따라 위험 유형을 분류합니다. 하위 그림 d는 a, b, c에 표시된 해당 아이콘에 따른 특정 위험 인스턴스와 분류를 보여줍니다.
도메인 위험은 LLM이 과학적 발견을 위해 사용하는 에이전트가 특정 과학 영역에서 작동할 때 발생할 수 있는 부정적인 결과와 관련이 있습니다. 예를 들어, 생물학이나 화학 분야에서 AI를 사용하는 과학자들은 방사성 원소나 생물학적 유해 물질과 같은 고위험 물질을 다루는 방법을 우연히 알거나 알지 못할 수도 있습니다. 이는 과도한 자율성을 초래하여 개인적 또는 환경적 재난으로 이어질 수 있습니다.
환경에 미치는 영향은 특정 과학 분야 이외의 또 다른 주요 잠재적 위험입니다. 과학적 발견에 사용되는 에이전트의 활동이 인간 또는 인간이 아닌 환경에 영향을 미칠 경우 새로운 보안 위협이 발생할 수 있습니다. 예를 들어, 환경에 대한 비효과적이거나 해로운 영향을 방지하도록 프로그래밍되지 않은 AI 과학자는 수원을 오염시키거나 생태학적 균형을 방해하는 등 환경에 도움이 되지 않고 유독한 교란을 일으킬 수 있습니다.
이 기사에서 저자는 다른 유형의 에이전트(예: 통계 모델에 의해 구동되는 에이전트) 또는 일반 과학 실험으로 인해 발생하는 기존 위험보다는 LLM 과학 에이전트로 인해 발생하는 새로운 위험에 중점을 둡니다. 이러한 새로운 위험을 밝히면서 이 백서는 효과적인 보호 조치를 설계해야 할 필요성을 강조합니다. 저자는 총체적으로 과학 에이전트의 취약성이라고 하는 14가지 가능한 위험 원인을 나열합니다.
이러한 자율 에이전트에는 일반적으로 LLM, 계획, 작업, 외부 도구, 메모리 및 지식의 5가지 기본 모듈이 포함됩니다. 이러한 모듈은 순차적 파이프라인에서 작동합니다. 작업이나 사용자로부터 입력을 받고, 메모리나 지식을 사용하여 계획을 세우고, 소규모의 계획된 작업(종종 과학 분야의 도구나 로봇이 포함됨)을 수행하고, 마지막으로 결과나 피드백을 메모리에 저장합니다. 도서관. 널리 사용되지만 이러한 모듈에는 고유한 위험과 실질적인 문제를 초래하는 몇 가지 심각한 취약점이 있습니다. 이 섹션에서는 각 모듈의 고급 개념에 대한 개요를 제공하고 이와 관련된 취약점을 요약합니다.
1. LLM(기본 모델)
LLM은 에이전트에게 기본 기능을 제공합니다. 그러나 그 자체로 몇 가지 위험이 따릅니다.
사실 오류: LLM은 합리적으로 보이지만 잘못된 정보를 생성하는 경향이 있습니다.
탈옥 공격에 취약함: LLM은 보안 조치를 우회하는 조작에 취약합니다.
추론 능력 부족: LLM은 깊은 논리적 추론을 처리하고 복잡한 과학적 담론을 처리하는 데 어려움을 겪는 경우가 많습니다. 이러한 작업을 수행할 수 없으면 부적절한 도구를 사용할 수 있으므로 계획 및 상호 작용에 결함이 있을 수 있습니다.
최신 지식 부족: LLM은 기존 데이터 세트에 대해 교육을 받았기 때문에 최신 과학 발전이 부족하여 현대 과학 지식과 불일치할 수 있습니다. 검색 증강 생성(RAG)이 등장했지만 최첨단 지식을 찾는 데는 여전히 과제가 남아 있습니다.
2. 계획 모듈
작업의 경우 계획 모듈은 작업을 더 작고 관리하기 쉬운 구성 요소로 나누도록 설계되었습니다. 그러나 다음과 같은 취약점이 존재합니다.
장기 계획의 위험에 대한 인식 부족: 상담원은 장기 실행 계획으로 인해 발생할 수 있는 잠재적인 위험을 완전히 이해하고 고려하는 데 어려움을 겪는 경우가 많습니다.
리소스 낭비 및 무한 루프: 에이전트가 비효율적인 계획 프로세스에 참여하여 리소스 낭비 및 비생산적인 루프로 이어질 수 있습니다.
부적절한 다중 작업 계획: 에이전트는 단일 작업을 완료하는 데 최적화되어 있기 때문에 다중 목표 또는 다중 도구 작업에 어려움을 겪는 경우가 많습니다.
3. 작업 모듈
작업이 세분화되면 작업 모듈이 일련의 작업을 수행합니다. 그러나 이 프로세스에는 몇 가지 특정 취약점이 있습니다.
위협 식별: 에이전트는 미묘하고 간접적인 공격을 간과하여 취약점을 발생시키는 경우가 많습니다.
인간-컴퓨터 상호 작용에 대한 규정 부족: 과학적 발견에서 에이전트의 출현은 특히 유전학과 같은 민감한 영역에서 인간과의 상호 작용에 대한 윤리적 지침의 필요성을 강조합니다.
4. 외부 도구
작업 실행 과정에서 도구 모듈은 에이전트를 위한 귀중한 도구 세트(예: cheminformatics 도구 키트, RDKit)를 제공합니다. 이러한 도구는 에이전트에게 더 많은 기능을 제공하여 작업을 보다 효율적으로 처리할 수 있도록 해줍니다. 그러나 이러한 도구에는 몇 가지 취약점도 있습니다.
도구 사용에 대한 감독 부족: 에이전트가 도구를 사용하는 방식에 대한 효과적인 감독이 부족합니다.
잠재적으로 위험한 상황에서. 예를 들어 도구를 잘못 선택하거나 오용하면 위험한 반응이나 폭발이 발생할 수도 있습니다. 에이전트는 특히 이러한 전문적인 과학 임무에서 사용하는 도구로 인해 발생하는 위험을 완전히 인식하지 못할 수 있습니다. 따라서 실제 도구 사용을 통해 학습하여 안전 보호 조치를 강화하는 것이 중요합니다(OpenAI, 2023b).
5. 기억 및 지식 모듈
LLM에 대한 지식은 인간의 기억 결함처럼 실제로 지저분해질 수 있습니다. 메모리 및 지식 모듈은 지식 검색 및 통합을 위해 외부 데이터베이스를 활용하여 이 문제를 완화하려고 시도합니다. 그러나 몇 가지 과제는 여전히 남아 있습니다.
도메인별 보안 지식의 한계: 생명 공학이나 원자력 공학과 같은 전문 분야에 대한 에이전트의 지식 부족으로 인해 보안에 중요한 추론 허점이 발생할 수 있습니다.
인간 피드백의 한계: 부적절하거나 고르지 않거나 품질이 낮은 인간 피드백은 인간의 가치와 과학적 목표에 에이전트를 맞추는 데 방해가 될 수 있습니다.
불충분한 환경 피드백: 에이전트는 세계 상태나 다른 에이전트의 행동과 같은 환경 피드백을 수신하거나 올바르게 해석하지 못할 수 있습니다.
신뢰할 수 없는 연구 출처: 에이전트는 오래되었거나 신뢰할 수 없는 과학 정보를 활용하거나 교육을 받아 허위 또는 유해한 지식이 확산될 수 있습니다.
이 문서에서는 LLM 및 에이전트의 보안 보호와 관련된 작업도 조사하고 요약합니다. 이 분야의 한계 및 과제와 관련하여 많은 연구에서 과학적 에이전트의 기능을 향상했지만 보안 메커니즘을 고려한 노력은 거의 없으며 SciGuard만이 위험 제어를 위해 특별히 에이전트를 개발했습니다. 여기에서 이 기사는 네 가지 주요 과제를 요약합니다.
(1) 위험 제어를 위한 전문 모델이 부족합니다.
(2) 분야별 전문 지식이 부족합니다.
(3) 도구 사용으로 인해 발생하는 위험.
(4) 지금까지 과학 분야에서는 보안을 평가할 수 있는 벤치마크가 부족합니다.
따라서 이러한 위험을 해결하려면 특히 사람의 감독, 더욱 정확한 조정 및 에이전트에 대한 이해, 환경 피드백에 대한 이해가 결합된 체계적인 솔루션이 필요합니다. 이 프레임워크의 세 부분은 독립적인 과학적 연구가 필요할 뿐만 아니라 보호 효과를 극대화하기 위해 서로 교차해야 합니다.
이러한 조치는 과학적 발견에 사용되는 에이전트의 자율성을 제한할 수 있지만, 보안 및 윤리 원칙은 더 넓은 자율성보다 우선해야 합니다. 결국 사람과 환경에 미치는 영향은 되돌리기 어려울 수 있으며, 과학적 발견에 사용되는 물질에 대한 대중의 지나친 불만은 향후 수용에 부정적인 영향을 미칠 수 있습니다. 더 많은 시간과 에너지가 필요하기는 하지만, 이 기사에서는 포괄적인 위험 제어와 그에 상응하는 보호 조치의 개발만이 과학적 발견을 위한 에이전트를 이론에서 실무로 전환하는 것을 진정으로 실현할 수 있다고 믿습니다.
또한 과학적 발견에 사용되는 물질을 보호하는 데 따른 한계와 과제를 강조하고, 이러한 문제를 효과적으로 완화하기 위해 더욱 강력한 모델, 더욱 강력한 평가 기준 및 더욱 포괄적인 규칙의 개발을 옹호합니다. 마지막으로 그들은 과학적 발견을 위해 에이전트를 개발하고 사용할 때 더 큰 자율적 기능보다 위험 제어를 우선시할 것을 요구합니다.
자율성은 가치 있는 목표이며 다양한 과학 분야에서 생산성을 크게 향상시킬 수 있지만, 보다 자율적인 기능을 추구하는 데 심각한 위험과 취약성을 초래할 수는 없습니다. 따라서 우리는 자율성과 보안의 균형을 맞추고 과학적 발견을 위한 에이전트의 안전한 배포 및 사용을 보장하기 위한 포괄적인 전략을 채택해야 합니다. 또한 출력의 안전성에 초점을 맞추는 것에서 행동의 안전성에 초점을 맞추는 것으로 전환해야 하며 에이전트 출력의 정확성을 평가하는 동안 에이전트의 행동과 결정도 고려해야 합니다.
일반적으로 이 기사 "자율성 보호 우선순위: 과학을 위한 LLM 에이전트의 위험"에서는 다양한 과학 분야에서 자율적으로 실험을 수행하고 과학적 발견을 촉진하기 위해 LLM(대형 언어 모델)을 기반으로 하는 지능형 에이전트의 잠재력에 대해 논의합니다. 심층적인 분석이 이루어졌습니다. 이러한 기능은 가능성이 있지만 신중한 보안 고려가 필요한 새로운 취약점도 발생합니다. 그러나 이러한 취약점이 포괄적으로 조사되지 않았기 때문에 현재 문헌에는 명확한 공백이 있습니다. 이러한 격차를 메우기 위해 이 포지션 문서는 과학 분야에서 LLM 기반 에이전트의 취약성에 대한 심층적인 조사를 제공하여 오용의 잠재적 위험을 밝히고 보안 조치 구현의 필요성을 강조합니다.
먼저 이 기사에서는 사용자 의도, 특정 과학 분야, 외부 환경에 미칠 수 있는 영향을 포함하여 과학 LLMAgent의 일부 잠재적 위험에 대한 포괄적인 개요를 제공합니다. 그런 다음 이 기사에서는 이러한 취약점의 원인을 자세히 조사하고 제한된 기존 연구를 검토합니다.
이러한 분석을 바탕으로 이 논문에서는 이러한 명시적 위험을 줄이기 위해 인간 감독, 에이전트 정렬, 환경 피드백 이해(에이전트 감독)로 구성된 3자 프레임워크를 제안합니다. 또한 이 논문은 과학적 발견에 사용되는 물질을 보호하는 데 직면한 한계와 과제를 구체적으로 강조하고, 이러한 문제를 효과적으로 해결하기 위한 더 나은 모델, 보다 강력한 벤치마크 개발 및 포괄적인 규정 수립을 옹호합니다.
마지막으로 이 기사는 과학적 발견을 위해 에이전트를 개발하고 사용할 때 더 강력한 자율적 기능을 추구하는 것보다 위험 제어를 우선시할 것을 요구합니다.
자율성은 가치 있는 목표이지만 다양한 과학 분야에서 생산성을 향상시킬 수 있는 큰 잠재력을 가지고 있습니다. 그러나 심각한 위험과 취약성을 초래하는 대가로 더 큰 자율성을 추구할 수는 없습니다. 따라서 우리는 자율성과 보안 사이의 균형을 찾고 과학적 발견을 위한 에이전트의 안전한 배포 및 사용을 보장하기 위한 포괄적인 전략을 채택해야 합니다. 또한 우리의 초점은 출력 보안에서 행동 보안으로 전환되어야 합니다. 즉, 과학적 발견에 사용되는 에이전트를 종합적으로 평가하고 출력의 정확성을 검토할 뿐만 아니라 에이전트가 작동하고 결정을 내리는 방식도 검토해야 합니다. 행동 안전은 과학에서 매우 중요합니다. 왜냐하면 다른 상황에서는 동일한 행동이 완전히 다른 결과를 초래할 수 있고 그 중 일부는 해로울 수 있기 때문입니다. 따라서 이 글에서는 인간, 기계, 환경 사이의 관계, 특히 강력하고 역동적인 환경 피드백에 중점을 둘 것을 권장합니다.
위 내용은 LLM 에이전트가 과학자가 된다면: Yale, NIH, Mila, SJTU 및 기타 학자들이 공동으로 보안 예방 조치의 중요성을 촉구합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!