>기술 주변기기 >일체 포함 >Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.

Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.

WBOY
WBOY앞으로
2023-09-23 09:01:011338검색
최근 푸단대학교 자연어 처리팀(FudanNLP)은 LLM 기반 에이전트에 대한 리뷰 논문을 출시했습니다. 전체 텍스트는 86페이지에 달하며 600개 이상의 참고 자료가 있습니다! 저자는 AI Agent의 역사를 시작으로 LLM 기반 Agent의 배경, 구성, 적용 시나리오, 최근 주목받고 있는 Agent 사회 등 대규모 언어 모델을 기반으로 지능형 Agent의 현황을 종합적으로 정리했다. 주목. 동시에 저자들은 관련 분야의 향후 개발 동향에 큰 가치가 있는 Agent와 관련된 유망하고 공개된 이슈에 대해 논의했습니다.

Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.

    문서 링크: https://arxiv.org/pdf/2309.07864.pdf
  • LLM 기반 에이전트 문서 목록: https://github.com/WooooDyy/LLM-Agent-Paper- List

팀원들은 각 관련 논문에 대해 "한 문장 요약"도 추가할 예정입니다. Star Warehouse에 오신 것을 환영합니다.

연구배경

오랫동안 연구자들은 인간 수준과 동등하거나 그 이상인 일반
인공지능
(Artificial General Intelligence, AGI)을 추구해 왔습니다. 1950년대 초 앨런 튜링(Alan Turing)은 "지능"의 개념을 인공 개체로 확장하고 유명한 튜링 테스트를 제안했습니다. 이러한 인공 지능 엔터티는 흔히 에이전트(에이전트*)라고 불립니다. "대리인"이라는 개념은 철학에서 유래되었으며 욕망, 신념, 의도 및 행동을 취할 수 있는 능력을 가진 실체를 설명합니다. 인공 지능 분야에서 이 용어는 자율성, 반응성, 긍정성 및 사교성의 특성을 가진 지능적인 개체라는 새로운 의미를 갖게 되었습니다.

* 에이전트 용어의 중국어 번역에 대해서는 일부 학자들이 이를 에이전트, 행위자, 에이전트 또는 지능형 에이전트로 번역합니다. 에이전트에게.

그 이후로 에이전트 설계는 인공지능 커뮤니티의 초점이 되었습니다. 그러나 과거의 작업은 주로 상징적 추론이나 특정 작업(체스, 바둑 등)의 숙달과 같은 에이전트의 특정 능력을 향상시키는 데 중점을 두었습니다. 이러한 연구는 지식 기억, 장기 계획, 효과적인 일반화 및 효율적인 상호 작용과 같은 모델에 내재된 일반 기능의 개발을 무시하면서 알고리즘 설계 및 훈련 전략에 더 중점을 둡니다.
모델의 고유 기능을 향상시키는 것이 지능형 에이전트의 추가 개발을 촉진하는 핵심 요소임이 밝혀졌습니다.

대형 언어 모델(LLM)의 출현은 지능형 에이전트의 추가 개발에 대한 희망을 가져옵니다. NLP에서 AGI까지의 개발 경로를 말뭉치, 인터넷, 인식, 구체화, 사회적 속성의 5가지 수준으로 나눈다면, 현재의 대규모 언어 모델은 인터넷 규모의 텍스트 입력 및 출력을 갖춘 두 번째 수준에 도달했습니다. 이를 바탕으로 LLM 기반 에이전트에게 인식 공간과 행동 공간이 주어지면 세 번째와 네 번째 수준에 도달하게 됩니다. 또한, 여러 에이전트가 상호 작용하고 협력하여 보다 복잡한 작업을 해결하거나 현실 세계의 사회적 행동을 반영할 때 에이전트 사회라는 5단계에 도달할 가능성이 있습니다.

一 지능형 주체로 구성된 조화로운 사회에 대한 작가의 상상도 여기에 동참할 수 있다. 이 장면은 "원신 임팩트"의 바다 등불 축제에서 가져온 것입니다.


에이전트의 탄생
대형 모델의 축복을 받은 지능형 에이전트는 어떤 모습일까요? 다윈의 "적자생존" 법칙에 영감을 받아 저자들은 대규모 모델을 기반으로 지능형 에이전트를 위한 일반적인 프레임워크를 제안했습니다. 사람이 사회에서 살아남으려면 환경에 적응하는 법을 배워야 하므로 인지 능력이 있어야 하고, 외부 세계의 변화를 인지하고 대응할 수 있어야 합니다. 마찬가지로 지능형 에이전트의 프레임워크도
제어 터미널(Brain), 인식 터미널(Perception) 및 작업 터미널(Action)의 세 부분으로 구성됩니다.

    Control
  • : 일반적으로 LLM으로 구성되며 지능형 에이전트의 핵심입니다. 기억과 지식을 저장할 수 있을 뿐만 아니라 정보 처리, 의사 결정 등 필수적인 기능도 수행합니다. 지능 에이전트의 일반화와 전달성을 반영하여 추론과 계획의 과정을 제시하고 알려지지 않은 작업에 잘 대처할 수 있습니다.
  • Perception end
  • : 지능형 에이전트의 인식 공간을 순수 텍스트에서 텍스트, 시각, 청각 등의 다중 모드 필드로 확장하여 에이전트가 주변 환경에서 정보를 보다 효과적으로 획득하고 활용할 수 있도록 합니다.
  • 모바일 측면
  • : 에이전트에는 일반 텍스트 출력 외에도 도구를 구현하고 사용할 수 있는 기능이 부여되어 환경 변화에 더 잘 적응하고 피드백을 통해 환경과 상호 작용하며 심지어 환경을 형성할 수도 있습니다. .
S LLM-BASED AGENT의 개념적 프레임워크는 제어 터미널, 인식 및 작업 종료의 세 가지 구성 요소를 포함합니다.
저자는 LLM 기반 에이전트의 워크플로를 설명하기 위해 예를 사용합니다. 인간이 비가 올지 묻는 경우 인식 종료(Perception)는 지침을 LLM이 이해할 수 있는 표현으로 변환합니다. 그러면 제어단말(브레인)은 현재 날씨와 인터넷상의 일기예보를 바탕으로 추론과 행동계획을 시작한다. 마지막으로 Action이 응답하여 인간에게 우산을 건네줍니다.

위의 과정을 반복함으로써 지능형 에이전트는 지속적으로 피드백을 얻고 환경과 상호작용할 수 있습니다.

제어 터미널: Brain

지능형 에이전트의 핵심 구성 요소로서 저자는 다섯 가지 측면에서 그 기능을 소개합니다.

자연 언어 상호 작용:
언어 매체입니다. 풍부한 정보를 담고 있는 커뮤니케이션. LLM의 강력한 자연어 생성 및 이해 기능 덕분에 지능형 에이전트는 자연어를 통해 여러 라운드 동안 외부 세계와 상호 작용하여 목표를 달성할 수 있습니다. 구체적으로 두 가지 측면으로 나눌 수 있습니다.

고품질 텍스트 생성: 수많은 평가 실험을 통해 LLM이 부드럽고 다양하며 참신하고 제어 가능한 텍스트를 생성할 수 있음을 보여줍니다. 개별 언어에서는 성적이 좋지 않지만 전반적으로 좋은 다국어 능력이 가능합니다.

    함의 이해: 언어는 직관적으로 표현된 내용 외에도 화자의 의도, 선호도 등의 정보를 전달할 수도 있습니다. 이는 에이전트가 보다 효율적으로 의사소통하고 협력하는 데 도움이 된다는 의미이며 대형 모델은 이미 이와 관련하여 잠재력을 보여주었습니다.
  • 지식:
대규모 코퍼스를 기반으로 훈련된 LLM은 엄청난 양의 지식을 저장할 수 있는 능력이 있습니다. 언어 지식 외에도 상식 지식, 전문 기술 지식은 LLM 기반 에이전트의 중요한 구성 요소입니다.

LLM 자체에는 여전히 지식 만료, 환각 등의 문제가 있지만 일부 기존 연구는 지식 편집이나 외부 지식 베이스 호출과 같은 방법을 통해 어느 정도 완화될 수 있습니다.

메모리:
이 글의 프레임워크에서 메모리 모듈(메모리)은 에이전트의 과거 관찰, 사고 및 행동 순서를 저장합니다. 특정 기억 메커니즘을 통해 에이전트는 이전 전략을 효과적으로 반영하고 적용할 수 있으므로 과거 경험을 활용하여 익숙하지 않은 환경에 적응할 수 있습니다.

메모리 기능을 향상시키는 데 일반적으로 사용되는 세 가지 방법이 있습니다.

백본 아키텍처의 길이 제한 확장: Transformers의 고유한 시퀀스 길이 제한 문제 개선.

    요약: 메모리를 요약하여 메모리에서 주요 세부정보를 추출하는 에이전트의 능력을 향상합니다.
  • 압축 메모리(Compressing): 벡터나 적절한 데이터 구조를 사용하여 메모리를 압축하면 메모리 검색 효율성을 향상시킬 수 있습니다.
  • 또한, 적절한 콘텐츠를 검색해야만 에이전트가 가장 관련성이 높고 정확한 정보에 접근할 수 있습니다.

추론 및 계획:
추론 능력은 지능형 에이전트가 의사 결정 및 분석과 같은 복잡한 작업을 수행하는 데 매우 중요합니다. LLM의 경우 CoT(사고 사슬)로 대표되는 일련의 유도 방법입니다. 계획은 큰 문제에 직면할 때 일반적으로 사용되는 전략입니다. 이는 상담원이 자신의 생각을 정리하고, 목표를 설정하고, 해당 목표를 달성하기 위한 단계를 식별하는 데 도움이 됩니다. 특정 구현에서 계획에는 다음 두 단계가 포함될 수 있습니다.

계획 수립: 에이전트는 복잡한 작업을 보다 관리하기 쉬운 하위 작업으로 나눕니다. 예를 들어 일회성 분해 후 순차적 실행, 단계별 계획 및 실행, 다중 경로 계획 및 최적 경로 선택 등이 있습니다. 전문 지식이 필요한 일부 시나리오에서는 에이전트를 도메인별 Planner 모듈과 통합하여 기능을 향상시킬 수 있습니다.

    계획 반영: 계획을 세운 후 이를 반영하고 그 강점과 약점을 평가할 수 있습니다. 이러한 반영은 일반적으로 내부 피드백 메커니즘을 사용하고, 인간과의 상호 작용을 통해 피드백을 얻고, 환경으로부터 피드백을 얻는 등 세 가지 측면에서 비롯됩니다.
  • 전이성 및 일반화:
세계 지식을 갖춘 LLM은 지능형 에이전트에 강력한 마이그레이션 및 일반화 기능을 부여합니다. 좋은 에이전트는 정적인 지식 기반이 아니지만 동적 학습 기능도 갖추고 있어야 합니다.

알 수 없는 작업에 대한 일반화: 모델 크기와 훈련 데이터가 증가함에 따라 LLM은 알 수 없는 작업을 해결하기 위해 등장합니다. 놀라운 능력을 가지고 있습니다.지침에 따라 미세 조정된 대형 모델은 제로 샷 테스트에서 좋은 성능을 발휘하여 많은 작업에서 전문가 모델만큼 좋은 결과를 얻습니다.
  • 상황 내 학습: 대형 모델은 상황에 맞는 소수의 예를 유추하여 학습할 수 있을 뿐만 아니라 이 기능을 텍스트 이상의 다중 모드 장면으로 확장하여 에이전트를 위한 실제 응용 프로그램을 제공합니다. 더 많은 가능성.
  • 지속적 학습: 지속적인 학습의 주요 과제는 치명적인 망각입니다. 즉, 모델이 새로운 작업을 학습할 때 이전 작업에 대한 지식을 쉽게 잃습니다. 전문 도메인의 지능형 에이전트는 일반 도메인의 지식을 잃지 않도록 노력해야 합니다.

  • Perception end: Perception

    인간은 다양한 방식으로 세상을 인식하므로 연구자들은 LLM 기반 에이전트에 대해 동일한 기대치를 갖습니다. 다중 모드 인식은 작업 환경에 대한 상담원의 이해를 심화하고 다양성을 크게 향상시킬 수 있습니다.

    텍스트 입력: LLM의 가장 기본적인 능력이므로 여기서는 자세히 설명하지 않겠습니다.

    시각적 입력: LLM 자체에는 시각적 인식 기능이 없으며 개별 텍스트 콘텐츠만 이해할 수 있습니다. 그리고 시각적 입력에는 일반적으로 객체의 속성, 공간 관계, 장면 레이아웃 등을 포함하여 세계에 대한 많은 정보가 포함됩니다. 일반적인 방법은 다음과 같습니다.

    • 시각적 입력을 해당 텍스트 설명으로 변환(이미지 캡션): LLM이 직접 이해할 수 있으며 해석 가능성이 높습니다.
    • 시각적 정보 인코딩 및 표현: 인식 모듈은 시각적 기본 모델 + LLM 패러다임으로 구성되며, 모델은 엔드투엔드 방식으로 학습할 수 있는 정렬 작업을 통해 다양한 양식의 내용을 이해합니다.

    청각 입력: 청각은 인간의 지각에도 중요한 부분입니다. LLM에는 탁월한 도구 호출 기능이 있으므로 에이전트가 LLM을 제어 허브로 사용하여 기존 도구 세트 또는 전문가 모델을 계단식 방식으로 호출하여 오디오 정보를 인식할 수 있다는 것이 직관적인 아이디어입니다. 또한 오디오는 스펙트로그램을 통해 시각적으로 표현할 수도 있습니다. 스펙트로그램은 평면 이미지로 사용되어 2D 정보를 표시할 수 있으므로 일부 시각적 처리 방법을 음성 필드로 전송할 수 있습니다.

    기타 입력: 실제 세계의 정보는 텍스트, 시각, 청각 그 이상입니다. 저자는 미래에 지능형 에이전트가 촉각, 후각 및 기타 기관과 같은 더 풍부한 인식 모듈을 갖추고 대상 개체의 더 풍부한 속성을 얻을 수 있기를 바라고 있습니다. 동시에 에이전트는 주변 환경의 온도, 습도, 밝기를 명확하게 감지하고 환경을 더 잘 인식하는 조치를 취할 수 있습니다.

    또한 에이전트는 LiDAR, GPS 및 관성 측정 장치와 같은 성숙한 인식 모듈을 사용하여 더 넓은 전체 환경에 대한 인식을 도입할 수도 있습니다.

    Action end: Action

    뇌가 분석과 의사 결정을 내린 후 에이전트도 환경에 적응하거나 변화하기 위한 조치를 취해야 합니다.

    텍스트 출력: LLM의 대부분의 기본 능력은 여기서 설명되지 않습니다.

    도구 사용: LLM은 뛰어난 지식 보유량과 전문 역량을 갖추고 있지만 특정 문제에 직면하면 견고성 문제 및 환각과 같은 일련의 문제가 발생할 수 있습니다. 동시에, 도구는 사용자 능력의 확장으로서 전문성, 사실성, 해석 가능성과 같은 측면에서 도움을 제공할 수 있습니다. 예를 들어, 계산기를 사용하여 수학 문제를 풀 수 있고, 검색 엔진을 사용하여 실시간 정보를 검색할 수 있습니다.

    또한 도구는 지능형 에이전트의 작업 공간을 확장할 수도 있습니다. 예를 들어 음성 생성, 이미지 생성 등 전문가 모델을 호출하여 다중 모드 작업을 얻을 수 있습니다. 따라서 에이전트를 우수한 도구 사용자로 만드는 것, 즉 도구를 효과적으로 사용하는 방법을 배우는 것은 매우 중요하고 유망한 방향입니다.

    현재 주요 도구 학습 방법에는 시연을 통한 학습과 피드백을 통한 학습이 있습니다. 또한, 메타러닝, 코스러닝 등을 활용하여 에이전트에게 다양한 도구를 활용하는 일반화 기능을 제공할 수도 있습니다. 한 단계 더 나아가 지능형 에이전트는 도구를 "자체적으로" 만드는 방법을 더 많이 학습하여 자율성과 독립성을 높일 수 있습니다.

    구현된 작업: 구현은 환경과 상호 작용하는 동안 환경을 이해하고, 변환하며, 자체 상태를 업데이트하는 에이전트의 능력을 나타냅니다. 구체화된 행동(Embodied Action)은 가상 지능과 물리적 현실 사이의 다리로 간주됩니다.

    전통적인 강화 학습 기반 에이전트는 표본 효율성, 일반화 및 복잡한 문제 추론에 한계가 있는 반면, LLM 기반 에이전트는 대형 모델에 대한 풍부한 고유 지식을 도입하여 구체화된 에이전트가 인간처럼 행동할 수 있도록 합니다. 물리적 환경을 적극적으로 감지하고 영향을 줍니다. . 작업에서 에이전트의 자율성 정도 또는 작업의 복잡성에 따라 다음과 같은 원자적 작업이 있을 수 있습니다.

    • 관찰은 지능형 에이전트가 환경에서 자신의 위치를 ​​찾고 객체를 인식하는 데 도움이 될 수 있습니다.
    • 조작이란 특정 잡기, 밀기 및 기타 작업 작업을 완료하는 것입니다.
    • 탐색에는 지능형 에이전트가 작업 목표에 따라 위치를 변경하고 상태를 업데이트해야 합니다. 환경정보에.

    이러한 원자적 작업을 결합하여 에이전트는 더 복잡한 작업을 완료할 수 있습니다. 예를 들어 "주방에 있는 수박이 그릇보다 크나요?"와 같은 QA 작업을 구체화했습니다. 이 문제를 해결하기 위해 에이전트는 주방으로 이동하여 두 주방의 크기를 관찰한 후 답을 도출해야 합니다.

    물리적 세계 하드웨어의 높은 비용과 구현된 데이터 세트의 부족으로 인해 구현된 행동에 대한 현재 연구는 여전히 게임 플랫폼 "Minecraft"와 같은 가상 샌드박스 환경에 주로 초점을 맞추고 있습니다. 따라서 저자들은 한편으로는 현실에 더 가까운 작업 패러다임과 평가 기준을 기대하는 한편, 관련 데이터 세트의 효율적인 구축에 대한 더 많은 탐구가 필요합니다.

    에이전트 실제: 다양한 응용 시나리오

    현재 LLM 기반 에이전트는 인상적인 다양성과 강력한 성능을 보여주었습니다. AutoGPT, MetaGPT, CAMEL, GPT Engineer와 같은 친숙한 애플리케이션 사례가 전례 없는 속도로 급성장하고 있습니다.

    특정 애플리케이션을 소개하기 전에 저자는 Agent in Practice의 설계 원칙에 대해 논의했습니다.

    1. 사용자가 일상적인 작업과 반복적인 노동에서 벗어나 인간의 작업 부담을 줄이고 해결 효율성을 향상시킬 수 있도록 지원합니다.
    2. 사용자는 더 이상 명시적인 하위 수준 지시를 내릴 필요가 없으며 완전히 자율적으로 문제를 분석, 계획 및 해결할 수 있습니다.
    3. 과학 해당 분야에서 잠재력을 최대한 발휘하고 혁신적이고 탐구적인 작업을 완료하세요.

    이를 바탕으로 에이전트 적용에는 세 가지 패러다임이 있을 수 있습니다. LLM 기반 에이전트의 세 가지 응용 프로그램 패러다임: 단일 에이전트, 다중 에이전트 및 인간-컴퓨터 상호 작용.

    Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.

    단일 에이전트 시나리오

    인간의 자연어 명령을 받아 일상 작업을 수행할 수 있는 지능형 에이전트는 현재 사용자들 사이에서 매우 인기가 높으며 실용 가치가 높습니다. 저자는 먼저 단일 지능형 에이전트의 애플리케이션 시나리오에서 다양한 애플리케이션 시나리오와 해당 기능에 대해 자세히 설명했습니다.

    이 기사에서 단일 지능형 에이전트의 적용은 다음 세 가지 수준으로 구분됩니다.
    的 단일 프록시의 적용 시나리오의 세 가지 수준: 작업 지향, 혁신 지향 및 수명 주기 지향.

      작업 중심
    • 배포에서 에이전트는 인간 사용자가 기본적인 일상 작업을 처리하도록 돕습니다. 기본적인 명령 이해, 작업 분해, 환경과 상호 작용하는 능력이 필요합니다. 구체적으로, 기존 업무 유형에 따라 실제 에이전트 적용은 시뮬레이션된 네트워크 환경과 시뮬레이션된 생활 시나리오로 나눌 수 있다.
    • 혁신 지향
    • 배포에서 에이전트는 최첨단 과학 분야에서 독립적인 탐구의 잠재력을 보여줄 수 있습니다. 본질적인 복잡성과 전문 분야의 훈련 데이터 부족으로 인해 지능형 에이전트 구축이 방해를 받고 있지만, 화학, 재료, 컴퓨터 등의 분야에서는 이미 많은 연구가 진행되고 있습니다.
    • 수명주기 중심 배포
    • 에서 에이전트는 열린 세상에서 새로운 기술을 지속적으로 탐색, 학습 및 사용하고 오랫동안 생존할 수 있는 능력을 갖습니다. 이 섹션에서 저자는 "Minecraft" 게임을 예로 들어 설명합니다. 게임 속 생존 도전은 현실 세계의 축소판으로 간주될 수 있기 때문에 많은 연구자들은 이를 에이전트의 포괄적인 기능을 개발하고 테스트하기 위한 고유한 플랫폼으로 사용해 왔습니다.

    다중 에이전트 시나리오
    1986년에 Marvin Minsky는 미래 지향적인 예측을 했습니다. The Society of Mind에서 그는 지능이 더 작은 기능별 에이전트의 상호 작용에서 발생한다고 주장하면서 새로운 지능 이론을 제안했습니다. 예를 들어, 일부 에이전트는 패턴 식별을 담당하고 다른 에이전트는 결정을 내리거나 솔루션을 생성하는 일을 담당할 수 있습니다.
    이 아이디어는 분산형 인공지능의 등장으로 구체적으로 구현되었습니다. 다중 에이전트 시스템(Multi-Agent System)은 주요 연구 주제 중 하나로 에이전트가 문제 해결을 위해 어떻게 효과적으로 조정하고 협력할 수 있는지에 주로 중점을 두고 있습니다. 이 글의 저자는 다중 에이전트 간의 상호 작용을 다음 두 가지 형태로 분류합니다:

    Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.

    다중 에이전트 적용 시나리오의 두 가지 상호 작용 형태: 협력 상호 작용과 대결 상호 작용.

    협력적 상호 작용:
    실제 응용 분야에서 가장 널리 배포된 유형인 협력 에이전트 시스템은 작업 효율성을 효과적으로 향상시키고 공동으로 의사 결정을 향상시킬 수 있습니다. 구체적으로 저자는 협력의 형태에 따라 협력적 상호작용을 무질서한 협력과 질서 있는 협력으로 세분화한다.
    모든 주체가 자신의 견해와 의견을 자유롭게 표현하고 비순차적으로 협력하는 것을 무질서한 협력이라고 합니다.
    • 모든 에이전트가 조립 라인의 형태로 하나씩 자신의 의견을 표현하는 등 특정 규칙을 따르면 전체 협력 과정이 질서정연한데, 이를 질서 있는 협력이라고 합니다.
    • 적대적 상호 작용:
    지능 에이전트는 맞대응 방식으로 상호 작용합니다. 경쟁, 협상, 토론을 통해 에이전트는 틀릴 수 있는 원래의 신념을 버리고 자신의 행동이나 추론 과정에 대해 의미 있는 성찰을 수행하며, 이는 궁극적으로 전체 시스템의 응답 품질 향상으로 이어집니다.

    인간-컴퓨터 상호작용 시나리오
    인간-에이전트 상호작용은 이름에서 알 수 있듯이 인간과 협력하여 작업을 완료하는 지능형 에이전트입니다. 한편으로는 에이전트의 동적 학습 능력이 통신을 통해 지원되어야 하는 반면, 현재 에이전트 시스템은 아직 해석성이 부족하고 보안, 합법성 등의 문제가 있을 수 있으므로 사람의 참여가 필요합니다. 그리고 감독.
    저자는 논문에서 인간-에이전트 상호작용을 다음 두 가지 모드로 나눕니다.
    的 인간-기계 상호 작용 장면의 두 가지 모드: 강사-실행자 모드 대 Equal PARTNERSHIP 모드.
      강사-실행자 모드
    • : 인간은 강사 역할을 하며 지침과 피드백을 제공하고 에이전트는 실행자 역할을 하며 지침에 따라 점진적으로 조정하고 최적화합니다. 이 모델은 교육, 의료, 비즈니스 및 기타 분야에서 널리 사용되었습니다.
    • 동등한 파트너십 모드:
    • 일부 연구에서는 에이전트가 인간과의 의사소통에서 공감을 나타내거나 동등하게 작업 실행에 참여할 수 있다는 것을 관찰했습니다. 지능형 에이전트는 일상생활에 적용할 수 있는 가능성을 보여주며 향후 인류사회에 통합될 것으로 기대된다.

    에이전트 사회: 성격에서 사회성까지
    연구자들은 오랫동안 샌드박스 게임 '심즈'부터 '메타'에 이르기까지 '상호작용형 인공 사회' 구축을 꿈꿔왔습니다. 시뮬레이션 사회에 대한 사람들의 정의인 "우주"는 환경 + 환경에서 생활하고 상호 작용하는 개인으로 요약될 수 있습니다.
    기사에서 저자는 다이어그램을 사용하여 에이전트 사회의 개념적 프레임워크를 설명합니다.
    念 대리인 사회의 개념적 틀은 대리인과 환경이라는 두 가지 주요 부분으로 구분됩니다.

    이 프레임워크에서 다음을 볼 수 있습니다.

      왼쪽 부분:
    1. 개인 수준에서 에이전트는 계획, 추론, 반영과 같은 다양한 내면화된 행동을 나타냅니다. . 또한 에이전트는 인지적, 정서적, 성격 차원을 포괄하는 본질적인 성격 특성을 나타냅니다.
    2. 중간 부분:
    3. 단일 에이전트는 다른 개별 에이전트와 그룹을 구성하여 공동 협력 등의 그룹 행동을 공동으로 발휘할 수 있습니다.
    4. 오른쪽 부분:
    5. 환경은 가상 샌드박스 환경 또는 실제 물리적 세계의 형태일 수 있습니다. 환경 요소에는 인간 행위자와 다양한 사용 가능한 리소스가 포함됩니다. 단일 에이전트의 경우 다른 에이전트도 환경의 일부입니다.
    6. 전체 상호작용:
    7. 에이전트는 외부 환경을 감지하고 조치를 취함으로써 전체 상호작용 과정에 적극적으로 참여합니다.

    에이전트의 사회적 행동과 성격

    이 기사는 외부 행동과 내부 성격의 관점에서 사회에서 에이전트의 성과를 조사합니다.

    사회적 행동 :
    사회적 관점에서 행동은 개인과 집단의 두 가지 수준으로 나눌 수 있습니다.

    개인의 행동은 에이전트 자체의 운영과 발전의 기초를 형성합니다. 여기에는 지각으로 표현되는 입력, 행동으로 표현되는 출력, 에이전트 자신의 내면화된 행동이 포함됩니다.
    • 군집 행동은 둘 이상의 에이전트가 자발적으로 상호 작용할 때 발생하는 행동을 의미합니다. 여기에는 협력으로 대표되는 긍정적인 행동, 갈등으로 대표되는 부정적인 행동, 무리를 따르거나 지켜보는 등 중립적인 행동이 포함됩니다.

    성격:
    인지, 감정, 성격을 포함합니다. 인간이 사회화 과정을 통해 점차적으로 자신의 특성을 발전시키는 것처럼, 에이전트도 집단 및 환경과의 상호 작용을 통해 성격이 점진적으로 형성되는 소위 "인간과 같은 지능"을 나타냅니다.

    인지 능력: 에이전트가 지식을 획득하고 이해하는 과정을 다룹니다. 연구에 따르면 LLM 기반 에이전트는 일부 측면에서 인간과 유사한 심의 및 지능을 나타낼 수 있습니다.
    • 감성 지능: 기쁨, 분노, 슬픔, 기쁨과 같은 주관적인 감정과 감정 상태는 물론 동정심과 공감을 나타내는 능력도 포함됩니다.
    • 인격 묘사: LLM의 성격 특성을 이해하고 분석하기 위해 연구자들은 Big Five 성격 및 MBTI 테스트와 같은 성숙한 평가 방법을 사용하여 성격의 다양성과 복잡성을 탐구했습니다.

    사회의 운영 환경을 시뮬레이션합니다

    에이전트 사회는 독립적인 개인으로 구성될 뿐만 아니라 이들이 상호 작용하는 환경도 포함합니다. 환경은 에이전트가 인식하고, 행동하고, 상호 작용하는 방식에 영향을 미칩니다. 결과적으로 에이전트는 자신의 행동과 결정을 통해 환경 상태를 변경합니다. 개별 에이전트의 경우 환경에는 다른 자율 에이전트, 사람 및 사용 가능한 리소스가 포함됩니다.
    여기에서 저자는 세 가지 유형의 환경을 탐색합니다.

    텍스트 기반 환경:
    LLM은 입력 및 출력 형식으로 주로 언어에 의존하므로 텍스트 기반 환경은 상담원에게 가장 자연스럽습니다. 운영 플랫폼. 사회적 현상과 상호 작용은 단어를 통해 설명되며, 텍스트 환경은 의미론적 배경 지식을 제공합니다. 에이전트는 이러한 텍스트 세계에 존재하며 인식하고 추론하고 행동하기 위해 텍스트 리소스에 의존합니다.

    가상 샌드박스 환경:
    컴퓨터 분야에서 샌드박스는 통제되고 격리된 환경을 의미하며 소프트웨어 테스트 및 바이러스 분석에 자주 사용됩니다. 에이전트 사회의 가상 샌드박스 환경은 사회적 상호 작용 및 행동 시뮬레이션을 시뮬레이션하기 위한 플랫폼입니다. 주요 기능은 다음과 같습니다.

    시각화: 간단한 2D 그래픽 인터페이스 또는 복잡한 3D 모델링을 사용하여 세계를 표시할 수 있습니다. 시뮬레이션된 사회의 모든 측면을 직관적인 방식으로 묘사합니다.
    • 확장성: 다양한 시나리오(웹, 게임 등)를 구축하고 배포하여 다양한 실험을 수행할 수 있으며 에이전트가 탐색할 수 있는 넓은 공간을 제공합니다.

    실제 물리적 환경:
    물리적 환경은 에이전트가 관찰하고 행동하는 실제 객체와 공간으로 구성된 유형의 환경입니다. 이 환경은 풍부한 감각 입력(시각, 청각 및 공간)을 도입합니다. 가상 환경과 달리 물리적 공간에서는 상담원의 행동에 더 많은 요구 사항이 적용됩니다. 즉, 에이전트는 물리적 환경에 적응할 수 있어야 하며 실행 가능한 모션 제어를 생성해야 합니다.

    저자는 물리적 환경의 복잡성을 설명하기 위해 예를 들었습니다. 공장에서 로봇 팔을 작동하는 지능형 에이전트를 상상해 보세요. 로봇 팔을 작동할 때 다양한 재질의 물체가 손상되지 않도록 정밀한 힘 제어가 필요합니다. 또한 에이전트는 장애물을 피하고 로봇 팔의 이동 궤적을 최적화하기 위해 물리적 작업 공간을 탐색하고 시간에 맞춰 이동 경로를 조정해야 합니다.

    이러한 요구 사항은 물리적 환경에서 에이전트의 복잡성과 과제를 증가시킵니다.

    시뮬레이션, 시작하세요!

    기사에서 저자는 시뮬레이션된 사회는 개방적이고, 지속적이며, 상황에 따라 조직되어야 한다고 믿습니다. 개방성은 에이전트가 시뮬레이션된 사회에 자율적으로 들어가고 나갈 수 있게 하며, 지속성은 사회가 시간이 지남에 따라 발전하는 일관된 궤적을 갖는다는 것을 의미합니다. 조직은 시뮬레이션된 사회가 물리적 세계를 갖도록 보장합니다. 규칙이나 제한 같은 거죠.

    시뮬레이트 사회의 중요성과 관련하여 스탠포드 대학의 생성 에이전트 마을은 모든 사람에게 생생한 예를 제공합니다. 에이전트 사회는 그룹 지능 기능의 경계를 탐색하는 데 사용할 수 있습니다. 발렌타인 데이 파티를 조직했습니다. 소셜 네트워크를 시뮬레이션하여 커뮤니케이션 현상을 관찰하는 등 사회 과학 연구를 가속화하는 데에도 사용할 수 있습니다. 또한 윤리적 의사결정 시나리오를 시뮬레이션하여 에이전트 이면의 가치를 탐색하고, 정책이 사회에 미치는 영향을 시뮬레이션하여 의사결정을 지원하는 연구도 있습니다.

    또한 저자는 이러한 시뮬레이션이 유해한 사회적 현상과 편견, 과도한 의존 및 중독을 포함하되 이에 국한되지 않는 특정 위험을 가질 수도 있다고 지적합니다.

    미래 지향적 개방형 질문

    논문 끝부분에서 저자는 독자들이 다음과 같이 생각하도록 영감을 주는 몇 가지 미래 지향적 개방형 질문에 대해서도 논의합니다.

    지능형 에이전트 및 대규모 언어 모델 우리의 연구가 어떻게 서로를 홍보하고 함께 발전할 수 있습니까? 대형 모델은 언어 이해, 의사 결정 및 일반화 기능에서 강력한 잠재력을 보여 주었으며 에이전트 구성 프로세스에서 핵심 역할이 되었습니다. 또한 에이전트의 발전으로 인해 대형 모델에 대한 요구 사항이 높아졌습니다.

    LLM 기반 에이전트는 어떤 어려움과 걱정을 안겨줄까요? 지능형 에이전트가 실제로 실행될 수 있는지 여부는 실제 세계에 해를 끼치지 않도록 엄격한 보안 평가가 필요합니다. 저자는 불법 학대, 실업 위험, 인간 복지에 대한 영향 등과 같은 더 많은 잠재적인 위협을 요약합니다.

    규모 확장은 어떤 기회와 도전을 가져올까요? 시뮬레이션 사회에서는 개인 수를 늘리면 시뮬레이션의 신뢰성과 진정성이 크게 향상될 수 있습니다. 그러나 에이전트 수가 증가함에 따라 통신 및 메시지 전달 문제가 상당히 복잡해지고 정보 왜곡, 오해 또는 환각으로 인해 전체 시뮬레이션 시스템의 효율성이 크게 저하됩니다.

    LLM 기반 에이전트가 AGI로 향하는 적절한 경로인지 여부에 대한 인터넷 논쟁. 일부 연구자들은 GPT-4로 대표되는 대형 모델이 충분한 코퍼스로 훈련되었으며, 이를 기반으로 구축된 에이전트가 AGI의 문을 여는 열쇠가 될 가능성이 있다고 믿고 있습니다. 그러나 다른 연구자들은 자동 회귀 언어 모델링은 반응만 하기 때문에 실제 지능을 보여주지 못한다고 믿습니다. World Model과 같은 보다 완전한 모델링 방법은 AGI로 이어질 수 있습니다.

    군집 지능의 진화. 군집지능은 많은 사람의 의견을 모아 의사결정으로 전환하는 과정이다. 그런데, 단순히 에이전트 수를 늘리는 것만으로는 진정한 '지능'이 생산될 수 있을까요? 또한 지능형 에이전트 사회가 "그룹 사고"와 개인의 인지적 편견을 극복할 수 있도록 개별 에이전트를 조정하는 방법은 무엇입니까?

    AaaS(Agent as a Service). LLM 기반 에이전트는 대형 모델 자체보다 복잡하고 중소기업이나 개인이 로컬로 구축하기가 더 어렵기 때문에 클라우드 벤더는 지능형 에이전트를 서비스 형태로 구현하는 것을 고려할 수 있습니다. 서비스형. 다른 클라우드 서비스와 마찬가지로 AaaS는 사용자에게 높은 유연성과 주문형 셀프 서비스를 제공할 수 있는 잠재력을 가지고 있습니다.

    위 내용은 Fudan NLP 팀은 대규모 모델 에이전트에 대한 80페이지 개요를 발표하여 AI 에이전트의 현재 상황과 미래에 대한 개요를 하나의 기사로 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명:
    이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제