Rumah >Peranti teknologi >AI >Ejen yang boleh 'berevolusi secara bebas'? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka

Ejen yang boleh 'berevolusi secara bebas'? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka

王林
王林asal
2024-07-22 14:25:43423semak imbas
Ejen yang boleh berevolusi secara bebas? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang utama artikel ini adalah daripada Waveform Intelligence, Universiti Zhejiang, dan Universiti Beihang. Dalam kerja bersama, Zhou Wangchunshu ialah pengasas bersama dan CTO Waveform Intelligence, Ou Yixin ialah pelajar ijazah sarjana tahun kedua di Universiti Zhejiang, dan Ding Shengwei ialah pelajar sarjana muda tahun keempat di Universiti Beihang. Penulis artikel yang sepadan ialah Zhou Wang Chunshu dan Jiang Yuchen ialah pengasas bersama dan Ketua Pegawai Eksekutif Waveform Intelligence.

Dengan lelaran pelbagai API model besar dan sumber terbuka pelbagai rangka kerja Ejen AI, ejen berdasarkan model besar telah mendapat perhatian, penyelidikan dan aplikasi yang meluas dalam akademik dan industri.

Walaupun ejen berasaskan model besar (Agen AI) telah mencapai keputusan yang baik dalam banyak senario, dan sebenarnya boleh digunakan dalam beberapa senario, kemajuan penyelidikan dan pembangunan Ejen AI masih terhad kepada "pakar" -centric ”, atau paradigma “berpusatkan kejuruteraan”. Dalam erti kata lain, proses penciptaan dan penalaan Ejen semasa masih bergantung hampir sepenuhnya pada tenaga kerja dan pengalaman pakar manusia (jurutera algoritma) untuk mereka bentuk promtps, alatan dan aliran kerja ejen. Proses sedemikian memakan masa dan intensif buruh, dan ia ditakdirkan untuk tidak dapat menggunakan data besar-besaran untuk mempelajari dan melatih elemen simbolik ejen ini. Kebanyakan ejen bergantung pada panggilan API sumber tertutup dan tidak boleh mengoptimumkan pangkalan model besar itu sendiri Walaupun model besar sumber terbuka digunakan, pengoptimuman pangkalan model itu sendiri dihadkan oleh sumber dan sumber dalam kebanyakan senario aplikasi ejen AI dilaksanakan secara praktikal atas sebab-sebab seperti kuasa pengkomputeran dan kestabilan. Oleh itu, ejen pintar semasa masih dalam peringkat pembangunan "sistem pakar".

Seperti yang kita semua tahu, sebab penting mengapa rangkaian saraf telah menjadi paradigma asas pembelajaran mesin/kecerdasan buatan adalah kerana ia boleh menggunakan data besar-besaran secara cekap untuk latihan dan pengoptimuman tanpa perlu mereka bentuk struktur dan pembelajaran yang kompleks secara manual algoritma. Oleh itu, penyelidik dari Waveform Intelligence percaya bahawa transformasi Ejen AI daripada tertumpu pakar kepada tertumpu data akan menjadi perkembangan penting untuk ejen pintar berdasarkan model besar.

Untuk mencapai matlamat ini, pasukan penyelidik dari Waveform Intelligence menggunakan kaedah asas pembelajaran connectionist untuk melatih rangkaian saraf (pembelajaran connectionist), iaitu, perambatan belakang dan keturunan kecerunan, menganalogikan Agen AI dan rangkaian saraf, dan menggunakan teks dan model Besar fungsi kehilangan model, kecerunan dan pengoptimum, mensimulasikan perambatan belakang dan algoritma turunan kecerunan, melaksanakan algoritma latihan simbolik hujung ke hujung untuk Ejen, dan membina satu set algoritma untuk latihan hujung ke hujung ejen AI . Rangka kerja dan kod telah bersumberkan terbuka pada GitHub.

Ejen yang boleh berevolusi secara bebas? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka

  • Alamat kertas: https://arxiv.org/pdf/2406.18532
  • Repositori kod: https://github.com/aiwaves-cn/agents

cifically Said bahawa pasukan mula-mula menyahbina ejen berasaskan model besar kepada tiga elemen utama, iaitu gesaan, alatan dan saluran paip ejen (aliran kerja). Seterusnya, dalam rangka kerja, sistem Ejen dianggap sebagai rangkaian saraf "simbolik", setiap nod dalam aliran kerja Ejen dianggap sebagai lapisan dalam rangkaian, dan gesaan dan alatan dalam setiap nod dianggap sebagai ini. lapisan dan aliran kerja/saluran paip ejen boleh dianggap sebagai graf pengiraan rangkaian. Dengan cara ini, sistem ejen boleh dianggap sebagai rangkaian saraf yang beratnya berubah daripada ruang angka/tensor kepada ruang simbolik diskret (teks dan kod ialah perwakilan simbolik), dan latihan rangkaian jenis ini secara semula jadi boleh merujuk kepada kaedah Pengoptimuman tradisional rangkaian saraf, iaitu perambatan belakang dan keturunan kecerunan.

ㅋㅋ 그림 1: 에이전트 기호 학습 프레임워크 다이어그램

기호 가중치 공간을 처리하기 위한 경사하강법, 에이전트 기호 학습 프레임워크는 텍스트와 대형 모델 + 프롬프트 단어를 사용합니다. 접근 방식은 손실을 모델로 합니다. 손실 함수, 역전파 프로세스, 기울기 및 기울기 기반 최적화 프로그램. 구체적으로, 순전파 과정에서 프레임워크는 각 레이어의 입력, 가중치, 출력을 계산 그래프에 저장합니다. 다음으로 대형 모델 + 프롬프트 단어 방식을 통해 현재 샘플의 전체 작업에 대한 입력, 출력, 설명을 프롬프트 단어로 결합한 후 대형 언어 모델에서 완료에 대한 평가 및 요약을 출력합니다. 현재 샘플 작업. 연구팀은 이를 텍스트 형식 손실, 즉 언어 기반 손실이라고 부르며, 신경망의 손실과 마찬가지로 작업 완료 품질을 측정하는 데 사용됩니다.
이후 연구에서는 대규모 언어 모델을 사용하고 신중하게 설계된 프롬프트 단어 엔지니어링을 사용하여 에이전트 프로세스의 마지막 노드에서 "반사"를 생성합니다. 반영에는 요구 사항을 더 잘 충족하기 위해 모델의 출력이 어떻게 변경되어야 하는지, 출력이 그러한 방향으로 변경되도록 프롬프트 단어와 도구 호출을 최적화하는 방법이 포함됩니다. 이 내용은 신경망 최적화에서 그래디언트의 역할과 정확히 동일합니다. 두 가지 모두 전체 모델의 손실을 최소화하기 위해 매개변수를 조정해야 하는 방법에 대한 정보를 포함하고 있습니다. 따라서 연구팀은 이러한 반영을 '텍스트 그래디언트'라고 부릅니다. , 언어 기반 그라디언트.
다음으로 해야 할 일은 각 레이어의 그라데이션을 뒤에서 앞으로 가져오는 것인데, 이는 신경망 최적화에 매우 중요합니다. Waveform Intelligence의 연구원들은 신경망의 체인 규칙 기반 공식의 역전파에서 영감을 받아 텍스트와 대형 모델을 통해 신중하게 설계된 프롬프트 세트를 사용하여 기존 신경망 최적화의 체인 규칙을 시뮬레이션했습니다. 특히 이 프롬프트 세트를 사용하면 이전 레이어의 그래디언트 정보(즉, 이전 레이어에서 수행한 작업에 대한 반영)와 이 레이어의 입력, 출력 및 가중치(이러한 입력은 역전파 공식의 매개변수와 완전히 일치), 현재 노드의 프롬프트/도구 사용에 대한 반영, 즉 현재 레이어의 언어 기반 그래디언트를 출력합니다. 이 텍스트 기반 역전파 방식을 통해 이 연구에서는 여러 노드와 복잡한 워크플로를 포함하는 에이전트에서 각 노드/계층의 매개변수 기울기를 얻을 수 있으므로 각 프롬프트와 도구가 전체 에이전트에 대해 직접 최적화될 수 있습니다. , 이를 통해 엔드투엔드 조인트 최적화를 달성합니다.
마지막으로 각 매개변수 세트의 언어 기반 그라디언트를 얻은 후 프레임워크는 신중하게 설계된 프롬프트, 각 레이어에 대한 프롬프트 단어 및 도구 호출, 텍스트 기반 그라디언트를 사용하여 대규모 모델 기반 최적화 프로그램을 사용합니다. . 입력으로 에이전트 매개변수를 업데이트하기 위한 최적화된 프롬프트와 도구가 출력됩니다.
또한 프레임워크는 네트워크 구조, 즉 에이전트 워크플로의 최적화도 지원합니다. 구체적으로 프레임워크는 에이전트 워크플로를 특정 프로그래밍 언어로 표현하므로 에이전트 네트워크의 "계산 그래프"도 기호 가중치로 처리됩니다. 이후 별도로 설계된 대형 모델 기반 옵티마이저를 통해 현재 에이전트의 워크플로와 워크플로 내 각 노드의 텍스트 형태의 기울기를 입력으로 사용하여 에이전트의 워크플로를 업데이트합니다. 이는 신경망 훈련에서 자동 네트워크 구조 탐색과 관련된 연구와 비교할 수 있다.​​​​​​​​​                                                                                                  그림 3 대규모 모델 평가 작업에 대한 실험 결과

Ejen yang boleh berevolusi secara bebas? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbukaㅋㅋ 그림 4 에이전트 수준 평가 작업의 실험 결과

Waveform Intelligence 연구원들은 그림 3과 4에 표시된 것처럼 대형 모델과 에이전트에 대한 일련의 벤치마크에서 알고리즘을 평가했습니다. 학습 기능이 없는 DSpy 및 기존 에이전트 프레임워크에 비해 다양한 작업에서 학습이 크게 향상되었습니다. 일부 작업에서는 GPT-3.5를 사용하여 다른 에이전트 프레임워크와 경쟁할 수도 있습니다. 그러나 단순히 에이전트의 각 노드에 있는 프롬프트 단어에 대한 대규모 언어 모델을 기반으로 하는 로컬 프롬프트 단어 자동 최적화 알고리즘(AutoPE)을 사용하는 것만으로는 명확한 결과를 얻을 수 없습니다. 또한 그림 5에서 볼 수 있듯이 창의적 글쓰기 작업에서는 하나의 프롬프트 단어만을 기반으로 작성하는 초기 단일 노드 에이전트에서 쓰기 + 편집을 지원하는 워크플로로 알고리즘이 독립적으로 진화했으며, 쓰기 노드가 업데이트되고 최적화되었습니다. S 그림 5 에이전트 기호 학습 프레임워크 학습 효과 효과(창의적 글쓰기 작업을 예로 들어)

Ejen yang boleh berevolusi secara bebas? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka

웨이브폼 인텔리전스 연구팀은 에이전트 기호 학습의 두 가지 응용 시나리오를 소개했습니다. 첫째, 개발자나 연구자는 프레임워크를 사용하여 에이전트 시스템을 만들고 조정할 수 있습니다. 신경망 훈련과 마찬가지로 개발자와 연구자는 지정된 작업에 대해 많은 수의 샘플을 수집(또는 프레임워크에 제공된 자동 생성 사용)한 다음 프레임워크를 사용하여 대규모 환경에서 "데이터 중심" 에이전트 훈련을 완료할 수 있습니다. 학습 및 최적화 후에는 일반 에이전트 배포와 마찬가지로 최적화된 에이전트가 프로덕션 환경에 정적 방식으로 배포됩니다.
또한 이 프레임워크의 또 다른 중요한 적용 시나리오는 환경/상호작용에서 자율적으로 진화할 수 있는 에이전트를 지원하는 것입니다. 구체적으로, 훈련 프레임워크 자체는 복잡한 GPU 기반 훈련 및 배포 없이 대규모 모델의 기능만 호출하면 되므로 에이전트는 환경을 탐색하여 호출할 수 있는 도구로 훈련 프레임워크를 사용할 수 있거나 상호 작용하는 과정에서 사용할 수 있습니다. 인간과 함께 지속적으로 새로운 훈련 샘플을 수집하고, 에이전트 훈련을 위한 알고리즘 도구를 정기적으로 또는 적극적으로 호출하고, 자체 프롬프트, 도구 및 워크플로를 업데이트합니다. Waveform Intelligence는 또한 AIWaves Agents의 오픈 소스 코드 기반에서 이러한 배포 로직을 지원하여 실제 제품 및 생산 환경에 배포된 후 독립적으로 계속 발전하고 반복할 수 있는 최초의 에이전트 시스템을 실현합니다.

에이전트 기호 학습 프레임워크는 AI 에이전트를 복잡한 워크플로우에서 프롬프트와 도구로 연결된 상징적인 "신경망"으로 취급하여 자연어를 기반으로 한 역전파 및 경사 하강을 시뮬레이션하여 대규모 모델 기반 에이전트를 가능하게 합니다. 프롬프트와 도구인 자체 '네트워크 매개변수'와 에이전트 워크플로우인 '네트워크 구조'를 독립적으로 최적화하여 대용량 데이터와 경험을 효율적으로 활용하고 '데이터 중심 학습'을 수행할 수 있는 인텔리전스를 달성할 수 있습니다. " 에이전트 프레임워크를 사용하면 지능형 에이전트 시스템이 자율적으로 계속 발전할 수 있습니다. 현재 이 프레임워크는 Waveform Intelligence의 여러 제품 및 애플리케이션에서 역할을 수행하여 에이전트의 어려운 수동 최적화 및 평가 문제를 해결했습니다. 웨이브폼 인텔리전스 연구팀은 '데이터 중심 에이전트'와 '에이전트 학습' 개발 및 연구를 활성화하기 위해 해당 알고리즘의 모든 코드도 오픈소스화했다. 더 흥미로운 알고리즘과 응용 프로그램을 함께 탐색하는 지능형 에이전트입니다.

Atas ialah kandungan terperinci Ejen yang boleh 'berevolusi secara bebas'? Rangka kerja latihan simbolik ejen hujung ke hujung yang pertama ialah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn