>기술 주변기기 >일체 포함 >오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

WBOY
WBOY원래의
2024-07-17 22:02:051001검색
오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 논문의 저자는 모두 Steven Xia에 있는 일리노이 대학 UIUC의 Zhang Lingming 교사 팀 출신입니다. AI 대형 모델을 기반으로 한 자동 코드 복구를 연구 방향으로 삼고 있는 박사 과정 4년생, 과학 연구 인턴인 Soren Dunn을 연구 방향으로 삼고 있는 박사 과정 4년차 학생입니다. , 현재 UIUC 3학년 학생입니다. Zhang Lingming 선생님은 현재 UIUC 컴퓨터과학과 부교수로 재직하고 있으며 주로 소프트웨어 엔지니어링, 머신러닝, 대형 코드 모델 관련 연구에 종사하고 있습니다.

자세한 내용은 장 선생님의 개인 홈페이지를 참조하세요: https://lingming.cs.illinois.edu/

데빈(최초의 전자동 AI 소프트웨어 엔지니어)이 제안한 이후, 소프트웨어 엔지니어링을 위한 AI는 Agent 설계가 연구의 초점이 되었습니다. 점점 더 많은 Agent 기반 AI 자동 소프트웨어 엔지니어가 제안되었으며 SWE 벤치 데이터 세트에서 좋은 성능을 달성하고 많은 실제 GitHub 문제를 자동으로 복구했습니다.

그러나 복잡한 에이전트 시스템은 추가적인 오버헤드와 불확실성을 가져올 것입니다. GitHub 문제를 해결하기 위해 정말로 그렇게 복잡한 에이전트를 사용해야 합니까? 에이전트가 필요 없는 솔루션이 성능에 근접할 수 있습니까?

이 두 가지 문제에서 시작하여 일리노이 대학 어바나 샴페인(UIUC)의 Zhang Lingming 교사 팀은 실제 GitHub 문제를 해결할 수 있는 간단하고 효율적이며 완전한 오픈 소스 에이전트 없는 솔루션인 OpenAutoCoder-Agentless를 제안했습니다. 단 $0.34에. Agentless는 단 며칠 만에 GitHub에서 300명 이상의 GitHub 스타를 유치했으며 DAIR.AI의 주간 가장 인기 있는 ML 논문 목록 상위 3위에 올랐습니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

  • 논문: AGENTLESS: LLM 기반 소프트웨어 엔지니어링 에이전트 설명

  • 논문 주소: https://huggingface.co/papers/2407.01489

  • 오픈 소스 코드: https://github. com /OpenAutoCoder/Agentless

AWS 연구 과학자 Leo Boytsov는 다음과 같이 말했습니다. "Agentless 프레임워크는 모든 오픈 소스 Agent 솔루션보다 성능이 뛰어났으며 SWE Bench Lite의 최고 수준(27%)에 거의 도달했습니다. 더욱이 훨씬 낮은 수준에서 이를 이겼습니다. 모든 오픈 소스 솔루션 프레임워크는 LLM에 파일, 클래스, 기능 등을 찾도록 요청하여 계층적 쿼리 접근 방식을 사용하지만 LLM이 계획 결정을 내리는 것을 허용하지 않습니다. 간단한 2단계 접근 방식을 사용하여 코드 베이스에서 버그를 찾아 수정하는 소프트웨어 개발 문제입니다. 찾기 단계에서 Agentless는 계층적 접근 방식을 사용하여 의심스러운 파일, 클래스/함수 및 특정 편집 위치로 점차 범위를 좁힙니다. 수정 사항의 경우 간단한 diff 형식(오픈 소스 도구 Aider에서 참조)을 사용하여 여러 후보 패치를 생성하고 필터링하고 정렬합니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

연구원들은 Agentless를 최첨단 오픈 소스 및 상용/비공개 소스 프로젝트를 포함한 기존 AI 소프트웨어 에이전트와 비교했습니다. 놀랍게도 Agentless는 더 저렴한 비용으로 기존의 모든 오픈 소스 소프트웨어 에이전트보다 뛰어난 성능을 발휘할 수 있습니다! Agentless는 오픈 소스 솔루션 중 가장 높은 27.33%의 문제를 해결했으며 문제당 평균 0.29달러, 모든 문제(해결 가능한 문제와 해결되지 않은 문제 모두)에서 평균 약 0.34달러로 해결했습니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

이뿐만 아니라 Agentless는 개선될 가능성도 있습니다. Agentless는 생성된 모든 패치를 고려할 때 문제의 41%를 해결할 수 있으며, 이는 패치 정렬 및 선택 단계에서 상당한 개선 여지가 있음을 나타내는 상한입니다. 또한 Agentless는 최고의 상용 도구(Alibaba Lingma Agent)로도 해결할 수 없는 몇 가지 고유한 문제를 해결할 수 있어 기존 도구를 보완하여 사용할 수 있음을 시사합니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

SWE-bench Lite データセットの分析

研究者らは、SWE-bench Lite データセットの手動検査と詳細な分析も実施しました。

調査では、SWE-bench Lite データセットの問題の 4.3% が、問題の説明で直接完全な回答を示しており、これが正しい修正パッチであることがわかりました。残りの 10% の質問では、正しい解決策への正確な手順が説明されています。これは、SWE-bench Lite の一部の問題は解決しやすい可能性があることを示唆しています。

さらに、研究チームは、問題の 4.3% にユーザーが提案した解決策または問題の説明の手順が含まれていたが、これらの解決策は開発者の実際のパッチと一致していないことを観察しました。これにより、このベンチマークの潜在的な問題がさらに明らかになります。これらの誤解を招く解決策により、問題の説明に従うだけで AI ツールが誤った解決策を生成する可能性があるからです。

問題記述の品質に関して、研究者らは、SWE-bench Lite のほとんどのタスクには十分な情報が含まれており、多くのタスクにはエラーを再現するための失敗例も提供されていますが、依然として 9.3% の問題があり、十分な情報が含まれていないことが観察されました。たとえば、新しい関数を実装するか、エラー メッセージを追加する必要があるが、問題の説明に特定の関数名や特定のエラー メッセージ文字列が示されていません。これは、基礎となる機能が正しく実装されている場合でも、関数名またはエラー メッセージ文字列が正確に一致しない場合、テストは失敗することを意味します。

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

プリンストン大学の研究者であり、SWE-Bench の著者の 1 人である Ofir Press は、その結果を確認しました:「Agentless は、SWE-bench Lite の優れた手動分析を実行しました。彼らは、Lite の理論が最も高いスコアであると信じています」おそらく 90.7% です。実際の上限はこれより低い (約 80%) と思います。一部の質問には情報が不十分であり、その他の質問は厳密にテストされています。問題サブセット

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다. これらの問題に対処するために、研究者らは厳密な問題サブセット SWE-bench Lite-S (252 の質問を含む) を提案しました。具体的には、正確なパッチ、誤解を招く解決策が含まれている問題、または問題の説明に十分な情報が提供されていない問題は、SWE-bench Lite (300 の問題を含む) から除外されました。これにより、不合理な質問が排除され、ベンチマークの難易度が標準化されます。オリジナルの SWE-bench Lite と比較して、フィルター処理されたベンチマークは、自動化されたソフトウェア開発ツールの真の機能をより正確に反映しています。

結論

エージェントベースのソフトウェア開発は非常に有望ですが、著者らは、テクノロジーと研究コミュニティが、より多くのエージェントを急いでリリースするのではなく、立ち止まってその主要な設計と評価方法について考える時期が来たと信じています。研究者らは、エージェントレスが将来のソフトウェア エンジニアリングにおけるエージェントのベースラインと方向性をリセットするのに役立つことを期待しています。

위 내용은 오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.