検索
ホームページテクノロジー周辺機器AIオープンソース AI プログラマーが登場: GPT-4 の祝福、デビンに匹敵する能力、1 日あたり 1.4,000 スター

AIGC の詳細については、次のサイトをご覧ください:

51CTO AI.x コミュニティ

https://www.51cto.com/ aigc/

最近、多くの人がAIに仕事を代替されるのではないかと懸念しています。

先月 AI 界で有名になった「最初の AI プログラマー」である Devin は、大規模なモデル機能を使用してフルスタックのスキルを習得しました。彼に必要なのは人間だけです。自然言語による指示を与え、複雑なコーディング タスクを自動化します。

Devin が実証したツールの機能は、特にクローズド ソース ルートをとるこの新興企業にとって、非常に驚​​くべきものです。現在、このクローズドベータ割り当てを利用できるのは少数の人だけです。

火曜日、プリンストン大学 NLP グループの研究者は、AI プログラマのオープンソース バージョンである SWE-agent をリリースしました。これは、1 日足らずで GitHub で数千のスターを獲得しました。 。この SWE エージェントは深層学習テクノロジーに基づいており、効率的で信頼性の高いコードを自動的に作成できます。彼のリリースは広く注目を集め、多くの開発者が彼の技術とパフォーマンスに高い評価を表明しました。これらの成果は、NLP 分野における AI 研究の進歩を証明するものでもあります。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

SWE-agent は、GitHub リポジトリの問題を自律的に解決するための新しいシステムです。 SWE ベンチでの Devin と同様の精度を達成し、平均 93 秒かかりました。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

  • プロジェクト Web サイト: https://swe-agent.com/
  • GitHub :https://github.com/princeton-nlp/SWE-agent

プロジェクトの作者である John Yang 氏は、関連論文 4月10日バージョンもアップ予定です。

原則として、SWE エージェントは、大規模なモデル (GPT-4 など) をソフトウェア エンジニアリング エージェントに変換することで、実際の G​​itHub リポジトリのバグや問題を修正できます。

完全な SWE ベンチ テスト セットにおいて、SWE エージェントは問題の 12.29% を解決し、SOTA パフォーマンスを達成しました。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

開発中の自動化を実現するために、SWE エージェントは、ファイルを開いたり、ファイルの内容を検索したり、自動構文チェックを使用したりできる専用の端末と対話して動作します。 、特定の行を編集し、テストを作成して実行することもできます。

このプロジェクトの開発者は、慎重に UI インターフェイスを設計し、GitHub に導入しました。

エージェント コンピューター インターフェイス (ACI)

研究チームは、大規模モデル (LM) 中心のシンプルなコマンドとフィードバック形式を設計しました。モデルを使用すると、エージェント コンピューター インターフェイス (ACI) として知られる、リポジトリの参照、コード ファイルの表示、編集、実行がより簡単になります。研究チームは、リポジトリ レベルでコード化されたエージェントの ACI 設計を簡単に反復できるように、SWE エージェント リポジトリも構築しました。

言語モデルには優れたプロンプト エンジニアリングが必要であるのと同様に、優れた ACI 設計はエージェント使用時により良い結果につながります。 ACI が適切に調整されていないベースライン エージェントのパフォーマンスは、SWE エージェントよりもはるかに悪くなります。

SWE-agent には、研究チームがエージェントとコンピューターのインターフェイスの設計中に非常に役立つと判断した次のような機能が含まれています。 1. 編集コマンドの発行時に実行され、コード構文が間違っている場合は編集コマンドを実行させないリンターを追加します。

2. エージェントに専用のファイル ビューアを提供します。研究チームは、このファイル ビューアが 1 ラウンドあたり 100 行のみを表示する場合に最適に機能すること、およびファイル エディタには上下にスクロールしてファイル内で検索を実行するためのコマンドがあることを発見しました。

3. 特別に構築されたディレクトリ全体の文字列検索コマンドをエージェントに提供します。研究チームは、ツールが一致を簡潔にリストすることが重要であることを発見しました。少なくとも 1 つの一致があるすべてのファイルをリストするだけです。研究では、モデルに各一致に関するコンテキストをさらに示すと、モデルが混乱しすぎることがわかりました。

4. コマンドの出力が空の場合は、「コマンドは正常に実行されましたが、出力は生成されませんでした。」というメッセージが返されます。

今後出版される論文でさらに詳しい情報が記載されます。

安装与使用

要使用 SWE-agent,首先要设置好如下条件:

1. 安装 Docker,并在本地启动 Docker;

2. 安装 Miniconda,并使用 conda env create -fenvironment.yml 创建 swe-agent 环境;

3. 使用 conda activate swe-agent 激活;

4. 运行 ./setup.sh 创建 swe-agent docker 镜像;

5. 在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容:

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含两个步骤:

  • 第一步:SWE-agent 接收输入的 GitHub 问题,并返回尝试修复它的拉取请求(pull request);
  • 第二步:评估拉取请求以验证它确实解决了问题(目前仅适用于 SWE-bench 基准测试中的问题)。

如果想在整个 SWE-bench 上运行和评估,最简单的方法是使用 x86 机器。

python run.py --model_name gpt4 \--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
python run.py --model_name gpt4 \--per_instance_cost_limit 2.00 \--config_file ./config/default.yaml

如果想运行 SWE-bench 中的单个问题,可以使用 --instance_filter:

python run.py --model_name gpt4 \--instance_filter marshmallow-code__marshmallow-1359

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

以上がオープンソース AI プログラマーが登場: GPT-4 の祝福、デビンに匹敵する能力、1 日あたり 1.4,000 スターの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境