現実世界のタスクを忠実に複製するベンチマークの確立は、特にソフトウェアエンジニアリングドメインで急速に発展している人工知能の分野で不可欠です。 Samuel MiserendinoとAssociatesは、Swe-Lancer Benchmarkを開発し、フリーランスのソフトウェアエンジニアリングタスクを大規模な言語モデル(LLM)をどれだけうまく実行するかを評価しました。合計100万ドル以上の雇用がUpworkから取られ、このベンチマークを作成しました。
目次
swe-lancer benchmarkとは?タスク-
モデルパフォーマンス
- パフォーマンスメトリック
SW-Lancer Benchmarkとは何ですか?
- SWE-Lancerには、単純なバグ修正から複雑な機能の実装まで、さまざまな範囲のタスクが含まれます。ベンチマークは、実際のフリーランスレビュープロセスを反映するエンドツーエンドテストを使用することにより、LLMの現実的な評価を提供するように構成されています。タスクは経験豊富なソフトウェアエンジニアによって採点され、高い基準の評価を確保します。
SWE-LANCER
の特徴
-
現実世界の支払い:SWE-LANCERのタスクは、フリーランスエンジニアへの実際の支払いを表し、自然な難易度の勾配を提供します。
- 管理評価
- :ベンチマークは、技術的なリードとして機能するモデルの能力を評価することにより、独立した請負業者から最適な実装計画を選択します。
- 高度なフルスタックエンジニアリング
:実際のソフトウェアエンジニアリングの複雑さにより、タスクはフロントエンドとバックエンドの両方の開発を完全に理解する必要があります。
エンドツーエンドテストのより良いグレーディング
:SWE-Lancerは、資格のあるエンジニアによって開発されたエンドツーエンドテストを採用しており、単体テストに依存していた以前のベンチマークよりも徹底的な評価を提供します。
なぜSWE-LANCERが重要なのですか?
AI研究の重要なギャップは、SWE-Lancer:The Real Software Engineeringジョブの複雑さを複製するタスク上のモデルを評価する能力によって満たされます。現実世界のプロジェクトの多次元特性は、頻繁に離散タスクに集中していた以前の基準には適切に反映されていません。 Swe-Lancerは、実際のフリーランスジョブを利用することにより、モデルパフォーマンスのより現実的な評価を提供します。
評価メトリック
モデルのパフォーマンスは、解決されたタスクの割合と獲得した総支払いの割合に基づいて評価されます。各タスクに関連する経済的価値は、関連する作業の真の困難と複雑さを反映しています。
タスクの例
- $ 250の信頼性の改善:ダブルトリガーAPI呼び出しを修正します。
- $ 1,000のバグ修正:許可の矛盾を解決します。
- $ 16,000機能実装:複数のプラットフォームでアプリ内ビデオ再生のサポートを追加します。
SWE-Lancerデータセットには、Expensify Open-Sourceリポジトリから引き出され、元々Upworkに投稿された1,488の実世界のフリーランスソフトウェアエンジニアリングタスクが含まれています。これらのタスクは、合計値が100万米ドルで、2つのグループに分類されます。
個々の寄稿者(IC)ソフトウェアエンジニアリング(SWE)タスク
このデータセットは、個々の貢献者ソフトウェアエンジニアの作業を表すように設計された合計414,775ドル相当の764のソフトウェアエンジニアリングタスクで構成されています。これらのタスクには、新機能の実装やバグの修正など、典型的なICの義務が含まれます。各タスクについて、モデルに:
が提供されます
複製手順と望ましい動作を含む問題の詳細な説明。
の前に状態を表すコードベースチェックポイントは、問題が修正されます。
- 問題を修正する目的。
-
モデルの提案されたソリューション(パッチ)は、提供されたコードベースに適用し、Playwrightを使用して関連するすべてのエンドツーエンドテストを実行することにより評価されます。重大なことに、モデルは、ソリューション生成プロセス中にこれらのエンドツーエンドテストにアクセスできません。
-
IC SWEタスクの評価フロー。モデルは、すべての該当するテストが合格した場合にのみ支払いを獲得します。
swe管理タスク
このデータセットは、585,225ドルで評価された724のタスクで構成されており、ソフトウェアエンジニアリングマネージャーとして機能するモデルに挑戦しています。このモデルにはソフトウェアエンジニアリングタスクが表示され、いくつかのオプションから最適なソリューションを選択する必要があります。具体的には、モデルは次のとおりです
同じ問題に対する複数の提案されたソリューション、実際の議論から直接取られた。
コードベースのスナップショットが存在していたときの
問題が解決されました。
最良のソリューションを選択する際の全体的な目的。
モデルの選択されたソリューションは、実際の根本的な最良のソリューションと比較して、そのパフォーマンスを評価します。重要なことに、経験豊富なソフトウェアエンジニアを用いた別の検証調査により、元の「ベスト」ソリューションとの99%の契約率が確認されました。
SWEマネージャータスクの評価フロー。提案の選択中に、モデルにはコードベースを閲覧する機能があります。
また、読んでください:パズル解決ベンチマークのAndrej Karpathy
モデルパフォーマンス
ベンチマークは、OpenaiのGPT-4O、O1、およびAnthropicのClaude 3.5 Sonnetを含むいくつかの最先端モデルでテストされています。結果は、これらのモデルが約束を示している一方で、彼らはまだ多くのタスク、特に深い技術的理解とコンテキストを必要とするタスクに苦労していることを示しています。
パフォーマンスメトリック
claude 3.5 Sonnet
:IC SWEタスクで26.2%、SWE管理タスクで44.9%のスコアを達成し、SWE-Lancerダイヤモンドセットで可能な500,800ドルのうち合計208,050ドルを獲得しました。
- gpt-4o:特にIC SWEタスクでのパフォーマンスの低下を示し、実際のアプリケーションでLLMSが直面する課題を強調しています。
gpt o1モデル- :380ドルを超えて獲得し、4oよりも優れたパフォーマンスを示したミッドパフォーマンスを示しました。
-
IC SWEとSWEマネージャーの両方のタスクを含む完全なSWEランサーデータセットで各モデルが獲得した合計支払い。
result
この表は、タスクタイプ(IC SWE、SWEマネージャー)とデータセットサイズ(ダイヤモンド、フル)によって分割されたSWEランサーデータセットのさまざまな言語モデル(GPT-4、O1、3.5ソネット)のパフォーマンスを示しています。 「Pass@1」の精度(上部の生成されたソリューションが正しい頻度)と収益(タスク値に基づいて)を比較します。 「ユーザーツール」列は、モデルが外部ツールにアクセスできるかどうかを示します。 「推論努力」は、ソリューションの生成に許可された努力のレベルを反映しています。全体として、3.5ソネットは一般に、さまざまなタスクタイプとデータセットサイズにわたって最高のパス@1の精度と収益を達成しますが、外部ツールを使用し、推論の取り組みを増やすとパフォーマンスが向上する傾向があります。青と緑のハイライトは、それぞれ全体とベースラインのメトリックを強調しています。

テーブルには、パフォーマンスメトリック、特に「@1を渡す」精度と収益が表示されます。ダイヤモンドとフルSWEランサーセットの全体的なメトリックは青で強調表示され、IC SWE(ダイヤモンド)とSWEマネージャー(ダイヤモンド)サブセットのベースラインパフォーマンスは緑色で強調表示されます。
SW-LANCERの制限
SWE-LANCERは価値がありますが、いくつかの制限があります:
-
リポジトリとタスクの多様性:タスクは、アップワークとExpensifyリポジトリのみから調達されました。これにより、評価の範囲、特に過小評価されているインフラストラクチャエンジニアリングタスクが制限されます。
- scope:フリーランスのタスクは、フルタイムのソフトウェアエンジニアリングタスクよりも自己完結型です。 Expensifyリポジトリは実際のエンジニアリングを反映していますが、フリーランスのコンテキストを超えて調査結果を一般化する場合は注意が必要です。
モダリティ- :評価はテキストのみであり、スクリーンショットやビデオなどの視覚補助具がモデルのパフォーマンスを向上させる方法については考慮されていません。
環境
:モデルは、タスク要件の理解を妨げる可能性のある明確な質問をすることができません。
-
汚染:タスクの公共の性質により、汚染の可能性が存在します。正確な評価を確保するには、閲覧を無効にする必要があり、不正行為のための事後フィルタリングが不可欠です。分析は、モデルの知識のカットオフに先行するタスクの汚染の影響が限られていることを示しています。
- 将来の仕事
SWE-LANCERは、将来の研究のためのいくつかの機会を提示します:
経済分析
:将来の研究では、労働市場と生産性に対する自治エージェントの社会的影響を調査し、フリーランサーの支払いとタスクの完了のためのAPIコストを比較することができます。
マルチモダリティ:スクリーンショットやビデオなどのマルチモーダル入力は、現在のフレームワークではサポートされていません。これらのコンポーネントを含む将来の分析は、実際の状況でのモデルのパフォーマンスをより徹底的に評価することができます。
-
ここで完全な研究論文を見つけることができます。
結論-
SWE-LANCERは、ソフトウェアエンジニアリングタスクのLLMSの評価における大幅な進歩を表しています。実際のフリーランスのタスクと厳密なテスト基準を組み込むことにより、モデル機能のより正確な評価を提供します。このベンチマークは、ソフトウェアエンジニアリングにおけるAIの経済的影響に関する研究を促進するだけでなく、実際のアプリケーションでこれらのモデルを展開することに残っている課題を強調しています。
以上がOpenaiのSWE-LANCERベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。