ホームページ >テクノロジー周辺機器 >AI >OpenaiのSWE-LANCERベンチマーク

OpenaiのSWE-LANCERベンチマーク

尊渡假赌尊渡假赌尊渡假赌オリジナル: 2025-03-04 09:15:11922ブラウズ

現実世界のタスクを忠実に複製するベンチマークの確立は、特にソフトウェアエンジニアリングドメインで急速に発展している人工知能の分野で不可欠です。 Samuel MiserendinoとAssociatesは、Swe-Lancer Benchmarkを開発し、フリーランスのソフトウェアエンジニアリングタスクを大規模な言語モデル（LLM）をどれだけうまく実行するかを評価しました。合計100万ドル以上の雇用がUpworkから取られ、このベンチマークを作成しました。

モデルパフォーマンス
パフォーマンスメトリック

SWE-Lancerには、単純なバグ修正から複雑な機能の実装まで、さまざまな範囲のタスクが含まれます。ベンチマークは、実際のフリーランスレビュープロセスを反映するエンドツーエンドテストを使用することにより、LLMの現実的な評価を提供するように構成されています。タスクは経験豊富なソフトウェアエンジニアによって採点され、高い基準の評価を確保します。 SWE-LANCER

管理評価
：ベンチマークは、技術的なリードとして機能するモデルの能力を評価することにより、独立した請負業者から最適な実装計画を選択します。
高度なフルスタックエンジニアリング

エンドツーエンドテストのより良いグレーディング

：SWE-Lancerは、資格のあるエンジニアによって開発されたエンドツーエンドテストを採用しており、単体テストに依存していた以前のベンチマークよりも徹底的な評価を提供します。

なぜSWE-LANCERが重要なのですか？

AI研究の重要なギャップは、SWE-Lancer：The Real Software Engineeringジョブの複雑さを複製するタスク上のモデルを評価する能力によって満たされます。現実世界のプロジェクトの多次元特性は、頻繁に離散タスクに集中していた以前の基準には適切に反映されていません。 Swe-Lancerは、実際のフリーランスジョブを利用することにより、モデルパフォーマンスのより現実的な評価を提供します。

評価メトリック

モデルのパフォーマンスは、解決されたタスクの割合と獲得した総支払いの割合に基づいて評価されます。各タスクに関連する経済的価値は、関連する作業の真の困難と複雑さを反映しています。

タスクの例

$ 250の信頼性の改善：ダブルトリガーAPI呼び出しを修正します。
$ 1,000のバグ修正：許可の矛盾を解決します。
$ 16,000機能実装：複数のプラットフォームでアプリ内ビデオ再生のサポートを追加します。

個々の寄稿者（IC）ソフトウェアエンジニアリング（SWE）タスク

このデータセットは、個々の貢献者ソフトウェアエンジニアの作業を表すように設計された合計414,775ドル相当の764のソフトウェアエンジニアリングタスクで構成されています。これらのタスクには、新機能の実装やバグの修正など、典型的なICの義務が含まれます。各タスクについて、モデルに：

が提供されます

複製手順と望ましい動作を含む問題の詳細な説明。

の前に状態を表すコードベースチェックポイントは、問題が修正されます。

問題を修正する目的。
モデルの提案されたソリューション（パッチ）は、提供されたコードベースに適用し、Playwrightを使用して関連するすべてのエンドツーエンドテストを実行することにより評価されます。重大なことに、モデルは、ソリューション生成プロセス中にこれらのエンドツーエンドテストにアクセスできません。
IC SWEタスクの評価フロー。モデルは、すべての該当するテストが合格した場合にのみ支払いを獲得します。

swe管理タスク

このデータセットは、585,225ドルで評価された724のタスクで構成されており、ソフトウェアエンジニアリングマネージャーとして機能するモデルに挑戦しています。このモデルにはソフトウェアエンジニアリングタスクが表示され、いくつかのオプションから最適なソリューションを選択する必要があります。具体的には、モデルは次のとおりです同じ問題に対する複数の提案されたソリューション、実際の議論から直接取られた。

コードベースのスナップショットが存在していたときの

OpenaiのSWE-LANCERベンチマーク問題が解決されました。

最良のソリューションを選択する際の全体的な目的。

モデルの選択されたソリューションは、実際の根本的な最良のソリューションと比較して、そのパフォーマンスを評価します。重要なことに、経験豊富なソフトウェアエンジニアを用いた別の検証調査により、元の「ベスト」ソリューションとの99％の契約率が確認されました。

パフォーマンスメトリック

claude 3.5 Sonnet

gpt-4o：特にIC SWEタスクでのパフォーマンスの低下を示し、実際のアプリケーションでLLMSが直面する課題を強調しています。
：380ドルを超えて獲得し、4oよりも優れたパフォーマンスを示したミッドパフォーマンスを示しました。
IC SWEとSWEマネージャーの両方のタスクを含む完全なSWEランサーデータセットで各モデルが獲得した合計支払い。 result

OpenaiのSWE-LANCERベンチマーク

テーブルには、パフォーマンスメトリック、特に「@1を渡す」精度と収益が表示されます。ダイヤモンドとフルSWEランサーセットの全体的なメトリックは青で強調表示され、IC SWE（ダイヤモンド）とSWEマネージャー（ダイヤモンド）サブセットのベースラインパフォーマンスは緑色で強調表示されます。 SW-LANCERの制限

リポジトリとタスクの多様性：タスクは、アップワークとExpensifyリポジトリのみから調達されました。これにより、評価の範囲、特に過小評価されているインフラストラクチャエンジニアリングタスクが制限されます。
scope：フリーランスのタスクは、フルタイムのソフトウェアエンジニアリングタスクよりも自己完結型です。 Expensifyリポジトリは実際のエンジニアリングを反映していますが、フリーランスのコンテキストを超えて調査結果を一般化する場合は注意が必要です。
：評価はテキストのみであり、スクリーンショットやビデオなどの視覚補助具がモデルのパフォーマンスを向上させる方法については考慮されていません。環境
汚染：タスクの公共の性質により、汚染の可能性が存在します。正確な評価を確保するには、閲覧を無効にする必要があり、不正行為のための事後フィルタリングが不可欠です。分析は、モデルの知識のカットオフに先行するタスクの汚染の影響が限られていることを示しています。
将来の仕事 SWE-LANCERは、将来の研究のためのいくつかの機会を提示します：

経済分析

ここで完全な研究論文を見つけることができます。
SWE-LANCERは、ソフトウェアエンジニアリングタスクのLLMSの評価における大幅な進歩を表しています。実際のフリーランスのタスクと厳密なテスト基準を組み込むことにより、モデル機能のより正確な評価を提供します。このベンチマークは、ソフトウェアエンジニアリングにおけるAIの経済的影響に関する研究を促進するだけでなく、実際のアプリケーションでこれらのモデルを展開することに残っている課題を強調しています。

以上がOpenaiのSWE-LANCERベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

if for while include double using public this promise column table bug issue gpt Access

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Openai O1-Previewチュートリアル：機械学習プロジェクトの構築次の記事：Openai O1-Previewチュートリアル：機械学習プロジェクトの構築

続きを見る

OpenaiのSWE-LAN​​CERベンチマーク

エンドツーエンドテストのより良いグレーディング

評価メトリック

パフォーマンスメトリック

claude 3.5 Sonnet

経済分析

関連記事

OpenaiのSWE-LANCERベンチマーク