首頁 >科技週邊 >人工智慧 >Openai的Swe-Lancer基準

Openai的Swe-Lancer基準

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌原創
2025-03-04 09:15:11922瀏覽

在迅速發展的人工智能領域,尤其是在軟件工程領域中,建立忠實地複制現實世界任務的基準是至關重要的。 Samuel Miserendino and Associates開發了SWE-Lancer基準測試,以評估大型語言模型(LLMS)執行自由職業軟件工程任務的效果。超過1,400個工作,總計100萬美元,從UPWOWS中獲得了這一基準,該基準旨在評估管理和個人貢獻者(IC)任務。

>

    >什麼是Swe-Lancer基準?任務
    • SWE管理任務
    • 模型性能
  • >
    • 性能指標
    • swe-lancer
    • 什麼是SWE-Lancer基準?
    • 從簡單的錯誤修復到復雜的功能實現,
    swe-lancer包括各種任務範圍。該基準的結構是通過使用反映實際自由審查過程的端到端測試來對LLM的現實評估。這些任務由經驗豐富的軟件工程師分級,確保高標準的評估標準。 SWE-LAN​​CER的功能
  • 現實世界中的支出
  • :SWE-Lancer中的任務代表自由工程師的實際支出,提供了自然的困難梯度。
  • 管理評估
:通過評估模型作為技術領導的能力,基準選擇了獨立承包商的最佳實施計劃。

高級全堆棧工程

:由於現實世界軟件工程的複雜性,任務需要對前端和後端開發有透徹的了解。

> 通過端到端測試進行

:SWE-LAN​​CER採用合格工程師開發的端到端測試,提供了比依賴於單位測試的早期基準的端到端測試。
  • 為什麼Swe-Lancer很重要? > SWE-Lancer的推出:評估模型複制真正軟件工程工作的任務的模型的能力填補了AI研究的關鍵差距。現實世界項目的多維特徵並不能充分反映以前的標準,該標準經常集中在離散任務上。 SWE-Lancer通過利用實際的自由職業工作提供了對模型績效的更現實評估。

    評估指標

    >根據已解決的任務百分比和所獲得的總支付的百分比評估模型的性能。與每個任務相關的經濟價值反映了所涉及的工作的真正困難和復雜性。

    >示例任務

    • $ 250可靠性改進:修復雙觸發API調用。
    • $ 1,000錯誤修復:解決權限差異。 >
    • $ 16,000功能實現:添加對跨多個平台的應用內視頻播放的支持。
    > SWE-Lancer數據集包含1,488個現實世界的自由軟件工程任務,該任務是從Expensify開源存儲庫中繪製的,最初發佈在UPWORK上。這些任務的總價值為100萬美元,分為兩組:>

    >個人貢獻者(IC)軟件工程(SWE)任務

      >該數據集由764個軟件工程任務組成,價值414,775美元,旨在代表個人貢獻者軟件工程師的工作。這些任務涉及典型的IC職責,例如實施新功能和修復錯誤。對於每個任務,都提供了一個模型:

    >對問題的詳細描述,包括複製步驟和所需的行為。
      >代碼庫檢查點代表狀態
    • >
    • 問題已解決。
    • 解決問題的目的。 >
    • >通過將其應用於提供的代碼庫並使用playwright運行所有相關的端到端測試來評估該模型的提議解決方案(補丁程序)。至關重要的是,模型
    • 在解決方案生成過程中無法訪問這些端到端測試。

    IC SWE任務的評估流程>評估流;該模型僅在所有適用的測試通過時才能賺取支出。

    SWE管理任務Openai的Swe-Lancer基準

    這個數據集由724個任務組成,價值585,225美元,挑戰了一個模型,以充當軟件工程經理。該模型包含軟件工程任務,必須從幾個選項中選擇最佳解決方案。具體來說,該模型接收:

    直接從真實討論中獲取的同一問題的多個提出的解決方案。

    >

    >在解決問題之前存在

    >的快照。

    選擇最佳解決方案的總體目標。
    • 然後,將模型選擇的解決方案與實際的最佳解決方案進行比較,以評估其性能。重要的是,一項與經驗豐富的軟件工程師的單獨驗證研究證實了原始“最佳”解決方案的協議率為99%。
    • SWE Manager任務的評估流程

      >;在提案選擇期間,該模型具有瀏覽代碼庫的能力。

      >

      也請閱讀:undrej karpathy在拼圖解決基准上

      模型性能

      >基準已在幾種最先進的型號上進行了測試,包括OpenAI的GPT-4O,O1和Anthropic的Claude 3.5十四行詩。結果表明,儘管這些模型表現出了希望,但他們仍然在許多任務中掙扎,尤其是那些需要深厚技術理解和背景的任務。

      >性能指標

      • Claude 3.5 SONNET :在IC SWE任務上獲得26.2%的分數,在SWE管理任務上獲得44.9%的分數,在SWE-Lancer Diamond set中,總計$ 208,050的$ 208,050。
      • gpt-4O
      • :表現出較低的性能,尤其是在IC SWE任務上,突出了LLM在現實世界應用中面臨的挑戰。 gpt O1模型
      • :顯示了超過$ 380的中期性能,並且表現優於4o。

      >在完整的SWE-Lancer數據集上賺取的總支出總額,包括IC SWE和SWE Manager任務。 Openai的Swe-Lancer基準

      結果

      該表顯示了SWE-Lancer數據集上不同語言模型(GPT-4,O1,3.5十四行詩)的性能,按任務類型(IC SWE,SWE,SWE Manager)和數據集大小(Diamond,Fult)分解。它比較了他們的“通過@1”精度(最高生成解決方案正確的頻率)和收益(基於任務值)。 “用戶工具”列指示該模型是否可以訪問外部工具。 “推理工作”反映了解決方案生成的努力水平。總體而言,3.5十四行詩通常可以在不同的任務類型和數據集大小上獲得最高的通行證@1的準確性和收益,同時使用外部工具和不斷增加的推理工作傾向於提高性能。藍色和綠色的突出顯示分別強調整體和基線指標。

      >

      該表顯示性能指標,特別是“通過@1”的準確性和收入。鑽石和完整的SWE-Lancer套件的總體指標以藍色突出顯示,而IC SWE(Diamond)和SWE經理(鑽石)子集的基線性能以綠色突出顯示。

      SWE-LAN​​CER Openai的Swe-Lancer基準的限制

      > swe-lancer雖然有價值,但有幾個局限性:
        存儲庫和任務的多樣性
      • :任務僅從UPWORK和Expensife存儲庫中採購。這限制了評估的範圍,尤其是基礎架構工程任務,這些任務不足。
      • 範圍
      • :自由職業任務通常比全日制軟件工程任務更獨立。儘管支出存儲庫反映了現實世界的工程,但在概括自由上下文以外的發現時需要謹慎。 >
      • 模態
      • :評估僅是文本,缺乏考慮屏幕截圖或視頻等視覺輔助的考慮。 環境
      • :模型無法提出澄清的問題,這可能會阻礙他們對任務要求的理解。
      • 污染:由於任務的公開性質而存在污染的潛力。為了確保准確的評估,應禁用瀏覽,而事後進行作弊是必不可少的。分析表明對任務的污染影響有限,而在模型知識截止之前。
      • 未來的工作 > SWE-Lancer為未來的研究提供了一些機會:
      經濟分析

      :未來的研究可以調查自治代理人對勞動力市場和生產力的社會影響,將自由職業者支出與API成本進行比較。

      多模式

      :當前框架不支持多模式輸入(例如屏幕截圖和視頻)。包括這些組件在內的未來分析可能會更徹底地評估該模型在實際情況下的性能。
      • >您可以在此處找到完整的研究論文。 結論
      • SWE-LAN​​CER代表了軟件工程任務LLM的評估方面的重大進步。通過合併現實世界的自由職業任務和嚴格的測試標準,它可以更準確地評估模型功能。該基準不僅促進了對AI在軟件工程中的經濟影響的研究,而且還強調了在實際應用中部署這些模型時仍在部署這些模型的挑戰。

以上是Openai的Swe-Lancer基準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn