上海交通大学、大規模モデルのバイリンガルプログラミング評価ベンチマークである CodeApex をリリース機械は本当に人間のコード作成に挑戦し始めているのでしょうか?

上海交通大学、大規模モデルのバイリンガルプログラミング評価ベンチマークである CodeApex をリリース機械は本当に人間のコード作成に挑戦し始めているのでしょうか?

王林

Sep 05, 2023 pm 11:29 PM

データモデル

独自のコードを記述できるマシンを構築することは、コンピューターサイエンスと人工知能の先駆者が追求してきた目標です。 GPT タイプの大型モデルの急速な開発により、そのような目標はこれまで以上に近づいています。

大規模言語モデル (大規模言語モデル) の出現により、モデルのプログラミング機能に対する研究者の注目がますます高まっています。このような状況の下、上海交通大学の APEX 研究室は、LLM のプログラミング理解とコード生成能力の評価に焦点を当てたバイリンガルベンチマークデータセットである CodeApex を立ち上げました。

大規模な言語モデルのプログラミング理解能力を評価するために、CodeApex は、概念理解、常識的推論、およびマルチホップ推論という 3 種類の多肢選択式の質問を設計しました。さらに、CodeApex は、アルゴリズムの質問と対応するテストケースを利用して、LLM のコード生成機能を評価します。 CodeApex は、コーディングタスクに関して合計 14 の大規模な言語モデルを評価しました。その中で、GPT3.5-turbo は最高のプログラミング能力を示し、これら 2 つのタスクでそれぞれ約 50% と 56% の精度を達成しました。大規模な言語モデルには、プログラミングタスクを改善する余地がまだ多くあることがわかり、独自のコードを作成できるマシンを構築することは、非常に有望な将来です。

Web サイト: https://apex.sjtu.edu.cn/codeapex/
コード: https://github.com/APEXLAB/CodeApex.git
論文: https://apex.sjtu.edu.cn/codeapex/paper/

#はじめにプログラミングの理解とコード生成はソフトウェアエンジニアリングにおける重要なタスクであり、開発者の生産性の向上、コードの品質の向上、ソフトウェア開発プロセスの自動化において重要な役割を果たします。ただし、コードの複雑さとセマンティックな多様性のため、大規模なモデルではこれらのタスクは依然として困難です。通常の自然言語処理と比較して、LLM を使用してコードを生成するには、文法、構造、詳細な処理、コンテキストの理解に重点を置く必要があり、生成されるコンテンツの精度に対する要件が非常に高くなります。従来のアプローチには、文法ルールベースのモデル、テンプレートベースのモデル、およびルールベースのモデルが含まれますが、これらは多くの場合、適用範囲と精度が制限されている手動で設計されたルールやヒューリスティックアルゴリズムに依存します。

近年、CodeBERT や GPT3.5 などの大規模な事前トレーニング済みモデルの出現により、研究者はプログラミングの理解とコードへのこれらのモデルの応用を模索し始めています。生成タスク。これらのモデルはトレーニング中にコード生成タスクを統合し、コードを理解して生成できるようにします。ただし、コードの理解と生成における LLM の進歩を公正に評価することは、標準的で公開されている高品質で多様なベンチマークデータセットが不足しているため困難です。したがって、コードのセマンティクスと構造を幅広くカバーするベンチマークデータセットを確立することは、プログラミングの理解とコード生成の研究を促進するために重要です。

既存のコードベンチマークデータセットには、LLM に適用する場合の適用性と多様性の問題があります。たとえば、一部のデータセットは、Bert タイプの双方向言語モデリング LLM の評価に適しています。ただし、既存の多言語コードベンチマークデータセット (Human-Eval など) には比較的単純な問題が含まれており、多様性に欠けており、いくつかの基本的な機能コードしか実装できません。

上記のギャップを埋めるために、上海交通大学の APEX データおよび知識管理研究所は、大規模モデルのコードの理解と生成のための新しい評価ベンチマークである CodeApex を構築しました。画期的なバイリンガル (英語、中国語) ベンチマークデータセットとして、CodeApex は、プログラミングの理解と LLM のコード生成機能の評価に重点を置いています。

上海交通大学、大規模モデルのバイリンガルプログラミング評価ベンチマークである CodeApex をリリース機械は本当に人間のコード作成に挑戦し始めているのでしょうか? #CodeApex の全体的な実験シナリオを上の図に示します。

プログラミング理解の最初のタスクには、概念的な理解、常識的な推論、およびマルチホップの推論に分類される 250 の単一選択の質問が含まれています。テストに使用される問題は、大学のさまざまなコース (プログラミング、データ構造、アルゴリズム) の最終試験問題から選択されるため、データが LLM トレーニングコーパスにすでに存在するリスクが大幅に軽減されます。 CodeApex は、0 ショット、2 ショット、5 ショットの 3 つのシナリオで LLM のコード理解能力をテストし、LLM の能力に対する応答のみモードと思考連鎖モードの影響もテストしました。

2 番目のタスクコード生成には、2 分探索、深さ優先探索などの一般的なアルゴリズムの知識ポイントをカバーする 476 個の C ベースのアルゴリズムの問題が含まれています。 CodeApex は問題の説明と、問題を実装する関数プロトタイプを提供し、関数の主要部分を完了するには LLM を必要とします。 CodeApex には、関数のみとコンテキスト付き関数の 2 つのシナリオも用意されています。これらの違いは、前者にはターゲット関数の説明のみが含まれるのに対し、後者にはターゲット関数の説明に加えて、追加のシナリオも提供されることです。ターゲット関数の呼び出しコードと時間、スペース制約、入力および出力の説明。

実験結果は、モデルが異なるとコード関連タスクのパフォーマンスが異なることを示しており、GPT3.5-turbo は優れた競争力と明らかな利点を示しています。さらに、CodeApex はバイリンガルシナリオで LLM のパフォーマンスを比較し、異なる結果を明らかにしました。全体として、CodeApex ランキングにおける LLM の精度にはまだかなりの改善の余地があり、コード関連タスクにおける LLM の可能性がまだ十分に活用されていないことを示しています。

コードの理解

大規模な言語モデルを実際のコード生成シナリオに完全に統合するには、プログラミングの理解が不可欠です。プログラミングを理解するには、構文の習得、コードの実行フローの理解、実行アルゴリズムの理解など、あらゆる側面からコードを理解する能力が必要です。

CodeApex は、大学の期末試験問題から 250 個の多肢選択問題をテストデータとして抽出し、概念理解、常識推論、マルチホップ推論の 3 つのカテゴリに分類しました。

テストモードには、回答のみと思考の連鎖という 2 つのカテゴリが含まれています。

#実験結果と結論

コード理解タスクにおける CodeApex の中国語と英語の評価結果２つの表に示すと以下のようになる。 (最高のパフォーマンスを発揮するモデルは太字で表示され、次に最高のパフォーマンスを発揮するモデルには下線が付けられます。)

## 次のとおりです。そこから結論を導き出すことができます:

バイリンガル能力の比較。中国語版は英語版よりもスコアが高かった。主な理由は 2 つあります。 (1) 問題の説明の出典は中国の大学の最終試験のものであるため、試験問題は元々中国語で提示されました。英語に翻訳しても、中国人特有の言語習慣が残っています。したがって、これらの偏った英語の質問が LLM に入力されると、モデルのエンコード結果にノイズが混入する可能性があります。 (2) 評価されたモデルのほとんどは主に中国のデータでトレーニングされているため、結果が不十分になります。
さまざまな質問タイプの能力の比較。これら 3 つの問題カテゴリ全体で、モデルの約半数が概念的な理解において最も優れたパフォーマンスを示しており、トレーニング中にプログラミングの概念に関する知識が含まれている可能性が高いことを示唆しています。ほとんどのモデルは、マルチホップ推論と比較して常識推論のスコアが高く、推論ステップが増加すると LLM のパワーが大幅に低下することを示しています。
CoT 思考連鎖モデルの役割。 CoT モードのほとんどのモデルの精度は、Answer-Only モードに近いか、それより低くなります。この現象の理由は 2 つあります。 (1) 評価されたモデルサイズが CoT 創発能力を備えたモデルサイズに達していない。以前の研究では、CoT の出現には LLM に少なくとも 60B のパラメータが必要であると考えられていました。パラメータの数が不十分な場合、CoT セットアップにより追加のノイズが発生する可能性があり、LLM によって生成される応答が不安定になります。 GPT3.5-turbo は新たな機能の出現段階に達しており、CoT 設定でより高い精度を達成できます。 (2) 概念的な理解と常識的な推論の質問に答える場合、多段階の推論はそれほど必要ありません。したがって、LLM の CoT 機能は、この種の問題には対処できません。ただし、マルチホップ推論の問題については、一部のモデル (ChatGLM2、educhat、GPT3.5-turbo など) では CoT シナリオの精度が大幅に向上しています。 (CodeApex は、思考連鎖を通じて応答を生成できないため、CodeT5 を CoT 設定から除外します。)

コード生成

トレーニング大規模な言語モデルを使用して正確で実行可能なコードを生成することは、困難な作業です。 CodeApex は主に、指定された記述に基づいてアルゴリズムを生成する LLM の能力を評価し、単体テストを通じて生成されたコードの正確さを自動的に評価します。

CodeApex のコード生成タスクには、C ベースのアルゴリズムの問題が 476 個含まれており、二分探索やグラフアルゴリズムなどの一般的なアルゴリズムの知識ポイントをカバーしています。 CodeApex は問題の説明と、問題を実装する関数プロトタイプを提供し、関数の主要部分を完了するには LLM を必要とします。

CodeApex では、関数のみとコンテキスト付き関数の 2 つのシナリオが提供されます。関数のみのシナリオでは、ターゲット関数の説明のみが提供されますが、コンテキスト付き関数のシナリオでは、ターゲット関数の説明だけでなく、呼び出しコード、時間と空間の制約、および入出力の説明も提供されます。ターゲット関数。

実験結果と結論

各言語バージョンでは 2 つのプロンプト戦略 (関数のみと関数) を使用します。 -コンテキスト付き)。人間によるコードのテストシナリオに合わせて、評価メトリクスには AC@1、AC@all、および AC レートが含まれます。

各モデルのコード生成タスクの結果を次の 2 つの表に示します。 (最も優れたパフォーマンス: 太字、2 番目に優れたパフォーマンス: 下線。)

次の結論が導き出されます:

GPT3.5-turbo は、他の 11 個の LLM よりも優れたパフォーマンスを発揮します。平均スコアが 50% 以上。
WizardCoder と StarCoder が 2 位と 3 位にランクされ、コードベースの微調整によるコード生成機能の大幅な向上が強調されました。
コード生成タスクでは、中国語と英語の問題タイプで現在テストされているモデル間に明らかなパフォーマンスの違いはありません。

さらに、CodeApex では、各シナリオでコンパイル可能なコードの割合が提供されます。生成された関数を main 関数に接続した後、コンパイルされたコードがテストケースを通じてチェックされます。

ご覧のとおり:

ほとんどのモデルは 50% 以上を生成できます。コードをコンパイルします。これにより、関数プロトタイプを理解する LLM の能力が実証されます。
多くの場合、関数に関するコンテキスト情報を提供すると、LLM がコンパイル可能なコードを生成するのに役立ちます。

#結論

CodeApex は、LLM のプログラミング能力に焦点を当てたバイリンガルベンチマークとして機能し、プログラミングの理解と大規模言語のコード生成を評価します。モデルの能力。プログラミングの理解に関して、CodeApex は 3 つのカテゴリの多肢選択式質問でさまざまなモデルの能力を評価しました。コード生成の観点から、CodeApex はテストコードケースの合格率を使用してモデルの機能を評価します。これら 2 つのタスクについて、CodeApex はプロンプト戦略を慎重に設計し、さまざまなシナリオで比較しました。 CodeApex は、一般的な LLM とコードの微調整に基づく特殊な LLM モデルを含む 14 の LLM で実験的に評価されています。

現在、GPT3.5 はプログラミング機能の点で比較的良好なレベルに達しており、プログラミングの理解とコード生成タスクでそれぞれ約 50% と 56% の精度を達成しています。 CodeApex は、プログラミングタスクにおける大規模な言語モデルの可能性がまだ十分に活用されていないことを示しています。私たちは、大規模な言語モデルを活用してコードを生成することで、近い将来、ソフトウェア開発の分野に革命を起こすと予想しています。自然言語処理と機械学習が進歩するにつれて、これらのモデルはより強力になり、コードスニペットの理解と生成に熟達するでしょう。開発者は、これらのモデルを利用して退屈なタスクを自動化し、生産性を向上させ、ソフトウェアの品質を向上させることができるため、コーディング作業において前例のない味方がいることに気づくでしょう。

将来的には、CodeApex は、大規模な言語モデルのコード機能をテストするために、さらに多くのテスト (コード修正など) をリリースする予定です。CodeApex のテストデータも更新され続け、より多様な機能が追加されます。コードの問題。同時に、大規模な言語モデルのコーディング能力を人間のレベルと比較するための人体実験も CodeApex リストに追加されます。 CodeApex は、大規模言語モデルのプログラミング機能に関する研究のためのベンチマークとリファレンスを提供し、コード分野における大規模言語モデルの開発と繁栄を促進します。

APEX 研究室の紹介

上海交通大学 APEX データおよび知識管理研究室は 1996 年に設立されました。創設者は、Tou Yu 氏です。 ACMクラスの主任教師Yong教授。この研究室は、データを効果的にマイニングおよび管理し、知識を要約する人工知能テクノロジーの探究に取り組んでおり、500 を超える国際的な学術論文を発表し、実際のシナリオでの実用的な応用を追求しています。過去 27 年間にわたり、APEX 研究所は、世界のさまざまなテクノロジーの波における世界的な先駆者となりました。この研究所は、2000 年にセマンティック Web (現在はナレッジグラフとして知られています) のコアテクノロジーの研究を開始し、パーソナライズされた検索エンジンとシステム技術は、2006 年に転移学習の理論とアルゴリズムの研究を開始し、2009 年に深層学習技術の探索を開始し、GPU に基づくニューラルネットワークトレーニングライブラリを開発しました。 APEX Labは、実りある科学研究と実装結果を生み出す一方で、Xue Guirong、Zhang Lei、Lin Chenxi、Liu Guangcan、Wang Haofen、Li Lei、Dai Wenyuan、Li Zhenhui、Chenを含む堅実なデータサイエンスおよび機械学習の研究チームも開発しました。 Tianqi、Zhang Weinan、Yang Diyi をはじめとする人工知能分野の優れた卒業生。

以上が上海交通大学、大規模モデルのバイリンガルプログラミング評価ベンチマークである CodeApex をリリース機械は本当に人間のコード作成に挑戦し始めているのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです

モデル市民、なぜAI価値が次のビジネスヤードスティックであるのかMay 02, 2025 am 11:09 AM

企業のAIモデルの有効性は、現在、重要なパフォーマンス指標になっています。 AIブーム以来、生成AIは、誕生日の招待状の作成からソフトウェアコードの作成まで、すべてに使用されてきました。これにより、言語modが急増しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ドリームウィーバー CS6

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。