Arthur Bench に基づいて LLM 評価を行うにはどうすればよいですか?-AI-php.cn

ホームページ

テクノロジー周辺機器

Arthur Bench に基づいて LLM 評価を行うにはどうすればよいですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 04, 2024 am 09:40 AM

AI機密データllmの評価

皆さん、こんにちは、Luga です。今日は、人工知能 (AI) の生態分野に関連するテクノロジー、つまり LLM 評価についてお話します。

如何基于 Arthur Bench 进行 LLM 评估？

1. 従来のテキスト評価が直面する課題

近年、大規模言語モデル (LLM) の急速な開発と改善により、従来のテキスト評価はこの方法は、いくつかの点で適用できなくなる可能性があります。テキスト評価の分野では、BLEU などの「単語の出現」に基づく評価方法や、BERTScore などの「事前トレーニングされた自然言語処理モデル」に基づく評価方法などの方法を聞いたことがあるかもしれません。

これらの方法は過去にうまく機能していましたが、LLM 生態学的技術の継続的な開発により、若干不十分であり、現在のニーズを完全に満たすことができないようです。

LLM テクノロジーの急速な発展と継続的な改善により、私たちは新たな課題と機会に直面しています。 LLM の機能とパフォーマンスレベルは向上し続けているため、単語頻度に基づく評価方法 (BLEU など) では、LLM で生成されたテキストの品質と意味の正確さを完全には把握できない可能性があります。 LLM は、より流暢で一貫性があり、意味的に豊かなテキストを生成できますが、従来の単語頻度に基づく評価方法では、これらの利点を正確に評価することが困難です。

さらに、BERTScore などの事前トレーニング済みモデルに基づく評価方法も、いくつかの課題に直面しています。事前トレーニングされたモデルは多くのタスクで良好に動作しますが、LLM の特殊な特性と特定のタスクでのパフォーマンスが完全には考慮されていない可能性があります。 LLM は、特定のタスクを処理するときに、事前トレーニングされたモデルとは異なる動作やパフォーマンスを示す場合があるため、事前トレーニングされたモデルに基づく評価方法のみに依存すると、LLM の機能を完全に評価できない可能性があります。

2. LLM ガイダンス評価はなぜ必要ですか?また、それがもたらす課題は何ですか?

一般的に、実際のビジネス環境では、LLM 手法の価値は主にその「速度」に反映されます。「感度」、この2つの側面が最も重要な評価指標となります。

1. 効率的

まず、一般的に言えば、実装が速くなります。以前の評価パイプラインで必要な作業量と比較して、LLM ガイドによる評価の最初の実装の作成は比較的迅速かつ簡単です。 LLM ガイドによる評価の場合、準備する必要があるのは 2 つだけです。評価基準を言葉で説明することと、プロンプトテンプレートで使用するための例をいくつか提供することです。推定器として機能する独自の事前トレーニング済み NLP モデルを構築 (または既存の NLP モデルを微調整) するのに必要な作業とデータ収集の量と比較すると、LLM を使用してこれらのタスクを実行する方が効率的です。 LLM を使用すると、評価基準の反復がはるかに高速になります。

2. 感度

LLM は通常、より高い感度を示します。 LLM は、事前トレーニングされた NLP モデルや前述の評価方法よりも柔軟にさまざまな状況を処理できるため、この感度には良い面がある可能性があります。ただし、この感度の高さにより、LLM 評価結果の予測が困難になる可能性もあります。 LLM の入力データの小さな変更が大きな影響を与える可能性があり、特定のタスクを処理するときに大きな変動性を示す可能性があります。したがって、LLM を評価するときは、結果の安定性と信頼性を確保するために、その感度に特別な注意を払う必要があります。

前に説明したように、LLM 評価は他の評価方法よりも敏感です。 LLM をエバリュエーターとして構成するにはさまざまな方法があり、その動作は選択した構成に応じて大きく異なります。一方、別の課題は、評価に含まれる推論ステップが多すぎる場合、または同時に処理する変数が多すぎる場合に、LLM 評価者が行き詰まってしまう可能性があることです。

LLM の特性により、さまざまな構成やパラメータ設定によって評価結果が影響を受ける可能性があります。つまり、LLM を評価するときは、期待どおりに動作するようにモデルを慎重に選択し、構成する必要があります。構成が異なると出力結果も異なる場合があるため、評価者は、正確で信頼性の高い評価結果を得るために、ある程度の時間と労力をかけて LLM の設定を調整および最適化する必要があります。

さらに、評価者は、複雑な推論や複数の変数の同時処理を必要とする評価タスクに直面すると、いくつかの課題に直面する可能性があります。これは、複雑な状況を扱う場合、LLM の推論能力が制限される可能性があるためです。 LLM では、評価の正確さと信頼性を確保するために、これらのタスクに対処するために追加の努力が必要になる場合があります。

3. Arthur Bench とは何ですか?

Arthur Bench は、生成テキストモデル (LLM) のパフォーマンスを比較するために使用されるオープンソースの評価ツールです。これを使用して、さまざまな LLM モデル、キュー、ハイパーパラメーターを評価し、さまざまなタスクでの LLM パフォーマンスに関する詳細なレポートを提供できます。

Arthur Bench の主な特徴:Arthur Bench の主な特徴:

異なる LLM モデルの比較: Arthur Bench を使用すると、異なるベンダーのモデル、異なるバージョンのモデル、異なるトレーニングデータセットを使用したモデルなど、異なる LLM モデルのパフォーマンスを比較できます。
ヒントの評価: Arthur Bench を使用して、LLM パフォーマンスに対するさまざまなヒントの影響を評価できます。プロンプトは、LLM によるテキストの生成をガイドするために使用される指示です。
ハイパーパラメータのテスト: Arthur Bench を使用して、LLM パフォーマンスに対するさまざまなハイパーパラメータの影響をテストできます。ハイパーパラメータは、LLM の動作を制御する設定です。

一般に、Arthur Bench ワークフローには主に次の段階が含まれており、具体的な詳細分析は次のとおりです。

如何基于 Arthur Bench 进行 LLM 评估？

1. タスクの定義

この段階では、評価目標を明確にする必要があります。Arthur Bench は、次のようなさまざまな評価タスクをサポートします。

Q&A: オープン向け LLM のテスト-終了、課題あいまいな、またはあいまいな質問を理解し、答える能力。
要約: テキストから重要な情報を抽出し、簡潔な要約を生成する LLM の能力を評価します。
翻訳: 異なる言語間で正確かつ流暢に翻訳する LLM の能力を調べます。
コード生成: 自然言語記述に基づいてコードを生成する LLM の機能をテストします。

2. モデルの選択

この段階では、主に評価対象の選択を行います。 Arthur Bench は、GPT-3、LaMDA、Megatron-Turing NLG など、OpenAI、Google AI、Microsoft などの有名な機関の最先端テクノロジーをカバーする、さまざまな LLM モデルをサポートしています。研究のニーズに基づいて、評価用の特定のモデルを選択できます。

3.パラメータ設定

機種選定が完了したら、微調整に進みます。 LLM パフォーマンスをより正確に評価するために、Arthur Bench ではユーザーがヒントとハイパーパラメーターを構成できるようにしています。

ヒント: 生成されるテキスト (質問、説明、指示など) の方向と内容について LLM をガイドします。
ハイパーパラメータ: LLM の動作を制御する主要な設定 (学習率、トレーニングステップ数、モデルアーキテクチャなど)。

洗練された構成により、さまざまなパラメータ設定の下での LLM のパフォーマンスの違いを深く調査し、より参考値のある評価結果を得ることができます。

4. 評価の実行: 自動プロセス

最後のステップは、自動プロセスを利用してタスク評価を実行することです。通常、Arthur Bench は、評価タスクを実行するための簡単な構成を必要とする自動評価プロセスを提供します。次の手順が自動的に実行されます。

LLM モデルを呼び出し、テキスト出力を生成します。
特定のタスクについては、対応する評価指標を適用して分析します。
詳細なレポートを作成し、評価結果を提示します。

4. Arthur Bench の使用シナリオ分析

高速なデータ駆動型 LLM 評価の鍵として、Arthur Bench は主に、特に次のようなソリューションを提供します:

1. モデルの選択と検証

モデルの選択と検証は、人工知能の分野において重要なステップであり、モデルの有効性と信頼性を確保するために非常に重要です。このプロセスにおいて、アーサー・ベンチの役割は極めて重要でした。彼の目標は、一貫した指標と評価方法を使用して、多くの大規模言語モデル (LLM) オプションの中から情報に基づいた意思決定を行えるよう、信頼できる比較フレームワークを企業に提供することです。

如何基于 Arthur Bench 进行 LLM 评估？

Arthur Bench は、専門知識と経験を活かして各 LLM オプションを評価し、一貫した指標を使用してメリットとデメリットを比較します。同氏は、企業が情報に基づいた明確な選択を行えるように、モデルのパフォーマンス、精度、速度、リソース要件などの要素を考慮します。

Arthur Bench は、一貫した指標と評価手法を使用することで、企業に信頼できる比較フレームワークを提供し、企業が各 LLM オプションの利点と制限を完全に評価できるようにします。これにより、企業は情報に基づいた意思決定を行い、人工知能の急速な進歩を最大限に活用し、アプリケーションで可能な限り最高のエクスペリエンスを保証できるようになります。

2. 予算とプライバシーの最適化

人工知能モデルを選択する場合、すべてのアプリケーションが最先端または高価な大規模言語モデル (LLM) を必要とするわけではありません。場合によっては、より安価な AI モデルを使用してミッション要件を満たすことができます。

この予算最適化アプローチは、企業が限られたリソースで賢明な選択を行うのに役立ちます。最も高価なモデルや最先端のモデルを選ぶのではなく、特定のニーズに基づいて適切なモデルを選択してください。より手頃な価格のモデルは、いくつかの面で最先端の LLM よりもパフォーマンスが若干劣る可能性がありますが、一部の単純なタスクや標準的なタスクについては、Arthur Bench が依然としてニーズを満たすソリューションを提供できます。

さらに、Arthur Bench 氏は、このモデルを社内に導入することで、データプライバシーの管理を強化できると強調しました。機密データやプライバシー問題を伴うアプリケーションの場合、企業は外部のサードパーティ LLM に依存するのではなく、内部でトレーニングされた独自のモデルを使用することを好む場合があります。内部モデルを使用することで、企業はデータの処理と保存をより詳細に制御し、データのプライバシーをより適切に保護できます。

3. アカデミックベンチマークを現実世界のパフォーマンスに変換する

アカデミックベンチマークとは、学術研究で確立されたモデルの評価指標と手法を指します。これらの指標と手法は通常、特定のタスクまたはドメインに固有であり、そのタスクまたはドメインにおけるモデルのパフォーマンスを効果的に評価できます。

ただし、学術的なベンチマークは、現実世界のモデルのパフォーマンスを必ずしも直接反映するとは限りません。これは、現実世界のアプリケーションシナリオはより複雑であることが多く、データ分散、モデル展開環境など、より多くの要素を考慮する必要があるためです。

Arthur Bench は、学術的なベンチマークを現実世界のパフォーマンスに変換するのに役立ちます。この目標は次の方法で達成されます:

モデルの精度、効率、堅牢性などの複数の側面をカバーする包括的な評価指標のセットを提供します。これらの指標は、学術的なベンチマークに基づくモデルのパフォーマンスを反映するだけでなく、現実世界におけるモデルの潜在的なパフォーマンスも反映します。
複数のモデルタイプをサポートし、異なるタイプのモデルを比較できます。これにより、企業はアプリケーションシナリオに最適なモデルを選択できるようになります。
企業がさまざまなモデルのパフォーマンスの違いを直観的に理解できるようにする視覚的な分析ツールを提供します。これにより、企業はより簡単に意思決定を行うことができます。

5. Arthur Bench の機能分析

高速なデータ駆動型 LLM 評価の鍵として、Arthur Bench には次の機能があります:

1. フルスコアメトリックのセット

Arthur Bench には、概要品質からユーザーエクスペリエンスまですべてをカバーする包括的なスコアメトリックセットがあります。これらのスコアリング指標をいつでも使用して、さまざまなモデルを評価および比較できます。これらのスコア指標を組み合わせて使用すると、各モデルの長所と短所を完全に理解するのに役立ちます。

これらのスコア指標の範囲は非常に広く、要約の品質、正確さ、流暢さ、文法の正しさ、文脈理解能力、論理的一貫性などが含まれますが、これらに限定されません。 Arthur Bench は、これらの指標に照らして各モデルを評価し、その結果を総合的なスコアに結合して、企業が情報に基づいた意思決定を行えるように支援します。

さらに、企業に特定のニーズや懸念事項がある場合、Arthur Bench は企業の要件に基づいてカスタムスコアリング指標を作成および追加できます。これは、企業固有のニーズをより適切に満たし、評価プロセスが企業の目標および基準と一致していることを確認するために行われます。

如何基于 Arthur Bench 进行 LLM 评估？

#2. ローカルバージョンとクラウドベースバージョン

ローカル展開と自律制御を希望する場合は、 GitHub リポジトリにアクセスし、Arthur Bench をローカル環境にデプロイします。このようにして、誰もが Arthur Bench の操作を完全に習得および制御し、自分のニーズに応じてカスタマイズおよび構成することができます。

一方、利便性と柔軟性を好むユーザーには、クラウドベースの SaaS 製品も利用できます。クラウド経由で Arthur Bench にアクセスして使用するために登録することを選択できます。この方法により、ローカルでの面倒なインストールや設定が不要となり、提供される機能やサービスをすぐに利用することができます。

3. 完全なオープンソース

オープンソースプロジェクトとして、Arthur Bench は透明性、スケーラビリティ、コミュニティコラボレーションの点で典型的なオープンソースの特徴を示しています。このオープンソースの性質は、プロジェクトがどのように機能するかをより深く理解し、ニーズに合わせてカスタマイズおよび拡張するための豊富な利点と機会をユーザーに提供します。同時に、Arthur Bench のオープン性は、ユーザーがコミュニティのコラボレーションに積極的に参加し、他のユーザーと協力して開発することも奨励します。このオープンな協力モデルは、プロジェクトの継続的な開発と革新を促進すると同時に、ユーザーにとってより大きな価値と機会を生み出すのに役立ちます。

つまり、Arthur Bench は、ユーザーが評価指標をカスタマイズできるオープンで柔軟なフレームワークを提供し、金融分野で広く使用されています。アマゾンウェブサービスおよび Cohere とのパートナーシップによりフレームワークがさらに進化し、開発者が Bench 用の新しいメトリクスを作成し、言語モデル評価の分野の進歩に貢献することが奨励されます。

参考:

[2] https://neurohive.io/ en/news/arthur-bench-framework-for-evaluating-lang-models/

以上がArthur Bench に基づいて LLM 評価を行うにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

顔を抱きしめます＆＃039; S 7BモデルオリンピックコダーはClaude 3.7を破っていますか？Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める：強力なオープンソースコード推論モデル優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました：Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか？私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため（強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります）、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか？確実性と非決定的プロセスの統合同社は、鍵はユーザー（通常はデータサイエンティスト、ソフトウェア）を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか？Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。エージェントスペース（ここで説明）とカスタマーエクスペリエンススイート（ここで説明）に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は？Apr 23, 2025 am 11:44 AM

検索拡張生成（RAG）システムのための最適な多言語埋め込みモデルの選択今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク：オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ：マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI＆＃x27;の衝撃的なピボット：作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています！報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。一方、マーケティングタスク（ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど）は、一般的な使用リストではるかに低くランク付けされています。なぜこれがなぜですか？研究の結果とそれがどのように続くかを見てみましょう

企業はAIエージェントの採用に向けて競い合っていますApr 23, 2025 am 11:40 AM

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。人間の意思決定-makiをシミュレートする能力

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、