ホームページ >テクノロジー周辺機器 >AI >リフレクションllama-3.170b:私たちが知っていることのテストと要約

リフレクションllama-3.170b:私たちが知っていることのテストと要約

Jennifer Aniston
Jennifer Anistonオリジナル
2025-03-04 10:00:19145ブラウズ

Reflection Llama 3.1:2024年9月6日にリリースされた自己修正LLM

2024年9月6日にデビューしたllama 3.1 70b指示モデルの洗練されたバージョンであるReflection Llama 3.1。この記事では、モデル、その機能、およびそれにアクセスしてテストする方法について説明します。

Reflection llama 3.1:開発とタイムライン

モデルの起動により、ベンチマークテストではGPT-4oやClaude 3.5ソネットなどのクローズドソースモデルよりも優れたパフォーマンスを誇っています。 しかし、人為的な分析によるその後のテストにより、矛盾が明らかになりました。 顔への最初のアップロードには、重み付けエラーが含まれていました。 OpenRouterに展開された修正されたバージョンは、Claude Sonnet 3.5として予期しない自己識別を発見し、その真の基盤について疑問を投げかけました。 プライベートAPIテストではパフォーマンスが向上しましたが、独立した検証は不可能でした。このリンク[元のテキストに従って省略されたリンク]を介してアクセスできる最新のハグの顔の反復は、プライベートAPIバージョンより劣るパフォーマンスを実証しました。 再現性の問題は続き、モデルの実際の機能が不確実なままです。

リフレクションを理解するllama 3.1

Reflection Llama 3.1は、Llama 3.1 70b指示モデルを活用し、反射調整を組み込んでいます。このプロセスには次のものが含まれます

Thinking Tags():モデルには、その推論プロセスを詳しく説明しています
  • リフレクションタグ():<thinking></thinking>モデルは、その推論のエラーを識別および修正します。
  • 出力タグ(
  • ):モデルには最終的な答えが示されています <reflection></reflection> この構造化されたアプローチは、透明性と精度を向上させます。 このモデルは、Glaive AIの合成データを使用してトレーニングされ、高品質のデータセットの重要性を強調しました。 研究段階にあるにもかかわらず、MMLU、Math、GSM8Kなどのベンチマーク上の主要なクローズドソースモデルよりも優れていると伝えられています。 そのクリエイターは、今後のリフレクションLlama 405Bがこれらのモデルを大幅に上回ることを期待しています。 Google ColabでリフレクションLlama 3.1をセットアップしますリフレクションLlama 3.1へのアクセスは、適切なツールを使用して簡単です。 抱き合った顔、オラマ、双曲線ラボで利用できます。 A100 GPU(購入したコンピューティングユニットが必要)を備えたGoogle Colab Proは、70Bモデルに推奨されます。
  • ステップ1:gpuアクセス<output></output> ランタイム経由でA100 GPUに接続→ランタイムタイプを変更します。
ステップ2:Ollamaのインストールとモデルのダウンロード

colabの端子を使用して(

および

を使用して)ollama(

)をインストールし、実行(

)に実行します。 2番目の端末で、反射モデル()をダウンロードします

Reflection Llama-3.1 70B: Testing & Summary of What We Know Reflection Llama-3.1 70B: Testing & Summary of What We Know

ステップ3:langchain統合

langchain(!pip install langchain langchain_community langchain-openai langchain-ollama)をインストールし、プロンプトテンプレートを定義します(PromptTemplatefrom langchain.promptsおよびChatOllamafrom langchain_ollamaを使用)。 ChatOllama(model="reflection", temperature=0)を使用してモデルを初期化し、入力で呼び出します。 例:

reflection_model.invoke({'input': "Hi, how are you?"})

反射llama 3.1 in Action

モデルは、さまざまなプロンプトでテストされました:

  • 数値的推論:反射セクションでは矛盾が示されたが、リターンを正常に計算して比較した。
  • 単純な比較:最初は9.9と9.11を比較することで誤りがありましたが、「慎重に考えてください」を追加します。
  • カウントの発生:
  • 「r」は「ストロベリー」の「r」を正確にカウントしました あいまいさの解決:
  • 医師のなぞなぞを正しく解決し、偏見の認識を示しました。
  • 誤った情報修正:最初に、エッフェルタワーの場所について虚偽の声明を受け入れましたが、自己修正されました。
  • コモンセンスな推論:因果関係のシナリオを通じて、複数の可能性を認めて正常に推論しました。
  • コード生成:
  • 単純なヘビゲームのための機能コードを生成します。 Reflection llama 3.1:アプリケーションと制限
  • Reflection Llama 3.1の自己修正により、数学、論理、コード生成、デバッグ、ファクトチェックに適しています。 ただし、その自己修正は複雑さを追加し、速度とコストに影響を与える可能性があります。 不正確さはまだ発生する可能性があります。 今後のリフレクションLlama 405bは、大幅な改善を約束します 結論
  • Reflection Llama 3.1のリフレクションチューニングは有望な開発ですが、再現性の問題はAIモデル開発における進行中の課題を強調しています。 自己修正は価値がありますが、厳密なテストと検証は非常に重要です。
[FAQSセクションは、元のテキストのFAQの直接コピーであるため省略]

以上がリフレクションllama-3.170b:私たちが知っていることのテストと要約の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。