ホームページ >テクノロジー周辺機器 >AI >リフレクションllama-3.170b：私たちが知っていることのテストと要約

リフレクションllama-3.170b：私たちが知っていることのテストと要約

Jennifer Anistonオリジナル: 2025-03-04 10:00:19145ブラウズ

Reflection Llama 3.1：2024年9月6日にリリースされた自己修正LLM

2024年9月6日にデビューしたllama 3.1 70b指示モデルの洗練されたバージョンであるReflection Llama 3.1。この記事では、モデル、その機能、およびそれにアクセスしてテストする方法について説明します。

Reflection llama 3.1：開発とタイムライン

モデルの起動により、ベンチマークテストではGPT-4oやClaude 3.5ソネットなどのクローズドソースモデルよりも優れたパフォーマンスを誇っています。しかし、人為的な分析によるその後のテストにより、矛盾が明らかになりました。顔への最初のアップロードには、重み付けエラーが含まれていました。 OpenRouterに展開された修正されたバージョンは、Claude Sonnet 3.5として予期しない自己識別を発見し、その真の基盤について疑問を投げかけました。プライベートAPIテストではパフォーマンスが向上しましたが、独立した検証は不可能でした。このリンク[元のテキストに従って省略されたリンク]を介してアクセスできる最新のハグの顔の反復は、プライベートAPIバージョンより劣るパフォーマンスを実証しました。再現性の問題は続き、モデルの実際の機能が不確実なままです。

リフレクションを理解するllama 3.1

Reflection Llama 3.1は、Llama 3.1 70b指示モデルを活用し、反射調整を組み込んでいます。このプロセスには次のものが含まれます

Thinking Tags（）：モデルには、その推論プロセスを詳しく説明しています

リフレクションタグ（）：<thinking></thinking>モデルは、その推論のエラーを識別および修正します。
）：モデルには最終的な答えが示されています <reflection></reflection> この構造化されたアプローチは、透明性と精度を向上させます。このモデルは、Glaive AIの合成データを使用してトレーニングされ、高品質のデータセットの重要性を強調しました。研究段階にあるにもかかわらず、MMLU、Math、GSM8Kなどのベンチマーク上の主要なクローズドソースモデルよりも優れていると伝えられています。そのクリエイターは、今後のリフレクションLlama 405Bがこれらのモデルを大幅に上回ることを期待しています。 Google ColabでリフレクションLlama 3.1をセットアップしますリフレクションLlama 3.1へのアクセスは、適切なツールを使用して簡単です。抱き合った顔、オラマ、双曲線ラボで利用できます。 A100 GPU（購入したコンピューティングユニットが必要）を備えたGoogle Colab Proは、70Bモデルに推奨されます。
ステップ1：gpuアクセス<output></output> ランタイム経由でA100 GPUに接続→ランタイムタイプを変更します。

ステップ2：Ollamaのインストールとモデルのダウンロード

colabの端子を使用して（

および

を使用して）ollama（

）をインストールし、実行（

）に実行します。 2番目の端末で、反射モデル（）をダウンロードします

ステップ3：langchain統合

langchain（!pip install langchain langchain_community langchain-openai langchain-ollama）をインストールし、プロンプトテンプレートを定義します（PromptTemplatefrom langchain.promptsおよび~~ChatOllamafrom langchain_ollamaを使用）。 ChatOllama(model="reflection", temperature=0)を使用してモデルを初期化し、入力で呼び出します。例：~~

reflection_model.invoke({'input': "Hi, how are you?"})

反射llama 3.1 in Action

モデルは、さまざまなプロンプトでテストされました：

数値的推論：反射セクションでは矛盾が示されたが、リターンを正常に計算して比較した。

単純な比較：最初は9.9と9.11を比較することで誤りがありましたが、「慎重に考えてください」を追加します。
カウントの発生：
「r」は「ストロベリー」の「r」を正確にカウントしましたあいまいさの解決：
医師のなぞなぞを正しく解決し、偏見の認識を示しました。
誤った情報修正：最初に、エッフェルタワーの場所について虚偽の声明を受け入れましたが、自己修正されました。

コモンセンスな推論：因果関係のシナリオを通じて、複数の可能性を認めて正常に推論しました。
コード生成：
単純なヘビゲームのための機能コードを生成します。 Reflection llama 3.1：アプリケーションと制限

Reflection Llama 3.1の自己修正により、数学、論理、コード生成、デバッグ、ファクトチェックに適しています。ただし、その自己修正は複雑さを追加し、速度とコストに影響を与える可能性があります。不正確さはまだ発生する可能性があります。今後のリフレクションLlama 405bは、大幅な改善を約束します結論
Reflection Llama 3.1のリフレクションチューニングは有望な開発ですが、再現性の問題はAIモデル開発における進行中の課題を強調しています。自己修正は価値がありますが、厳密なテストと検証は非常に重要です。
[FAQSセクションは、元のテキストのFAQの直接コピーであるため省略]

以上がリフレクションllama-3.170b：私たちが知っていることのテストと要約の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

pip define for while cURL Error math using private Reflection copy this location input gpt llama langchain prompt Access Foundation Game Prompt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Elon Musk＆＃039; s Grok 3：パフォーマンス、アクセス方法など次の記事：Elon Musk＆＃039; s Grok 3：パフォーマンス、アクセス方法など

続きを見る