ホームページ >テクノロジー周辺機器 >AI >Marco-O1対Llama 3.2:どちらが良いですか?
OpenaiのO1モデルは、複雑な問題に取り組む高度な機能により、大きな推論モデル(LRMS)の分野でかなりの興奮を生み出しています。この基盤に基づいて、Marco-O1は、数学やコーディングなどの伝統的な分野を強調するだけでなく、さまざまなドメインにわたってオープンエンドの問題解決を優先する新しいLRMとして発生します。 MARCO-O1の重要な焦点は、O1モデルがその推論能力を明確な基準と定量化可能な報酬を欠く領域に一般化できる程度を調査することです。この調査は、従来のメトリックが適用されない現実世界のシナリオでLRMの潜在的なアプリケーションを理解するために重要です。
この記事は、データサイエンスブログソンの一部として公開されました。
Marco-O1は、オープンエンドの問題解決タスクに取り組むように設計されたAlibaba International Digital CommerceのMarcopoloチームによって開発された高度な推論モデルです。
QWEN2アーキテクチャに基づいて構築されており、洗練されたチェーンオブシェアの組み合わせ(COT)の微調整とモンテカルロツリーサーチ(MCTS)技術を使用して、その推論機能を強化します。
フィルター処理されたオープンO1 COTデータセット、Marco-O1 COTデータセット、およびMarco-O1命令データセットの組み合わせとQWEN2-7B-Instructを微調整することにより、Marco-O1は複雑なタスクの取り扱いを改善しました。
下の画像は、MARCO-01の推論プロセスを示しており、Open-01 CotやMarco-01 Cotなどのデータセットの使用を詳述しています。このプロセスには、迅速なパスの選択、MCTの実行、およびより良い精度のために監視された微調整を適用することが含まれます。これは、自信のスコアで最終回答の生成につながります。
これは、AIモデルが複数のステップを介した推論、意思決定の最適化、より正確な予測と応答のための不確実性の組み込みなど、複雑なタスクを処理できるようにする洗練された方法に焦点を当てています。
MCTSは、ランダムサンプリングを通じてすべての可能な答えを調査することにより、ユーザークエリに対する最良の回答を決定するために使用されます。上記の図に示すように、MCTSでは、さまざまな推論パスと黄色のnodesspeciveがさらなる探索のために選択されています。緑色のノードは最終的な回答を表し、「選択」や「バックアップ」などの矢印は、システムが選択肢を評価および改良する方法を示しています。
システムは、確率(式に示されている)を使用して回答を生成した後、最終出力を改良した後に信頼性スコアを計算します。
このモデルは、広いレベルの推論(ステップレベル)とマルチステップ推論(ミニステップレベル)の2つのレベルで動作できます。
MCTS検索では、さまざまなレベルの粒度が調査されました。モデルの検索スペースを拡張し、問題解決機能を強化するために、手順は「ミニステップ」と呼ばれる64または32トークンの小さな単位に分割されました。この細かい粒度により、モデルは推論パスをより詳細に探索することができました。
「待ってください!多分私はいくつかの間違いを犯しました!ゼロから再考する必要があります。」各思考プロセスの終わりに。これにより、モデルはその推論ステップを自己反映し、再評価するよう促します。この反射は、特に元のモデルが最初に誤って解決した困難な問題について、モデルの大幅な改善をもたらしました。
MARCO-O1は特に効果的です。
Llama 3.2モデルには、モバイルおよびエッジデバイス向けに設計された10億(1b)および30億(3b)パラメーターテキストモデルが含まれており、要約や命令以下などのアプリケーションの効率的なパフォーマンスに焦点を当てています。
Llama 3.2は、公的に利用可能なソースから9兆個のトークンで事前に処理され、より大きなモデル(LLAMA 3.1など)の知識蒸留技術を組み込み、パフォーマンスを維持しながらパフォーマンスを強化しました。
Llama 3.2 3bは、特定の分野、特に推論タスクで顕著なパフォーマンスを実証しました。 ARCチャレンジでは、78.6のスコアを達成し、Gemmaの76.7を上回りましたが、Phi-3.5-Miniのすぐ後ろに87.4を獲得しました。同様に、Hellawagのベンチマークでは、Llama 3.2 3bは69.8を獲得し、Gemmaを上回り、PHIと競争力を維持しました。
したがって、Python実装の次の実例では、2つのモデル(Marco-O1とLlama 3.2 3b)に関する推論に基づいた質問の比較評価を行います。この比較評価は、主に、MARCO-O1からの出力が推論ベースの質問に実際に優れているかどうかを確認するために行われます。
Ollamaは、ユーザーがローカルで(CPUモードとGPUモードで)大きな言語モデルを簡単にセットアップして実行できるようにする高度なAIツールです。以下の手順でOllamaを使用してGoogle Colabでこれらのモデルを実行する方法について説明します。
以下に必要なすべてのライブラリをインストールします。
!sudo aptアップデート !sudo apt install -y pciutils !ピップインストールlangchain-ollama !curl -fssl https://ollama.com/install.sh | sh !ピップインストールollama == 0.4.2
このステップでは、OllamaがGoogle Colabで効率的に実行できるようにスレッドを設定します。スレッドは、タスクの並行して実行され、遅延なしでスムーズなパフォーマンスとより速い処理を確保します。このセットアップは、コラブ環境内でリソース集約型の操作をシームレスに実行するために重要です。
スレッドをインポートします サブプロセスをインポートします インポート時間 def run_ollama_serve(): subprocess.popen(["ollama"、 "serve"])) スレッド= threading.thread(ターゲット= run_ollama_serve) thread.start() time.sleep(5)
!Ollama Pull Marco-O1
MARCO-O1をLlAMA3.2に置き換えることにより、同じコードを使用してllama3.2モデルをプルすることができます。
このステップでは、入力に基づいて応答または洞察を取得するためにモデルにクエリを送信することが含まれます。テキストの生成や質問への回答などのタスクのモデルと対話するのに役立ちます。
langchain_core.promptsからchatprompttemplateをインポートします langchain_ollama.llmsからOllamallmをインポートします iPython.displayからマークダウンをインポートします Template = "" "質問:{質問}" "" prompt = chatprompttemplate.from_template(テンプレート) Model = Ollamallm(model = "marco-o1") チェーン=プロンプト|モデル #呼び出しのために入力を準備します input_data = { 「質問」:「私は2つのリンゴを持っています、そして私はさらに2つを買います。 2枚のリンゴでパイを焼きます。パイの半分を食べた後、私はいくつのリンゴを残しましたか?」} #入力データを使用してチェーンを呼び出し、マークダウン形式で応答を表示します Response = Chain.Invoke(input_data) ディスプレイ(マークダウン(応答))
このセクションでは、MARCO-O1とLLAMA 3.2の出力を比較し、複雑な推論タスクとリアルタイムアプリケーションの処理における強みと違いを強調します。彼らの回答を調べることにより、各モデルが問題解決にどのようにアプローチし、異なるユースケースに適応するかをよりよく理解できます。
「私は2つのリンゴを持っています、それから私はさらに2つを買います。 2枚のリンゴでパイを焼きます。食べた後<br>パイの半分は、いくつのリンゴを残しましたか?」
どちらのモデルも正確な応答を提供しますが、Marco-O1はLlama 3.2と比較してより詳細な説明を提供します。
「イチゴにはいくつですか?」
上記の出力からわかるように、Llama 3.2モデルからの応答は不正確ですが、Marco-O1モデルからの応答は正確です。
「10ユニットのベースと5ユニットの高さを持つ三角形の面積は?」
上記の出力からわかるように、両方のモデルは正確な応答を与えますが、Marco-O1モデルからの応答はLlama 3.2と比較してもう少し説明されています。
「車が20,000ドルの費用がかかり、毎年1,000ドル減価償却された場合、どれくらいの金額になりますか<br>3年後に価値がありますか?」
上記の出力からわかるように、両方のモデルは正確な応答を与えますが、Marco-O1モデルからの応答はLlama 3.2と比較してもう少し説明されています。
「すべての鳥は飛ぶことができます。ペンギンは鳥です。ペンギンは飛ぶことができますか?」
上記の出力からわかるように、両方のモデルが正確な応答を与えても、MARCO-O1モデルからの応答は、Llama 3.2と比較して回答に到達するための多くの議論と二重チェックをより説明し、詳細に説明しています。
「オリバーは金曜日に44キウイを選び、土曜日に58を選びます。日曜日に、彼は金曜日にしたことを2倍に選びますが、そのうち5人は平均よりも小さかった。オリバーには何人のキウイがいますか?」
上記の出力からわかるように、両方のモデルが正確な応答を与えているにもかかわらず、Llama 3.2からの応答は、クエリで提供されている追加情報(ただし、5つは平均よりも小さかった)と混同されるため、実際の回答から5を減算します。ただし、Marco-O1からの出力は、詳細な説明とともに正確です。
」ジョンはピーナッツにアレルギーがあります。彼はピーナッツバターサンドイッチを食べて、元気に感じました。何<br> ジョンのアレルギーについて結論付けることはできますか?」
Marco-O1モデルからの応答からわかるように、答えに到達するために多くの議論と二重チェックを提示して、多くの説明と詳細なものです。 Llama 3.2からの応答は、「彼は単に胃の動揺またはピーナッツバターに対する不寛容を持っていた」という情報が不正確であり、クエリに記載されている情報と矛盾しているため、完全に正確ではないようです。
タスク | Marco-O1パフォーマンス | Llama 3.2(3Bモデル)パフォーマンス | 勝者 |
---|---|---|---|
タスク1:論理的推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク2:ストロベリーテスト | 正確な | 不正確 | Marco-O1 |
タスク3:ジオメトリの推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク4:ステップバイステップの推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク5:あいまいさのある三段論法 | 精巧な説明とダブルチェックで正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク6:脆弱な数学的コンテキスト | 詳細な説明で正確です | 不正確(追加情報に混乱する) | Marco-O1 |
タスク7:矛盾した情報 | 精巧な説明とダブルチェックで正確です | 不正確(矛盾した情報を提供) | Marco-O1 |
MARCO-O1モデルは、特にモンテカルロツリーの検索と考え方の微調整を革新的に使用することにより、複雑な推論タスクを処理するAIの能力の大きな進歩を表しています。数学、物理学、多言語タスクなどのさまざまなドメインにわたる汎用性は、従来のモデルとは一線を画しています。一方、LLAMA 3.2モデルは、要約や命令のフォローするなどのタスクに優れているエッジデバイスの効率的なパフォーマンスを提供します。どちらのモデルも、それぞれが独自のドメインで優れているAIの進行中の進化を紹介し、一緒になって、実際の課題を解決する上で高度な言語モデルの幅広い可能性を強調しています。
A. Marco-O1は、手元のタスクの複雑さに基づいて推論戦略を調整し、課題を管理可能なステップに分解し、モンテカルロツリー検索を使用してさまざまなソリューションパスを調査して最適なアプローチを見つけます。
Q2。モンテカルロツリー検索(MCTS)は、Marco-O1の推論能力をどのように強化しますか?A. MCTSにより、MARCO-O1は特定の問題に対する複数の潜在的なソリューションを探索し、ランダムサンプリングを通じて最も有望なパスを選択し、より正確で効率的な問題解決につながります。
Q3。 Marco-O1の反射メカニズムの目的は何ですか?A.反射メカニズムにより、MARCO-O1は各プロセスの終了時に推論ステップを再評価し、モデルが精度を向上させ、特に非常に複雑なクエリの回答を改善することができます。
Q4。 Marco-O1とLlama 3.2は、複雑な推論タスクの処理に関してどのように比較されますか?A. MARCO-O1は、チェーンの考え方やMCTなどの高度な技術を使用して、複雑な推論タスクに取り組むことに特化しています。 Llama 3.2は、モバイルおよびエッジデバイスで効率的でリアルタイムのアプリケーションに優れており、コンテキスト処理が拡張されています。
Q5。 Llama 3.2モデルの軽量設計の重要性は何ですか?A. Llama 3.2の軽量設計により、モバイルおよびエッジデバイスへの展開に最適であり、要約や多言語の相互作用などの多様なタスクを処理する機能を維持しながら、効率的なパフォーマンスを提供します。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がMarco-O1対Llama 3.2:どちらが良いですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。