AI2の画期的なOlmo 2言語モデルは完全にオープンソースであり、大規模な言語モデル(LLMS)の分野でのパフォーマンスと透明性のための新しいベンチマークを設定します。これらの自己回帰モデルは、最適化されたトレーニング、革新的なデータ混合物、および高度な指導チューニング技術を誇っています。詳細を掘り下げましょう。
「誰もがオープンソースの言語モデルを望んでいますが、これらの重いお尻の重みを持ち上げたい人はいません。」 - ネイサンランバート(@natolambert)
このツイートは、AI2が克服した課題を完全にカプセル化します。彼らの「2 Olmo 2 Furious」の論文は、彼らの成功を詳述しています。
目次
- 2 Olmo 2 Furious:深いダイビング
- OLMO 2の主要な機能
- 堅牢なトレーニング安定性
- 最適化されたデータブレンド
- アーキテクチャの強化
- トレーニング後の改良
- インフラストラクチャ:重要な成分
- Olmo 2ベンチマーク:パフォーマンスの比較
- OLMO 2の経験
- OLMO 2へのアクセス:キーリンク
- 結論
2 Olmo 2 Furious:深いダイビング
7Bおよび13Bパラメーターサイズで利用可能なOLMO 2は、完全な透明性を通じてそれ自体を区別します。 AI2は、トレーニングデータ、コード、レシピ、さらには中級チェックポイントを公開し、コラボレーションを促進し、研究を加速しています。これらのモデルは、Llama 3.1やQwen 2.5などの業界リーダーに匹敵するパフォーマンスを提供しますが、効率が大幅に向上しています。
「2 Olmo 2 Furious」の研究論文は、包括的な詳細を提供しています。
OLMO 2の主要な機能
堅牢なトレーニング安定性
Olmo 2は、共通のトレーニング不安定性(損失スパイク)を使用しています。
- データの改良:冗長n-gramsのフィルタリング。
- 改善された初期化:標準化された初期化スキーム。
- 正則化: Z-Lossを使用して、出力ロジットを安定させます。
これらの改善により、よりスムーズなトレーニングとより大きなデータセットの効率的な取り扱いが可能になります。
最適化されたデータブレンド
Olmo 2は、2段階の事前トレーニングアプローチを採用しています。
- 初期の事前トレーニング:高品質のWebデータの5兆トークンを活用します。
- トレーニングの中間強化:統合ドメイン固有のデータセット(数学、STEM)、Dolmino Mix 1124データセットによって例示されます。
アーキテクチャの強化
Olmo 2のアーキテクチャが組み込まれています。
- RMSNORM:安定した活性化正規化の場合。
- 並べ替えられたレイヤーノルム:注意とフィードフォワードレイヤー出力を正規化することにより、安定性を向上させます。
- 高解像度の位置エンコーディング:解像度が増加した回転位置埋め込み。
これらのアーキテクチャの選択は、スケーラビリティと効率に貢献します。
トレーニング後の改良
Olmo 2のトレーニング後のトレーニングは、Tülu3レシピを活用して、次のことに焦点を当てています。
- 監視された微調整(SFT):指示に従う能力を洗練します。
- 検証可能な報酬による強化学習(RLVR):特定のタスクのパフォーマンスの最適化(数学、事実上の推論)。
これにより、GSM8KやMMLUなどのベンチマークで優れているOLMO 2インストラクションモデルが生まれます。
インフラストラクチャ:重要な成分
AI2の高度なインフラストラクチャは、OLMO 2の成功に不可欠です。
- 高性能コンピューティングクラスター:複数のデータセンターでNVIDIA H100 GPUを利用しています。
- ビーカーワークロード管理:効率的なワークロードの分布と監視。
この堅牢なインフラストラクチャは、トレーニングの中断を最小限に抑え、リソースの利用を最大化します。
Olmo 2ベンチマーク:パフォーマンスの比較
Olmo 2は、特にDolmino Mix 1124を含めることで、特定のタスクでQwen 2.5およびLlama 3.1を頻繁に上回ります。また、驚くべき効率を示し、最大20%のフロップで同等または優れた結果を達成します。
OLMO 2の経験
モデルにアクセスして、自分で試してみてください!ローカル使用の手順も利用できます。
OLMO 2へのアクセス:キーリンク
- 論文: https://www.php.cn/link/cb14acf78723becd7023f4f56027ce
- ブログ: https://www.php.cn/link/96b0548661234c39ac2a02872f8cfcb2
- デモ: https://www.php.cn/link/3eebaed369eb3ae36a90f310fc33638c
- コレクション: https://www.php.cn/link/ae3b166c302150f4def9a8176fd36460
結論
Olmo 2は、透明性と革新を優先するオープンソースAIの大きな進歩を表しています。リソースを公然と共有することにより、AI2はコラボレーションを促進し、フィールドの進歩を加速し、AIアプリケーションの将来を推進します。
以上がOLMO 2:完全にオープンソースの基礎モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

Dreamweaver Mac版
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません
