ホームページ >ハードウェアチュートリアル >ハードウェアのレビュー >SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます
上海ジョートン大学、上海AIラボ、香港中国大学の研究者は、Visual Language Mockups(LVLM)のパフォーマンスを大幅に向上させるために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。
視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。
Visual-RFTの利点:
従来の視覚指導微調整(SFT)メソッドと比較して、Visual-RFTには次の重要な利点があります。
研究者は、複数の視覚認識タスク(検出、分類、場所など)の視覚RFTを検証し、結果は、視覚RFTがオープンな語彙および小規模サンプル学習の設定でも容易なパフォーマンスの改善を達成し、能力転送を容易に達成したことを示しました。
研究者は、さまざまなタスクに対応する検証可能な報酬を設計しました。Iouベースの報酬は、検出および配置タスクに使用され、分類正しさベースの報酬が分類タスクに使用されます。
推論の位置決めタスクでは、Visual-RFTは、アスリートが写真で着用する必要がある防水メガネを正確に識別するなど、強力な視覚的推論機能を実証します。
実験結果:
QWEN2-VL 2B/7Bモデルに基づく実験は、視覚RFTがオープンオブジェクト検出、小さなサンプル検出、細粒分類、推論の位置決めタスクにおいてSFTよりも優れていることを示しています。 特定のアニメキャラクター(SLIMEなど)を検出したとしても、少量のデータでVisual-RFTを実現できます。
オープンソース情報:
Visual-RFTプロジェクトはオープンソースであり、トレーニング、評価コード、データが含まれています。
プロジェクトアドレス: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
以上がSFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。