ホームページ > 記事 > テクノロジー周辺機器 > 清華大学の壁に面したインテリジェントなオープンソース中国マルチモーダル大型モデル VisCPM: 対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画機能を備えています
2020年12月にリリースされたCPM-1は中国初の大型モデルで、2022年9月にリリースされたCPM-Antはパラメータの0.06%を微調整するだけでフルパラメータ微調整効果を超えることができます。 2023 年 5 月にリリースされた WebCPM は、中国初の検索ベースの質問と回答のオープンソース モデルです。 CPM-Bee数百億モデルは同チームがリリースした最新のベースモデルで、中国語能力は権威あるリストZeroCLUEで第1位、英語能力はLLaMAと同等。
大型モデルCPMシリーズは画期的な成果を重ね、国内大型モデルをトップに導き、このたびリリースされたVisCPMもまたその証しです。 VisCPM は、Wall-face Intelligence、清華大学 NLP 研究所、および OpenBMB の Zhihu が共同でオープンソース化したマルチモーダル大規模モデル シリーズです。VisCPM-Chat モデルは、中国語と英語のバイリンガル マルチモーダル対話機能と、VisCPM をサポートしています。 - ペイント モデルのサポート テキストから画像への生成機能に関しては、VisCPM が中国のマルチモーダル オープン ソース モデルの中で最高のレベルに達していることが評価されています。
VisCPM は、数百億のパラメータベースモデル CPM-Bee に基づいてトレーニングされ、ビジュアル エンコーダ (Q-Former とビジュアル デコーダ (Diffusion-UNet)) を統合しています。視覚信号の入出力をサポートします。CPM-Bee ベースの優れたバイリンガル機能のおかげで、VisCPM は英語のマルチモーダル データを通じてのみ事前トレーニングでき、優れた中国語のマルチモーダル機能を実現するように一般化できます。
VisCPM の簡単なアーキテクチャ図
VisCPM-Chat と VisCPM-Paint がどこにあるのか詳しく見てみましょう。
写真
VisCPMリンク: https://github.com/OpenBMB/VisCPM
VisCPM-Chat は、中国語と英語での画像指向のバイリンガル マルチモーダル ダイアログをサポートします。 このモデルは、Q-Former をビジュアル エンコーダとして使用し、CPM-Bee (10B) をビジュアル エンコーダとして使用します。言語対話ベース モデルとパス 言語モデリング トレーニングの目標には、ビジュアル モデルと言語モデルが統合されます。モデル トレーニングには、事前トレーニングと指示の微調整の 2 つの段階が含まれます。
チームは約を使用します。 100M の高品質英語画像とテキストのペア データ VisCPM-Chat は事前トレーニングされており、データには CC3M、CC12M、COCO、Visual Genome、Laion などが含まれています。事前トレーニングの段階では、言語モデルのパラメーターは固定されたままで、大規模なビジョンをサポートするために Q-Former の一部のパラメーターのみが更新されます。言語表現の効率的な調整。
チームはその後、次の手順を微調整しました。 VisCPM-Chat、LLaVA-150K 英語コマンド微調整データ を採用し、対応する翻訳を混合しました。モデルのマルチモーダル基本機能をユーザーの意図に合わせるために、最新の中国語データを使用してモデルを微調整しました。微調整段階では、すべてのモデル パラメーターを更新して、微調整データの利用効率を向上させました。
興味深いことに、チームは、英語の指導データのみが使用された場合でも、命令の微調整のために、モデルは中国語の質問を理解できましたが、英語でしか答えることができませんでした。これは、モデルが 多言語モーダル機能が十分に一般化されていることを示しています。さらに少量の中国語翻訳データを追加することで、指示の微調整段階では、モデルの応答言語をユーザーの質問言語と一致させることができます。
チーム モデルは、LLaVA 英語テスト セットと翻訳された中国語テスト セットで評価されました。この評価ベンチマークは、オープン ドメインの対話、画像の詳細説明、および複雑な推論におけるモデルのパフォーマンスを検査し、スコアリングに GPT-4 を使用します。 VisCPM-Chat が最高の平均パフォーマンスを達成したことがわかります。中国語のマルチモーダル能力に関しては、一般領域の対話と複雑な推論で優れたパフォーマンスを発揮し、英語のマルチモーダル能力も優れていました。
VisCPM-Chat には、VisCPM-Chat-balance と VisCPM-Chat-zhplus という 2 つのモデル バージョンが用意されています。 前者には英語と中国語の機能があり、よりバランスが取れており、後者は中国語の能力がさらに優れています。 2 つのモデルは、命令の微調整フェーズで同じデータを使用します。VisCPM-Chat-zhplus は、事前トレーニング フェーズで、さらに 2,000 万のクリーン化されたネイティブ中国語の画像とテキストのペア データと、1 億 2,000 万の翻訳された中国語の画像とテキストのペア データを追加します。 。 ###############写真###### 次は、VisCPM-Chat のマルチモーダル対話機能のデモです。特定の地域の地図を識別できるだけでなく、落書きや映画のポスターを理解し、スターバックスのロゴさえも認識できます。さらに、私は中国語と英語のバイリンガルです!
中国語と中国語のバイリンガルをサポートする VisCPM-Paint を見てみましょう。英語のテキストから画像への生成。 このモデルは、テキスト エンコーダーとして CPM-Bee (10B)、画像デコーダーとして UNet を使用し、拡散モデルを通じてターゲット融合言語とビジョン モデルをトレーニングします。 トレーニング プロセス中、言語モデルのパラメーターは常に固定されたままになります。 Stable Diffusion 2.1 の UNet パラメータを使用してビジュアル デコーダを初期化し、主要なブリッジング パラメータを段階的にフリーズ解除することで言語モデルと融合します。最初にテキスト表現マッピングの線形層をビジュアル モデルにトレーニングし、次にクロスアテンションをさらにフリーズ解除します。 UNet の層。モデルは、Laion 2B 英語の画像テキスト データでトレーニングされました。 VisCPM-Paint と同様に、基本モデル CPM-Bee のバイリンガル機能のおかげで、VisCPM-Paint は英語の画像とテキストのペアと一般化を通じてのみトレーニングできます。中国語のテキストから画像への生成機能は、中国語のオープン ソース モデルの最良の結果を実現します。 20M のクリーン化されたネイティブ中国語の画像とテキストのペア データと、中国語に翻訳された 120M の画像とテキストのペア データをさらに追加することにより、このモデルの中国語テキストから画像への生成機能がさらに向上しました。同様に、VisCPM-Paint には、balance と zhplus という 2 つの異なるバージョンがあります。標準画像生成テストセット MSCOCO で 30,000 枚の画像をサンプリングし、一般的に使用される評価画像生成指標 FID (Fréchet Inception Distance) を計算して、生成された画像の品質を評価しました。 VisCPM-Paintモデルにそれぞれ「明るい月が海に昇る、世界は今この瞬間、耽美的スタイル、抽象的スタイル」を入力」と「キンモクセイの花は、人々が怠けているときに散る。「浄月春の山空」の 2 つのプロンプトにより、次の 2 つの写真が生成されました。 (生成効果の安定性には改善の余地あり) なかなか素晴らしいもので、古詩の芸術的概念を正確に捉えていると言えます。将来的には、詩を理解するために直接画像を生成することができます。設計に応用すれば大幅な省力化が可能です。 VisCPM-Chat では「絵を描く」だけでなく「詩を朗読」することもできます : 写真から詩を逆引き検索できます。たとえば、李白の詩を使って黄河の情景を説明し、解釈することもできますし、蘇軾の「水条歌頭」を使って中秋の月夜に臨むときの感情を表現することもできます。 VisCPM は生成結果が優れているだけでなく、ダウンロード バージョンの設計も考慮されており、非常に簡単ですインストールして使用します。 VisCPM は中国語と英語の機能を備えたさまざまなバージョンを提供します VisCPM は中国語と英語の機能を備えたさまざまなバージョンを提供しますさまざまなバージョン 中国語と英語の機能を備えたモデル バージョンは、誰でもダウンロードして選択できます インストール手順は簡単です 使用中は、数行のコードでマルチモーダル ダイアログを実現できます 入力テキストと出力画像のセキュリティ チェックコードではデフォルトで有効になっています。 (具体的なチュートリアルについては README を参照してください) 将来的には、チームは VisCPM を ハグフェイス コード フレームワークにも統合し、引き続きセキュリティ モデルの改善、Web ページの迅速な展開のサポート、モデルの定量化機能のサポート、モデルの詳細なサポートを行う予定です。チューニングとその他の機能、更新を待ってください! VisCPM シリーズ モデルは、個人使用や研究目的での使用を歓迎します 。モデルを商用目的で使用したい場合は、cpm@modelbest.cn に連絡して商用ライセンスの問題について話し合うこともできます。 従来のモデルは、単一モーダル データの処理に重点を置いています。現実世界の情報は多くの場合、マルチモーダルです。マルチモーダルな大規模モデルは、人工知能システムの知覚インタラクション機能を向上させ、AI を提供します現実世界での複雑な認識と理解のタスクを解決すると、新たな機会がもたらされます。清華を拠点とする大規模モデル企業は強力な壁に面したインテリジェンスの研究開発能力を持っていると言わざるを得ません。共同でリリースされたマルチモーダル大型モデル VisCPM は強力で驚くべきパフォーマンスを発揮します。今後の結果のリリースが楽しみです!
以上が清華大学の壁に面したインテリジェントなオープンソース中国マルチモーダル大型モデル VisCPM: 対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画機能を備えていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。