清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。-AI-php.cn

ホームページ

テクノロジー周辺機器

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 12:51 PM

モデルオープンソース

名前をつけるのが苦手な私にとって、高校の小論文で一番困るのは、いい記事は書けるけど、どんなタイトルを付ければいいのかわからないということです。タイトルを考えるたびに髪の毛が大量に抜けてしまいました....

最近、ついにGitHubで大規模な「Name Waste」の光を発見しました。清華大学と OpenBMB オープンソースコミュニティによってリリースされた興味深いアプリケーション: 「Outsmart」「タイトル」にテキストの内容を入力すると、ワンクリックでホットなタイトルを生成できます。

箱から出してすぐに使えます。使ってみた感想は、「香りがいい！」ということだけです。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

オンライン体験: https://live.openbmb.org/ant

GitHub: https://github.com/OpenBMB/CPM-Live

この見出しを作るアーティファクトに関しては、次のことについて話さなければなりません。まずはその「オントロジー」、つまり大規模モデル CPM-Ant について話しましょう。

CPM-Ant は、中国で初めてライブトレーニングされた数百億モデルです。トレーニングには 68 日間かかり、2022 年 8 月 5 日に完了し、OpenBMB によって正式にリリースされました。

#5 つの優れた機能
##トレーニングプロセスは低コストで環境に優しいです。
#最も重要なことは、完全にオープンソースであることです。
中国の大規模モデルの最初のライブトレーニングとして、CPM-Ant は大規模モデルのトレーニング、微調整、圧縮、推論、アプリケーションなどで実現可能なソリューションを提供します。実践的な計画では、さまざまなフォロワーにさまざまなヘルプと参考情報を提供したいと考えています。

それでは、CPM-Ant リリース結果コンテンツレポートを見てみましょう。

モデルの概要CPM-Ant は、10B パラメーターを備えたオープンソースの中国語の事前トレーニング済み言語モデルであり、CPM-Live ライブトレーニングプロセスの最初のマイルストーンでもあります。

トレーニングプロセス全体は低コストで環境に優しいです。高いハードウェア要件やランニングコストを必要としません。デルタチューニング手法に基づいており、CUGE ベンチマークで優れた結果を達成しています。テスト。

CPM-Ant 関連のコード、ログファイル、およびモデルパラメーターは、オープンライセンス契約に基づいて完全にオープンソースです。 OpenBMB は、完全なモデルに加えて、さまざまなハードウェア構成に適合するさまざまな圧縮バージョンも提供します。

#CPM-Ant の 5 つの優れた機能:

# (1) 計算効率

BMTrain[1] ツールキットを使用すると、分散コンピューティングリソースの機能を最大限に活用して、大規模なモデルを効率的にトレーニングできます。

CPM-Ant のトレーニングは 68 日間続き、費用は 43 万元でした。これは、Google による T5-11B モデルのトレーニング費用約 130 万ドルの 20 分の 1 です。訓練用 CPM-Ant の温室効果ガス排出量は約 4872kg CO₂e ですが、訓練用 T5-11B の排出量は 46.7t CO₂e[9]で、CPM-Ant ソリューションはその排出量の約 1/10 です。

(2) 優れたパフォーマンス

OpenDelta[3] ツールを使用すると、インクリメンタルな実行が非常に便利です。 CPM-Ant をダウンストリームタスクに適応させる微調整。

実験の結果、CPM-Ant は 630 万個のパラメーターを微調整するだけで、3/6 CUGE タスクで最高の結果が得られることがわかりました。この結果は他のフルパラメータ微調整モデルを上回っており、例: CPM-Ant の微調整パラメータ数は CPM2 (微調整 11B パラメータ) のわずか 0.06% です。

(3) 導入の経済性

BMCook[7] および BMInf[4] ツールキットの助けを借りて、限られたコンピューティングリソースで CPM-Ant を駆動できます。

BMInf に基づいて、コンピューティングクラスターを置き換え、単一の GPU (GTX 1060 などのコンシューマーグレードのグラフィックカードでも) で大規模なモデル推論を実行できます。 CPM-Ant の導入をより経済的にするために、OpenBMB は BMCook を使用して、元の 10B モデルをさまざまなバージョンにさらに圧縮します。圧縮モデル (7B、3B、1B、300M) は、さまざまな低リソースシナリオのニーズに適応できます。

(4) 使いやすさ

オリジナルの 10B モデルであっても、関連する圧縮バージョンであっても、数行のコードで簡単にロードして実行できます。

OpenBMB は CPM-Ant を ModelCenter[8] に追加し、モデルのさらなる開発を容易にします。

(5) オープンデモクラシー

CPM-Ant のトレーニングプロセスは完全にオープンです。

OpenBMB は、すべてのコード、ログファイル、モデルアーカイブをオープンアクセスとして公開します。また、CPM-Antは商用化を可能にするオープンライセンスを採用しています。

完全な大規模モデルトレーニングの実践

大規模モデルのトレーニングが可能なメーカーや研究機関にとって、CPM-Ant トレーニングプロセスは、中国の大規模モデルの完全な実践記録を提供します。トレーニング。

OpenBMB は、CPM-Live シリーズのモデルのモデル設計、トレーニングスキーム、データ要件、実装コードをリリースしました。 CPM-Live のモデルアーキテクチャに基づいて、大規模なモデルトレーニングプログラムを迅速かつ簡単に設計および実装し、関連するビジネスデータを整理してモデルの事前調査とデータ準備を完了することができます。

公式 Web サイトでは、損失関数、学習率、学習データ、スループット、勾配サイズ、コスト曲線、モデルの内部パラメーターなど、トレーニングプロセス中のすべてのトレーニングダイナミクスが記録されます。これらのトレーニングダイナミクスを通じて、ユーザーはモデルのトレーニングプロセスに問題があるかどうかを迅速に診断できます。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

#モデルトレーニングの内部パラメータのリアルタイム表示

さらに、OpenBMB の研究開発学生は、トレーニング記録の概要を毎日リアルタイムで更新します。この概要には、損失値、勾配値、全体的な進捗状況が含まれます。また、トレーニングプロセス中に発生した問題やバグも記録されます。ユーザーは、モデルのトレーニングプロセスで遭遇する可能性のあるさまざまな「落とし穴」を事前に理解できます。

モデルのトレーニングが「落ち着いている」日には、研究開発担当者はいくつかの有名な引用を述べたり、最新の論文を紹介したり、推測アクティビティを開始したりすることもあります。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

#ログ内の推測アクティビティ

さらに、OpenBMB も実際に大規模なモデルのトレーニングを必要としている企業では、関連するトレーニング高速化テクノロジを通じて、トレーニングコストが許容可能なレベルまで削減されています。

BMTrain[1] ツールキットを使用すると、数百億の大規模モデル CPM-Ant をトレーニングする計算コストはわずか 430,000 元です (現在のコストはパブリッククラウドの価格に基づいて計算されています) 、実際のコストはこれより低くなります )。これは、11B 大型モデル T5 の外部推定コスト 130 万ドルの約 1/20 です。

SOTA を繰り返し作成した効率的な微調整ソリューション

CPM-Ant は下流タスクの適応にどのように役立ちますか?

大規模モデルの研究者向けに、OpenBMB はパラメータの効率的な微調整に基づく大規模モデルのパフォーマンス評価ソリューションを提供します。これにより、下流のタスクの迅速な適応とモデルのパフォーマンスの評価が容易になります。

パラメーターの効率的な微調整、つまりデルタチューニングを使用して、6 つのダウンストリームタスクにおける CPM-Ant のパフォーマンスを評価します。実験では LoRA [2] が使用されました。これは、各注目層に 2 つの調整可能な低ランク行列を挿入し、元のモデルのすべてのパラメーターをフリーズします。このアプローチを使用すると、タスクごとに 630 万個のパラメーターのみが微調整され、パラメーター全体の 0.067% にすぎません。

OpenDelta[3] の助けを借りて、OpenBMB は元のモデルのコードを変更することなくすべての実験を実施しました。ダウンストリームタスクで CPM-Ant モデルを評価する際には、データ拡張手法は使用されなかったことに注意してください。実験結果を次の表に示します。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

いくつかのパラメーターを微調整するだけで、OpenBMB モデルが良好にパフォーマンスしたことがわかります。 3 つのデータセットでのパフォーマンスは、CPM-2 および Source 1.0 を上回りました。

一部のタスク (LCSTS など) は、微調整されたパラメーターがほとんどない場合、学習が難しい場合があります。CPM-Live のトレーニングプロセスは続行され、各タスクのパフォーマンスが向上します。さらに磨きをかけます。

興味のある学生は、以下の GitHub リンクにアクセスして、まず CPM-Ant と OpenDelta を体験し、他のタスクでの CPM-Ant の機能をさらに探索してください。

https://github.com/OpenBMB/CPM-Live

ハードウェアに適した一連の推論メソッド

大規模モデルのパフォーマンスは驚くべきものですが、高いハードウェア要件とランニングコストが常に多くのユーザーを悩ませてきました。大規模モデルのユーザー向けに、OpenBMB は、さまざまなハードウェア環境でさまざまなモデルバージョンをより簡単に実行できる、ハードウェアに優しい一連の使用方法を提供します。

BMInf[4] ツールキットを使用すると、シングルカード 1060 などの低リソース環境でも CPM-Ant を実行できます。

さらに、OpenBMB は CPM-Ant も圧縮します。これらの圧縮モデルには、CPM-Ant-7B/3B/1B/0.3B が含まれます。これらのモデル圧縮サイズはすべて、既存のオープンソースの事前トレーニング済み言語モデルの従来のサイズに対応できます。

ユーザーがリリースされたチェックポイントでさらなる開発を実行できることを考慮して、OpenBMB は主にタスクに依存しない構造化プルーニングを使用して CPM-Ant を圧縮します。枝刈りプロセスも段階的に行われ、10B から 7B、7B から 3B、3B から 1B、そして最後に 1B から 0.3B になります。

特定の枝刈りプロセスでは、OpenBMB は動的学習可能なマスク行列をトレーニングし、このマスク行列を使用して対応するパラメーターを枝刈りします。最後に、パラメーターは、ターゲットのスパース性に基づいて決定されるマスク行列のしきい値に従って枝刈りされます。圧縮の詳細については、技術ブログ [5] を参照してください。

次の表は、モデル圧縮の結果を示しています。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

これで、ハードコアコンテンツは次のようになります。では、大きなモデルは「タイトルの選択」にどのように役立つでしょうか?

予想外に興味深い大規模モデルアプリケーション

CPM-Ant に基づいて、すべての大規模モデル開発者と愛好家が開発できます。興味深いテキストの楽しいアプリケーションです。

モデルの有効性をさらに検証し、例を提供するために、OpenBMB は CPM-Ant に基づいてホットタイトルジェネレーターを微調整し、モデルの機能を実証しました。

下のテキストボックスにテキストコンテンツを貼り付け、クリックして生成するだけで、大きなモデルが提供する刺激的なタイトルを取得できます。

清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。

#CPM-Ant 実績レポートの最初の記事のタイトルは、ジェネレーターによって生成されます

このデモは継続的に改良され、ユーザーエクスペリエンスを向上させるために将来さらに特殊効果が追加される予定です。

興味のあるユーザーは、CPM-Ant を使用してビルドすることもできます。独自の表示アプリケーション。アプリケーションのアイデアがある場合、技術サポートが必要な場合、またはデモの使用中に問題が発生した場合は、いつでも CPM-Live フォーラム [6] でディスカッションを開始できます。

CPM-Ant のリリースは CPM-Live の最初のマイルストーンですが、これはトレーニングの第 1 段階にすぎず、OpenBMB は今後も一連のトレーニングを実施していきます。

簡単にネタバレすると、多言語サポートや構造化された入出力などの新機能が次のトレーニング期間に追加される予定です。

ポータル｜プロジェクトリンク

プロジェクト GitHub アドレス:

https://github.com/OpenBMB/CPM -ライブ

デモ体験アドレス (PC アクセスのみ):

https://live.openbmb.org/ant

以上が清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません