名前をつけるのが苦手な私にとって、高校の小論文で一番困るのは、いい記事は書けるけど、どんなタイトルを付ければいいのかわからないということです。タイトルを考えるたびに髪の毛が大量に抜けてしまいました....
最近、ついにGitHubで大規模な「Name Waste」の光を発見しました。清華大学と OpenBMB オープン ソース コミュニティによってリリースされた興味深いアプリケーション: 「Outsmart」「タイトル」にテキストの内容を入力すると、ワンクリックでホットなタイトルを生成できます。
箱から出してすぐに使えます。使ってみた感想は、「香りがいい!」ということだけです。
オンライン体験: https://live.openbmb.org/ant
GitHub: https://github.com/OpenBMB/CPM-Live
この見出しを作るアーティファクトに関しては、次のことについて話さなければなりません。まずはその「オントロジー」、つまり大規模モデル CPM-Ant について話しましょう。
CPM-Ant は、中国で初めてライブ トレーニングされた数百億モデルです。トレーニングには 68 日間かかり、2022 年 8 月 5 日に完了し、OpenBMB によって正式にリリースされました。
- #5 つの優れた機能 ##4 つの革新的なブレークスルー
- ##トレーニング プロセスは低コストで環境に優しいです。
- #最も重要なことは、完全にオープンソースであることです。
- 中国の大規模モデルの最初のライブ トレーニングとして、CPM-Ant は大規模モデルのトレーニング、微調整、圧縮、推論、アプリケーションなどで実現可能なソリューションを提供します。実践的な計画では、さまざまなフォロワーにさまざまなヘルプと参考情報を提供したいと考えています。
それでは、CPM-Ant リリース結果コンテンツ レポートを見てみましょう。
モデルの概要CPM-Ant は、10B パラメーターを備えたオープンソースの中国語の事前トレーニング済み言語モデルであり、CPM-Live ライブ トレーニング プロセスの最初のマイルストーンでもあります。
トレーニング プロセス全体は低コストで環境に優しいです。高いハードウェア要件やランニング コストを必要としません。デルタ チューニング手法に基づいており、CUGE ベンチマークで優れた結果を達成しています。テスト。CPM-Ant 関連のコード、ログ ファイル、およびモデル パラメーターは、オープン ライセンス契約に基づいて完全にオープン ソースです。 OpenBMB は、完全なモデルに加えて、さまざまなハードウェア構成に適合するさまざまな圧縮バージョンも提供します。
#CPM-Ant の 5 つの優れた機能:
# (1) 計算効率
BMTrain[1] ツールキットを使用すると、分散コンピューティング リソースの機能を最大限に活用して、大規模なモデルを効率的にトレーニングできます。
CPM-Ant のトレーニングは 68 日間続き、費用は 43 万元でした。これは、Google による T5-11B モデルのトレーニング費用約 130 万ドルの 20 分の 1 です。訓練用 CPM-Ant の温室効果ガス排出量は約 4872kg CO₂e ですが、訓練用 T5-11B の排出量は 46.7t CO₂e[9]で、CPM-Ant ソリューションはその排出量の約 1/10 です。
(2) 優れたパフォーマンス
OpenDelta[3] ツールを使用すると、インクリメンタルな実行が非常に便利です。 CPM-Ant をダウンストリーム タスクに適応させる微調整。
実験の結果、CPM-Ant は 630 万個のパラメーターを微調整するだけで、3/6 CUGE タスクで最高の結果が得られることがわかりました。この結果は他のフルパラメータ微調整モデルを上回っており、例: CPM-Ant の微調整パラメータ数は CPM2 (微調整 11B パラメータ) のわずか 0.06% です。
(3) 導入の経済性
BMCook[7] および BMInf[4] ツールキットの助けを借りて、限られたコンピューティング リソースで CPM-Ant を駆動できます。 BMInf に基づいて、コンピューティング クラスターを置き換え、単一の GPU (GTX 1060 などのコンシューマー グレードのグラフィック カードでも) で大規模なモデル推論を実行できます。 CPM-Ant の導入をより経済的にするために、OpenBMB は BMCook を使用して、元の 10B モデルをさまざまなバージョンにさらに圧縮します。圧縮モデル (7B、3B、1B、300M) は、さまざまな低リソース シナリオのニーズに適応できます。 (4) 使いやすさ オリジナルの 10B モデルであっても、関連する圧縮バージョンであっても、数行のコードで簡単にロードして実行できます。 OpenBMB は CPM-Ant を ModelCenter[8] に追加し、モデルのさらなる開発を容易にします。 (5) オープンデモクラシー CPM-Ant のトレーニングプロセスは完全にオープンです。 OpenBMB は、すべてのコード、ログ ファイル、モデル アーカイブをオープン アクセスとして公開します。また、CPM-Antは商用化を可能にするオープンライセンスを採用しています。 大規模モデルのトレーニングが可能なメーカーや研究機関にとって、CPM-Ant トレーニング プロセスは、中国の大規模モデルの完全な実践記録を提供します。トレーニング。 OpenBMB は、CPM-Live シリーズのモデルのモデル設計、トレーニング スキーム、データ要件、実装コードをリリースしました。 CPM-Live のモデル アーキテクチャに基づいて、大規模なモデル トレーニング プログラムを迅速かつ簡単に設計および実装し、関連するビジネス データを整理してモデルの事前調査とデータ準備を完了することができます。 公式 Web サイトでは、損失関数、学習率、学習データ、スループット、勾配サイズ、コスト曲線、モデルの内部パラメーターなど、トレーニング プロセス中のすべてのトレーニング ダイナミクスが記録されます。これらのトレーニング ダイナミクスを通じて、ユーザーはモデルのトレーニング プロセスに問題があるかどうかを迅速に診断できます。 #モデルトレーニングの内部パラメータのリアルタイム表示 さらに、OpenBMB の研究開発学生は、トレーニング記録の概要を毎日リアルタイムで更新します。この概要には、損失値、勾配値、全体的な進捗状況が含まれます。また、トレーニング プロセス中に発生した問題やバグも記録されます。ユーザーは、モデルのトレーニング プロセスで遭遇する可能性のあるさまざまな「落とし穴」を事前に理解できます。 モデルのトレーニングが「落ち着いている」日には、研究開発担当者はいくつかの有名な引用を述べたり、最新の論文を紹介したり、推測アクティビティを開始したりすることもあります。 #ログ内の推測アクティビティ さらに、OpenBMB も実際に大規模なモデルのトレーニングを必要としている企業では、関連するトレーニング高速化テクノロジを通じて、トレーニング コストが許容可能なレベルまで削減されています。 BMTrain[1] ツールキットを使用すると、数百億の大規模モデル CPM-Ant をトレーニングする計算コストはわずか 430,000 元です (現在のコストはパブリック クラウドの価格に基づいて計算されています) 、実際のコストはこれより低くなります )。これは、11B 大型モデル T5 の外部推定コスト 130 万ドルの約 1/20 です。 CPM-Ant は下流タスクの適応にどのように役立ちますか? 大規模モデルの研究者向けに、OpenBMB はパラメータの効率的な微調整に基づく大規模モデルのパフォーマンス評価ソリューションを提供します。これにより、下流のタスクの迅速な適応とモデルのパフォーマンスの評価が容易になります。 パラメーターの効率的な微調整、つまりデルタ チューニングを使用して、6 つのダウンストリーム タスクにおける CPM-Ant のパフォーマンスを評価します。実験では LoRA [2] が使用されました。これは、各注目層に 2 つの調整可能な低ランク行列を挿入し、元のモデルのすべてのパラメーターをフリーズします。このアプローチを使用すると、タスクごとに 630 万個のパラメーターのみが微調整され、パラメーター全体の 0.067% にすぎません。 OpenDelta[3] の助けを借りて、OpenBMB は元のモデルのコードを変更することなくすべての実験を実施しました。ダウンストリーム タスクで CPM-Ant モデルを評価する際には、データ拡張手法は使用されなかったことに注意してください。実験結果を次の表に示します。 いくつかのパラメーターを微調整するだけで、OpenBMB モデルが良好にパフォーマンスしたことがわかります。 3 つのデータセットでのパフォーマンスは、CPM-2 および Source 1.0 を上回りました。 一部のタスク (LCSTS など) は、微調整されたパラメーターがほとんどない場合、学習が難しい場合があります。CPM-Live のトレーニング プロセスは続行され、各タスクのパフォーマンスが向上します。さらに磨きをかけます。 興味のある学生は、以下の GitHub リンクにアクセスして、まず CPM-Ant と OpenDelta を体験し、他のタスクでの CPM-Ant の機能をさらに探索してください。 https://github.com/OpenBMB/CPM-Live 大規模モデルのパフォーマンスは驚くべきものですが、高いハードウェア要件とランニング コストが常に多くのユーザーを悩ませてきました。大規模モデルのユーザー向けに、OpenBMB は、さまざまなハードウェア環境でさまざまなモデル バージョンをより簡単に実行できる、ハードウェアに優しい一連の使用方法を提供します。 BMInf[4] ツールキットを使用すると、シングル カード 1060 などの低リソース環境でも CPM-Ant を実行できます。 さらに、OpenBMB は CPM-Ant も圧縮します。これらの圧縮モデルには、CPM-Ant-7B/3B/1B/0.3B が含まれます。これらのモデル圧縮サイズはすべて、既存のオープンソースの事前トレーニング済み言語モデルの従来のサイズに対応できます。 ユーザーがリリースされたチェックポイントでさらなる開発を実行できることを考慮して、OpenBMB は主にタスクに依存しない構造化プルーニングを使用して CPM-Ant を圧縮します。枝刈りプロセスも段階的に行われ、10B から 7B、7B から 3B、3B から 1B、そして最後に 1B から 0.3B になります。 特定の枝刈りプロセスでは、OpenBMB は動的学習可能なマスク行列をトレーニングし、このマスク行列を使用して対応するパラメーターを枝刈りします。最後に、パラメーターは、ターゲットのスパース性に基づいて決定されるマスク行列のしきい値に従って枝刈りされます。圧縮の詳細については、技術ブログ [5] を参照してください。 次の表は、モデル圧縮の結果を示しています。 これで、ハードコア コンテンツは次のようになります。では、大きなモデルは「タイトルの選択」にどのように役立つでしょうか? CPM-Ant に基づいて、すべての大規模モデル開発者と愛好家が開発できます。興味深いテキストの楽しいアプリケーションです。 モデルの有効性をさらに検証し、例を提供するために、OpenBMB は CPM-Ant に基づいてホット タイトル ジェネレーターを微調整し、モデルの機能を実証しました。 下のテキスト ボックスにテキスト コンテンツを貼り付け、クリックして生成するだけで、大きなモデルが提供する刺激的なタイトルを取得できます。 #CPM-Ant 実績レポートの最初の記事のタイトルは、ジェネレーターによって生成されます このデモは継続的に改良され、ユーザー エクスペリエンスを向上させるために将来さらに特殊効果が追加される予定です。 興味のあるユーザーは、CPM-Ant を使用してビルドすることもできます。独自の表示アプリケーション。アプリケーションのアイデアがある場合、技術サポートが必要な場合、またはデモの使用中に問題が発生した場合は、いつでも CPM-Live フォーラム [6] でディスカッションを開始できます。 CPM-Ant のリリースは CPM-Live の最初のマイルストーンですが、これはトレーニングの第 1 段階にすぎず、OpenBMB は今後も一連のトレーニングを実施していきます。 簡単にネタバレすると、多言語サポートや構造化された入出力などの新機能が次のトレーニング期間に追加される予定です。 プロジェクト GitHub アドレス: https://github.com/OpenBMB/CPM -ライブ デモ体験アドレス (PC アクセスのみ): https://live.openbmb.org/ant 完全な大規模モデル トレーニングの実践
SOTA を繰り返し作成した効率的な微調整ソリューション
ハードウェアに適した一連の推論メソッド
予想外に興味深い大規模モデル アプリケーション
ポータル|プロジェクト リンク
以上が清華チームによるもう 1 つのオープンソースの傑作である「クリックベイト」を排除してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

WebStorm Mac版
便利なJavaScript開発ツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ホットトピック









