HuggingFace のオープンソースの大規模モデル ランキングが再び削除されました。
最前列は、数週間前のさまざまな Mixtral 8x7B 微調整バージョンを締め出し、SOLAR 10.7B 微調整バージョンによって独占的に占められています。
#大型 SOLAR モデルの起源は何ですか?
韓国企業 Upstage AI から、新しい大規模モデル拡張手法 Depth up を使用した関連論文が ArXiv にアップロードされました。 -スケーリング(DUS)。
簡単に言うと、2頭の7Bアルパカの頭と尻尾を切り落とし、1頭は最初の8層を切り落とします。 、残りの 8 つのレイヤーのみを切り取ります。
残りの 2 つの 24 レイヤーが縫い合わされます。、最初のモデルの 24 番目のレイヤーが 2 番目のモデルの 9 番目のレイヤーと接合され、最終的に次のようになります。新型48階建て10.7Bの大型モデル。
論文では、この新しい方法は MoE などの従来の拡張方法を超え、基本的な大規模モデルとまったく同じインフラストラクチャを使用できると主張しています。
ゲート ネットワークなどの追加モジュールは必要なく、トレーニング フレームワークは MoE 用に最適化されており、高速推論のために CUDA カーネルをカスタマイズする必要はなく、効率を維持しながら既存のメソッドにシームレスに統合できます。 。
チームは、7B の単一大型モデルの中で最も強力なミストラル 7B をベース素材として選択し、オリジナル バージョンと MoE バージョンを超える新しい方法を使用してそれをつなぎ合わせました。
同時に、調整された命令バージョンも、対応する MoE 命令バージョンを上回ります。
ステッチを最後まで実行する
なぜこの継ぎ方なのか? 論文の導入部分は直感から来ています。
最も単純な拡張方法から始めます。これは、32 層の基本的な大規模モデルを 2 回繰り返して 64 層にすることです。
この利点は、異質性がないことです。すべてのレイヤーは基本的な大きなモデルからのものですが、レイヤー 32 とレイヤー 33 の継ぎ目は
(レイヤー 1 と同じ)「レイヤー距離」(レイヤー距離) を大きくします。 以前の研究では、Transformer の層が異なると実行する処理が異なることが示されています。たとえば、より深い層ほど、より抽象的な概念の処理に優れています。
チームは、レイヤーの距離が長すぎると、事前トレーニングされた重みを効果的に利用するモデルの能力が妨げられる可能性があると考えています。
考えられる解決策の 1 つは、中間層を犠牲にして縫い目での段差を減らすことであり、ここで DUS 工法が誕生しました。
パフォーマンスとモデル サイズの間のトレードオフに基づいて、チームは各モデルから 8 つのレイヤーを削除することを選択し、継ぎ目は 32 レイヤーからレイヤー 1、24 レイヤーからレイヤー 9 に変更されました。
単純にスプライスされたモデルのパフォーマンスは、最初はまだ元のベース モデルよりも低いですが、事前トレーニングを続けるとすぐに回復できます。
命令の微調整フェーズでは、オープンソース データ セットの使用に加えて、数学的に強化されたデータ セットも作成され、調整フェーズでは DPO が使用されました。
最後のステップは、さまざまなデータ セットを使用してトレーニングされたモデル バージョンの平均に重みを付けることであり、これによりステッチングも完了します。
一部のネチズンはテストデータ漏洩の可能性を疑問視しました。
チームはこれも考慮し、論文の付録でデータ汚染テストの結果を具体的に報告しましたが、その結果は低いレベルでした。
最後に、SOLAR 10.7B 基本モデルと微調整モデルは両方とも、Apache 2.0 ライセンスの下でオープンソースです。
これを試したネチズンは、JSON 形式のデータからデータを抽出する際に優れたパフォーマンスを発揮すると報告しています。
以上がHuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

WebStorm Mac版
便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
