検索
ホームページテクノロジー周辺機器AIHuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの

HuggingFace のオープンソースの大規模モデル ランキングが再び削除されました。

最前列は、数週間前のさまざまな Mixtral 8x7B 微調整バージョンを締め出し、SOLAR 10.7B 微調整バージョンによって独占的に占められています。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの

#大型 SOLAR モデルの起源は何ですか?

韓国企業 Upstage AI から、新しい大規模モデル拡張手法 Depth up を使用した関連論文が ArXiv にアップロードされました。 -スケーリング(DUS)

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの

簡単に言うと、2頭の7Bアルパカの頭と尻尾を切り落とし、1頭は最初の8層を切り落とします。 、残りの 8 つのレイヤーのみを切り取ります。

残りの 2 つの 24 レイヤーが縫い合わされます。、最初のモデルの 24 番目のレイヤーが 2 番目のモデルの 9 番目のレイヤーと接合され、最終的に次のようになります。新型48階建て10.7Bの大型モデル。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの論文では、この新しい方法は MoE などの従来の拡張方法を超え、基本的な大規模モデルとまったく同じインフラストラクチャを使用できると主張しています。

ゲート ネットワークなどの追加モジュールは必要なく、トレーニング フレームワークは MoE 用に最適化されており、高速推論のために CUDA カーネルをカスタマイズする必要はなく、効率を維持しながら既存のメソッドにシームレスに統合できます。 。

チームは、7B の単一大型モデルの中で最も強力なミストラル 7B をベース素材として選択し、オリジナル バージョンと MoE バージョンを超える新しい方法を使用してそれをつなぎ合わせました。

同時に、調整された命令バージョンも、対応する MoE 命令バージョンを上回ります。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたものステッチを最後まで実行する

なぜこの継ぎ方なのか? 論文の導入部分は直感から来ています。

最も単純な拡張方法から始めます。これは、32 層の基本的な大規模モデルを 2 回繰り返して 64 層にすることです。

この利点は、異質性がないことです。すべてのレイヤーは基本的な大きなモデルからのものですが、レイヤー 32 とレイヤー 33 の継ぎ目は

(レイヤー 1 と同じ)

「レイヤー距離」(レイヤー距離) を大きくします。 以前の研究では、Transformer の層が異なると実行する処理が異なることが示されています。たとえば、より深い層ほど、より抽象的な概念の処理に優れています。

チームは、レイヤーの距離が長すぎると、事前トレーニングされた重みを効果的に利用するモデルの能力が妨げられる可能性があると考えています。

考えられる解決策の 1 つは、中間層を犠牲にして縫い目での段差を減らすことであり、ここで DUS 工法が誕生しました。

パフォーマンスとモデル サイズの間のトレードオフに基づいて、チームは各モデルから 8 つのレイヤーを削除することを選択し、継ぎ目は 32 レイヤーからレイヤー 1、24 レイヤーからレイヤー 9 に変更されました。

単純にスプライスされたモデルのパフォーマンスは、最初はまだ元のベース モデルよりも低いですが、事前トレーニングを続けるとすぐに回復できます。

命令の微調整フェーズでは、オープンソース データ セットの使用に加えて、数学的に強化されたデータ セットも作成され、調整フェーズでは DPO が使用されました。

最後のステップは、さまざまなデータ セットを使用してトレーニングされたモデル バージョンの平均に重みを付けることであり、これによりステッチングも完了します。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの一部のネチズンはテストデータ漏洩の可能性を疑問視しました。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたものチームはこれも考慮し、論文の付録でデータ汚染テストの結果を具体的に報告しましたが、その結果は低いレベルでした。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの最後に、SOLAR 10.7B 基本モデルと微調整モデルは両方とも、Apache 2.0 ライセンスの下でオープンソースです。

これを試したネチズンは、JSON 形式のデータからデータを抽出する際に優れたパフォーマンスを発揮すると報告しています。

HuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたもの

論文アドレス: https://arxiv.org/abs/2312.15166

以上がHuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ChatGPTで会話履歴(会話ログ)を保存する方法をわかりやすく解説!ChatGPTで会話履歴(会話ログ)を保存する方法をわかりやすく解説!May 16, 2025 am 05:41 AM

ChatGptダイアログレコードを効率的に保存するさまざまな方法 ChatGPTで生成された会話記録を保存することを考えたことがありますか?この記事では、CHATGPTの会話記録を最大限に活用するために、公式機能、Chrome拡張機能、スクリーンショットなど、さまざまな保存方法を詳細に紹介します。 さまざまな方法の特性と手順を理解し、自分に最適な方法を選択してください。 [OpenAIがリリースした最新のAIプロキシ「Openaiオペレーター」の紹介)(OpenAIオペレーターへのリンクをここに挿入する必要があります) 目次 chatgptエクスポートを使用して会話レコードを保存します 公式エクスポート機能を使用する手順 Chrome拡張機能を使用してChatGPTログを保存します chatgp

ChatGPTでスケジュール作成!表作成や調整に使えるプロンプトを解説ChatGPTでスケジュール作成!表作成や調整に使えるプロンプトを解説May 16, 2025 am 05:40 AM

現代社会にはコンパクトなペースがあり、効率的なスケジュール管理が重要です。仕事、生活、研究、その他のタスクが絡み合っており、優先順位付けとスケジュールはしばしば頭痛の種です。 したがって、AIテクノロジーを使用したインテリジェントなスケジュール管理方法は、多くの注目を集めています。特に、CHATGPTの強力な自然言語処理機能は、退屈なスケジュールとタスク管理を自動化し、生産性を大幅に向上させることができます。 この記事では、スケジュール管理にChatGptを使用する方法について説明します。特定のケースと手順を組み合わせて、AIが日常生活と仕事の効率を改善する方法を実証します。 さらに、この技術の安全で効果的な使用を確保するためにChatGptを使用する際に注意すべきことについて説明します。 今すぐChatGptを体験して、スケジュールを取得してください

ChatGPTとスプレッドシートを連携する方法!できることを徹底解説ChatGPTとスプレッドシートを連携する方法!できることを徹底解説May 16, 2025 am 05:39 AM

GoogleスプレッドシートとChatGPTを連携させ、業務効率化を実現する方法を解説します。本記事では、初心者にも使いやすいアドオン「GPT for Sheets and Docs」を用いた方法を具体的に説明します。プログラミング知識は不要です。 ChatGPTとスプレッドシート連携による業務効率化 本記事では、アドオンを利用したChatGPTとスプレッドシートの連携方法に焦点を当てます。アドオンを使えば、ChatGPTの機能をスプレッドシートに簡単に統合できます。 GPT for Shee

6 2025年のAIの投資家予測6 2025年のAIの投資家予測May 16, 2025 am 05:37 AM

AI革命の今後数年間を予測する際に専門家が強調している包括的な傾向とパターンがあります。たとえば、データにはかなりの需要があり、後で説明します。さらに、エネルギーの必要性はdです

ChatGPTをライティングに活用!コツやプロンプト例を徹底解説!ChatGPTをライティングに活用!コツやプロンプト例を徹底解説!May 16, 2025 am 05:36 AM

ChatGPTは単なる文章生成ツールではなく、ライターの創造性を飛躍的に高める真のパートナーです。初期稿作成、アイデア発想、文体変化など、執筆工程全般でChatGPTを活用することで、時間短縮と質向上を同時に実現できます。本記事では、各段階におけるChatGPTの具体的な活用法と、生産性と創造性を最大限に引き出すためのヒントを詳細に解説します。さらに、ChatGPTと文法チェックツールやSEO最適化ツールを組み合わせる相乗効果についても検証します。AIとの協働を通じて、ライターが自由な発想で独創

ChatGPTでグラフを作成する方法!プラグイン不要でエクセルにも活用!ChatGPTでグラフを作成する方法!プラグイン不要でエクセルにも活用!May 16, 2025 am 05:35 AM

ChatGPTを活用したデータ可視化:グラフ作成からデータ分析まで 複雑な情報を分かりやすく伝えるデータ可視化は、現代社会において不可欠です。近年、AI技術の進化により、ChatGPTを使ったグラフ作成が注目されています。本記事では、ChatGPTによるグラフ作成方法を初心者にも分かりやすく解説します。無料版と有料版(ChatGPT Plus)での違い、具体的な作成手順、日本語ラベル表示方法などを、実践的な例を交えて紹介します。 ChatGPTによるグラフ作成:基本から高度な活用まで ChatG

ディナープレートで現代のLLMの限界を押し進めますか?ディナープレートで現代のLLMの限界を押し進めますか?May 16, 2025 am 05:34 AM

一般的に、私たちはAIが大きく、大きくなっていることを知っています。速く、速くなります。 具体的には、業界の最新のハードウェアとソフトウェアのアプローチのいくつかに誰もが精通しているわけではなく、それらがより良い結果をどのように促進するか。ピープル

ChatGPTの会話履歴をアーカイブ!保存手順や元に戻す方法を解説ChatGPTの会話履歴をアーカイブ!保存手順や元に戻す方法を解説May 16, 2025 am 05:33 AM

ChatGpt Dialogue Record Management Guide:知識の宝庫を効率的に整理し、最大限に活用してください! ChatGpt Dialogue Recordsは創造性と知識のソースですが、成長するレコードをどのように効果的に管理できますか? 重要な情報を見つけるのは時間がかかりますか?心配しないで!この記事では、ChatGPTの会話レコードを効果的に「アーカイブ」(保存および管理)する方法を詳細に説明します。公式のアーカイブ機能、データエクスポート、共有リンク、データの利用と考慮事項について説明します。 目次 ChatGptの「アーカイブ」関数の詳細な説明 chatgptアーカイブ関数の使用方法 CHATGPTアーカイブレコードの場所と表示方法を保存します ChatGPTアーカイブレコードのメソッドをキャンセルおよび削除します アーカイブをキャンセルします アーカイブを削除します 要約します ch

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。