ホームページ >テクノロジー周辺機器 >AI >重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-07-22 16:18:40467ブラウズ

小型モデルがトレンドになりつつある?

今週、OpenAI は小型モデル GPT-4o-mini を発売し、小型モデルトラックが正式に開始されました。最近このトラックに Apple が参加しました。

最近、Apple は DataComp-LM (DCLM) プロジェクトの研究機関の 1 つとして、Hugging Face で DCLM-7B オープンソースモデルをリリースしました。モデルのパフォーマンスは Mistral-7B を上回り、Llama 3 や Gemma などの他の主要なオープンソースモデルに近づいています。

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

論文リンク: https://arxiv.org/pdf/2406.11794
プロジェクトリンク: https://huggingface.co/apple/DCLM-7B

論文著者その1人、Appleの機械学習チームのVaishaal Shankar氏は、DCLMモデルがモデルの重みをオープンソース化しただけでなく、トレーニングコードと事前トレーニングデータセットもオープンソース化したため、DCLMモデルを「真のオープンソースである最良のモデル」と述べた。

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

研究紹介

大規模言語モデル (LLM) が直面している現在の評価課題の 1 つは、制御された比較の欠如です。 LLM の研究では、さまざまなアーキテクチャ、計算、またはハイパーパラメータを備えたモデルを比較することが多いため、言語モデルの品質に影響を与える要因を解明することが困難になります。

これに基づいて、研究チームは、言語モデルデータ比較の新しいベンチマークである DCLM を提案しました。これは、LLM が高品質のデータセットを設計することでモデルのパフォーマンスを向上できるようにすることを目的とした、言語モデルトレーニングデータキュレーションの最初のベンチマークです。マルチモーダル領域で。研究チームは、機械学習 (ML) モデルが大規模なデータセットから高品質のデータを自動的にフィルタリングして選択するモデルベースのフィルタリングが、高品質のトレーニングセットを構築する鍵となる可能性があることを発見しました。

DCLM の全体的なアイデアはシンプルです。標準化されたフレームワークを使用して、固定モデルアーキテクチャ、トレーニングコード、ハイパーパラメーター、評価などの実験を実施し、最終的にどのデータ並べ替え戦略が高性能モデルのトレーニングに最適かを見つけます。。

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。 DCLM を使用して、研究チームは高品質のデータセット DCLM-BASELINE を構築し、このデータセットを使用して 7B パラメーターモデル - DCLM-7B を最初からトレーニングしました。 DCLM-7Bモデルの詳細。

DCLM-7B は OpenLM フレームワークに基づく事前トレーニングソリューションを使用しており、5 ショットの精度は MMLU ベンチマークで 64% に達し、Mistral-7B-v0.3 (63%) や Llama に匹敵します。 3 8B (66%) これは、Mistral-7B-v0.3 および Llama 3 8B に匹敵し、53 の自然言語理解タスクの平均パフォーマンスも Mistral-7B-v0.3 および Llama 3 8B に匹敵します。必要な計算量はLlama 3 8Bの1/6です。重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

DCLM-7B の各種タスク（部品）の評価結果を以下に示します。

^{DCLM-7B と同サイズの他機種との比較結果を下表に示します。}

注目すべき点はい、他のほとんどのモデルにはウェイトはオープンですがデータはクローズされています。これが、ヴァイシャールシャンカールが DCLM モデルを「真のオープンソース」と表現する理由です。

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

参考リンク：https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。

以上が重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 https gpt llama

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：ロボット工学のトップカンファレンス「RSS 2024」で、中国の人型ロボット研究が最優秀論文賞を受賞次の記事：ロボット工学のトップカンファレンス「RSS 2024」で、中国の人型ロボット研究が最優秀論文賞を受賞

続きを見る