LLM を超えて: 小規模言語モデルが AI の未来である理由-AI-php.cn

ホームページ

テクノロジー周辺機器

LLM を超えて: 小規模言語モデルが AI の未来である理由

Jennifer Aniston

Dec 13, 2024 pm 03:53 PM

クイックリンク

小規模言語モデルとは?

小さな言語モデルと大規模言語モデル

なぜ小規模な言語モデルが未来なのか

概要

Open AI、Google、Microsoft、Meta などの大企業が SLM に投資しています。
SLM は業界全体で人気が高まっており、将来の AI としての位置付けが高まっています。
SLM の例には、Google Nano、Microsoft の Phi-3、Open AI の GPT-4o mini などがあります。

大規模言語モデル (LLM) は、Open AI の ChatGPT のリリースとともに登場しました。それ以来、いくつかの企業も LLM を立ち上げましたが、現在ではさらに多くの企業が小規模言語モデル (SLM) に傾いています。

SLM は勢いを増していますが、SLM とは何ですか?また、LLM とどのように違うのですか?

小規模言語モデルとは何ですか?

小規模言語モデル (SLM) は、パラメーターが少ない人工知能モデルの一種です (これは、トレーニング中に学習されたモデルの値であると考えてください)。より大きな対応物と同様に、SLM はテキストを生成し、他のタスクを実行できます。ただし、SLM はトレーニングに使用するデータセットが少なく、パラメーターも少なく、トレーニングと実行に必要な計算能力も少なくなります。

SLM は主要な機能に重点を置いており、フットプリントが小さいため、さまざまなデバイスに導入できます。モバイルデバイスのようなハイエンドハードウェアを備えていない場合。たとえば、Google の Nano は、モバイルデバイス上で動作する、ゼロから構築されたオンデバイス SLM です。同社によれば、Nano はサイズが小さいため、ネットワーク接続の有無にかかわらずローカルで実行できます。

small language model gemini nano use examples — Google

Nano以外にもたくさんありますAI 分野の主要企業および今後の企業の他の SLM。人気のある SLM には、Microsoft の Phi-3、OpenAI の GPT-4o mini、Anthropic の Claude 3 Haiku、Meta の Llama 3、Mistral AI の Mixtral 8x7B などがあります。

他のオプションも利用できます。これらは LLM だと思われるかもしれませんが、実際にはそうではありません。 SLM。これは、ほとんどの企業がポートフォリオで複数の言語モデルをリリースし、LLM と SLM の両方を提供するマルチモデルアプローチを採用していることを考慮すると、特に当てはまります。一例として GPT-4 があり、GPT-4、GPT-4o (Omni)、GPT-4o mini などのさまざまなモデルがあります。

小規模言語モデルと大規模言語モデル

SLM について議論するとき、その大きな対応物である LLM を無視することはできません。 SLM と LLM の重要な違いはモデルサイズであり、これはパラメータの観点から測定されます。

この記事の執筆時点では、AI 業界で最大数についてのコンセンサスはありません。モデルが SLM とみなされるパラメータの数、または LLM とみなされるために必要な最小数を超えてはなりません。ただし、SLM には通常、数百万から数十億のパラメータがありますが、LLM にはさらに多く、数兆にも達します。

たとえば、2020 年にリリースされた GPT-3 には 1,750 億のパラメータがあります ( GPT-4 モデルは約 1 兆 7,600 億ドルであると噂されていますが、Microsoft の 2024 年の Phi-3-mini、Phi-3-small、およびPhi-3-medium SLM は、それぞれ 38 億、70 億、140 億のパラメーターを測定します。

small language models versus large language models chart — Microsoft

SLM と LLM を区別するもう 1 つの要因は、トレーニングに使用されるデータの量です。 SLM は少量のデータでトレーニングされますが、LLM は大規模なデータセットを使用します。この違いは、複雑なタスクを解決するモデルの能力にも影響します。

トレーニングでは大規模なデータが使用されるため、LLM は高度な推論を必要とするさまざまなタイプの複雑なタスクを解決するのに適していますが、SLM はより単純なタスクに適しています。タスク。 LLM とは異なり、SLM は使用するトレーニングデータの量が少なくなりますが、LLM にある機能の多くを小さなパッケージで実現するには、使用されるデータの品質が高くなる必要があります。

小規模言語モデルが未来である理由

ほとんどのユースケースでは、SLM は企業や消費者がさまざまなタスクを実行するために使用する主流モデルになるのに適しています。確かに、LLM には利点があり、複雑なタスクの解決など、特定の使用例により適しています。ただし、次の理由により、ほとんどのユースケースでは SLM が将来の可能性があります。

1. トレーニングとメンテナンスのコストが低い

server raid configurations feature — ティモフェエフウラジミール/シャッターストック

SLM は、LLM よりもトレーニングに必要なデータが少ないため、トレーニングデータや財務、あるいはその両方が限られている個人や中小企業にとって、最も実行可能な選択肢となります。 LLM は大量のトレーニングデータを必要とし、ひいてはトレーニングと実行の両方に膨大な計算リソースを必要とします。

これを大局的に考えると、OpenAI の CEO である Sam Altman 氏は、トレーニングに 1 億ドル以上かかったと認めました。 MIT のイベントで講演中の GPT-4 (Wired による)。別の例は、Meta の OPT-175B LLM です。メタによれば、CNBCによると、992個のNVIDIA A100 80GB GPUを使用してトレーニングされており、ユニットあたりのコストはおよそ1万ドルだという。エネルギーや給与などの他の経費を含まない場合、コストは約 900 万ドルになります。

このような数字では、中小企業が LLM をトレーニングするのは現実的ではありません。対照的に、SLM はリソースの面で参入障壁が低く、運営コストも低いため、より多くの企業が SLM を採用するでしょう。

2. パフォーマンスの向上

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / Shutterstock

パフォーマンスも、SLM がそのコンパクトなサイズにより LLM に勝る分野です。 SLM は遅延が少なく、リアルタイムアプリケーションなど、より高速な応答が必要なシナリオに適しています。たとえば、デジタルアシスタントなどの音声応答システムでは、より迅速な応答が好まれます。

デバイス上で実行する (これについては後ほど説明します) ということは、リクエストがオンラインサーバーに行ったり戻ったりする必要がないことも意味します。クエリに応答することで、より迅速な応答が可能になります。

3. より正確な

ZinetroN / Shutterstock

生成 AI に関しては、変わらないことが 1 つあります。それは、ゴミが入ってはゴミが出るということです。現在の LLM は、生のインターネットデータの大規模なデータセットを使用してトレーニングされています。したがって、すべての状況で正確であるとは限りません。これはChatGPT や同様のモデルの問題の 1 つであり、AI チャットボットの発言すべてを信頼すべきではない理由です。一方、SLM は LLM よりも高品質のデータを使用してトレーニングされるため、精度が高くなります。

SLM は、特定のタスクやドメインに焦点を当てたトレーニングでさらに微調整することもでき、それらのタスクやドメインの精度が向上します。

4. オンデバイスで実行可能

small language model mockup on smartphone — ピート・ハンセン/シャッターストック

SLM は LLM よりも必要な計算能力が低いため、エッジコンピューティングのケースに最適です。これらは、大きな計算能力やリソースを持たないスマートフォンや自動運転車などのエッジデバイスに導入できます。 Google の Nano モデルはデバイス上で実行できるため、アクティブなインターネット接続がない場合でも機能します。

この機能は、企業と消費者の両方に有利な状況をもたらします。まず、ユーザーデータがクラウドに送信されるのではなくローカルで処理されるため、プライバシーが確保されます。これは、スマートフォンに AI が統合され、私たちに関するほぼすべての詳細が含まれるようになるにつれて重要になります。 AI タスクを処理するために大規模なサーバーを導入して実行する必要がないため、企業にとってもメリットがあります。

SLM は、Open AI、Google、Microsoft、 Anthropic、Metaなどからはそんなモデルがリリースされています。これらのモデルは、私たちのほとんどが LLM を使用する単純なタスクにより適しています。

しかし、LLM はどこにも行きません。代わりに、医学研究など、さまざまなドメインの情報を組み合わせて新しいものを生み出す高度なアプリケーションに使用されます。

以上がLLM を超えて: 小規模言語モデルが AI の未来である理由の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。