ホームページ > 記事 > テクノロジー周辺機器 > LLaMAを粉砕する「Falcon」は完全にオープンソースです! 400億のパラメータ、数兆のトークントレーニング、Hugging Faceを支配
大型モデルの時代において、最も重要なことは何でしょうか?
LeCun がかつて与えた答えは、「オープンソース」です。
Meta の LLaMA のコードが GitHub に漏洩すると、世界中の開発者がそれにアクセスできるようになりました。 GPTレベルに達します。
次に、さまざまな LLM が AI モデルのオープンソースにさまざまな角度を与えます。
LLaMA は、スタンフォード大学の Alpac や Vicuna などのモデルへの道を切り開き、それらのモデルをオープンソースのリーダーにしました。
この瞬間、ファルコン「ファルコン」が再び包囲を突破した。
「Falcon」は、アラブ首長国連邦、アブダビの Technology Innovation Institute (TII) によって開発されました。パフォーマンスの点では、Falcon の方が優れています。 LLaMAいいですね。
現在、「Falcon」には 1B、7B、40B の 3 つのバージョンがあります。
TII は、Falcon はこれまでで最も強力なオープンソース言語モデルであると述べました。その最大のバージョンである Falcon 40B には 400 億のパラメータがありますが、それでも 650 億のパラメータを持つ LLaMA よりも規模が若干小さいです。
規模は小さいですが、性能は高いです。
先進技術研究評議会 (ATRC) の事務局長であるファイサル・アル・バンナイ氏は、「ファルコン」のリリースにより LLM 取得の道が開かれ、研究者や起業家が提案できるようになると考えています。最良のソリューション、最も革新的な使用例。
FalconLM の 2 つのバージョン、Falcon 40B Instruct と Falcon 40B は、Hugging Face OpenLLM ランキングで上位 2 位にランクされ、Meta の LLaMA は 3 位にランクされています。
Hugging Face が、多様体を比較するための 4 つの現在のベンチマーク (AI2 Reasoning Challenge、HellaSwag、MMLU、およびTruthfulQA は、これらのモデルを評価するために使用されます。
「Falcon」論文はまだ公開されていませんが、Falcon 40B は慎重に選別された 1 兆のトークン ネットワーク データセットで広範囲にトレーニングされています。
研究者らは、「Falcon」がトレーニングプロセス中に大規模なデータで高いパフォーマンスを達成することの重要性を非常に重視していることを明らかにしました。
誰もが知っていることは、LLM はトレーニング データの品質に非常に敏感であるということです。そのため、研究者は、数万のデータに対して効率的な処理を実行できるデータの構築に多大な労力を費やしています。 CPU コアのデータ パイプライン。
目的は、フィルタリングと重複排除に基づいてインターネットから高品質のコンテンツを抽出することです。
現在、TII は、慎重にフィルタリングされ重複排除されたデータ セットである、洗練されたネットワーク データ セットをリリースしました。実践すると、それが非常に効果的であることが証明されました。
このデータセットのみを使用してトレーニングされたモデルは、パフォーマンスにおいて他の LLM と同等か、それを上回る可能性があります。これは「ファルコン」の優れた品質と影響力を示しています。
さらに、Falcon モデルには多言語機能もあります。
英語、ドイツ語、スペイン語、フランス語、そしてオランダ語、イタリア語、ルーマニア語、ポルトガル語、チェコ語、ポーランド語、スウェーデン語などのいくつかのヨーロッパの小さな言語も理解できます。それ。
Falcon 40B は、H2O.ai モデルのリリースに続く 2 番目の真のオープンソース モデルです。ただし、H2O.ai はこのランキングの他のモデルに対してベンチマークされていないため、これら 2 つのモデルはまだリングに上がっていません。
LLaMA を振り返ると、そのコードは GitHub で入手できますが、その重みはオープンソース化されていませんでした。
これは、このモデルの商用利用には一定の制限があることを意味します。
さらに、LLaMA のすべてのバージョンは元の LLaMA ライセンスに依存しているため、LLaMA は小規模な商用アプリケーションには適していません。
この時点で、「Falcon」が再びトップに浮上します。
Falcon は現在、商用で無料で使用できる唯一のオープンソース モデルです。
TII は当初、Falcon が商業目的で使用され、帰属所得が 100 万ドルを超える場合、10% の「使用税」を課すことを要求していました。
しかし、中東の裕福な実業家たちがこの制限を解除するのに時間はかかりませんでした。
少なくとも今のところ、Falcon の商用利用と微調整はすべて無料です。
富裕層は、当面このモデルでお金を稼ぐ必要はないと言っています。
また、TIIでは世界各国から事業化プランを募集しております。
潜在的な科学研究および商業化ソリューションについては、さらに多くの「トレーニング コンピューティング能力サポート」を提供したり、さらなる商業化の機会を提供したりする予定です。
プロジェクト提出メール: Submissions.falconllm@tii.ae
これは単に、プロジェクトが優れている限り、モデルは無料だと言っているだけです。十分な計算能力!お金が足りない場合でも、私たちがお金を集めることができます!
スタートアップ企業にとって、これは中東の大物企業による「AI 大規模モデル起業家精神のためのワンストップ ソリューション」にすぎません。
高品質のトレーニング データ開発チームによると、FalconLM の競争上の優位性の重要な側面はトレーニング データの選択です。
研究チームは、クロールされた公開データセットから高品質のデータを抽出し、重複データを削除するプロセスを開発しました。
冗長で重複したコンテンツを徹底的に除去した結果、強力な言語モデルをトレーニングするのに十分な 5 兆個のトークンが保持されました。
40B Falcon LM はトレーニングに 1 兆トークンを使用し、モデルの 7B バージョンはトレーニングに 1.5 兆トークンを使用します。
(研究チームは、RefinedWeb データセットを使用して、共通クロールから最高品質の生データのみをフィルタリングすることを目指しています)
より制御可能なトレーニング コストTII は、GPT-3 と比較して、Falcon は大幅なパフォーマンス向上を達成したと述べました。
そして推論する場合のみ 20% しかかかりません計算時間のこと。ファルコンの訓練コストは、チンチラの 40%、PaLM-62B の 80% にすぎません。 コンピューティング リソースの効率的な利用を実現しました。
以上がLLaMAを粉砕する「Falcon」は完全にオープンソースです! 400億のパラメータ、数兆のトークントレーニング、Hugging Faceを支配の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。