ホームページ >テクノロジー周辺機器 >AI >Falcon 40Bの紹介:アーキテクチャ、トレーニングデータ、および機能
この記事では、Technology Innovation Institute(TII)が開発した強力なオープンソースラージモデル(LLM)であるFalcon 40Bを探ります。 飛び込む前に、機械学習と自然言語処理(NLP)の基本的な理解が推奨されます。 chatgpt、llms、生成AIなどの重要な概念の包括的な紹介については、AIファンダメンタルズスキルトラックを検討してください。
FALCON 40B モデルアーキテクチャとトレーニング GPT-3の変更されたバージョンであるFalcon 40Bのアーキテクチャは、回転位置埋め込みと注意メカニズムの強化(マルチクエリの注意とフラッシュ放送)を利用しています。 デコーダーブロックは、効率のために2層正規化スキームを備えた並列注意とMLP構造を採用しています。 トレーニングには、高品質で強体されたインターネットコーパスであるRefinedWebからの1兆個のトークンが含まれ、AWS Sagemakerで384 A100 40GB GPUを使用しました。
Falcon Blogの画像
重要な機能と利点FALCON 40Bのマルチクエリの注意メカニズムは、事前削減に大きな影響を与えることなく、推論のスケーラビリティを改善します。 指示バージョン(FALCON-7B-InstructおよびFalcon-40B-Instruct)も利用可能で、アシスタントスタイルのタスクでパフォーマンスを向上させるために微調整されています。 そのApache 2.0ライセンスは、制限なしに商業使用を可能にします。 Openllmリーダーボードのベンチマークは、Llama、Stablelm、Redpajama、Mpt。などの他のオープンソースモデルを上回るFalcon 40bを示しています。
始めましょう:推論と微調整
Falcon 40bを実行するには、重要なGPUリソースが必要です。 4ビットの量子化により、40GB A100 GPUでの実行が可能になりますが、小型Falcon 7BはGoogle Colabを含む消費者グレードのハードウェアにより適しています。 提供されたコードの例は、コラブ上のFalcon 7bの4ビット量子化を使用した推論を示しています。 QloraとSFTトレーナーでの微調整についても説明し、TRLライブラリを活用して新しいデータセットに効率的に適応します。 この例では、Guanacoデータセットを使用しています
falcon-180b:巨大な跳躍
3.5兆トークンで訓練されたFalcon-180bは、パフォーマンスでFalcon 40bを超えています。 ただし、その1800億パラメーターには、推論のために相当な計算リソース(約8xA100 80GB GPU)が必要です。 会話タスク用に微調整されたFalcon-180b-chatのリリースは、よりアクセスしやすい代替品を提供します。
Falcon-180b Demoの画像
FALCON 40Bは、パフォーマンスとアクセシビリティのバランスをとる、説得力のあるオープンソースLLMオプションを提供します。 完全なモデルには重要なリソースが必要ですが、その小さなバリエーションと微調整機能により、研究者と開発者にとって貴重なツールになります。 独自のLLMを構築することに興味がある人にとって、Pythonのキャリアトラックを持つ機械学習科学者は価値のある考慮事項です。 公式リソース:
公式ハグの顔ページ:Tiiuae(Technology Innovation Institute) ブログ:ファルコンは抱きしめる顔のエコシステムに上陸しました
以上がFalcon 40Bの紹介:アーキテクチャ、トレーニングデータ、および機能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。