ホームページ  >  記事  >  テクノロジー周辺機器  >  最新ニュース! Baidu Wenxin Big Model 4.0: Wanka トレーニング史上最大のパラメータ モデル、来週またお会いしましょう

最新ニュース! Baidu Wenxin Big Model 4.0: Wanka トレーニング史上最大のパラメータ モデル、来週またお会いしましょう

PHPz
PHPzオリジナル
2024-07-19 12:04:49958ブラウズ

最新ニュース! Baidu Wenxin Big Model 4.0: Wanka トレーニング史上最大のパラメータ モデル、来週またお会いしましょう


昨日、Cailian Newsは、BaiduのWenxin Model 4.0がトレーニングを強化しており、リリースの準備が近づいていることを独占的に明らかにしました。誰もがウェン・シンイーヤンの情報に常に興味を持っていました。本日、Wenxin 4.0 に関するさらなるニュースも入手しました。これには、基盤となるアーキテクチャ、インフラストラクチャ、トレーニング データ セット、コストなどの重要な情報が含まれています。これは非常に高い信頼性を持っています。
最初に核となる結論について話しましょう:
1. 昨日の啓示は基本的に真実です。現在、Wenxin Large Model 4.0 は小規模なトラフィックで実際にテストされていることがわかっています。
2. Wenxin 4.0 のパラメータの数は、公開されているパラメータを持つすべての LLM よりも多く、Wanka クラスターを使用してトレーニングされた中国初の大規模モデルでもあります。
3. 推論コストは Wenxin 3.5 よりもはるかに高く、約 8 ~ 10 倍と言われています。 (大型モデルは本当に高価です!)
これらの啓示が真実であれば、これは百度、さらには国内の大型モデルにとっても GPT-4 に追いつくための主要なノードとなるでしょう。
次に、暴露の詳細を見てみましょう。
Wanka クラスタートレーニング史上最大のパラメータモデル?
私たちが入手した情報によると、Wenxin Large Model 4.0 のパラメータ スケールは、現在パラメータを公開しているすべての LLM よりも大きいため、Wenxin Large Model 4.0 のパラメータ スケールは兆レベルを超えると予想されます。
このパラメータ量だけを見ると、多くの人は大丈夫だと思うでしょうが、結局のところ、現在明らかにされている情報によると、GPT-4のパラメータ量はすでに約1.8兆です。しかし、このニュースを伝えた人物はさらに、Wenxin Large Model 4.0 は依然として単一モデルであり、GPT や他の多くの大規模言語モデルで使用される混合エキスパート モデル (MoE) を採用していないと述べました。
以前、「天才ハッカー」ジョージ・ホテズ氏は、GPT-4がハイブリッドモデルを使用する理由は、モデルのパラメータサイズが2,200億を超えることができないためであるとニュースを発表しました。 OpenAI はモデルの改善を望んでいますが、トレーニングに時間がかかるだけでは、その効果はすでに減少しています。
したがって、Baidu が 1 つのモデルでブレークスルーを達成できるかどうか、モデルの機能も大幅に向上するかどうかは、実際のリリース後に様子を見るしかありません。
このように多数のパラメーターを持つモデルには、必然的に高い計算能力が必要になります。最新のニュースは、Wenxin 4.0 が Wanka AI クラスターでトレーニングされたということです。これは、Wanka スケールのクラスターを使用してトレーニングされた中国初の大規模言語モデルとみなされます。
Wanka クラスターの概念とは何ですか? 中国では、Huawei と Alibaba だけが Wanka AI クラスターを構築したことを明らかにしていますが、それに基づいた具体的なモデルは見ていません。
これは、Wanka クラスターを構築するのが簡単ではなく、その効果を最大化するためにそれを使用するのがさらに難しいことを示しています。分析によると、Fei Paddle が深く統合されているからこそ、このような大規模なモデルを Wanka クラスターに基づいて効率的にトレーニングできるのです。
コストが高騰し、低トラフィックのテストが控えめに一般向けに実施されています
トレーニングコストが増加しているだけでなく、Wenxin 4.0 の推論コストも Wenxin 4.0 の推論コストよりもはるかに高いことが明らかになりました3.5. 1,000 トークンあたりの具体的な推論コストはまだ取得できていませんが、おそらく 8 ~ 10 倍以前ではないかとの噂があり、これは依然として高使用率 (MFU) の場合です。使用率がさらに低い場合、コストは増加し続けることが予想されます。
大型モデルは本当に高価だと言わざるを得ません。主要な基礎となる基礎モデルを作成することは、巨人にとってのゲームです。
最後に、社内従業員によると、Baidu は実際に低トラフィックで Wenxin Big Model 4.0 のテストを密かに開始しており、少数の Wenxin Yiyan ユーザーがすでに最新モデル バージョンを使用しているとのことです。
多くの人はこの声明の方が信頼できると考えており、テクノロジー コミュニティでの最近の啓示からもいくつかのヒントを得ることができます。
おそらく、現在 Wenxin Yiyan について質問するときは、Wenxin Big Model 4.0 を使用していると思います。生成された結果が GPT-4 と競合できるかどうかはわかりません。
上記は公式に確認された情報ではなく、その正確性は誰もが自分で判断できることを再度強調します。

以上が最新ニュース! Baidu Wenxin Big Model 4.0: Wanka トレーニング史上最大のパラメータ モデル、来週またお会いしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。