ホームページ  >  記事  >  テクノロジー周辺機器  >  2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

王林
王林転載
2024-02-02 19:33:321255ブラウズ

Qianyuan Machine はローカルで実行することもできます。

#最近、大規模モデルを大規模ボリュームに向けて開発することで、最適化と展開で成果を上げています。

2月1日、Wall-Facing Intelligenceと清華NLP研究所は主力エンドツーサイド大型モデル「Wall-Facing MiniCPM」を北京で正式にリリースした。この新世代の大型モデルは「高性能小型鋼鉄砲」として知られており、ターミナルに直接配備できるだけでなく、同レベルで最強のマルチモーダル機能も備えています。これにより、より高速で効率的なスマート アプリケーション エクスペリエンスがユーザーに提供されます。

Face Wall Intelligence が発表した最新の MiniCPM 2B モデルには、パラメーターが 20 億しかなく、1T トークンの選択されたデータを使用してトレーニングされています。 2018 年にリリースされた BERT モデルと比較すると、このモデルはパラメータ数は同じですが、Wall-Facing Intelligence がパフォーマンスの最適化とコスト管理に最大限の努力を払ったことにより、このモデルは「モンスターを飛び越えて倒す」効果を達成することができました。性能です。

Face Wall Intelligence の共同創設者兼 CEO である Li Dahai 氏は、この新しいモデルを、業界で有名なオープンソースの大型モデルである Mistral-7B と比較し、MiniCPM 2B はパフォーマンスの点で後者を上回りました。複数の主流評価リスト。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

Microsoft が最近提案した「小型モデル」Phi-2 と比較すると、MiniCPM には大きな利点もあります。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

Li Dahai 氏は、壁に面したインテリジェンスの新しいモデルには、機能の点で飛躍的な実装を達成する可能性があり、13B、30B、または 30B の機能を実現できると指摘しました。 40Bモデルでも。ユーザー エクスペリエンスに最も近い評価リストである MT-Bench を使用して評価した場合、MiniCPM は 7 ポイントを獲得しました (対照的に、GPT-4-Turbo は 9 ポイントを獲得しました)。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

現場では、Wall-Facing Intelligence も MiniCPM の実用化効果を実証しました。パラメータ数は少ないものの、テキスト翻訳やロールプレイングなど大規模モデルに必要な機能が多く、知識も豊富です。このモデルは、難しいコード解釈タスクでも処理できます。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

#MiniCPM は端末側に導入できるため、緊急事態に直面したときに人々にタイムリーな支援を提供することもできます。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース#最近、さまざまな携帯電話メーカーが大規模なエンドサイド モデルを提案しています。大規模な言語モデルをより小さなサイズに圧縮した後、コンピューティング能力とメモリが限られている場合でも、それを使用してより多くのシナリオに接続できるようになります。知能の程度。これに対し、Wall-Facing Intelligenceが提案する新技術は軽量で、低構成や初期モデルの携帯電話にも適用できる。

Mianbi Intelligence によると、MiniCPM エンドサイド モデルは Int4 量子化を受けており、サイズが 75% 圧縮されており、占有メモリはわずか 2G であり、同時にパフォーマンスの低下はほとんどありません。携帯電話の一般的な各種機種に採用されており、ランスルーを実現しています。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソースMiniCPM はモバイル CPU 推論をサポートしているため、使用コストを大幅に節約できます。 Face Wall Intelligence が計算してくれました: MiniCPM を使用した Snapdragon 855 を搭載した携帯電話は、1 ドルの電力で 170 万トークンを処理できます。この価格は、クラウドで実行されている Mistral-Medium のわずか 1% です。

Wall-Facing Intelligence は、エンドサイド モデルに加えて、マルチモーダル大規模モデルの探索も実証し、12B パラメータ OmniLMM をオープンソース化しました。記者会見では、Facewall Intelligence が Gemini リリース時と同じじゃんけんデモを披露しました。 AIに英語で尋ねます:私はどのゲームをプレイしていますか?大きなモデルなら、「ジャンケン」と答えるでしょう。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース同時に、OmniLMM は人間のジェスチャーを認識し、勝ちたい場合に何をプレイすべきかを伝えることもできます。

OmniLMM は、ランドマークとなる建物、テレビ局のロゴ、人々が組織した活動など、多くの写真に含まれる情報を理解して推論することもできます。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース#真にマルチモーダルな大規模モデルと新しい形式の適用は、そう遠くないと思われます。

壁面インテリジェント大型モデルの究極のパフォーマンスは、当社の長年の技術蓄積から生まれます。 2021 年以来、Wallface Intelligence はインフラ、アルゴリズム、データ手法の 3 つの方向に焦点を当てて効率的なテクノロジー スタックを構築してきました。中でも、自社開発した効率的なトレーニングフレームワーク「BMTrain」は重要です。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

アルゴリズム レベルでも、Wall-Facing Intelligence はモデル サンドボックス システムを蓄積し、大規模なモデルを錬金術から実験科学のレベルに引き上げ、ハイパーパラメータと最適なバッチ サイズやすべてのサイズのモデルに共通のハイパーパラメーター構成など、スケールの最適なソリューション。

現在、Wall-Facing Intelligence には質の高いデータが大量に蓄積されています。昨日のリリース後、Face Wall Intelligence は、新世代の大規模モデル シリーズ (MiniCPM-SFT / DPOMiniCPM-V および MiniCPM-SFT / DPO-int4 を含む) と、MiniCPM のトレーニングの 2 段階のデータ レシピを業界参考用にオープンソース化しました。 。

オープンソース アドレス (技術レポートを含む):

MiniCPM GitHub: https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub: https://github. com /OpenBMB/OmniLMM

Wall-Facing Intelligence は清華 NLP 研究所から生まれました。中国で大規模モデル研究を実施した最も初期のチームの 1 つです。2018 年に世界初の事前トレーニング モデル ERNIE をリリースしました。知識に基づいた指導です。 2022年8月に法人運営を開始したFace Wall Intelligenceは、昨年2回の資金調達ラウンドを経験し、同社のアプリケーション「Mian Wall Luka」も中国サイバースペース局から第2弾の大型モデル登録を受けた。

現在、Wall-Facing Intelligence は 100 名を超える科学研究チームを設立しており、その 80% は青北出身で、平均年齢は 28 歳です。

2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソース

Wall-face Intelligence は、大規模モデルのエージェント向けにデュアルエンジン戦略を構築しており、より小規模で高速、低コストのソリューションを構築したいと考えています。

今年、Wall-Facing Intelligence は新しいテクノロジーの反復も加速します。 Liu Zhiyuan 氏は、「春節後も MiniCPM の新しいバージョンのリリースを継続し、パフォーマンスはさらに向上します。春節の間は皆さんに休憩を与えたいと考えています」と述べました。

以上が2B パラメータのパフォーマンスは Mistral-7B を超えます: 壁面インテリジェント マルチモーダル エンドサイド モデル オープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。