ホームページ  >  記事  >  テクノロジー周辺機器  >  Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

WBOY
WBOY転載
2023-10-31 18:05:161348ブラウズ

10 月 31 日、Alibaba Cloud は、数千億のパラメーターを備えた大規模モデルである Tongyi Qianwen 2.0 を正式にリリースしました。 10 権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を超え、現在 Accelerate です。 GPT-4に追いつくために。同日、Tongyi Qianwen APP が主要モバイル アプリケーション市場で正式にリリースされ、誰もが APP を通じて最新モデルの機能を直接体験できます。

過去 6 か月で、Tongyi Qianwen 2.0 はパフォーマンスが大幅に向上しました。4 月にリリースされたバージョン 1.0 と比較して、Tongyi Qianwen 2.0複雑な指示を理解する能力、文学創作、一般的な数学、知識記憶、幻覚に抵抗する能力が大幅に向上しました 。現在、Tongyi Qianwen の総合パフォーマンスは GPT-3.5 を超え、GPT-4 に追いつくべく加速しています。

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 2.0 の総合パフォーマンスGPT-3.5 を超え、捕捉に向けて加速中アップ GPT-4


MMLU、C-Eval、GSM8K、HumanEval、MATH、 etc. 10 主流ベンチマーク評価セットでは、Tongyi Qianwen 2.0 の総合スコアは Meta の Llama-2-70B を上回り、OpenAI の Chat-3.5 と比較すると 9 勝 1 敗であり、GPT と比較すると-4でした。 4勝6敗でGPT-4との差はさらに縮まりました。

中国語と英語を理解する能力は、大規模な言語モデルの基本的なスキルです。 英語のタスクに関しては、Tongyi Qianwen 2.0 は MMLU ベンチマークで 82.5 のスコアを獲得し、GPT-4 に次いで 2 番目でした。パラメーターの数を大幅に増やすことで、Tongyi Qianwen 2.0 は複雑なタスクをよりよく理解して処理できるようになりました。言語構造と概念の向上、中国語タスクに関しては、Tongyi Qianwen 2.0 が C-Eval ベンチマークで最高のスコアを達成し、明らかな優位性を示しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解と表現能力をさらに強化したためです。 。

数学的推論やコード理解などの分野で、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマーク テスト GSM8K では、Tongyi Qianwen が 2 位となり、強力なコンピューティング能力と論理的推論能力を実証しました。HumanEval テストでは、Tongyi Qianwen のスコアは、主に大規模なモデルの能力を測定する GPT-4 および GPT-3.5 にほぼ続きました。コード フラグメントを理解して実行することは、プログラミング支援や自動コード修復などのシナリオで使用される大規模モデルの基礎となります。

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 2.0リリース


##Tongyi Qianwen はより成熟しており、使いやすくなっています。 Tongyi Qianwen 2.0 では、指示への準拠、ツールの使用、洗練された作成などの点で技術的な最適化が行われています。

は、下流のアプリケーション シナリオにさらに適切に統合できます。 Tongyi Large Model 公式 Web サイトでは、画像入力や文書解析などの細分化されたタスクをサポートするマルチモーダル機能とプラグイン機能を開始しました。

同時に、Tongyi ラージ モデル トレーニングに基づく 8 つの主要なインダストリ モデル グループが開始されました。

それらは Tongyi Lingma です。 -インテリジェント コーディング アシスタント、Tongyi Zhiwen-AI Reading Assistant、 Tongyi Listening-Work and Study AI Assistant#. ##、Tongyi Xiaomi - インテリジェント カスタマー サービス Tongyi Renxin - 個人専用の健康アシスタント Tongyi Farui-AI 法律顧問8 つの主要なインダストリ モデルは、専門的なトレーニングにドメイン データを使用して、最も一般的な垂直シナリオを指向しています。ユーザーは公式 Web サイトでモデル機能を直接体験でき、開発者は Web ページの埋め込み、API/SDK 呼び出しなどを通じてモデル機能を独自の大規模モデル アプリケーションやサービスに統合できます。 写真: Tongyi の大規模モデル ファミリが完全にアップグレードされ、8 つの大規模インダストリ モデルグループがオンライン

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

#10月現在、

Alibaba Cloudは60以上の企業と緊密な連携を行っています。業界のリーダーは、オフィス、文化観光、電力、政府事務、医療保険、運輸、製造、金融、ソフトウェア開発などの分野で同義前文の導入を促進します。 Zhou Jingren 氏は、Alibaba Cloud が近い将来、Tongyi Qianwen の 72B バージョンをオープンソース化する計画であることを明らかにしました。これまで、Alibaba Cloud は 7B および 14B バージョンのモデルをオープンソース化しており、 モデルの累計ダウンロード数は 100 万件を超えました。 Alibaba Cloud は、

数千の業界の開発者が Tongyi Qianwen オープンソース モデルに基づいてモデルやアプリケーションを革新できるようサポートし続けます。


Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 72B は間もなくオープンソースになります

以上がAlibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。