検索
ホームページテクノロジー周辺機器AIAlibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

10 月 31 日、Alibaba Cloud は、数千億のパラメーターを備えた大規模モデルである Tongyi Qianwen 2.0 を正式にリリースしました。 10 権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を超え、現在 Accelerate です。 GPT-4に追いつくために。同日、Tongyi Qianwen APP が主要モバイル アプリケーション市場で正式にリリースされ、誰もが APP を通じて最新モデルの機能を直接体験できます。

過去 6 か月で、Tongyi Qianwen 2.0 はパフォーマンスが大幅に向上しました。4 月にリリースされたバージョン 1.0 と比較して、Tongyi Qianwen 2.0複雑な指示を理解する能力、文学創作、一般的な数学、知識記憶、幻覚に抵抗する能力が大幅に向上しました 。現在、Tongyi Qianwen の総合パフォーマンスは GPT-3.5 を超え、GPT-4 に追いつくべく加速しています。

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 2.0 の総合パフォーマンスGPT-3.5 を超え、捕捉に向けて加速中アップ GPT-4


MMLU、C-Eval、GSM8K、HumanEval、MATH、 etc. 10 主流ベンチマーク評価セットでは、Tongyi Qianwen 2.0 の総合スコアは Meta の Llama-2-70B を上回り、OpenAI の Chat-3.5 と比較すると 9 勝 1 敗であり、GPT と比較すると-4でした。 4勝6敗でGPT-4との差はさらに縮まりました。

中国語と英語を理解する能力は、大規模な言語モデルの基本的なスキルです。 英語のタスクに関しては、Tongyi Qianwen 2.0 は MMLU ベンチマークで 82.5 のスコアを獲得し、GPT-4 に次いで 2 番目でした。パラメーターの数を大幅に増やすことで、Tongyi Qianwen 2.0 は複雑なタスクをよりよく理解して処理できるようになりました。言語構造と概念の向上、中国語タスクに関しては、Tongyi Qianwen 2.0 が C-Eval ベンチマークで最高のスコアを達成し、明らかな優位性を示しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解と表現能力をさらに強化したためです。 。

数学的推論やコード理解などの分野で、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマーク テスト GSM8K では、Tongyi Qianwen が 2 位となり、強力なコンピューティング能力と論理的推論能力を実証しました。HumanEval テストでは、Tongyi Qianwen のスコアは、主に大規模なモデルの能力を測定する GPT-4 および GPT-3.5 にほぼ続きました。コード フラグメントを理解して実行することは、プログラミング支援や自動コード修復などのシナリオで使用される大規模モデルの基礎となります。

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 2.0リリース


##Tongyi Qianwen はより成熟しており、使いやすくなっています。 Tongyi Qianwen 2.0 では、指示への準拠、ツールの使用、洗練された作成などの点で技術的な最適化が行われています。

は、下流のアプリケーション シナリオにさらに適切に統合できます。 Tongyi Large Model 公式 Web サイトでは、画像入力や文書解析などの細分化されたタスクをサポートするマルチモーダル機能とプラグイン機能を開始しました。

同時に、Tongyi ラージ モデル トレーニングに基づく 8 つの主要なインダストリ モデル グループが開始されました。

それらは Tongyi Lingma です。 -インテリジェント コーディング アシスタント、Tongyi Zhiwen-AI Reading Assistant、 Tongyi Listening-Work and Study AI Assistant#. ##、Tongyi Xiaomi - インテリジェント カスタマー サービス Tongyi Renxin - 個人専用の健康アシスタント Tongyi Farui-AI 法律顧問8 つの主要なインダストリ モデルは、専門的なトレーニングにドメイン データを使用して、最も一般的な垂直シナリオを指向しています。ユーザーは公式 Web サイトでモデル機能を直接体験でき、開発者は Web ページの埋め込み、API/SDK 呼び出しなどを通じてモデル機能を独自の大規模モデル アプリケーションやサービスに統合できます。 写真: Tongyi の大規模モデル ファミリが完全にアップグレードされ、8 つの大規模インダストリ モデルグループがオンライン

Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

#10月現在、

Alibaba Cloudは60以上の企業と緊密な連携を行っています。業界のリーダーは、オフィス、文化観光、電力、政府事務、医療保険、運輸、製造、金融、ソフトウェア開発などの分野で同義前文の導入を促進します。 Zhou Jingren 氏は、Alibaba Cloud が近い将来、Tongyi Qianwen の 72B バージョンをオープンソース化する計画であることを明らかにしました。これまで、Alibaba Cloud は 7B および 14B バージョンのモデルをオープンソース化しており、 モデルの累計ダウンロード数は 100 万件を超えました。 Alibaba Cloud は、

数千の業界の開発者が Tongyi Qianwen オープンソース モデルに基づいてモデルやアプリケーションを革新できるようサポートし続けます。


Alibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速

写真: Tongyi Qianwen 72B は間もなくオープンソースになります

以上がAlibaba Cloud が General Question Answering 2.0 をリリース、パフォーマンスで GPT-3.5 を上回り、GPT-4 の追求を加速の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
生成エンジン最適化に関するビジネスリーダーのガイド(GEO)生成エンジン最適化に関するビジネスリーダーのガイド(GEO)May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますこのスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているか世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月:私たちは祝うために何を残しましたか?2050年5月:私たちは祝うために何を残しましたか?May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

あなたが聞いたことがないディープフェイク検出器はそれが98%正確ですあなたが聞いたことがないディープフェイク検出器はそれが98%正確ですMay 03, 2025 am 11:10 AM

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。 研究者

Quantum Talent Wars:The Hidden Crisis Treatenting Tech'の次のフロンティアQuantum Talent Wars:The Hidden Crisis Treatenting Tech'の次のフロンティアMay 03, 2025 am 11:09 AM

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。 しかし、大きな問題があります:スキルを持っている人々が深刻な不足があります

プロトタイプ:これらの細菌は電気を生成できますプロトタイプ:これらの細菌は電気を生成できますMay 03, 2025 am 11:08 AM

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています:微生物

AIとサイバーセキュリティ:新政権の100日間の計算AIとサイバーセキュリティ:新政権の100日間の計算May 03, 2025 am 11:07 AM

今週のRSAC 2025会議で、SNYKは「The First 100 Days:How AI、Policy&Cyber​​security Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。