Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます-AI-php.cn

ホームページ

テクノロジー周辺機器

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 07, 2024 pm 10:15 PM

ai電車

春節前に、Tongyi Qianwen Model (Qwen) のバージョン 1.5 がオンラインになりました。今朝、新しいバージョンのニュースが AI コミュニティで懸念を引き起こしました。

大型モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデルサイズが含まれています。その中でも最強バージョンの性能はGPT 3.5やMistral-Mediumを上回ります。このバージョンには Base モデルと Chat モデルが含まれており、多言語サポートを提供します。

アリババのTongyi Qianwenチームは、関連技術がTongyi Qianwen公式WebサイトとTongyi Qianwenアプリでもリリースされたと述べました。

さらに、Qwen 1.5 の本日のリリースには次のハイライトもあります:

32K コンテキスト長をサポート;
Base Chat モデルのチェックポイントをオープン;
Transformers を使用してローカルで実行可能;
にリリース同時に GPTQ Int-4/Int8、AWQ、GGUF の重み付けも行います。

より高度な大規模モデルを審査員として使用することで、Tongyi Qianwen チームは、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 を実行しました。事前評価。評価結果は次のとおりです。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

##Qwen1.5-72B-Chat モデルは GPT-4-Turbo に比べて遅れていますが、MT ではパフォーマンスが優れています。 -Alpaca-Eval v2 でのベンチテストとインテストでは、印象的なパフォーマンスを示しました。実際、Qwen1.5-72B-Chat は、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近注目を集めている Mistral Medium モデルにも匹敵する性能を持っています。。匹敵します。これは、Qwen1.5-72B-Chat モデルが自然言語処理においてかなりの強みを持っていることを示しています。

Tongyi Qianwen チームは、大規模モデルのスコアは回答の長さに関係している可能性があるが、人間の観察では Qwen1.5 は過度に長い回答の影響を受けないことが示されていると指摘しました。衝撃評価。 AlpacaEval 2.0 データによると、Qwen1.5-Chat の平均長は 1618 で、GPT-4 と同じ長さですが、GPT-4-Turbo よりも短いです。

Tongyi Qianwen の開発者は、ここ数カ月間、優れたモデルを構築し、開発者のエクスペリエンスを継続的に向上させることに取り組んできたと述べました。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

以前のバージョンと比較して、このアップデートはチャットモデルを人間の好みに合わせて改善することに重点を置き、モデルの多言語処理を大幅に強化しています。力。シーケンスの長さに関しては、すべてのスケールモデルで 32768 トークンのコンテキスト長範囲のサポートが実装されています。同時に、事前トレーニングされた基本モデルの品質も大幅に最適化されており、微調整プロセス中により良いエクスペリエンスを人々に提供することが期待されています。

基本機能

モデルの基本機能の評価に関して、Tongyi Qianwen チームは MMLU (5 ショット)、C を実施しました。 -Eval、Qwen1.5 は、Humaneval、GS8K、BBH などのベンチマークデータセットで評価されました。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

さまざまなモデルサイズの下で、Qwen1.5 は評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで良好なパフォーマンスを示しました。 70B では、言語理解、推論、数学における能力を実証しました。

最近、小規模モデルの構築が業界で注目を集めています。Tongyi Qianwen チームは、モデルパラメーターが 70 億未満の Qwen1.5 モデルを比較しました。比較:

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

Qwen1.5 は、パラメーターサイズ範囲が 7 未満の業界をリードする小型モデルと非常に競争力があります。億の力。

多言語機能

Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で基本モデルを評価しました。アジアの多言語対応。アリババの研究者は、オープンソースコミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。以下の表は、評価構成、評価指標、関連する特定の言語など、各テストセットの詳細を示しています。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

詳細な結果は次のとおりです:

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

上記の結果は、Qwen1.5 基本モデルが 12 の異なる言語の多言語機能で良好なパフォーマンスを示し、主題の知識、言語理解、翻訳、数学などのさまざまな側面の評価でも優れたパフォーマンスを示していることを示しています。結果。さらに、チャットモデルの多言語機能に関しては、次の結果が観察されます。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

#長いシーケンス

長いシーケンスの理解に対する需要が高まり続ける中、アリババは新しいバージョンで Qianwen モデルの対応する機能を改善しました Qwen1.5 モデルの全シリーズは 32,000 トークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は以下の通りです。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

#結果から、Qwen1.5-7B-Chat のような小規模なモデルでも同等のパフォーマンスを示すことができます。 GPT -3.5 と同等のパフォーマンスですが、最大のモデルである Qwen1.5-72B-Chat は GPT4-32k にわずかに劣ります。

上記の結果は、トークンの長さが 32K の場合の Qwen 1.5 の効果のみを示しており、モデルが最大長の 32K しかサポートできないという意味ではないことに注意してください。。開発者は、config.json の max_position_embedding をより大きな値に変更して、より長いコンテキスト理解シナリオでモデルが満足のいく結果を達成できるかどうかを観察できます。

外部システムのリンク

現在、一般言語モデルの魅力の 1 つは、外部システムとインターフェイスできる潜在的な機能にあります。コミュニティで急速に浮上しているタスクとして、RAG は、幻覚やリアルタイムの更新情報やプライベートデータの取得不能など、大規模な言語モデルが直面する典型的な課題のいくつかに効果的に対処します。さらに、言語モデルは、API を使用し、指示と例に基づいてコードを作成する際の強力な機能を示します。大規模なモデルは、コードインタープリターを使用したり、AI エージェントとして機能したりして、より広範な価値を実現できます。

Tongyi Qianwen チームは、RAG タスクに対する Qwen1.5 シリーズチャットモデルのエンドツーエンドの効果を評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テストセットに基づいています。

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

次に、パスします。 Yiqianwen チームは、T-Eval ベンチマークで汎用エージェントとして実行する Qwen1.5 の能力を評価しました。すべての Qwen1.5 モデルは、ベンチマーク専用に最適化されていません:

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

##ツール呼び出し機能をテストするため, Ali 独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストします。結果は次のとおりです:

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

最後に、 Python コードインタープリタが高度になったため、LLM はますます強力なツールになっています。Tongyi Qianwen チームは、以前のオープンソース評価ベンチマークに基づいて、このツールを利用する新しいモデルの機能も評価しました:

Tongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えます

結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 ツールのパフォーマンスに近づいていることを示しています。ただし、数学的問題解決や視覚化などのコードインタプリタタスクでは、最大の Qwen1.5-72B-Chat モデルでさえ、コーディング能力の点で GPT-4 に大きく遅れをとっています。 Ali 氏は、将来のバージョンでは、事前トレーニングおよび調整プロセス中のすべての Qwen モデルのコーディング機能が向上すると述べました。

Qwen1.5 は、HuggingFace トランスフォーマーコードベースと統合されています。バージョン 4.37.0 以降、開発者は Qwen1.5 を使用するためにカスタムコードをロードせずに (trust_remote_code オプションを指定して) トランスフォーマーライブラリのネイティブコードを直接使用できるようになりました。

オープンソースエコシステムにおいて、Alibaba は vLLM、SGLang (展開用)、AutoAWQ、AutoGPTQ (定量化用)、Axolotl、LLaMA-Factory (微調整用)、および llama.cpp (ローカル用) と協力してきました。 LLM 推論) などのフレームワークが含まれており、そのすべてが Qwen1.5 をサポートするようになりました。 Qwen1.5 シリーズは現在、Ollama や LMStudio などのプラットフォームでも利用できます。

以上がTongyi Qianwen が再びオープンソースになり、Qwen1.5 では 6 つのボリュームモデルが提供され、そのパフォーマンスは GPT3.5 を超えますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、