ホームページ >テクノロジー周辺機器 >AI >Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2024-04-28 16:43:08815ブラウズ

人間が取得する情報の 83% は視覚から得られます。グラフィックスとテキストの大規模なマルチモーダルモデルは、より豊富で正確な現実世界の情報を認識し、より包括的な認知知能を構築できるため、AGI (汎用人工知能) への大きな一歩を踏み出すことができます。インテリジェンス）。

Yuanxiang は本日、あらゆるアスペクト比の画像入力をサポートし、主流の評価をリードするマルチモーダル大型モデル XVERSE-V をリリースしました。 このモデルは完全にオープンソースであり、商用利用は無条件に無料です 。引き続き、多数の中小企業、研究者、開発者の研究開発とアプリケーションの革新を促進します。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。 MMBench では、Google GeminiProVision、Alibaba Qwen-VL-Plus、Claude-3V Sonnet などの有名なクローズドソースモデルを上回りました。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。図。マルチモーダル大規模モデルの総合評価

グローバルとローカルの高精細画像表現の融合

従来のマルチモーダルモデルの画像表現全体だけではありませんが、XVERSE-V は全体と部分を融合するという革新的な戦略を採用し、任意のアスペクト比の画像の入力に対応します。グローバルな概要情報とローカルな詳細情報の両方を考慮して、画像内の微妙な特徴を特定して分析し、より明確に表示し、より正確に理解することができます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。 ^{注：Concate*は列単位の連結を意味します}

パノラマ画像認識、衛星画像、古代文化遺物のスキャン分析など。

例-HD パノラマ認識、画像詳細テキスト認識 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

大きなモデルの無料ダウンロード

•顔を抱きしめる: https ://huggingface.co/xverse/XVERSE-V-13B

•ModelScope: https://modelscope.cn/models/xverse/XVERSE-V-13B

•Github : https ://github.com/xverse-ai/XVERSE-V-13B

•お問い合わせは、opensource@xverse.cn

Yuanxiang は国内のオープンソースベンチマークの構築を続けています。 in 最大パラメータ65Bの中国最古のオープンソース、最長コンテキスト256Kの世界最古のオープンソース、および国際最先端MoEモデル、およびSuperCLUE の評価で国をリードしています。今回のMoEモデルの開始により、国内のオープンソースのギャップが埋められ、国際的にトップレベルに押し上げられることになる。

商業用途の観点から見ると、Yuanxiang 大型モデルは広東省で最も早く国家登録を取得したモデルの 1 つであり、社会全体にサービスを提供できます。昨年以来、Yuanxiang Big Model は、QQ Music 、Huya Live、National Karaoke、Tencent Cloud などを含む多くの Tencent 製品との綿密な連携とアプリケーションの探索を実施し、各分野にサービスを提供してきました。文化、エンターテイメント、観光、金融の革新的で最先端のユーザーエクスペリエンスを創造します。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

多方向の実用的なアプリケーションで優れたパフォーマンスを発揮

このモデルは、基本的な機能で優れたパフォーマンスを発揮するだけでなく、実際のアプリケーションシナリオでも優れたパフォーマンスを発揮します。さまざまなシナリオを理解し、情報グラフィックス、文書、現実のシナリオ、数学的質問、科学文書、コード変換などのさまざまなニーズに対応できる能力を持っています。

#チャートの理解

複雑なグラフィックスとテキストを組み合わせたインフォメーショングラフィックスの理解であっても、単一のチャートの分析と計算であっても、モデルはそれを簡単に処理できます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

視覚障害者の実際のシナリオ

実際の視覚障害者シーンのテストセット VizWiz では、XVERSE-V が優れたパフォーマンスを発揮し、InternVL-Chat を上回りました - V1.5、DeepSeek-VL-7B、およびその他のほぼすべての主流のオープンソースマルチモーダル大規模モデル。このテストセットには、実際の視覚障害のあるユーザーからの 31,000 を超える視覚的な質問と回答が含まれており、ユーザーの実際のニーズや些細な問題を正確に反映し、視覚障害のある人が日常の実際の視覚上の課題を克服するのに役立ちます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

^{# Vizwiz テスト例}

# • コンテンツコンテンツ

# XVVERSE-V 同時に、強力なテキスト生成機能を維持しており、画像を理解した後でクリエイティブなテキストを生成するタスクに適しています。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。