ホームページ  >  記事  >  テクノロジー周辺機器  >  Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

WBOY
WBOY転載
2024-04-28 16:43:08673ブラウズ

人間が取得する情報の 83% は視覚から得られます。グラフィックスとテキストの大規模なマルチモーダル モデルは、より豊富で正確な現実世界の情報を認識し、より包括的な認知知能を構築できるため、AGI (汎用人工知能) への大きな一歩を踏み出すことができます。インテリジェンス)。

Yuanxiang は本日、あらゆるアスペクト比の画像入力をサポートし、主流の評価をリードするマルチモーダル大型モデル XVERSE-V をリリースしました。 このモデルは完全にオープンソースであり、商用利用は無条件に無料です 。引き続き、多数の中小企業、研究者、開発者の研究開発とアプリケーションの革新を促進します。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。 MMBench では、Google GeminiProVision、Alibaba Qwen-VL-Plus、Claude-3V Sonnet などの有名なクローズド ソース モデルを上回りました。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。図。マルチモーダル大規模モデルの総合評価

グローバルとローカルの高精細画像表現の融合

従来のマルチモーダル モデルの画像表現全体だけではありませんが、XVERSE-V は全体と部分を融合するという革新的な戦略を採用し、任意のアスペクト比の画像の入力に対応します。グローバルな概要情報とローカルな詳細情報の両方を考慮して、画像内の微妙な特徴を特定して分析し、より明確に表示し、より正確に理解することができます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。注:Concate*は列単位の連結を意味します

パノラマ画像認識、衛星画像、古代文化遺物のスキャン分析など。

例-HD パノラマ認識、画像詳細テキスト認識Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

大きなモデルの無料ダウンロード

•顔を抱きしめる: https ://huggingface.co/xverse/XVERSE-V-13B

•ModelScope: https://modelscope.cn/models/xverse/XVERSE-V-13B

•Github : https ://github.com/xverse-ai/XVERSE-V-13B

•お問い合わせは、opensource@xverse.cn

Yuanxiang は国内のオープンソース ベンチマークの構築を続けています。 in 最大パラメータ65Bの中国最古のオープンソース 最長コンテキスト256Kの世界最古のオープンソース 、および 国際最先端MoEモデル 、およびSuperCLUE の評価 で国をリードしています。今回のMoEモデルの開始により、国内のオープンソースのギャップが埋められ、国際的にトップレベルに押し上げられることになる。

商業用途の観点から見ると、Yuanxiang 大型モデルは 広東省で最も早く国家登録を取得したモデルの 1 つであり 、社会全体にサービスを提供できます。昨年以来、Yuanxiang Big Model は、QQ Music 、Huya Live、National Karaoke、Tencent Cloud などを含む多くの Tencent 製品との綿密な連携とアプリケーションの探索を実施し、各分野にサービスを提供してきました。文化、エンターテイメント、観光、金融の革新的で最先端のユーザー エクスペリエンスを創造します。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

多方向の実用的なアプリケーションで優れたパフォーマンスを発揮

このモデルは、基本的な機能で優れたパフォーマンスを発揮するだけでなく、実際のアプリケーション シナリオでも優れたパフォーマンスを発揮します。さまざまなシナリオを理解し、情報グラフィックス、文書、現実のシナリオ、数学的質問、科学文書、コード変換などのさまざまなニーズに対応できる能力を持っています。

#チャートの理解

複雑なグラフィックスとテキストを組み合わせたインフォメーション グラフィックスの理解であっても、単一のチャートの分析と計算であっても、モデルはそれを簡単に処理できます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

視覚障害者の実際のシナリオ

実際の視覚障害者シーンのテスト セット VizWiz では、XVERSE-V が優れたパフォーマンスを発揮し、InternVL-Chat を上回りました - V1.5、DeepSeek-VL-7B、およびその他のほぼすべての主流のオープンソース マルチモーダル大規模モデル。このテスト セットには、実際の視覚障害のあるユーザーからの 31,000 を超える視覚的な質問と回答が含まれており、ユーザーの実際のニーズや些細な問題を正確に反映し、視覚障害のある人が日常の実際の視覚上の課題を克服するのに役立ちます。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

# Vizwiz テスト例

# • コンテンツ コンテンツ

# XVVERSE-V 同時に、強力なテキスト生成機能を維持しており、画像を理解した後でクリエイティブなテキストを生成するタスクに適しています。 Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

教育問題解決

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。 このモデルは、幅広い知識の蓄積と論理的推論機能を備えており、さまざまな分野の質問に答えるための画像を識別できます。

#百科事典の回答

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。モデルには、歴史、文化、テクノロジー、セキュリティなどのさまざまなトピックに関する知識が格納されています。

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。コード記述

Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。オートパイロット

感情理解そして認識Yuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。

######

以上がYuanxiang の最初のマルチモーダル大型モデル XVERSE-V はオープンソースであり、権威ある大型モデルのリストを更新し、あらゆるアスペクト比入力をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。