ホームページ >テクノロジー周辺機器 >AI >Ant Bailing 大規模モデルの最新の進歩: すでにネイティブのマルチモーダル機能を備えています

Ant Bailing 大規模モデルの最新の進歩: すでにネイティブのマルチモーダル機能を備えています

王林
王林オリジナル
2024-07-10 15:06:57492ブラウズ

7 月 5 日、2024 年世界人工知能会議の「信頼できる大規模モデルは産業イノベーションと開発に役立つ」フォーラムで、Ant Group は自社開発の Bailing モデルの最新の開発進捗状況を発表しました。Bailing モデルには「見る」機能があります。 「聞く」、「話す」、「描く」というネイティブのマルチモーダル機能により、オーディオ、ビデオ、画像、テキストなどのマルチモーダル データを直接理解してトレーニングできます。ネイティブ マルチモダリティは、AGI を実現する唯一の方法であると考えられています。中国では、この機能を実現しているのは少数の大手モデル メーカーだけです。記者はカンファレンスでのデモンストレーションから、マルチモーダル技術によって大型モデルがより人間のように認識し、対話できるようになり、Bailing のマルチモーダル機能が「Alipay Intelligent Assistant」に適用され、インテリジェントボディエクスペリエンスのアップグレードがサポートされることがわかりました。将来的には、Alipay でのよりインテリジェントなエージェントのアップグレードをサポートします。

Ant Bailing 大規模モデルの最新の進歩: すでにネイティブのマルチモーダル機能を備えています

1. (Ant Group 副社長の Xu Peng 氏が、Bailing Large Model のネイティブ マルチモーダル機能を紹介しました)
  1. Bailing Large Model のマルチモーダル機能は、中国のグラフィックスで GPT-4o レベルに達しました。およびテキスト理解MMBench-CN評価セットは、情報通信技術アカデミーのマルチモーダルセキュリティ能力評価で優れたレベル(最高レベル)を達成し、大規模なアプリケーションをサポートする能力を備えており、シリーズをサポートできますAIGC、グラフィックダイアログ、ビデオ理解、デジタルヒューマンなどの下流タスクの管理。
  2. マルチモーダル大規模モデル技術は、AI が人間世界の複雑な情報をよりよく理解できるようにするだけでなく、適用すると AI を人間の対話習慣とより一致させることができ、インテリジェントな顧客サービス、自律型などの多くの分野で大きな可能性を示しています。運転や医療診断への応用の可能性。
  3. Ant Group には豊富なアプリケーション シナリオがあり、Bailing の大規模モデルのマルチモーダル機能は、ライフ サービス、検索レコメンデーション、インタラクティブ エンターテイメント、その他のシナリオにも適用されています。
  4. ライフ サービスの観点では、Ant Group はマルチモーダル モデルを使用して ACT テクノロジーを実装し、エージェントが特定の計画と実行機能を利用できるようにしています。たとえば、ユーザーの音声仕様に基づいてスターバックス アプレットでコーヒーを直接注文できます。 , この機能は現在 Alipay で利用可能です インテリジェント アシスタントはオンラインです。
  5. 医療分野では、マルチモーダル機能により、ユーザーは 100 を超える複雑な医療検査レポートを識別して解釈し、治療を支援するために髪の健康状態や脱毛を検出することもできます。

    Ant Bailing 大規模モデルの最新の進歩: すでにネイティブのマルチモーダル機能を備えています

    (Ant 展示ホールで現場で Alipay インテリジェント アシスタントを使用してコーヒーを注文する体験をした聴衆)

発表会場では、Ant Group 副社長 Xu Peng が、新たにアップグレードされたマルチモーダルのさらに多くのアプリケーション シナリオをデモンストレーションしました。テクノロジーは次のことを実現できます:

  1. 合格 ビデオ会話の自然な形式で、AI アシスタントがユーザーの服装を識別し、デートに合わせた提案を提供します。
  2. ユーザーのさまざまな意図に応じて、たくさんの食材からさまざまなレシピの組み合わせを作成します。 ;
  3. ユーザーが説明した身体症状に従って、一連の薬の中から適切と思われる薬を選択し、ユーザーの参照のために服用説明書を読み上げます。

Bailing の大規模モデルのマルチモーダル機能に基づいて、Ant Group は業界に大規模なアプリケーションを導入する実践を模索してきました。

フォーラムで同時に公開された「Alipay Multi-modal Medical Model」は、この探求の実践です。 Alipay のマルチモーダル医療モデルには、レポート、画像、医薬品、その他のマルチモーダル情報を含む数百億の中国語と英語のグラフィックスとテキスト、数千億の医療テキスト コーパス、および数千万の高度な情報が追加されていると理解されています。質の高い医療知識マップ、専門的な医療知識を持ち、中国医学LLM評価リストであるpromptCBLUEのAリストで1位、Bリストで2位にランクされています。

Bailing 大型モデルのマルチモーダル機能に基づいて、Ant Group と武漢大学が共同開発したリモート センシング モデルである SkySense もフォーラムでオープンソース計画を発表しました。 SkySense は現在、最大のパラメータスケール、最も包括的なタスク範囲、および最高の認識精度を備えたマルチモーダルリモートセンシング基本モデルです。

「単一テキストの意味理解からマルチモーダル機能まで、これは人工知能テクノロジーの重要な反復であり、マルチモーダルテクノロジーによって生み出される「見る、聞く、書く、描く」というアプリケーションシナリオにより、AIのパフォーマンスが向上します。現実的であり、人間に近づくために、Ant はネイティブのマルチモダリティ技術の研究開発に投資し続けます」と Xu Peng 氏は述べました。

以上がAnt Bailing 大規模モデルの最新の進歩: すでにネイティブのマルチモーダル機能を備えていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。