ホームページ >テクノロジー周辺機器 >AI >国内初! SenseTime、リアルタイムマルチモーダルストリーミングインタラクションベンチマークGPT-4o「Ririxin 5o」をリリース
2024年7月5日、上海 - 2024年世界人工知能会議および人工知能グローバル・ガバナンスに関するハイレベル会議(WAIC 2024)の戦略的パートナーであるSenseTimeは、「境界なき愛・Xiang Xinli」人工知能フォーラムを開催し、リリースした国内初の WYSIWYG モデルは「毎日新しい 5o」で、インタラクティブ エクスペリエンスは GPT-4o に対してベンチマークされ、新しい AI インタラクション モデルを実現します。国内初の WYSIWYG モデル「Ririxin 5o」は、音声、テキスト、画像、ビデオなどのさまざまな形式に基づくクロスモーダル情報を統合することにより、新しい AI インタラクション モデル、つまりリアルタイム ストリーミング マルチモーダル インタラクションをもたらします。この革新的なインタラクション モデルは、現場にいる全員にも実証されました。スタッフは最初に「RiRiXin5o」と挨拶するだけで、スタッフが着用しているバッジ ストラップの文字を自動的に認識し、そのシーンが世界の会場であると判断しました。人工知能のカンファレンスで、ここでは「よく勉強できる」と言われました。
その後、スタッフがかわいい子犬の人形を持ってきました。「RiRiXin5o」は子犬の外見、表情、重要な服装を正確に描写しました - SenseTimeのロゴがプリントされた白い帽子をかぶった人形は、とてもかわいらしく、ホームの群衆が整列しました。 さらに難しいのは、本の任意のページを開くだけで、「RiRiXin5o」は、単純な文字のOCR認識ではなく、写真とテキストを認識してわかりやすく要約することです。瞬時に完了することができ、まさにリアルタイムのインタラクションを実現します。 スタッフもその場で「絵のスキル」を披露し、「RiRiXin5o」がかわいいと言って、シンプルな小さなウサギを描きました。そして、スタッフはこれで笑顔が落ち着きました。スタッフはそれを見て、口を大きくし、舌を追加しました。「RiRiXin5o」さんは、この表情のほうが幸せだとすぐに言いました。実際の人間がチャットしているのと同じように、トピックを聞いたり、読んだり、検索したりできます。この対話モードは、リアルタイムの対話や音声認識などのアプリケーションに特に適しており、複数のタスクを自然に処理できます。 GPT-4o と同等のインタラクティブなエクスペリエンスを実現できるのは、「RiRiXin 5.5」の基本モデルの機能が総合的に向上しているためです。
今年4月にリリースされた「RiRiXin 5.0」は、GPT-4 Turboをベンチマークする最初の国内大型モデルであり、わずか2か月あまりで新しい「RiRiXin 5.5」システムが大幅にアップグレードされ、総合的なパフォーマンスが向上しました。 「Ririxin 5.0」と比較して平均30%向上し、インタラクティブな効果と複数のコア指標により、数的推理力、英語力、コマンド追従力が大幅に向上し、ベンチマークGPT-4oを達成しました。
「Ririxin 5.5」は、クラウドとエッジデバイスのコラボレーションを最大化し、推論コストを削減するために、ハイブリッドデバイスとクラウドのコラボレーションエキスパートアーキテクチャを採用しています。モデルトレーニングは、大量のデータを含む10TBを超える高品質のトレーニングデータに基づいています。思考力を向上させるための合成思考連鎖データ。 より多くの企業ユーザーが「RiRiXin」大型モデル システムの強力な機能を低いしきい値でアクセスして使用できるようにするために、SenseTime は最近「大型モデル 0 元 Go」プランを開始しました。以上が国内初! SenseTime、リアルタイムマルチモーダルストリーミングインタラクションベンチマークGPT-4o「Ririxin 5o」をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。