ホームページ  >  記事  >  テクノロジー周辺機器  >  ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です

ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です

王林
王林転載
2024-03-28 22:01:21346ブラウズ

今年のアップグレードの焦点は、マルチモーダル大規模モデル機能の導入です。

Sora と Suno が作成したビデオと音楽作品が世界中でオーディオビジュアル革命を引き起こす中、産業界の大規模なマルチモーダル アプリケーションはどのように進化するのでしょうか? 3 月 27 日、Innovation Qizhi は、中国を代表する「AI 製造」ソリューション プロバイダーとして、将来を見据えた答えを発表しました。

半年にわたる懸命の努力を経て、Innovation Qizhi は北京で開催された記者会見で、より強力な Qizhi Haiming Industrial Large Model 2.0 バージョン (AInno-75B) をリリースしました。 ChatVision、ChatCAD など、いくつかの大規模モデルのネイティブ アプリケーションもデビューし、ChatRobot も Pro バージョンにアップグレードされました。

ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です

Qizhi CTO Zhang Faenを記者会見で革新するため

ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です


研究担当者やエンジニアは、特定のパフォーマンス目標を達成するために必要なモデルのサイズとパラメーターの数を増やすことによるパフォーマンスの向上を予測します。現在、インターフェースに関してはある程度の合意が形成されており、パラメータを改善することでモデルのパフォーマンスを向上させることができます。 AInno-15B と比較して、AInno-75B はサイズと性能の大幅な向上を実現しました。

今年のアップグレードの焦点は、マルチモードの大規模モデル機能の導入です。 Zhang Faen 氏は、この高度な大型モデルはテキスト、画像、ビデオなどの複数の情報モダリティを処理でき、CAD 図面や EEG 信号などの産業シナリオに固有のデータ タイプを統合することもできると説明しました。その出力も同様に多様で、テキスト、画像、ビデオ、CAD 設計図面、またはツール本体の操作動作を生成できます。



1. ChatCAD: 工業用「文勝図」の美しさ

ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能ですC -サイド AIGC アプリケーション 生成された写真やビデオは息をのむほど素晴らしく、エンタープライズ サービスの分野では、AI 生成機能も同様に刺激的です。 工業デザインは生産活動の基礎であり、携帯電話から新エネルギー自動車工場に至るまで、工業デザインは生産や建設の前に完了する必要があります。工業デザインの基盤として、CAD ソフトウェアは産業チェーンの中で重要な位置を占めています。長い間、我が国のメディア CAD ソフトウェア市場は外国メーカーによって独占されており、インターフェースが複雑で、使用するのに高い障壁がありました。

中国中原国際機械工程有限公司の運営部長、王賢氏は、設計作業のほとんどが手作業に頼っていることを明らかにした。基準階であっても集合住宅であっても、一つの建物を設計者が一つ一つ描く必要があり、工業用図面も同様で、多くの人的資源と物的資源を消費します。さらに、業界仕様も多く、頻繁に改訂されるため、設計の難易度はさらに高まります。

この状況を打破するために、Chuangxinqizhi は工業デザインの分野に工業用大型モデル技術を率先して導入し、Text-to-CAD アプリケーション - 「ChatCAD」: 簡単な対話と質問を通じて - を立ち上げました。アンドアンサー形式で、すぐに理解できます。 デザイナーの創造的な意図に基づいて、要件を満たす工業デザイン図面が自動的に生成され、微調整のために従来のソフトウェアにエクスポートされます。

「工業用プーリーの設計を手伝ってください。パラメータは次のとおりです: プーリーの半径は 6、厚さは 5、プーリーの端は外側に 0.8 突き出します。突き出た部分の厚さは次のとおりです。は 0.5、プーリーの中心軸の高さは 5、半径は 4 インチです。 ChatCAD はアートワークを即座に生成し、フィードバックに基づいてデザインを継続的に改良します。 ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です

産業用プーリー設計のライブ デモンストレーション 長く複雑なコンポーネント設計要件に直面しても、ChatCAD はそれに対応できます。たとえば、「タービンの設計を手伝ってください。タービンはモーターとエンジン カバーで構成されています。具体的な要件は次のとおりです。モーターは長さ 20、直径 16 の円筒形です。タービンは円筒形のタービン シャフトで構成されています。」ファンブレード 5 枚、タービンシャフトの長さは 20、直径は 12、タービンの上部には円筒形の円錐回転軸が必要、シャフトキャップの長さは 9、直径は 12、エンジンカバーの直径は50、長さ 30、タービン ブレードとエンジン カバー間の距離は 1 です。」

### ChatCAD は現在も結果を生成し、フィードバックに基づいて改善を続けています。 ChatCAD によって生成されたデザインは、主流のファイル形式もサポートしており、他の産業用ソフトウェアにシームレスに接続して、その後の統合や変更を容易にすることができます。 ##################### タービン設計のライブ デモンストレーション#########

この機能に王氏はとても興奮しています。同氏は、ChatCAD が業界の反復労働を削減し、厳格な仕様制限を回避するのに役立つと期待されており、それによって業界全体の手動見積に影響を与えると考えています。

それでは、ChatCAD はどのように実装されているのでしょうか? Zhang Faen 氏は、CAD はテキスト、画像、ビデオなどの一般的なモダリティとは異なり、点、線、エッジ、円、柱などの幾何学的データを表現する必要があると説明しました。そしてプロセス。 「したがって、私たちはそれをモダリティとも呼びます。これは、C 側にはないモダリティです。CAD を表現するための独自の中間言語を発明し、この中間言語または大規模なモデル用の中間コードを生成し、これらの中間コードを翻訳する必要があります」 CADに。 ChatCAD の目標は、設計機関のエンジニアの右腕アシスタントとなることです。大規模なモデルが作業の 90% を担当し、残りの 10% が手動で最適化されるため、当初 10 時間かかっていた設計プロセスが 1 時間に短縮されることが期待されています。 ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能ですChuangxinqizhi が高度な大型モデル技術を CAD、MES、BI などのさまざまな産業用ソフトウェアに統合することに成功し、「研究開発設計、生産管理、情報管理」の包括的な統合を実現したことは特筆に値します。そしてプロセスのアップグレード。

2. ChatVision: 産業安全監視のための新しいツール

工場生産の安全性とコンプライアンスは非常に重要であり、ビデオ監視と画像分析が不可欠です足らない。基板カード工場でのウェーブはんだ付けを例にとると、280 度の高温錫炉を清掃する際、作業者が気密活性炭マスクや高温保護手袋などの安全保護具を厳密に着用していないと、 、重度の火傷を負う危険があります。

従来の監視方法は非効率的で、隠れた危険を見逃しやすく、その後の検査に明らかな遅れが生じます。 Alnno-75B 産業用大型モデルに基づいた ChatVision は、自然言語を通じて監視ビデオ ストリーム、ビデオ ファイル、写真をリアルタイムで分析し、違反行為を正確に特定し、即座に警報システムを作動させることができます (管理者への電子メールの自動送信など)。産業企業のセキュリティ生産を支援します。

記者会見の現場デモンストレーションでは、ChatVisionは「今の画面をよく見て、ここがどこにあるのか教えてください」や「電源コンセントを探してください」などの包括的な理解コマンドに正確に応答しました。 「画面内」、「白いものを見つける」「ヘルメット」などの特定のターゲット認識タスクは、その広範な応用の可能性を実証しています。

ライブデモンストレーション以来、C

hatVision は画面内の電源ソケットを見つけました。 「白いヘルメット」およびその他の特定のターゲット。ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です

これらの手順は非常に単純に見えます。大規模なモデルがなければ、小さな認識カテゴリ (ヘルメット、喫煙など) ごとに開発する必要があります。 ) 特定のアルゴリズムはデバッグやデプロイ後の修正が難しく、実装コストが高く、サイクルが長い 大規模モデルの出現は従来のパラダイムを覆す 単一の大きなモデルが複数の小さなモデルの機能をカバーし、それを上回るパフォーマンス、精度、一般化機能の点で優れており、自然言語対話をサポートしているため、開発と展開のプロセスが大幅に簡素化されています。

ライブ デモンストレーション中に画面が変わりました。デモ参加者は「この画面を注意深く分析してください。違反がある場合は管理者にメールを送信してください。」この指示は次のとおりです。非常に知識集約的です。違反の判定だけでなく、メール送信のトリガーや受信者の決定も行います。これは大規模モデルのネイティブ アプリケーションの典型的なサービス モデルです。その結果、ChatVision には多くのセキュリティ監視スキルが必要でした

正式リリースされたファイルには明確なデモがあります。 ChatVision デモ

ChatVision デモは、産業用大規模モデルの計画と推論機能を完全に反映しており、ユーザーの意図を一連の外部ツール呼び出しに変換して、複雑なビデオ理解タスクを順序立てて完了できます。 ビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能です Innovation Qizhi の CTO である Zhang Faen 氏は、同社は過去数年間で 200 以上のビジュアル アルゴリズムとモデル資産を蓄積しており、産業用大型モデルはこれらのアプリケーションの新たな地平を切り開いたと述べました。大規模なモデルは、ユーザー エクスペリエンスを最適化するインテリジェントなオーケストレーターとして機能するだけでなく、そのマルチモーダル機能によりビデオの理解を強化し、エンタープライズ セキュリティの分野で重要な役割を果たすこともできます。

最後のデモンストレーション ケースでは、マルチモーダル分野における大規模モデルの最先端のアプリケーションを紹介します。実際のワークショップのビデオを前に、デモンストレーターは難しい要求を出しました。「このビデオを注意深く分析し、誰かが食事をしているかどうかを教えて、この動作が起こった時間を記録してください。」このタスクでは、長期シーケンス画像に対して連続アクション認識を実行し、アクションの開始時刻と終了時刻をマークする大規模なモデルが必要です。その結果、ChatVision はビデオの最初の 15 秒以内に従業員が食事をしているシーンを正確に特定しました。

「食事は非常に一般的なイベントであり、イベントを理解する大規模モデルの能力は、従来の小規模なアルゴリズム モデルよりもはるかに優れています。」と Zhang Faen 氏は説明しました。長い間、ビデオを通じて生産およびエンジニアリングの安全性を確保することが緊急の必要性がありました。将来的には、大型モデルに関する関連作業により、生産の安全条件と生産プロセスのコンプライアンスをビデオでインテリジェントに理解することが期待されます。

Wang Xian 氏の見解では、安全性はエンジニアリング プロジェクトにおいて常に最優先事項です。長年にわたり、エンジニアリングの安全トレーニングには、現場での危険の特定が含まれることはほとんどありませんでした。同氏は、ChatVision には幅広い応用の可能性があり、現場での安全ヘルメットの検出、高所での安全ロープの着用、安全装置の持ち運びなどのシナリオでの実装が期待されていると考えています。 ChatVision は監督業界でも大きな可能性を秘めており、現在、現場の安全検査の多くは依然として人手に大きく依存しています。

3. ChatRobot Pro: 「動き想像認識」

AInno-15B のネイティブ アプリケーション ChatRobot は、産業用ロボットの音声制御を実装しました。 ChatRobot に「コーヒーを持ってきて」と言うだけで、産業用ロボット アームが棚の上のコーヒーを検索し、商品を届けるための独自のルートを設計するように指示できます。 ChatRobot Pro は、より複雑な情報媒体 EEG 信号を処理できます。

記者会見で、デモンストレーターは製品(ユニフォーム緑茶)をランダムに選択し、頭皮に複数の電極を固定した人に、モーターの想像力を使って産業用ロボットを制御してその飲み物を手に与えるよう依頼しました。 。コレクタを装着した男性は「左」「右」「選択」の3つを考えており、大型モデルが変換した信号に基づいてカーソルも画面上で左右に動きます。カーソルがターゲットのアイコンに移動したら、アイコンを見つめ、カーソルをクリックして選択します。

次に、ChatRobot Pro は、タスクのインテリジェントなオーケストレーションを独立して完了し、実行可能なタスク ステップを生成し、産業用ロボット インターフェイスとリアルタイムで対話して、ロボットにタスクを完了するよう指示します。

脳波信号は脳活動中に生成される信号であり、脳活動と脳波信号の関係は非常に複雑であり、それをどのように解読するかが研究者にとって大きな課題となっています。従来のアプローチは精度が低いですが、AInno-75B はこのタイプのマルチモーダル情報を解釈できる可能性を示しています。外国のブレインコンピューターインターフェース技術の中には、侵襲電極を使用して脳波信号を取得するものもありますが、これには電極設計、外科的埋め込み、拒絶反応、信号送信、信号解読などの一連の工学的問題が伴います。 Innovation Qizhi は、非侵襲的な EEG キャップを使用して EEG 情報を収集し、エンジニアリングの困難さを大幅に軽減します。

しかし、Zhang Faen氏はまた、この侵襲的方法はより多くのチャネルとより鮮明なEEG信号を取得できるため、その後のより複雑な脳の意図の解読が容易になるとも述べた。鮮やかな比喩は、脳波信号を収集する侵襲的方法はスタジアム内でコンサートを聴くようなものであり、非侵襲的方法はスタジアムの外でコンサートを聴くようなものであり、歌の明瞭さに大きな違いが生じるでしょう。 。現在、Chuangxinqizhi が行っている研究開発作業は、大規模産業モデルのマルチモーダル機能を検証し、将来起こり得る脳制御産業オートメーション シナリオに向けた技術的な事前研究を実施することです。

これはエンドツーエンドのネイティブ アプリケーションでもある、と Zhang Faen 氏は強調しました。 EEG 信号の入力から最終結果の直接出力 (デモンストレーターに商品を届けるロボット アーム) までのプロセス全体は、手作業で設計された機能や従来のデータ処理に依存することなく、ニューラル ネットワークによって完了します。

自然言語インタラクションと運動想像力認識に加えて、ChatRobot Pro は産業用大型モデルの推論機能も最大限に活用して、長期シーケンスのタスク オーケストレーションと複雑な意思決定を実現します。強力なインテリジェント制御と意思決定機能をさまざまな団体 (産業用ロボット アームや AGV など) に提供することも、革新的な Qizhi Industrial 大型モデルの将来の方向性となります。

4. 進化し続け、前進し続ける

生成型 AI の時代には、産業応用、イノベーション、知恵は常に産業シナリオの可能性を探求してきました。

Zhang Faen 氏は、エンタープライズ サービスに向けた大型モデルの見通しを「有望」と呼んでいます。しかし同氏は、「技術革新の窓口期間中、特に比較的大きな変化の場合、全員の理解が不均一になることが多い。人々の理解が追いつくには時間が必要であり、彼も例外ではない」と認めた。

新しいネイティブ アプリケーションに加え、昨年リリースされた ChatDOC の全体的なパフォーマンスと効果が向上し、製品機能がより充実しました。 ChatBI は Excel および CSV データのサポートを追加し、SQL ステートメントと分析レポートの生成精度が 15% 向上しました。大規模なモデル サービング エンジンは展開が容易で、より高い推論パフォーマンスを提供します。

「Innovation Qizhi は、産業用大型モデルのコア生成機能に直接基づいて構築された ChatX アプリケーションをさらに磨き上げます。」と Zhang Faen 氏は述べています。

以上がビデオを見たり、CAD を描いたり、動画を認識したりできます。 75B の大型マルチモーダル産業モデルは非常に有能ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。