ホームページ >テクノロジー周辺機器 >AI >AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか?動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。
AIに指示を出すとき、人とのコミュニケーションは違うといつも感じることはありますか?
はい、AI は次のような人間による特定の指示を理解できます。
レストランから椅子を移動するのを手伝ってください。
しかし、それが代名詞 (彼/彼女/それ/これ/あれ/物...) と動詞だけの曖昧な指示に置き換えられると、AI は混乱します:
あなたの物事に参加できる人を見つけるのを手伝ってください。
今、一部の研究者がついにこの問題に対処する新しい方法を考え出しました。AI に動詞の理解を学習させるだけで十分ではないでしょうか。
動詞自体は特定の名詞と結びついており、例えば「バターを塗る」という動作は、「ナイフ」や「フォーク」などの名詞と切り離せないものです。
「ナイフとフォーク」などの名詞の指示がなくても、それらを照合するだけで、AI はターゲット オブジェクトを正確に見つけることができます。
現時点では、これこの論文は NeurIPS 2022 に正式に含まれており、関連モデルもオープンソースになっています。
名詞をカバーすることでAIは「絵を見て物体を見つける」ことが可能になります
この論文ではTOISTと呼ばれるフレームワークが提案されています。
TOIST は、「Task Oriented Instance Segmentation Transformer」(Task Oriented Instance Segmentation Transformer) の略で、Transformer に基づく新しいインスタンス セグメンテーション ソリューションです。
インスタンスセグメンテーションは、セマンティックセグメンテーションの「全画像切り出し」とは異なり、ターゲット検出の特徴を持っています。たとえば、次の図では、「ハッチバック車」という名詞を使用して、ターゲットを直接検索します。 :以前は、インスタンス セグメンテーション モデルは通常、「2 つのステップ」に分割されていました。最初のステップは、考えられるターゲットを検出することであり、2 番目のステップは、考えられるターゲットを分類し、最も可能性の高い結果を予測します。
しかし、このアプローチとは異なり、TOIST フレームワークは Transformer アーキテクチャ全体を直接採用しており、デコーダのセルフ アテンション メカニズムが候補ターゲット間の優先関係を確立できます。
TOIST フレームワークは 3 つの部分に分かれています。
このうち、マルチモーダル エンコーダー (茶色の部分) は特徴マーカーの抽出を担当し、Transformer エンコーダー (緑色の部分) は 2 つのモダリティの特徴を集約する役割を担っており、Transformer デコーダーに基づいています。 (青い部分) 最適なターゲットを予測するための注意メカニズム。
その後、この論文は、モデルをトレーニングするための新しい名詞-代名詞の蒸留方法 (名詞-代名詞の蒸留) を提案しました。
具体的には、知識蒸留のフレームワーク (上の図の教師と生徒のモデル) に基づいて、AI は教師なし学習方式でコンテキストに基づいて名詞のプロトタイプを「推測」するようにトレーニングされます。
たとえば、元のインスタンス セグメンテーション タスクは「スケートボードで穴を掘る」ですが、モデルをトレーニングするときに、名詞「スケートボード」は代名詞「何か」に置き換えられます。
このようにして、AI は名詞を知らなくても、何もないところから正しい名詞を推測し、画像内の正しいターゲットをセグメント化できます。
このセグメンテーション効果は実際のケースではどのように機能するのでしょうか?
ターゲット検出精度が 10.9% 向上
評価方法には、ターゲット検出などの視覚的なタスクで一般的な mAP (平均平均精度) が使用されます。
簡単に言うと、TOIST は以前のインスタンス セグメンテーションとターゲット検出モデルの SOTA モデルよりも優れたパフォーマンスを発揮し、名詞代名詞の蒸留手法が追加された「強化版」TOIST は TOIST よりも優れたパフォーマンスを発揮します。 。
ターゲット検出タスクでは、現在最高の Yolo GGNN と比較して、「強化版」TOIST の決定ボックス精度 mAP は 10.9% 向上しました。インスタンス セグメンテーション タスクでは、マスク精度が Mask-RCNN よりも高かったです。 GGNNは6.6%高い。
提案した名詞-代名詞抽出手法については、TOIST のオリジナルバージョンと比較して、インスタンス分割タスクの精度がそれぞれ 2.8% と 3.8% 向上しました。 。
#ケースのパフォーマンスの観点から見ると、モデルの効果も実際のセグメンテーションの真の値に非常に近くなっています。
たとえば、図 (d) では、テーブルを使用してビール瓶の蓋を開けることができることまでアルゴリズムが認識しており、理解能力は完璧であると言えます。
#これを行うために 研究の本来の目的について、著者は次のように答えました: 私たちの研究室は実際にロボットの研究を担当しているのですが、日々の調査の中で、ユーザーがロボットについて説明することを好む場合があることがわかりました。ロボットに何をすべきかを直接指示するのではなく、ロボットに「ニーズ」を伝えます。言い換えれば、AI アルゴリズムは、ロボットが命令に従うだけのアシスタントではなく、「もう一歩考える」ようにするために使用されます。
著者紹介この論文の著者は清華大学知能産業研究所 (AIR)、北京大学、インテル研究所の出身であり、AIR 所長の Zhang Yaqin 氏もその一人です。著者の。
この論文の筆頭著者である李鵬飛氏は、清華大学知能産業研究所の博士課程の学生であり、中国科学院大学を卒業しました。学士号を取得しており、研究対象には自動運転とコンピュータ ビジョンが含まれます。責任著者のZhao Haoは、清華大学インテリジェント産業研究所の次期助教授であり、インテル中国研究所の研究員であり、北京大学の共同博士研究員でもあります。清華大学電子工学科を卒業し、ロボット工学とコンピュータ ビジョンの研究に興味を持っています。
論文アドレス: https://arxiv.org/abs/2210.10775プロジェクトアドレス: https://github.com/AIR-DISCOVER/トイスト
以上がAIが「彼、彼女、それ」を理解できなかったらどうすればいいですか?動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。