AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。

AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 07:46 PM

aiモデル動詞

AIに指示を出すとき、人とのコミュニケーションは違うといつも感じることはありますか？

はい、AI は次のような人間による特定の指示を理解できます。

レストランから椅子を移動するのを手伝ってください。

しかし、それが代名詞 (彼/彼女/それ/これ/あれ/物...) と動詞だけの曖昧な指示に置き換えられると、AI は混乱します:

あなたの物事に参加できる人を見つけるのを手伝ってください。

今、一部の研究者がついにこの問題に対処する新しい方法を考え出しました。AI に動詞の理解を学習させるだけで十分ではないでしょうか。

動詞自体は特定の名詞と結びついており、例えば「バターを塗る」という動作は、「ナイフ」や「フォーク」などの名詞と切り離せないものです。

「ナイフとフォーク」などの名詞の指示がなくても、それらを照合するだけで、AI はターゲットオブジェクトを正確に見つけることができます。 AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。

現時点では、これこの論文は NeurIPS 2022 に正式に含まれており、関連モデルもオープンソースになっています。 AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。

それでは、AI が動詞を理解できるようにどのようにトレーニングするのでしょうか?

名詞をカバーすることでAIは「絵を見て物体を見つける」ことが可能になります

この論文ではTOISTと呼ばれるフレームワークが提案されています。

TOIST は、「Task Oriented Instance Segmentation Transformer」(Task Oriented Instance Segmentation Transformer) の略で、Transformer に基づく新しいインスタンスセグメンテーションソリューションです。

インスタンスセグメンテーションは、セマンティックセグメンテーションの「全画像切り出し」とは異なり、ターゲット検出の特徴を持っています。たとえば、次の図では、「ハッチバック車」という名詞を使用して、ターゲットを直接検索します。：

以前は、インスタンスセグメンテーションモデルは通常、「2 つのステップ」に分割されていました。最初のステップは、考えられるターゲットを検出することであり、2 番目のステップは、考えられるターゲットを分類し、最も可能性の高い結果を予測します。

しかし、このアプローチとは異なり、TOIST フレームワークは Transformer アーキテクチャ全体を直接採用しており、デコーダのセルフアテンションメカニズムが候補ターゲット間の優先関係を確立できます。

TOIST フレームワークは 3 つの部分に分かれています。

このうち、マルチモーダルエンコーダー (茶色の部分) は特徴マーカーの抽出を担当し、Transformer エンコーダー (緑色の部分) は 2 つのモダリティの特徴を集約する役割を担っており、Transformer デコーダーに基づいています。 (青い部分) 最適なターゲットを予測するための注意メカニズム。

その後、この論文は、モデルをトレーニングするための新しい名詞-代名詞の蒸留方法 (名詞-代名詞の蒸留) を提案しました。

具体的には、知識蒸留のフレームワーク (上の図の教師と生徒のモデル) に基づいて、AI は教師なし学習方式でコンテキストに基づいて名詞のプロトタイプを「推測」するようにトレーニングされます。

たとえば、元のインスタンスセグメンテーションタスクは「スケートボードで穴を掘る」ですが、モデルをトレーニングするときに、名詞「スケートボード」は代名詞「何か」に置き換えられます。 AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。

このようにして、AI は名詞を知らなくても、何もないところから正しい名詞を推測し、画像内の正しいターゲットをセグメント化できます。

AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。このセグメンテーション効果は実際のケースではどのように機能するのでしょうか?

ターゲット検出精度が 10.9% 向上

論文では、大規模タスクデータセット COCO-Tasks で TOIST をテストしました。

評価方法には、ターゲット検出などの視覚的なタスクで一般的な mAP (平均平均精度) が使用されます。

簡単に言うと、TOIST は以前のインスタンスセグメンテーションとターゲット検出モデルの SOTA モデルよりも優れたパフォーマンスを発揮し、名詞代名詞の蒸留手法が追加された「強化版」TOIST は TOIST よりも優れたパフォーマンスを発揮します。。

ターゲット検出タスクでは、現在最高の Yolo GGNN と比較して、「強化版」TOIST の決定ボックス精度 mAP は 10.9% 向上しました。インスタンスセグメンテーションタスクでは、マスク精度が Mask-RCNN よりも高かったです。 GGNNは6.6%高い。

AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。提案した名詞-代名詞抽出手法については、TOIST のオリジナルバージョンと比較して、インスタンス分割タスクの精度がそれぞれ 2.8% と 3.8% 向上しました。。

AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。 #ケースのパフォーマンスの観点から見ると、モデルの効果も実際のセグメンテーションの真の値に非常に近くなっています。

たとえば、図 (d) では、テーブルを使用してビール瓶の蓋を開けることができることまでアルゴリズムが認識しており、理解能力は完璧であると言えます。

#これを行うために研究の本来の目的について、著者は次のように答えました:

私たちの研究室は実際にロボットの研究を担当しているのですが、日々の調査の中で、ユーザーがロボットについて説明することを好む場合があることがわかりました。ロボットに何をすべきかを直接指示するのではなく、ロボットに「ニーズ」を伝えます。

言い換えれば、AI アルゴリズムは、ロボットが命令に従うだけのアシスタントではなく、「もう一歩考える」ようにするために使用されます。

著者紹介

この論文の著者は清華大学知能産業研究所 (AIR)、北京大学、インテル研究所の出身であり、AIR 所長の Zhang Yaqin 氏もその一人です。著者の。

この論文の筆頭著者である李鵬飛氏は、清華大学知能産業研究所の博士課程の学生であり、中国科学院大学を卒業しました。学士号を取得しており、研究対象には自動運転とコンピュータビジョンが含まれます。

責任著者のZhao Haoは、清華大学インテリジェント産業研究所の次期助教授であり、インテル中国研究所の研究員であり、北京大学の共同博士研究員でもあります。清華大学電子工学科を卒業し、ロボット工学とコンピュータビジョンの研究に興味を持っています。

論文アドレス: https://arxiv.org/abs/2210.10775

AIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。プロジェクトアドレス: https://github.com/AIR-DISCOVER/トイスト

以上がAIが「彼、彼女、それ」を理解できなかったらどうすればいいですか？動詞が新たな進歩となり、ロボットはバターの声を聞くと、ナイフとフォークの持ち方を認識します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。