집 >기술 주변기기 >일체 포함 >AI가 '그, 그녀, 그것'을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

AI가 '그, 그녀, 그것'을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-12 19:46:01927검색

AI에게 지시를 내릴 때, 사람과의 소통이 다르다고 늘 느끼시나요?

예, AI는 다음과 같은 인간의 특정한 지시를 이해할 수 있습니다.

레스토랑에서 의자를 옮기는 것을 도와주세요.

하지만 대명사(그/그녀/그것/이/저것/것...)와 동사만 포함된 모호한 지시로 대체된다면 AI는 혼란스러워할 것입니다.

당신의 의지에 맞는 것을 찾도록 도와주세요 피트.

이제 연구자들은 마침내 이를 처리할 수 있는 새로운 방법을 찾아냈습니다. AI가 동사를 이해하는 방법을 배우도록 하는 것만으로도 충분하지 않을까요?

동사 자체는 일부 특정 명사와 결합되어 있습니다. 예를 들어 "버터를 퍼뜨리다"라는 동작은 "칼" 및 "포크"와 같은 명사와 확실히 분리될 수 없습니다.

일치만 하면 됩니다. "칼과 포크"와 같은 명사 지시가 필요하지 않으며 AI가 대상 개체를 정확하게 찾을 수 있습니다.

AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

현재 이 논문은 NeurIPS 2022에 공식적으로 포함되어 있습니다. 관련 모델도 오픈 소스였습니다.

그렇다면 AI가 동사를 이해하도록 정확히 어떻게 훈련합니까?

명사를 가리면 AI가 “그림을 보고 사물을 찾는다”는 것이 가능해진다

논문에서는 TOIST라는 프레임워크를 제안합니다.

TOIST는 Transformer를 기반으로 한 새로운 인스턴스 분할 솔루션인 "Task Oriented Instance Segmentation Transformer"(Task Oriented Instance Segmentation Transformer)입니다.

인스턴스 분할은 의미론적 분할의 "전체 이미지 절단"과 다릅니다. 또한 대상 감지의 특성도 있습니다. 예를 들어 다음 그림에서는 "hatchback car"라는 명사를 사용하여 해당 개체를 직접 찾습니다.

이전에는 인스턴스 분할 모델이 일반적으로 "2단계"로 나누어졌습니다. 첫 번째 단계는 가능한 대상을 탐지하는 것이었고, 두 번째 단계는 가능한 대상을 정렬하고 가장 가능성 있는 결과를 예측하는 것이었습니다. AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

그러나 이 접근 방식과 달리 TOIST 프레임워크는 디코더의 self-attention 메커니즘이 후보 대상 간의 선호 관계를 설정할 수 있는 전체 Transformer 아키텍처를 직접 채택합니다.

TOIST 프레임워크는 세 부분으로 나누어져 있습니다.

그 중 멀티 모달 인코더(갈색 부분)는 특징 마커 추출을 담당하고, 트랜스포머 인코더(녹색 부분)는 두 모달리티의 특징을 모아 트랜스포머 디코더(파란색)에서 어텐션을 기반으로 하는 역할을 담당합니다. 부분) 가장 적합한 목표를 예측하는 메커니즘.

이후 논문에서는 모델을 훈련시키기 위한 새로운 명사-대명사 증류 방법(명사-대명사 증류)을 제안했습니다.

구체적으로, AI는 지식 증류(위 그림의 교사-학생 모델) 프레임워크를 기반으로 비지도 학습 방식으로 맥락에 따라 명사 프로토타입을 "추측"하도록 훈련됩니다.

예를 들어 원래 인스턴스 분할 작업은 "스케이트보드로 구멍을 파는 것"이지만, 모델을 훈련할 때 "스케이트보드"라는 명사는 "뭔가"라는 대명사로 대체됩니다.

그런 AI를 명사를 모르더라도, 허공에서 정확한 명사를 추측하고 그림에서 올바른 대상을 분할할 수 있습니다. AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

이 분할 효과는 실제 사례에서 어떻게 수행되나요? AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

타겟 탐지 정확도가 10.9% 증가했습니다.

본 논문에서는 대규모 작업 데이터 세트인 COCO-Tasks에서 TOIST를 테스트했습니다.

평가 방법은 표적 탐지와 같은 시각적 작업에서 흔히 사용되는 mAP(평균 평균 정밀도)를 사용합니다.

간단히 말하면 TOIST는 기존 인스턴스 분할 및 타겟 탐지 모델인 SOTA 모델보다 성능이 뛰어나며, TOIST에 명사-대명사 증류 방식이 추가된 "향상된 버전"으로 TOIST보다 성능이 더욱 향상되었습니다.

그 중 표적 탐지 작업에서는 현재 최고의 Yolo+GGNN과 비교하여 "향상된 버전" TOIST의 결정 상자 정확도 mAP가 인스턴스 분할 작업에서 마스크 정확도가 10.9% 향상되었습니다. RCNN+GGNN이 6.6% 더 높습니다.

제안된 명사-대명사 증류 방법은 TOIST 원본 버전에 비해 인스턴스 분할 작업의 정확도가 각각 2.8%, 3.8% 향상되었습니다. AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

사례 성능 측면에서 모델 효과도 실제 분할 참값에 매우 가깝습니다. AI가 그, 그녀, 그것을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.

예를 들어, 그림 (d)에서 알고리즘은 테이블을 사용하여 맥주병 뚜껑을 열 수 있다는 사실까지 인식했는데, 이는 이해를 위한 만점이라고 할 수 있습니다.

이렇게 하는 원래 의도에 대해

저희 연구실은 실제로 로봇 연구를 담당하고 있지만 일일 조사 중에 사용자가 로봇에게 무엇을 해야 하는지 직접 알려주는 대신 로봇에게 '필요'를 설명하는 것을 선호하는 경우가 있다는 사실을 발견했습니다.

즉, AI 알고리즘은 로봇이 단순히 명령을 따르는 보조자가 아닌 "한 단계 더 생각"하도록 하는 데 사용됩니다.

저자 소개

본 논문의 저자는 칭화대학교 지능형 산업 연구소(AIR), 북경대학교 및 인텔 연구소 출신입니다. AIR Dean Zhang Yaqin도 저자 중 한 명입니다.

논문의 첫 번째 저자인 Li Pengfei는 칭화대학교 지능형 산업 연구소에서 박사 과정을 밟고 있으며, 중국과학원에서 학사 학위를 취득했습니다. 그리고 컴퓨터 비전.

교신저자인 Zhao Hao는 칭화대학교 지능형 산업 연구소의 신임 조교수, Intel China 연구소의 연구 과학자, 북경 대학교의 공동 박사후 연구원입니다. 그는 전자공학과를 졸업했습니다. 칭화대학교에서 그의 연구 관심 분야는 로봇공학과 컴퓨터입니다.

논문 주소: https://arxiv.org/abs/2210.10775

프로젝트 주소: https://github.com/AIR-DISCOVER/TOIST

위 내용은 AI가 '그, 그녀, 그것'을 이해하지 못하면 어떻게 해야 하나요? 동사는 새로운 돌파구가 되었습니다. 로봇은 버터를 들으면 나이프와 포크를 집는 방법을 압니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：기후 변화를 완화하고 관리하는 데 도움이 되는 인공 지능의 힘다음 기사：기후 변화를 완화하고 관리하는 데 도움이 되는 인공 지능의 힘