집 >기술 주변기기 >일체 포함 >AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-16 18:37:031826검색

과거에는 시각 장애인의 시력을 회복하는 것이 종종 의학적 '기적'으로 여겨졌습니다.

"머신 비전 + 자연어 이해"로 대표되는 다중 모드 지능형 기술의 폭발적인 발전으로 AI는 시각 장애인을 돕는 새로운 가능성을 가져왔습니다. 또 다른 방식으로 "세상을 볼" 수 있는 상호작용 능력이 필요합니다.

AI는 시각 장애인을 도와 더 많은 사람들이 다시 "세상"을 볼 수 있도록 돕습니다

일반적으로 볼 수 없어 외부 세계를 인식할 수 없는 시각 장애 환자를 위한 채널은 시각 외에 다른 감각, 예를 들어 청각, 후각, 촉각 등의 정보 방식은 시각 장애인이 시력 결함으로 인해 발생하는 문제를 어느 정도 완화하는 데 도움이 됩니다. 그러나 과학 연구에 따르면 인간이 얻는 외부 정보 중 시각이 무려 70~80%를 차지한다고 합니다.

따라서 시각 장애 환자가 외부 환경에 대한 시지각과 시각적 이해를 갖도록 돕는 AI 기반의 머신 비전 시스템을 구축하는 것은 의심할 여지 없이 가장 직접적이고 효과적인 솔루션입니다.

시각 인식 분야에서 현재의 단일 모달 AI 모델은 이미지 인식 작업에서 인간 수준을 능가했습니다. 그러나 이러한 유형의 기술은 현재 시각적 양식 내에서만 인식과 이해를 달성할 수 있으며 완성하기 어렵습니다. 다른 감각 정보. 간단히 말해서 교차 양식 학습, 이해 및 추론은 우리가 인식할 수만 있고 이해할 수는 없음을 의미합니다.

이를 위해 컴퓨터 비전의 창시자 중 한 명인 데이비드 마(David Marr)는 『비전』이라는 책에서 시각 이해 연구의 핵심 문제를 제기하면서 시각 시스템은 2차원 또는 3차원 표현을 구축해야 한다고 믿었습니다. 환경과 상호작용할 수 있습니다. 상호작용. 여기서 상호작용은 학습, 이해, 추론을 의미합니다.

실명 지원을 위한 우수한 AI 기술은 실제로 지능적 감지, 지능적 사용자 의도 추론 및 지능적 정보 제시를 포함하는 체계적인 프로젝트임을 알 수 있습니다. 이런 방식으로만 정보 장벽 없는 대화형 인터페이스가 구축될 수 있습니다.

AI 모델의 일반화 능력을 향상시키고 기계가 크로스 모달 이미지 분석 및 이해 기능을 가질 수 있도록 하기 위해 "머신 비전 + 자연어 이해"로 대표되는 멀티 모달 알고리즘이 등장하고 빠르게 발전하기 시작했습니다.

이 다중 정보 모달 상호 작용 알고리즘 모델은 AI의 인식, 이해 및 상호 작용 기능을 크게 향상시킬 수 있습니다. 일단 AI 실명 지원 분야에 성숙되고 적용되면 수억 명의 시각 장애인과 재개발에 도움이 될 수 있습니다. "세상을보다".

WHO 통계에 따르면 전 세계 최소 22억 명의 시각 장애인 또는 시각 장애인이 있으며, 우리나라는 전 세계에서 시각 장애인이 가장 많은 국가로 전체 시각 장애인 수의 18~20%를 차지합니다. 전 세계 시각 장애인의 수는 매년 4만 5천명에 달합니다.

시각 장애인을 위한 시각적 질의응답 과제로 인한 '도미노 효과'

1인칭 시점 인식 기술은 시각 장애인을 돕는 AI에 큰 의미를 갖습니다. 시각 장애인이 참여자로 나서서 스마트 장치를 작동할 필요가 없으며 대신 시각 장애인의 실제 관점에서 시작하여 과학자들이 시각 장애인의 인지에 더 부합하는 알고리즘 모델을 구축하는 데 도움을 줄 수 있습니다. 시각장애인을 위한 시각적 질문답변의 기초연구과제.

시각 장애인을 위한 시각적 질의응답 과제는 시각 장애인을 위한 AI 보조 학술 연구의 출발점이자 핵심 연구 방향 중 하나입니다. 그러나 현재의 기술 여건 하에서 시각 장애인을 위한 시각 질의응답 과제는 시각 질의응답 과제의 특수한 유형으로서 일반 시각 질의응답 과제에 비해 정확성을 향상시키는 데 더 큰 어려움에 직면해 있다.

한편 시각 장애인을 위한 시각적 Q&A의 질문 유형은 대상 감지, 텍스트 인식, 색상, 속성 인식 및 기타 유형의 질문(예: 냉장고에 있는 고기 식별, 약 복용 방법, 셔츠 고유 색상 선택 방법, 책 내용 소개 등.

한편, 시각장애인은 지각적 상호작용의 주체라는 특수성으로 인해 시각장애인이 사진을 찍을 때 휴대폰과 사물 사이의 거리를 파악하기 어려워 종종 초점이 맞춰진 상황이나, 피사체를 촬영했지만 전체 사진이 촬영되지 않거나, 핵심 정보가 촬영되지 않아 효과적인 특징 추출의 어려움이 크게 증가합니다.

동시에 기존의 시각적 질문 및 답변 모델은 대부분 폐쇄된 환경에서의 질문 및 답변 데이터 교육을 기반으로 하며 샘플 배포로 인해 심각한 제한이 있으며 일반화하기 어렵습니다. 오픈 월드. 다단계 추론을 위해서는 외부 지식을 통합해야 합니다.

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

블라인드 시각적 질문 및 답변 데이터

두 번째로, 블라인드 시각적 질문 및 답변 연구의 발전으로 과학자들은 연구 과정에서 시각적 질문 및 답변이 소음 간섭으로 인한 파생 문제에 직면하게 된다는 사실을 발견했습니다. . 따라서 소음을 정확하게 찾아내고 지능적인 추론을 완성하는 방법도 큰 과제에 직면해 있습니다.

시각 장애인은 외부 세계에 대한 시각적 인식이 없기 때문에 이미지-텍스트 매칭의 시각적 질문과 대답 작업에서 많은 오류를 범하는 경우가 많습니다. 예를 들어, 시각 장애인이 슈퍼마켓에 장을 보러 갔을 때, 시각 장애인이 식초 한 병을 집어 들었는데 제조사가 누구인지 묻는 등 제품의 생김새와 느낌이 비슷하기 때문에 잘못된 질문을 하기 쉽습니다. 간장은. 이러한 종류의 언어 소음으로 인해 기존 AI 모델이 실패하는 경우가 많으므로 AI는 복잡한 환경에서 소음과 사용 가능한 정보를 분석할 수 있는 능력을 갖추어야 합니다.

마지막으로 AI 시각 장애인 보조 시스템은 시각 장애인들의 현재 의심에 답할 뿐만 아니라 지능적인 의도에 대해 추론하고 지능 정보를 제시하는 능력도 갖춰야 합니다. 지능 상호 작용 기술은 중요한 연구 방향이자 알고리즘 연구입니다. 아직 초기 단계입니다.

지능형 의도 추론 기술의 연구 초점은 시각 장애가 있는 사용자의 언어와 행동 습관을 기계가 지속적으로 학습하도록 함으로써 시각 장애가 있는 사용자가 상호 작용 의도를 표현하고 싶어한다는 것을 추론하는 것입니다. 예를 들어 시각 장애인이 물컵을 들고 앉는 동작을 통해 물컵을 테이블 위에 올려놓는 다음 동작을 예측할 수 있고, 시각 장애인이 옷의 색깔이나 스타일에 대해 질문하는 것을 통해 시각 장애인이 물컵을 놓는 동작을 예측할 수 있다. 가능한 여행 등을 예측합니다.

이 기술의 어려움은 사용자의 표현과 표현 행위가 시공간적으로 무작위적이기 때문에 상호작용 의사결정의 심리적 모델도 무작위적이기 때문에 연속적인 의사결정에서 어떻게 변화하는지 효과적인 추출을 하는 것이 매우 중요합니다. 무작위 행동 데이터로부터 사용자가 입력한 정보와 동적 비결정적 다중 모드 모델을 설계하여 다양한 작업을 가장 효과적으로 표현합니다.

실명 보조를 위한 AI 기초 연구에 집중하고 있으며 Inspur Information의 많은 연구는 국제적으로 인정을 받았습니다

위의 기초 연구 분야의 획기적인 발전이 AI 기술의 조기 구현의 열쇠라는 데는 의심의 여지가 없습니다. 실명을 돕습니다. 현재 Inspur Information의 최첨단 연구팀은 다양한 알고리즘 혁신, 사전 훈련 모델 및 기본 데이터 세트 구축을 통해 AI 실명 지원 연구의 추가 발전을 촉진하기 위해 모든 노력을 기울이고 있습니다.

블라인드 시각적 질문 및 답변 과제 연구 분야에서 VizWiz-VQA는 "VizWiz" 블라인드를 사용하여 카네기 멜론 대학교 및 기타 기관의 학자들이 공동으로 출시한 글로벌 멀티모달 탑 블라인드 시각적 질문 및 답변 챌린지입니다. 훈련용 시각적 데이터 세트 AI 모델은 시각 장애인이 제공한 무작위 그림-텍스트 쌍에 대한 답변을 제공합니다. 시각 장애인을 위한 시각적 질문 및 답변 과제에서 Inspur 정보 프론티어 연구팀은 시각 장애인을 위한 시각적 질문 및 답변 과제에서 흔히 발생하는 많은 문제를 해결했습니다.

먼저 시각장애인이 찍은 사진은 흐릿하고 정보의 효율성이 떨어지기 때문에 질문이 더 주관적이고 모호한 경우가 많습니다 그래서 시각장애인의 매력을 이해하고 답변을 드리기가 어렵습니다.

팀에서는 시각적 표적 감지의 주요 엔터티와 속성을 앵커 포인트로 사용하여 그림과 질문을 연결하여 다중 모드 의미 체계 향상을 달성하는 듀얼 스트림 다중 모드 앵커 포인트 정렬 모델을 제안했습니다.

둘째, 시각장애인이 사진을 찍을 때 올바른 방향을 확보하기 어렵다는 문제를 고려하여 영상 각도 자동 보정 및 문자 의미 향상과 광학 문자 검출 및 인식 기술을 결합하여 "무엇"을 이해하는 문제가 해결됩니다.

마지막으로 시각 장애인이 찍은 사진은 대개 흐릿하고 불완전합니다. 이로 인해 일반 알고리즘이 대상 물체의 종류와 목적을 판단하기 어렵기 때문에 모델은 추론할 수 있는 상식 능력이 더 필요합니다. 사용자의 진정한 의도.

이를 위해 팀에서는 답변 중심의 시각적 위치 지정과 대형 모델 이미지 및 텍스트 매칭을 결합한 알고리즘을 제안하고 다단계 교차 학습 전략을 제안했습니다. 추론하는 동안 교차 학습된 시각적 위치 지정 및 이미지-텍스트 일치 모델을 사용하여 동시에 답변 영역을 추론하고 찾습니다. 지역 문자는 광학 문자 인식 알고리즘을 기반으로 결정되며 출력 텍스트는 디코더는 시각 장애인의 도움 요청에 대한 답변을 얻었고 다중 모드 알고리즘의 최종 정확도는 인간 성능보다 9.5% 포인트 앞섰습니다.

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

다중 시각적 질의응답 모델 솔루션

현재 시각적 포지셔닝 연구를 적용하는 데 가장 큰 장애물 중 하나는 소음의 지능적인 처리입니다. 실제 장면에서 텍스트 설명은 종종 사람의 말 실수, 모호함, 수사학 등 실험 결과 텍스트 노이즈로 인해 기존 AI 모델이 실패할 수 있다는 사실이 밝혀졌습니다.

이를 위해 Inspur Information Frontier 연구팀은 현실 세계에서 인간의 언어 오류로 인해 발생하는 다중 모드 불일치 문제를 탐색하고 모델이 올바르게 작동하도록 요구하는 시각적 위치 지정 텍스트 노이즈 제거 추론 작업 FREC를 처음으로 제안했습니다. 시각적 내용에 해당하는 텍스트를 찾고 해당 텍스트가 시끄럽다는 증거에 대한 추가 이유를 찾습니다.

FREC는 말실수, 모호함, 주관적 편차 등 다양한 소음을 다루는 30,000개의 이미지와 250,000개 이상의 텍스트 주석을 제공합니다. 또한 소음 교정 및 소음 증거와 같은 해석 가능한 레이블도 제공합니다.

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

FCTR 구조 다이어그램

동시에 팀은 시끄러운 텍스트 설명 조건에서 해석 가능한 최초의 노이즈 제거 시각적 위치 지정 모델 FCTR보다 정확도가 11% 더 높습니다. 전통적인 모델.

이 연구 결과는 국제 멀티미디어 분야 최고 학회이자 이 분야 유일의 CCF 추천 Class A 국제 학회인 ACM 멀티미디어 2022 컨퍼런스에서 발표되었습니다.

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

논문 주소: https://www.php.cn/link/9f03268e82461f179f372e61621f42d9

Inspur Information Front 이에 연구팀 거대한 지식 기반에서 검색할 수 있는 논리 체인을 구축하여 이미지와 텍스트의 기존 콘텐츠를 확장할 수 있는 설명 가능한 에이전트 시각적 대화형 질문 및 답변 작업 AI-VQA를 제안하여 업계의 새로운 연구 방향을 제안합니다.

현재 팀은 AI-VQA용 오픈 소스 데이터 세트를 구축했습니다. 여기에는 144,000개가 넘는 대규모 이벤트 지식 기반, 완전히 수동으로 주석이 달린 19,000개의 대화형 행동 인지 추론 질문, 주요 개체, 지원 사실이 포함되어 있습니다. 추론 경로 등 해석 가능한 주석.

AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!

ARE 구조도

동시에 에이전트의 상호작용 행동을 이해하기 위한 최초의 알고리즘 모델인 ARE(대체적 이유 및 설명을 위한 인코더-디코더 모델)는, 상호작용적 행동이 추론에 영향을 미치는 것을 최초로 실현합니다. 다중 모드 이미지 및 텍스트 융합 기술과 지식 그래프 검색 알고리즘을 기반으로 긴 인과관계 추론 기능을 갖춘 시각적 질문 및 답변 모델을 구현합니다. .

기술의 위대함은 세상을 바꾸는 것뿐만 아니라 더 중요하게는 인류에게 어떻게 도움이 되고 불가능한 일을 더 많이 가능하게 만드는가에 있습니다.

시각 장애인에게 특별한 대우를 받는 것이 아니라 시각 장애인을 돕는 AI 기술을 통해 다른 사람처럼 독립적으로 살아갈 수 있다는 것은 기술의 가장 큰 호의를 반영합니다.

AI가 현실로 빛나고 있는 지금, 기술은 더 이상 산처럼 차갑지 않고, 인간적인 배려의 따뜻함으로 가득 차 있습니다.

AI 기술의 선두에 서 있는 Inspur Information은 인공 지능 기술에 대한 연구가 더 많은 사람들을 유치하여 인공 지능 기술 구현을 지속적으로 촉진하고 시각 장애인을 돕는 다중 모드 AI의 물결이 AI 사기 방지, AI 진단 및 치료, AI 재해 조기 경보 및 기타 더 많은 시나리오를 통해 우리 사회에 더 많은 가치를 창출할 수 있습니다.

참조 링크:https://www.php.cn/link/9f03268e82461f179f372e61621f42d9

위 내용은 AI를 사용하여 수억 명의 시각 장애인이 다시 '세상을 볼' 수 있도록 도와주세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：음향학의 기계 학습 연구를 통해 다중 모드 메타버스를 열 수 있습니다.다음 기사：음향학의 기계 학습 연구를 통해 다중 모드 메타버스를 열 수 있습니다.