>기술 주변기기 >일체 포함 >IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

王林
王林앞으로
2023-04-12 09:58:111645검색

오늘날의 데이터 기반 인공 지능 연구에서 단일 모달 데이터가 제공하는 정보는 더 이상 기계 인지 능력 향상 요구 사항을 충족할 수 없습니다. 인간이 시각, 청각, 후각, 촉각과 같은 다양한 감각 정보를 사용하여 세상을 인식하는 방식과 마찬가지로 기계도 인간의 공감각을 시뮬레이션하여 인지 수준을 향상시켜야 합니다.

동시에 다중 모드 시공간 데이터의 폭발적인 증가와 컴퓨팅 성능의 향상으로 연구자들은 증가하는 다양한 요구에 대처하기 위해 수많은 방법을 제안했습니다. 그러나 현재의 다중 모드 인지 컴퓨팅은 여전히 ​​인간의 명백한 능력을 모방하는 데 국한되어 있으며 인지 수준에서 이론적 근거가 부족합니다. 더욱 복잡한 지능형 작업에 직면하면서 인지과학과 컴퓨팅 과학의 교차는 불가피해졌습니다.

최근 Northwestern Polytechnical University의 Li Xuelong 교수는 "China Science: Information Science" 저널에 "Multimodal Cognitive Computing"이라는 논문을 게재했습니다. 그는 "정보 용량"(Information Capacity)을 기반으로 인지적 정보 전달 모델을 확립했습니다. 프로세스의 관점은 다중 모드 인지 컴퓨팅의 다양한 작업을 이론적으로 통합하는 "다중 모드 인지 컴퓨팅이 기계의 정보 추출 기능을 향상시킬 수 있다"는 관점을 제시합니다.

Li Xuelong은

다중 모드 인지 컴퓨팅이 일반 인공 지능을 실현하는 열쇠 중 하나이며 "Vicinagearth Security"와 같은 분야에서 광범위한 응용 가능성을 가지고 있다고 믿습니다. 이 기사에서는 인간과 기계의 통합 인지 모델을 탐구하고 다중 모드 인지 컴퓨팅 촉진에 대한 연구에 영감을 줍니다.

IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

인용 형식: Xuelong Li, "Multi-Modal Cognitive Computing," SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

Li Xuelong은 Northwestern Polytech의 교수입니다. 니컬 대학교, 고차원에 초점을 맞춘 데이터의 지능적인 획득, 처리 및 관리 간의 관계는 "Vicinagearth Security"와 같은 응용 시스템에서 중요한 역할을 합니다. 그는 2011년 IEEE 펠로우로 선출되었으며, 국제인공지능협회(AAAI) 집행위원회에 선출된 최초의 본토 학자였습니다.

AI Technology Review에서는 "Multimodal Cognitive Computing" 기사의 핵심 내용을 요약하고, 이 방향에 따라 Li Xuelong 교수와 심층 대화를 진행했습니다.

1 다음과 같습니다).

먼저 인간이 이벤트 정보를 추출하는 방법을 이해해야 합니다.

1948년 정보 이론의 창시자인 Shannon은 확률 변수의 불확실성 정도를 나타내는 "정보 엔트로피" 개념을 제안했습니다. 사건의 확률이 작을수록 해당 사건이 제공하는 정보의 양은 더 많습니다. 발생. 즉, 주어진 인지 과제 T에서 사건 발생으로 인해 가져온 정보의 양은 사건 공간

인간의 주의력이 특정 시공간 범위 내에서 제한되어 있다고 가정하면 상태가 전달됩니다. (1로 가정), 따라서 시공간 사건이 단일 양식에서 다중 양식으로 바뀔 때 인간은 지속적으로 주의를 조정하고 초점을 바꿀 필요가 없습니다. 알 수 없는 사건 정보에 놓으면 최대한의 정보를 얻을 수 있습니다.

IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다. 시공간 사건에 포함된 양식이 많을수록 개인이 얻는 정보의 양이 많아지고 인지 수준도 높아진다는 것을 알 수 있습니다.

그렇다면 기계는 얻는 정보의 양이 많을수록 인간의 인지 수준에 가까워진다는 건가요?

답은 그렇지 않습니다. 기계의 인지 능력을 측정하기 위해 Li Xuelong은 "신뢰" 이론을 바탕으로 기계가 이벤트 공간에서 정보를 추출하는 과정을 다음과 같이 표현했습니다. 그 중 D는 이벤트 공간 x의 데이터량이다.

IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

따라서 기계의 인지 능력은 하나의 데이터 단위에서 최대한의 정보를 얻는 능력으로 정의할 수 있습니다. 이처럼 인간과 기계의 인지 학습은 하나의 과정으로 통합됩니다. 정보 활용도 향상 .

그렇다면 기계의 다중 모드 데이터 활용을 개선하여 다중 모드 인지 컴퓨팅 기능을 향상시키는 방법은 무엇일까요?

인간 인지의 향상이 현실 세계의 연상, 추론, 귀납, 연역과 분리될 수 없는 것처럼, 기계 인지를 향상시키려면 해당 세 가지 측면, 즉 연상, 생성, 협업, 이는 오늘날 다중 모드 분석의 세 가지 기본 작업이기도 합니다.

2

가능한 한 적은 데이터를 사용하여 정보의 양을 최대화합니다.

다중 모드 상관관계

다양한 양식에서 나온 콘텐츠를 어떻게 공간적, 시간적, 의미적 수준에서 상관시킬 수 있나요? 이는 다중모달 연관업무의 목표이자 정보활용도 향상을 위한 전제조건이다.

공간적, 시간적, 의미적 수준에서 다중 모드 정보를 정렬하는 것은 다중 모드 검색의 기초입니다. 예를 들어 멀티미디어 검색 기술에 의존합니다. , 비디오 클립을 검색하기 위해 어휘 문구를 입력할 수 있습니다.

캡션: 다중 모드 정렬 다이어그램IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

인간의 교차 감각 인식 메커니즘에서 영감을 받은 AI 연구자들은 입술 읽기 및 누락 양식에 대해 계산 가능한 모델을 사용했습니다. 세대, 등의 인식 작업도 장애인 집단에 대한 교차적 인식을 지원합니다. 미래에는 교차 모드 인식의 주요 응용 시나리오가 더 이상 장애인을 위한 인식 대체 응용 프로그램에 국한되지 않고 인간의 교차 감각 인식과 더욱 통합되어 인간의 다감각 인식 수준을 향상시킬 것입니다.

요즘 디지털 모달 콘텐츠가 빠르게 성장하고 있으며, 교차 모달 검색에 대한 애플리케이션 요구 사항도 더욱 풍부해지고 있습니다. 이는 의심할 여지 없이 다중 모달 연관 학습에 대한 새로운 기회와 과제를 제시합니다.

교차형 세대

소설의 줄거리를 읽으면 그에 상응하는 그림이 자연스럽게 우리 마음속에 떠오릅니다. 이는 인간의 교차양식 추론과 세대 능력을 반영합니다. 마찬가지로 다중 모드 인지 컴퓨팅에서 교차 모드 생성 작업의 목표는 기계에 알 수 없는 형식의 엔터티를 생성할 수 있는 기능을 제공하는 것입니다. 정보 이론의 관점에서 이 작업의 본질은 다중 모드 정보 채널 내에서 기계 인지 능력을 향상시키는 것입니다. 두 가지 방법이 있습니다. 하나는 정보의 양을 늘리는 것, 즉 교차 모드 합성입니다.

데이터 양, 즉 교차 모드 변환을 줄이는 것입니다.

교차 모달 합성의 임무는 새로운 모달 엔터티를 생성할 때 기존 정보를 풍부하게 하여 정보의 양을 늘리는 것입니다. 텍스트를 기반으로 한 이미지 생성을 예로 들면, 초기에는 검색 라이브러리에 크게 의존하는 엔터티 연관이 주로 사용되었습니다. 오늘날 이미지 생성 기술은 주로 현실적이고 고품질의 이미지를 생성할 수 있는 생성적 적대 네트워크(Generative Adversarial Network)를 기반으로 합니다. 그러나 얼굴 이미지 생성은 여전히 ​​매우 어려운 작업입니다. 정보 수준에서는 작은 표정 변화라도 매우 많은 양의 정보를 전달할 수 있기 때문입니다.

동시에 복잡한 양식을 간단한 양식으로 변환하고 보다 간결한 표현을 찾는 것은 데이터 양을 줄이고 정보 획득 능력을 향상시킬 수 있습니다.

IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.

캡션: 일반적인 크로스 모달 변환 작업

컴퓨터 비전과 자연어 처리 기술이 결합된 모델인 크로스 모달 변환은 온라인 검색 효율성을 크게 향상시킬 수 있습니다. 예를 들어, 긴 비디오에 대해 간단한 자연어 설명을 제공하거나 비디오 정보와 관련된 오디오 신호를 생성합니다.

현재 두 가지 주류 생성 모델인 VAE(Variational Autoencoder)와 GAN(Generative Adversarial Network)은 각각 고유한 장단점을 가지고 있으며, Li Xuelong은 VAE가 가정에 의존하는 반면 GAN은 해석성이 좋지 않다고 믿습니다. 합리적으로 결합해야합니다. 특히 중요한 점은 다중 모드 생성 작업의 과제가 생성 품질뿐만 아니라 서로 다른 양식 간의 의미 및 표현 격차에도 있다는 점입니다. 의미 격차를 전제로 지식 추론을 수행하는 방법을 해결해야 합니다. 앞으로는 어려움.

다중 협업

인간의 인지 메커니즘에서는 귀납과 추론이 중요한 역할을 합니다. 우리는 보고 듣고 냄새 맡고 만지는 것을 이해할 수 있습니다. 최첨단 인식을 사용합니다. 의사결정의 기초로 유도, 융합, 공동추론을 수행합니다.

마찬가지로 다중 모드 인지 컴퓨팅에도 둘 이상의 모달 데이터의 조정이 필요하고, 서로 협력하여 더 복잡한 다중 모드 작업을 완료하고, 정확성과 일반화 기능을 향상시켜야 합니다. 정보 이론의 관점에서 볼 때, 그 본질은 정보 보완의 목적을 달성하기 위해 다중 모드 정보의 상호 융합이며, 주의의 최적화입니다.

먼저 모달 융합은 데이터 형식, 시공간 정렬, 노이즈 간섭 등으로 인해 발생하는 다중 모달 데이터 차이 문제를 해결하는 것입니다. 현재 우연규칙의 융합방법으로는 직렬융합, 병렬융합, 가중융합 등이 있고, 학습기반 융합방법으로는 주의 메커니즘 모델, 전이학습, 지식증류 등이 있다.

둘째, 다중 모드 정보의 융합이 완료된 후 모델이 모드 데이터 간의 관계를 마이닝하고 모드 간의 보조 또는 보완 연결을 구축할 수 있도록 모드 정보에 대한 공동 학습이 필요합니다.

공동 학습을 통해 시각적 안내 오디오, 오디오 안내 비전, 깊이 안내 비전 및 기타 응용 프로그램과 같은 모달 성능을 향상할 수 있는 반면, 어려웠던 작업을 해결할 수 있습니다. 복잡한 감정 컴퓨팅, 오디오 매칭 얼굴 모델링, 시청각 안내 음악 생성 등과 같은 과거의 단일 양식으로 달성하는 것은 모두 미래의 다중 모드 인지 컴퓨팅의 개발 방향입니다.

3 기회와 과제

최근 몇 년 동안 딥 러닝 기술은 다중 모드 인지 컴퓨팅의 이론 및 엔지니어링 개발을 크게 촉진했습니다. 그러나 오늘날 애플리케이션 요구 사항이 더욱 다양해지고 데이터 반복 속도가 가속화되면서 다중 모드 인지 컴퓨팅에 대한 새로운 과제와 많은 기회가 제기됩니다.

기계 인지 능력 향상의 네 가지 수준을 살펴볼 수 있습니다.

데이터 수준에서 전통적인 다중 모드 연구는 데이터 수집과 계산을 두 개의 독립적인 프로세스로 분리합니다. 이러한 방식은 단점이 있습니다. 인간 세계는 연속적인 아날로그 신호로 구성되어 있는 반면, 기계는 개별적인 디지털 신호를 처리하므로 변환 과정에서 필연적으로 정보 왜곡과 손실이 발생합니다.

이와 관련하여 Li Xuelong은 광 신경망으로 대표되는 지능형 광전자 공학이 솔루션을 가져올 수 있다고 믿습니다. 다중 모드 데이터의 감지 및 계산 통합이 완료되면 기계의 정보 처리 효율성과 지능 수준이 향상될 것입니다. 크게 개선되세요.

정보 수준에서 인지 컴퓨팅의 핵심은 시각의 위치 관계, 이미지 스타일, 음악의 감정 등과 같은 정보의 높은 수준의 의미를 처리하는 것입니다. 현재 다중 모드 작업은 시나리오의 단순한 대상과 상호 작용으로 제한되며, 깊은 논리적 의미나 주관적 의미를 이해할 수 없습니다. 예를 들어, 기계는 초원에 피는 꽃의 이미지를 생성할 수 있지만 겨울에 꽃이 시든다는 상식을 이해할 수 없습니다.

따라서 다양한 양식의 복잡한 논리와 감각 의미 정보 간의 통신 브리지를 구축하고 고유한 기계 측정 시스템을 구축하는 것이 향후 다중 모드 인지 컴퓨팅의 주요 추세입니다.

융합 메커니즘 수준에서는 이종 구성 요소로 구성된 다중 모드 모델의 고품질 최적화를 수행하는 방법이 현재 어렵습니다. 현재 다중 모드 인지 컴퓨팅의 대부분은 통합 학습 목표에 따라 모델을 최적화합니다. 이 최적화 전략은 모델 내의 이종 구성 요소에 대한 목표 조정이 부족하여 기존 다중 모드 모델에서 큰 문제를 야기합니다. 다중 모드 기계 학습 및 최적화 이론적 방법과 같은 다양한 측면에서 접근할 수 있습니다.

작업 수준에서는 작업에 따라 기계의 인지 학습 방법이 다릅니다. 다양한 관련 작업을 해결하는 능력을 향상시키기 위해 작업 피드백을 위한 학습 전략을 설계해야 합니다.

또한 이미지, 텍스트, 기타 데이터를 통해 세상을 이해하는 머신러닝이라는 현재의 '관객형' 학습 방식의 단점을 고려하여, 인지과학의 연구 결과를 통해 학습할 수 있습니다. Embodied AI 이는 잠재적인 솔루션입니다. 지능형 에이전트는 복잡한 작업을 해결하는 능력을 지속적으로 발전시키고 형성하기 위해 환경과 다양한 모드로 상호 작용해야 합니다.

4 Li Xuelong과의 대화

AI 기술 리뷰: 인공 지능 연구에서 다중 모드 데이터와 다중 모드 인지 컴퓨팅에 주목해야 하는 이유는 무엇입니까? 다중 모드 데이터의 증가는 모델 성능에 어떤 이점과 장애물을 가져옵니까?

Li Xuelong:질문해 주셔서 감사합니다. 우리가 다중 모드 데이터에 주목하고 연구하는 이유는 인공 지능이 본질적으로 데이터에 의존하기 때문입니다. 단일 모드 데이터가 제공할 수 있는 정보는 항상 매우 제한적인 반면, 다중 모드 데이터는 다중 계층적, 다중 관점을 제공할 수 있습니다. 반면에 객관적인 물리적 세계는 다중 모드이기 때문에 텍스트로 그림 검색, 음악을 듣고 개체 식별 등과 같은 많은 실제 문제에 대한 연구는 다중 모드 데이터와 분리될 수 없습니다.

인공지능의 본질에서 출발하여 다중 모드 문제를 분석합니다. 인간의 인지 패턴을 시뮬레이션할 수 있는 다중 모드 분석 시스템을 구축하여 기계가 인간처럼 주변 환경을 지능적으로 인식할 수 있기를 바랍니다.

복잡하고 인터리빙된 다중 모드 정보는 많은 노이즈와 중복성을 가져오며, 이로 인해 모델 학습 부담이 증가하고 경우에 따라 단일 모드 데이터보다 다중 모드 데이터의 성능이 저하됩니다. 모델 설계 및 최적화 문제는 더 큰 과제를 제시합니다.

AI 기술 리뷰: 정보 이론의 관점에서 인간 인지 학습과 기계 인지 학습의 유사점은 무엇인가요? 인간의 인지 메커니즘에 대한 연구는 다중 모드 인지 컴퓨팅에 어떤 중요한 의미를 갖고 있습니까? 인간의 인지를 이해하지 못하면 다중 모드 인지 컴퓨팅이 어떤 어려움에 직면하게 될까요?

Li Xuelong: 아리스토텔레스는 사물에 대한 사람들의 이해가 느낌에서 시작된다고 믿었고, 플라톤은 느낌을 통해 얻은 것을 지식이라고 부를 수 없다고 믿었습니다.

인간은 태어날 때부터 많은 양의 외부 정보를 받아 지각, 기억, 추론 등을 통해 점차적으로 자기 인식 체계를 구축하는 반면, 기계의 학습 능력은 대량의 데이터 훈련을 통해 달성됩니다. , 주로 인식과 인간의 지식을 찾는 것입니다. 플라톤의 관점에 따르면, 기계가 학습하는 것은 아직 지식이 아닙니다. 우리는 기사에서 '정보 용량' 이론을 인용하여 정보 추출 능력을 시작으로 인간과 기계 사이의 인지적 연결을 구축하려고 했습니다.

인간은 시각, 청각, 후각, 미각, 촉각 등 여러 감각 채널을 통해 다중 모드 정보를 뇌에 전달하여 대뇌 피질의 관절 자극을 생성합니다. 심리학 연구에서는 여러 감각의 결합된 작용이 "다감각 통합", "공감각", "지각 재구성" 및 "지각 기억"과 같은 인지 학습 모델을 생성할 수 있음을 발견했습니다. 이러한 인간 인지 메커니즘은 다중 모드를 가져왔습니다. 다중 모드 협업, 다중 모드 연관, 교차 모드 생성과 같은 일반적인 다중 모드 분석 작업 도출과 같은 영감을 통해 로컬 공유, 장기 및 단기 기억, 주의 메커니즘 및 기타 일반적인 기계 분석 메커니즘이 탄생했습니다.

현재 인간의 인지 메커니즘은 실제로 명확하지 않습니다. 인간 인지 연구의 지침이 부족하면 다중 모드 인지 컴퓨팅이 데이터 피팅의 함정에 빠지게 됩니다. 모델이 인간에게 필요한 지식을 학습했는지 여부도 판단할 수 없습니다. .

AI 기술 의견: 정보 이론의 관점에서 "다중 모드 인지 컴퓨팅이 기계의 정보 추출 기능을 향상시킬 수 있다"는 귀하의 견해는 특정 다중 모드 인지 컴퓨팅 작업에 대한 증거로 뒷받침됩니다.

Li Xuelong:이 질문은 두 가지 측면에서 답할 수 있습니다. 첫째, 다중 모드 정보는 다양한 작업에서 단일 모드의 성능을 향상시킬 수 있습니다. 소리 정보를 추가하면 대상 인식, 장면 이해 등 컴퓨터 비전 알고리즘의 성능이 크게 향상된다는 것이 많은 작업을 통해 검증되었습니다. 우리는 또한 환경 카메라를 구축했으며 온도, 습도와 같은 센서의 다중 모드 정보를 융합함으로써 카메라의 이미지 품질을 향상시킬 수 있음을 발견했습니다.

두 번째, 다중 모드 정보의 공동 모델링은 보다 복잡한 지능형 작업을 달성할 수 있는 가능성을 제공합니다. 예를 들어 시각 정보를 소리로 인코딩하여 시각 장애인이 "볼 수 있도록 하는" 이미지 듣기 작업을 수행했습니다. " 여러분 앞에 있는 장면은 또한 다중 모드 인지 컴퓨팅이 기계가 더 많은 정보를 추출하는 데 도움이 된다는 것을 증명합니다.

AI 기술 검토: 다중 모드 연관 작업에서 정렬, 인식 및 검색 사이의 상호 연결은 무엇입니까?

Li Xuelong:이 세 가지 관계의 성격은 상대적입니다. 이 기사에서는 몇 가지 예비적인 의견만 제시합니다. 서로 다른 양식 정보의 상관 관계에 대한 전제는 동일/유사한 객관적 존재를 공동으로 설명한다는 것입니다. 그러나 이러한 상관 관계는 외부 정보가 복잡하거나 간섭되는 경우 결정하기 어렵습니다. 이를 위해서는 먼저 서로 다른 양식 정보를 정렬해야 합니다. 관련 서신. 그런 다음 정렬을 기반으로 한 양식에서 다른 양식으로의 인식이 달성됩니다.

이것은 사람의 입술 움직임만 보면 그 사람이 말하는 내용을 듣는 것처럼 보입니다. 이러한 현상 역시 시각적 요소(Viseme)와 음소(Phoneme)의 상관관계와 정렬에 기반을 두고 있습니다. 실생활에서 우리는 검색, 텍스트를 통한 제품의 사진 또는 비디오 콘텐츠 검색, 계산 가능한 다중 모드 상관 관계 애플리케이션 실현과 같은 애플리케이션에 이러한 교차 모드 인식을 추가로 적용했습니다.

AI 기술 검토: 최근 매우 인기 있는 DALL-E 및 기타 모델은 교차 모달 생성 작업의 예입니다. 이들은 텍스트 생성 이미지 작업에서 잘 수행되지만 생성된 이미지는 의미론적으로 관련이 있고 해석 가능합니다. 등등에는 여전히 큰 한계가 있습니다. 이 문제는 어떻게 해결되어야 한다고 생각하시나요? 어떤 어려움이 있나요?

Li Xuelong: 텍스트에서 이미지를 생성하는 것은 "상상" 작업입니다. 사람들은 문장을 보거나 듣고, 그 안에 있는 의미 정보를 이해한 다음 뇌 기억에 의존하여 생성하기에 가장 적합한 장면을 상상합니다. "그림감". 현재 DALL-E는 대규모 데이터 세트를 요약하고 정리하기 위해 데이터 피팅을 위한 통계 학습을 사용하는 단계에 있으며, 이는 현재 딥 러닝이 가장 잘 수행되는 단계입니다.

그러나 사람들의 '상상력'을 정말로 배우고 싶다면 '높은 수준'의 지능을 달성하기 위해 인간의 인지 모델도 고려해야 합니다. 이를 위해서는 신경과학, 심리학, 정보 과학의 교차 통합이 필요하며 이는 도전이자 기회이기도 합니다. 최근 몇 년간 많은 팀이 이 분야에서 최고 수준의 작업을 수행했습니다. 여러 학문 분야의 교차 통합을 통해 인간 인지 모델의 계산 가능성 이론을 탐구하는 것도 우리 팀의 노력 방향 중 하나입니다. 우리는 이것이 "고수준" 지능에 새로운 돌파구를 가져올 것이라고 믿습니다.

AI 기술 리뷰: 연구 작업에서 인지 과학으로부터 어떻게 영감을 얻나요? 인지과학 분야에서 어떤 연구에 특히 관심이 있나요?

Li Xuelong: 그에게 얼마나 명확한지 물어보세요. 원천에서 생수를 얻으러 오십시오. 나는 일상생활에서 흥미로운 현상을 자주 관찰하고 생각한다.

20년 전, 강남 풍경 사진이 있는 웹페이지를 탐색하다가 갑자기 그 곳에 있는 것 같은 느낌이 들었습니다. 그리고 관점에서 비전. 인지과학을 공부하는 과정에서 '공감각'이라는 현상에 대해 알게 되었고, 나만의 과학적 연구 방향을 결합하여 '시각적 음악과 음악적 시각'이라는 제목의 글을 완성하게 되었는데, 이 글 역시 처음으로 " 공감각'이 정보 분야에 도입되었습니다.

이후 정보 분야 최초로 인지컴퓨팅 강좌를 열었고, 인지과학과 컴퓨팅과학의 경계를 허물기 위해 IEEE SMC의 인지컴퓨팅 기술위원회도 만들었습니다. 기술위원회 홈페이지에 현재 설명되어 있는 정의입니다. 나는 2002년에 기계의 인지 능력을 측정하기 위한 시도로 '정보 용량'이라는 개념인 데이터 단위량당 정보를 제공하는 능력을 제안한 바 있는데, 이를 2020년에 ''라는 제목으로 발표하게 된 것을 영광으로 생각합니다. 다중 모드 용량" "인지 컴퓨팅"이 Tencent Scientific Exploration Award를 수상했습니다.

지금까지 저는 공감각과 지각의 최신 발전에 계속 관심을 가져왔습니다. 자연에는 인간의 오감을 넘어서는 많은 모드가 있으며 아직 명확하지 않은 잠재적 모드도 있습니다. 예를 들어 양자 얽힘은 우리가 살고 있는 3차원 공간이 단지 고차원의 투영일 뿐임을 나타낼 수 있습니다. 이것이 사실이라면 탐지 방법도 제한됩니다. 아마도 이러한 잠재적 모드를 활용하여 기계가 인간의 인식에 접근하거나 심지어 이를 능가할 수 있게 될 수 있습니다.

AI 기술 논평: 인간의 인지와 인공지능을 어떻게 더 잘 통합할 수 있는가 하는 문제에 대해 "Meta-Modal"을 핵심으로 하는 모달 상호작용 네트워크 구축을 제안하신 것이 가능할까요? 이 점을 소개해주세요. 보다? 이론적 근거는 무엇입니까?

Li Xuelong: 메타모달성 자체는 인지 신경과학 분야에서 유래한 개념입니다. 특정 기능이나 표현 작업을 수행할 때 입력 정보에 반응하는 이러한 유형의 조직을 가진 뇌를 말합니다. 감각 카테고리에 대해 구체적인 가정이 이루어졌지만 여전히 좋은 실행 성능을 가질 수 있습니다.

메타모달성은 기발한 개념이 아닙니다. 본질적으로 교차 양식 인식 및 신경 가소성과 같은 현상과 메커니즘을 통합하는 인지 과학자들의 가설이자 추측입니다. 또한 보다 일반화된 모달 표현 기능을 달성하기 위해 다양한 양식 간에 효율적인 학습 아키텍처와 방법을 구축하도록 영감을 줍니다.

AI 기술 리뷰: 현실 세계에서 다중 모드 인지 컴퓨팅의 주요 응용 프로그램은 무엇입니까? 예를 들어.

Li Xuelong:다중 모드 인지 컴퓨팅은 실제 응용에 매우 가까운 연구입니다. 우리 팀은 이전에 시각 정보를 소리 신호로 인코딩하여 대뇌 피질의 일차 시각 피질을 자극하는 교차 모드 인식 작업을 수행했습니다. 이는 시각 장애인이 외부 세계를 볼 수 있도록 돕는 데 적용되었습니다. 일상생활에서 우리는 다중 모드 인지 컴퓨팅 기술을 자주 사용합니다. 예를 들어 짧은 비디오 플랫폼은 음성, 이미지 및 텍스트 태그를 결합하여 사용자가 관심을 가질 수 있는 비디오를 추천합니다.

더 넓게 보면 멀티모달 인지 컴퓨팅은 지능형 수색 및 구조, 소리, 이미지, 온도, 습도 등을 수집하는 드론 및 지상 로봇 등 기사에서 언급한 현장 보안에도 널리 사용됩니다. 인지적 관점에서 통합 분석하여 현장 상황에 따라 다양한 수색 및 구조 전략을 구사할 수 있습니다. 지능형 검사, 도메인 간 원격 감지 등과 같은 유사한 응용 프로그램이 많이 있습니다.

AI 기술 검토: 현재 다중 모드 작업은 단순한 대상 및 시나리오의 상호 작용으로 제한된다고 기사에서 언급하셨습니다. 더 깊은 논리적 의미나 주관적인 의미가 포함되면 어려워집니다. 그렇다면 이것이 상징적 인공지능의 르네상스를 위한 기회인가? 높은 수준의 의미 정보를 처리하는 기계의 능력을 향상시키기 위해 사용할 수 있는 다른 가능한 솔루션은 무엇입니까?

Li Xuelong:Russell은 지식의 가치 대부분이 불확실성에 있다고 믿습니다. 지식을 배우려면 따뜻함과 외부 세계와의 상호 작용 및 피드백 능력이 필요합니다. 현재 우리가 보고 있는 대부분의 연구는 단일 모달, 수동적이며 주어진 데이터를 지향하므로 몇 가지 간단한 목표와 시나리오에 대한 연구 요구 사항을 충족할 수 있습니다. 하지만 더 깊은 논리적 의미론이나 주관적 의미론을 위해서는 공간과 시간에서 다차원적이고, 더 많은 양상이 뒷받침되며, 적극적인 상호작용이 가능한 상황을 완전히 탐구하고 발굴하는 것이 필요합니다.

이 목표를 달성하기 위해 연구 방법과 방법은 인지 과학에서 더 많은 것을 끌어낼 수 있습니다. 예를 들어 일부 연구자들은 인지 과학의 "체화된 경험" 가설을 인공 지능 분야에 도입하여 기계가 새로운 학습을 수행하는 방식을 탐구했습니다. 외부 세계와의 활발한 상호 작용과 다양한 정보 입력을 통해 문제와 과제가 개발되었으며 어느 정도 만족스러운 결과를 얻었습니다. 이는 또한 인공 지능과 인지 과학을 연결하는 데 있어 다중 모드 인지 컴퓨팅의 역할과 긍정적인 중요성을 보여줍니다.

AI 기술 의견: 스마트 광전자공학도 귀하의 연구 방향 중 하나입니다. 귀하는 기사에서 스마트 광전자공학이 정보 디지털화에 대한 탐색적 솔루션을 가져올 수 있다고 언급하셨습니다. 다중 모드 데이터를 감지하고 컴퓨팅하는 측면에서 스마트 광전자공학은 무엇을 할 수 있나요?

Li Xuelong: 빛 신호와 전기 신호는 사람들이 세상을 이해하는 주요 방법입니다. 인간이 매일 받는 대부분의 정보는 시각에서 나옵니다. 한 단계 더 나아가 시각적 정보는 주로 빛에서 나옵니다. . 인간의 시각, 청각, 후각, 미각, 촉각의 다섯 가지 감각은 빛, 음파, 압력, 후각, 자극 등 다양한 감각을 전기 신호로 변환하여 높은 수준의 인지를 가능하게 합니다. 그러므로 광전은 인간이 세상을 인식하는 주요 정보원이다. 최근 몇 년 동안 다양한 첨단 광전자 장치의 도움으로 우리는 가시광선과 가청 음파 외에도 더 많은 정보를 감지할 수 있게 되었습니다.

광전 장비는 인간의 세계 인식의 최전선이라고 할 수 있습니다. 우리가 참여하고 있는 스마트 광전자 공학 연구는 광전 감지 하드웨어와 지능형 알고리즘의 통합을 탐구하고, 알고리즘 설계 프로세스에 물리적 사전 설정을 도입하고, 알고리즘 결과를 사용하여 하드웨어 설계를 안내하고, "감지"와 "계산" 간의 상호 피드백을 형성하는 데 전념하고 있습니다. ". 인식의 경계를 확장하고 인간의 다중 모드 인식을 모방하거나 심지어 능가하는 목적을 달성합니다.

AI 기술 리뷰: 현재 다중 모드 인지 컴퓨팅 방향으로 어떤 연구 작업을 진행하고 있나요? 앞으로의 연구 목표는 무엇입니까?

Li Xuelong:

질문해 주셔서 감사합니다. 현재 저는 Vicinagearth Security의 다중 모드 인지 컴퓨팅에 중점을 두고 있습니다. 전통적인 의미의 보안은 일반적으로 도시 보안을 의미합니다. 현재 인간 활동 공간은 저고도, 지상, 수중까지 확대됐다. 영역 간 탐지, 자율 무인화 등 일련의 실무 작업을 수행하기 위해서는 근거리 공간에 3차원 안보·방어 시스템을 구축해야 한다. 시스템. 현장 보안이 직면한 큰 문제는 인간의 관점에서 드론과 지상 모니터링 장비의 동시 관찰을 기계가 이해할 수 있도록 하는 등 다양한 센서에서 생성되는 대량의 다중 모드 데이터를 어떻게 지능적으로 처리할 수 있느냐는 것입니다. 목표. 여기에는 다중 모드 인지 컴퓨팅과 다중 모드 인지 컴퓨팅과 스마트 광전자공학의 결합이 포함됩니다.

앞으로 데이터 수집과 처리 사이의 연결을 열고 "순방향 여기 노이즈"(Pi- 소음), 다중 모드 인지 컴퓨팅 및 지능형 광전자 공학을 지원하는 현장 보안 시스템을 구축합니다.

위 내용은 IEEE 펠로우 Li Xuelong: 다중 모드 인지 컴퓨팅은 일반 인공 지능을 실현하는 열쇠입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제