MIT와 IBM Watson AI Lab의 연구원들은 청취자가 3D 공간 내의 다양한 위치에서 무엇을 듣게 될지 예측하기 위해 기계 학습 모델을 만들었습니다.
연구원들은 사람들이 소리를 통해 환경을 이해하는 것과 같은 방식으로 방 안의 소리가 어떻게 공간을 통해 이동하는지 이해하기 위해 이 기계 학습 모델을 사용하여 3D 방의 그림을 구축했습니다.
MIT 전기 공학 및 컴퓨터 과학부(EECS) 대학원생인 Yilun Du가 공동 집필한 논문에서 연구자들은 시각적 3D 모델링과 유사한 기술이 음향학에 어떻게 적용될 수 있는지 보여줍니다.
하지만 소리와 빛 전파의 차이에 직면해야 합니다. 예를 들어, 장애물, 방의 모양, 사운드 특성으로 인해 방의 서로 다른 위치에 있는 청취자는 사운드에 대해 매우 다른 인상을 받을 수 있으므로 결과를 예측할 수 없습니다.
이 문제를 해결하기 위해 연구원들은 모델에 음향 기능을 구축했습니다. 첫째, 다른 모든 조건이 동일하다면 음원과 청취자의 위치를 바꿔도 청취자가 듣는 내용은 바뀌지 않습니다. 사운드는 특히 청취자와 사운드 소스 사이의 장애물과 같은 지역적 조건의 영향을 받습니다.
Du는 "지금까지 대부분의 연구자들은 시각적 모델링에만 집중해 왔습니다. 하지만 인간으로서 우리는 여러 가지 인식 모드를 가지고 있습니다. 시각뿐만 아니라 소리도 중요합니다. 이번 작업이 새로운 가능성을 열어준다고 생각합니다. 소리를 더 잘 사용하여 세상을 모델링하는 연구 방향입니다."
이 접근 방식을 사용하면 생성된 신경음향장(NAF) 모델이 그리드의 점을 무작위로 샘플링하여 위치별 특징을 학습할 수 있습니다. . 예를 들어, 문 가까이에 있으면 청취자가 방 반대편에서 듣는 내용에 큰 영향을 미칠 수 있습니다.
모델은 방에서 청취자의 상대적 위치를 기반으로 특정 음향 자극으로부터 청취자가 무엇을 들을 가능성이 있는지 예측할 수 있습니다.
논문에서는 다음과 같이 설명합니다. "선형 시불변 시스템으로 장면의 음향 전파를 모델링함으로써 NAF는 방출기와 청취자의 위치를 임의의 사운드에 적용할 수 있는 신경 임펄스 응답 함수에 지속적으로 매핑하는 방법을 학습합니다." NAF의 연속성을 통해 어떤 위치의 청취자에게 공간 사운드를 렌더링하고 새로운 위치에서 소리의 전파를 예측할 수 있음을 입증했습니다."
MIT-IBM Watson AI Lab 수석 연구원인 Chuang Gan도 프로젝트에 참여했습니다. , 그는 "이 새로운 기술은 메타버스 애플리케이션에서 다중 모드 몰입형 경험을 창출할 수 있는 새로운 기회를 가져올 수 있습니다."라고 말했습니다.
모든 Reg 독자가 이 사용 사례에 흥미를 느끼는 것은 아닙니다.
위 내용은 음향학의 기계 학습 연구를 통해 다중 모드 메타버스를 열 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!