Meta Corporation은 텍스트, 오디오, 시각적 데이터, 온도 및 동작 판독 등을 포함한 여러 데이터 스트림을 통합할 수 있는 새로운 오픈 소스 인공 지능 모델인 ImageBind를 출시했습니다. 이 모델은 현재 단지 연구 프로젝트일 뿐이며 직접적인 소비자 또는 실제 적용 사례는 아직 없습니다. 하지만 몰입형 다중 감각 경험을 만들 수 있는 미래 생성 AI 시스템의 가능성을 보여줍니다. 동시에 이 모델은 OpenAI, Google과 같은 경쟁업체가 점점 더 폐쇄적으로 변하는 반면, 인공지능 연구 분야에서 Meta의 개방적인 태도를 보여줍니다.
연구의 핵심 개념은 여러 유형의 데이터를 다차원 인덱스(또는 인공지능 용어로 "임베딩 공간")로 통합하는 것입니다. 개념은 다소 추상적일 수 있지만 최근 생성 인공 지능(Generative Artificial Intelligence) 붐의 기초입니다. 예를 들어 DALL-E, Stable Diffusion 및 Midjourney와 같은 AI 이미지 생성기는 훈련 단계에서 텍스트와 이미지를 함께 연결하는 시스템에 의존합니다. 이 정보를 이미지 설명에 연결하면서 시각적 데이터의 패턴을 찾습니다. 이것이 바로 이러한 시스템이 사용자 텍스트 입력을 기반으로 이미지를 생성할 수 있는 이유입니다. 동일한 방식으로 비디오나 오디오를 생성할 수 있는 많은 AI 도구도 마찬가지입니다.
Meta는 자사 모델인 ImageBind가 6가지 유형의 데이터를 단일 임베딩 공간에 통합한 최초의 모델이라고 말합니다. 6가지 유형의 데이터에는 시각(이미지 및 비디오 포함), 열(적외선 이미지), 그리고 가장 흥미로운 것은 관성 측정 장치(IMU)에서 생성된 동작 판독값이 포함됩니다. (IMU는 휴대폰과 스마트워치에서 발견되며 휴대폰을 가로에서 세로로 전환하는 것부터 다양한 움직임 유형을 구별하는 것까지 다양한 작업을 수행하는 데 사용됩니다.)
미래의 AI 시스템은 현재 우리가 하는 일을 할 수 있을 것입니다. 텍스트 입력 동일한 시스템이 이 데이터를 상호 참조합니다. 예를 들어, 오디오 및 시각적 입력뿐만 아니라 환경 및 물리적 플랫폼의 모션도 생성할 수 있는 미래의 가상 현실 장치를 상상해 보세요. 긴 바다 여행을 시뮬레이션하도록 요청할 수 있으며, 파도 소리를 배경으로 배에 탑승할 수 있을 뿐만 아니라 발 아래 갑판이 흔들리고 바닷바람이 부는 것을 느낄 수 있습니다.
Meta는 블로그 게시물에서 미래의 모델이 "촉각, 언어, 냄새 및 뇌 fMRI 신호"를 포함한 다른 감각 입력 스트림을 추가할 수도 있다고 언급했습니다. 회사는 또한 이 연구가 "다양한 형태의 정보로부터 동시에, 포괄적으로, 직접적으로 학습할 수 있는 인간의 능력에 기계를 더 가깝게 만든다"고 주장합니다.
물론 이 중 상당수는 예측에 기초하고 있으며, 연구의 직접적인 적용은 매우 제한적입니다. 예를 들어 작년에 Meta라는 회사는 텍스트 설명을 기반으로 짧고 흐릿한 비디오를 생성할 수 있는 AI 모델을 시연했습니다. ImageBind와 같은 연구는 시스템의 향후 버전이 비디오 출력과 일치하는 오디오 생성과 같은 다른 데이터 스트림을 통합할 수 있는 방법을 보여줍니다.
업계 관찰자들에게 이 연구는 또한 흥미롭습니다. 왜냐하면 IT House는 Meta 회사가 인공 지능 분야에서 점점 더 많은 관심을 끌고 있는 관행인 기본 모델을 오픈 소스로 공개했다는 사실을 알아차렸기 때문입니다.
위 내용은 메타(Meta)는 텍스트, 오디오, 비전 등 6가지 데이터를 통합한 오픈소스 다감각 인공지능 모델이다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!