Meta Corporation은 텍스트, 오디오, 시각적 데이터, 온도 및 동작 판독 등을 포함한 여러 데이터 스트림을 통합할 수 있는 새로운 오픈 소스 인공 지능 모델인 ImageBind를 출시했습니다. 이 모델은 현재 단지 연구 프로젝트일 뿐이며 직접적인 소비자 또는 실제 적용 사례는 아직 없습니다. 하지만 몰입형 다중 감각 경험을 만들 수 있는 미래 생성 AI 시스템의 가능성을 보여줍니다. 동시에 이 모델은 OpenAI, Google과 같은 경쟁업체가 점점 더 폐쇄적으로 변하는 반면, 인공지능 연구 분야에서 Meta의 개방적인 태도를 보여줍니다.
연구의 핵심 개념은 여러 유형의 데이터를 다차원 인덱스(또는 인공지능 용어로 "임베딩 공간")로 통합하는 것입니다. 개념은 다소 추상적일 수 있지만 최근 생성 인공 지능(Generative Artificial Intelligence) 붐의 기초입니다. 예를 들어 DALL-E, Stable Diffusion 및 Midjourney와 같은 AI 이미지 생성기는 훈련 단계에서 텍스트와 이미지를 함께 연결하는 시스템에 의존합니다. 이 정보를 이미지 설명에 연결하면서 시각적 데이터의 패턴을 찾습니다. 이것이 바로 이러한 시스템이 사용자 텍스트 입력을 기반으로 이미지를 생성할 수 있는 이유입니다. 동일한 방식으로 비디오나 오디오를 생성할 수 있는 많은 AI 도구도 마찬가지입니다.
Meta는 자사 모델인 ImageBind가 6가지 유형의 데이터를 단일 임베딩 공간에 통합한 최초의 모델이라고 말합니다. 6가지 유형의 데이터에는 시각(이미지 및 비디오 포함), 열(적외선 이미지), 그리고 가장 흥미로운 것은 관성 측정 장치(IMU)에서 생성된 동작 판독값이 포함됩니다. (IMU는 휴대폰과 스마트워치에서 발견되며 휴대폰을 가로에서 세로로 전환하는 것부터 다양한 움직임 유형을 구별하는 것까지 다양한 작업을 수행하는 데 사용됩니다.)
미래의 AI 시스템은 현재 우리가 하는 일을 할 수 있을 것입니다. 텍스트 입력 동일한 시스템이 이 데이터를 상호 참조합니다. 예를 들어, 오디오 및 시각적 입력뿐만 아니라 환경 및 물리적 플랫폼의 모션도 생성할 수 있는 미래의 가상 현실 장치를 상상해 보세요. 긴 바다 여행을 시뮬레이션하도록 요청할 수 있으며, 파도 소리를 배경으로 배에 탑승할 수 있을 뿐만 아니라 발 아래 갑판이 흔들리고 바닷바람이 부는 것을 느낄 수 있습니다.
Meta는 블로그 게시물에서 미래의 모델이 "촉각, 언어, 냄새 및 뇌 fMRI 신호"를 포함한 다른 감각 입력 스트림을 추가할 수도 있다고 언급했습니다. 회사는 또한 이 연구가 "다양한 형태의 정보로부터 동시에, 포괄적으로, 직접적으로 학습할 수 있는 인간의 능력에 기계를 더 가깝게 만든다"고 주장합니다.
물론 이 중 상당수는 예측에 기초하고 있으며, 연구의 직접적인 적용은 매우 제한적입니다. 예를 들어 작년에 Meta라는 회사는 텍스트 설명을 기반으로 짧고 흐릿한 비디오를 생성할 수 있는 AI 모델을 시연했습니다. ImageBind와 같은 연구는 시스템의 향후 버전이 비디오 출력과 일치하는 오디오 생성과 같은 다른 데이터 스트림을 통합할 수 있는 방법을 보여줍니다.
업계 관찰자들에게 이 연구는 또한 흥미롭습니다. 왜냐하면 IT House는 Meta 회사가 인공 지능 분야에서 점점 더 많은 관심을 끌고 있는 관행인 기본 모델을 오픈 소스로 공개했다는 사실을 알아차렸기 때문입니다.
위 내용은 메타(Meta)는 텍스트, 오디오, 비전 등 6가지 데이터를 통합한 오픈소스 다감각 인공지능 모델이다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경
