메타(Meta)는 텍스트, 오디오, 비전 등 6가지 데이터를 통합한 오픈소스 다감각 인공지능 모델이다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

메타(Meta)는 텍스트, 오디오, 비전 등 6가지 데이터를 통합한 오픈소스 다감각 인공지능 모델이다.

王林

May 16, 2023 am 09:43 AM

일체 포함오픈 소스

Meta Corporation은 텍스트, 오디오, 시각적 데이터, 온도 및 동작 판독 등을 포함한 여러 데이터 스트림을 통합할 수 있는 새로운 오픈 소스 인공 지능 모델인 ImageBind를 출시했습니다. 이 모델은 현재 단지 연구 프로젝트일 뿐이며 직접적인 소비자 또는 실제 적용 사례는 아직 없습니다. 하지만 몰입형 다중 감각 경험을 만들 수 있는 미래 생성 AI 시스템의 가능성을 보여줍니다. 동시에 이 모델은 OpenAI, Google과 같은 경쟁업체가 점점 더 폐쇄적으로 변하는 반면, 인공지능 연구 분야에서 Meta의 개방적인 태도를 보여줍니다.

Meta 开源多感官人工智能模型，整合文本、音频、视觉等六类数据

연구의 핵심 개념은 여러 유형의 데이터를 다차원 인덱스(또는 인공지능 용어로 "임베딩 공간")로 통합하는 것입니다. 개념은 다소 추상적일 수 있지만 최근 생성 인공 지능(Generative Artificial Intelligence) 붐의 기초입니다. 예를 들어 DALL-E, Stable Diffusion 및 Midjourney와 같은 AI 이미지 생성기는 훈련 단계에서 텍스트와 이미지를 함께 연결하는 시스템에 의존합니다. 이 정보를 이미지 설명에 연결하면서 시각적 데이터의 패턴을 찾습니다. 이것이 바로 이러한 시스템이 사용자 텍스트 입력을 기반으로 이미지를 생성할 수 있는 이유입니다. 동일한 방식으로 비디오나 오디오를 생성할 수 있는 많은 AI 도구도 마찬가지입니다.

Meta는 자사 모델인 ImageBind가 6가지 유형의 데이터를 단일 임베딩 공간에 통합한 최초의 모델이라고 말합니다. 6가지 유형의 데이터에는 시각(이미지 및 비디오 포함), 열(적외선 이미지), 그리고 가장 흥미로운 것은 관성 측정 장치(IMU)에서 생성된 동작 판독값이 포함됩니다. (IMU는 휴대폰과 스마트워치에서 발견되며 휴대폰을 가로에서 세로로 전환하는 것부터 다양한 움직임 유형을 구별하는 것까지 다양한 작업을 수행하는 데 사용됩니다.)

미래의 AI 시스템은 현재 우리가 하는 일을 할 수 있을 것입니다. 텍스트 입력 동일한 시스템이 이 데이터를 상호 참조합니다. 예를 들어, 오디오 및 시각적 입력뿐만 아니라 환경 및 물리적 플랫폼의 모션도 생성할 수 있는 미래의 가상 현실 장치를 상상해 보세요. 긴 바다 여행을 시뮬레이션하도록 요청할 수 있으며, 파도 소리를 배경으로 배에 탑승할 수 있을 뿐만 아니라 발 아래 갑판이 흔들리고 바닷바람이 부는 것을 느낄 수 있습니다.

Meta는 블로그 게시물에서 미래의 모델이 "촉각, 언어, 냄새 및 뇌 fMRI 신호"를 포함한 다른 감각 입력 스트림을 추가할 수도 있다고 언급했습니다. 회사는 또한 이 연구가 "다양한 형태의 정보로부터 동시에, 포괄적으로, 직접적으로 학습할 수 있는 인간의 능력에 기계를 더 가깝게 만든다"고 주장합니다.

물론 이 중 상당수는 예측에 기초하고 있으며, 연구의 직접적인 적용은 매우 제한적입니다. 예를 들어 작년에 Meta라는 회사는 텍스트 설명을 기반으로 짧고 흐릿한 비디오를 생성할 수 있는 AI 모델을 시연했습니다. ImageBind와 같은 연구는 시스템의 향후 버전이 비디오 출력과 일치하는 오디오 생성과 같은 다른 데이터 스트림을 통합할 수 있는 방법을 보여줍니다.

업계 관찰자들에게 이 연구는 또한 흥미롭습니다. 왜냐하면 IT House는 Meta 회사가 인공 지능 분야에서 점점 더 많은 관심을 끌고 있는 관행인 기본 모델을 오픈 소스로 공개했다는 사실을 알아차렸기 때문입니다.

위 내용은 메타(Meta)는 텍스트, 오디오, 비전 등 6가지 데이터를 통합한 오픈소스 다감각 인공지능 모델이다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다