현지 시간 5월 9일, Meta는 비전(이미지 및 비디오 형식), 온도(적외선 이미지), 텍스트, 오디오, 깊이 정보, 모션 등 6가지 양식을 포괄할 수 있는 새로운 AI 모델 ImageBind의 오픈 소스를 발표했습니다. 판독값(관성 측정 장치 또는 IMU에 의해 생성됨) 현재 관련 소스 코드는 GitHub에 호스팅되어 있습니다.
6가지 모드가 있다는 것은 무엇을 의미하나요?
ImageBind는 비전을 핵심으로 하며 6가지 모드를 자유롭게 이해하고 전환할 수 있습니다. Meta는 개가 짖는 소리를 듣고 개를 그리고 새 이미지 + 파도 소리를 입력하는 등 해당 깊이 맵과 텍스트 설명을 동시에 제공하는 등의 몇 가지 사례를 보여주었습니다. 해변의 새.
텍스트와 이미지를 연결하는 Midjourney, Stable Diffusion 및 DALL-E 2와 같은 이미지 생성기에 비해 ImageBind는 넓은 그물을 캐스팅하는 것과 비슷하며 텍스트, 이미지/비디오, 오디오, 3D 측정(깊이), 온도 데이터(열)을 연결할 수 있습니다. ) 및 모션 데이터(IMU)를 사용하여 인간이 환경을 인식하거나 상상하는 방식과 유사하게 모든 가능성에 대한 사전 교육 없이 데이터 간의 연결을 직접 예측합니다.
연구원들은 ImageBind가 대규모 시각적 언어 모델(예: CLIP)을 사용하여 초기화될 수 있으므로 이러한 모델의 풍부한 이미지 및 텍스트 표현을 활용할 수 있다고 말합니다. 따라서 ImageBind는 약간의 교육만으로도 다양한 양식과 작업에 적응할 수 있습니다.
ImageBind는 모든 관련 유형의 데이터로부터 학습하는 다중 모드 AI 시스템을 만들기 위한 Meta의 노력의 일부입니다. 양식의 수가 증가함에 따라 ImageBind는 연구자들이 몰입형 가상 세계를 설계하거나 경험하기 위해 3D 및 IMU 센서를 결합하는 등 새로운 전체적 시스템을 개발할 수 있는 수문을 열어줍니다. 또한 텍스트, 비디오, 이미지의 조합을 사용하여 이미지, 비디오, 오디오 파일 또는 텍스트 정보를 검색함으로써 기억을 탐색할 수 있는 풍부한 방법을 제공합니다.
이 모델은 현재 단지 연구 프로젝트일 뿐이며 직접적인 소비자나 실용적인 응용 프로그램은 없습니다. 하지만 생성 AI가 미래에 어떻게 몰입형 다감각 콘텐츠를 생성할 수 있는지 보여주고 Meta가 OpenAI, Google Wait와 협력하고 있음을 보여줍니다. 경쟁업체가 다른 방법을 채택하고 오픈 소스 대형 모델에 속하는 경로를 찾을 수 있도록 합니다.
궁극적으로 Meta는 ImageBind 기술이 결국 현재의 6가지 '감각'을 초월할 것이라고 믿습니다. 촉각, 음성, 후각, 뇌 fMRI 신호 등을 통해 더욱 풍부한 인간 중심 AI 모델이 가능해집니다. ”
ImageBind의 목적
ChatGPT가 검색 엔진과 Q&A 커뮤니티 역할을 할 수 있고 Midjourney를 그리기 도구로 사용할 수 있다면 ImageBind로 무엇을 할 수 있나요?
공식 데모에 따르면 사진에서 직접 오디오를 생성할 수 있습니다.
오디오에서 사진을 생성할 수도 있습니다:
또는 관련 사진이나 오디오 콘텐츠를 검색하려면 문자를 보내세요.
오디오를 제공하고 해당 이미지를 생성할 수도 있습니다.
위에서 언급했듯이 ImageBind는 미래의 생성 AI 시스템이 다양한 형식으로 제시되는 동시에 Meta의 내부 가상 현실, 혼합 현실, 메타버스 및 기타 기술 및 시나리오와 결합될 수 있는 방법을 제공합니다. ImageBind와 같은 도구를 사용하면 시각 또는 청각 장애가 있는 사람들이 즉각적인 환경을 더 잘 인식할 수 있도록 실시간 멀티미디어 설명을 생성하는 등 접근 가능한 공간에 새로운 문이 열릴 것입니다.
다중 모드 학습에 대해서는 아직 밝혀야 할 것이 많습니다. 현재 인공지능 분야에서는 더 큰 모델에서만 나타나고 그 적용을 이해하는 스케일링 동작을 효과적으로 정량화하지 못했습니다. ImageBind는 이미지 생성 및 검색을 위한 새로운 애플리케이션을 엄격한 방식으로 평가하고 시연하기 위한 단계입니다.
작가: 발라드
출처: 퍼스트 일렉트릭 네트워크(www.d1ev.com)
위 내용은 AI 모닝포스트 | 텍스트, 이미지, 오디오, 비디오, 3D가 서로 생성되는 경험이란?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경
