搜尋
首頁科技週邊人工智慧Meta 開源多感官人工智慧模型,整合文字、音訊、視覺等六類數據

Meta 公司發布了一個新的開源人工智慧模型 ImageBind,該模型能夠將多種資料流,包括文字、音訊、視覺資料、溫度和運動讀數等整合在一起。該模型目前只是一個研究項目,還沒有直接的消費者或實際應用,但它展示了未來生成式人工智慧系統的可能性,這些系統能夠創造出沉浸式、多感官的體驗。同時,該模型也顯示了 Meta 公司在人工智慧研究領域的開放態度,而其競爭對手如 OpenAI 和Google則變得越來越封閉。

Meta 开源多感官人工智能模型,整合文本、音频、视觉等六类数据

該研究的核心概念是將多種類型的資料整合到多維索引(或用人工智慧術語來說,「嵌入空間」)。這個概念可能有些抽象,但它正是近期生成式人工智慧熱潮的基礎。例如,人工智慧圖像產生器,如 DALL-E、Stable Diffusion 和 Midjourney 等,都依賴在訓練階段將文字和圖像連結在一起的系統。它們在尋找視覺數據中的模式的同時,將這些資訊與圖像的描述連結起來。這就是為什麼這些系統能夠根據使用者的文字輸入來產生圖片。同樣的道理也適用於許多能夠以同樣方式產生視訊或音訊的人工智慧工具。

Meta 公司稱,其模型 ImageBind 是第一個將六種類型的資料整合到一個嵌入空間中的模型。這六種類型的數據包括:視覺(包括圖像和視訊);熱力(紅外線圖像);文字;音訊;深度資訊;以及最有趣的一種 —— 由慣性測量單元(IMU)產生的運動讀數。 (IMU 存在於手機和智慧手錶中,用於執行各種任務,從手機從橫屏切換到豎屏,到區分不同類型的運動。)

未來的人工智慧系統將能夠像當前針對文字輸入的系統一樣,交叉引用這些資料。例如,想像一下未來的虛擬實境設備,它不僅能夠產生音訊和視覺輸入,還能夠產生你所處的環境和實體月台的運動。你可以要求它模擬一次漫長的海上旅行,它不僅會讓你置身於一艘船上,並且有海浪的聲音作為背景,還會讓你感受到甲板在腳下搖晃和海風吹拂。

Meta 公司在部落格文章中指出,未來的模型還可以添加其他感官輸入流,包括「觸覺、語音、氣味和大腦功能磁振造影訊號」。該公司還聲稱,這項研究「讓機器更接近人類同時、全面、直接地從多種不同的資訊形式中學習的能力。」

當然,這很多都是基於預測的,而且很可能這項研究的直接應用會非常有限。例如,去年,Meta 公司展示了一個人工智慧模型,能夠根據文字描述產生短而模糊的影片。像 ImageBind 這樣的研究顯示了未來版本的系統如何整合其他資料流,例如產生與視訊輸出相符的音訊。

對於產業觀察者來說,這項研究也很有趣,因為IT之家注意到 Meta 公司是開源了底層模型的,這在人工智慧領域是一個越來越受到關注的做法。

以上是Meta 開源多感官人工智慧模型,整合文字、音訊、視覺等六類數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。