搜尋
首頁科技週邊人工智慧三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

輸入一張搖椅和一匹馬的立體形狀,能得到什麼?

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

#木推車加馬?得到馬車和電動馬;香蕉加帆船?得到香蕉帆船;蛋加躺椅?得到雞蛋椅。 

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

來自UCSD、上海交大、高通團隊的研究者提出最新三維表示模型OpenShape,讓三維形狀的開放世界理解成為可能。

  • 論文網址:https://arxiv.org/pdf/2305.10764.pdf
  • #專案首頁:https://colin97.github.io/OpenShape/ 
  • #互動demo: https://huggingface.co/spaces/OpenShape/openshape-demo
  • #程式碼位址:https://github.com/Colin97/OpenShape_code

透過在多模態資料(點雲- 文字- 影像)上學習三維點雲的原生編碼器,OpenShape 建構了一個三維形狀的表示空間,並與CLIP 的文字和影像空間進行了對齊。由於大規模、多樣的三維預訓練,OpenShape 首次實現三維形狀的開放世界理解,支持零樣本三維形狀分類、多模態三維形狀檢索(文本/ 圖像/ 點雲輸入)、三維點雲的字幕生成和基於三維點雲的圖像生成等跨模態任務。

三維形狀零樣本分類

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

#OpenShape 支援零樣本三維形狀分類。無需額外訓練或微調,OpenShape 在常用的ModelNet40 基準(包含40 個常見類別)上達到了85.3% 的top1 準確率,超過現有零樣本方法24 個百分點,並首次實現與部分全監督方法相當的性能。

OpenShape 在 ModelNet40 上的 top3 和 top5 準確率則分別達到了 96.5% 和 98.0%。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

與現有方法主要局限於少數常見物件類別不同,OpenShape 能夠對廣泛的開放世界類別進行分類。在 Objaverse-LVIS 基準上(包含 1156 個物件類別),OpenShape 實現了 46.8% 的 top1 準確率,遠超現有零樣本方法最高只有 6.2% 的準確率。這些結果顯示 OpenShape 具備有效辨識開放世界三維形狀的能力。

多模態三維形狀檢索

透過 OpenShape 的多模態表示,使用者可以對影像、文字或點雲輸入進行三維形狀檢索。研究透過計算輸入表示和三維形狀表示之間的餘弦相似度並尋找 kNN,來從整合資料集中檢索三維形狀。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

#圖片輸入的三維形狀檢索

上圖展示了輸入圖片和兩個檢索到的三維形狀。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

文字輸入的三維形狀檢索

上圖展示了輸入文字和檢索到的三維形狀。 OpenShape 學到了廣泛的視覺和語義概念,從而支援細粒度的子類別(前兩行)和屬性控制(後兩行,如顏色,形狀,風格及其組合)。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

是三維點雲輸入的三維形狀檢索

上圖展示了輸入的三維點雲和兩個檢索到的三維形狀。


三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

#雙輸入的三維形狀檢索

上圖將兩個三維形狀作為輸入,並使用它們的OpenShape 表示來檢索同時最接近兩個輸入的三維形狀。檢索到的形狀巧妙地結合了來自兩個輸入形狀的語義和幾何元素。

基於三維形狀的文字和圖像產生

由於OpenShape 的三維形狀表示與CLIP 的圖像和文字表示空間進行了對齊,因此它們可以與很多基於CLIP 的衍生模型進行結合,從而支援各種跨模態應用。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

是三維點雲的字幕產生

透過與現成的圖像字幕模型(ClipCap)結合,OpenShape 實現了三維點雲的字幕生成。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

基於三維點雲的圖像產生

透過與現成的文字到圖像的擴散模型(Stable unCLIP)結合,OpenShape 實現了基於三維點雲的圖像生成(支援可選的文本提示)。


三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

#更多的基於三維點雲的圖片產生範例

訓練細節

基於對比學習的多模態表示對齊:OpenShape 訓練了一個三維原生編碼器,它將三維點雲作為輸入,來提取三維形狀的表示。繼先前的工作,研究利用多模態對比學習來與 CLIP 的圖像和文字表示空間進行對齊。與先前的工作不同,OpenShape 旨在學習更通用和可擴展的聯合表示空間。研究的重點主要在於擴大三維表示學習的規模和應對相應的挑戰,從而真正實現開放世界下的三維形狀理解。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

集成多个三维形状数据集:由于训练数据的规模和多样性在学习大规模三维形状表示中起着至关重要的作用,因此研究集成了四个当前最大的公开三维数据集进行训练。如下图所示,研究的训练数据包含了 87.6 万个训练形状。在这四个数据集中,ShapeNetCore、3D-FUTURE 和 ABO 包含经过人工验证的高质量三维形状,但仅涵盖有限数量的形状和数十个类别。Objaverse 数据集是最近发布的三维数据集,包含显著更多的三维形状并涵盖更多样的物体类别。然而 Objaverse 中的形状主要由网络用户上传,未经人工验证,因此质量参差不齐,分布极不平衡,需要进一步处理。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

文本过滤和丰富:研究发现仅在三维形状和二维图像之间应用对比学习不足以推动三维形状和文本空间的对齐,即使在对大规模数据集进行训练时也是如此。研究推测这是由于 CLIP 的语言和图像表示空间中固有的领域差距引起的。因此,研究需要显式地将三维形状与文本进行对齐。然而来自原始三维数据集的文本标注通常面临着缺失、错误、或内容粗略单一等问题。为此,本文提出了三种策略来对文本进行过滤和丰富,从而提高文本标注的质量:使用 GPT-4 对文本进行过滤、对三维模型的二维渲染图进行字幕生成和图像检索。


三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

研究提出了三种策略来自动过滤和丰富原始数据集中的嘈杂文本。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

文本过滤和丰富示例

在每个示例中,左侧部分展示了缩略图、原始形状名称和 GPT-4 的过滤结果。右上部分展示来来自两个字幕模型的图像字幕,而右下部分显示检索到的图像及其相应的文本。

扩大三维骨干网络。由于先前关于三维点云学习的工作主要针对像 ShapeNet 这样的小规模三维数据集, 这些骨干网络可能不能直接适用于我们的大规模的三维训练,需要相应地扩大骨干网络的规模。研究发现在不同大小的数据集上进行训练,不同的三维骨干网络表现出不同的行为和可扩展性。其中基于 Transformer 的 PointBERT 和基于三维卷积的 SparseConv 表现出更强大的性能和可扩展性,因而选择他们作为三维骨干网络。

三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行

在集成数据集上扩展三维骨干模型的大小时,不同骨干网络的性能和可扩展性比较。

困难负例挖掘:该研究的集成数据集表现出高度的类别不平衡。一些常见的类别,比如建筑,可能占据了数万个形状,而许多其他类别,比如海象和钱包,只有几十个甚至更少的形状,代表性不足。因此,当随机构建批次进行对比学习时,来自两个容易混淆的类别(例如苹果和樱桃)的形状不太可能出现在同一批次中被对比。为此,本文提出了一种离线的困难负例挖掘策略,以提高训练效率和性能。

欢迎到 HuggingFace 上尝试交互 demo。

以上是三維點雲的開放世界理解,分類、檢索、字幕和圖像生成樣行的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境