Rumah  >  Artikel  >  Peranti teknologi  >  Terkini dari Universiti Oxford |. Bercakap tentang ulasan terkini model bahasa besar dan dunia tiga dimensi

Terkini dari Universiti Oxford |. Bercakap tentang ulasan terkini model bahasa besar dan dunia tiga dimensi

WBOY
WBOYasal
2024-06-02 19:41:32339semak imbas

Ditulis di hadapan & pemahaman peribadi pengarang

Dengan perkembangan model bahasa besar (LLM), kemajuan pesat telah dicapai dalam penyepaduan antara mereka dan data spatial 3D (3D LLM), menyediakan asas untuk memahami fizikal ruang dan fizik. Interaksi ruang menyediakan keupayaan yang tidak pernah berlaku sebelum ini. Artikel ini menyediakan gambaran keseluruhan menyeluruh tentang pendekatan LLM untuk memproses, memahami dan menjana data 3D. Kami menyerlahkan kelebihan unik LLM, seperti pembelajaran kontekstual, penaakulan langkah demi langkah, keupayaan perbendaharaan kata terbuka dan pengetahuan dunia yang luas, dan menyerlahkan potensi mereka untuk memajukan pemahaman dan interaksi ruang dengan sistem kecerdasan buatan (AI) terbenam. Penyelidikan kami merangkumi pelbagai perwakilan data 3D daripada awan titik hingga Medan Render Neural (NeRF). Kami menganalisis penyepaduan mereka dengan LLM untuk tugasan seperti pemahaman adegan 3D, sari kata, menjawab soalan dan dialog, serta ejen berasaskan LLM untuk penaakulan spatial, perancangan dan navigasi. Kertas kerja itu juga mengkaji secara ringkas pendekatan gabungan 3D dan bahasa lain yang relevan, seterusnya mendedahkan kemajuan ketara tetapi menekankan keperluan untuk mengeksploitasi potensi penuh LLM 3D. Oleh itu, melalui kertas perbincangan ini, kami menyasarkan untuk merangka laluan untuk penyelidikan masa depan untuk meneroka dan memperluaskan keupayaan LLM 3D dalam memahami dan berinteraksi dengan dunia 3D yang kompleks.

Pautan sumber terbuka: https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

Latar belakang berkaitan

Bahagian ini menyediakan maklumat tentang perwakilan tiga dimensi, dan model bahasa besar (LLM) model bahasa visual dua dimensi (VLM) dan Model Asas Penglihatan (VFM).

Perwakilan 3D

Memilih perwakilan 3D untuk menerangkan, model dan memahami dunia kita ialah topik penting yang membantu memahami kemajuan semasa LLM 3D. Ia juga merupakan bidang penyelidikan asas dalam visi komputer. Bidang ini telah mengalami pertumbuhan yang luar biasa baru-baru ini disebabkan oleh kemajuan dalam pembelajaran mendalam, sumber pengkomputeran dan ketersediaan data 3D. Kami secara ringkas memperkenalkan perwakilan tiga dimensi yang paling biasa digunakan pada masa ini.

Awan titik: Mewakili bentuk tiga dimensi sebagai satu set titik data dalam ruang, menyimpan kedudukan setiap titik dalam sistem koordinat Cartesan tiga dimensi. Selain menyimpan lokasi, maklumat lain tentang setiap titik boleh disimpan (cth. warna, normal). Kaedah berasaskan awan titik terkenal dengan jejak storan yang rendah tetapi kekurangan maklumat topologi permukaan. Sumber biasa untuk mendapatkan awan titik termasuk penderia lidar, pengimbas cahaya berstruktur, kamera masa penerbangan, paparan stereo, fotogrametri, dsb.

Voxel Grid: Ia terdiri daripada kiub unit dalam ruang tiga dimensi, serupa dengan perwakilan piksel dalam ruang dua dimensi. Setiap voxel mengekod maklumat penghunian secara minimum (perduaan atau kemungkinan), tetapi boleh mengekodkan jarak ke permukaan, seperti dalam fungsi jarak bertanda (SDF) atau fungsi jarak bertanda terpotong (TSDF). Walau bagaimanapun, apabila butiran resolusi tinggi diperlukan, jejak memori boleh menjadi berlebihan.

Polygon Mesh: Perwakilan yang terdiri daripada bucu dan permukaan yang padat boleh menggambarkan bentuk tiga dimensi yang kompleks. Walau bagaimanapun, sifatnya yang tidak berstruktur dan tidak boleh dibezakan menimbulkan cabaran dalam mengintegrasikannya dengan rangkaian saraf untuk mencapai saluran paip boleh dibezakan hujung ke hujung. Sesetengah penyelesaian kepada masalah ini, seperti kaedah berdasarkan anggaran kecerunan, hanya boleh menggunakan pengiraan kecerunan buatan tangan. Penyelesaian lain, seperti rasterizer boleh dibezakan, mungkin membawa kepada hasil pemaparan yang tidak tepat seperti kandungan kabur.

Dalam beberapa tahun kebelakangan ini, komuniti penyelidikan 3D adegan saraf telah menarik minat yang semakin meningkat, tidak seperti perwakilan tradisional yang bergantung pada unsur geometri. Adegan saraf ialah pemetaan daripada koordinat spatial kepada sifat pemandangan (seperti penghunian, warna, keamatan, dll.), tetapi tidak seperti grid bahan, dalam adegan saraf pemetaan ialah fungsi yang dipelajari, biasanya perceptron berbilang lapisan. Dengan cara ini, Neural Scenes secara tersirat mempelajari keupayaan untuk mempelajari bentuk geometri dan perwakilan pemandangan 3D yang berterusan dan boleh dibezakan.

Satu set rangkaian saraf memfokuskan pada perwakilan permukaan tersirat. Rangkaian penghunian mengekod bentuk dalam fungsi penghunian 3D berterusan yang diwakili oleh rangkaian saraf, menggunakan lokasi dan ciri titik 3D daripada awan titik, voxel resolusi rendah atau imej untuk menganggarkan kebarangkalian penghunian. Sementara itu, rangkaian SDF dalam menggunakan rangkaian saraf untuk menganggarkan SDF daripada koordinat dan kecerunan 3D. Kaedah terkini, seperti NeuS dan NeuS2, telah ditunjukkan untuk meningkatkan kesetiaan dan kecekapan pembinaan semula permukaan untuk kedua-dua sasaran statik dan dinamik.

Kumpulan kaedah lain yang dipanggil Neural Radiation Fields (NeRF) telah menunjukkan keupayaan pemaparan fotorealistik yang berkuasa untuk dunia 3D. Kaedah ini menggunakan teknik pengekodan kedudukan untuk mengekod butiran pemandangan dan memanfaatkan MLP untuk meramalkan nilai sinaran (warna dan kelegapan) sinaran kamera. Walau bagaimanapun, keperluan MLP untuk membuat kesimpulan warna dan butiran penghunian setiap titik pensampelan dalam ruang (termasuk titik pensampelan dalam ruang kosong) memerlukan sumber pengiraan yang ketara. Oleh itu, terdapat insentif yang kuat untuk mengurangkan overhed pengiraan NeRF untuk aplikasi masa nyata.

Perwakilan hibrid cuba menggabungkan teknologi NeRF dengan kaedah berasaskan volum tradisional untuk memudahkan pemaparan masa nyata berkualiti tinggi. Contohnya, menggabungkan grid voxel atau grid cincang berbilang resolusi dengan rangkaian neural mengurangkan masa latihan dan inferens NeRF dengan ketara.

Penyebaran Gaussian 3D ialah variasi awan titik di mana setiap titik mengandungi maklumat tambahan yang mewakili sinaran yang dipancarkan di kawasan ruang yang mengelilingi titik itu sebagai "gumpalan" Gaussian 3D anisotropik. Gaussians 3D ini biasanya dimulakan daripada awan titik SfM dan dioptimumkan menggunakan pemaparan boleh dibezakan. Penyebaran Gaussian 3D membolehkan sintesis paparan baharu yang terkini pada sebahagian kecil daripada pengiraan NeRF dengan memanfaatkan rasterisasi yang cekap dan bukannya pengesanan sinar.

LLM

Pemprosesan bahasa semula jadi tradisional (NLP) merangkumi pelbagai tugas yang direka untuk membolehkan sistem memahami, menjana dan memanipulasi teks. Pendekatan awal kepada NLP bergantung pada teknik seperti sistem berasaskan peraturan, model statistik dan seni bina saraf awal seperti rangkaian saraf berulang. Model bahasa besar (LLM) yang diperkenalkan baru-baru ini menggunakan seni bina transformer dan dilatih pada korpus teks yang besar, mencapai prestasi yang tidak pernah berlaku sebelum ini dan mencetuskan kegilaan baharu dalam bidang tersebut. Memandangkan fokus artikel ini ialah LLM tiga dimensi, kami menyediakan pengetahuan latar belakang yang berkaitan tentang LLM di sini. Untuk meneroka LLM secara mendalam, kami merujuk kepada tinjauan terbaru di rantau ini.

Struktur LLM

Dalam konteks LLM, seni bina "penyahkod pengekod" dan "penyahkod sahaja" digunakan terutamanya untuk tugas NLP.

  • Seni bina penyahkod pengekod;
  • Seni bina penyahkod sahaja;
  • Tokenisasi: Tokenisasi ialah kaedah prapemprosesan yang menguraikan teks input ke dalam urutan token, yang merupakan unit data asas dalam model bahasa. Bilangan token adalah terhad, dan setiap token boleh sepadan dengan perkataan, subkata atau satu huruf. Semasa inferens, teks input ditukar kepada jujukan token dan disalurkan kepada model, yang meramalkan token output dan kemudian menukar token output kembali ke dalam teks. Tokenisasi mempunyai kesan yang kuat terhadap prestasi model bahasa kerana ia mempengaruhi persepsi model terhadap teks. Pelbagai teknik tokenisasi digunakan, seperti tokenisasi peringkat perkataan, tokenisasi sub-perkataan (cth., pengekodan pasangan bait, WordPiece, PencePiece) dan tokenisasi peringkat aksara.

LLM Keupayaan Muncul

Satu perbezaan utama antara LLM dan kaedah bukan LLM tradisional ialah keupayaan muncul yang tersedia dalam model besar tetapi tidak terdapat dalam model kecil. Istilah "keupayaan kecemasan" merujuk kepada keupayaan kompleks baharu yang timbul apabila LLM berkembang dari segi saiz dan kerumitan. Keupayaan ini membolehkan orang ramai memahami dengan mendalam dan menjana bahasa semula jadi, menyelesaikan masalah dalam pelbagai bidang tanpa latihan khusus, dan menyesuaikan diri dengan tugas baharu melalui pembelajaran kontekstual. Dalam perkara berikut, kami akan memperkenalkan beberapa keupayaan muncul biasa dalam skop LLM.

Pembelajaran Kontekstual merujuk kepada keupayaan LLM untuk memahami dan bertindak balas terhadap tugasan atau pertanyaan baharu berdasarkan konteks yang disediakan dalam gesaan, tanpa memerlukan latihan semula atau penalaan yang jelas. Kertas mercu tanda (GPT-2/GPT-3) menunjukkan pembelajaran kontekstual dalam pendekatan berbilang pukulan, di mana model diberikan beberapa contoh tugasan secara segera dan kemudian diminta untuk memproses contoh yang berbeza tanpa latihan eksplisit terlebih dahulu. LLM yang canggih, seperti GPT-4, mempamerkan keupayaan pembelajaran kontekstual yang luar biasa, memahami arahan yang kompleks dan melaksanakan pelbagai tugas daripada terjemahan mudah kepada penjanaan kod dan penulisan kreatif, semuanya berdasarkan konteks yang disediakan dalam gesaan .

Penaakulan dalam LLM, sering dirujuk sebagai gesaan "rantai berfikir", melibatkan model yang menjana langkah perantaraan atau laluan penaakulan apabila menangani masalah atau masalah yang kompleks. Pendekatan ini membolehkan LLM membahagikan tugas kepada bahagian yang lebih kecil dan boleh diurus, dengan itu menggalakkan proses penyelesaian yang lebih berstruktur dan mudah difahami. Untuk mencapai matlamat ini, latihan melibatkan set data yang merangkumi pelbagai tugas penyelesaian masalah, teka-teki logik dan set data yang direka bentuk untuk mensimulasikan penaakulan di bawah ketidakpastian. LLM tercanggih semasa biasanya mempamerkan keupayaan inferens lanjutan apabila saiz model lebih besar daripada parameter 60B hingga 100B.

Pematuhan arahan merujuk kepada keupayaan model untuk memahami dan melaksanakan arahan, atau keupayaan untuk melaksanakan arahan yang ditentukan oleh pengguna. Ini termasuk menghuraikan arahan, memahami niatnya dan menjana respons atau tindakan yang sesuai. Kaedah yang digunakan untuk menyesuaikan keupayaan ini kepada tugasan baharu mungkin memerlukan penyesuaian arahan daripada set data yang mengandungi pelbagai arahan yang dipasangkan dengan tindak balas atau tindakan yang betul. Teknik seperti pembelajaran diselia, pembelajaran pengukuhan daripada maklum balas manusia, dan pembelajaran interaktif boleh meningkatkan lagi prestasi.

LLM Penalaan Halus

Dalam konteks LLM 3D, LLM sama ada digunakan secara langsung dalam keadaan pra-latihannya atau diperhalusi untuk menyesuaikan diri dengan tugasan pelbagai mod baharu. Walau bagaimanapun, penalaan halus keseluruhan parameter LLM menimbulkan cabaran pengiraan dan ingatan yang ketara disebabkan oleh bilangan parameter yang besar yang terlibat. Oleh itu, penalaan halus berkesan parameter (PEFT) telah menjadi semakin popular dalam menyesuaikan LLM kepada tugas tertentu dengan mengemas kini hanya subset parameter model yang agak kecil dan bukannya melatih semula keseluruhan model. Bahagian berikut menyenaraikan empat kaedah PEFT yang biasa digunakan dalam LLM.

Penyesuaian Peringkat Rendah (LoRA) dan varian mengemas kini parameter melalui matriks peringkat rendah. Secara matematik, hantaran hadapan LoRA semasa penalaan halus boleh dinyatakan sebagai h=W0x+BAx. W0 ialah berat beku LLM, manakala BA ialah matriks peringkat rendah yang diparameterkan oleh matriks a dan B yang baru diperkenalkan yang dikemas kini dalam peringkat penalaan halus. Pendekatan ini mempunyai beberapa faedah yang jelas. Semasa proses penalaan halus, hanya B dan A dioptimumkan, dengan ketara mengurangkan overhed pengiraan yang dikaitkan dengan pengiraan kecerunan dan kemas kini parameter. Setelah penalaan halus selesai dan pemberat digabungkan, tiada kos inferens tambahan berbanding model asal, seperti yang ditunjukkan dalam persamaan: h = (W0 + BA) x. Tambahan pula, tidak perlu menyimpan berbilang salinan LLM untuk tugasan yang berbeza kerana berbilang kejadian LoRA boleh disimpan, sekali gus mengurangkan jejak penyimpanan.

Layer Freeze: Membekukan lapisan terpilih model pra-latihan sambil mengemas kini lapisan lain semasa latihan. Ini biasanya digunakan pada lapisan yang lebih dekat dengan input atau output model, bergantung pada sifat tugas dan seni bina model. Sebagai contoh, dalam pendekatan 3D-LLM, semua lapisan kecuali pembenaman input dan output boleh dibekukan untuk mengurangkan risiko overfitting pada set data khusus tugasan, mengekalkan pengetahuan am yang telah terlatih dan mengurangkan parameter yang perlu dioptimumkan.

Penalaan Pantas membimbing LLM untuk melaksanakan tugas tertentu dengan menetapkan rangka kerja LLM dalam gesaan, melaraskan input model berbanding dengan penalaan halus tradisional bagi parameter model pelarasan. Kejuruteraan kiu manual ialah kaedah yang paling intuitif, tetapi mungkin sukar bagi jurutera penalaan kiu yang berpengalaman untuk mencari isyarat terbaik. Satu lagi set pendekatan ialah penjanaan tip automatik dan pengoptimuman. Kaedah yang popular ialah mencari teks gesaan input terbaik yang tepat, yang dipanggil gesaan keras, sebagai contoh. Sebagai alternatif, kaedah pengoptimuman boleh digunakan untuk mengoptimumkan pembenaman pembayang (petua lembut).

Penalaan halus suaiSesuaikan seni bina model untuk tugasan tertentu dengan menambah atau mengalih keluar lapisan atau modul. Ini boleh termasuk menyepadukan modaliti data baharu seperti maklumat visual dan data teks. Idea teras penalaan halus suai adalah untuk menggunakan modul rangkaian saraf kecil yang diselitkan di antara lapisan model pra-latihan. Semasa penyesuaian halus, hanya parameter modul penyesuai ini dikemas kini, manakala berat model asal kekal tidak berubah.

Model Bahasa Visi 2D

Model bahasa visual ialah sekumpulan model yang direka bentuk untuk menangkap dan mengeksploitasi hubungan antara teks dan imej/video, dan untuk dapat melaksanakan tugas interaktif antara dua modaliti. Kebanyakan VLM mempunyai seni bina berasaskan Transformer. Dengan memanfaatkan modul perhatian, kandungan visual dan tekstual mengkondisikan satu sama lain untuk mencapai interaksi bersama. Dalam perenggan berikut, kami akan memperkenalkan secara ringkas aplikasi VLM dalam tugas diskriminatif dan generatif.

Tugas diskriminasi melibatkan meramalkan ciri tertentu data. VLM, seperti CLIP dan ALIGN, telah menunjukkan prestasi yang luar biasa dari segi kebolehpindahan sifar tangkapan kepada data yang tidak kelihatan dalam klasifikasi imej. Kedua-dua model termasuk dua modul: pengekod visual dan pengekod teks. Memandangkan imej dan kategorinya, CLIP dan ALIGN dilatih dengan memaksimumkan persamaan antara pembenaman imej dan pembenaman teks ayat "foto {kategori imej}". Kebolehpindahan sifar tangkapan dicapai dengan menggantikan "{kategori imej}" dengan calon yang mungkin semasa inferens dan mencari ayat yang paling sepadan dengan imej. Kedua-dua karya ini memberi inspirasi kepada banyak karya seterusnya, meningkatkan lagi ketepatan klasifikasi imej. Model ini juga boleh mengekstrak pengetahuan yang dipelajari untuk digunakan dalam tugas lain, termasuk pengesanan objek, pembahagian imej, pemahaman dokumen dan pengecaman video.

Jana tugas Gunakan VLM untuk menjana teks atau imej daripada data input. Dengan memanfaatkan data latihan berskala besar, satu VLM selalunya boleh melaksanakan berbilang tugas penjanaan imej-ke-teks, seperti kapsyen imej dan menjawab soalan visual (VQA). Contoh ketara termasuk SimVLM, BLIP dan OFA, antara lain. VLM yang lebih berkuasa, seperti BLIP-2, Flamingo dan LLaVA, mampu mengendalikan dialog berbilang pusingan dan penaakulan berdasarkan imej input. Dengan pengenalan model resapan, penjanaan teks-ke-imej juga telah menjadi tumpuan komuniti penyelidikan. Dengan melatih sebilangan besar pasangan teks imej, model resapan boleh menjana imej berkualiti tinggi berdasarkan input teks. Fungsi ini juga diperluaskan kepada penjanaan video, pemandangan 3D dan objek 3D dinamik. Selain menjana tugas, imej sedia ada juga boleh diedit melalui gesaan teks.

Model Asas Visi

Model Asas Visi (VFM) ialah rangkaian saraf berskala besar yang direka untuk mengekstrak perwakilan imej yang pelbagai dan cukup ekspresif untuk digunakan secara langsung dalam pelbagai tugas hiliran, mencerminkan LLM pra-latihan Peranan dalam tugasan NLP hiliran. Satu contoh yang ketara ialah DINO, yang menggunakan model latihan guru-murid yang diselia sendiri. Perwakilan yang dipelajari mencapai hasil yang baik dalam kedua-dua klasifikasi imej dan padanan imej semantik. Pemberat perhatian dalam DINO juga boleh digunakan sebagai topeng pembahagian untuk komponen semantik adegan yang diperhatikan. Kerja-kerja seterusnya seperti iBOT dan DINOv2 menambah baik perwakilan dengan memperkenalkan kehilangan model imej bertopeng (MIM). SAM ialah model pembahagian imej berasaskan pengubah yang dilatih pada set data yang terdiri daripada 1.1 bilion imej dengan topeng semantik dan mempamerkan keupayaan pemindahan tangkapan sifar yang kuat. DINO (Zhang et al.)—tidak boleh dikelirukan dengan DINO (Caron et al.)—mengguna pakai seni bina seperti DETR dan pemilihan pertanyaan hibrid untuk pengesanan objek. Kerja susulan Grounding DINO memperkenalkan penyeliaan teks untuk meningkatkan ketepatan. Resapan Stabil ialah penjana teks ke imej yang turut digunakan sebagai pengekstrak ciri untuk imej "sebenar" dengan menjalankan satu langkah resapan pada imej yang bersih atau bising buatan dan mengekstrak ciri perantaraan atau topeng perhatian. Ciri-ciri ini baru-baru ini telah dieksploitasi untuk tugasan pembahagian dan pemadanan imej disebabkan oleh saiz dan kepelbagaian set latihan yang digunakan untuk model resapan, dan disebabkan oleh sifat kemunculan ciri resapan yang diperhatikan, seperti korespondensi sifar tangkapan antara imej. Kapsyen 3D (3D → Teks) Teks → Kedudukan 3 D)

single-object Grounding

multi-object Grounding

    3d Conversation (3d + text → text)
  • 3d Soalan Menjawab (3d-qa)
  • 3d Soalan Soalan Menjawab (3d-sqa)
Dialog 3D xt → 3D)

. Teras pemahaman adegan adalah untuk mengenal pasti dan mengelaskan semua objek dalam persekitaran tiga dimensi tertentu, satu proses yang dipanggil pemahaman peringkat semantik atau contoh. Peringkat ini penting kerana ia membentuk asas untuk membina tafsiran yang lebih halus. Seterusnya, pemahaman adegan peringkat lebih tinggi memberi tumpuan kepada pemahaman ruang, yang merujuk kepada pembinaan graf adegan ruang dan semantik hubungan sasaran. Melangkah lebih jauh, potensi interaksi seperti kemampuan dan perubahan adegan boleh diramalkan, serta memahami konteks adegan yang lebih luas, seperti kefungsian dan gaya estetik. Data 3D juga membentangkan cabaran unik yang tidak wujud dalam 2D, seperti kos yang agak tinggi untuk mendapatkan dan melabel data 3D, struktur data 3D yang jarang yang tidak padat secara seragam atau sejajar dengan grid, dan keperluan untuk menyelaraskan berbilang (mungkin terhalang ) sudut pandangan. Untuk melakukan ini, para penyelidik memanfaatkan kuasa bahasa untuk membenamkan semantik dan hubungan dalam dunia 3D. Usaha baru-baru ini dalam menyepadukan model bahasa besar (LLM) dengan data 3D telah menunjukkan bahawa memanfaatkan kekuatan sedia ada LLM, iaitu pembelajaran sifar, pembelajaran kontekstual, penaakulan langkah demi langkah, dan pengetahuan dunia yang luas, menjanjikan untuk mencapai pemahaman dan interaksi pelbagai peringkat. .

  • Bagaimanakah LLM memproses maklumat pemandangan 3D?
LLM tradisional terhad kepada teks sebagai input dan output, yang menjadikan keupayaan untuk mencerna maklumat 3D sebagai tumpuan utama semua kaedah 3D-LLM. Idea umum adalah untuk memetakan maklumat objek atau pemandangan 3D ke dalam ruang bahasa supaya LLM boleh memahami dan memproses input 3D ini. Secara khusus, ini biasanya melibatkan dua langkah: (i) menggunakan pengekod 3D terlatih untuk memproses perwakilan 3D yang sepadan untuk menghasilkan ciri 3D mentah (ii) menggunakan modul penjajaran untuk menukar ciri 3D ini kepada 3D yang boleh diproses oleh LLM; serupa dengan proses tokenisasi yang diterangkan. LLM yang telah dilatih kemudiannya boleh menggunakan penanda 3D sejajar ini apabila menjana output.

Seperti yang dinyatakan sebelum ini, memandangkan kepelbagaian perwakilan 3D, terdapat pelbagai cara untuk mendapatkan ciri 3D. Seperti yang ditunjukkan dalam lajur "Geometri 3D" dalam Jadual 1, awan titik adalah yang paling biasa kerana kesederhanaan dan keserasiannya dengan pelbagai pengekod 3D yang telah terlatih, menjadikannya pilihan popular untuk kaedah pembelajaran berbilang tugas dan berbilang mod . Imej berbilang paparan juga sering digunakan kerana penyelidikan tentang pengekstrakan ciri 2D telah matang, bermakna pengekstrakan ciri 3D hanya memerlukan skim pengangkatan 2D hingga 3D tambahan. Data RGB-D diperoleh dengan mudah menggunakan kamera kedalaman sering digunakan dalam sistem ejen terbenam 3D untuk mengekstrak maklumat berkaitan sudut pandang untuk navigasi dan pemahaman. Graf pemandangan 3D ialah perwakilan 3D yang lebih abstrak yang pandai memodelkan kewujudan objek dan hubungannya serta menangkap maklumat peringkat tinggi tempat kejadian. Ia sering digunakan untuk klasifikasi pemandangan 3D dan tugas perancangan. NeRF pada masa ini kurang digunakan dalam kaedah 3D-LLM. Kami percaya ini adalah disebabkan sifat tersiratnya, yang menjadikan mereka lebih sukar untuk dijadikan token dan disepadukan dengan rangkaian neural suapan.

LLM untuk Meningkatkan Prestasi Tugasan 3D

LLM yang dilatih mengenai jumlah data yang besar telah terbukti memperoleh pengetahuan akal tentang dunia. Potensi pengetahuan dunia LLM dan keupayaan penaakulan telah diterokai untuk meningkatkan pemahaman adegan 3D dan merumuskan semula saluran paip untuk beberapa tugasan 3D. Dalam bahagian ini, kami menumpukan pada kaedah yang bertujuan untuk menggunakan LLM untuk meningkatkan prestasi kaedah sedia ada dalam tugas bahasa visual 3D. Apabila menggunakan LLM pada tugasan 3D, kita boleh membahagikan penggunaannya kepada dua kumpulan: kaedah penambahan pengetahuan dan penambahan inferens. Kaedah penambahan pengetahuan mengeksploitasi pengetahuan dunia yang luas yang tertanam dalam LLM untuk meningkatkan prestasi tugasan 3D. Ini boleh memberikan cerapan kontekstual, mengisi jurang pengetahuan atau meningkatkan pemahaman semantik tentang persekitaran 3D. Sebagai alternatif, kaedah untuk meningkatkan inferens tidak bergantung pada pengetahuan dunia mereka, tetapi memanfaatkan keupayaan LLM untuk melaksanakan inferens langkah demi langkah, dengan itu memberikan keupayaan generalisasi yang lebih baik kepada cabaran 3D yang lebih kompleks. Dua bahagian berikut menerangkan setiap kaedah ini.

  • Pendekatan yang dipertingkatkan pengetahuan: Terdapat beberapa cara untuk memanfaatkan pengetahuan dunia LLM. Chen et al menggunakan LLM untuk klasifikasi bilik 3D daripada imej RGB-D. Di sini, pengetahuan yang tertanam dalam LLM digunakan untuk menentukan kategori bilik berdasarkan maklumat kategori objek yang terkandung di dalam bilik. Pertama, pendekatan ini mencipta graf pemandangan daripada data Matterport3D, yang mengandungi nod untuk kawasan dan objek, serta nod objek yang dipautkan ke nod bilik. Seterusnya, pilih objek utama untuk membentuk pertanyaan bagi setiap jenis bilik. Perihalan skor LLM yang diekstrak daripada objek yang dipilih, dengan skor tertinggi meramalkan label bilik. Maklumat spatial seperti saiz atau lokasi juga boleh disediakan.
  • Pendekatan yang dipertingkatkan penaakulan: Selain pengetahuan dunia, keupayaan penaakulan LLM juga membantu mengendalikan tugasan 3D yang lain, terutamanya asas penglihatan dalam adegan 3D yang kompleks dengan geometri terperinci dan berbilang objek. Dalam kes ini, perihalan tekstual objek harus merangkumi penampilan dan hubungan ruang dengan item sekeliling. Kaedah asas biasa selalunya sukar dalam situasi ini kerana ketidakupayaan untuk memahami penerangan teks yang terperinci. LLM-Grounder, Transcribe3D dan Zero-shot 3DVG menyelesaikan masalah ini dengan memanfaatkan keupayaan inferens LLM untuk menganalisis penerangan teks dan menjana satu siri arahan untuk mencari objek menggunakan kotak alat pembumian sedia ada.

LLM untuk Pembelajaran Pelbagai Tugas 3D

Banyak kerja menumpukan pada penggunaan arahan LLM mengikut arahan dan keupayaan pembelajaran kontekstual untuk menyatukan berbilang tugasan 3D ke dalam ruang bahasa. Dengan menggunakan gesaan teks yang berbeza untuk mewakili tugasan yang berbeza, kajian ini bertujuan untuk menjadikan LLM antara muka perbualan bersatu. Melaksanakan pembelajaran pelbagai tugas menggunakan LLM biasanya melibatkan beberapa langkah utama, bermula dengan membina pasangan data teks 3D. Gandingan ini memerlukan arahan tugasan kerajinan dalam bentuk teks dan mentakrifkan output untuk setiap tugasan yang berbeza. Seterusnya, data 3D (biasanya dalam bentuk awan titik) disalurkan kepada pengekod 3D untuk mengekstrak ciri 3D. Modul penjajaran kemudiannya digunakan untuk (i) menjajarkan ciri 3D dengan pembenaman teks daripada LLM pada pelbagai peringkat (peringkat objek, peringkat perhubungan dan peringkat pemandangan) dan (ii) menterjemah ciri 3D ke dalam token boleh tafsir LLM. Akhir sekali, strategi latihan yang sesuai perlu dipilih, seperti latihan penjajaran bahasa 3D satu peringkat atau berbilang peringkat dan penalaan halus arahan berbilang tugas.

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

Dalam baki bahagian ini, kami akan meneroka aspek ini secara terperinci. Kami juga meringkaskan skop dan keupayaan setiap kaedah yang disemak dalam bahagian ini dalam Jadual 2.

  • Data untuk Pembelajaran Pelbagai Tugas: Seperti yang ditunjukkan dalam Jadual 2, kami mengklasifikasikan tugasan kepada empat kategori: sari kata, asas, menjawab soalan (QA) dan tugas ejen khusus (iaitu, perancangan, navigasi dan operasi). Oleh itu, output teks setiap tugasan mengikut format yang telah ditetapkan. Untuk sari kata dan tugasan QA, output adalah teks biasa dan tidak terhad kepada format tertentu. Output tugas asas ialah kotak sempadan 3D, biasanya koordinat tengah objek rujukan dan saiz 3Dnya. Biasanya, nilai mata dan saiz dinormalisasi untuk berada dalam julat 0-255, yang mengehadkan julat token yang perlu diramalkan oleh LLM. Untuk perancangan, model mengeluarkan urutan langkah untuk melaksanakan tugas dalam bentuk teks, manakala untuk navigasi, output ialah jujukan koordinat spatial. Untuk tindakan, output ialah urutan tindakan teks. Kaedah sedia ada mengikut garis panduan ini untuk membina set data penalaan halus arahan berbilang tugas mereka.
  • Melatih LLM untuk pelbagai tugasan 3D: Langkah pertama dalam melatih LLM untuk pelbagai tugasan 3D melibatkan mendapatkan ciri 3D yang bermakna, di mana kaedah pengekstrakan berbeza mengikut jenis pemandangan 3D. Untuk awan titik objek tunggal, titik LLM, Chat-3D dan GPT4Point gunakan titik BERT untuk mengekstrak ciri objek 3D. Untuk adegan dalaman, LEO menggunakan PointNet++ untuk pengekstrakan ciri, manakala Chat-3D v2 dan 3DMIT membahagikan pemandangan dan menggunakan Uni-3D untuk mengekstrak ciri bagi setiap bahagian yang tersegmen. Pada masa yang sama, MultiPLY menyepadukan ciri objek yang diekstrak ke dalam graf pemandangan untuk mewakili keseluruhan pemandangan. 3D-LLM dan adegan LLM mengangkat ciri daripada imej berbilang paparan 2D kepada perwakilan 3D. 3D-LLM mengekstrak ciri semantik 2D daripada Mask2Former atau SAM. Scene LLM mengikuti ConceptFusion untuk menggabungkan maklumat global dan butiran setempat, memetakan ciri CLIP piksel demi piksel ke dalam ciri 3D titik demi titik. Untuk adegan 3D luar, LiDAR LLM menggunakan VoxelNet untuk mengekstrak ciri voxel 3D.

LLM sebagai Antara Muka Pelbagai Modal 3D

Selain meneroka pelajar pelbagai tugas 3D, beberapa penyelidikan terkini turut menggabungkan maklumat daripada modaliti yang berbeza untuk meningkatkan lagi keupayaan model dan membolehkan interaksi baharu. Selain teks dan adegan 3D, LLM 3D multimodal juga boleh memasukkan imej 2D, audio atau maklumat sentuhan dalam adegan sebagai input.

Kebanyakan kerja bertujuan untuk membina ruang perwakilan bersama merentas modaliti yang berbeza. Memandangkan sesetengah kerja sedia ada sudah menyediakan pengekod terlatih yang memetakan teks, imej atau audio ke ruang biasa, sesetengah kerja memilih untuk mempelajari pengekodan 3D yang menjajarkan pembenaman 3D dengan ruang pembenaman pengekod terlatih untuk kaedah lain. JM3D-LLM mempelajari pengekod awan titik 3D yang menjajarkan ruang benam awan titik dengan ruang benam imej teks SLIP. Ia menjadikan jujukan imej awan titik dan membina pepohon teks hierarki semasa latihan untuk mencapai penjajaran terperinci. Point Bind juga mempelajari pengekod 3D yang serupa dan menjajarkannya dengan ImageBind untuk menyatukan ruang pembenaman untuk imej, teks, audio dan awan titik. Ini membolehkan penggunaan ketua tugas yang berbeza untuk mengendalikan tugas yang berbeza seperti pengambilan semula, pengelasan dan penjanaan antara pelbagai mod. Walau bagaimanapun, had yang ketara ialah pendekatan ini hanya sesuai untuk adegan peringkat objek berskala kecil, kerana ia adalah mahal dari segi pengiraan untuk pengekod 3D untuk memproses adegan besar dengan berjuta-juta mata. Tambahan pula, kebanyakan pengekod berbilang mod terlatih seperti CLIP direka untuk adegan satu objek dan tidak sesuai untuk adegan berskala besar dengan berbilang objek dan butiran tempatan.

Sebaliknya, adegan besar memerlukan reka bentuk yang lebih terperinci untuk menggabungkan berbilang mod. ConceptFusion membina peta ciri yang dipertingkatkan yang menggabungkan maklumat global dan butiran tempatan bagi setiap imej komponen adegan besar. Ini dicapai dengan menggunakan pengekstrak ciri pra-latihan yang telah diselaraskan dengan modaliti yang berbeza termasuk teks dan audio. Ia kemudian menggunakan kaedah SLAM tradisional untuk memetakan peta ciri ke awan titik tempat kejadian. MultiPLY menggunakan perwakilan yang serupa dengan ConceptGraph. Ia mengenal pasti semua objek yang menonjol dalam adegan, mendapatkan pembenaman global setiap objek, dan akhirnya membina graf pemandangan. Perwakilan yang terhasil ialah benam pemandangan yang sejajar dengan ruang benam Llama. Pembenaman modaliti lain termasuk audio, suhu dan haptik juga boleh dipetakan ke dalam ruang yang sama menggunakan unjuran linear. Semua benaman diberi token dan dihantar ke LLM dengan serta-merta. Berbanding dengan kaedah yang boleh mengendalikan adegan berskala besar, kaedah yang boleh mengendalikan adegan besar mengurangkan kos dengan bergantung pada pengekod pra-latihan untuk merapatkan jurang modal dan bukannya mempelajari pengekod baharu dari awal.

LLM untuk Ejen Terwujud

Anda boleh menggunakan perancangan LLM, penggunaan alatan dan keupayaan membuat keputusan untuk mencipta ejen konkrit 3D. Keupayaan ini membolehkan LLM menjana keputusan pintar, termasuk menavigasi dalam persekitaran 3D, berinteraksi dengan objek dan memilih alatan yang sesuai untuk melaksanakan tugas tertentu. Bahagian ini menerangkan cara ejen konkrit 3D melaksanakan tugas perancangan, navigasi dan manipulasi.

  • Perancangan Tugasan 3D: Untuk ejen tertentu, "perancangan tugas" merujuk kepada keupayaan untuk menjana langkah untuk melaksanakan tugas tertentu, diberikan penerangan tugas dan persekitaran 3D. Perancangan misi selalunya menjadi prasyarat untuk misi navigasi dan manuver kerana ketepatan perancangan secara langsung mempengaruhi prestasi misi berikutnya. LEO dan LLM Planner menggunakan LLM untuk menjana pelan langkah demi langkah dan menyesuaikan secara dinamik berdasarkan kesedaran alam sekitar. LEO menekankan perancangan sedar pemandangan berdasarkan konfigurasi adegan semasa, manakala Perancang LLM menggunakan GPT3 untuk membahagikan perancangan kepada submatlamat peringkat tinggi dan tindakan peringkat rendah, dan merancang semula apabila ejen menghadapi masalah semasa pelaksanaan tugas. 3D-VLA menggabungkan persepsi 3D, penaakulan dan tindakan melalui model dunia yang dihasilkan. Ia memberi tumpuan kepada meningkatkan keupayaan perancangan dengan memanfaatkan model generatifnya untuk meramalkan perwakilan keadaan masa hadapan seperti imej sasaran dan awan titik.
  • Navigasi 3D: Navigasi 3D merujuk kepada keupayaan ejen terbenam untuk bergerak dan meletakkan dirinya dalam persekitaran 3D, biasanya berdasarkan input visual dan arahan lisan. Setiap kaedah yang diterangkan - LEO, Agent3D Zero, LLM Planner dan NaviLLM - melaksanakan navigasi 3D dengan cara yang berbeza. LEO memproses imej 2D berpusat kenderaan dan awan titik 3D berpusat sasaran serta arahan teks.
  • Manipulasi Objek 3D: Dalam konteks ejen konkrit 3D, manipulasi merujuk kepada keupayaan mereka untuk berinteraksi secara fizikal dengan objek, daripada menggerakkan objek kepada urutan yang kompleks seperti memasang bahagian atau membuka pintu. Idea teras yang digunakan untuk membolehkan LLM melaksanakan tugas-tugas operasi adalah untuk menandakan urutan tindakan. Untuk membolehkan LLM mengeluarkan tindakan tertentu, anda perlu menentukan token tindakan terlebih dahulu, yang membolehkan LLM menjana tindakan tersebut berdasarkan tugasan dan konteks adegan 3D. Platform seperti CLIPort atau modul perancangan gerakan dalam lengan robot kemudian menterjemahkan tindakan token ini kepada tindakan fizikal yang dilakukan oleh ejen.

LLM untuk Generasi 3D

Secara tradisinya, pemodelan 3D telah menjadi proses yang kompleks dan memakan masa dengan halangan tinggi untuk masuk, memerlukan perhatian terperinci terhadap geometri, tekstur dan pencahayaan untuk mencapai hasil yang realistik. Dalam bahagian ini, kami melihat dengan lebih dekat integrasi LLM dengan teknologi penjanaan 3D, menunjukkan cara bahasa menyediakan cara untuk menjana objek berkonteks dalam adegan dan menyediakan penyelesaian inovatif untuk penciptaan dan manipulasi kandungan 3D.

  • Penjanaan peringkat objek: Bentuk GPT menggunakan VQ-VAE 3D khusus bentuk untuk mengkuantumkan bentuk 3D menjadi penanda "kata bentuk" diskret. Ini membolehkan penyepaduan data bentuk ke dalam input multimodal kepada model bahasa T5, bersama-sama dengan teks dan imej. Perwakilan multimodal ini membolehkan T5 mempelajari interaksi silang mod seperti penjanaan teks kepada bentuk dan penyuntingan/penyiapan bentuk. GPT4Point menggunakan pendekatan dua aliran - menjajarkan geometri awan titik kepada teks melalui titik QFormer, yang kemudiannya dimasukkan ke dalam LLM berganding dan laluan resapan untuk pemahaman teks dan penjanaan objek 3D kesetiaan tinggi yang konsisten dengan input teks.
  • Penjanaan Skala Adegan: Holodeck dan GALA-3D menggunakan saluran paip berbilang peringkat untuk memperhalusi secara beransur-ansur reka letak pemandangan 3D kasar awal daripada teks kepada persekitaran 3D yang terperinci dan realistik. Holodeck menggunakan modul khusus untuk mencipta susun atur asas, memilih bahan dan menggabungkan elemen seperti pintu dan tingkap berdasarkan penaakulan spatial dan cadangan susun atur/gaya GPT-4. Ia kemudian mengisi reka letak dengan aset ob-averse yang sepadan dengan penerangan teks GPT-4. Pengoptimum menyusun sasaran ini mengikut kekangan hubungan spatial yang diperoleh daripada GPT-4 untuk menggalakkan susun atur dan interaksi sasaran yang realistik.
  • Penjanaan dan Manipulasi Prosedur: LLMR, 3D-GPT dan SceneCraft menggunakan seni bina modular dengan komponen/ejen khusus untuk penciptaan dunia 3D interaktif dan penjanaan kod daripada bahasa semula jadi. LLMR terdiri daripada komponen berbeza yang digunakan untuk menjana kod untuk membina adegan dalam Unity, memahami sasaran dan sifat pemandangan sedia ada untuk pengubahsuaian, mengenal pasti fungsi yang diperlukan untuk melaksanakan arahan dan menilai kualiti kod akhir. Begitu juga, 3D-GPT mempunyai komponen untuk mentafsir arahan dan menentukan fungsi penjanaan yang diperlukan, memperkayakan penerangan dengan atribut pemodelan terperinci dan menukar perihalan kaya kepada kod Python untuk API Blender. Secara kolektif, pendekatan ini menunjukkan penguraian tugas dan pengkhususan komponen LLM untuk mengendalikan tafsiran arahan, pemetaan fungsi dan penjanaan kod yang mantap. TUGASAN 3D DENGAN VLMS OpenScene mengguna pakai pendekatan sifar tangkapan untuk meramalkan ciri padat titik pemandangan 3D yang dibenamkan bersama dalam ruang ciri yang dikongsi dengan pembenaman piksel teks dan imej CLIP, membolehkan latihan pengecaman tugas dan pertanyaan perbendaharaan kata terbuka untuk mengenal pasti objek, bahan, kemampuan, aktiviti dan jenis bilik. CLIP-FO3D mengikut pendekatan yang sama, mengubah suai CLIP untuk mengekstrak ciri piksel padat daripada pemandangan 3D yang ditayangkan ke awan titik, dan kemudian melatih model 3D melalui penyulingan untuk memindahkan pengetahuan CLIP. Abstraksi semantik mengekstrak graf perkaitan daripada CLIP sebagai perwakilan sasaran abstrak untuk digeneralisasikan kepada semantik, perbendaharaan kata dan domain baharu. Open Fusion menggabungkan model bahasa visual SEEM dengan pemetaan TSDF 3D, memanfaatkan benam berasaskan wilayah dan peta keyakinan untuk penciptaan adegan perbendaharaan kata terbuka masa nyata dan pertanyaan.
  • Generasi 3D Dipacu Teks

    Di sini kami menyiasat kaedah penjanaan teks-ke-3D menggunakan VLM 2D dan panduan menggunakan model penyebaran teks-ke-imej yang boleh dibezakan. Kerja-kerja awal seperti DreamFields, CLIP-Mesh, CLIP-Forge dan Text2Mesh meneroka penjanaan 3D sifar tangkapan berpandukan CLIP.

    DreamFusion memperkenalkan Score Distriction Sampling (SDS), di mana parameter perwakilan 3D dioptimumkan dengan membuat pemaparan dari mana-mana sudut kelihatan sangat realistik, seperti yang dinilai oleh model resapan 2D yang telah terlatih. Ia menggunakan model Imagen teks-ke-imej untuk mengoptimumkan perwakilan NeRF melalui SDS. Magic3D mencadangkan rangka kerja dua peringkat: menjana model kasar dengan resapan resolusi rendah sebelum dan jaringan cincang 3D yang jarang, dan kemudian mengoptimumkan model jejaring 3D bertekstur menggunakan pemapar boleh dibezakan yang cekap dan model resapan pendam resolusi tinggi. Fantasia3D menggunakan perwakilan DMET hibrid dan BRDF yang berbeza secara spatial untuk membongkar geometri dan rupa. ProlificDreamer memperkenalkan penyulingan pecahan variasi (VSD), rangka kerja berasaskan zarah yang menganggap parameter 3D sebagai pembolehubah rawak untuk meningkatkan kesetiaan dan kepelbagaian. Dream3D memanfaatkan bentuk 3D yang eksplisit dan model penyebaran teks ke imej untuk meningkatkan sintesis 3D berpandukan teks. MVDream menggunakan model resapan konsisten berbilang paparan yang boleh dilatih pada sejumlah kecil data tangkapan untuk penjanaan diperibadikan. Text2NeRF menggabungkan perwakilan NeRF dengan model penyebaran teks-ke-imej yang telah terlatih untuk menghasilkan pemandangan 3D dalaman/luaran yang berbeza berdasarkan bahasa. Selain menjana geometri dan rupa secara serentak, beberapa penyelidikan juga telah meneroka kemungkinan mensintesis tekstur hanya berdasarkan geometri tertentu. . 3D VisTA ialah model Transformer yang menggunakan perhatian kendiri untuk memodelkan data visual dan teks 3D secara bersama-sama untuk mencapai pra-latihan yang berkesan untuk matlamat seperti pemodelan bahasa/sasaran bertopeng dan padanan teks adegan. UniT3D menggunakan kaedah Transformer bersatu, digabungkan dengan tulang belakang pengesanan 3D PointGroup, pengekod teks BERT dan modul gabungan pelbagai mod, untuk bersama-sama melatih data bahasa 3D yang disintesis. SpatialVLM menggunakan strategi berbeza untuk bersama-sama melatih VLM pada set data penaakulan spatial 3D sintetik yang besar, meningkatkan prestasi tugasan menjawab soalan visual spatial 3D dan aplikasi sokongan seperti penaakulan rantai pemikiran robot. Multi CLIP melatih pengekod pemandangan 3D untuk menyelaraskan ciri pemandangan dengan teks dan imej CLIP, bertujuan untuk memindahkan pengetahuan CLIP untuk meningkatkan pemahaman 3D untuk tugasan seperti menjawab soalan visual.

    Datasets

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述Cabaran dan Peluang Masa Hadapan

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述Walaupun kemajuan dalam mengintegrasikan LLM dengan data pengkomputeran 3D, masih terdapat penyelesaian penanda aras yang inovatif, penyelesaian dan penanda aras yang mencabar.

    Pilihan perwakilan mempunyai kesan yang kuat terhadap prestasi model bahasa visual 3D. Pada masa ini, awan titik digunakan terutamanya untuk mewakili persekitaran dalam (mis., bucu jejaring) dan luar (mis., awan titik lidar) kerana kesederhanaan dan keserasian rangkaian sarafnya. Walau bagaimanapun, mereka bergelut untuk menangkap butiran yang penting untuk model spatial yang tepat dan kaya. Membangunkan perwakilan pemandangan 3D baharu yang lebih berkesan merapatkan jurang antara maklumat spatial dan bahasa boleh membuka tahap pemahaman dan interaksi baharu. Dengan mencari cara inovatif untuk mengekod maklumat linguistik dan semantik dalam perwakilan 3D, seperti menggunakan pemasukan linguistik dan semantik yang diekstrak, kami boleh membantu merapatkan jurang antara kedua-dua modaliti ini. Kedua-dua pemprosesan data 3D dan keperluan pengiraan LLM menimbulkan cabaran yang ketara. Memandangkan kerumitan persekitaran 3D dan saiz model bahasa meningkat, kebolehskalaan kekal menjadi kebimbangan. Kemajuan dalam seni bina LLM yang direka bentuk untuk kebolehsuaian dan kecekapan pengiraan boleh meluaskan garis dasar untuk penambahbaikan mereka dengan ketara dan penting untuk menilai dan meningkatkan keupayaan LLM berbilang modal dalam tugasan 3D secara menyeluruh. Skop penanda aras semasa yang terhad, terutamanya dalam penaakulan tiga dimensi, menghalang penilaian kemahiran penaakulan spatial dan pembangunan sistem membuat keputusan/interaksi tiga dimensi. Tambahan pula, metrik yang digunakan pada masa ini tidak menangkap sepenuhnya keupayaan LLM dalam persekitaran 3D. Adalah penting untuk membangunkan metrik khusus tugasan untuk mengukur prestasi tugasan 3D yang berbeza dengan lebih tepat. Akhir sekali, butiran penanda aras pemahaman pemandangan semasa terlalu mudah, mengehadkan pemahaman mendalam tentang persekitaran 3D yang kompleks. Satu set tugas yang lebih pelbagai diperlukan.

    Meningkatkan penanda aras adalah penting untuk menilai sepenuhnya dan meningkatkan keupayaan LLM berbilang modal dalam tugasan 3D. Skop penanda aras semasa yang terhad, terutamanya dalam penaakulan tiga dimensi, menghalang penilaian kemahiran penaakulan spatial dan pembangunan sistem membuat keputusan/interaksi tiga dimensi. Tambahan pula, metrik yang digunakan pada masa ini tidak menangkap sepenuhnya keupayaan LLM dalam persekitaran 3D. Adalah penting untuk membangunkan metrik khusus tugasan untuk mengukur prestasi tugasan 3D yang berbeza dengan lebih tepat. Akhir sekali, butiran penanda aras pemahaman pemandangan semasa terlalu mudah, mengehadkan pemahaman mendalam tentang persekitaran 3D yang kompleks. Satu set tugas yang lebih pelbagai diperlukan.

    Implikasi keselamatan dan etika mesti dipertimbangkan apabila menggunakan LLM untuk pemahaman 3D. LLM boleh berhalusinasi dan mengeluarkan maklumat yang tidak tepat, tidak selamat, yang membawa kepada keputusan yang salah dalam aplikasi 3D kritikal. Tambahan pula, LLM sering gagal dalam cara yang tidak dapat diramalkan dan sukar untuk dijelaskan. Mereka juga mungkin mewarisi berat sebelah sosial yang terdapat dalam data latihan, menghukum kumpulan tertentu apabila membuat ramalan dalam adegan 3D dunia sebenar. Adalah penting bahawa LLM digunakan secara berhemat dalam persekitaran 3D, menggunakan strategi untuk mencipta set data yang lebih inklusif, rangka kerja penilaian yang mantap untuk pengesanan dan pembetulan berat sebelah, dan mekanisme untuk meminimumkan halusinasi untuk memastikan kebertanggungjawaban dan keadilan.

    Kesimpulan

    Artikel ini menyediakan penerokaan yang mendalam tentang penyepaduan data LLM dan 3D. Tinjauan ini secara sistematik menyemak kaedah, aplikasi dan keupayaan muncul LLM dalam memproses, memahami dan menjana data 3D, menyerlahkan potensi transformatif LLM merentas pelbagai tugasan 3D. Daripada meningkatkan pemahaman ruang dan interaksi dalam persekitaran tiga dimensi kepada memajukan keupayaan sistem kecerdasan buatan terbenam, LLM memainkan peranan penting dalam memajukan bidang tersebut.

    Penemuan utama termasuk mengenal pasti kelebihan unik LLM, seperti pembelajaran sifar, penaakulan lanjutan dan pengetahuan dunia yang meluas, yang membantu merapatkan jurang antara maklumat teks dan tafsiran ruang. Kertas kerja menunjukkan pelbagai tugas yang menyepadukan LLM dengan data 3D. Meneroka kaedah bahasa visual 3D lain dengan LLM mendedahkan prospek penyelidikan yang kaya yang bertujuan untuk mendalami pemahaman kita tentang dunia 3D.

    Tambahan pula, tinjauan itu menyerlahkan cabaran penting seperti perwakilan data, skalabiliti model dan kecekapan pengiraan, menunjukkan bahawa mengatasi halangan ini adalah penting untuk merealisasikan potensi LLM sepenuhnya dalam aplikasi 3D. Kesimpulannya, tinjauan ini bukan sahaja memberikan gambaran menyeluruh tentang keadaan semasa tugasan 3D menggunakan LLM, tetapi juga meletakkan asas untuk arah penyelidikan masa hadapan. Ia memerlukan kerjasama untuk meneroka dan mengembangkan keupayaan LLM dalam memahami dan berinteraksi dengan dunia 3D yang kompleks, membuka jalan untuk kemajuan selanjutnya dalam bidang kecerdasan spatial.

Atas ialah kandungan terperinci Terkini dari Universiti Oxford |. Bercakap tentang ulasan terkini model bahasa besar dan dunia tiga dimensi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn