Rumah  >  Artikel  >  Peranti teknologi  >  Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

王林
王林ke hadapan
2023-07-14 15:37:061513semak imbas

Pada masa ini, model bahasa besar (LLM) telah mencetuskan gelombang perubahan dalam bidang pemprosesan bahasa semula jadi (NLP). Kami melihat bahawa LLM mempunyai keupayaan kemunculan yang kuat dan berprestasi baik pada tugas pemahaman bahasa yang kompleks, tugas penjanaan dan juga tugas penaakulan. Ini memberi inspirasi kepada orang ramai untuk meneroka lebih lanjut potensi LLM dalam subbidang pembelajaran mesin yang lain - penglihatan komputer (CV).

Salah satu bakat hebat LLM ialah keupayaan mereka untuk belajar mengikut konteks. Pembelajaran kontekstual tidak mengemas kini sebarang parameter LLM, tetapi ia menunjukkan hasil yang menakjubkan dalam pelbagai tugasan NLP. Jadi, bolehkah GPT menyelesaikan tugasan visual melalui pembelajaran kontekstual?

Baru-baru ini, penyelidik dari Google dan Carnegie Mellon University (CMU) bersama-sama menerbitkan kertas kerja yang menunjukkan bahawa selagi kita boleh menukar imej (atau modaliti bukan linguistik lain) kepada bahasa yang LLM boleh faham, Ini nampaknya boleh dilaksanakan. . Pengekod Auto Piramid Semantik). Pendekatan baharu ini membolehkan LLM melaksanakan tugas penjanaan imej tanpa sebarang kemas kini parameter. Ini juga merupakan kaedah pertama yang berjaya menggunakan pembelajaran kontekstual untuk membolehkan LLM menjana kandungan imej.

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstualMari kita lihat dahulu hasil percubaan LLM dalam menjana kandungan imej melalui pembelajaran konteks.

Sebagai contoh, dengan menyediakan 50 imej tulisan tangan dalam konteks tertentu, kertas itu meminta PaLM 2 menjawab pertanyaan kompleks yang memerlukan penjanaan imej digital sebagai output:

Gambar

juga dalam konteks imej Hasilkan imej kehidupan sebenar yang realistik tanpa input:

gambar

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstualSelain menjana imej, melalui pembelajaran kontekstual, PaLM 2 juga boleh melaksanakan penerangan imej:

juga

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual isu berkaitan Soal Jawab Visual:

Gambar

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

malah boleh dipanggil untuk menghasilkan video:

GambarBakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

, menukar imej kepada bahasa yang LLM boleh faham adalah Masalah yang telah dikaji dalam kertas Transformer Visual (ViT). Dalam kertas kerja daripada Google dan CMU ini, mereka membawanya ke peringkat seterusnya — menggunakan perkataan sebenar untuk mewakili imej.

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstualPendekatan ini seperti membina menara yang dipenuhi dengan teks, menangkap semantik dan butiran imej. Perwakilan penuh teks ini membolehkan penerangan imej dijana dengan mudah dan membolehkan LLM menjawab soalan berkaitan imej dan juga membina semula piksel imej.

Secara khusus, penyelidikan ini mencadangkan untuk menggunakan pengekod terlatih dan model CLIP untuk menukar imej menjadi ruang token, kemudian gunakan LLM untuk menjana token leksikal yang sesuai dan akhirnya menggunakan penyahkod terlatih untuk menukar token ini; ditukar kembali kepada ruang piksel. Proses pintar ini menukar imej kepada bahasa yang LLM boleh faham, membolehkan kami mengeksploitasi kuasa penjanaan LLM dalam tugas penglihatan.

Eksperimen dan keputusan

Kajian ini secara eksperimen membandingkan SPAE dengan kaedah SOTA Frozen dan LQAE, dan hasilnya ditunjukkan dalam Jadual 1 di bawah. SPAEGPT mengatasi LQAE pada semua tugas sambil menggunakan hanya 2% daripada token.

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstualImage

Secara keseluruhannya, ujian pada penanda aras mini-ImageNet menunjukkan bahawa kaedah SPAE meningkatkan prestasi sebanyak 25% berbanding kaedah SOTA sebelumnya.

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstualGambar

Untuk mengesahkan keberkesanan kaedah reka bentuk SPAE, kajian ini telah menjalankan eksperimen ablasi. Keputusan eksperimen ditunjukkan dalam Jadual 4 dan Rajah 10 di bawah:

GambarBakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual

Atas ialah kandungan terperinci Bakat visual model bahasa besar: GPT juga boleh menyelesaikan tugasan visual melalui pembelajaran kontekstual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam