Rumah  >  Artikel  >  Peranti teknologi  >  Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

WBOY
WBOYke hadapan
2023-04-30 23:34:10639semak imbas

Baru-baru ini, perang senjata model bahasa besar telah mengambil sebahagian besar ruang dalam kalangan rakan-rakan Terdapat banyak artikel membincangkan perkara yang boleh dilakukan oleh model ini dan nilai komersial mereka. Bagaimanapun, sebagai penyelidik muda yang telah menceburkan diri dalam bidang kecerdasan buatan selama bertahun-tahun, saya lebih mengambil berat tentang prinsip teknikal di sebalik perlumbaan senjata ini dan bagaimana model ini direka bentuk untuk memberi manfaat kepada manusia. Daripada melihat bagaimana model ini boleh dibuat wang dan direka bentuk untuk membawa manfaat kepada lebih ramai orang, perkara yang saya ingin terokai ialah sebab di sebalik fenomena ini, dan perkara yang boleh kami penyelidik lakukan untuk mencapai "digantikan oleh AI" sebelum AI menggantikan manusia . Kemudian bersara secara terhormat” dan lakukan sesuatu mengenainya.

Tiga tahun lalu, apabila GPT-3 mencetuskan kekecohan dalam dunia teknologi, saya cuba menganalisis keluarga besar di sebalik GPT dengan cara yang bersejarah. Saya menyusun konteks teknikal di sebalik GPT dalam susunan kronologi (Rajah 1), dan cuba menerangkan prinsip teknikal di sebalik kejayaan GPT. Tahun ini, anak bongsu GPT-3 ChatGPT nampaknya lebih bijak dan boleh berkomunikasi dengan orang ramai melalui sembang, yang membuatkan lebih ramai orang sedar tentang kemajuan terkini dalam bidang pemprosesan bahasa semula jadi. Pada saat bersejarah ini, sebagai ahli sejarah AI, kita mungkin perlu mengambil sedikit masa untuk melihat kembali apa yang telah berlaku dalam beberapa tahun kebelakangan ini. Artikel pertama menggunakan GPT-3 sebagai titik permulaan, jadi siri ini sebenarnya adalah rekod era pasca-GPT (buku pasca-GPT) Semasa meneroka perubahan dalam keluarga GPT, saya menyedari bahawa kebanyakan cerita adalah berkaitan kepada Transformer, jadi Nama artikel ini ialah keluarga Transformer.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 1. GPT salasilah lama

Semakan sebelumnya

Sebelum kami memperkenalkan keluarga Transformer secara rasmi, mari kita semak semula apa yang berlaku pada masa lalu mengikut Rajah 1. Bermula dari Word Embedding [1,2], vektor (rentetan nombor) merangkumi semantik teks dengan cara yang aneh tetapi berkesan Rajah 2 menunjukkan ilustrasi perwakilan ini: diwakili oleh nombor (Raja - Lelaki + wanita = permaisuri). Berdasarkan ini, keluarga besar NLP (pemprosesan bahasa semula jadi) ini telah dicipta.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 2. Gambar rajah Word2Vec (Raja - Lelaki + Wanita = Ratu)

Selepas ini, anak sulungnya ELMo [3] mendapati kepentingan konteks, seperti dua ayat berikut:

"Oh! Awak beli Pizza kegemaran saya, saya sayang awak so much!”

“Oh, saya sangat sayangkan awak adakah awak menggosok pizza kegemaran saya di atas lantai?”

“Saya! love you so much” jelas bermaksud sesuatu yang berbeza. ELMo berjaya menyelesaikan masalah ini dengan "memberi model rentetan perkataan, dan kemudian meminta model untuk meramalkan perkataan seterusnya dan perkataan sebelumnya (konteks)."

Pada masa yang sama, sepupu jauh Word Embedding menemui masalah lain - apabila orang memahami sesuatu ayat, mereka akan menumpukan pada beberapa perkataan Salah satu fenomenanya ialah apabila kita membaca dalam bahasa ibunda kita, banyak kesilapan menaip akan mudah diabaikan Ini kerana kita tidak mempedulikannya apabila memahami petikan. Oleh itu, beliau mencadangkan mekanisme Perhatian [4], tetapi mekanisme Perhatian pada masa ini sangat awal dan tidak boleh berfungsi sendiri, jadi ia hanya boleh dilampirkan pada model jujukan seperti RNN dan LSTM. Rajah 3 menunjukkan proses gabungan mekanisme perhatian dan RNN, dan juga menerangkan mengapa Perhatian itu sendiri tidak boleh berfungsi secara bersendirian. Mari kita bercakap secara ringkas tentang proses kerja model NLP Pertama, kita mempunyai ayat, seperti "I love you China". Ini adalah lima aksara, yang boleh diubah menjadi x_1-x_5 dalam Rajah 3, dan kemudian setiap watak akan. menjadi apa yang baru kita katakan. Perkataan embedding (rentetan nombor) ialah h_1-h_5 dalam Rajah 3, dan kemudian ia akhirnya menjadi output, seperti "Saya suka China" (tugas terjemahan), iaitu x_1'-x_3' dalam Rajah 3 . Bahagian selebihnya dalam Rajah 3 ialah mekanisme perhatian, iaitu A dalam Rajah 3. Ia bersamaan dengan memberikan pemberat kepada setiap h, supaya kita tahu perkataan mana yang lebih penting apabila menukar perkataan semasa. Untuk butiran khusus, sila rujuk artikel yang saya tulis pada asalnya (bermula dengan word2vec dan bercakap tentang salasilah keluarga besar GPT). Dapat dilihat bahawa perwakilan digital di sini adalah asas kepada keseluruhan tugas, itulah sebabnya mekanisme Perhatian tidak boleh berfungsi sendiri.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 3. Gambar awal - Perhatian dan kombinasi berkuasa RNN (sumber: Perhatian untuk Model RNN Seq2Seq (1.25x kelajuan disyorkan) - YouTube)

" (anda Hanya mekanisme perhatian yang mencukupi) mencadangkan kaedah bebasnya sendiri dalam [5], menambah perkataan kepada "mekanisme perhatian" dan mengubahnya menjadi "mekanisme perhatian diri". Hanya mekanisme perhatian boleh menjana rentetan. nombor. Kami menggunakan perubatan tradisional Cina untuk menjelaskan perubahan ini. Mekanisme Perhatian awal boleh dikatakan sebagai sukatan setiap bahan, tetapi apabila anda akhirnya pergi untuk mendapatkan ubat, ubat itu berada di tangan pemilih ubat seperti RNN atau LSTM Sudah tentu, preskripsi yang kami tetapkan juga mesti berdasarkan farmasi (RNN, Apa ubat yang ada dalam LSTM). Apa yang Transformer lakukan hanyalah mengambil semula hak untuk mengumpul ubat (tambah matriks nilai), dan kemudian menukar cara preskripsi ubat (tambah kunci dan matriks pertanyaan). Pada masa ini, Sumber boleh dianggap sebagai kotak penyimpanan di kedai ubat tradisional Cina Ubat-ubatan dalam kotak penyimpanan terdiri daripada alamat Kunci (nama ubat) dan nilai (ubat pada masa ini). (preskripsi), dan tujuannya ialah Keluarkan nilai Nilai (ubat) yang sepadan dari kotak simpanan, iaitu nilai Perhatian. Pengalamatan dilakukan dengan membandingkan persamaan antara Pertanyaan dan alamat elemen Kunci dalam kotak storan Sebab mengapa ia dipanggil pengalamatan lembut bermakna kita bukan sahaja mencari satu ubat dari kotak penyimpanan, tetapi mungkin juga menemuinya dari setiap. Kunci. Kandungan akan diambil dari alamat Kepentingan kandungan yang diambil (jumlah) ditentukan berdasarkan persamaan antara Pertanyaan dan Kunci Kemudian Nilai akan ditimbang dan dijumlahkan, supaya nilai Nilai akhir (sepasang perubatan Cina) boleh diperoleh semula, iaitu, Nilai perhatian. Oleh itu, ramai penyelidik menganggap mekanisme Perhatian sebagai kes khas menangani lembut, yang juga sangat munasabah [6].

Sejak itu, Transformer secara rasmi mula memimpin keluarga menuju kemakmuran.

Transformer berjaya

Malah, dapat dilihat dari Rajah 1 bahawa Transformer adalah keturunan paling makmur dalam keluarga datuk, yang juga mengesahkan bahawa "Perhatian adalah semua yang anda perlukan” Topik ini benar-benar munasabah dan berasas. Walaupun saya baru sahaja bercakap tentang mekanisme perhatian diri yang dia cadangkan, artikel sebelumnya (bermula dengan word2vec, bercakap tentang salasilah keluarga besar GPT) telah pun bercakap tentang proses evolusi transformer secara terperinci pelajar. Mari kita lihat apa itu seni bina transformer.

Ringkasnya, kita boleh menganggap Transformer sebagai "pelakon". Perwakilan perantaraan (disarikan kepada sesuatu yang kita tidak tahu apa yang ada dalam fikiran, iaitu pemahaman pelakon), dan penyahkod adalah seperti persembahan pelakon, bertanggungjawab untuk menukar pemahaman dalam minda menjadi paparan di skrin. . Mekanisme perhatian diri yang paling penting di sini berfungsi sebagai tumpuan pelakon, yang secara automatik boleh melaraskan perhatian pelakon dalam kedudukan yang berbeza, dengan itu lebih memahami semua baris dan membolehkannya beraksi dengan lebih semula jadi dan lancar dalam situasi yang berbeza.

Secara lebih khusus, kita boleh menganggap Transformer sebagai "kilang pemprosesan bahasa" yang besar. Di kilang ini, setiap pekerja (pengekod) bertanggungjawab untuk memproses kedudukan dalam urutan input (katakan perkataan), memproses dan mengubahnya, dan kemudian menyerahkannya kepada pekerja seterusnya (pengekod). Setiap pekerja mempunyai huraian kerja terperinci (mekanisme perhatian diri) yang memperincikan cara memproses input dari lokasi semasa dan cara mewujudkan persatuan dengan lokasi sebelumnya. Di kilang ini, setiap pekerja boleh menjalankan tugasnya sendiri secara serentak, jadi seluruh kilang boleh mengendalikan sejumlah besar data input dengan cekap.

Sebaik sahaja Transformer muncul, dia memenangi takhta tanpa sebarang ketegangan secara langsung kerana kekuatannya yang kuat dan dua anak lelaki yang bercita-cita tinggi (BERT dan GPT). BERT (Perwakilan Pengekod Dua Arah daripada Transformers) [1] mewarisi bahagian Pengekod Transformer dan memenangi separuh pertama pertandingan, tetapi kerana batasannya, ia kalah kepada GPT dari segi fleksibiliti. GPT yang jujur ​​(Generative Pra-trained Transformer) [7-10] mewarisi bahagian Penyahkod, belajar secara jujur ​​dari awal, mempelajari kaedah komunikasi manusia, dan akhirnya mencapai penyingkiran pada separuh masa kedua.

Sudah tentu, cita-cita Transformer jelas tidak terhenti di situ "Perhatian adalah semua yang anda perlukan" tidak merujuk kepada medan NLP sahaja. Sebelum memperkenalkan dendam antara GPT dan BERT, mari kita lihat dahulu apa yang telah dilakukan oleh bapa mereka.

Salasilah baru - banyak putera raja

"Ayah, masa telah berubah. Keluarga kami akan mencapai kemuliaan sejati kerana usaha saya." >——Transformer

Setelah memahami mekanisme Transformer, kita boleh melihat sejauh mana keluarga Transformer telah berkembang dengan perkembangan kukuh Transformer (Genealogi Baru). . Seperti yang dapat dilihat dari contoh "pelakon" sebelumnya, Transformer mewakili kaedah pembelajaran yang konsisten dengan logik manusia, jadi ia boleh memproses bukan sahaja teks, tetapi juga imej. Rajah 2 meringkaskan latar belakang keluarga kuat keluarga Transformer. Selain membenarkan GPT dan BERT terus menceburi bidang NLP (natural language processing) asal, Transformer juga telah mula melibatkan diri dalam bidang penglihatan komputer. Anak lelakinya yang lebih muda (ViT yang dicadangkan oleh Google, dsb.) juga menyinar dalam bidang ini. Pada tahun 2021, Vision Transformer telah mencetuskan letupan besar, dan sejumlah besar kerja berdasarkan Vision Transformer menyapu bersih tugas penglihatan komputer. Sememangnya, sebagai sebuah keluarga, keluarga Transformer akan sentiasa berkomunikasi antara satu sama lain, dan CLIP, yang menghubungkan teks dan imej (lukisan AI), wujud. Pada penghujung tahun 2022, Stable Diffusion sangat popular sebelum ChatGPT. Selain itu, CLIP juga membuka pintu baharu kepada pelbagai mod untuk keluarga Transformer. Sebagai tambahan kepada perkataan dan imej, bolehkah perkataan juga membuat muzik, dan adakah mereka juga boleh melukis gambar? Transformer pelbagai modal dan pelbagai tugas juga muncul. Pendek kata, setiap bidang adalah putera seorang Transformer yang bermula dari awal dalam bidang NLP telah menjadi "Raja Zhou" yang boleh mengamanahkan putera-putera setelah bekerja keras untuk membangun.

Putera raja ramai, sepatutnya zaman makmur.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 4. Salasilah keluarga Transformer yang semakin makmur Ujian pantas - Pengubah Penglihatan [12]

Sebelum bercakap tentang GPT, kita mesti bercakap tentang percubaan berani pertama yang dibuat oleh Transformer - iaitu, biarkan anak bongsu terlibat dalam Bidang CV. Mari kita lihat kehidupan anak bongsunya dahulu:

Bapanya Transformer dilahirkan pada tahun 2017 dalam makalah berjudul Attention is All You Need.
  • Pada tahun 2019, Google mencadangkan seni bina Vision Transformer (ViT) yang boleh memproses imej secara terus tanpa menggunakan lapisan konvolusi (CNN). Tajuk kertas kerja adalah seperti biasa: "Imej bernilai 16x16 perkataan". Seperti yang ditunjukkan dalam Rajah 5, idea asasnya adalah untuk membahagikan imej input kepada satu siri blok kecil Setiap blok kecil boleh difahami sebagai teks semasa memproses artikel pada masa lalu, dan kemudian menukar blok kecil ini kepada vektor, sama seperti dalam. biasa Transformer mengendalikan teks dengan cara yang sama. Jika dalam bidang pemprosesan bahasa semula jadi (NLP), mekanisme perhatian Transformer cuba menangkap hubungan antara perkataan yang berbeza dalam teks, maka dalam bidang penglihatan komputer (CV), ViT cuba menangkap hubungan antara bahagian yang berbeza dalam imej itu.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 5. Bagaimana ViT memproses imej (sumber: Adakah Transformers lebih baik daripada CNN's at Image Recognition? |. by Arjun Sarkar |. tugas yang sepadan Semuanya telah mencapai keputusan di luar CNN. Jadi apakah kelebihan Transformer? Mari kita kembali kepada contoh filem dan lihat perbezaan antara Transformer dan CNN:

Bayangkan anda seorang pengarah Untuk merakam filem, anda perlu meletakkan pelakon dan meletakkan elemen yang berbeza di tempat yang betul Sebagai contoh, letakkan pelakon pada latar belakang yang sesuai gambar kelihatan harmoni dan cantik. Untuk CNN, ia seperti jurugambar profesional yang menangkap setiap piksel bingkai mengikut piksel dan kemudian mengekstrak beberapa ciri peringkat rendah seperti tepi dan tekstur. Kemudian, ia menggabungkan ciri ini untuk membentuk ciri peringkat lebih tinggi, seperti muka, tindakan, dsb., dan akhirnya mendapat bingkai. Semasa filem berjalan, CNN mengulangi proses ini sehingga keseluruhan filem dirakam.

Bagi ViT, ia seperti pengarah seni, yang akan menganggap keseluruhan gambar secara keseluruhan, dengan mengambil kira faktor seperti latar belakang, cahaya, warna, dll., menugaskan setiap pelakon Kedudukan dan sudut yang betul menghasilkan gambar yang sempurna. ViT kemudiannya mengagregatkan maklumat ini ke dalam vektor dan memprosesnya menggunakan perceptron berbilang lapisan, menghasilkan bingkai. Semasa filem berjalan, ViT mengulangi proses ini sehingga keseluruhan filem dibuat.

Kembali kepada tugas pemprosesan imej, katakan kita mempunyai gambar kucing 224x224 piksel dan kita mahu mengelaskannya menggunakan rangkaian saraf. Jika kita menggunakan rangkaian neural convolutional tradisional, ia mungkin menggunakan berbilang lapisan convolutional dan pooling untuk mengurangkan saiz imej secara beransur-ansur, dan akhirnya mendapat vektor ciri yang lebih kecil, yang kemudiannya dikelaskan melalui lapisan bersambung sepenuhnya. Masalah dengan kaedah ini ialah semasa proses konvolusi dan pengumpulan, kami kehilangan maklumat secara beransur-ansur dalam imej kerana kami tidak boleh mempertimbangkan hubungan antara semua piksel pada masa yang sama. Di samping itu, disebabkan sekatan susunan lilitan dan lapisan pengumpulan, kami tidak boleh melakukan pertukaran maklumat global. Sebaliknya, jika kita menggunakan Transformer dan mekanisme perhatian kendiri untuk memproses imej ini, kita boleh secara langsung menganggap keseluruhan imej sebagai urutan dan melakukan pengiraan perhatian kendiri padanya. Kaedah ini tidak kehilangan sebarang hubungan antara piksel dan membenarkan interaksi maklumat global.

Selain itu, Memandangkan pengiraan perhatian kendiri adalah selari, kami boleh memproses keseluruhan imej pada masa yang sama, dengan sangat mempercepatkan pengiraan . Sebagai contoh, katakan kita mempunyai ayat: "Saya suka makan ais krim", yang mengandungi 6 perkataan. Sekarang dengan mengandaikan bahawa kita menggunakan model berdasarkan mekanisme perhatian diri untuk memahami ayat ini, Transformer boleh:

  • Meminimumkan jumlah kerumitan pengiraan setiap lapisan: berdasarkan perhatian diri Dalam model mekanisme, kita hanya perlu mengira berat perhatian antara setiap perkataan dan semua perkataan lain, supaya jumlah pengiraan setiap lapisan hanya bergantung pada panjang input dan bukan saiz lapisan tersembunyi. Dalam contoh ini, panjang input ialah 6 perkataan, jadi kerumitan pengiraan setiap lapisan hanya bergantung pada bilangan 6 perkataan ini.
  • Maksimumkan jumlah pengiraan boleh selari: Model berdasarkan mekanisme perhatian kendiri boleh secara serentak mengira berat perhatian antara setiap perkataan dan semua perkataan lain, jadi pengiraan boleh menjadi sangat selari , dengan itu mempercepatkan latihan model dan inferens.

Walau bagaimanapun, ViT memerlukan set data berskala besar dan imej resolusi tinggi untuk mencapai potensi penuhnya, jadi sementara Vision Transformers cemerlang dalam bidang CV, CNN menunjukkan prestasi yang baik dalam bidang penglihatan komputer Aplikasi dan penyelidikan masih lebih luas dan mempunyai kelebihan dalam tugas seperti pengesanan sasaran dan segmentasi.

Tetapi tidak mengapa, anda telah melakukannya dengan cukup baik, dan niat asal bapa anda untuk terlibat dalam CV bukanlah untuk menggantikan CNN, dia mempunyai matlamat yang lebih bercita-cita tinggi.

Asas matlamat ini ialah "tambahan" yang saya nyatakan tadi.

Kemunculan pertama - KLIP [13]

Seperti yang saya katakan sebelum ini, Transformer mempunyai matlamat yang lebih bercita-cita tinggi, iaitu, "model besar", model super super besar. Sebagai tambahan kepada pengubah yang saya katakan dalam artikel sebelumnya boleh mendapatkan maklumat global dengan lebih baik, kerumitan pengiraan yang lebih kecil dan paralelisme yang lebih baik telah menjadi asas untuk menyokong model besar.

Pada tahun 2021, sebagai tambahan kepada kemajuan hebat Vision Transformer, pasukan GPT juga sedang bersiap sedia secara intensif untuk GPT3.5 Transformer pekerja model, yang tidak boleh mengambil masa, telah membawa kepada yang baharu teks penghubung klimaks dan imej . Klimaks ini juga melancarkan pukulan pertama untuk projek "model besar" di luar bidang NLP. Pada masa ini, kekurangan Transformer dalam tugas visual telah bertukar menjadi kelebihan di sini. "ViT memerlukan set data berskala besar dan imej resolusi tinggi untuk mencapai potensi penuhnya."

Seperti biasa, mari kita bincangkan dahulu apa itu CLIP.

Nama penuh CLIP ialah Pra-Latihan Imej Kontrastif Jelas sekali idea asasnya ialah Pembelajaran Kontrastif dalam bidang CV tradisional. Apabila kita mempelajari ilmu baru, kita membaca buku dan artikel yang berbeza untuk mendapatkan banyak maklumat. Namun begitu, kita bukan sahaja menghafal semua perkataan dan ayat dalam setiap buku atau artikel. Sebaliknya, kami cuba mencari persamaan dan perbezaan antara maklumat ini. Sebagai contoh, kita mungkin perasan bahawa cara sesuatu topik diterangkan dan konsep utama yang dibentangkan mungkin berbeza dalam buku yang berbeza, tetapi konsep yang diterangkan pada dasarnya adalah sama. Cara mencari persamaan dan perbezaan ini merupakan salah satu idea asas pembelajaran kontrastif. Kita boleh menganggap setiap buku atau artikel sebagai sampel yang berbeza, dan buku atau artikel mengenai topik yang sama boleh dianggap sebagai contoh yang berbeza daripada kategori yang sama. Dalam pembelajaran kontrastif, kami melatih model untuk mempelajari cara membezakan kategori sampel yang berbeza ini untuk mengetahui persamaan dan perbezaannya.

Seterusnya, secara akademik, katakan anda ingin melatih model untuk mengenal pasti jenama kereta. Anda boleh mempunyai satu set imej berlabel kereta, masing-masing dengan label jenama, seperti "Mercedes-Benz", "BMW", "Audi", dsb. Dalam pembelajaran tradisional diselia, anda memasukkan imej dan label jenama bersama-sama ke dalam model dan biarkan model belajar cara meramal label jenama yang betul.

Tetapi dalam pembelajaran kontrastif, anda boleh menggunakan imej tidak berlabel untuk melatih model. Katakan anda mempunyai set imej kereta yang tidak berlabel, anda boleh membahagikan imej ini kepada dua kumpulan: sampel positif dan sampel negatif. Sampel positif ialah imej jenama yang sama dari sudut yang berbeza, manakala sampel negatif ialah imej jenama yang berbeza. Seterusnya, anda boleh menggunakan pembelajaran kontrastif untuk melatih model supaya sampel positif jenama yang sama lebih dekat antara satu sama lain dan sampel negatif jenama berbeza berada lebih jauh antara satu sama lain. Dengan cara ini, model boleh belajar untuk mengekstrak ciri khusus jenama daripada imej tanpa perlu memberitahu secara eksplisit label jenama setiap imej.

Jelas sekali, ini adalah model pembelajaran penyeliaan sendiri juga merupakan model pembelajaran penyeliaan kendiri yang serupa, kecuali matlamatnya adalah untuk menyambung bahasa dan imej supaya komputer boleh Memahami. hubungan antara teks dan imej.

Bayangkan anda sedang mempelajari satu set senarai perbendaharaan kata di mana setiap perkataan mempunyai definisi dan imej yang sepadan. Untuk setiap perkataan dan imej yang sepadan, anda boleh menganggapnya sebagai sepasang. Tugas anda adalah untuk mencari korelasi antara perkataan dan imej ini, iaitu perkataan mana yang sepadan dengan imej mana dan mana yang tidak.

Seperti yang ditunjukkan dalam Rajah 6, untuk algoritma pembelajaran kontrastif, pasangan perkataan dan imej ini ialah apa yang dipanggil "anchor" (anchor sample) dan "positive" (positive sample). "anchor" merujuk kepada objek yang ingin kita pelajari, dan "positif" ialah sampel yang sepadan dengan "anchor". Sebaliknya ialah "negatif" (negative sample), iaitu sampel yang tidak sepadan dengan "anchor".

Dalam pembelajaran kontrastif, kami menggandingkan "sauh" dan "positif" dan cuba membezakannya. Kami juga akan memasangkan "sauh" dan "negatif" dan cuba membezakannya. Proses ini boleh difahami sebagai mencari persamaan antara "anchor" dan "positif" dan menghapuskan persamaan antara "anchor" dan "negatif".

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 6. Ilustrasi Pembelajaran Kontrastif [14]. Anchor ialah imej asal secara umumnya dipangkas dan diputarkan, atau imej yang diketahui dari kategori yang sama boleh ditakrifkan secara ringkas dan kasar sebagai imej yang tidak diketahui (mungkin daripada kategori yang sama), atau imej yang sudah diketahui .

Untuk mencapai matlamat ini, CLIP mula-mula melatih sejumlah besar imej dan teks, kemudian menggunakan model pra-latihan untuk tugas hiliran seperti pengelasan, perolehan semula dan penjanaan. Model CLIP menggunakan kaedah pembelajaran penyeliaan kendiri baharu yang memproses teks dan imej secara serentak dan mempelajari cara menyambungkannya melalui latihan. Ia berkongsi mekanisme perhatian antara teks dan imej dan menggunakan set parameter mudah dilaras untuk mempelajari pemetaan ini. Ia menggunakan pengekod teks berasaskan pengubah dan pengekod imej berasaskan CNN, dan kemudian mengira persamaan antara pembenaman imej dan teks. CLIP belajar untuk mengaitkan imej dan teks dengan menggunakan objektif pembelajaran kontras yang memaksimumkan ketekalan antara pasangan teks imej yang terdapat dalam data dan meminimumkan ketekalan antara pasangan teks imej yang disampel secara rawak.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 7. Ilustrasi KLIP [13]. Berbanding dengan Rajah 6, ia boleh difahami dengan mudah bahawa positif dan negatif dalam Rajah 6 adalah kedua-dua teks.

Contohnya, jika kita ingin menggunakan CLIP untuk mengenal pasti sama ada gambar adalah "pantai merah", kita boleh memasukkan penerangan teks ini dan imej , CLIP akan menjana pasangan vektor untuk mewakili sambungan mereka. Jika jarak antara pasangan vektor ini sangat kecil, ini bermakna gambar itu mungkin "pantai merah", dan begitu juga sebaliknya. Dengan pendekatan ini, CLIP membolehkan tugas seperti klasifikasi imej dan carian imej.

Berbalik kepada nama penuh, perkataan terakhir CLIP ialah pralatihan, jadi intipatinya masih model pra-latihan, tetapi ia boleh digunakan untuk pelbagai tugas hiliran yang melibatkan imej yang sepadan dan teks, seperti Pengelasan imej, pembelajaran sifar tangkapan dan penjanaan perihalan imej, dsb. Contohnya, CLIP boleh digunakan untuk mengklasifikasikan imej ke dalam kategori yang diberikan oleh label bahasa semula jadi, seperti "foto anjing" atau "landskap." CLIP juga boleh digunakan untuk menjana kapsyen untuk imej dengan menggunakan model bahasa yang dikondisikan pada ciri imej yang diekstrak oleh CLIP. Selain itu, CLIP boleh digunakan untuk menjana imej daripada teks dengan menggunakan model generatif yang dikondisikan pada ciri teks yang diekstrak oleh CLIP.

DALL-E & Stable Diffusion

Dengan bantuan CLIP, seorang putera raja baharu telah bangkit - namanya AIGC (kandungan terjana AI). Sebenarnya, ChatGPT pada dasarnya adalah sejenis AIGC, tetapi dalam bahagian ini, kita bercakap tentang lukisan AI. Mari kita lihat dahulu sejarah perkembangan keluarga kecil lukisan AI:

  • Pada 2021.01, OpenAI mengeluarkan DALL-E [15] (perisian lukisan AI), yang GPT-3 dipertingkatkan Oleh itu membenarkan GPT-3 menjana imej dan bukannya teks (Rangkaian Transformer Imej)
  • Hampir pada masa yang sama (2021.01), OpenAI mengeluarkan CLIP [13]
  • 2021.05, Google Brain dan DeepMind mengeluarkan Stable diffusion [17] dan terus mengulang versi baharu. Ia menggunakan pengekod teks CLIP beku untuk menyesuaikan model berdasarkan isyarat teks. Resapan stabil mengurai proses penjanaan imej kepada proses "resapan" masa jalan. Bermula dengan hanya bunyi bising, ia membetulkan imej secara beransur-ansur sehingga tiada bunyi bising langsung, menjadikannya lebih dekat dengan penerangan teks yang disediakan.
  • 2022.04, DALL-E-2 [16] dikeluarkan. Ia boleh mencipta imej dan karya seni yang realistik berdasarkan penerangan bahasa semula jadi. DALL-E-2 menggunakan model dua bahagian yang terdiri daripada pendahulu dan penyahkod. Yang terdahulu ialah model GPT-3 yang menjana benam imej CLIP berdasarkan pembayang teks. Penyahkod ialah model resapan yang menjana imej berdasarkan benam CLIP. DALL-E-2 juga boleh melakukan pengecatan luar, pengecatan dalam dan perubahan pada imej sedia ada.

Keturunan keluarga ini dapat dilihat Gambar dan teks abang sulung CLIP, dan saudara kembarnya DALL-E mengambil peluang untuk mengusulkan tugasan teks kepada. imej. Untuk menambah baik tugas ini, sepupu jauh, Stable diffusion, memperbaik algoritma untuk menjana imej Akhirnya, DALL-E-2 belajar daripada satu sama lain dan menggabungkan kelebihan GPT-3, CLIP dan stable diffusion untuk melengkapkan AInya sendiri. sistem mengecat.

Untuk DALL-E yang asal, anggap anda seorang pelukis, dan DALL-E ialah kotak peralatan anda. Dalam metafora ini, terdapat dua alat utama dalam kotak alat: satu ialah berus dan satu lagi ialah palet.

Berus ialah penyahkod DALL-E yang menukar perihalan teks yang diberikan kepada imej. Palet ialah pengekod DALL-E, yang boleh menukar sebarang penerangan teks kepada vektor ciri.

Apabila anda mendapat penerangan teks, anda akan menggunakan palet warna dahulu untuk menjana vektor ciri. Anda kemudian boleh mengambil berus cat anda dan menggunakan vektor ciri untuk menjana imej yang sepadan dengan penerangan. Anda akan menggunakan berus yang lebih halus apabila anda memerlukan perincian dan berus yang lebih kasar apabila anda memerlukannya.

Tidak seperti Painter, DALL-E menggunakan rangkaian saraf dan bukannya berus dan palet. Rangkaian saraf ini menggunakan struktur yang dipanggil Rangkaian Pengubah Imej. Apabila menjana imej, DALL-E menggunakan model GPT-3 yang dinyatakan sebelum ini untuk menjana pembenaman imej CLIP yang sepadan dengan penerangan teks. DALL-E kemudiannya menggunakan algoritma carian rasuk untuk menjana jujukan imej yang mungkin sepadan dengan penerangan teks input dan menyuapkannya ke dalam penyahkod untuk menjana imej akhir. Vektor benam ini dilatih dengan menggunakan teknik yang dipanggil pembelajaran kontrastif, yang membenamkan imej dan teks yang serupa ke dalam ruang bersebelahan supaya ia boleh digabungkan dengan lebih mudah. Perhatikan bahawa di sini DALLE tidak menyertakan CLIP secara langsung, tetapi ia menggunakan teks dan imej CLIP untuk melatih pengubah dan VAE.

Bagi algoritma carian pancaran yang digunakan dalam proses penjanaan imej, ia sebenarnya adalah algoritma carian tamak yang boleh mencari urutan optimum dalam set calon yang terhad. Idea asas carian rasuk ialah setiap kali jujukan semasa dikembangkan, hanya calon k dengan kebarangkalian tertinggi dikekalkan (k dipanggil lebar rasuk), dan calon kebarangkalian rendah lain dibuang. Ini mengurangkan ruang carian dan meningkatkan kecekapan dan ketepatan. Langkah khusus untuk menjana imej menggunakan carian pancaran dalam DALLE adalah seperti berikut:

  • Ekodkan penerangan teks input ke dalam vektor dan berfungsi sebagai input awal model pengubah.
  • Hasilkan piksel jujukan imej mengikut piksel bermula daripada simbol permulaan khas. Setiap kali piksel dijana, model pengubah digunakan untuk meramalkan taburan kebarangkalian bagi piksel seterusnya, dan piksel calon k dengan kebarangkalian tertinggi dipilih sebagai lanjutan bagi jujukan semasa.
  • Untuk setiap jujukan lanjutan, kira kebarangkalian terkumpulnya, kekalkan jujukan k dengan kebarangkalian tertinggi dan buang jujukan lain.
  • Ulang langkah 2 dan 3 sehingga simbol penutup khas dijana atau had panjang maksimum dicapai.
  • Kembalikan jujukan dengan kebarangkalian tertinggi sebagai imej hasil akhir.

Dalam lukisan yang sama, bagaimanakah anda melukis resapan yang stabil? Apabila kita ingin melukis karya seni, kita biasanya memerlukan komposisi yang baik dan beberapa elemen khusus untuk membinanya. Resapan stabil ialah kaedah penjanaan imej, yang membahagikan proses penjanaan imej kepada dua bahagian: proses resapan dan proses pembinaan semula. Fikirkan proses resapan sebagai mencampurkan sekumpulan berus, cat dan kanvas yang bertaburan, perlahan-lahan mencipta lebih banyak elemen pada kanvas. Semasa proses ini, kami tidak tahu bagaimana rupa gambar akhir, dan kami juga tidak dapat menentukan kedudukan akhir setiap elemen. Walau bagaimanapun, kita boleh menambah dan menyesuaikan elemen ini secara beransur-ansur sehingga keseluruhan lukisan selesai. Kemudian, penerangan teks input adalah seperti penerangan kasar tentang kerja yang ingin kita lukis, dan algoritma carian rasuk digunakan untuk melakukan padanan yang baik antara penerangan teks dan imej yang dijana. Proses ini seperti kami sentiasa mengubah suai dan melaraskan elemen untuk menjadikannya lebih sepadan dengan gambar yang kami mahukan. Akhirnya, imej yang terhasil akan sepadan dengan penerangan teks, menghasilkan karya seni yang kita bayangkan.

Seperti yang ditunjukkan dalam Rajah 8, model resapan di sini ialah model generatif yang mempelajari pengedaran data dengan menambahkan bunyi secara beransur-ansur pada data dan kemudian membalikkan proses memulihkan data asal. resapan stabil menggunakan pengekod auto variasi terlatih (VAE) untuk mengekod imej ke dalam vektor pendam berdimensi rendah, dan model resapan berasaskan pengubah untuk menjana imej daripada vektor pendam. resapan stabil juga menggunakan pengekod teks CLIP beku untuk menukar isyarat teks ke dalam pembenaman imej untuk mengkondisikan model resapan.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 8. Proses Resapan Stabil. Yang pertama ialah anak panah atas secara berterusan ditambah pada gambar, dan akhirnya ia menjadi imej hingar tulen Kemudian anak panah bawah digunakan untuk menghapuskan bunyi secara beransur-ansur, dan kemudian membina semula gambar asal. (Sumber imej: Daripada DALL・E hingga Stable Diffusion: bagaimana model penjanaan teks ke imej berfungsi? | Tryolabs)

Perlu diingat bahawa proses resapan dalam Resapan Stabil adalah proses rawak, jadi imej yang dijana akan berbeza setiap kali, walaupun dengan penerangan teks yang sama. Rawak ini menjadikan imej yang dihasilkan lebih pelbagai dan juga meningkatkan ketidakpastian algoritma. Untuk menjadikan imej yang dijana lebih stabil, Resapan Stabil menggunakan beberapa teknik, seperti menambah hingar secara beransur-ansur semasa proses resapan dan menggunakan berbilang proses pembinaan semula untuk meningkatkan lagi kualiti imej.

Resapan Stabil telah mencapai kemajuan besar berdasarkan DALL-E:

  • Penyelesaian: resapan stabil boleh dijana Sehingga 1024× Imej 1024 piksel, manakala DALL-E pada masa ini hanya boleh menjana imej 256×256 piksel.
  • Kelajuan: resapan stabil memerlukan berbilang lelaran untuk menjana imej dan oleh itu lebih perlahan. DALL-E boleh menjana imej sekali gus, jadi ia lebih pantas.
  • Fleksibiliti: resapan stabil boleh mengembangkan, menampal dan menukar imej sedia ada, manakala DALL-E hanya boleh menjana imej daripada gesaan teks.
  • Keaslian: resapan yang stabil boleh menghasilkan imej yang lebih realistik dan terperinci, terutamanya dengan penerangan yang kompleks dan abstrak. DALL-E mungkin menghasilkan beberapa imej yang tidak mematuhi undang-undang fizikal atau akal sehat.

Inilah sebabnya DALL-E-2 turut menambah model resapan pada modelnya.

Orang kuat terpendam - GPT3.5 [18]

& Arahkan GPT [19]

Semasa putera raja lain sedang melakukan reformasi dengan giatnya Pada masa itu, pasukan GPT juga telah bekerja keras secara senyap. Seperti yang dinyatakan pada mulanya, GPT-3 sudah mempunyai keupayaan yang kuat apabila ia mula-mula dikeluarkan, tetapi kaedah penggunaannya tidak begitu "mesra bukan teknikal", jadi ombak yang ditimbulkannya semuanya dalam dunia teknikal, yang tidak begitu bersemangat. di tempat pertama, dan ia semakin hilang kerana bayarannya yang tinggi.

Transformer sangat tidak berpuas hati. GPT memikirkannya dan mengubahnya!

Yang pertama menyahut seruan untuk pembaharuan dan mengambil langkah pertama ialah GPT 3.5:

"Saya bodoh dan tidak dapat memikirkan cara yang baik untuk melakukan pembaharuan, jadi mari kita letak asas yang kukuh dahulu." GPT-3 dan menggunakan Sejenis data latihan yang dipanggil Text+Cod ialah data dengan beberapa kod pengaturcaraan ditambah berdasarkan data teks. Ringkasnya, set data yang lebih besar digunakan. Ini membolehkan model memahami dan menjana kod dengan lebih baik, meningkatkan kepelbagaian dan kreativiti model. Text+Cod ialah data latihan berasaskan teks dan kod yang dikumpul dan disusun daripada web oleh OpenAI. Ia terdiri daripada dua bahagian: teks dan kod. Teks ialah kandungan yang diterangkan dalam bahasa semula jadi, seperti artikel, ulasan, perbualan, dsb. Kod ialah sesuatu yang ditulis dalam bahasa pengaturcaraan seperti Python, Java, HTML, dll.

Data latihan Teks+Kod boleh membolehkan model memahami dan menjana kod dengan lebih baik, meningkatkan kepelbagaian dan kreativiti model. Contohnya, dalam tugas pengaturcaraan, model boleh menjana kod yang sepadan berdasarkan penerangan teks, dan kod tersebut mempunyai ketepatan dan kebolehbacaan yang tinggi. Dalam tugas penjanaan kandungan, model boleh menjana teks yang sepadan berdasarkan penerangan kod, dan teks mempunyai konsistensi dan minat yang tinggi. Data latihan Teks+Kod juga boleh membolehkan model mengendalikan data dan tugas berbilang bahasa, berbilang modal dan berbilang domain dengan lebih baik. Sebagai contoh, dalam tugas terjemahan bahasa, model boleh melakukan terjemahan yang tepat dan lancar berdasarkan surat-menyurat antara bahasa yang berbeza. Dalam tugas penjanaan imej, model boleh menghasilkan imej yang sepadan berdasarkan penerangan teks atau kod, dan imej mempunyai kejelasan dan kesetiaan yang tinggi.

Orang kedua yang menjawab panggilan ialah Arahan GPT, yang menemui masalah baharu:

"Jika kita ingin bersatu dengan manusia, kita perlu mendengar pendapat mereka dengan lebih berkesan."

Hasilnya, muncul bantuan asing baharu yang terkenal iaitu strategi latihan RLHF. RLHF ialah strategi latihan berdasarkan pembelajaran pengukuhan, dan nama penuhnya ialah Pembelajaran Pengukuhan daripada Maklum Balas Manusia. Idea terasnya adalah untuk memberikan beberapa arahan kepada model semasa proses latihan dan memberi ganjaran atau penalti berdasarkan output model. Ini membolehkan model mengikuti arahan dengan lebih baik dan meningkatkan kebolehkawalan dan kredibiliti model. Malah, GPT-3.5 juga mempunyai maklum balas manusia Jadi apakah perubahan yang berlaku selepas menambah pembelajaran pengukuhan (Reinforcement learning)?

  • Maklum balas manusia GPT3.5 digunakan secara langsung untuk memperhalusi parameter model, manakala RLHF Arahan GPT digunakan untuk melatih model ganjaran, dan kemudian gunakan model ganjaran ini untuk membimbing tingkah laku model.
  • Maklum balas manusia GPT3.5 adalah berdasarkan penilaian output tunggal, manakala RLHF Arahan GPT adalah berdasarkan perbandingan antara berbilang output.
  • Maklum balas manusia GPT3.5 hanya dijalankan sekali, manakala RLHF Arahan GPT boleh dijalankan berbilang lelaran, sentiasa mengumpul data perbandingan baharu, melatih model ganjaran baharu dan mengoptimumkan Strategi baharu.

Dalam erti kata lain, kurang pelaburan manusia diperlukan, tetapi ia membawa manfaat yang lebih besar kepada model.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Gambar 9. Proses RLHF (Sumber: GPT-4 (openai.com))

Seperti yang ditunjukkan dalam Rajah 9, strategi latihan RLHF dibahagikan kepada dua peringkat: Pra-latihan dan penalaan halus. Dalam peringkat pra-latihan, model menggunakan set data yang sama seperti GPT-3 untuk pembelajaran tanpa pengawasan untuk mempelajari pengetahuan asas dan peraturan bahasa. Dalam fasa penalaan halus, model menggunakan beberapa data berlabel manual untuk pembelajaran pengukuhan untuk mempelajari cara menjana output yang sesuai berdasarkan arahan.

Data yang dilabel secara manual termasuk dua bahagian: arahan dan maklum balas. Arahan ialah tugas yang diterangkan dalam bahasa semula jadi, seperti "Tulis puisi tentang musim bunga" atau "Beritahu saya jenaka tentang anjing." Maklum balas ialah penilaian berangka, seperti "1" untuk lemah atau "5" untuk cemerlang. Maklum balas diberikan oleh anotasi manusia berdasarkan output model dan mencerminkan kualiti dan kemunasabahan keluaran model.

Dalam fasa penalaan halus, model menggunakan algoritma yang dipanggil Actor-Critic untuk pembelajaran pengukuhan. Algoritma Actor-Critic terdiri daripada dua bahagian: Actor dan Critic. Pelakon ialah penjana yang menghasilkan output berdasarkan arahan. Pengkritik ialah penilai yang menilai nilai ganjaran output berdasarkan maklum balas. Pelakon dan Pengkritik bekerjasama dan bersaing antara satu sama lain, sentiasa mengemas kini parameter mereka untuk meningkatkan nilai ganjaran.

Strategi latihan RLHF boleh menjadikan model mengikut arahan dengan lebih baik dan meningkatkan kebolehkawalan dan kredibiliti model. Sebagai contoh, dalam tugasan menulis, model boleh menghasilkan teks dengan gaya dan tema yang berbeza mengikut arahan, dan teks mempunyai koheren dan logik yang tinggi. Dalam tugas perbualan, model boleh menjana respons dengan emosi dan nada yang berbeza berdasarkan arahan, dan respons adalah sangat relevan dan sopan.

Akhirnya, selepas pembaharuan dan pengumpulan pendahulunya, ChatGPT, anak bongsu keluarga GPT yang lebih fleksibel, merasakan sudah tiba masanya, dan mengambil kesempatan daripada trend untuk melancarkan mod perbualan yang lebih sesuai dengan kaedah komunikasi manusia berdasarkan Arahan GPT, secara langsung menyebabkan gelombang besar dalam masyarakat manusia (ratusan juta pengguna), dan ia adalah percuma Selepas beberapa tahun tidak aktif, keluarga GPT akhirnya menjadi blockbuster , menjadi putera paling digemari dalam keluarga Transformer, dan terus melompat ke dalam pertempuran penggantian Memenangi hadiah pertama dan menjadi putera raja.

Pada masa yang sama, bagi ChatGPT, putera raja bukanlah segala-galanya ChatGPT mewarisi cita-cita besar Transformer:

"Situasi semasa. Ia terlalu kacau. 4: "Era adalah era model besar, saya berkata." (bushi)

SembangGPT semasa sudah pun berdasarkan GPT-4. Kerana GPT-4 takut dengan tindak balas pantas pesaingnya, kebanyakan butiran teknikal sebenarnya ditutup. Namun, dari fungsinya, cita-cita keluarga GPT untuk menyatukan pelbagai putera telah dilihat Selain dialog teks, GPT-4 turut menambah fungsi pemetaan AI. Keluarga GPT telah menyedari kebenaran daripada pengalamannya yang tidak aktif dalam beberapa tahun kebelakangan ini, bahawa model besar adalah keadilan, dan ingin meluaskan kebenaran ini ke pelbagai bidang.

Jika anda menyelidiki lebih mendalam asas di sebalik kebenaran ini, ini mungkin cara melatih model besar. GPT-3 ialah salah satu model bahasa terbesar pada masa ini Ia mempunyai 175 bilion parameter, 100 kali lebih banyak daripada pendahulunya GPT-2, dan 10 kali lebih banyak daripada model NLP yang terbesar sebelumnya. Ia juga boleh dianggap sebagai perintis model ramalan besar atau.

Jadi, mari kita lihat dahulu bagaimana seni bina model dan kaedah latihan GPT-3 mencapai skala dan prestasi sedemikian:

  • Latihan teragih: GPT-3 menggunakan kaedah latihan teragih, yang bermaksud model dan data diedarkan merentasi berbilang nod pengkomputeran dan diselaraskan serta disegerakkan melalui protokol komunikasi. Ini boleh menggunakan sumber pengkomputeran dan ruang memori berbilang nod untuk mempercepatkan proses latihan model dan menyokong model dan data berskala lebih besar.
  • GPT-3 menggunakan kira-kira 2000 nod GPU untuk latihan teragih Setiap nod mempunyai berbilang GPU dan setiap GPU mempunyai memori video yang sama.
  • GPT-3 menggunakan dua kaedah latihan teragih: selari data dan selari model.
  • Selarian data merujuk kepada membahagikan data kepada berbilang subset, setiap nod memproses satu subset, mengemas kini parameter model pada setiap nod, dan kemudian menyegerakkan parameter antara semua nod.
  • Selarian model merujuk kepada membahagikan model kepada beberapa bahagian, setiap nod memproses satu bahagian, dan mengira output dan kecerunan bahagian pada setiap nod, dan kemudian menghantar output antara semua nod dan kecerunan.
  • GPT-3 menggunakan keselarian data hibrid dan pendekatan keselarian model, iaitu keselarian data digunakan dalam setiap nod dan keselarian model digunakan antara nod yang berbeza. Ini boleh menggunakan sepenuhnya kuasa pengkomputeran dan jalur lebar komunikasi GPU sambil mengurangkan overhed komunikasi dan penggunaan memori.
  • Titik pemeriksaan fungsi pengaktifan: GPT-3 menggunakan teknologi yang dipanggil pusat pemeriksaan fungsi pengaktifan, iaitu semasa perambatan ke hadapan model, Hanya simpan nilai fungsi pengaktifan beberapa lapisan, bukan nilai semua lapisan. Ini boleh menjimatkan ruang memori video, kerana nilai fungsi pengaktifan mengambil sebahagian besar memori video. Semasa proses perambatan belakang model, jika nilai fungsi pengaktifan lapisan tertentu perlu digunakan, ia akan dikira semula dan bukannya membacanya daripada memori video. Ini mengorbankan sedikit masa pengiraan sebagai pertukaran untuk lebih banyak ruang memori video, membolehkan model yang lebih besar dan saiz kelompok.
  • Mekanisme perhatian jarang: GPT-3 menggunakan teknologi yang dipanggil mekanisme perhatian jarang, iaitu, apabila mengira perhatian diri, hanya beberapa perkataan dalam urutan input dipertimbangkan, dan Tidak semua perkataan . Ini boleh mengurangkan jumlah pengiraan dan penggunaan ingatan, kerana kerumitan perhatian diri berkait tepat dengan panjang jujukan input. GPT-3 menggunakan mekanisme perhatian yang jarang berdasarkan tingkap tempatan dan blok global, yang membahagikan jujukan input kepada berbilang blok, dan setiap blok hanya melakukan pengiraan perhatian dengan beberapa blok bersebelahan, dan setiap blok juga pengiraan Perhatian dengan beberapa blok global yang dipilih secara rawak. Ini memastikan bahawa model boleh menangkap kedua-dua maklumat tempatan dan global, di samping mengurangkan kerumitan pengiraan dan penggunaan memori.

Melihat perkara ini, ChatGPT sedikit mengerutkan dahi, seolah-olah tidak berpuas hati dengan penyelesaian GPT-3: "Ini tidak mencukupi." >"Model besar sememangnya menjadi trend semasa, tetapi kita tidak seharusnya mengejar skala secara membabi buta hanya demi persaingan. Sebelum melatih model besar, kita perlu mempertimbangkan lebih banyak butiran dan cabaran teknikal untuk memastikan ia dapat berjalan dengan stabil dan dengan cekap, dan Menghasilkan hasil yang berguna. "

" Pertama, pemilihan hiperparameter latihan dan pemulaan model adalah penting untuk penumpuan Kelajuan, kestabilan dan prestasi mempunyai kesan yang ketara , dan pemulaan model menentukan nilai berat sebelum latihan dimulakan, yang mempengaruhi kualiti keputusan akhir Parameter ini perlu dilaraskan dengan teliti berdasarkan eksperimen empirikal atau analisis teori untuk memastikan prestasi terbaik model >

“Kedua, untuk mendapatkan hasil yang tinggi dan mengelakkan kesesakan, kami perlu mengoptimumkan pelbagai aspek proses latihan, seperti konfigurasi perkakasan, lebar jalur rangkaian, kelajuan pemuatan data, seni bina model, dll. Mengoptimumkan aspek ini boleh meningkatkan kelajuan dan kecekapan pemprosesan Model dengan ketara Sebagai contoh, menggunakan peranti storan atau format data yang lebih pantas boleh mengurangkan masa pemuatan data dengan menggunakan saiz kumpulan yang lebih besar atau pengumpulan kecerunan boleh mengurangkan overhed komunikasi menggunakan model yang lebih mudah atau lebih jarang, dsb.

" Akhir sekali, anda mungkin menghadapi pelbagai situasi ketidakstabilan dan kegagalan apabila melatih model besar, seperti ralat berangka, pemasangan lampau, kegagalan perkakasan dan isu kualiti data, dll. Untuk mengelakkan atau memulihkan daripada isu ini, kita perlu memantau dengan teliti tingkah laku dan prestasi model serta menggunakan alat dan teknik penyahpepijatan untuk mengenal pasti dan membetulkan sebarang ralat atau kelemahan Selain itu, kita boleh menggunakan pelbagai langkah keselamatan dan perlindungan seperti Pemotongan, regularisasi, keciciran, suntikan bunyi , penapisan data, penambahan data, dll. untuk meningkatkan keteguhan dan kebolehpercayaan model "

"Dalam era ini, model besar sememangnya penting, tetapi hanya mengejar skala tidak akan membenarkan model menghasilkan hasil yang berguna. Hanya latihan dan pengoptimuman yang bernas yang boleh membolehkan model besar benar-benar merealisasikan potensi mereka dan membawa lebih nilai kepada manusia.”

Betul kata putera raja.

Kemerosotan putera raja yang berkuasa - BERT

Akhirnya, unta yang kurus lebih besar daripada seekor kuda Walaupun BERT telah dibayangi oleh GPT baru-baru ini, ia masih berkuasa akhirnya, di bawah pembangunan GPT yang tidak dapat dihalang, BERT masih mengekalkan wilayahnya sendiri. Apabila bercakap tentang model pemprosesan bahasa semula jadi, BERT (Perwakilan Pengekod Dua Arah daripada Transformers) pernah menjadi model yang sangat popular kerana ia berfungsi dengan baik pada banyak tugas. Apabila ia mula-mula dikeluarkan, ia hampir tidak dapat dikalahkan, malah lebih berjaya daripada GPT. Ini kerana BERT direka dengan matlamat dan kelebihan yang berbeza daripada GPT.

Matlamat BERT adalah untuk mendorong keupayaan pemodelan konteks ke tahap baharu untuk menyokong tugas hiliran dengan lebih baik seperti klasifikasi teks dan menjawab soalan. Ia mencapai matlamat ini dengan melatih pengekod Transformer dua arah. Pengekod ini dapat mempertimbangkan kedua-dua bahagian kiri dan kanan jujukan input, menghasilkan perwakilan konteks yang lebih baik, jadi BERT boleh memodelkan konteks dengan lebih baik, meningkatkan prestasi model dalam tugas hiliran.

Walau bagaimanapun, dari semasa ke semasa, kemunculan siri model GPT membolehkan GPT-3 mengatasi BERT dalam pelbagai tugas. Satu sebab yang mungkin ialah model siri GPT direka bentuk untuk lebih memfokuskan pada tugasan generatif, seperti penjanaan teks dan sistem dialog, manakala BERT lebih memfokuskan pada tugasan klasifikasi dan soal jawab. Selain itu, model siri GPT menggunakan parameter yang lebih besar dan lebih banyak data untuk latihan, yang juga membolehkan mereka mencapai prestasi yang lebih baik pada julat tugas yang lebih luas.

Sudah tentu BERT masih merupakan model yang sangat berguna, terutamanya untuk beberapa tugasan yang memerlukan teks mengklasifikasikan atau menjawab soalan. Siri model GPT lebih sesuai untuk tugas penjanaan, seperti penjanaan teks dan sistem dialog. Secara keseluruhan, kedua-dua model mempunyai kelebihan dan hadnya yang unik, dan kita perlu memilih model yang sesuai berdasarkan keperluan tugas tertentu.

Pertempuran untuk keturunan - Model Segmen Anything (SAM) yang mengancam [20]

Seperti yang dinyatakan sebelum ini, sementara abang besar GPT bekerja keras secara senyap, pekerja model Transformer adalah Kedua-dua bidang CV (ViT) dan bidang multimodal (CLIP) menimbulkan kekecohan, tetapi akhirnya mereka berdua menjadi bayi pengalaman Mereka diajar oleh bapa tua Transformer kepada putera kesayangan GPT, dan akhirnya tercapai yang dipanggil GPT-4.

ViT dan CLIP, yang mempunyai darah Transformer yang mengalir dalam tulang mereka, pastinya tidak gembira: "Putera dan jeneral Xiang Ning jenis apakah yang ada? Bukankah abang sulung belajar daripada kita? Kita juga boleh belajar daripada dia."

"Namun, dia terlalu berkuasa dalam bidang NLP, kita perlu mencari medan perang baru."

Jadi, lahirlah SAM. Di laman web rasmi, mereka menerangkannya seperti ini:

Segment Anything Model (SAM): model AI baharu daripada Meta AI yang boleh "memotong" sebarang objek, dalam sebarang imej, dengan satu klik

Ringkasnya, kita boleh menganggap SAM sebagai "tuan pengeditan imej" yang cekap yang boleh mengenal pasti dan membahagikan pelbagai objek dalam imej dengan tepat melalui pelbagai gesaan input. Sebagai contoh, apabila kita mengklik titik dalam imej dengan tetikus, SAM secara automatik akan memotong objek di mana titik itu terletak seperti pelukis yang berpengalaman apabila kita memasukkan perkataan "kucing", SAM akan bertindak seperti seorang yang bijak seperti detektif , kami secara automatik mencari dan memotong semua kucing dalam imej; apabila kami memberikan SAM bingkai pengesanan sasaran, SAM akan memotong objek dalam bingkai dengan tepat seperti pakar bedah yang mahir. Keupayaan generalisasi sifar pukulan SAM menjadikannya "tuan penyuntingan universal" yang sebenar. Ini bermakna sama ada ia adalah objek biasa seperti kereta, pokok dan bangunan, atau objek jarang seperti dinosaur, makhluk asing dan tongkat ajaib, SAM boleh mengenal pasti dan memotongnya dengan mudah. Keupayaan berkuasa ini berpunca daripada reka bentuk model termaju dan set data yang besar. Saya memilih empat contoh adegan yang sangat kompleks daripada kertas asal (Rajah 10) untuk menggambarkan perkara yang boleh dilakukan oleh SAM.

Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer

Rajah 10. Contoh kesan SAM. Anda boleh mengedit dan mengekstrak setiap warna dalam gambar, yang setara dengan master PS yang cekap (master penyuntingan imej).

Ringkasnya, apabila orang lain datang kepada kami dengan keterujaan pada masa lalu, kami sentiasa terpaksa bertanya tanpa berdaya, tunggu sebentar, apakah jenis data yang boleh anda berikan? Ia tidak lagi diperlukan, Sekurang-kurangnya dalam bidang CV, ia lebih dekat dengan pemahaman orang ramai bukan teknikal tentang AI .

Untuk merealisasikan keupayaan berkuasa yang disebutkan di atas, mari kita lihat bagaimana ViT dan CLIP berkomplot dengan kuat:

ViT: “Walaupun Saya Saya biasa melakukan tugas klasifikasi imej, tetapi seni bina saya juga sesuai untuk pembahagian imej kerana saya menggunakan seni bina Transformer untuk menguraikan imej menjadi satu siri blok dan kemudian memprosesnya secara selari Jika saya menyepadukan kelebihan saya, SAM boleh mewarisi kelebihan pemprosesan dan perhatian global saya, dengan itu mencapai pembahagian imej yang cekap ”

KLIP: “Baiklah, saya akan melabur di dalamnya dengan kaedah latihan bersama saya. SAM juga boleh mengendalikan pelbagai jenis gesaan input (gesaan soalan dan gesaan visual). pengekod (pengekod imej), dan CLIP untuk mengekod maklumat segera. Idea ini bagus, tetapi bagaimana untuk melakukannya - sudah tentu, belajar daripada abang!

“Kami mahu menggunakan model bahasa yang telah dilatih untuk tugasan pembahagian imej, sama seperti menggunakan gesaan teks (prompt) untuk membenarkan model bahasa menjana atau meramal teks Dengan CLIP, pembayang Kami boleh menjadi sangat kaya, yang boleh menjadi beberapa mata, kotak, topeng, dan Teks Mereka memberitahu model bahasa apa yang hendak dibahagikan dalam imej Sebarang gesaan boleh mendapatkan topeng segmentasi yang sah mask bermakna walaupun gesaan itu samar-samar (seperti baju atau seseorang), outputnya haruslah topeng yang munasabah untuk salah satu objek Ini seperti abang besar GPT (model bahasa) juga boleh memberikan respons yang koheren kepada gesaan yang samar-samar. Kami memilih tugas ini kerana ia membolehkan kami melatih model bahasa secara semula jadi dan mencapai pemindahan sifar melalui tugasan pembahagian yang berbeza keupayaan yang dinyatakan sebelum ini telah mengesahkan kebolehlaksanaan idea ini. Walau bagaimanapun, perlu dinyatakan bahawa walaupun SAM tidak lagi perlu melatih semula model, ia masih mempunyai beberapa batasan seperti ketika chatGPT mula-mula dilancarkan. Dalam bahagian Had kertas, halaman pengarang dengan jelas menunjukkan beberapa batasan dan kekurangan SAM, seperti kecacatan dalam butiran, ketersambungan, sempadan, dll., serta dalam tugas seperti pembahagian interaktif, masa nyata, gesaan teks , semantik dan cabaran segmentasi panorama, sambil turut mengakui kelebihan beberapa alatan khusus domain.

Sebagai contoh, saya melakukan dua ujian mudah dalam demo: satu adalah pengesanan lesi dalam bidang imej perubatan, kerana lesi terlalu kecil dan sukar untuk dikesan baik pada pandangan pertama, tetapi rambut masih tidak begitu semula jadi, dan tanda pemotongan masih boleh dilihat jika anda melihat dengan teliti.

Sudah tentu, ini adalah permulaan yang baik selepas semua orang ini baru memulakan perniagaan mereka dan masih bekerja keras. Jadi, sama-sama kita tunggu dan lihat apa kesudahan pertempuran ini!

Ringkasan

Keluarga Transformer yang besar jelas di luar skop artikel ini Apabila ia datang kepada hasil berdasarkan Transformer, kita dapat melihat potensi bidang ini Berterusan inovasi: Vision Transformer (ViT) menunjukkan kejayaan aplikasi Transformer dalam bidang penglihatan komputer, yang boleh memproses data piksel imej secara langsung tanpa kejuruteraan ciri manual. DALL-E dan CLIP menggunakan Transformer pada penjanaan imej dan tugas klasifikasi imej, menunjukkan prestasi unggulnya dalam pemahaman semantik visual. Resapan Stabil mencadangkan proses resapan stabil yang boleh memodelkan taburan kebarangkalian, yang boleh digunakan pada tugas seperti pembahagian dan penjanaan imej. Keputusan ini bersama-sama mendedahkan prospek aplikasi yang luas bagi model Transformer, dan kami harus mengakui bahawa suatu hari nanti, "Perhatian adalah semua yang anda perlukan."

Ringkasnya, kita dapat melihat daripada hasil ini daya hidup inovasi berterusan dalam bidang kecerdasan buatan. Sama ada GPT atau BERT, atau Vision Transformer, DALL-E, CLIP, Stable diffusion, dsb., pencapaian ini mewakili kemajuan terkini dalam bidang kecerdasan buatan.

Memandangkan peperiksaan besar (ChatGPT) sedang berlangsung, keadaan semasa mungkin begini:

Pelajar, belajar bersungguh-sungguh semester ini dan buka buku saya boleh ingat suara guru dan senyuman apabila dia bercakap tentang titik pengetahuan ini dalam kelas itu, malah mula merancang rancangan belajar untuk semester hadapan.

Ahli akademik palsu datang ke kelas setiap hari dan menduduki barisan hadapan Apabila mereka membuka buku teks, mereka kelihatan keliru. dengan pelajar yang teruk cuma bezanya buku teks itu bukan serba baru, dan saya masih mempunyai sedikit ingatan tentang kandungan buku teks, yang tidak dikira sebagai mempelajari ilmu baru sepenuhnya.

Adapun orang bodoh yang sebenar...

"Ilmu datang, ilmu datang, ilmu datang dari segenap penjuru"

Sebenarnya, saya berpendapat tidak kira anda seorang sarjana akademik palsu atau pelajar yang teruk, anda harus bertenang di hadapan peperiksaan akhir, lihat apa yang diajar pada semester ini, pinjam nota daripada sarjana akademik, dan juga memilih Tangguh peperiksaan. Bagi ahli akademik terkemuka, kepantasan datang secara semula jadi. Bagi ahli akademik dan bajingan palsu, kelajuan adalah berbahaya.

Dalam persaingan dalam bidang kecerdasan buatan, inovasi berterusan adalah penting. Oleh itu, sebagai penyelidik, kita harus memberi perhatian kepada perkembangan terkini dalam bidang ini dan mengekalkan minda yang rendah hati dan terbuka untuk mempromosikan kemajuan berterusan bidang kecerdasan buatan.

Atas ialah kandungan terperinci Bermula dari GPT-3, teruskan menulis salasilah keluarga besar Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam