Rumah  >  Artikel  >  Peranti teknologi  >  Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

王林
王林ke hadapan
2023-04-09 20:31:091336semak imbas

Transformer dilahirkan pada tahun 2017 dan telah diperkenalkan oleh Google dalam kertas kerja "Perhatian adalah semua yang anda perlukan". Kertas kerja ini meninggalkan CNN dan RNN yang digunakan dalam tugas pembelajaran mendalam sebelumnya. Penyelidikan terobosan ini membatalkan idea sebelumnya untuk menyamakan pemodelan jujukan dan RNN, dan kini digunakan secara meluas dalam NLP. GPT, BERT, dsb. yang popular semuanya dibina pada Transformer.

Transformer Sejak diperkenalkan, penyelidik telah mencadangkan banyak variasi. Tetapi penerangan semua orang tentang Transformer nampaknya memperkenalkan seni bina dalam bentuk lisan, penjelasan grafik, dll. Terdapat sangat sedikit maklumat yang tersedia untuk penerangan pseudokod Transformer.

Seperti yang dinyatakan dalam petikan berikut: Seorang penyelidik yang sangat terkenal dalam bidang AI pernah menghantar seorang ahli teori kerumitan yang terkenal yang dia fikirkan ditulis dengan sangat baik. Dan jawapan ahli teori ialah: Saya tidak dapat menjumpai sebarang teorem dalam kertas itu, saya tidak tahu tentang apa kertas itu.

Kertas mungkin cukup terperinci untuk pengamal, tetapi ahli teori selalunya memerlukan lebih ketepatan. Atas sebab tertentu, komuniti DL nampaknya enggan menyediakan pseudokod untuk model rangkaian saraf mereka.

Pada masa ini nampaknya komuniti DL mempunyai masalah berikut:

Penerbitan DL kurang ketepatan dan perincian saintifik. Pembelajaran mendalam telah mencapai kejayaan besar dalam tempoh 5 hingga 10 tahun yang lalu, dengan beribu-ribu kertas kerja diterbitkan setiap tahun. Ramai penyelidik hanya menerangkan secara tidak rasmi cara mereka mengubah suai model sebelumnya, dengan kertas lebih 100 halaman yang mengandungi hanya beberapa baris penerangan model tidak formal. Paling baik, beberapa rajah peringkat tinggi, tiada pseudokod, tiada persamaan, tiada sebutan tentang tafsiran model yang tepat. Tiada siapa pun yang menyediakan pseudokod untuk Transformer yang terkenal dan varian pengekod/penyahkodnya.

Kod sumber dan kod pseudo. Kod sumber sumber terbuka sangat berguna, tetapi berbanding dengan ribuan baris kod sumber sebenar, pseudokod yang direka dengan baik biasanya kurang daripada satu halaman dan pada asasnya masih lengkap. Ia kelihatan seperti kerja keras yang tiada siapa yang mahu lakukan.

Menjelaskan proses latihan adalah sama penting, tetapi kadangkala kertas kerja itu tidak menyebut apa input dan output model dan apakah kesan sampingan yang berpotensi. Bahagian eksperimen dalam kertas sering tidak menerangkan apa yang dimasukkan ke dalam algoritma dan bagaimana. Jika bahagian Kaedah mempunyai beberapa penjelasan, ia sering terputus hubungan daripada apa yang diterangkan dalam bahagian Eksperimen, mungkin kerana pengarang yang berbeza menulis bahagian yang berbeza.

Sesetengah orang mungkin bertanya: Adakah pseudokod benar-benar diperlukan?

Penyelidik dari DeepMind percaya bahawa menyediakan pseudokod mempunyai banyak kegunaan Berbanding dengan membaca artikel atau menatal melalui 1000 baris kod sebenar, pseudokod memekatkan semua kandungan penting pada satu halaman , menjadikannya lebih mudah untuk membangunkan varian baharu. Untuk tujuan ini, mereka baru-baru ini menerbitkan makalah "Algoritma Formal untuk Transformers", yang menerangkan seni bina Transformer dengan cara yang lengkap dan tepat secara matematik.

Pengenalan Kertas

Artikel ini merangkumi apa itu Transformer, bagaimana Transformer dilatih, Transformer digunakan untuk apa, komponen seni bina utama Transformer dan pratonton model yang lebih terkenal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Alamat kertas: https://arxiv.org/pdf/2207.09238.pdf

Namun, untuk membaca artikel ini, pembaca perlu biasa dengan terminologi asas ML dan seni bina rangkaian neural yang ringkas (seperti MLP). Bagi pembaca, selepas memahami kandungan dalam artikel, mereka akan mempunyai pemahaman yang kukuh tentang Transformer dan boleh menggunakan pseudocode untuk melaksanakan varian Transformer mereka sendiri.

Bahagian utama kertas kerja ini ialah Bab 3-8, yang memperkenalkan Transformer dan tugas tipikalnya, tokenisasi, komposisi seni bina Transformer, latihan dan inferens Transformer, dan aplikasi praktikal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Pseudokod pada asasnya lengkap dalam kertas adalah kira-kira 50 baris panjang, manakala kod sumber sebenar adalah beribu-ribu baris panjang. Pseudokod yang menerangkan algoritma dalam kertas adalah sesuai untuk penyelidik teori yang memerlukan formula padat, lengkap dan tepat, penyelidik eksperimen yang melaksanakan Transformer dari awal, dan juga berguna untuk melanjutkan kertas atau buku teks menggunakan algoritma Transformer formal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Contoh pseudokod dalam kertas

Bagi mereka yang biasa dengan terminologi asas ML dan saraf mudah seni bina rangkaian Untuk pemula (seperti MLP), kertas kerja ini akan membantu anda menguasai asas Transformer yang kukuh dan menggunakan templat pseudokod untuk melaksanakan model Transformer anda sendiri.

Pengenalan kepada pengarang

Pengarang pertama kertas kerja ini ialah Mary Phuong, seorang penyelidik yang menyertai DeepMind secara rasmi pada Mac tahun ini. Beliau berkelulusan PhD dari Institut Sains dan Teknologi Austria, terutamanya terlibat dalam penyelidikan teori tentang pembelajaran mesin.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Pengarang kertas kerja lain ialah Marcus Hutter, penyelidik kanan di DeepMind dan juga Profesor Emeritus Australia di Institut Penyelidikan Sains Komputer (RSCS), Universiti Kebangsaan (ANU).

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Marcus Hutter telah terlibat dalam penyelidikan mengenai teori matematik kecerdasan buatan untuk ramai tahun. Bidang penyelidikan ini berdasarkan beberapa konsep sains matematik dan pengiraan, termasuk pembelajaran pengukuhan, teori kebarangkalian, teori maklumat algoritma, pengoptimuman, carian, dan teori pengiraan. Buku beliau, Kecerdasan Buatan Am: Pembuatan Keputusan Berturut-turut Berdasarkan Kebarangkalian Algoritma, diterbitkan pada tahun 2005 dan merupakan buku yang sangat teknikal dan matematik.

Pada tahun 2002, Marcus Hutter, bersama-sama dengan Jürgen Schmidhuber dan Shane Legg, mencadangkan teori matematik kecerdasan buatan AIXI berdasarkan agen ideal dan pembelajaran pengukuhan ganjaran. Pada tahun 2009, Marcus Hutter mencadangkan teori pembelajaran pengukuhan ciri.

Atas ialah kandungan terperinci Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam