Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod-AI-php.cn

Rumah

Peranti teknologi

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

王林

Apr 09, 2023 pm 08:31 PM

koddeepmind

Transformer dilahirkan pada tahun 2017 dan telah diperkenalkan oleh Google dalam kertas kerja "Perhatian adalah semua yang anda perlukan". Kertas kerja ini meninggalkan CNN dan RNN yang digunakan dalam tugas pembelajaran mendalam sebelumnya. Penyelidikan terobosan ini membatalkan idea sebelumnya untuk menyamakan pemodelan jujukan dan RNN, dan kini digunakan secara meluas dalam NLP. GPT, BERT, dsb. yang popular semuanya dibina pada Transformer.

Transformer Sejak diperkenalkan, penyelidik telah mencadangkan banyak variasi. Tetapi penerangan semua orang tentang Transformer nampaknya memperkenalkan seni bina dalam bentuk lisan, penjelasan grafik, dll. Terdapat sangat sedikit maklumat yang tersedia untuk penerangan pseudokod Transformer.

Seperti yang dinyatakan dalam petikan berikut: Seorang penyelidik yang sangat terkenal dalam bidang AI pernah menghantar seorang ahli teori kerumitan yang terkenal yang dia fikirkan ditulis dengan sangat baik. Dan jawapan ahli teori ialah: Saya tidak dapat menjumpai sebarang teorem dalam kertas itu, saya tidak tahu tentang apa kertas itu.

Kertas mungkin cukup terperinci untuk pengamal, tetapi ahli teori selalunya memerlukan lebih ketepatan. Atas sebab tertentu, komuniti DL nampaknya enggan menyediakan pseudokod untuk model rangkaian saraf mereka.

Pada masa ini nampaknya komuniti DL mempunyai masalah berikut:

Penerbitan DL kurang ketepatan dan perincian saintifik. Pembelajaran mendalam telah mencapai kejayaan besar dalam tempoh 5 hingga 10 tahun yang lalu, dengan beribu-ribu kertas kerja diterbitkan setiap tahun. Ramai penyelidik hanya menerangkan secara tidak rasmi cara mereka mengubah suai model sebelumnya, dengan kertas lebih 100 halaman yang mengandungi hanya beberapa baris penerangan model tidak formal. Paling baik, beberapa rajah peringkat tinggi, tiada pseudokod, tiada persamaan, tiada sebutan tentang tafsiran model yang tepat. Tiada siapa pun yang menyediakan pseudokod untuk Transformer yang terkenal dan varian pengekod/penyahkodnya.

Kod sumber dan kod pseudo. Kod sumber sumber terbuka sangat berguna, tetapi berbanding dengan ribuan baris kod sumber sebenar, pseudokod yang direka dengan baik biasanya kurang daripada satu halaman dan pada asasnya masih lengkap. Ia kelihatan seperti kerja keras yang tiada siapa yang mahu lakukan.

Menjelaskan proses latihan adalah sama penting, tetapi kadangkala kertas kerja itu tidak menyebut apa input dan output model dan apakah kesan sampingan yang berpotensi. Bahagian eksperimen dalam kertas sering tidak menerangkan apa yang dimasukkan ke dalam algoritma dan bagaimana. Jika bahagian Kaedah mempunyai beberapa penjelasan, ia sering terputus hubungan daripada apa yang diterangkan dalam bahagian Eksperimen, mungkin kerana pengarang yang berbeza menulis bahagian yang berbeza.

Sesetengah orang mungkin bertanya: Adakah pseudokod benar-benar diperlukan?

Penyelidik dari DeepMind percaya bahawa menyediakan pseudokod mempunyai banyak kegunaan Berbanding dengan membaca artikel atau menatal melalui 1000 baris kod sebenar, pseudokod memekatkan semua kandungan penting pada satu halaman , menjadikannya lebih mudah untuk membangunkan varian baharu. Untuk tujuan ini, mereka baru-baru ini menerbitkan makalah "Algoritma Formal untuk Transformers", yang menerangkan seni bina Transformer dengan cara yang lengkap dan tepat secara matematik.

Pengenalan Kertas

Artikel ini merangkumi apa itu Transformer, bagaimana Transformer dilatih, Transformer digunakan untuk apa, komponen seni bina utama Transformer dan pratonton model yang lebih terkenal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Alamat kertas: https://arxiv.org/pdf/2207.09238.pdf

Namun, untuk membaca artikel ini, pembaca perlu biasa dengan terminologi asas ML dan seni bina rangkaian neural yang ringkas (seperti MLP). Bagi pembaca, selepas memahami kandungan dalam artikel, mereka akan mempunyai pemahaman yang kukuh tentang Transformer dan boleh menggunakan pseudocode untuk melaksanakan varian Transformer mereka sendiri.

Bahagian utama kertas kerja ini ialah Bab 3-8, yang memperkenalkan Transformer dan tugas tipikalnya, tokenisasi, komposisi seni bina Transformer, latihan dan inferens Transformer, dan aplikasi praktikal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Pseudokod pada asasnya lengkap dalam kertas adalah kira-kira 50 baris panjang, manakala kod sumber sebenar adalah beribu-ribu baris panjang. Pseudokod yang menerangkan algoritma dalam kertas adalah sesuai untuk penyelidik teori yang memerlukan formula padat, lengkap dan tepat, penyelidik eksperimen yang melaksanakan Transformer dari awal, dan juga berguna untuk melanjutkan kertas atau buku teks menggunakan algoritma Transformer formal.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Contoh pseudokod dalam kertas

Bagi mereka yang biasa dengan terminologi asas ML dan saraf mudah seni bina rangkaian Untuk pemula (seperti MLP), kertas kerja ini akan membantu anda menguasai asas Transformer yang kukuh dan menggunakan templat pseudokod untuk melaksanakan model Transformer anda sendiri.

Pengenalan kepada pengarang

Pengarang pertama kertas kerja ini ialah Mary Phuong, seorang penyelidik yang menyertai DeepMind secara rasmi pada Mac tahun ini. Beliau berkelulusan PhD dari Institut Sains dan Teknologi Austria, terutamanya terlibat dalam penyelidikan teori tentang pembelajaran mesin.

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Pengarang kertas kerja lain ialah Marcus Hutter, penyelidik kanan di DeepMind dan juga Profesor Emeritus Australia di Institut Penyelidikan Sains Komputer (RSCS), Universiti Kebangsaan (ANU).

Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod

Marcus Hutter telah terlibat dalam penyelidikan mengenai teori matematik kecerdasan buatan untuk ramai tahun. Bidang penyelidikan ini berdasarkan beberapa konsep sains matematik dan pengiraan, termasuk pembelajaran pengukuhan, teori kebarangkalian, teori maklumat algoritma, pengoptimuman, carian, dan teori pengiraan. Buku beliau, Kecerdasan Buatan Am: Pembuatan Keputusan Berturut-turut Berdasarkan Kebarangkalian Algoritma, diterbitkan pada tahun 2005 dan merupakan buku yang sangat teknikal dan matematik.

Pada tahun 2002, Marcus Hutter, bersama-sama dengan Jürgen Schmidhuber dan Shane Legg, mencadangkan teori matematik kecerdasan buatan AIXI berdasarkan agen ideal dan pembelajaran pengukuhan ganjaran. Pada tahun 2009, Marcus Hutter mencadangkan teori pembelajaran pengukuhan ciri.

Atas ialah kandungan terperinci Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Apakah graf pemikiran dalam kejuruteraan segeraApr 13, 2025 am 11:53 AM

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Mengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiApr 13, 2025 am 11:44 AM

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotApr 13, 2025 am 11:40 AM

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

Chatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiApr 13, 2025 am 11:23 AM

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Apr 13, 2025 am 11:20 AM

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Rangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaApr 13, 2025 am 11:13 AM

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Aplikasi AI Generatif di Sektor KewanganApr 13, 2025 am 11:12 AM

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Panduan untuk pembelajaran dalam talian dan algoritma pasif-agresifApr 13, 2025 am 11:09 AM

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan

See all articles