


Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod
Transformer dilahirkan pada tahun 2017 dan telah diperkenalkan oleh Google dalam kertas kerja "Perhatian adalah semua yang anda perlukan". Kertas kerja ini meninggalkan CNN dan RNN yang digunakan dalam tugas pembelajaran mendalam sebelumnya. Penyelidikan terobosan ini membatalkan idea sebelumnya untuk menyamakan pemodelan jujukan dan RNN, dan kini digunakan secara meluas dalam NLP. GPT, BERT, dsb. yang popular semuanya dibina pada Transformer.
Transformer Sejak diperkenalkan, penyelidik telah mencadangkan banyak variasi. Tetapi penerangan semua orang tentang Transformer nampaknya memperkenalkan seni bina dalam bentuk lisan, penjelasan grafik, dll. Terdapat sangat sedikit maklumat yang tersedia untuk penerangan pseudokod Transformer.
Seperti yang dinyatakan dalam petikan berikut: Seorang penyelidik yang sangat terkenal dalam bidang AI pernah menghantar seorang ahli teori kerumitan yang terkenal yang dia fikirkan ditulis dengan sangat baik. Dan jawapan ahli teori ialah: Saya tidak dapat menjumpai sebarang teorem dalam kertas itu, saya tidak tahu tentang apa kertas itu.
Kertas mungkin cukup terperinci untuk pengamal, tetapi ahli teori selalunya memerlukan lebih ketepatan. Atas sebab tertentu, komuniti DL nampaknya enggan menyediakan pseudokod untuk model rangkaian saraf mereka.
Pada masa ini nampaknya komuniti DL mempunyai masalah berikut:
Penerbitan DL kurang ketepatan dan perincian saintifik. Pembelajaran mendalam telah mencapai kejayaan besar dalam tempoh 5 hingga 10 tahun yang lalu, dengan beribu-ribu kertas kerja diterbitkan setiap tahun. Ramai penyelidik hanya menerangkan secara tidak rasmi cara mereka mengubah suai model sebelumnya, dengan kertas lebih 100 halaman yang mengandungi hanya beberapa baris penerangan model tidak formal. Paling baik, beberapa rajah peringkat tinggi, tiada pseudokod, tiada persamaan, tiada sebutan tentang tafsiran model yang tepat. Tiada siapa pun yang menyediakan pseudokod untuk Transformer yang terkenal dan varian pengekod/penyahkodnya.
Kod sumber dan kod pseudo. Kod sumber sumber terbuka sangat berguna, tetapi berbanding dengan ribuan baris kod sumber sebenar, pseudokod yang direka dengan baik biasanya kurang daripada satu halaman dan pada asasnya masih lengkap. Ia kelihatan seperti kerja keras yang tiada siapa yang mahu lakukan.
Menjelaskan proses latihan adalah sama penting, tetapi kadangkala kertas kerja itu tidak menyebut apa input dan output model dan apakah kesan sampingan yang berpotensi. Bahagian eksperimen dalam kertas sering tidak menerangkan apa yang dimasukkan ke dalam algoritma dan bagaimana. Jika bahagian Kaedah mempunyai beberapa penjelasan, ia sering terputus hubungan daripada apa yang diterangkan dalam bahagian Eksperimen, mungkin kerana pengarang yang berbeza menulis bahagian yang berbeza.
Sesetengah orang mungkin bertanya: Adakah pseudokod benar-benar diperlukan?
Penyelidik dari DeepMind percaya bahawa menyediakan pseudokod mempunyai banyak kegunaan Berbanding dengan membaca artikel atau menatal melalui 1000 baris kod sebenar, pseudokod memekatkan semua kandungan penting pada satu halaman , menjadikannya lebih mudah untuk membangunkan varian baharu. Untuk tujuan ini, mereka baru-baru ini menerbitkan makalah "Algoritma Formal untuk Transformers", yang menerangkan seni bina Transformer dengan cara yang lengkap dan tepat secara matematik.
Pengenalan Kertas
Artikel ini merangkumi apa itu Transformer, bagaimana Transformer dilatih, Transformer digunakan untuk apa, komponen seni bina utama Transformer dan pratonton model yang lebih terkenal.
Alamat kertas: https://arxiv.org/pdf/2207.09238.pdf
Namun, untuk membaca artikel ini, pembaca perlu biasa dengan terminologi asas ML dan seni bina rangkaian neural yang ringkas (seperti MLP). Bagi pembaca, selepas memahami kandungan dalam artikel, mereka akan mempunyai pemahaman yang kukuh tentang Transformer dan boleh menggunakan pseudocode untuk melaksanakan varian Transformer mereka sendiri.
Bahagian utama kertas kerja ini ialah Bab 3-8, yang memperkenalkan Transformer dan tugas tipikalnya, tokenisasi, komposisi seni bina Transformer, latihan dan inferens Transformer, dan aplikasi praktikal.
Pseudokod pada asasnya lengkap dalam kertas adalah kira-kira 50 baris panjang, manakala kod sumber sebenar adalah beribu-ribu baris panjang. Pseudokod yang menerangkan algoritma dalam kertas adalah sesuai untuk penyelidik teori yang memerlukan formula padat, lengkap dan tepat, penyelidik eksperimen yang melaksanakan Transformer dari awal, dan juga berguna untuk melanjutkan kertas atau buku teks menggunakan algoritma Transformer formal.
Contoh pseudokod dalam kertas
Bagi mereka yang biasa dengan terminologi asas ML dan saraf mudah seni bina rangkaian Untuk pemula (seperti MLP), kertas kerja ini akan membantu anda menguasai asas Transformer yang kukuh dan menggunakan templat pseudokod untuk melaksanakan model Transformer anda sendiri.
Pengenalan kepada pengarang
Pengarang pertama kertas kerja ini ialah Mary Phuong, seorang penyelidik yang menyertai DeepMind secara rasmi pada Mac tahun ini. Beliau berkelulusan PhD dari Institut Sains dan Teknologi Austria, terutamanya terlibat dalam penyelidikan teori tentang pembelajaran mesin.
Pengarang kertas kerja lain ialah Marcus Hutter, penyelidik kanan di DeepMind dan juga Profesor Emeritus Australia di Institut Penyelidikan Sains Komputer (RSCS), Universiti Kebangsaan (ANU).
Marcus Hutter telah terlibat dalam penyelidikan mengenai teori matematik kecerdasan buatan untuk ramai tahun. Bidang penyelidikan ini berdasarkan beberapa konsep sains matematik dan pengiraan, termasuk pembelajaran pengukuhan, teori kebarangkalian, teori maklumat algoritma, pengoptimuman, carian, dan teori pengiraan. Buku beliau, Kecerdasan Buatan Am: Pembuatan Keputusan Berturut-turut Berdasarkan Kebarangkalian Algoritma, diterbitkan pada tahun 2005 dan merupakan buku yang sangat teknikal dan matematik.
Pada tahun 2002, Marcus Hutter, bersama-sama dengan Jürgen Schmidhuber dan Shane Legg, mencadangkan teori matematik kecerdasan buatan AIXI berdasarkan agen ideal dan pembelajaran pengukuhan ganjaran. Pada tahun 2009, Marcus Hutter mencadangkan teori pembelajaran pengukuhan ciri.
Atas ialah kandungan terperinci Dibina dari awal, kertas baharu DeepMind menerangkan Transformer secara terperinci dengan pseudokod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft