Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini-AI-php.cn

Rumah

Peranti teknologi

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

王林

Apr 11, 2023 am 11:46 AM

Modelpanduan

Sejak ia dicadangkan pada 2017, model Transformer telah menunjukkan kekuatan yang tidak pernah berlaku sebelum ini dalam bidang lain seperti pemprosesan bahasa semula jadi dan penglihatan komputer, dan mencetuskan kejayaan teknologi seperti ChatGPT People juga telah mencadangkan pelbagai Varian berasaskan asal model itu.

Memandangkan akademia dan industri terus mencadangkan model baharu berdasarkan mekanisme perhatian Transformer, kadangkala sukar bagi kami untuk merumuskan hala tuju ini. Baru-baru ini, artikel komprehensif oleh Xavier Amatriain, ketua strategi produk AI di LinkedIn, boleh membantu kami menyelesaikan masalah ini.

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Dalam beberapa tahun lalu, satu selepas satu lagi Terdapat berpuluh-puluh model daripada keluarga Transformer, semuanya dengan nama yang menarik dan mudah difahami. Matlamat artikel ini adalah untuk menyediakan katalog dan klasifikasi yang agak komprehensif tetapi ringkas bagi model Transformer yang paling popular Selain itu, artikel ini juga memperkenalkan aspek dan inovasi yang paling penting dalam model Transformer.

Kertas kerja "Transformer models: an introduction and catalog":

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Pautan kertas:

https://arxiv.org/abs/2302.07730

GitHub: https://github.com/xamat/TransformerCatalog

Pengenalan: Apa itu Transformer

Transformer ialah kelas yang terdiri daripada beberapa model pembelajaran mendalam yang ditakrifkan oleh ciri-ciri seni bina. Pertama kali muncul dalam kertas terkenal "Perhatian adalah Semua yang Anda Perlukan" yang diterbitkan oleh penyelidik Google pada 2017 (kertas kerja ini telah dipetik lebih daripada 38,000 kali dalam masa 5 tahun sahaja) dan catatan blog yang berkaitan. Seni bina Transformer ialah contoh khusus model pengekod-penyahkod [2] yang menjadi popular 2-3 tahun lalu. Walau bagaimanapun, sehingga itu, perhatian hanyalah satu daripada mekanisme yang digunakan oleh model ini, yang kebanyakannya berdasarkan LSTM (Memori Jangka Pendek Panjang) [3] dan varian RNN (Rangkaian Neural Berulang) [4] lain. Wawasan utama kertas Transformers ialah, seperti yang dicadangkan oleh tajuk, perhatian boleh digunakan sebagai satu-satunya mekanisme untuk memperoleh kebergantungan antara input dan output. Membincangkan semua butiran seni bina Transformer adalah di luar skop blog ini. Untuk tujuan ini, artikel ini mengesyorkan merujuk kepada kertas asal di atas atau siaran Transformers, yang kedua-duanya sangat menarik. Oleh itu, artikel ini akan menerangkan secara ringkas aspek yang paling penting dan ia juga akan disebut dalam jadual kandungan di bawah. Artikel ini akan bermula dengan rajah seni bina asas dalam kertas asal, dan kemudian mengembangkan kandungan yang berkaitan.

Seni Bina Pengekod/Penyahkod

Seni Bina Pengekod/Penyahkod Universal (lihat Rajah 1) oleh Terdiri daripada dua model. Pengekod mengambil input dan mengekodnya ke dalam vektor panjang tetap. Penyahkod mengambil vektor ini dan menyahkodnya ke dalam urutan output. Pengekod dan penyahkod dilatih bersama untuk meminimumkan kemungkinan log bersyarat. Setelah dilatih, pengekod/penyahkod boleh menjana output diberikan urutan input, atau ia boleh menjaringkan urutan input/output. Dalam seni bina Transformer asal, pengekod dan penyahkod mempunyai 6 lapisan yang sama. Setiap pengekod dalam 6 lapisan ini mempunyai dua sublapisan: lapisan perhatian berbilang kepala dan rangkaian suapan hadapan yang mudah. Setiap sub-lapisan mempunyai sambungan baki dan normalisasi lapisan. Saiz output pengekod ialah 512. Penyahkod menambah sub-lapisan ketiga, yang merupakan satu lagi lapisan perhatian berbilang kepala pada output pengekod. Selain itu, satu lagi lapisan berbilang kepala dalam penyahkod bertopeng.

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Rajah 1: Seni bina pengubah

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Rajah 2: Mekanisme Perhatian

Perhatian

Adalah jelas daripada huraian di atas bahawa satu-satunya elemen khas seni bina model ialah perhatian berbilang kepala, tetapi, seperti yang diterangkan di atas, di sinilah kuasa penuh model itu terletak. Jadi, apa sebenarnya perhatian? Fungsi perhatian ialah pemetaan antara pertanyaan dan set pasangan nilai kunci kepada output. Output dikira sebagai jumlah nilai wajaran, di mana berat yang diberikan kepada setiap nilai dikira oleh fungsi keserasian pertanyaan dengan kunci yang sepadan. Transformer menggunakan perhatian berbilang kepala, iaitu pengiraan selari bagi fungsi perhatian khusus yang dipanggil perhatian produk titik berskala. Untuk butiran lanjut tentang cara mekanisme perhatian berfungsi, artikel ini akan merujuk sekali lagi kepada siaran The Illustrated Transformer, dan gambar rajah daripada kertas asal akan diterbitkan semula dalam Rajah 2 untuk memahami idea utama. Lapisan perhatian mempunyai beberapa kelebihan berbanding rangkaian berulang dan konvolusi, dua yang paling penting ialah kerumitan pengiraan yang lebih rendah dan ketersambungan yang lebih tinggi, yang amat berguna untuk mempelajari kebergantungan jangka panjang dalam jujukan .

Apakah Transformer digunakan dan mengapa ia begitu popular

Transformer asal direka untuk terjemahan bahasa , terutamanya dari bahasa Inggeris ke Jerman. Walau bagaimanapun, seperti yang dapat dilihat dari kertas penyelidikan asal, seni bina digeneralisasikan dengan baik kepada tugas bahasa lain. Trend khusus ini dengan cepat menarik perhatian komuniti penyelidikan. Dalam bulan-bulan berikutnya, kebanyakan kedudukan tugasan ML yang berkaitan dengan bahasa telah dikuasai sepenuhnya oleh beberapa versi seni bina Transformer (cth., ranking SQUAD yang terkenal, di mana semua model teratas ialah koleksi Transformers ). Salah satu sebab utama Transformers dapat mendominasi kebanyakan ranking NLP dengan begitu pantas ialah keupayaan mereka untuk menyesuaikan diri dengan pantas kepada tugas lain, a.k.a. pembelajaran pemindahan. Model Transformer Pra-latihan boleh disesuaikan dengan sangat mudah dan cepat kepada tugas yang mereka tidak dilatih, yang mempunyai kelebihan yang besar. Sebagai pengamal ML, anda tidak perlu lagi melatih model besar pada set data yang besar. Apa yang anda perlu lakukan ialah menggunakan semula model terlatih dalam tugas anda, mungkin hanya mengubahnya sedikit dengan set data yang lebih kecil. Satu teknik khusus yang digunakan untuk menyesuaikan model terlatih kepada tugasan yang berbeza dipanggil penalaan halus.

Transformer terbukti sangat mudah disesuaikan dengan tugasan lain sehinggakan walaupun pada asalnya ia dibangunkan untuk tugasan yang berkaitan dengan bahasa, ia digunakan dengan cepat untuk Tugas-tugas lain terdiri daripada aplikasi visual atau audio dan muzik, sepanjang jalan. untuk bermain catur atau membuat matematik.

Sudah tentu, tiada satu pun daripada aplikasi ini boleh dilakukan jika bukan kerana banyak alatan yang membolehkan sesiapa sahaja menulis beberapa baris kod dengan mudah. Transformer bukan sahaja boleh disepadukan dengan cepat ke dalam rangka kerja kecerdasan buatan utama (iaitu Pytorch8 dan TF9), malah seluruh syarikat boleh dibina berdasarkannya. Huggingface, sebuah syarikat permulaan yang telah mengumpul lebih $60 juta setakat ini, dibina hampir keseluruhannya berdasarkan idea untuk mengkomersialkan perpustakaan Transformer sumber terbuka.

Akhir sekali, adalah perlu untuk bercakap tentang kesan GPT-3 pada Transformer pada peringkat awal popularitinya. GPT-3 ialah model Transformer yang dilancarkan oleh OpenAI pada Mei 2020 dan merupakan susulan kepada GPT dan GPT-2 mereka yang terdahulu. Syarikat itu mencipta banyak buzz dengan memperkenalkan model itu dalam pracetak, yang mereka dakwa sangat berkuasa sehingga mereka tidak dapat mengeluarkannya kepada dunia. Sejak itu, model itu bukan sahaja dikeluarkan, tetapi juga dikomersialkan melalui kerjasama besar-besaran antara OpenAI dan Microsoft. GPT-3 menyokong lebih 300 aplikasi berbeza dan merupakan asas kepada strategi perniagaan OpenAI (yang masuk akal untuk syarikat yang telah mengumpulkan lebih daripada $1 bilion dalam pembiayaan).

RLHF

Baru-baru ini, pembelajaran peneguhan daripada maklum balas manusia (atau keutamaan) (RLHF (juga dikenali sebagai RLHP) ) telah menjadi tambahan besar kepada kit alat kecerdasan buatan Konsep ini telah dicadangkan dalam kertas kerja 2017 "Pembelajaran tetulang mendalam daripada pilihan manusia", dan baru-baru ini ia telah digunakan untuk ChatGPT dan ejen perbualan yang serupa seperti BlenderBot atau Sparrow idea adalah mudah: sebaik sahaja model bahasa telah dilatih, pengguna boleh menjana respons yang berbeza kepada perbualan dan meminta manusia menentukan kedudukan keputusan ini (aka keutamaan atau maklum balas) dalam persekitaran pembelajaran pengukuhan untuk melatih ganjaran (Lihat Rajah 3).

Model penyebaran telah menjadi SOTA baharu dalam penjanaan imej, nampaknya mengetepikan kaedah sebelumnya seperti GAN (Generative Adversarial Networks). Apakah model resapan? Ia adalah kelas model pembolehubah terpendam yang dilatih dengan inferens variasi. Rangkaian yang dilatih dengan cara ini sebenarnya mempelajari ruang terpendam yang diwakili oleh imej ini (lihat Rajah 4).

Model resapan berkaitan dengan model generatif lain, seperti [Generative Adversarial Networks (GAN)] 16 yang terkenal, yang telah digantikan dalam banyak aplikasi, terutamanya dengan (denoising) Autoencoder. Sesetengah pengarang juga mengatakan bahawa model resapan hanyalah contoh khusus pengekod auto. Walau bagaimanapun, mereka juga mengakui bahawa perbezaan kecil mengubah aplikasi mereka daripada perwakilan asas autokonder kepada sifat generatif model resapan semata-mata.

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Rajah 3: Pembelajaran pengukuhan dengan maklum balas manusia.

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Rajah 4: Seni bina model resapan kemungkinan dipetik daripada "Diffusion Model" : Tinjauan Komprehensif Kaedah dan Aplikasi》

Model yang diperkenalkan dalam artikel ini termasuk:

Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini

Atas ialah kandungan terperinci Dipetik 38,000 kali dalam tempoh lima tahun, alam semesta Transformer telah berkembang seperti ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Adakah Model Model ' S 7B Olympiccoder mengalahkan Claude 3.7?Apr 23, 2025 am 11:49 AM

Memeluk Olimpikcoder-7B: Model Penaakulan Kod Terbuka Sumber Terbuka yang kuat Perlumbaan untuk membangunkan model bahasa yang tertumpu kepada kod unggul semakin meningkat, dan Hugging Face telah menyertai pertandingan dengan pesaing yang hebat: Olympiccoder-7b, produk

4 ciri Gemini baru yang anda tidak dapat merinduiApr 23, 2025 am 11:48 AM

Berapa banyak daripada anda yang berharap AI dapat melakukan lebih daripada sekadar menjawab soalan? Saya tahu saya ada, dan sejak kebelakangan ini, saya kagum dengan bagaimana ia berubah. AI Chatbots bukan sekadar berbual lagi, mereka sedang membuat, Researchin

Camunda menulis skor baru untuk orkestra ai agentikApr 23, 2025 am 11:46 AM

Oleh kerana Smart AI mula diintegrasikan ke dalam semua peringkat platform dan aplikasi perisian perusahaan (kita harus menekankan bahawa terdapat kedua -dua alat teras yang kuat dan beberapa alat simulasi yang kurang dipercayai), kita memerlukan satu set baru keupayaan infrastruktur untuk menguruskan agen -agen ini. Camunda, sebuah syarikat orkestrasi proses yang berpusat di Berlin, Jerman, percaya ia dapat membantu Smart AI memainkan peranannya yang sewajarnya dan selaras dengan matlamat dan peraturan perniagaan yang tepat di tempat kerja digital yang baru. Syarikat ini kini menawarkan keupayaan orkestra pintar yang direka untuk membantu model organisasi, menggunakan dan mengurus ejen AI. Dari perspektif kejuruteraan perisian praktikal, apakah maksudnya? Integrasi proses kepastian dan bukan deterministik Syarikat itu mengatakan yang penting adalah untuk membolehkan pengguna (biasanya saintis data, perisian)

Adakah nilai dalam pengalaman AI perusahaan yang dikendalikan?Apr 23, 2025 am 11:45 AM

Menghadiri Google Cloud Seterusnya '25, saya berminat untuk melihat bagaimana Google akan membezakan tawaran AInya. Pengumuman baru -baru ini mengenai Agentspace (dibincangkan di sini) dan Suite Pengalaman Pelanggan (dibincangkan di sini) menjanjikan, menekankan perniagaan Valu

Bagaimana untuk mencari model penyembuhan berbilang bahasa terbaik untuk kain anda?Apr 23, 2025 am 11:44 AM

Memilih model penyembuhan berbilang bahasa yang optimum untuk sistem pengambilan semula (RAG) pengambilan anda Di dunia yang saling berkaitan hari ini, membina sistem AI berbilang bahasa yang berkesan adalah yang paling utama. Model penyembuhan berbilang bahasa yang teguh adalah penting untuk Re

Musk: Robotaxis di Austin memerlukan campur tangan setiap 10,000 batuApr 23, 2025 am 11:42 AM

Pelancaran Austin Robotaxi Tesla: Melihat lebih dekat dengan tuntutan Musk Elon Musk baru-baru ini mengumumkan pelancaran Robotaxi yang akan datang di Tesla di Austin, Texas, pada mulanya mengerahkan armada kecil 10-20 kenderaan untuk alasan keselamatan, dengan rancangan untuk pengembangan pesat. H

AI 'Apr 23, 2025 am 11:41 AM

Cara kecerdasan buatan digunakan mungkin tidak dijangka. Pada mulanya, ramai di antara kita mungkin berfikir ia digunakan terutamanya untuk tugas kreatif dan teknikal, seperti menulis kod dan membuat kandungan. Walau bagaimanapun, satu tinjauan baru -baru ini yang dilaporkan oleh Harvard Business Review menunjukkan bahawa ini tidak berlaku. Kebanyakan pengguna mencari kecerdasan buatan bukan hanya untuk kerja, tetapi untuk sokongan, organisasi, dan juga persahabatan! Laporan itu mengatakan bahawa kes permohonan AI yang pertama adalah rawatan dan persahabatan. Ini menunjukkan bahawa ketersediaan 24/7 dan keupayaan untuk memberikan nasihat dan maklum balas yang jujur, jujur adalah nilai yang sangat baik. Sebaliknya, tugas pemasaran (seperti menulis blog, mewujudkan jawatan media sosial, atau salinan pengiklanan) yang lebih rendah pada senarai penggunaan popular. Mengapa ini? Mari kita lihat hasil penyelidikan dan bagaimana ia terus menjadi

Syarikat berlumba ke arah pengangkatan ejen AIApr 23, 2025 am 11:40 AM

Kebangkitan agen AI mengubah landskap perniagaan. Berbanding dengan revolusi awan, kesan agen AI diramalkan secara eksponen lebih besar, menjanjikan untuk merevolusikan kerja pengetahuan. Keupayaan untuk mensimulasikan keputusan-maki manusia

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

4 minggu yang laluByDDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang laluByDDD

Tunjukkan Lagi

Alat panas

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini