Rumah >Peranti teknologi >AI >Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

王林
王林ke hadapan
2023-04-16 19:25:011425semak imbas

Kesejagatan tugas ialah salah satu matlamat teras penyelidikan model asas, dan ia juga satu-satunya cara untuk penyelidikan pembelajaran mendalam membawa kepada kecerdasan lanjutan. Dalam beberapa tahun kebelakangan ini, terima kasih kepada keupayaan pemodelan utama universal mekanisme perhatian, Transformer telah menunjukkan prestasi yang baik dalam banyak bidang dan secara beransur-ansur menunjukkan trend seni bina universal. Walau bagaimanapun, apabila panjang jujukan bertambah, pengiraan mekanisme perhatian standard mempamerkan kerumitan kuadratik, yang secara serius menghalang penggunaannya dalam pemodelan jujukan panjang dan model besar.

Untuk tujuan ini, satu pasukan dari Pusat Pengajian Perisian, Universiti Tsinghua meneroka dengan mendalam isu utama ini dan mencadangkan Flowformer rangkaian tulang belakang kerumitan linear tugas-universal, sambil mengekalkan kepelbagaian standard Transformer Pada masa yang sama, kerumitannya dikurangkan kepada linear, dan kertas itu diterima oleh ICML 2022.

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

Senarai pengarang: Wu Haixu, Wu Jialong, Xu Jiehui, Wang Jianmin, Long Mingsheng

Pautan: https://arxiv.org/pdf/2202.06258.pdf

Kod: https://github. com/thuml/ Flowformer

Berbanding dengan Transformer standard, model Flowformer yang dicadangkan dalam artikel ini mempunyai ciri-ciri berikut:

  • Kerumitan linear boleh mengendalikan jujukan input beribu-ribu panjang; mekanisme perhatian asal Keupayaan pemodelan;
  • Tugas universal, mencapai kecemerlangan dalam lima tugas utama urutan panjang, penglihatan, bahasa semula jadi, siri masa dan pembelajaran pengukuhan
  • Kesan.
  • 1. Analisis MasalahInput mekanisme perhatian standard mengandungi tiga bahagian: pertanyaan(), kunci() dan nilai(), dan kaedah pengiraannya Seperti berikut: di manakah matriks berat perhatian, dan keputusan pengiraan akhir akan diperolehi oleh gabungan berwajaran Kerumitan pengiraan proses di atas ialah. Adalah diperhatikan bahawa terdapat banyak kajian mengenai masalah pendaraban berterusan matriks multinomial dalam algoritma klasik. Khususnya, untuk mekanisme perhatian, kita boleh menggunakan undang-undang bersekutu pendaraban matriks untuk mencapai pengoptimuman, sebagai contoh, kerumitan kuadratik asal boleh dikurangkan kepada linear. Tetapi fungsi dalam mekanisme perhatian menjadikannya mustahil untuk menggunakan undang-undang bersekutu secara langsung. Oleh itu, cara mengalih keluar fungsi dalam mekanisme perhatian adalah kunci untuk mencapai kerumitan linear. Walau bagaimanapun, banyak kerja baru-baru ini telah menunjukkan bahawa fungsi memainkan peranan penting dalam mengelakkan pembelajaran perhatian yang remeh. Ringkasnya, kami menantikan penyelesaian reka bentuk model yang mencapai matlamat berikut: (1) mengalih keluar fungsi; (3) mengekalkan fleksibiliti model;

2. Motivasi

Mensasarkan matlamat (1), dalam kerja sebelumnya, kaedah kernel sering digunakan untuk menggantikan fungsi, iaitu melalui pengiraan perhatian anggaran (untuk fungsi bukan linear), tetapi mengalihkannya secara langsung akan menyebabkan perhatian remeh. Untuk tujuan ini, untuk matlamat (2), kerja sebelumnya terpaksa memperkenalkan beberapa pilihan induktif, yang mengehadkan kepelbagaian model

, dan oleh itu tidak memenuhi matlamat (3), seperti andaian lokaliti dalam cosFormer .

Mekanisme persaingan dalam SoftmaxUntuk mencapai matlamat di atas, kita bermula dari sifat asas analisis. Kami ambil perhatian bahawa pada asalnya ia dicadangkan untuk melanjutkan operasi maksimum "pemenang-ambil-semua" ke dalam bentuk yang boleh dibezakan. Oleh itu, Terima kasih kepada mekanisme "persaingan" yang wujud, ia boleh membezakan pemberat perhatian antara token, dengan itu mengelakkan masalah perhatian biasa.

Berdasarkan pertimbangan di atas, kami cuba memperkenalkan mekanisme persaingan ke dalam reka bentuk mekanisme perhatian, untuk mengelakkan masalah perhatian remeh yang disebabkan oleh penguraian kaedah kernel.

Mekanisme persaingan dalam aliran rangkaianKami memberi perhatian kepada model aliran rangkaian klasik (rangkaian aliran) dalam teori graf, "pemuliharaan"

( Pemuliharaan) adalah fenomena penting, iaitu, aliran masuk setiap nod adalah sama dengan aliran keluar. Diilhamkan oleh

"Sumber tetap pasti akan menyebabkan persaingan"

, dalam artikel ini, kami cuba menganalisis semula aliran maklumat dalam mekanisme perhatian klasik dari perspektif aliran rangkaian, dan

mengubah persaingan melalui pemuliharaan sifat Memperkenalkan reka bentuk mekanisme perhatian untuk mengelakkan masalah perhatian biasa. 3. Flowformer3.1 Mekanisme perhatian dari perspektif aliran rangkaian

Di dalam mekanisme perhatian: aliran maklumat boleh dinyatakan sebagai: daripada

Sumber

(sumber, sepadan) diagregatkan kepada

tenggelam

(sinki, sepadan) berdasarkan

kapasiti aliran yang dipelajari (bersamaan dengan berat perhatian).

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

Di luar mekanisme perhatian, maklumat sumber (v) datang dari lapisan atas rangkaian, dan maklumat sinki (R) juga akan disediakan ke lapisan suapan hadapan di bawah.

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

3.2 Aliran-Perhatian

Berdasarkan pemerhatian di atas, kita boleh lulus masing-masing daripada aliran masuk Daripada dua perspektif aliran dan aliran keluar, kami mengawal interaksi antara mekanisme perhatian dan rangkaian luaran untuk mencapai "sumber tetap" , dengan itu menyebabkan persaingan dalam sumber dan tenggelam masing-masing untuk mengelakkan perhatian biasa. Tanpa kehilangan keluasan, kami menetapkan jumlah maklumat interaksi antara mekanisme perhatian dan rangkaian luaran kepada nilai lalai 1.

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

(1) Pemuliharaan aliran masuk sinki (R):

tidak sukar diperolehi Sebelum pemuliharaan, untuk sinki ke, jumlah maklumat yang mengalir masuk ialah: Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear | . Untuk menetapkan jumlah maklumat yang mengalir ke setiap sinki kepada unit 1, kami memperkenalkan Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear | sebagai penormalan ke dalam pengiraan aliran maklumat (berat perhatian). Selepas penormalan, jumlah maklumat aliran masuk sinki ke adalah: Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

Pada masa ini, disebabkan oleh pemuliharaan aliran masuk sinki, terdapat persaingan semula jadi antara pelbagai sumber (V) Hubungan, kami mengira jumlah maklumat yang diberikan oleh setiap sumber (V) pada masa ini, dan kami boleh mendapatkan: jumlah maklumat yang diberikan oleh setiap sumber di bawah keadaan persaingan, yang juga mewakili kepentingan setiap sumber.

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

(2) Pemuliharaan aliran keluar dari punca (V): Sama seperti proses yang disebutkan di atas, sebelum pemuliharaan, untuk sumber pertama, jumlah maklumat yang mengalir daripadanya ialah: Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |. Untuk menetapkan jumlah maklumat yang mengalir keluar dari setiap sumber kepada unit 1, kami akan memperkenalkan pengiraan aliran maklumat (berat perhatian) sebagai normalisasi. Selepas penormalan, jumlah maklumat aliran keluar daripada sumber ke-j ialah: Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |. Pada masa ini, disebabkan oleh pemuliharaan aliran keluar dari sumber, terdapat hubungan persaingan semula jadi antara singki () Kami mengira jumlah maklumat yang diterima oleh setiap sinki () pada masa ini, dan kami boleh mendapatkan: Dalam kes itu pertandingan, keputusan akhir yang diperlukan untuk setiap keputusan ialah Jumlah maklumat yang diterima.

(3) Reka bentuk keseluruhan

Berdasarkan keputusan di atas, kami mereka bentuk mekanisme Perhatian Aliran berikut, khususnya termasuk persaingan (Persaingan), pengagregatan (Agregasi), dan peruntukan (Peruntukan) tiga bahagian: Persaingan memperkenalkan mekanisme persaingan untuk menyerlahkan maklumat penting Pengagregatan merealisasikan kerumitan linear berdasarkan undang-undang bersekutu matriks memperkenalkan mekanisme persaingan dan memindahkan kawalan kepada; langkah seterusnya. Semua operasi dalam proses di atas mempunyai kerumitan linear. Pada masa yang sama, reka bentuk Aliran-Perhatian hanya bergantung pada prinsip pemuliharaan dalam aliran rangkaian dan menyepadukan semula aliran maklumat Oleh itu, ia tidak memperkenalkan keutamaan induktif baharu, memastikan kepelbagaian model. Flowformer diperoleh dengan menggantikan kerumitan kuadratik Attention dalam Transformer standard dengan Flow-Attention.

4 Eksperimen

Kertas kerja ini menjalankan eksperimen yang meluas pada set data standard:

  • meliputi Lima tugas utama : urutan panjang, penglihatan, bahasa semula jadi, siri masa, dan pembelajaran peneguhan;
  • Meliputi kes input pelbagai panjang jujukan (20-4000).
  • Membandingkan pelbagai kaedah asas seperti model klasik dalam pelbagai bidang, model dalam arus perdana, Transformer dan variannya.

Seperti yang ditunjukkan dalam jadual di bawah, Flowformer melakukan dengan baik pada semua lima tugas utama, mengesahkan kepelbagaian model. Sila lihat kertas untuk keputusan percubaan terperinci. Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |

5. Analisis

Untuk menerangkan lebih lanjut prinsip kerja Flowformer, kami menjalankan eksperimen visual mengenai perhatian (bersamaan dengan Flow-Attention) dalam tugas pengelasan ImageNet, yang mana kami boleh cari:

  • Jika anda hanya menggunakan kaedah kernel untuk penguraian, seperti Linear Transformer, model akan terganggu dan tidak dapat menangkap kawasan utama dengan berkesan; >
  • Kedua-dua Transformer klasik dan Flowformer boleh menangkap dengan tepat kedudukan utama imej, tetapi yang kedua mempunyai kelebihan dalam kerumitan pengiraan; dalam mekanisme perhatian Secara hipotesis, kesannya adalah luar biasa terhadap tugas bahasa. Tetapi dalam imej (membuka data 2D ke dalam urutan 1D), ia tidak boleh disesuaikan dengan tugas penglihatan tanpa memperluaskan andaian lokaliti kepada dua dimensi. Ini juga mengesahkan kelebihan kaedah reka bentuk dalam Flowformer yang "tidak memperkenalkan pilihan induktif baharu".
  • Visualisasi di atas menunjukkan bahawa memperkenalkan persaingan ke dalam reka bentuk mekanisme perhatian melalui Aliran-Perhatian boleh mengelakkan perhatian remeh dengan berkesan. Lebih banyak eksperimen visualisasi boleh didapati dalam kertas.

Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |6 Ringkasan

Flowformer yang dicadangkan dalam artikel ini memperkenalkan prinsip pemuliharaan dalam aliran rangkaian ke dalam reka bentuk, dan secara semula jadi memperkenalkan mekanisme persaingan ke dalam pengiraan perhatian, dengan berkesan. mengelak Ia menyelesaikan masalah perhatian yang remeh dan mengekalkan fleksibiliti Transformer standard sambil mencapai kerumitan linear. Flowformer telah mencapai keputusan cemerlang dalam lima tugas utama: jujukan panjang, penglihatan, bahasa semula jadi, siri masa dan pembelajaran pengukuhan

. Di samping itu, konsep reka bentuk "tiada keutamaan induksi khas" dalam Flowformer juga memberi inspirasi kepada penyelidikan infrastruktur umum. Dalam kerja akan datang, kami akan meneroka lebih lanjut potensi Flowformer untuk pra-latihan berskala besar.

Atas ialah kandungan terperinci Tugas biasa! Tsinghua mencadangkan Flowformer rangkaian tulang belakang untuk mencapai kerumitan linear |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam