Rumah  >  Artikel  >  Peranti teknologi  >  Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

WBOY
WBOYke hadapan
2023-09-27 14:01:272676semak imbas

.

Mengapakah kepentingan alternatif begitu menonjol?

Dengan revolusi kecerdasan buatan pada 2023, seni bina Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

Transformer


kini berada di kemuncaknya. Walau bagaimanapun, dalam tergesa-gesa untuk menggunakan seni bina

Transformer yang berjaya, mudah untuk mengabaikan alternatif yang boleh dipelajari.

Sebagai jurutera, kita tidak seharusnya mengambil pendekatan satu saiz untuk semua dan menggunakan penyelesaian yang sama untuk setiap masalah. Kita harus mempertimbangkan kebaikan dan keburukan dalam setiap situasi; jika tidak, terperangkap dalam batasan platform tertentu sambil berasa "puas hati" dengan tidak mengetahui ada alternatif boleh mengubah pembangunan kembali kepada pra-pembebasan semalaman Masalah ini adalah bukan unik untuk bidang kecerdasan buatan, tetapi corak sejarah yang telah berulang dari zaman dahulu hingga kini.

Sebuah halaman dalam sejarah SQL Wars, cerita tentang persaingan dan konfrontasi antara sistem pengurusan pangkalan data. Dalam cerita ini, pelbagai sistem pengurusan pangkalan data, seperti Oracle, MySQL, dan SQL Server, bersaing sengit untuk bahagian pasaran dan kelebihan teknikal. Pertandingan ini bukan sahaja dicerminkan dalam prestasi dan kefungsian, tetapi juga melibatkan banyak aspek seperti strategi perniagaan, pemasaran dan kepuasan pengguna. Sistem pengurusan pangkalan data ini sentiasa memperkenalkan ciri dan penambahbaikan baharu untuk menarik lebih ramai pengguna dan perniagaan memilih produk mereka. Sebuah halaman dalam sejarah perang SQL, yang telah menyaksikan perkembangan dan perubahan industri sistem pengurusan pangkalan data, dan juga memberikan kami pengalaman dan pelajaran berharga

Contoh penting dalam pembangunan perisian baru-baru ini ialah apabila SQL Trend NoSQL muncul apabila pelayan mula dikekang secara fizikal. Pemula di seluruh dunia beralih ke NoSQL atas sebab "skala", walaupun mereka tidak berada di tempat yang hampir dengan skala tersebut


Walau bagaimanapun, dari masa ke masa, apabila konsistensi akhirnya dan overhed pengurusan NoSQL muncul, dan lonjakan besar dalam keupayaan perkakasan dari segi Kelajuan dan kapasiti SSD, pelayan SQL telah melihat kemunculan semula baru-baru ini kerana kesederhanaan penggunaannya dan kini lebih daripada 90% pemula mempunyai kebolehskalaan yang mencukupi SQL dan NoSQL adalah dua teknologi pangkalan data yang berbeza. SQL ialah singkatan Bahasa Pertanyaan Berstruktur, yang digunakan terutamanya untuk memproses data berstruktur. NoSQL merujuk kepada pangkalan data bukan hubungan, sesuai untuk memproses data tidak berstruktur atau separa berstruktur. Walaupun sesetengah orang berpendapat bahawa SQL adalah lebih baik daripada NoSQL, atau sebaliknya, pada hakikatnya ia hanya bermakna bahawa setiap teknologi mempunyai kebaikan, keburukan dan kes penggunaannya sendiri. Dalam sesetengah kes, SQL mungkin lebih sesuai untuk memproses data hubungan yang kompleks, manakala NoSQL lebih sesuai untuk memproses data tidak berstruktur berskala besar. Walau bagaimanapun, ini tidak bermakna hanya satu teknologi boleh dipilih. Malah, banyak aplikasi dan sistem menggunakan penyelesaian hibrid SQL dan NoSQL dalam amalan. Bergantung pada keperluan khusus dan jenis data, teknologi yang paling sesuai boleh dipilih untuk menyelesaikan masalah. Oleh itu, adalah penting untuk memahami ciri dan senario yang boleh digunakan bagi setiap teknologi dan membuat pilihan termaklum berdasarkan situasi tertentu. Sama ada SQL atau NoSQL, kedua-duanya mempunyai mata pembelajaran tersendiri dan kes penggunaan pilihan yang boleh dipelajari dan didebunga silang antara teknologi yang serupa

Apakah titik kesakitan terbesar semasa Transformer

seni bina?


Biasanya ini termasuk pengiraan, saiz konteks, set data dan penjajaran. Dalam perbincangan ini kita akan menumpukan pada pengiraan dan panjang konteks:

Kos pengiraan kuadratik disebabkan oleh peningkatan O(N^2) bagi setiap token yang digunakan/dijana. Ini menjadikan saiz konteks lebih besar daripada 100,000 sangat mahal, menjejaskan inferens dan latihan.

Kekurangan GPU semasa memburukkan lagi masalah ini.

Saiz konteks mengehadkan mekanisme Perhatian, mengehadkan kes penggunaan "agen pintar" dengan teruk (seperti smol-dev) dan memaksa penyelesaian kepada masalah itu. Konteks yang lebih besar memerlukan lebih sedikit penyelesaian.
  • Jadi, bagaimana kita nak selesaikan masalah ini? . Linear Transformers" dalam kategori baharu Yang pertama
  • yang secara langsung menangani tiga batasan di atas dengan menyokong:
    • Kos pengiraan linear, bebas daripada saiz konteks.
    • Membenarkan token/output saat yang munasabah dalam mod RNN dengan keperluan yang lebih rendah dalam CPU (terutamanya ARM) . Tiada had saiz konteks keras sebagai RNN. Sebarang had dalam dokumentasi adalah garis panduan - anda boleh memperhalusinya.
    • Sambil kami terus mengembangkan model kecerdasan buatan kepada 10#๐ŸŽœ#๐ŸŽœ ๐ŸŽœ#Dengan saiz konteks k dan ke atas, kos pengiraan kuadratik mula berkembang secara eksponen.

    Walau bagaimanapun, Linear Transformers tidak meninggalkan seni bina rangkaian saraf berulang dan menyelesaikan kesesakannya, yang memaksa mereka diganti.

    Walau bagaimanapun, RNN yang direka bentuk semula mempelajari pelajaran berskala Transformer, membolehkan RNN berfungsi sama dengan Transformer dan menghapuskan keperluan untuk kesesakan.

    Dari segi kelajuan latihan, gunakan Transformer untuk membawa mereka kembali ke padang - membolehkan mereka berjalan dengan cekap di O(N) kos, Pada masa yang sama skala kepada lebih 1 bilion parameter dalam latihan sambil mengekalkan tahap prestasi yang sama.

    Carta: Linear Transformer mengira pertumbuhan perkenan linear vs. daripada transformer Anda akan mendapat pertumbuhan 10x+ pada kiraan token 2k dan pertumbuhan 100x+ pada panjang token 100k ๐ŸŽœ๐ŸŽœ#Pada parameter 14B, RWKV ialah Transformer linear sumber terbuka terbesar, setanding dengan GPT NeoX dan set data lain yang serupa seperti Pile.

    Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

    #๐ŸŽœ๐ŸŽœ๐ŸŽœ##๐ŸŽœ๐ŸŽœ model Prestasinya setanding dengan model pengubah sedia ada dengan saiz yang sama, seperti yang ditunjukkan oleh pelbagai penanda aras ๐ŸŽœ#Tetapi dalam istilah yang lebih mudah, apakah maksudnya?


    ##Kelebihan๐ŸŽœ ๐ŸŽœ๐ŸŽœ#

    Inferens/latihan adalah 10x atau lebih murah daripada Transformer pada saiz konteks yang lebih besar


    #๐ŸŽœ ๐ŸŽœ๐ŸŽœ#

    Dalam mod RNN, boleh berjalan perlahan-lahan pada perkakasan yang sangat terhad Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

    #๐ŸŽœ๐ŸŽœ prestasi Transformilar kepada Transformilar pada set data yang sama


    RNN tidak mempunyai had saiz konteks teknikal (konteks tanpa had!) #๐ŸŽœ ๐ŸŽœ##๐ŸŽœ๐ŸŽœ๐ŸŽœ๐ŸŽœ๐ŸŽœ ๐ŸŽœ#


    Keburukan

    Keburukan

      Keburukan
    • #๐ŸŽœ๐ŸŽœ #Masalah tingkap gelongsor, ingatan hilang melebihi titik tertentu
    • #๐ŸŽœ๐ŸŽœ ##๐ŸŽœ๐ŸŽœ๐ŸŽœ๐ŸŽœ๐ŸŽœ #Tidak terbukti boleh berskala melebihi parameter 14B
    • Tidak sebagus pengoptimuman dan penggunaan transformer#๐ŸŽœ#๐ŸŽœ ๐ŸŽœ๐ŸŽœ#
    • Jadi sementara RWKV belum berada pada skala parameter 60B+ LLaMA2, adalah mungkin dengan sokongan dan sumber yang betul Mencapai ini pada kos yang lebih rendah dan dalam julat persekitaran yang lebih luas, terutamanya kerana model cenderung lebih kecil dan lebih cekap Pertimbangkan ini jika kes penggunaan anda penting untuk kecekapan. Walau bagaimanapun, ini bukan penyelesaian muktamad โ€“ kuncinya terletak pada alternatif yang sihat Kita harus mempertimbangkan untuk mempelajari alternatif lain dan faedahnya Lebih perlahan, tetapi sangat fleksibel untuk latihan berbilang zaman. Mengetahui sebab boleh membantu mengurangkan krisis token.

    Rangkaian/ejen lawan generatif: teknik boleh digunakan untuk melatih set latihan yang diperlukan kepada matlamat Khusus, walaupun untuk model berasaskan teks . #๐ŸŽœ๐ŸŽœ ##### ๐ŸŽœ๐ŸŽœ ## ๐ŸŽœ๐ŸŽœ ## ๐ŸŽœ๐ŸŽœ ## ๐ŸŽœ๐ŸŽœ ## ๐ŸŽœ๐ŸŽœ ## ๐ŸŽœ๐ŸŽœ
    Tajuk asal:#๐ŸŽœ daripada Pengubah Linear dan Pilihan Penerokaan ๐ŸŽœ#

    https://www.php.cn/link/b433da1b32b5ca96c0ba7fcb9edba97d

    #๐ŸŽœ

Atas ialah kandungan terperinci Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan๏ผš
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam