ホームページ >テクノロジー周辺機器 >AI >CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。
ペーパーアドレス: https://arxiv.org/abs/2407.12874 コードリポジトリ: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE
図 1: SELF-GUIDE はモデルを使用して自律そうだデータの合成 特定のタスクを実行するモデルの能力を向上させる機能。
方法具体的には、研究チームはSELF-GUIDE方法を入力データ生成、出力データ生成、品質最適化の3つの主要な段階に分解しました。 入力データの生成 SELF-GUIDE フレームワークの設計と実装のプロセスでは、研究者はまずタスクの種類 (生成タスクまたは分類タスク) に応じて異なるプロンプト テンプレートを指定しました。生成タスクの場合、SELF-GUIDE フレームワークは比較的単純なプロンプト テンプレートを使用します。分類タスクの場合、SELF-GUIDE フレームワークは別の戦略を採用します。分類タスクの場合、SELF-GUIDE フレームワークは最初にすべてのラベル空間からラベルをランダムに選択し、それを条件付きで生成された擬似ラベルとして使用して、入力データの生成をガイドします。擬似ラベルを選択した後、SELF-GUIDE フレームワークはより複雑な条件を使用してテンプレートを生成し、選択した擬似ラベルに対応する入力コンテンツを生成するようにモデルをガイドします。図 2: SELF-GUIDE の中核は、言語モデルが段階的に入出力データの組み合わせを生成する効率的な多段階生成メカニズムにあります。生成とフィルタリングの後、自己生成されたデータは言語モデル自体を微調整するためにさらに使用されます。この図は、SELF-GUIDE のビルド タスクの流れを示しています。
テンプレートが選択され、いくつかのショットのサンプルが入力された後、完全なプロンプトが LLM に渡されて、入力データが生成されます。プロンプトの各ラウンドの後、新しく生成された入力が入力ライブラリに追加されます。入力のサブセットがこのライブラリからランダムにサンプリングされ、最初の例の入力とマージされて新しいキューが形成され、LLM によって生成される入力セットが徐々に拡張され、重複が減ります。 SELF-GUIDE は入力生成を 1 ラウンドのみ実行し、その後、ルールベースのフィルターを適用して低品質の入力を削除する品質最適化フェーズが実行されます。
Rajah 3: Rajah ini menerangkan proses PANDUAN KENDIRI menyelesaikan tugas pengelasan. Untuk data daripada tugas pengelasan, PANDUAN DIRI mula-mula menjana label pseudo, kemudian menjana input yang sepadan, dan akhirnya menjana semula label sebenar.
Penjanaan data output
Fasa penjanaan data output menggunakan kaedah pembelajaran konteks biasa: penyelidik menyediakan arahan tugasan dan contoh asal kepada model, membenarkan model melabelkan setiap input yang dijana dalam fasa penjanaan input. Selepas semua output diperoleh, satu lagi pusingan penapisan berasaskan peraturan dilakukan untuk memilih set data sintetik akhir.
Pengoptimuman Kualiti
Kualiti data yang dijana adalah penting untuk kejayaan latihan hiliran. PANDUAN KENDIRI menggunakan dua strategi untuk meningkatkan kualiti: melaraskan parameter penjanaan untuk meningkatkan kualiti penjanaan dan menapis sampel berkualiti rendah berdasarkan peraturan.
Laraskan suhu: Melaraskan suhu ialah strategi biasa untuk mengimbangi kepelbagaian dan kualiti. Rangka kerja PANDUAN DIRI menggunakan suhu yang lebih tinggi dalam peringkat penjanaan input untuk menggalakkan kepelbagaian dan suhu yang lebih rendah pada peringkat lain untuk memastikan keluaran kebarangkalian tertinggi, sekali gus memastikan kualiti data keseluruhan. Walau bagaimanapun, pelarasan suhu sahaja tidak mencukupi untuk mencapai keseimbangan yang diingini. Oleh itu, PANDUAN KENDIRI juga melakukan dua pusingan penapisan data berasaskan peraturan selepas penjanaan input dan selepas anotasi output.
Penapis Bunyi: Penyelidik menyusun senarai istilah hingar secara manual, termasuk sapaan biasa dan aksara hingar (contohnya, "”" dalam kandungan yang dijana jika ada yang muncul dalam input atau output contoh yang dijanakan Istilah bising daripada ini senarai, PANDUAN KENDIRI akan membuang keseluruhan contoh
Penapis Panjang: Walaupun panjang contoh mungkin berat sebelah, penyelidik percaya bahawa contoh ini masih mewakili dari segi pengagihan panjang tugasan tertentu panjang contoh mengikuti taburan normal, dan mengira min μ dan sisihan piawai σ contoh input Penyelidik menganggap bahawa panjang input dan output contoh yang dijana harus mematuhi taburan normal yang sama, dan memerlukan panjang untuk. berada dalam (μ − 2σ, μ + 2σ). titik data, termasuk Bilangan input dan output yang dijana, suhu di mana data input dijana, suhu di mana data output dijana, parameter penalaan halus, dsb. Penyelidik membahagikan tugas ujian eksperimen kepada dua bahagian: satu bahagian boleh menggunakan semua data untuk pengesahan untuk melaraskan parameter penjanaan, yang dipanggil tugas pengesahan ; parameter yang "memaksimumkan prestasi tugas yang paling teruk" pada tugas pengesahan dan membetulkannya untuk menilai PANDUAN KENDIRI pada tugasan ujian
Hasil eksperimen
Untuk menilai keberkesanan PANDUAN KENDIRI, penyelidik memilih 14 tugasan klasifikasi dan 8 generasi. tugasan daripada tanda aras Super-NaturalInstructions V2 Para penyelidik memilih secara rawak separuh daripada tugasan untuk carian Parameter Super-Natural, separuh lagi digunakan untuk penilaian Dari segi model, penyelidik memilih Vicuna-7b-1.5 sebagai model asas untuk penjanaan input, penjanaan keluaran dan penalaan halus Dari segi penunjuk penilaian, penyelidik menggunakan tanda aras Arahan Super-Natural ialah Padanan Tepat untuk tugasan klasifikasi dan ROUGE-L untuk tugasan penjanaan Untuk menggambarkan kesan PANDUAN KENDIRI, penyelidik membandingkan PANDUAN KENDIRI dengan kaedah pembelajaran mengikut arahan dan konteks yang lain:
1. Sedikit- Tembakan ICL: Sebagai penanda aras utama, penyelidik membandingkan dengan model bahasa petunjuk langsung bergantung secara langsung pada kebolehan mengikut arahan model
2. Self-ICL menggunakan contoh yang dijana sendiri untuk meningkatkan arahan sifar rujukan sampel dengan menjana sendiri seberapa banyak contoh yang mungkin (bukannya bilangan contoh tetap) untuk mengisi perkataan gesaan.
3.Finetuning Few-Shot: Gunakan secara langsung sebilangan kecil sampel input untuk penalaan halus.
PANDUAN KENDIRI Keputusan percubaan utama teks asal adalah seperti berikut. Pada metrik penilaian garis dasar, peningkatan mutlak untuk tugas klasifikasi mencapai 14.5%, manakala peningkatan mutlak untuk tugas penjanaan mencapai 17.9%. Keputusan ini menunjukkan bahawa PANDUAN KENDIRI amat berkesan dalam membimbing LLM ke arah pengkhususan tugasan, walaupun data sangat terhad. Ini menyerlahkan potensi data yang dijana sendiri untuk menyesuaikan LLM kepada tugas tertentu pada skala. Untuk lebih banyak keputusan eksperimen dan eksperimen ablasi, sila rujuk kertas asal. . separuh digunakan untuk menggunakan parameter nyahpepijat ini Parameter menguji prestasi PANDUAN KENDIRI. Kami menggunakan parameter penyahkodan dan templat kiu yang sama untuk menilai prestasi model sebelum dan selepas PANDUAN KENDIRI.
Ringkasan
Rangka kerja PANDUAN DIRI menggalakkan model untuk menjana data latihan secara autonomi dan memperhalusi data ini. Keputusan eksperimen menunjukkan bahawa kaedah ini mempunyai potensi besar dalam meningkatkan keupayaan profesional model bahasa berskala besar untuk tugasan tertentu, terutamanya apabila data terhad, PANDUAN KENDIRI dapat menyelesaikan masalah kekurangan data latihan dengan berkesan. Pada masa yang sama, ini juga menyediakan rujukan untuk meneroka teknologi untuk penyesuaian model autonomi dan pembelajaran berterusan. Para penyelidik berharap bahawa kerja ini akan menggalakkan pembangunan sistem AI dalam penjajaran autonomi dan mekanisme penambahbaikan untuk menjadikannya lebih konsisten dengan niat manusia.
以上がCMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。