ホームページ >テクノロジー周辺機器 >AI >CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

王林
王林オリジナル
2024-08-01 18:29:411098ブラウズ

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この記事の主な著者は清華大学とカーネギー メロン大学 (CMU) です。彼らは、清華大学コンピューターサイエンス学部卒業生のZhao Chenyang氏と、カーネギーメロン大学の修士課程学生であるJia Xueying氏です。大規模言語モデル (LLM) は多くの自然言語処理タスクでは良好に機能しますが、特定のタスクでは満足のいく結果が得られません。特定の自然言語タスクにおけるモデルのパフォーマンスを向上させるために、既存の方法は主に、手動で注釈が付けられた高品質のデータに依存しています。この種のデータを収集するプロセスは時間と労力がかかり、データが不足しているタスクでは特に困難です。
この問題を解決するために、一部の研究では、強力な教師モデルを通じてトレーニング データを生成し、特定のタスクにおける生徒モデルのパフォーマンスを向上させようとしています。ただし、このアプローチは、コスト、拡張性、法的遵守の点で依然として多くの課題に直面しています。人間による高品質の監視信号を継続的に取得できない場合、モデルを継続的に反復する機能が緊急に解決すべき問題になります。
カーネギーメロン大学と清華大学の研究チームがSELF-GUIDE手法を提案しました。この方法は、言語モデル自体によってタスク固有のデータセットを生成し、このデータセットに基づいて微調整することで、大量の外部の高品質データやより強力な外部データに依存することなく、特定のタスクにおけるモデルの能力を大幅に向上させます。教師モデル。具体的には、約 3 つの外部入力サンプルを使用して、SELF-GUIDE は多段階の生成およびフィルタリング メカニズムを使用して、モデルによって生成された合成データを使用してモデルを微調整し、特定のタスクでモデルのパフォーマンスを向上させます。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。ペーパーアドレス: https://arxiv.org/abs/2407.12874 コードリポジトリ: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。 図 1: SELF-GUIDE はモデルを使用して自律そうだデータの合成 特定のタスクを実行するモデルの能力を向上させる機能。

方法

具体的には、研究チームはSELF-GUIDE方法を入力データ生成、出力データ生成、品質最適化の3つの主要な段階に分解しました。

入力データの生成

SELF-GUIDE フレームワークの設計と実装のプロセスでは、研究者はまずタスクの種類 (生成タスクまたは分類タスク) に応じて異なるプロンプト テンプレートを指定しました。生成タスクの場合、SELF-GUIDE フレームワークは比較的単純なプロンプト テンプレートを使用します。分類タスクの場合、SELF-GUIDE フレームワークは別の戦略を採用します。分類タスクの場合、SELF-GUIDE フレームワークは最初にすべてのラベル空間からラベルをランダムに選択し、それを条件付きで生成された擬似ラベルとして使用して、入力データの生成をガイドします。擬似ラベルを選択した後、SELF-GUIDE フレームワークはより複雑な条件を使用してテンプレートを生成し、選択した擬似ラベルに対応する入力コンテンツを生成するようにモデルをガイドします。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。図 2: SELF-GUIDE の中核は、言語モデルが段階的に入出力データの組み合わせを生成する効率的な多段階生成メカニズムにあります。生成とフィルタリングの後、自己生成されたデータは言語モデル自体を微調整するためにさらに使用されます。この図は、SELF-GUIDE のビルド タスクの流れを示しています。

テンプレートが選択され、いくつかのショットのサンプルが入力された後、完全なプロンプトが LLM に渡されて、入力データが生成されます。プロンプトの各ラウンドの後、新しく生成された入力が入力ライブラリに追加されます。入力のサブセットがこのライブラリからランダムにサンプリングされ、最初の例の入力とマージされて新しいキューが形成され、LLM によって生成される入力セットが徐々に拡張され、重複が減ります。 SELF-GUIDE は入力生成を 1 ラウンドのみ実行し、その後、ルールベースのフィルターを適用して低品質の入力を削除する品質最適化フェーズが実行されます。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。
Rajah 3: Rajah ini menerangkan proses PANDUAN KENDIRI menyelesaikan tugas pengelasan. Untuk data daripada tugas pengelasan, PANDUAN DIRI mula-mula menjana label pseudo, kemudian menjana input yang sepadan, dan akhirnya menjana semula label sebenar.
Penjanaan data output
Fasa penjanaan data output menggunakan kaedah pembelajaran konteks biasa: penyelidik menyediakan arahan tugasan dan contoh asal kepada model, membenarkan model melabelkan setiap input yang dijana dalam fasa penjanaan input. Selepas semua output diperoleh, satu lagi pusingan penapisan berasaskan peraturan dilakukan untuk memilih set data sintetik akhir.
Pengoptimuman Kualiti
Kualiti data yang dijana adalah penting untuk kejayaan latihan hiliran. PANDUAN KENDIRI menggunakan dua strategi untuk meningkatkan kualiti: melaraskan parameter penjanaan untuk meningkatkan kualiti penjanaan dan menapis sampel berkualiti rendah berdasarkan peraturan.
Laraskan suhu: Melaraskan suhu ialah strategi biasa untuk mengimbangi kepelbagaian dan kualiti. Rangka kerja PANDUAN DIRI menggunakan suhu yang lebih tinggi dalam peringkat penjanaan input untuk menggalakkan kepelbagaian dan suhu yang lebih rendah pada peringkat lain untuk memastikan keluaran kebarangkalian tertinggi, sekali gus memastikan kualiti data keseluruhan. Walau bagaimanapun, pelarasan suhu sahaja tidak mencukupi untuk mencapai keseimbangan yang diingini. Oleh itu, PANDUAN KENDIRI juga melakukan dua pusingan penapisan data berasaskan peraturan selepas penjanaan input dan selepas anotasi output.
Penapis Bunyi: Penyelidik menyusun senarai istilah hingar secara manual, termasuk sapaan biasa dan aksara hingar (contohnya, "”" dalam kandungan yang dijana jika ada yang muncul dalam input atau output contoh yang dijanakan Istilah bising daripada ini senarai, PANDUAN KENDIRI akan membuang keseluruhan contoh
Penapis Panjang: Walaupun panjang contoh mungkin berat sebelah, penyelidik percaya bahawa contoh ini masih mewakili dari segi pengagihan panjang tugasan tertentu panjang contoh mengikuti taburan normal, dan mengira min μ dan sisihan piawai σ contoh input Penyelidik menganggap bahawa panjang input dan output contoh yang dijana harus mematuhi taburan normal yang sama, dan memerlukan panjang untuk. berada dalam (μ − 2σ, μ + 2σ). titik data, termasuk Bilangan input dan output yang dijana, suhu di mana data input dijana, suhu di mana data output dijana, parameter penalaan halus, dsb. Penyelidik membahagikan tugas ujian eksperimen kepada dua bahagian: satu bahagian boleh menggunakan semua data untuk pengesahan untuk melaraskan parameter penjanaan, yang dipanggil tugas pengesahan ; parameter yang "memaksimumkan prestasi tugas yang paling teruk" pada tugas pengesahan dan membetulkannya untuk menilai PANDUAN KENDIRI pada tugasan ujian
Hasil eksperimen
Untuk menilai keberkesanan PANDUAN KENDIRI, penyelidik memilih 14 tugasan klasifikasi dan 8 generasi. tugasan daripada tanda aras Super-NaturalInstructions V2 Para penyelidik memilih secara rawak separuh daripada tugasan untuk carian Parameter Super-Natural, separuh lagi digunakan untuk penilaian Dari segi model, penyelidik memilih Vicuna-7b-1.5 sebagai model asas untuk penjanaan input, penjanaan keluaran dan penalaan halus Dari segi penunjuk penilaian, penyelidik menggunakan tanda aras Arahan Super-Natural ialah Padanan Tepat untuk tugasan klasifikasi dan ROUGE-L untuk tugasan penjanaan Untuk menggambarkan kesan PANDUAN KENDIRI, penyelidik membandingkan PANDUAN KENDIRI dengan kaedah pembelajaran mengikut arahan dan konteks yang lain:
1. Sedikit- Tembakan ICL: Sebagai penanda aras utama, penyelidik membandingkan dengan model bahasa petunjuk langsung bergantung secara langsung pada kebolehan mengikut arahan model
2. Self-ICL menggunakan contoh yang dijana sendiri untuk meningkatkan arahan sifar rujukan sampel dengan menjana sendiri seberapa banyak contoh yang mungkin (bukannya bilangan contoh tetap) untuk mengisi perkataan gesaan.
3.Finetuning Few-Shot: Gunakan secara langsung sebilangan kecil sampel input untuk penalaan halus.
PANDUAN KENDIRI Keputusan percubaan utama teks asal adalah seperti berikut. Pada metrik penilaian garis dasar, peningkatan mutlak untuk tugas klasifikasi mencapai 14.5%, manakala peningkatan mutlak untuk tugas penjanaan mencapai 17.9%. Keputusan ini menunjukkan bahawa PANDUAN KENDIRI amat berkesan dalam membimbing LLM ke arah pengkhususan tugasan, walaupun data sangat terhad. Ini menyerlahkan potensi data yang dijana sendiri untuk menyesuaikan LLM kepada tugas tertentu pada skala. Untuk lebih banyak keputusan eksperimen dan eksperimen ablasi, sila rujuk kertas asal. . separuh digunakan untuk menggunakan parameter nyahpepijat ini Parameter menguji prestasi PANDUAN KENDIRI. Kami menggunakan parameter penyahkodan dan templat kiu yang sama untuk menilai prestasi model sebelum dan selepas PANDUAN KENDIRI.

Ringkasan

Rangka kerja PANDUAN DIRI menggalakkan model untuk menjana data latihan secara autonomi dan memperhalusi data ini. Keputusan eksperimen menunjukkan bahawa kaedah ini mempunyai potensi besar dalam meningkatkan keupayaan profesional model bahasa berskala besar untuk tugasan tertentu, terutamanya apabila data terhad, PANDUAN KENDIRI dapat menyelesaikan masalah kekurangan data latihan dengan berkesan. Pada masa yang sama, ini juga menyediakan rujukan untuk meneroka teknologi untuk penyesuaian model autonomi dan pembelajaran berterusan. Para penyelidik berharap bahawa kerja ini akan menggalakkan pembangunan sistem AI dalam penjajaran autonomi dan mekanisme penambahbaikan untuk menjadikannya lebih konsisten dengan niat manusia.

以上がCMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。