ホームページ  >  記事  >  テクノロジー周辺機器  >  算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

PHPz
PHPz転載
2023-06-06 14:11:241108ブラウズ

大規模な言語モデルはさまざまな自然言語処理タスクで優れたパフォーマンスを示していますが、算術質問は依然として大きな困難であり、最も強力な GPT-4 であっても対処するのは困難です。基本的な算数の問題付き。

最近、シンガポール国立大学の研究者らは、算術専用モデル Goat を提案しました。LLaMA モデルに基づいて微調整した後、GPT よりも大幅に優れたパフォーマンスを達成しました。 4. 計算スキル。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

# 論文リンク: https://arxiv.org/pdf/2305.14201.pdf

合成算術データセットを微調整することで、Goat は BIG ベンチ算術サブタスク

で最先端のパフォーマンスを達成します。 Goat 教師付き微調整のみを通じて、大量の加算および減算演算においてほぼ完璧な精度を達成することが可能であり、Bloom、OPT、GPT-NeoX などの以前のすべての事前トレーニング済み言語モデルを上回ります。ゼロサンプルの Goat-7B を達成 数ショット学習後の精度は PaLM-540 をさえ上回りました 研究者らは、Goat の優れたパフォーマンスは、LLaMA の数値に対する一貫した単語分割技術のおかげであると考えています。

大きな数の乗算や除算など、より困難なタスクを解決するために、研究者らは、算術の学習可能性に応じてタスクを分類し、基本的な算術原理を分解して非表示にする方法も提案しました。 - 複数桁の掛け算や割り算などの学習可能なタスクを一連の学習可能なタスクに分割。

包括的な実験検証の後、この記事で提案されている分解ステップにより、算術パフォーマンスを効果的に向上させることができます。

Goat-7 B は、24 GB VRAM GPU 上の LoRA を使用して効率的にトレーニングでき、他の研究者は、モデル、データセット、および Python を生成した実験を非常に簡単に繰り返すことができます。データセット このスクリプトは間もなくオープンソースになる予定です。

カウントできる言語モデル

言語モデル

LLaMAこれは、公開されているデータセットを使用して数兆のトークンでトレーニングされ、複数のベンチマークで最先端のパフォーマンスを達成する、オープンソースの事前トレーニング済み言語モデルのセットです。

以前の研究結果は、トークン化が LLM の算術能力にとって重要であることを示しています。しかし、一般的に使用されているトークン化技術では数値をうまく表現できません。たとえば、桁数が多すぎる数値は分割されてしまう可能性があります。

LLaMA は、デジタル表現の一貫性を確保するために、数値を複数のトークンに分割することを選択しました。結果に示された並外れた算術能力は、主に LLaMA の数値の一貫した分割によるものです。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験では、Bloom、OPT、GPT-NeoX、Pythia などの他の微調整された言語モデルは、LLaMA の算術機能に匹敵することができませんでした。

算術タスクの学習可能性

以前、研究者らは中間関数を使用する理論的分析を実施しました。複合タスクを解決するための監視を行い、そのようなタスクは学習可能ではないが、単純なサブタスクの多項式に分解できることを示しました。

つまり、学習不可能な複合問題は、中間監視またはステップ連鎖 (CoT) を使用することで学習できます。

この分析に基づいて、研究者らはまず、学習可能なタスクと学習不可能なタスクを実験的に分類しました。

算術コンピューティングのコンテキストでは、学習可能なタスクとは一般に、モデルを適切にトレーニングして答えを直接生成できるタスクを指し、それによって事前に定義された数の範囲内で十分に高いレベルに達することができます。トレーニング エポック、精度。

学習不可能なタスクとは、大規模なトレーニングを行った後でも、モデルが正しく学習して直接の答えを生成することが難しいタスクです。

タスクの学習可能性の変化の背後にある正確な理由は完全には理解されていませんが、根底にあるパターンの複雑さと、完了するために必要な作業メモリのサイズに関連しているという仮説が立てられます。タスク。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

研究者らは、単純化された合成システムで各タスクに合わせてモデルを微調整することで、これらのタスクの実現可能性を実験的に調べました。環境、学習能力。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

#学習可能なタスクと学習不可能なタスク

課題分類の結果も人間の知覚と同じで、人間は練習することで頭の中で2つの大きな数の足し算や引き算を手計算なしで直接左(最上位桁)から右へ計算できるようになります。 (最下位桁) 最終的な数値の答えを書きます。

しかし、大きな数の掛け算と割り算を暗算で解くのは難しい課題です。

また、上記のタスクの分類結果が GPT-4 のパフォーマンスと一致していることもわかります。特に、GPT-4 は、大規模なタスクに対する直接的な回答の生成に優れています。数値の加算と減算、そしてマルチビットの乗算と除算のタスクになると精度が大幅に低下します。

GPT-4 のような強力なモデルが学習不可能なタスクを直接解決できないことは、これらのタスクに対する直接の答えを生成することが、たとえ広範なトレーニングを行った後でも非常に困難であることを示している可能性があります。

LLaMA で学習可能なタスクは、他の LLM でも学習できるとは限らないことに注意してください。

さらに、学習不可能として分類されたすべてのタスクがモデルの学習を完全に不可能にするわけではありません。

たとえば、2 桁の数値と 2 桁の数値の乗算は学習不可能なタスクとみなされますが、トレーニング セットに考えられるすべての 2 桁の乗算列挙データが含まれている場合、モデルはまだトレーニング セットをオーバーフィッティングすることで、答えを直接生成できます。

ただし、約 90% の精度を達成するには、プロセス全体で 10 エポック近くが必要です。

記事で提案されている CoT を最終的な答えの前に挿入することにより、モデルは 1 エポックのトレーニング後に 2 桁の乗算で非常に高い精度を達成できます。これは以前の研究とも一致しています。彼らは一貫して、中間監督の存在が学習プロセスを促進すると結論付けています。

#加算と減算

#これら 2 つの算術演算は、モデルの教師あり微調整を通じてのみ学習可能です。これは、直接的な数値回答を正確に生成する並外れた能力を示しています。

モデルは加算データの非常に限られたサブセットでトレーニングされましたが、これは、モデルが目に見えないテスト セット、つまりモデルでほぼ完璧な精度を達成したという事実からわかります。 CoT を使用せずに算術演算の基本パターンを捉えることに成功しました。

#乗算

研究者は実験に合格し、乗算が検証されました。 n桁の数と1桁の数の掛け算は学習できますが、複数桁の掛け算は学習できません。

この問題を克服するために、研究者らは、答えを生成する前に CoT を生成するように LLM を微調整することを選択し、複数桁の乗算を 5 つの学習可能なサブタスクに分割しました。

1. 抽出、自然言語命令から算術式を抽出

2. 分割、2 つの小さい方を分割 小さな数値は位の値に分割されます

##3. 分布展開に基づく展開、総和

##4. 積、各積を同時に計算

##5. 加算用語ごとに、最初の 2 つの用語を追加し、残りの用語をコピーして、最終的な合計を取得します。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

すべてのミッションは次のとおりです。学習可能。

割り算

同様に、n 桁を 1 桁で割ることは学習できることが実験的に観察できますが、複数桁の割り算は学習できません。

研究者らは、除算の遅さを改善する漸化方程式を使用して、新しい思考連鎖プロンプトを設計しました。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。#主なアイデアは、剰余が除数より小さくなるまで被除数から除数の倍数を引くことです。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

#データセット

記事内のデザイン実験は 2 つの正の整数の加算と減算です。各正の整数には最大 16 桁が含まれており、減算演算の結果は負の数になる可能性があります。

生成されるシーケンスの最大長を制限するため、乗算の結果は 12 桁以内の正の整数となり、2 つの正の整数の除算では、被除数は 12 桁未満になります。商は6桁以内です。

研究者らは、Python スクリプトを使用して、約 100 万の質問と回答のペアを生成するデータセットを合成しました。回答には、提案された CoT と最終的な数値出力が含まれており、これらはすべてランダムでした。これにより、インスタンスが重複する確率は非常に低いことが保証されますが、小さな数が複数回サンプリングされる可能性があります。

微調整

モデルが指示に基づいて算術問題を解決できるようにし、自然言語による質問応答を容易にするため、研究者 何百もの指示テンプレートが ChatGPT を使用して生成されました。

命令調整プロセスでは、Alpaca で使用されている方法と同様に、各算術入力のトレーニング セットからテンプレートがランダムに選択され、LLaMA-7B が微調整されます。

Goat-7B は、24 GB VRAM GPU 上の LoRA を使用して微調整でき、A100 GPU で 100,000 サンプルを完了するのにわずか約 1.5 時間しかかかりません微調整し、ほぼ完璧な精度を達成します。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験結果

GPT-4 は答えを直接生成するのに対し、Goat It は大規模な乗算と除算で Goat と GPT-4 のパフォーマンスを比較するのは不公平に思えます。はデザイン思考の連鎖に依存しているため、GPT-4 を評価する際には、各プロンプトの最後に「Solve it step by step」と追加されます

#ただし、GPT-4 は場合によっては、長い乗算と除算の中間ステップが間違っているにもかかわらず、最終的な答えは依然として正しいことがわかります。これは、GPT-4 が思考を使用していないことを意味します 中間監視最終出力を向上させるためにチェーンを調整します。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

最後に、GPT-4 ソリューションから次の 3 つの一般的なエラーが特定されました:

1. 対応する番号の配置

2. 繰り返される数字

3. n 桁と 1 桁を乗算した中間結果は間違っています

から実験結果から、GPT-4 は 8D 8D および 16D 16D タスクで非常に良好に実行することがわかりますが、直感的には 16D 8D の方が 16D 16D easy よりも相対的に優れているはずですが、ほとんどの 16D 8D タスクの計算結果は間違っています。

この正確な原因は不明ですが、考えられる要因の 1 つは、GPT-4 の数値トークン化プロセスに一貫性がなく、2 つの数値の間の位置合わせが困難になっている可能性があります。

以上が算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。