検索
ホームページテクノロジー周辺機器AI算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

大規模な言語モデルはさまざまな自然言語処理タスクで優れたパフォーマンスを示していますが、算術質問は依然として大きな困難であり、最も強力な GPT-4 であっても対処するのは困難です。基本的な算数の問題付き。

最近、シンガポール国立大学の研究者らは、算術専用モデル Goat を提案しました。LLaMA モデルに基づいて微調整した後、GPT よりも大幅に優れたパフォーマンスを達成しました。 4. 計算スキル。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

# 論文リンク: https://arxiv.org/pdf/2305.14201.pdf

合成算術データセットを微調整することで、Goat は BIG ベンチ算術サブタスク

で最先端のパフォーマンスを達成します。 Goat 教師付き微調整のみを通じて、大量の加算および減算演算においてほぼ完璧な精度を達成することが可能であり、Bloom、OPT、GPT-NeoX などの以前のすべての事前トレーニング済み言語モデルを上回ります。ゼロサンプルの Goat-7B を達成 数ショット学習後の精度は PaLM-540 をさえ上回りました 研究者らは、Goat の優れたパフォーマンスは、LLaMA の数値に対する一貫した単語分割技術のおかげであると考えています。

大きな数の乗算や除算など、より困難なタスクを解決するために、研究者らは、算術の学習可能性に応じてタスクを分類し、基本的な算術原理を分解して非表示にする方法も提案しました。 - 複数桁の掛け算や割り算などの学習可能なタスクを一連の学習可能なタスクに分割。

包括的な実験検証の後、この記事で提案されている分解ステップにより、算術パフォーマンスを効果的に向上させることができます。

Goat-7 B は、24 GB VRAM GPU 上の LoRA を使用して効率的にトレーニングでき、他の研究者は、モデル、データセット、および Python を生成した実験を非常に簡単に繰り返すことができます。データセット このスクリプトは間もなくオープンソースになる予定です。

カウントできる言語モデル

言語モデル

LLaMAこれは、公開されているデータセットを使用して数兆のトークンでトレーニングされ、複数のベンチマークで最先端のパフォーマンスを達成する、オープンソースの事前トレーニング済み言語モデルのセットです。

以前の研究結果は、トークン化が LLM の算術能力にとって重要であることを示しています。しかし、一般的に使用されているトークン化技術では数値をうまく表現できません。たとえば、桁数が多すぎる数値は分割されてしまう可能性があります。

LLaMA は、デジタル表現の一貫性を確保するために、数値を複数のトークンに分割することを選択しました。結果に示された並外れた算術能力は、主に LLaMA の数値の一貫した分割によるものです。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験では、Bloom、OPT、GPT-NeoX、Pythia などの他の微調整された言語モデルは、LLaMA の算術機能に匹敵することができませんでした。

算術タスクの学習可能性

以前、研究者らは中間関数を使用する理論的分析を実施しました。複合タスクを解決するための監視を行い、そのようなタスクは学習可能ではないが、単純なサブタスクの多項式に分解できることを示しました。

つまり、学習不可能な複合問題は、中間監視またはステップ連鎖 (CoT) を使用することで学習できます。

この分析に基づいて、研究者らはまず、学習可能なタスクと学習不可能なタスクを実験的に分類しました。

算術コンピューティングのコンテキストでは、学習可能なタスクとは一般に、モデルを適切にトレーニングして答えを直接生成できるタスクを指し、それによって事前に定義された数の範囲内で十分に高いレベルに達することができます。トレーニング エポック、精度。

学習不可能なタスクとは、大規模なトレーニングを行った後でも、モデルが正しく学習して直接の答えを生成することが難しいタスクです。

タスクの学習可能性の変化の背後にある正確な理由は完全には理解されていませんが、根底にあるパターンの複雑さと、完了するために必要な作業メモリのサイズに関連しているという仮説が立てられます。タスク。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

研究者らは、単純化された合成システムで各タスクに合わせてモデルを微調整することで、これらのタスクの実現可能性を実験的に調べました。環境、学習能力。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

#学習可能なタスクと学習不可能なタスク

課題分類の結果も人間の知覚と同じで、人間は練習することで頭の中で2つの大きな数の足し算や引き算を手計算なしで直接左(最上位桁)から右へ計算できるようになります。 (最下位桁) 最終的な数値の答えを書きます。

しかし、大きな数の掛け算と割り算を暗算で解くのは難しい課題です。

また、上記のタスクの分類結果が GPT-4 のパフォーマンスと一致していることもわかります。特に、GPT-4 は、大規模なタスクに対する直接的な回答の生成に優れています。数値の加算と減算、そしてマルチビットの乗算と除算のタスクになると精度が大幅に低下します。

GPT-4 のような強力なモデルが学習不可能なタスクを直接解決できないことは、これらのタスクに対する直接の答えを生成することが、たとえ広範なトレーニングを行った後でも非常に困難であることを示している可能性があります。

LLaMA で学習可能なタスクは、他の LLM でも学習できるとは限らないことに注意してください。

さらに、学習不可能として分類されたすべてのタスクがモデルの学習を完全に不可能にするわけではありません。

たとえば、2 桁の数値と 2 桁の数値の乗算は学習不可能なタスクとみなされますが、トレーニング セットに考えられるすべての 2 桁の乗算列挙データが含まれている場合、モデルはまだトレーニング セットをオーバーフィッティングすることで、答えを直接生成できます。

ただし、約 90% の精度を達成するには、プロセス全体で 10 エポック近くが必要です。

記事で提案されている CoT を最終的な答えの前に挿入することにより、モデルは 1 エポックのトレーニング後に 2 桁の乗算で非常に高い精度を達成できます。これは以前の研究とも一致しています。彼らは一貫して、中間監督の存在が学習プロセスを促進すると結論付けています。

#加算と減算

#これら 2 つの算術演算は、モデルの教師あり微調整を通じてのみ学習可能です。これは、直接的な数値回答を正確に生成する並外れた能力を示しています。

モデルは加算データの非常に限られたサブセットでトレーニングされましたが、これは、モデルが目に見えないテスト セット、つまりモデルでほぼ完璧な精度を達成したという事実からわかります。 CoT を使用せずに算術演算の基本パターンを捉えることに成功しました。

#乗算

研究者は実験に合格し、乗算が検証されました。 n桁の数と1桁の数の掛け算は学習できますが、複数桁の掛け算は学習できません。

この問題を克服するために、研究者らは、答えを生成する前に CoT を生成するように LLM を微調整することを選択し、複数桁の乗算を 5 つの学習可能なサブタスクに分割しました。

1. 抽出、自然言語命令から算術式を抽出

2. 分割、2 つの小さい方を分割 小さな数値は位の値に分割されます

##3. 分布展開に基づく展開、総和

##4. 積、各積を同時に計算

##5. 加算用語ごとに、最初の 2 つの用語を追加し、残りの用語をコピーして、最終的な合計を取得します。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

すべてのミッションは次のとおりです。学習可能。

割り算

同様に、n 桁を 1 桁で割ることは学習できることが実験的に観察できますが、複数桁の割り算は学習できません。

研究者らは、除算の遅さを改善する漸化方程式を使用して、新しい思考連鎖プロンプトを設計しました。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。#主なアイデアは、剰余が除数より小さくなるまで被除数から除数の倍数を引くことです。

算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

#データセット

記事内のデザイン実験は 2 つの正の整数の加算と減算です。各正の整数には最大 16 桁が含まれており、減算演算の結果は負の数になる可能性があります。

生成されるシーケンスの最大長を制限するため、乗算の結果は 12 桁以内の正の整数となり、2 つの正の整数の除算では、被除数は 12 桁未満になります。商は6桁以内です。

研究者らは、Python スクリプトを使用して、約 100 万の質問と回答のペアを生成するデータセットを合成しました。回答には、提案された CoT と最終的な数値出力が含まれており、これらはすべてランダムでした。これにより、インスタンスが重複する確率は非常に低いことが保証されますが、小さな数が複数回サンプリングされる可能性があります。

微調整

モデルが指示に基づいて算術問題を解決できるようにし、自然言語による質問応答を容易にするため、研究者 何百もの指示テンプレートが ChatGPT を使用して生成されました。

命令調整プロセスでは、Alpaca で使用されている方法と同様に、各算術入力のトレーニング セットからテンプレートがランダムに選択され、LLaMA-7B が微調整されます。

Goat-7B は、24 GB VRAM GPU 上の LoRA を使用して微調整でき、A100 GPU で 100,000 サンプルを完了するのにわずか約 1.5 時間しかかかりません微調整し、ほぼ完璧な精度を達成します。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験結果

GPT-4 は答えを直接生成するのに対し、Goat It は大規模な乗算と除算で Goat と GPT-4 のパフォーマンスを比較するのは不公平に思えます。はデザイン思考の連鎖に依存しているため、GPT-4 を評価する際には、各プロンプトの最後に「Solve it step by step」と追加されます

#ただし、GPT-4 は場合によっては、長い乗算と除算の中間ステップが間違っているにもかかわらず、最終的な答えは依然として正しいことがわかります。これは、GPT-4 が思考を使用していないことを意味します 中間監視最終出力を向上させるためにチェーンを調整します。 算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

最後に、GPT-4 ソリューションから次の 3 つの一般的なエラーが特定されました:

1. 対応する番号の配置

2. 繰り返される数字

3. n 桁と 1 桁を乗算した中間結果は間違っています

から実験結果から、GPT-4 は 8D 8D および 16D 16D タスクで非常に良好に実行することがわかりますが、直感的には 16D 8D の方が 16D 16D easy よりも相対的に優れているはずですが、ほとんどの 16D 8D タスクの計算結果は間違っています。

この正確な原因は不明ですが、考えられる要因の 1 つは、GPT-4 の数値トークン化プロセスに一貫性がなく、2 つの数値の間の位置合わせが困難になっている可能性があります。

以上が算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール