算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

PHPz

Jun 06, 2023 pm 02:11 PM

言語モデル

大規模な言語モデルはさまざまな自然言語処理タスクで優れたパフォーマンスを示していますが、算術質問は依然として大きな困難であり、最も強力な GPT-4 であっても対処するのは困難です。基本的な算数の問題付き。

最近、シンガポール国立大学の研究者らは、算術専用モデル Goat を提案しました。LLaMA モデルに基づいて微調整した後、GPT よりも大幅に優れたパフォーマンスを達成しました。 4. 計算スキル。

# 論文リンク: https://arxiv.org/pdf/2305.14201.pdf

合成算術データセットを微調整することで、Goat は BIG ベンチ算術サブタスク

で最先端のパフォーマンスを達成します。 Goat 教師付き微調整のみを通じて、大量の加算および減算演算においてほぼ完璧な精度を達成することが可能であり、Bloom、OPT、GPT-NeoX などの以前のすべての事前トレーニング済み言語モデルを上回ります。ゼロサンプルの Goat-7B を達成数ショット学習後の精度は PaLM-540 をさえ上回りました研究者らは、Goat の優れたパフォーマンスは、LLaMA の数値に対する一貫した単語分割技術のおかげであると考えています。

大きな数の乗算や除算など、より困難なタスクを解決するために、研究者らは、算術の学習可能性に応じてタスクを分類し、基本的な算術原理を分解して非表示にする方法も提案しました。 - 複数桁の掛け算や割り算などの学習可能なタスクを一連の学習可能なタスクに分割。

包括的な実験検証の後、この記事で提案されている分解ステップにより、算術パフォーマンスを効果的に向上させることができます。

Goat-7 B は、24 GB VRAM GPU 上の LoRA を使用して効率的にトレーニングでき、他の研究者は、モデル、データセット、および Python を生成した実験を非常に簡単に繰り返すことができます。データセットこのスクリプトは間もなくオープンソースになる予定です。

カウントできる言語モデル

言語モデル

LLaMAこれは、公開されているデータセットを使用して数兆のトークンでトレーニングされ、複数のベンチマークで最先端のパフォーマンスを達成する、オープンソースの事前トレーニング済み言語モデルのセットです。

以前の研究結果は、トークン化が LLM の算術能力にとって重要であることを示しています。しかし、一般的に使用されているトークン化技術では数値をうまく表現できません。たとえば、桁数が多すぎる数値は分割されてしまう可能性があります。

LLaMA は、デジタル表現の一貫性を確保するために、数値を複数のトークンに分割することを選択しました。結果に示された並外れた算術能力は、主に LLaMA の数値の一貫した分割によるものです。算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験では、Bloom、OPT、GPT-NeoX、Pythia などの他の微調整された言語モデルは、LLaMA の算術機能に匹敵することができませんでした。

算術タスクの学習可能性

以前、研究者らは中間関数を使用する理論的分析を実施しました。複合タスクを解決するための監視を行い、そのようなタスクは学習可能ではないが、単純なサブタスクの多項式に分解できることを示しました。

つまり、学習不可能な複合問題は、中間監視またはステップ連鎖 (CoT) を使用することで学習できます。

この分析に基づいて、研究者らはまず、学習可能なタスクと学習不可能なタスクを実験的に分類しました。

算術コンピューティングのコンテキストでは、学習可能なタスクとは一般に、モデルを適切にトレーニングして答えを直接生成できるタスクを指し、それによって事前に定義された数の範囲内で十分に高いレベルに達することができます。トレーニングエポック、精度。

学習不可能なタスクとは、大規模なトレーニングを行った後でも、モデルが正しく学習して直接の答えを生成することが難しいタスクです。

タスクの学習可能性の変化の背後にある正確な理由は完全には理解されていませんが、根底にあるパターンの複雑さと、完了するために必要な作業メモリのサイズに関連しているという仮説が立てられます。タスク。

研究者らは、単純化された合成システムで各タスクに合わせてモデルを微調整することで、これらのタスクの実現可能性を実験的に調べました。環境、学習能力。

#学習可能なタスクと学習不可能なタスク

課題分類の結果も人間の知覚と同じで、人間は練習することで頭の中で2つの大きな数の足し算や引き算を手計算なしで直接左(最上位桁)から右へ計算できるようになります。（最下位桁）最終的な数値の答えを書きます。

しかし、大きな数の掛け算と割り算を暗算で解くのは難しい課題です。

また、上記のタスクの分類結果が GPT-4 のパフォーマンスと一致していることもわかります。特に、GPT-4 は、大規模なタスクに対する直接的な回答の生成に優れています。数値の加算と減算、そしてマルチビットの乗算と除算のタスクになると精度が大幅に低下します。

GPT-4 のような強力なモデルが学習不可能なタスクを直接解決できないことは、これらのタスクに対する直接の答えを生成することが、たとえ広範なトレーニングを行った後でも非常に困難であることを示している可能性があります。

LLaMA で学習可能なタスクは、他の LLM でも学習できるとは限らないことに注意してください。

さらに、学習不可能として分類されたすべてのタスクがモデルの学習を完全に不可能にするわけではありません。

たとえば、2 桁の数値と 2 桁の数値の乗算は学習不可能なタスクとみなされますが、トレーニングセットに考えられるすべての 2 桁の乗算列挙データが含まれている場合、モデルはまだトレーニングセットをオーバーフィッティングすることで、答えを直接生成できます。

ただし、約 90% の精度を達成するには、プロセス全体で 10 エポック近くが必要です。

記事で提案されている CoT を最終的な答えの前に挿入することにより、モデルは 1 エポックのトレーニング後に 2 桁の乗算で非常に高い精度を達成できます。これは以前の研究とも一致しています。彼らは一貫して、中間監督の存在が学習プロセスを促進すると結論付けています。

#加算と減算

#これら 2 つの算術演算は、モデルの教師あり微調整を通じてのみ学習可能です。これは、直接的な数値回答を正確に生成する並外れた能力を示しています。

モデルは加算データの非常に限られたサブセットでトレーニングされましたが、これは、モデルが目に見えないテストセット、つまりモデルでほぼ完璧な精度を達成したという事実からわかります。 CoT を使用せずに算術演算の基本パターンを捉えることに成功しました。

#乗算

研究者は実験に合格し、乗算が検証されました。 n桁の数と1桁の数の掛け算は学習できますが、複数桁の掛け算は学習できません。

この問題を克服するために、研究者らは、答えを生成する前に CoT を生成するように LLM を微調整することを選択し、複数桁の乗算を 5 つの学習可能なサブタスクに分割しました。

1. 抽出、自然言語命令から算術式を抽出

2. 分割、2 つの小さい方を分割小さな数値は位の値に分割されます

##3. 分布展開に基づく展開、総和

##4. 積、各積を同時に計算

##5. 加算用語ごとに、最初の 2 つの用語を追加し、残りの用語をコピーして、最終的な合計を取得します。

すべてのミッションは次のとおりです。学習可能。

割り算

同様に、n 桁を 1 桁で割ることは学習できることが実験的に観察できますが、複数桁の割り算は学習できません。

研究者らは、除算の遅さを改善する漸化方程式を使用して、新しい思考連鎖プロンプトを設計しました。

算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。 #主なアイデアは、剰余が除数より小さくなるまで被除数から除数の倍数を引くことです。

#データセット

記事内のデザイン実験は 2 つの正の整数の加算と減算です。各正の整数には最大 16 桁が含まれており、減算演算の結果は負の数になる可能性があります。

生成されるシーケンスの最大長を制限するため、乗算の結果は 12 桁以内の正の整数となり、2 つの正の整数の除算では、被除数は 12 桁未満になります。商は6桁以内です。

研究者らは、Python スクリプトを使用して、約 100 万の質問と回答のペアを生成するデータセットを合成しました。回答には、提案された CoT と最終的な数値出力が含まれており、これらはすべてランダムでした。これにより、インスタンスが重複する確率は非常に低いことが保証されますが、小さな数が複数回サンプリングされる可能性があります。

微調整

モデルが指示に基づいて算術問題を解決できるようにし、自然言語による質問応答を容易にするため、研究者何百もの指示テンプレートが ChatGPT を使用して生成されました。

命令調整プロセスでは、Alpaca で使用されている方法と同様に、各算術入力のトレーニングセットからテンプレートがランダムに選択され、LLaMA-7B が微調整されます。

Goat-7B は、24 GB VRAM GPU 上の LoRA を使用して微調整でき、A100 GPU で 100,000 サンプルを完了するのにわずか約 1.5 時間しかかかりません微調整し、ほぼ完璧な精度を達成します。算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

実験結果

GPT-4 は答えを直接生成するのに対し、Goat It は大規模な乗算と除算で Goat と GPT-4 のパフォーマンスを比較するのは不公平に思えます。はデザイン思考の連鎖に依存しているため、GPT-4 を評価する際には、各プロンプトの最後に「Solve it step by step」と追加されます

#ただし、GPT-4 は場合によっては、長い乗算と除算の中間ステップが間違っているにもかかわらず、最終的な答えは依然として正しいことがわかります。これは、GPT-4 が思考を使用していないことを意味します中間監視最終出力を向上させるためにチェーンを調整します。算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。

最後に、GPT-4 ソリューションから次の 3 つの一般的なエラーが特定されました:

1. 対応する番号の配置

2. 繰り返される数字

3. n 桁と 1 桁を乗算した中間結果は間違っています

から実験結果から、GPT-4 は 8D 8D および 16D 16D タスクで非常に良好に実行することがわかりますが、直感的には 16D 8D の方が 16D 16D easy よりも相対的に優れているはずですが、ほとんどの 16D 8D タスクの計算結果は間違っています。

この正確な原因は不明ですが、考えられる要因の 1 つは、GPT-4 の数値トークン化プロセスに一貫性がなく、2 つの数値の間の位置合わせが困難になっている可能性があります。

以上が算数能力はほぼ満点！シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、