プリンストンのオープンソース 34B 数学モデル: パラメータは半分、パフォーマンスは Google Minerva に匹敵し、550 億トークンが専門的なデータトレーニングに使用されます

プリンストンのオープンソース 34B 数学モデル: パラメータは半分、パフォーマンスは Google Minerva に匹敵し、550 億トークンが専門的なデータトレーニングに使用されます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 18, 2023 am 10:13 AM

データモデル

数学は科学の基礎として、常に研究と革新の重要な分野です。

最近、プリンストン大学を含む 7 機関が共同で、Google Minerva 62B に匹敵するパフォーマンスを備えた数学に特化した大規模言語モデル LLEMMA をリリースし、そのモデル、データセット、コードを公開しました。数学研究に対する前例のない機会とリソース。

論文アドレス: https://arxiv.org/abs/2310.10631

データセットリンクアドレスは: https://huggingface.co/datasets/EleutherAI/proof-pile-2

プロジェクトのアドレス: https://github.com/EleutherAI/math-lm 書き直す必要があるのは次のとおりです。

LLEMMA は Code Llama の基礎を継承しており、Proof-Pile-2 で事前トレーニングされています。

Proof-Pile-2 は巨大な混合データセットであり、科学論文、数学的内容が豊富な Web データ、数学的コードなど、550 億個のトークンに関する情報が含まれています。

このデータセットの一部である代数スタックには、17 の言語からの 11B のデータセットがまとめられており、数値的、記号的、数学的な証明がカバーされています。

7 億 34 億のパラメータを備え、MATH ベンチマークで非常に優れたパフォーマンスを示し、既知のすべてのオープンソースベースを上回ります。モデル。

Google Research が開発した数学専用の閉じたモデルと比較すると、パラメータの数は Minerva 62B の半分しかありません条件としては、Llemma 34B がほぼ同等の性能を達成しました。

#Llemma は、パラメトリックベースで問題を解決する際に Minerva のパフォーマンスを上回っています。計算ツールと形式的定理証明を使用して、数学的問題を解決するための無限の可能性を提供します

Python インタプリタと形式証明器を便利に使用でき、数学的問題を解決する能力をさらに実証します。

# #形式的な証明データに特に重点を置いているため、代数スタックは少数サンプル定理を証明する能力を実証する最初のオープンな基本モデルとなっています

#図プリンストンのオープンソース 34B 数学モデル: パラメータは半分、パフォーマンスは Google Minerva に匹敵し、550 億トークンが専門的なデータトレーニングに使用されます

研究者らは、LLEMMA のすべてのトレーニングデータとコードもオープンに共有しました。以前の数学モデルとは異なり、LLEMMA はオープンソースのオープン共有モデルであり、科学研究コミュニティ全体に扉を開きます。

研究者らはモデルの記憶効果を定量化しようとしましたが、驚くべきことに、トレーニングセットに現れる問題に対して Llemma の精度が向上していないことがわかりました。コードとデータは公開されているため、研究者らは他の人が分析を複製して拡張することを奨励しています

訓練資料和實驗配置

LLEMMA是一個專門用於數學的大型語言模型，它在Code Llama的基礎上繼續在Proof-Pile-2上進行預訓練。 Proof-Pile-2是一個包含科學論文、含有數學內容的網頁資料和數學程式碼的混合資料集，包含了550億個標記

AlgebraicStack的程式碼部分包含了11B的資料集，其中包括17種語言原始碼，覆蓋數值、符號和形式數學，並已公開發布

LLEMMA的每個模型都是由Code Llama進行初始化的。 Code Llama模型是僅包含解碼器的語言模型，它是從Llama 2進行初始化的

作者對Code Llama模型在Proof-Pile-2上進行了進一步的訓練，使用標準的自回歸語言建模目標。對於7B模型，作者進行了200B個標記的訓練，而對於34B模型，作者進行了50B個標記的訓練

評估方法和實驗結果

作者使用Proof-Pile-2對Code Llama進行繼續預訓練，並且在MATH和GSM8k等多個數學問題解決任務上對LLEMMA進行few-shot評估。

研究人員發現LLEMMA在這些任務上都有顯著的提升，並且能夠適應不同的問題類型和難度。

LLEMMA 34B在極高難度的數學問題中展示了比其他開放式基礎模型更強大的數學能力

在數學基準測試上，LLEMMA在Proof-Pile-2上的持續預訓練改善了五個數學基準測試的few-shot性能。

在GSM8k上，LLEMMA 34B的改進比Code Llama高出20個百分點，在MATH上高出13個百分點。而且，LLEMMA 7B也優於相似大小的專有的Minerva模型，證明了在Proof-Pile-2上進行預訓練能有效提高大模型的數學解題能力

在解決數學問題時，利用計算工具如Python等，LLEMMA在MATH Python和GSM8k Python任務上都比Code Llama更出色

#在使用MATH和GSM8k資料集時，LLEMMA的效能優於沒有使用工具時的效能

在數學證明任務中，LLEMMA表現出色

非正式到正式證明的任務目標是在給定一個正式陳述、一個非正式的LATEX陳述和一個非正式的LATEX證明的情況下，產生一個正式證明，然後透過證明助手進行驗證。

正式到正式證明則是透過產生一系列證明步驟（策略）來證明一個正式陳述。結果表明，LLEMMA在Proof-Pile-2上的持續預訓練改善了這兩個正式定理證明任務的few-shot表現。

LLEMMA不僅擁有令人矚目的效能、還開放了革命性的資料集、展現了驚人的問題解決能力。

開源共享的精神，標誌著數學界進入了一個新的時代。數學的未來在這裡，而我們每一個數學愛好者、研究者和教育者都將從中受益。

LLEMMA的出現為我們提供了前所未有的工具，讓數學問題的解決變得更有效率和創新。

此外，開放共享的概念也將促進全球科學研究社群更加深入的合作，共同推動科學的進步。

以上がプリンストンのオープンソース 34B 数学モデル: パラメータは半分、パフォーマンスは Google Minerva に匹敵し、550 億トークンが専門的なデータトレーニングに使用されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

ホットツール

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。