テレンス・タオはそれを見て彼を専門家と呼んだ！ Google などは LLM を使用して定理を自動的に証明し、カンファレンスで優秀な論文を受賞しました。コンテキストが完全であればあるほど、証明はより優れたものになります。

テレンス・タオはそれを見て彼を専門家と呼んだ！ Google などは LLM を使用して定理を自動的に証明し、カンファレンスで優秀な論文を受賞しました。コンテキストが完全であればあるほど、証明はより優れたものになります。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 04, 2024 am 09:30 AM

ソフトウェアai

Transformer のスキルツリーはますます強力になっています。

マサチューセッツ大学、Google、イリノイ大学アーバナシャンペーン校 (UIUC) の研究者らは最近、完全な定理を自動的に生成するという目標を達成することに成功した論文を発表しました。証拠。

論文アドレス: https://arxiv.org/pdf/2303.04910.pdf

これBaldur (北欧神話のトールの兄弟) にちなんで名付けられたこの研究は、Transformer が完全な証明を生成できることを初めて実証し、モデルに追加のコンテキストを提供することでモデルの以前の証明を改善できることも示しました。

この論文は、2023 年 12 月に ESEC/FSE (ACM European Joint Conference on Software Engineering and Symposium on Fundamentals of Software Engineering) で発表され、Outstanding Paper Award を受賞しました。

#誰もが知っているように、ソフトウェアにはバグが避けられず、平均的なアプリケーションや Web サイトではそれほど大きな問題を引き起こすことはありません。ただし、暗号化プロトコル、医療機器、スペースシャトルなどの重要なシステムの背後にあるソフトウェアについては、バグがないことを確認する必要があります。

- 一般的なコードレビューとテストではこの保証は得られないため、正式な検証が必要です。

形式的検証について、ScienceDirect の説明は次のとおりです:

形式モデルを使用して記述されたシステムの動作が、指定されたプロパティを満たします。これも形式モデルを使用して記述されます。

は、形式モデルによって記述されたシステムの動作が指定されたプロパティを満たしているかどうかを数学的にチェックするプロセスを指します。

簡単に言うと、数学的解析手法を使用してアルゴリズムエンジンを通じてモデルを構築し、テスト対象の設計の状態空間の徹底的な解析と検証を実行します。

正式なソフトウェア検証は、ソフトウェアエンジニアにとって最も困難なタスクの 1 つです。たとえば、Coq 対話型定理証明器で検証された C コンパイラである CompCert は、ユビキタスな GCC や LLVM などで使用される唯一のコンパイラです。

ただし、手動による形式的検証 (証明の作成) のコストは非常に膨大です。C コンパイラの証明は、コンパイラコード自体の証明の 3 倍以上です。

したがって、形式的な検証自体は「労働集約的」な作業であり、研究者らは自動化された方法も模索しています。

Coq や Isabelle などの証明アシスタントは、一度に 1 つの証明ステップを予測するようにモデルをトレーニングし、そのモデルを使用して可能な証明空間を検索します。

Baldur はこの記事で、この分野における大規模言語モデルの機能、自然言語テキストとコードのトレーニング、証明の微調整機能を初めて紹介しました。

Baldur は、一度に 1 ステップずつではなく、定理の完全な証明を一度に生成できます。

#上の図に示すように、証明生成モデルへの入力として定理ステートメントのみを使用し、モデルから証明試行を抽出します。イザベルを使用して証明検査を実行します。

イザベルがエラーなしで証明の試みを受け入れた場合、証明は成功します。そうでない場合は、別の証明の試みが証明生成モデルから抽出されます。

Baldur は、6336 個の Isabelle/HOL 定理とその証明のベンチマークで評価され、完全な証明の生成、修復、コンテキストの追加の有効性を経験的に実証しています。

さらに、このツールが Baldur と呼ばれている理由は、現在最良の自動プルーフ生成ツールが Thor と呼ばれているためかもしれません。

Thor は、より小さな言語モデルと、証明の次のステップを予測するために可能な証明の空間を検索する方法を組み合わせて使用することで、より高い証明率 (57%) を持っていますが、Baldur の利点は、完全な証拠。

しかし、トールとバルダーの兄弟も協力することができ、証明率が 66% 近くまで高まる可能性があります。

完全な証明を自動的に生成

Baldur は、科学論文や数学を含む Web ページで使用される Google の大規模言語モデルである Minerva を利用しています。証明と定理に関するデータに基づいてトレーニングされ、微調整されました。

Baldur は、証明結果をチェックする定理証明アシスタントの Isabelle と協力できます。定理ステートメントが与えられたとき、Baldur はほぼ 41% の確率で完全な証明を生成することができました。

Baldur のパフォーマンスをさらに向上させるために、研究者はモデルに追加のコンテキスト情報 (他の定義や理論文書の定理ステートメントなど) を提供しました。これにより校正率は 47.5% に増加します。

これは、Baldur がコンテキストを取得し、それを使用して新しい正しい証明を予測できることを意味します。これは、関連するメソッドとコードを理解している場合にそうする可能性が高いプログラマーと同様です。プログラムのバグ。

例は次のとおりです (fun_sum_commute 定理):

この定理は、Formal Proof Archives の Polynomials と呼ばれるプロジェクトから来ています。

手動で証明を書く場合、セットが有限であるか有限でないという 2 つのケースが区別されます。

つまり、モデルの入力は定理ステートメントであり、ターゲットの出力はこの手動で書かれた証明です。

Baldur はここで帰納法の必要性を認識し、infinite_finite_induct と呼ばれる特別な帰納法を適用しました。これは人間が書いた証明と同じ一般的なアプローチに従いますが、より簡潔です。

帰納法が必要なため、イザベルが使用するスレッジハンマーはデフォルトではこの定理を証明できません。

トレーニング

プルーフ生成モデルをトレーニングするために、研究者は新しいプルーフ生成データセットを構築しました。

既存のデータセットには単一の証明ステップの例が含まれており、各トレーニングサンプルには証明の状態 (入力) と適用される次の証明ステップ (目標) が含まれています。

単一の証明ステップを含むデータセットがあるとすると、証明全体を一度に予測するようにモデルをトレーニングするために、新しいデータセットを作成する必要があります。

研究者らは、データセットから各定理の証明ステップを抽出し、それらを連結して元の証明を再構築しました。

#修理の証明

# 上記の fun_sum_commute を例として取り上げます。

Baldur が最初に生成した証明の試みは、証明チェッカーで失敗しました。

Baldur は帰納法を適用しようとしましたが、最初に証明を 2 つの場合 (有限集合と無限集合) に分解することができませんでした。イザベルは次のエラーメッセージを返します:

これらの文字列から証明修復トレーニングの例を導き出すために、ここでは、定理ステートメント、失敗した証明試行、およびエラーメッセージが、人間が作成した正しいコードを使用して入力として連結されます。ターゲットとしての証拠。

#上の図は、トレーニングデータの作成プロセスを詳しく示しています。

証明生成モデルを使用して、元のトレーニングセットの各質問に対して温度 0 の証明をサンプリングします。

Proofing Assistant を使用して、失敗したすべての校正とそのエラーメッセージを記録し、新しい校正/修正トレーニングセットの構築に進みます。

元のトレーニングサンプルごとに、定理ステートメント、証明生成モデルによって生成された (間違った) 候補証明、および対応するエラーメッセージを連結して、新しいトレーニングサンプルシーケンスの入力を取得します。。

#コンテキストの追加

追加のコンテキストとして、定理ステートメントの前に理論ファイルの行を追加します。たとえば、下の図は次のようになります。

Baldur のコンテキスト付き証明生成モデルは、この追加情報を利用できます。 fun_sum_commute の定理ステートメントに出現する文字列は、このコンテキストでも再び出現するため、それらを囲む追加情報は、モデルがより適切な予測を行うのに役立ちます。

コンテキストは、ステートメント (定理、定義、証明) または自然言語の注釈です。

LLM の利用可能な入力長を活用するために、研究者らはまず、同じ理論ファイルから最大 50 個のステートメントを追加しました。

トレーニング中、これらのステートメントはすべて最初にトークン化され、次にシーケンスの左側が入力長に合わせて切り詰められます。

#上の図は、コンテキストありとコンテキストなしの生成モデルの証明成功率と証明試行回数の関係を示しています。コンテキストを伴う証明生成モデルが、単純な生成モデルよりも一貫して優れていることがわかります。

上のグラフは、さまざまなサイズと温度のモデルについて、検証された定理と推論コストの比率を示しています。

生成されたモデルの証明成功率、8B モデルと 62B モデルのコンテキストと証明試行回数の関係も確認できます。

コンテキストを含む 62B は、生成モデルがコンテキストを含む 8B モデルよりも優れていることを証明します。

ただし、著者らはここで、これらの実験にはコストがかかるため、ハイパーパラメーターを調整することができず、最適化すれば 62B モデルのパフォーマンスが向上する可能性があることを強調しています。

以上がテレンス・タオはそれを見て彼を専門家と呼んだ！ Google などは LLM を使用して定理を自動的に証明し、カンファレンスで優秀な論文を受賞しました。コンテキストが完全であればあるほど、証明はより優れたものになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、