ホームページ >テクノロジー周辺機器 >AI >新しい「AI 科学者」は理論とデータを組み合わせて科学方程式を発見します
科学者の目標は、実験データを正確に記述する意味のある式を発見することです。自然現象の数学モデルは、ドメイン知識に基づいて手動で作成することも、機械学習アルゴリズムを使用して大規模なデータセットから自動的に作成することもできます。学術界は、関連する事前知識と関連する関数モデルを統合する問題を研究しており、一般的な論理公理の事前知識と矛盾しないモデルを見つけることは未解決の問題であると考えています。
IBM 研究チームとサムスン AI チームの研究者は、論理的推論と記号回帰を組み合わせて、公理的知識と実験データからデータを抽出する手法「AI-Descartes」を開発しました。自然現象のモデル。
研究のタイトルは「AI-Descartes による導出可能な科学的発見のためのデータと理論の結合」で、2023 年 4 月 12 日に「Nature」に掲載されました。通信》。
人工ニューラル ネットワーク (NN) と統計回帰は、データ内のパターンと関係を自動的に発見するためによく使用されます。 NN は「ブラック ボックス」モデルを返します。このモデルでは、基礎となる関数は通常、予測のみに使用されます。標準的な回帰では、関数形式が事前に決定されているため、モデルの発見はパラメーターのフィッティングに相当します。シンボリック回帰 (SR) では、関数形式は事前に決定されておらず、指定されたリストの演算子 (例: 、-、×、および ÷) で構成され、データから計算されます。
SR モデルは一般に、NN モデルよりも「解釈しやすく」、必要なデータが少なくなります。したがって、実験データから自然法則を象徴的に発見するには、NN や定型回帰よりも SR の方が効果的である可能性があり、NN と SR の統合が神経象徴 AI における最近の研究のテーマとなっています。 SR における主な課題は、データに適合する多数のモデルの中から科学的に意味のあるモデルを特定することです。科学者は、意味のある関数とは、精度と複雑さのバランスがとれた関数であると定義しています。ただし、特定のデータセットに対してそのような式が多数存在し、そのすべてが既知の背景理論と一致しているわけではありません。
別のアプローチは、既知の背景理論から始めることですが、既知の一連の公理から実験データと一致する定理を生成できる実用的な推論ツールは現在ありません。自動定理証明 (ATP) は、特定の論理理論の推測を証明できる最も広く使用されている推論ツールです。計算の複雑さは ATP にとって大きな課題であり、一部のタイプのロジックでは、推測の証明が決定不可能です。
さらに、形式的推論ツールを使用して論理理論からモデルを導出するのは、算術演算子や微積分演算子が関与する場合に特に困難です。機械学習技術は、検索プロセスをガイドするために強化学習を使用するなど、ATP のパフォーマンスを向上させるために使用されています。
派生モデルは経験的に正確であるだけでなく、予測性と洞察力にも優れている必要があります。
IBM 研究チームとサムスン AI チームの研究者は、新しい数学的最適化ベースの SR 手法と推論システムを組み合わせて、そのようなモデルを取得しようと試みました。その結果、SR を介してデータから式を抽出し、一連の公理から式の導出可能性の証明、または矛盾の証明を提供する、エンドツーエンドの発見システム「AI-Descartes」が誕生しました。モデルが導出できないことが証明された場合、研究者は、その式が導出可能な式にどの程度近いかを示す新しい尺度を提案し、推論システムを使用してこれらの尺度の値を計算します。
#図: システムの概要。 (出典: 論文)
機械学習と推論を組み合わせた初期の研究では、科学者はロジックベースの記述を使用して、画像を生成する GAN ニューラル アーキテクチャの出力を制限しました。機械学習ツールと推論エンジンを組み合わせて、事前に指定された制約を満たす関数形式を検索するチームもあります。これは、初期データセットを新しいポイントで増補し、学習方法の効率と最終モデルの精度を向上させるためです。一部のチームは、事前の知識を活用して追加のデータ ポイントを作成します。しかし、これらの研究では、学習すべき関数形式の制約のみが考慮されており、一般的な背景の理論公理(現象に関与する他の法則や未測定の変数を説明する論理制約)は含まれていませんでした。
この論文の筆頭著者でサムスン AI の研究員であるクリスティーナ コルネリオ氏は、AI-Descartes には他のシステムに比べていくつかの利点があるが、最も特徴的なのは論理的推論能力であると述べました。 。データによく適合する式の候補が複数ある場合、システムはどの式が背景の科学理論に最も適合するかを特定します。また、推論能力により、このシステムは、大規模な言語モデルでは論理機能が制限され、基本的な数学が台無しになることがある ChatGPT のような「生成 AI」プログラムとは区別されます。
「私たちの研究では、第一原理手法と、何世紀にもわたって科学者によって使用されてきた、機械学習時代のより一般的なデータ駆動型手法を組み合わせています。」これにより、両方のアプローチを活用して、幅広いアプリケーション向けに、より正確で意味のあるモデルを作成できるようになります。」
AI-Descartes という名前は、17 世紀の数学者で哲学者のルネに敬意を表しています。デカルトは、自然界はいくつかの基本的な物理法則によって説明でき、論理的推論が科学的発見において重要な役割を果たすと信じていました。
#図: システム実装のための科学的手法の説明。 (出典: 論文)
このチームの研究者は、論理的推論と記号回帰を組み合わせることが、物理現象の意味のある記号モデルを取得する上で非常に価値があることを実証しました。これは背景理論と一致しており、実験データよりも大幅に大きい領域によく一般化されます。回帰と推論を組み合わせると、SR または論理推論を単独で使用するよりも優れたモデルが生成されます。
個々のシステム コンポーネントの改善または置き換え、およびアブダクティブ推論や実験計画などの新しいモジュールの導入により、システム全体の機能が拡張されます。推論と回帰のより深い統合は、データ駆動型および第一原理ベースのモデルの合成に役立ち、科学的発見プロセスに革命をもたらすことができます。事前の知識と一致するモデルを発見することは、科学的発見を加速し、既存の発見パラダイムを超越するでしょう。
チームはモデルを使用して、ケプラーの惑星運動の第 3 法則、アインシュタインの相対論的時間膨張法則、およびラングミュアの吸着理論を推定しました。研究では、論理的推論を使用すると候補式を区別することができることがわかりました。データに同様のエラーがある場合、モデルは少数のデータ ポイントから支配的なパターンを発見できます。
#図: 関連するセットとその距離の視覚化。 (出典: 論文)
# 「この研究では、人間の専門家が背景理論の公理が何であるかを形式的かつコンピューター可読な方法で書き留める必要があります。 「人間がそれらのいずれかを見逃したり、間違ったりすると、システムは機能しません」とUMBCの化学、生化学、環境工学の助教授であるタイラー・ジョセフソン氏は語った。「将来的には、これを自動化したいとも考えています」これは、科学と工学のより多くの分野を探索できるようにするための仕事の一部です。」最終的に、チームは、AI デカルトが本物の科学者と同じように生産的な新しい科学的アプローチを刺激できることを望んでいます。 「私たちの研究で最も刺激的な側面の一つは、科学研究における大幅な進歩の可能性です」とコルネリオ氏は語った。
論文リンク: https://www.nature.com/articles/s41467-023-37236-y 関連レポート: https://techxplore.com/news/2023-04-ai-scientist-combines- Theory-scientific.html
以上が新しい「AI 科学者」は理論とデータを組み合わせて科学方程式を発見しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。