ホームページ  >  記事  >  テクノロジー周辺機器  >  「機械学習の父」ミッチェル氏が執筆: AI が科学の発展をどのように加速し、米国がどのようにチャンスをつかむか

「機械学習の父」ミッチェル氏が執筆: AI が科学の発展をどのように加速し、米国がどのようにチャンスをつかむか

王林
王林オリジナル
2024-07-29 20:23:43706ブラウズ

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Herausgeber |. ScienceAI

Kürzlich hat Tom M. Mitchell, Professor an der Carnegie Mellon University und bekannt als „Vater des maschinellen Lernens“, ein neues Whitepaper zu KI für die Wissenschaft geschrieben, das sich auf die Diskussion „Wie kann künstliche Intelligenz“ konzentrieren Intelligenz die wissenschaftliche Entwicklung beschleunigen? Wie kann die US-Regierung dazu beitragen, dieses Ziel zu erreichen?“ Dieses Thema.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

ScienceAI hat den vollständigen Text des Original-Whitepapers zusammengestellt, ohne seine ursprüngliche Bedeutung zu ändern. Der Inhalt ist wie folgt.

Der Bereich der künstlichen Intelligenz hat in letzter Zeit erhebliche Fortschritte gemacht, einschließlich groß angelegter Sprachmodelle wie GPT, Claude und Gemini, was die Möglichkeit erhöht, dass eine sehr positive Auswirkung der künstlichen Intelligenz darin bestehen könnte, den Übergang von der Zellbiologie zur Zellbiologie erheblich zu beschleunigen Forschungsfortschritte in einer Vielzahl von wissenschaftlichen Bereichen, von der Materialwissenschaft über Wetter- und Klimamodellierung bis hin zu Neurowissenschaften. Hier fassen wir kurz diese Chance der KI-Wissenschaft zusammen und was die US-Regierung tun kann, um sie zu nutzen.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Chancen der künstlichen Intelligenz und der Wissenschaft

Der überwiegende Teil der wissenschaftlichen Forschung in fast allen Bereichen kann heute als „Einzelgänger“-Wissenschaft eingestuft werden.

Mit anderen Worten: Wissenschaftler und ihre Forschungsteams aus einem Dutzend Forschern kommen auf eine Idee, führen Experimente durch, um sie zu testen, schreiben die Ergebnisse auf und veröffentlichen sie, teilen ihre experimentellen Daten vielleicht im Internet und wiederholen dann den Vorgang.

Andere Wissenschaftler können diese Ergebnisse durch das Lesen veröffentlichter Arbeiten konsolidieren, aber Dieser Prozess ist aus mehreren Gründen fehleranfällig und äußerst ineffizient:

(1) Es ist für einzelne Wissenschaftler unmöglich, bereits veröffentlichte Arbeiten auf ihrem Gebiet zu lesen. Alle Artikel Die veröffentlichten Ergebnisse sind daher teilweise blind für andere relevante Studien. (2) In Zeitschriftenpublikationen beschriebene Experimente lassen zwangsläufig viele Details aus, was es für andere schwierig macht, ihre Ergebnisse zu reproduzieren und auf den Ergebnissen aufzubauen. (3) Eine einzige Analyse experimenteller Datensätze ist häufig erforderlich isoliert durchgeführt, ohne Daten aus anderen verwandten Experimenten anderer Wissenschaftler einzubeziehen (und daher keine wertvollen Informationen einzubeziehen).

In den nächsten zehn Jahren kann künstliche Intelligenz Wissenschaftlern helfen, die oben genannten drei Probleme zu überwinden.

KI kann dieses wissenschaftliche Forschungsmodell des „Einsamen Ranger“ in ein Modell der „gemeinschaftlichen wissenschaftlichen Entdeckung“ verwandeln. Insbesondere kann KI verwendet werden, um einen neuen Typ von Computer-Forschungsassistenten zu schaffen, der menschlichen Wissenschaftlern hilft, diese Probleme zu überwinden, indem er:

  • komplexe Datensätze (einschließlich solcher, die aus vielen Experimenten in mehreren Labors erstellt wurden) entdeckt, anstatt sie isoliert durchzuführen Analysen auf einem einzigen, viel kleineren und weniger repräsentativen Datensatz. Eine umfassendere und genauere Analyse kann erreicht werden, indem die Analyse auf Datensätzen basiert, die um Größenordnungen größer sind als die menschlichen Fähigkeiten.
  • Verwenden Sie groß angelegte Sprachmodelle mit künstlicher Intelligenz wie GPT, um alle relevanten Veröffentlichungen auf diesem Gebiet zu lesen und zu verarbeiten, und helfen Sie so Wissenschaftlern, neue Hypothesen zu formulieren, die nicht nur auf experimentellen Daten aus ihrem eigenen Labor und anderen Labors basieren, sondern auch auf veröffentlicht. Verwenden Sie Annahmen und Argumente aus der Forschungsliteratur, um neue Hypothesen zu formulieren, was zu fundierteren Hypothesen führt, als dies ohne dieses KI-Tool in natürlicher Sprache möglich gewesen wäre.
  • Erstellen Sie „Basismodelle“ und trainieren Sie diese Modelle mithilfe vieler verschiedener Arten von experimentellen Daten, die von Labors und Wissenschaftlern gesammelt wurden. Dadurch wird das wachsende Wissen auf diesem Gebiet an einem Ort zusammengeführt und für den Computer zugänglich gemacht. Ausführungsmodell. Diese ausführbaren „Basismodelle“ können den gleichen Zweck erfüllen wie Gleichungen wie f = ma, d. h. sie treffen Vorhersagen über bestimmte Größen auf der Grundlage anderer beobachteter Größen. Und im Gegensatz zu klassischen Gleichungen können diese zugrunde liegenden Modelle die empirischen Beziehungen zwischen Hunderttausenden verschiedener Variablen und nicht nur einer Handvoll Variablen erfassen.
  • Automatisieren oder halbautomatisieren Sie den Entwurf neuer Experimente und die Durchführung durch Roboter, um dadurch neue relevante Experimente zu beschleunigen und die Reproduzierbarkeit wissenschaftlicher Experimente zu verbessern.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Welche wissenschaftlichen Durchbrüche könnte dieser Paradigmenwechsel in der wissenschaftlichen Praxis bringen?

Hier ein paar Beispiele:

  • 새로운 질병 발생에 대한 새로운 백신의 개발 시간과 비용을 10배 줄입니다.
  • 재료 연구를 가속화하면 방출을 일으키지 않고 열을 전기로 변환하는 상온 초전도체 및 열전 재료와 같은 획기적인 제품이 탄생할 수 있습니다.
  • 한 번도 시도되지 않은 세포 생물학 실험 데이터의 양과 다양성을 결합하여 인간 세포 기능의 "기본 모델"을 형성하고 실험실에서 생체 내 실험을 수행하는 더 비싼 단계를 가능하게 하며 결과를 신속하게 시뮬레이션합니다. 많은 잠재적인 실험.
  • 신경과학의 실험 데이터(단일 뉴런 행동 데이터부터 전체 뇌 fMRI 영상까지)와 결합하여 다양한 세부 수준에서 인간 두뇌의 "기본 모델"을 구축하고, 전례 없는 규모와 다양성으로 데이터를 통합하고, 다양한 유형의 생각과 감정을 인코딩하기 위해 뇌가 사용하는 신경 활동, 이러한 생각과 감정이 다양한 자극에 의해 어떻게 나타나는지, 약물이 신경 활동에 미치는 영향, 정신 장애에 대한 다양한 치료법의 효과를 예측하는 모델입니다.
  • 매우 지역화된 지역(예: 개별 농장)에 맞게 예측을 조정하고 미래 날씨를 예측하는 능력을 확장하여 날씨 예측 능력을 향상합니다.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

이 기회를 잡기 위해 미국 정부는 무엇을 할 수 있을까요?

이 기회를 현실로 바꾸려면 다음과 같은 몇 가지 요소가 필요합니다.

많은 실험 데이터

기본 텍스트 기반 모델의 한 가지 교훈은 더 많은 데이터를 학습할수록 더 강력해진다는 것입니다. 경험이 풍부한 과학자들도 점점 더 다양해지는 실험 데이터의 가치를 잘 알고 있습니다. 과학 분야에서 엄청난 발전을 이루고 우리가 원하는 기본 모델 유형을 훈련하려면 전체 과학계에서 기여한 다양한 데이터 세트를 공유하고 공동으로 분석하는 능력을 크게 발전시켜야 합니다.

과학 출판물에 접근하여 컴퓨터로 읽을 수 있는 능력

여기서 기회의 핵심 부분은 현재 상황을 바꾸는 것입니다. 과학자들은 해당 분야 관련 출판물의 1%를 읽을 가능성이 낮지만 컴퓨터는 100%를 읽습니다. 출판물과 현재 과학 문제와의 관련성을 요약하고 내용과 의미를 논의할 수 있는 대화형 인터페이스를 제공합니다. 이를 위해서는 온라인 문헌에 대한 접근뿐만 아니라 그러한 '문학 조수'를 구축하기 위한 AI 연구가 필요합니다.

컴퓨팅 및 네트워크 리소스

GPT 및 Gemini와 같은 텍스트 기반 기본 모델은 개발에 많은 양의 처리 리소스가 소비되는 것으로 알려져 있습니다. 다양한 과학 분야의 기본 모델을 개발하려면 많은 양의 컴퓨팅 리소스가 필요합니다. 그러나 많은 AI 과학적 노력에서 계산 요구 사항은 GPT와 같은 LLM을 교육하는 데 필요한 것보다 훨씬 작을 가능성이 높으므로 정부 연구소에서 수행하는 것과 유사한 투자를 통해 달성할 수 있습니다.

예를 들어, 약물 설계를 위한 단백질 분석에 혁명을 일으킨 AI 모델인 AlphaFold는 GPT 및 Gemini와 같은 기본 텍스트 기반 모델보다 훈련 계산을 훨씬 적게 사용합니다. 데이터 공유를 지원하려면 대규모 컴퓨터 네트워크가 필요하지만 현재 인터넷은 이미 대규모 실험 데이터 세트를 전송하기 위한 충분한 출발점을 제공하고 있습니다. 따라서 AI 기반 과학 발전을 지원하기 위한 하드웨어 비용은 잠재적 이점에 비해 상당히 낮을 가능성이 높습니다.

새로운 기계 학습 및 AI 방법

현재 기계 학습 방법은 인간이 조사할 수 없는 거대한 데이터 세트에서 통계적 규칙성을 발견하는 데 매우 유용합니다. 예를 들어 AlphaFold는 대량의 단백질 서열과 신중하게 측정된 3D 구조에서 수행됩니다. 훈련됨). 새로운 기회의 핵심 부분은 현재의 기계 학습 방법(데이터의 통계적 상관 관계 발견)을 두 가지 중요한 방향으로 확장하는 것입니다. (1) 데이터의 상관 관계 찾기에서 인과 관계 찾기로 이동하고 (2) 대규모 데이터만 찾는 것에서 이동 규모 구조화된 데이터세트 학습은 구조화된 대규모 데이터세트와 대규모 연구 문헌으로부터 학습하는 방향으로 이동합니다. 즉, 실험 데이터와 다른 사람이 자연어로 표현한 발표된 가설 및 주장을 통해 인간 과학자처럼 학습하는 것입니다. 대규모 텍스트 컬렉션을 소화, 요약 및 추론하는 고급 기능을 갖춘 LLM의 최근 등장은 이 새로운 종류의 기계 학습 알고리즘의 기반을 제공할 수 있습니다.

정부는 어떻게 해야 할까요? 핵심은 위의 네 부분을 지원하고 과학계를 통합하여 인공 지능을 기반으로 한 새로운 방법을 탐색하여 연구 진행을 촉진하는 것입니다. 따라서 정부는 다음과 같은 조치를 취하는 것을 고려해야 합니다.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

科学の特定分野における具体的な機会を探る多くの科学分野の複数機関の研究チームに資金を提供し、AIをどのように使用してその分野の進歩を大幅に加速できるか、スケールアップするには何が必要かを示すビジョンと暫定的な結果を提示するこのアプローチ。最大の進歩は多くの機関の多くの科学者からのデータと研究を統合することによってもたらされる可能性があるため、この研究は個々の機関への助成金として資金提供されるべきではありません。むしろ、科学コミュニティ全体との関わりを促す機会やアプローチを提案する多くの機関の科学者チームによって実施されるのが最も効果的であると考えられます。

新しい基本モデルをトレーニングし、科学者のコミュニティ全体がデータを利用できるようにするための新しい実験データセットの作成を加速します:

  • 1 人の科学者が異なる科学者によって作成された実験データを便利に使用できるようにするデータ共有標準を作成します。関連する各科学分野における国家データリソースの基礎を提供します。標準化への取り組みの出発点となるテンプレートを提供できる標準化の開発と使用においては、これまでにも成功例があることに注意してください(たとえば、ヒトゲノムプロジェクト中のデータ共有の成功など)。

  • 関連するあらゆる分野のデータ共有 Web サイトを作成してサポートします。 GitHub がソフトウェア開発者にとって、ソフトウェア コードを寄稿、共有、再利用するための頼りになるサイトになったのと同じように、科学データセット用の GitHub を作成すると、データ リポジトリとして、また特定のトピックに関連するトピックを発見するための検索エンジンとして機能します。最も関連性の高いデータセットを使用した実験を計画します。

  • データ共有を最大化するためのインセンティブメカニズムを構築する方法を研究します。現在、科学分野では、個々の科学者がデータを共有する範囲と、営利組織が基礎科学研究にデータを使用する範囲が大きく異なります。大規模で共有可能な国家データ リソースの構築は、AI の科学的機会に不可欠であり、データ共有のための魅力的なインセンティブ構造を構築することが成功の鍵となります。

  • 必要に応じて、実験を効率的に実施し、標準形式のデータで生成するために、自動化された実験室 (例: インターネット経由で多くの科学者が使用できる化学、生物学などの実験用のロボット実験室) の開発に資金を提供します。このような研究室を設立する主な利点は、従うべき実験手順を正確に記述する標準の開発も促進され、それによって実験結果の再現性が向上することです。データセットに関して GitHub から恩恵を受けることができるのと同様に、実験プロトコルのコンポーネントを共有、変更、再利用するために関連する GitHub からも恩恵を受けることができます。

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

新世代の人工知能ツールを作成するには、以下が必要です:

  • 科学的研究手法のために特別に開発された、関連する基礎的な AI 研究に資金を提供する。これには、さまざまな分野の研究を加速し、「ローンレンジャー」科学からより強力な「コミュニティ科学発見」パラダイムへの移行を加速するためのツールとして、広い意味での「基礎モデル」の開発が含まれるべきである。

  • 研究文献を読み、記載されている入力仮定を批判し、改善を提案し、科学者が現在の疑問に直接関連する方法で科学文献から結果を導き出すのを支援することで、研究を特別にサポートします。

  • 特に、因果関係の仮説をテストするために新しい実験を計画および実行できる環境において、相関関係の発見から因果関係の発見まで機械学習を拡張する研究を特別にサポートします。

  • 実験データと研究における統計的規則性を生成するために、ビッグデータのみを入力として取得することから、大規模な実験データと現場の完全な研究文献の両方を入力として取得するまで、機械学習アルゴリズムの研究の拡大を特別にサポートします。文献 で説明されている仮定、説明、および議論。

関連コンテンツ: https://x.com/tommmitchell/status/1817297827003064715

https://docs.google.com/document/d/1ak_XRk5j5ZHixHUxXeqaiCeeaNxXySO lH1kIeEH3DXE/edit?pli=1
注: この記事の写真はインターネットから取得したものです。

以上が「機械学習の父」ミッチェル氏が執筆: AI が科学の発展をどのように加速し、米国がどのようにチャンスをつかむかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。