Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  „Vater des maschinellen Lernens“ Mitchell schreibt: Wie KI die wissenschaftliche Entwicklung beschleunigt und wie die Vereinigten Staaten Chancen nutzen

„Vater des maschinellen Lernens“ Mitchell schreibt: Wie KI die wissenschaftliche Entwicklung beschleunigt und wie die Vereinigten Staaten Chancen nutzen

王林
王林Original
2024-07-29 20:23:43705Durchsuche

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Herausgeber |. ScienceAI

Kürzlich hat Tom M. Mitchell, Professor an der Carnegie Mellon University und bekannt als „Vater des maschinellen Lernens“, ein neues Whitepaper zu KI für die Wissenschaft geschrieben, das sich auf die Diskussion „Wie kann künstliche Intelligenz“ konzentrieren Intelligenz die wissenschaftliche Entwicklung beschleunigen? Wie kann die US-Regierung dazu beitragen, dieses Ziel zu erreichen?“ Dieses Thema.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

ScienceAI hat den vollständigen Text des Original-Whitepapers zusammengestellt, ohne seine ursprüngliche Bedeutung zu ändern. Der Inhalt ist wie folgt.

Der Bereich der künstlichen Intelligenz hat in letzter Zeit erhebliche Fortschritte gemacht, einschließlich groß angelegter Sprachmodelle wie GPT, Claude und Gemini, was die Möglichkeit erhöht, dass eine sehr positive Auswirkung der künstlichen Intelligenz darin bestehen könnte, den Übergang von der Zellbiologie zur Zellbiologie erheblich zu beschleunigen Forschungsfortschritte in einer Vielzahl von wissenschaftlichen Bereichen, von der Materialwissenschaft über Wetter- und Klimamodellierung bis hin zu Neurowissenschaften. Hier fassen wir kurz diese Chance der KI-Wissenschaft zusammen und was die US-Regierung tun kann, um sie zu nutzen.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Chancen der künstlichen Intelligenz und der Wissenschaft

Der überwiegende Teil der wissenschaftlichen Forschung in fast allen Bereichen kann heute als „Einzelgänger“-Wissenschaft eingestuft werden.

Mit anderen Worten: Wissenschaftler und ihre Forschungsteams aus einem Dutzend Forschern kommen auf eine Idee, führen Experimente durch, um sie zu testen, schreiben die Ergebnisse auf und veröffentlichen sie, teilen ihre experimentellen Daten vielleicht im Internet und wiederholen dann den Vorgang.

Andere Wissenschaftler können diese Ergebnisse durch das Lesen veröffentlichter Arbeiten konsolidieren, aber Dieser Prozess ist aus mehreren Gründen fehleranfällig und äußerst ineffizient:

(1) Es ist für einzelne Wissenschaftler unmöglich, bereits veröffentlichte Arbeiten auf ihrem Gebiet zu lesen. Alle Artikel Die veröffentlichten Ergebnisse sind daher teilweise blind für andere relevante Studien. (2) In Zeitschriftenpublikationen beschriebene Experimente lassen zwangsläufig viele Details aus, was es für andere schwierig macht, ihre Ergebnisse zu reproduzieren und auf den Ergebnissen aufzubauen. (3) Eine einzige Analyse experimenteller Datensätze ist häufig erforderlich isoliert durchgeführt, ohne Daten aus anderen verwandten Experimenten anderer Wissenschaftler einzubeziehen (und daher keine wertvollen Informationen einzubeziehen).

In den nächsten zehn Jahren kann künstliche Intelligenz Wissenschaftlern helfen, die oben genannten drei Probleme zu überwinden.

KI kann dieses wissenschaftliche Forschungsmodell des „Einsamen Ranger“ in ein Modell der „gemeinschaftlichen wissenschaftlichen Entdeckung“ verwandeln. Insbesondere kann KI verwendet werden, um einen neuen Typ von Computer-Forschungsassistenten zu schaffen, der menschlichen Wissenschaftlern hilft, diese Probleme zu überwinden, indem er:

  • komplexe Datensätze (einschließlich solcher, die aus vielen Experimenten in mehreren Labors erstellt wurden) entdeckt, anstatt sie isoliert durchzuführen Analysen auf einem einzigen, viel kleineren und weniger repräsentativen Datensatz. Eine umfassendere und genauere Analyse kann erreicht werden, indem die Analyse auf Datensätzen basiert, die um Größenordnungen größer sind als die menschlichen Fähigkeiten.
  • Verwenden Sie groß angelegte Sprachmodelle mit künstlicher Intelligenz wie GPT, um alle relevanten Veröffentlichungen auf diesem Gebiet zu lesen und zu verarbeiten, und helfen Sie so Wissenschaftlern, neue Hypothesen zu formulieren, die nicht nur auf experimentellen Daten aus ihrem eigenen Labor und anderen Labors basieren, sondern auch auf veröffentlicht. Verwenden Sie Annahmen und Argumente aus der Forschungsliteratur, um neue Hypothesen zu formulieren, was zu fundierteren Hypothesen führt, als dies ohne dieses KI-Tool in natürlicher Sprache möglich gewesen wäre.
  • Erstellen Sie „Basismodelle“ und trainieren Sie diese Modelle mithilfe vieler verschiedener Arten von experimentellen Daten, die von Labors und Wissenschaftlern gesammelt wurden. Dadurch wird das wachsende Wissen auf diesem Gebiet an einem Ort zusammengeführt und für den Computer zugänglich gemacht. Ausführungsmodell. Diese ausführbaren „Basismodelle“ können den gleichen Zweck erfüllen wie Gleichungen wie f = ma, d. h. sie treffen Vorhersagen über bestimmte Größen auf der Grundlage anderer beobachteter Größen. Und im Gegensatz zu klassischen Gleichungen können diese zugrunde liegenden Modelle die empirischen Beziehungen zwischen Hunderttausenden verschiedener Variablen und nicht nur einer Handvoll Variablen erfassen.
  • Automatisieren oder halbautomatisieren Sie den Entwurf neuer Experimente und die Durchführung durch Roboter, um dadurch neue relevante Experimente zu beschleunigen und die Reproduzierbarkeit wissenschaftlicher Experimente zu verbessern.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Welche wissenschaftlichen Durchbrüche könnte dieser Paradigmenwechsel in der wissenschaftlichen Praxis bringen?

Hier ein paar Beispiele:

  • 새로운 질병 발생에 대한 새로운 백신의 개발 시간과 비용을 10배 줄입니다.
  • 재료 연구를 가속화하면 방출을 일으키지 않고 열을 전기로 변환하는 상온 초전도체 및 열전 재료와 같은 획기적인 제품이 탄생할 수 있습니다.
  • 한 번도 시도되지 않은 세포 생물학 실험 데이터의 양과 다양성을 결합하여 인간 세포 기능의 "기본 모델"을 형성하고 실험실에서 생체 내 실험을 수행하는 더 비싼 단계를 가능하게 하며 결과를 신속하게 시뮬레이션합니다. 많은 잠재적인 실험.
  • 신경과학의 실험 데이터(단일 뉴런 행동 데이터부터 전체 뇌 fMRI 영상까지)와 결합하여 다양한 세부 수준에서 인간 두뇌의 "기본 모델"을 구축하고, 전례 없는 규모와 다양성으로 데이터를 통합하고, 다양한 유형의 생각과 감정을 인코딩하기 위해 뇌가 사용하는 신경 활동, 이러한 생각과 감정이 다양한 자극에 의해 어떻게 나타나는지, 약물이 신경 활동에 미치는 영향, 정신 장애에 대한 다양한 치료법의 효과를 예측하는 모델입니다.
  • 매우 지역화된 지역(예: 개별 농장)에 맞게 예측을 조정하고 미래 날씨를 예측하는 능력을 확장하여 날씨 예측 능력을 향상합니다.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

이 기회를 잡기 위해 미국 정부는 무엇을 할 수 있을까요?

이 기회를 현실로 바꾸려면 다음과 같은 몇 가지 요소가 필요합니다.

많은 실험 데이터

기본 텍스트 기반 모델의 한 가지 교훈은 더 많은 데이터를 학습할수록 더 강력해진다는 것입니다. 경험이 풍부한 과학자들도 점점 더 다양해지는 실험 데이터의 가치를 잘 알고 있습니다. 과학 분야에서 엄청난 발전을 이루고 우리가 원하는 기본 모델 유형을 훈련하려면 전체 과학계에서 기여한 다양한 데이터 세트를 공유하고 공동으로 분석하는 능력을 크게 발전시켜야 합니다.

과학 출판물에 접근하여 컴퓨터로 읽을 수 있는 능력

여기서 기회의 핵심 부분은 현재 상황을 바꾸는 것입니다. 과학자들은 해당 분야 관련 출판물의 1%를 읽을 가능성이 낮지만 컴퓨터는 100%를 읽습니다. 출판물과 현재 과학 문제와의 관련성을 요약하고 내용과 의미를 논의할 수 있는 대화형 인터페이스를 제공합니다. 이를 위해서는 온라인 문헌에 대한 접근뿐만 아니라 그러한 '문학 조수'를 구축하기 위한 AI 연구가 필요합니다.

컴퓨팅 및 네트워크 리소스

GPT 및 Gemini와 같은 텍스트 기반 기본 모델은 개발에 많은 양의 처리 리소스가 소비되는 것으로 알려져 있습니다. 다양한 과학 분야의 기본 모델을 개발하려면 많은 양의 컴퓨팅 리소스가 필요합니다. 그러나 많은 AI 과학적 노력에서 계산 요구 사항은 GPT와 같은 LLM을 교육하는 데 필요한 것보다 훨씬 작을 가능성이 높으므로 정부 연구소에서 수행하는 것과 유사한 투자를 통해 달성할 수 있습니다.

예를 들어, 약물 설계를 위한 단백질 분석에 혁명을 일으킨 AI 모델인 AlphaFold는 GPT 및 Gemini와 같은 기본 텍스트 기반 모델보다 훈련 계산을 훨씬 적게 사용합니다. 데이터 공유를 지원하려면 대규모 컴퓨터 네트워크가 필요하지만 현재 인터넷은 이미 대규모 실험 데이터 세트를 전송하기 위한 충분한 출발점을 제공하고 있습니다. 따라서 AI 기반 과학 발전을 지원하기 위한 하드웨어 비용은 잠재적 이점에 비해 상당히 낮을 가능성이 높습니다.

새로운 기계 학습 및 AI 방법

현재 기계 학습 방법은 인간이 조사할 수 없는 거대한 데이터 세트에서 통계적 규칙성을 발견하는 데 매우 유용합니다. 예를 들어 AlphaFold는 대량의 단백질 서열과 신중하게 측정된 3D 구조에서 수행됩니다. 훈련됨). 새로운 기회의 핵심 부분은 현재의 기계 학습 방법(데이터의 통계적 상관 관계 발견)을 두 가지 중요한 방향으로 확장하는 것입니다. (1) 데이터의 상관 관계 찾기에서 인과 관계 찾기로 이동하고 (2) 대규모 데이터만 찾는 것에서 이동 규모 구조화된 데이터세트 학습은 구조화된 대규모 데이터세트와 대규모 연구 문헌으로부터 학습하는 방향으로 이동합니다. 즉, 실험 데이터와 다른 사람이 자연어로 표현한 발표된 가설 및 주장을 통해 인간 과학자처럼 학습하는 것입니다. 대규모 텍스트 컬렉션을 소화, 요약 및 추론하는 고급 기능을 갖춘 LLM의 최근 등장은 이 새로운 종류의 기계 학습 알고리즘의 기반을 제공할 수 있습니다.

정부는 어떻게 해야 할까요? 핵심은 위의 네 부분을 지원하고 과학계를 통합하여 인공 지능을 기반으로 한 새로운 방법을 탐색하여 연구 진행을 촉진하는 것입니다. 따라서 정부는 다음과 같은 조치를 취하는 것을 고려해야 합니다.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Erkunden Sie spezifische Möglichkeiten in bestimmten Bereichen der Wissenschaft. Finanzieren Sie multiinstitutionelle Forschungsteams in vielen wissenschaftlichen Bereichen, um Visionen und vorläufige Ergebnisse zu präsentieren, die zeigen, wie KI verwendet werden kann, um den Fortschritt in ihren Bereichen erheblich zu beschleunigen, und was erforderlich ist, um dies zu skalieren Ansatz. Diese Arbeit sollte nicht in Form von Zuschüssen an einzelne Institutionen finanziert werden, da die größten Fortschritte durch die Integration von Daten und Forschungsergebnissen vieler Wissenschaftler an vielen Institutionen erzielt werden können. Stattdessen ist es wahrscheinlich am effektivsten, wenn es von einem Team von Wissenschaftlern aus vielen Institutionen durchgeführt wird, die Möglichkeiten und Ansätze vorschlagen, die ihr Engagement in der wissenschaftlichen Gemeinschaft insgesamt inspirieren.

Beschleunigen Sie die Erstellung neuer experimenteller Datensätze, um neue Basismodelle zu trainieren und Daten der gesamten Wissenschaftlergemeinschaft zur Verfügung zu stellen:

  • Erstellen Sie Standards für den Datenaustausch, um einem Wissenschaftler die bequeme Nutzung experimenteller Daten verschiedener Wissenschaftler zu ermöglichen Legen Sie den Grundstein für nationale Datenressourcen in jedem relevanten wissenschaftlichen Bereich. Beachten Sie, dass es bereits frühere Erfolge bei der Entwicklung und Verwendung solcher Standards gab, die als Ausgangsvorlage für Standardbemühungen dienen können (z. B. der Erfolg des Datenaustauschs während des Humangenomprojekts).

  • Erstellen und unterstützen Sie Websites zum Datenaustausch für alle relevanten Bereiche. So wie GitHub zur Anlaufstelle für Softwareentwickler geworden ist, um Softwarecode beizutragen, zu teilen und wiederzuverwenden, kann die Erstellung eines GitHub für wissenschaftliche Datensätze sowohl als Datenspeicher als auch als Suchmaschine zum Entdecken von Themen im Zusammenhang mit bestimmten Themen, Hypothesen oder anderen dienen Planen Sie ein Experiment mit dem relevantesten Datensatz.

  • Untersuchen Sie, wie Sie Anreizmechanismen aufbauen können, um den Datenaustausch zu maximieren. Derzeit gibt es in den Wissenschaftsbereichen große Unterschiede in dem Ausmaß, in dem einzelne Wissenschaftler ihre Daten teilen und in dem Ausmaß, in dem gewinnorientierte Organisationen ihre Daten für die wissenschaftliche Grundlagenforschung nutzen. Der Aufbau einer großen, gemeinsam nutzbaren nationalen Datenressource ist ein wesentlicher Bestandteil der wissenschaftlichen Möglichkeiten der KI, und der Aufbau einer überzeugenden Anreizstruktur für den Datenaustausch wird der Schlüssel zum Erfolg sein.

  • Finanzieren Sie gegebenenfalls die Entwicklung automatisierter Labore (z. B. Roboterlabore für Chemie-, Biologie- usw. Experimente, die von vielen Wissenschaftlern über das Internet genutzt werden können), um Experimente effizient durchzuführen und diese in einem Standardformat zu generieren. Ein großer Vorteil der Einrichtung solcher Labore besteht darin, dass sie auch die Entwicklung von Standards fördern, die die zu befolgenden experimentellen Verfahren genau spezifizieren und so die Reproduzierbarkeit experimenteller Ergebnisse erhöhen. So wie wir von GitHubs für Datensätze profitieren können, können wir auch von verwandten GitHubs profitieren, um Komponenten experimenteller Protokolle zu teilen, zu ändern und wiederzuverwenden.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Um eine neue Generation von Werkzeugen der künstlichen Intelligenz zu schaffen, ist Folgendes erforderlich:

  • Die Finanzierung relevanter KI-Grundlagenforschung, die speziell für wissenschaftliche Forschungsmethoden entwickelt wurde. Dies sollte die Entwicklung von „Grundlagenmodellen“ im weitesten Sinne als Instrumente zur Beschleunigung der Forschung in verschiedenen Bereichen und zur Beschleunigung des Übergangs von der „Einzelgänger“-Wissenschaft zu einem leistungsfähigeren Paradigma der „gemeinschaftlichen wissenschaftlichen Entdeckung“ umfassen.

  • Unterstützt die Forschung insbesondere durch das Lesen der Forschungsliteratur, das Kritisieren von Annahmen und Verbesserungsvorschlägen und hilft Wissenschaftlern dabei, Ergebnisse aus der wissenschaftlichen Literatur auf eine Weise abzuleiten, die für ihre aktuellen Fragen direkt relevant ist.

  • Unterstützt insbesondere Forschung, die maschinelles Lernen von der Entdeckung von Korrelationen auf die Entdeckung von Kausalitäten ausdehnt, insbesondere in Umgebungen, in denen neue Experimente geplant und durchgeführt werden können, um kausale Hypothesen zu testen.

  • Unterstützt insbesondere die Ausweitung der Forschung zu Algorithmen des maschinellen Lernens, von der reinen Verwendung großer Datenmengen als Eingabe bis hin zur Verwendung sowohl großer experimenteller Daten als auch vollständiger Forschungsliteratur auf diesem Gebiet als Eingabe, um statistische Regelmäßigkeiten in experimentellen Daten und Forschung zu generieren Literatur Die Annahmen, Erklärungen und Argumente, die in diskutiert werden.

Verwandter Inhalt:

https://x.com/tommmitchell/status/1817297827003064715
https://docs.google.com/document/d/1ak_XRk5j5ZHixHUxXeqaiCeeaNxXySO lH1kIeEH3DXE/edit?pli=1
Hinweis: Die Bilder in diesem Artikel stammen aus dem Internet.

Das obige ist der detaillierte Inhalt von„Vater des maschinellen Lernens“ Mitchell schreibt: Wie KI die wissenschaftliche Entwicklung beschleunigt und wie die Vereinigten Staaten Chancen nutzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn