人工智慧

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 18, 2023 pm 07:25 PM

產業

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

重寫內容時，需要將原文用中文進行重寫，不需要出現原始的英文句子

前不久，微軟DeepSpeed 團隊啟動了一個名為DeepSpeed4Science 的新計劃，旨在透過AI 系統優化技術實現科學發現。

11月13日，微軟團隊在arXiv預印平台上發布了一篇名為《大型語言模型對科學發現的影響：使用GPT-4的初步研究》的文章

這篇文章的長度達到了230 頁

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

論文連結：https://arxiv.org/abs/2311.07361

近年來，自然語言處理領域的突破性進展在強大的大型語言模型（LLM）的出現中達到了頂峰，這些模型在眾多領域展示了非凡的能力，包括自然語言的理解、生成和翻譯，甚至擴展到語言處理之外的任務。

在本報告中，微軟研究人員深入研究了 LLM 在科學發現/研究背景下的表現，並專注於最先進的語言模型 GPT-4。研究涵蓋多個科學領域，包括藥物發現、生物學、計算化學（DFT 和 MD）、材料設計和偏微分方程 (PDE)。

對於評估GPT-4的科學任務而言，它對於挖掘其在各個研究領域的潛力、驗證特定領域的專業知識、加速科學進步、優化資源分配、指導未來模型開發和促進跨學科研究非常重要。探索的方法主要包括專家驅動的案例評估，這種評估方式可以提供定性見解，幫助模型理解複雜的科學概念和關係；同時也會偶爾進行基準測試，以定量評估模型解決明確定義的特定領域問題的能力

初步探索顯示，GPT-4 在各種科學應用中具有巨大的潛力，展現了其處理複雜問題解決和知識整合任務的能力。研究人員對 GPT-4 在上述領域（如藥物發現、生物學、計算化學、材料設計等）的性能進行了分析，並強調了其優點和局限性。綜合評估了GPT-4 的知識基礎、科學理解能力、科學數值計算能力以及各種科學預測能力

GPT-4 在生物學和材料設計方面具有廣泛的領域知識，有助於滿足特定要求。在藥物發現等其他領域，GPT-4 展現了強大的特性預測能力。然而，在計算化學和偏微分方程等研究領域，雖然 GPT-4 有望幫助研究人員進行預測和計算，但仍需要進一步努力來提高其準確性。儘管其功能令人印象深刻，但GPT-4 仍可對定量計算任務進行改進，例如需要微調以提高準確性

研究人員希望這份報告能夠為那些希望利用LLM進行科學研究和應用的研究人員和從業者，以及對推動特定領域自然語言處理感興趣的人提供寶貴的資源。需要強調的是，LLM和大規模機器學習領域正在快速發展，未來幾代的LLM可能具有本報告中未提及的其他功能。值得注意的是，LLM與專業科學工具和模型的整合以及基礎科學模型的開發代表了兩個有希望的研究方向

藥物發現

藥物發現是製藥業的重要組成部分，在推進醫學科學方面發揮著至關重要的作用。藥物發現涉及複雜的多學科過程，包括標靶識別、先導化合物優化和臨床前測試，最終導致安全有效藥物的開發。

GPT-4 在藥物發現方面具有巨大的潛力，如加速發現過程、降低搜尋和設計成本、增強創造力等。本章首先透過定性測試研究GPT-4 對藥物發現的知識，然後透過對多個關鍵任務的定量測試來研究其預測能力，包括藥物-標靶相互作用/結合親和力預測、分子性質預測和逆合成預測

重寫後的內容：第一個例子涉及產生給定藥物名稱的化學式、IUPAC名稱和SMILES，這是將名稱轉化為藥物的其他表示形式。以Afatinib作為輸入藥物。 GPT-4成功輸出了正確的化學式C24H25ClFN5O3和正確的IUPAC名稱，這表明GPT-4知道Afatinib這種藥物。然而，產生的SMILES並不正確。因此，研究人員給予了指導，讓GPT-4重新生成SMILES。不幸的是，儘管明確要求GPT-4「注意每種原子類型的原子數量」並基於正確的IUPAC和化學式生成SMILES，但在幾次實驗中產生的SMILES序列仍然不正確

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

第一張圖展示了藥物名稱和其他藥物表示形式的翻譯。（引自論文）

生物

在本章中，研究人員深入探討了GPT-4 在生物學研究領域的能力，主要關注其理解生物語言、利用內建生物知識進行推理的熟練程度，以及設計生物分子和生物實驗。觀察結果表明，GPT-4 透過展示其處理複雜生物語言、執行生物資訊任務、甚至作為生物設計的科學助理的能力，展現出為生物學領域做出貢獻的巨大潛力。 GPT-4 對生物學概念的廣泛掌握及其作為設計任務中的科學助手的巨大潛力凸顯了其在推進生物學領域的重要作用。

首先評估了 GPT-4 處理生物序列序列符號和文字符號的能力。

研究人員要求 GPT-4 在生物序列及其文字符號之間進行轉換：1）輸出給定蛋白質序列的蛋白質名稱。 2) 輸出給定名稱的蛋白質序列。在執行每個任務之前，都會重新啟動會話以防止資訊外洩。結果表明，GPT-4 知道序列到文字符號轉換的過程，但它不能自己直接找到（也稱為 BLAST 序列）。同時，GPT-4 更喜歡生物序列的文本標記（包括蛋白質和 DNA，後者未顯示）。當給出文字符號時，它提供了更豐富的信息，這可能是由於其設計理念。需要指出的是，也注意到，生成序列可能會導致 GPT-4 的災難性行為。如下圖所示，雖然 GPT-4 傳回了正確的 UniProt ID，但在產生序列時遇到了困難。序列產生因嘗試的幾種不同提示而崩潰。

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

圖 2：序列符號與文字符號之間的轉換。（資料來源：論文）

計算化學

化學計算是一門跨學科的領域，它利用計算方法和技術來解決化學中的複雜問題。長期以來，化學計算一直是分子系統研究中不可或缺的工具，它不僅提供了對原子級相互作用的深入理解，也指導了實驗工作的發展。化學計算在微觀和宏觀層面上對於分子結構、化學反應和物理現象的理解發揮著至關重要的作用

本章將重點放在GPT-4在計算化學領域中的功能。我們將探討其在電子結構方法和分子動力學模擬方面的應用，並透過展示兩個實際範例，來展示GPT-4在不同角度下的服務能力。總之，GPT-4能夠以多種方式助力計算化學研究人員

研究從評估 GPT-4 解釋量子化學和物理概念的能力開始。評估涵蓋了該領域常用的方法，如密度泛函理論（DFT）和波函數理論（WFT）。

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

圖 3：密度泛函理論的概念檢定。（資料來源：論文）

在上述範例中，GPT-4 很好地理解了密度泛函理論、KohnSham 密度泛函理論和無軌道密度泛函理論的概念。

材料設計

在本章中，研究了 GPT-4 在材料設計領域的功能。研究人員設計了一套全面的任務，涵蓋材料設計過程中的各個方面，從最初的概念化到隨後的驗證和合成。目標是評估 GPT-4 的專業知識及其在實際應用中產生有意義的見解和解決方案的能力。設計的任務涵蓋各個方面，包括背景知識、設計原則、候選識別、候選結構生成、屬性預測和合成條件預測。透過解決整個設計過程，目標是對 GPT-4 在材料設計方面的熟練程度進行整體評估，特別是對於結晶無機材料、有機聚合物以及金屬有機框架 (MOF) 等更複雜的材料。

值得注意的是，評估主要著重於對 GPT-4 在這一專業領域的能力進行定性評估，而只有在可行的情況下才能獲得統計分數。

研究人員首先調查了目前固體電解質的分類方式，這些分類方式有不同的要求，例如根據一般化學和陰離子類型進行分類。此外，他們還要求提供基於這些分類標準的範例。如圖4所示，所有的答案都是事實，而且大部分都是正確的。由於這些分類標準在文獻中沒有被很好地體現，因此GPT-4應該對化學的含義有一個相對清晰的理解

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

#根據來源的論文，需要重寫的內容是：圖4：無機固體電解質的分類

偏微分方程

#偏微分方程(PDE) 是數學領域中一個重要且高度活躍的研究領域，在物理、工程、生物學和金融等各學科中具有深遠的應用。偏微分方程在建模和理解各種現象（從流體動力學和傳熱到電磁場和群體動力學）方面發揮著至關重要的作用。

在本章中，研究了 GPT-4 在偏微分方程的幾個方面的技能：理解偏微分方程的基礎知識、求解偏微分方程以及協助 AI 進行偏微分方程研究。研究人員在不同形式的 PDE 上評估模型，例如線性方程式、非線性方程式和隨機 PDE。研究顯示 GPT-4 能夠以多種方式幫助研究人員。

第一個問題是關於偏微分方程的定義和形式，GPT-4 對偏微分方程提供了很好的解釋，如圖 5 所示。在使用者的提示下，GPT-4 給出了偏微分方程的清晰概念以及線性或非線性、橢圓形、拋物線形或雙曲形的類別。該領域的新手將從這些概念和分類中受益。

GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文

圖 5：PDE 的基本概念介紹。（資料來源：論文）

未來展望

在這項研究中，我們探討了LLM在各個自然科學領域的能力和限制，並涵蓋了各種任務。我們的主要目標是初步評估最先進的LLM GPT-4以及其對科學發現的潛力，並為各個領域的研究人員提供有價值的資源和工具

透過廣泛的分析，研究強調了GPT-4 在眾多科學任務中的熟練程度，從文獻綜合到屬性預測和代碼生成。儘管其功能令人印象深刻，但必須認識到 GPT-4（以及類似的 LLM）的局限性，例如處理特定資料格式的挑戰、反應的不一致以及偶爾的幻覺。

研究人員相信，該探索是理解和認識 GPT-4 在自然科學領域潛力的關鍵第一步。透過詳細概述其優點和缺點，旨在幫助研究人員在將 GPT-4（或其他 LLM）納入日常工作時做出明智的決定，確保最佳應用，同時注意其局限性。

此外，鼓勵 GPT-4 和其他 LLM 的進一步探索和發展，旨在提高其科學發現能力。這可能涉及完善培訓過程、合併特定領域的數據和架構，以及整合針對不同科學學科量身定制的專業技術。

隨著人工智慧領域的不斷發展，像GPT-4 這樣複雜模型的整合將在加速科學研究和創新方面扮演越來越重要的角色

最後，研究總結了LLM 在科學研究方面需要改進的方面，並討論加強LLM 或在此基礎上推動科學突破的潛在方向。

以上是GPT-4與LLM：微軟團隊探索科學發現的影響，涵蓋5大科學領域的230頁長文的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc