AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 05:01 PM

ai模型科學語言

AI搜尋引擎再度進化？！

給這個AI一個主題，分分鐘給你甩出一篇論文綜述，而且還會自己提供論文引文。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

又或是輸入一個科學類別的名詞，AI也能迅速產生這個名詞專屬的維基百科。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

這個AI名叫Galactica （簡稱：GAL），是最新開源的科學語言大模型，把AI轉化為科學生產力。

並且也實現了學科“大一統”，數學、物理、電腦…這個AI都能用。

模型剛一放出，就迅速引發網友熱議，目前相關推文已有近15萬瀏覽，累計點讚、轉發、引用也已破五千。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

Facebook前技術官也出來為它來站台。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

還有網友親自體驗了一把，寫出來的文獻綜述“看起來相當不錯”，甚至直呼：

下一步它是不是就能產生新想法了。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

其實寫文獻綜述和生產維基百科還只是GAL功能的一部分，除去這些，它還能回答一些專業問題、寫科學程式碼、註解分子和蛋白質… …

具體效果如何，一起來看看吧～

可以作為科學生產的工具

提到科學生產力，就肯定離不開論文的查找，這不，GAL幫你解決了。

它涵蓋了五種科學學科：機器學習、數學、電腦科學、生物以及物理。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

選擇好學科，然後在左邊框輸入想要找的論文主題，右邊GAL便會推薦最適合的論文以供閱讀。

除了推薦論文之外，GAL還有一個更實用的功能：產生講稿。

比如說要做個關於密度泛函理論（DFT）的pre，又懶得寫講稿，直接GAL一下，分分鐘搞定（手動狗頭）。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

GAL也能夠用來註解分子和蛋白質，如下就是GAL產生的RDKit（可產生用於機器學習的分子描述子）操作手冊。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

在一些細節問題上，GAL也狠狠拿捏了！

就比如說你看不懂一些複雜的數學公式和程式碼，沒關係交給GAL來解決，它能直接給你翻譯成大白話。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

不僅如此，它還能實作數學公式和程式碼之間的相互轉換，或是不同型別程式碼之間的轉換。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

更重要的是，他還有簡化公式和查錯功能。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

怎麼做到的？

GAL能實現這麼複雜的功能，就不得不提到它的訓練資料集。

根據官方消息，GAL是在一個名為NatureBook的新型高品質科學資料集上進行訓練的，這使模型能夠使用科學術語、數學和化學公式以及原始程式碼。

其中包括超過4800萬篇論文、教科書和課堂講稿，還有數百萬計的化合物和蛋白質、科學網站以及百科全書等等。

除此之外，為了找出論文並規範化引用，GAL的資料集中包含超過3.6億條上下文引用和超過5000萬條跨不同來源規範化的獨特參考。

有了這麼龐大的資料集之後，那接下來便麵臨兩個問題。

第一個問題是如何管理這些高品質的資料集，實現這一點，GAL花了兩個步驟：

所有資料都以通用的標記格式處理，打通各種來源資料之間的壁壘。

預訓練中包含用於特定任務的資料集，這就能保證在處理特定任務時能夠更加專業。

還有一個問題是：如何設計介面互動？

首先就像上文提到的那樣，GAL能夠支援不同類型的任務。

因此在設計介面互動時便對各種任務進行分類，不同的分類會支援不同的類型的資料。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

既然GAL擁有高度管理和高品質的科學資料集，那和其他模型相比效果如何？

直接上資料！

推理方面，GAL的優勢脫穎而出，在數學MMLU（大規模多任務語言理解）上，表現要優於Chinchilla，數學方面，表現也優於PalM 540B和GPT-3 175B。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

儘管，GAL並沒有經過一般資料集的訓練，但它在BIG-bench上的表現仍舊優於BLOOM和OPT-175B。

AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下

看完之後是不是也心癢癢了，先碼住再說！

傳送門：https://galactica.org/

參考連結：[1]https://twitter.com/paperswithcode/status/1592546933679476736[2]https://github .com/paperswithcode/galai[3]https://galactica.org/static/paper.pdf

以上是AI科學語言大模型火了，數學生物計算機樣樣行，編代碼寫綜述也不在話下的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言