搜尋
首頁科技週邊人工智慧大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

近年來,隨著各學科領域的研究進步,科學文獻和數據爆炸性地成長,使學術研究者從大量資訊中發現有用的見解變得越來越困難。通常,人們會藉助搜尋引擎來獲取科學知識,但搜尋引擎無法自主組織科學知識。

現在,來自 Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica,可以儲存、組合和推理科學知識。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

  • 論文網址:https://galactica.org/static/paper.pdf
  • #試用網址:https://galactica.org/

#Galactica 模型有多強大呢,它可以自己總結歸納出一篇綜述論文:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

也可以產生詞條的百科全書查詢:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

對所提問題作出知識性的回答:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#這些任務對人類學者來說尚且是具有挑戰性的任務,但Galactica 卻很好地完成了。圖靈獎得主 Yann LeCun 也在推特上發文稱讚:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

我們來看看 Galactica 模型的具體細節。

模型概述

Galactica 模型是在大量的論文、參考資料、知識庫和許多其他來源的科學語料庫上進行訓練的,包括超過4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質知識、科學網站、百科全書等。與依賴未經整理的、基於網路爬蟲文字的現有語言模型不同,Galactica 訓練所使用的語料庫是高品質且經過高度整理的。該研究在不過擬合的前提下對模型進行多個 epoch 的訓練,其中在上游和下游任務上的表現透過使用重複的 token 得到改善。

Galactica 的表現在一系列科學任務上優於現有模型。在 LaTeX 方程式等技術知識的探索任務上,Galactica 與 GPT-3 的表現是 68.2% VS 49.0%。 Galactica 在推理方面也表現出色,在數學 MMLU 基準上的表現顯著優於 Chinchilla。

儘管沒有接受過通用語料庫的訓練,Galactica 在 BIG-bench 上的表現也優於 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開發等下游任務上創下了 77.6% 和 52.9% 的新高表現。

簡單來說,研究將逐步推理封裝在特殊的 token 中,以模仿內部工作原理。這允許研究人員使用自然語言與模型進行交互,下圖是 Galactica 的試用介面。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

值得一提的是,除了文本生成,Galactica 還可以執行涉及化學公式和蛋白質序列的多模態任務。這將為藥物發現領域做出貢獻。

實作細節

本文的語料庫包含 1,060 億個 token,這些 token 來自論文、參考文獻、百科全書以及其他科學資料。可以說研究將自然語言資源(論文、參考書)與自然界中的序列(蛋白質序列、化學形式)都囊括了。表 1 和表 2 中顯示了語料庫的細節。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#

語料庫有了,接下來是對資料怎麼操作。一般來講,對 tokenization 的設計是非常重要的。例如,蛋白質序列是根據胺基酸殘基來編寫的,那麼基於字元的 tokenization 是合適的。為了實現 tokenization,研究對不同的模態進行了專門的 token 化。具體表現在(包括但不限於):

  • 引用:用特殊的參考token[START_REF]和[END_REF] 來包裝引用;
  • #逐步推理:用working memory token 來封裝逐步推理,模擬內部working memory 上下文;
  • 數字:把數字分成單獨的to​​ken。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;
  • SMILES 公式:用[START_SMILES] 和[END_SMILES]包裝序列,並應用基於字元的tokenization。同樣,研究使用 [START_I_SMILES] 和[END_I_SMILES]來表示異構體 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;
  • DNA 序列:應用一種基於字元的tokenization,將每個核苷酸鹼基視為一個token,其中起始token 為[START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下圖 4 顯示了對一篇論文的引用進行處理的範例。在處理引用時使用全域標識符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

資料集處理好之後,接下來就是怎麼實作。 Galactica 在Transformer 架構的基礎上進行了以下修改:

  • #GeLU 激活:將GeLU 激活用於各種大小的模型;
  • 上下文視窗:對於不同大小的模型,使用2048 長度的上下文視窗;
  • #無偏移量:遵循PaLM,在密集核心或層規格中不使用偏移;
  • 學習位置嵌入:學習位置嵌入用於模型;
  • #詞彙表:使用BPE 建立一個包含50k token 的詞彙表。

表 5 列出了不同大小模型以及訓練超參數。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

實驗

#重複的token 被認為是無害的

從圖6 可以看出,經過四個epoch 的訓練後,驗證損失繼續下降。擁有 120B 參數的模型在第五個 epoch 開始時才開始過擬合。這是出乎意料的,因為現有的研究表明重複的 token 可能對表現有害。研究還發現,30B 和 120B 的模型在 epoch-wise 後表現出雙重下降效應,即驗證損失達到平穩(或上升),然後是下降。這種效果在每個 epoch 後都變得更強,最明顯的是 120B 模型在訓練結束時。

圖 8 結果顯示實驗沒有出現過擬合跡象,這表明重複 token 能夠提高下游和上游任務表現。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

其他結果

#鍵入公式太慢了,現在用提示就能產生LaTeX:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

在化學反應中,要求Galactica 在化學方程式LaTeX 中預測反應的產物,模型只根據反應物就能進行推理,結果如下:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

表7 中報告了一些其他結果:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

Galactica 的推理能力。研究首先在 MMLU mathematics 基準上進行評估,並在表 8 中報告了評估結果。 Galactica 與較大的基礎模型相比表現強勁,使用 token 似乎可以提高 Chinchilla 的性能,即使對於較小的 30B Galactica 模型也是如此。

該研究也對MATH 資料集進行了評估,以進一步探索Galactica 的推理能力:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

##從實驗結果可以得出:Galactica 在思維鍊和提示方面都大大優於基礎PaLM 模型。這表明 Galactica 在處理數學任務上是更好的選擇。

在下游任務的評估結果如表 10 所示。 Galactica 顯著優於其他語言模型,並且在大多數任務中優於更大的模型(Gopher 280B)。與 Chinchilla 相比,表現表現差異更大,Chinchilla 在子集任務上似乎更強:特別是高中科目以及數學較少、記憶密集型任務。相比之下,Galactica 往往在數學和研究生程度的任務中表現更好。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

該研究還評估了Chinchilla 在給定輸入上下文的情況下預測引用的能力,這是對Chinchilla 組織科學文獻能力的一個重要測試。結果如下:

更多實驗內容,請參考原文。

以上是大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)