近年來,隨著各學科領域的研究進步,科學文獻和數據爆炸性地成長,使學術研究者從大量資訊中發現有用的見解變得越來越困難。通常,人們會藉助搜尋引擎來獲取科學知識,但搜尋引擎無法自主組織科學知識。
現在,來自 Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica,可以儲存、組合和推理科學知識。
#Galactica 模型有多強大呢,它可以自己總結歸納出一篇綜述論文:
也可以產生詞條的百科全書查詢:
對所提問題作出知識性的回答:
#這些任務對人類學者來說尚且是具有挑戰性的任務,但Galactica 卻很好地完成了。圖靈獎得主 Yann LeCun 也在推特上發文稱讚:
我們來看看 Galactica 模型的具體細節。
Galactica 模型是在大量的論文、參考資料、知識庫和許多其他來源的科學語料庫上進行訓練的,包括超過4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質知識、科學網站、百科全書等。與依賴未經整理的、基於網路爬蟲文字的現有語言模型不同,Galactica 訓練所使用的語料庫是高品質且經過高度整理的。該研究在不過擬合的前提下對模型進行多個 epoch 的訓練,其中在上游和下游任務上的表現透過使用重複的 token 得到改善。
Galactica 的表現在一系列科學任務上優於現有模型。在 LaTeX 方程式等技術知識的探索任務上,Galactica 與 GPT-3 的表現是 68.2% VS 49.0%。 Galactica 在推理方面也表現出色,在數學 MMLU 基準上的表現顯著優於 Chinchilla。
儘管沒有接受過通用語料庫的訓練,Galactica 在 BIG-bench 上的表現也優於 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開發等下游任務上創下了 77.6% 和 52.9% 的新高表現。
簡單來說,研究將逐步推理封裝在特殊的 token 中,以模仿內部工作原理。這允許研究人員使用自然語言與模型進行交互,下圖是 Galactica 的試用介面。
值得一提的是,除了文本生成,Galactica 還可以執行涉及化學公式和蛋白質序列的多模態任務。這將為藥物發現領域做出貢獻。
本文的語料庫包含 1,060 億個 token,這些 token 來自論文、參考文獻、百科全書以及其他科學資料。可以說研究將自然語言資源(論文、參考書)與自然界中的序列(蛋白質序列、化學形式)都囊括了。表 1 和表 2 中顯示了語料庫的細節。
#語料庫有了,接下來是對資料怎麼操作。一般來講,對 tokenization 的設計是非常重要的。例如,蛋白質序列是根據胺基酸殘基來編寫的,那麼基於字元的 tokenization 是合適的。為了實現 tokenization,研究對不同的模態進行了專門的 token 化。具體表現在(包括但不限於):
如下圖 4 顯示了對一篇論文的引用進行處理的範例。在處理引用時使用全域標識符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。
資料集處理好之後,接下來就是怎麼實作。 Galactica 在Transformer 架構的基礎上進行了以下修改:
表 5 列出了不同大小模型以及訓練超參數。
#重複的token 被認為是無害的
從圖6 可以看出,經過四個epoch 的訓練後,驗證損失繼續下降。擁有 120B 參數的模型在第五個 epoch 開始時才開始過擬合。這是出乎意料的,因為現有的研究表明重複的 token 可能對表現有害。研究還發現,30B 和 120B 的模型在 epoch-wise 後表現出雙重下降效應,即驗證損失達到平穩(或上升),然後是下降。這種效果在每個 epoch 後都變得更強,最明顯的是 120B 模型在訓練結束時。
圖 8 結果顯示實驗沒有出現過擬合跡象,這表明重複 token 能夠提高下游和上游任務表現。
其他結果
#鍵入公式太慢了,現在用提示就能產生LaTeX:
在化學反應中,要求Galactica 在化學方程式LaTeX 中預測反應的產物,模型只根據反應物就能進行推理,結果如下:
表7 中報告了一些其他結果:
Galactica 的推理能力。研究首先在 MMLU mathematics 基準上進行評估,並在表 8 中報告了評估結果。 Galactica 與較大的基礎模型相比表現強勁,使用 token 似乎可以提高 Chinchilla 的性能,即使對於較小的 30B Galactica 模型也是如此。
該研究也對MATH 資料集進行了評估,以進一步探索Galactica 的推理能力:
##從實驗結果可以得出:Galactica 在思維鍊和提示方面都大大優於基礎PaLM 模型。這表明 Galactica 在處理數學任務上是更好的選擇。
在下游任務的評估結果如表 10 所示。 Galactica 顯著優於其他語言模型,並且在大多數任務中優於更大的模型(Gopher 280B)。與 Chinchilla 相比,表現表現差異更大,Chinchilla 在子集任務上似乎更強:特別是高中科目以及數學較少、記憶密集型任務。相比之下,Galactica 往往在數學和研究生程度的任務中表現更好。
該研究還評估了Chinchilla 在給定輸入上下文的情況下預測引用的能力,這是對Chinchilla 組織科學文獻能力的一個重要測試。結果如下:
更多實驗內容,請參考原文。
以上是大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!