搜尋
首頁科技週邊人工智慧大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

近年來,隨著各學科領域的研究進步,科學文獻和數據爆炸性地成長,使學術研究者從大量資訊中發現有用的見解變得越來越困難。通常,人們會藉助搜尋引擎來獲取科學知識,但搜尋引擎無法自主組織科學知識。

現在,來自 Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica,可以儲存、組合和推理科學知識。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

  • 論文網址:https://galactica.org/static/paper.pdf
  • #試用網址:https://galactica.org/

#Galactica 模型有多強大呢,它可以自己總結歸納出一篇綜述論文:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

也可以產生詞條的百科全書查詢:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

對所提問題作出知識性的回答:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#這些任務對人類學者來說尚且是具有挑戰性的任務,但Galactica 卻很好地完成了。圖靈獎得主 Yann LeCun 也在推特上發文稱讚:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

我們來看看 Galactica 模型的具體細節。

模型概述

Galactica 模型是在大量的論文、參考資料、知識庫和許多其他來源的科學語料庫上進行訓練的,包括超過4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質知識、科學網站、百科全書等。與依賴未經整理的、基於網路爬蟲文字的現有語言模型不同,Galactica 訓練所使用的語料庫是高品質且經過高度整理的。該研究在不過擬合的前提下對模型進行多個 epoch 的訓練,其中在上游和下游任務上的表現透過使用重複的 token 得到改善。

Galactica 的表現在一系列科學任務上優於現有模型。在 LaTeX 方程式等技術知識的探索任務上,Galactica 與 GPT-3 的表現是 68.2% VS 49.0%。 Galactica 在推理方面也表現出色,在數學 MMLU 基準上的表現顯著優於 Chinchilla。

儘管沒有接受過通用語料庫的訓練,Galactica 在 BIG-bench 上的表現也優於 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開發等下游任務上創下了 77.6% 和 52.9% 的新高表現。

簡單來說,研究將逐步推理封裝在特殊的 token 中,以模仿內部工作原理。這允許研究人員使用自然語言與模型進行交互,下圖是 Galactica 的試用介面。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

值得一提的是,除了文本生成,Galactica 還可以執行涉及化學公式和蛋白質序列的多模態任務。這將為藥物發現領域做出貢獻。

實作細節

本文的語料庫包含 1,060 億個 token,這些 token 來自論文、參考文獻、百科全書以及其他科學資料。可以說研究將自然語言資源(論文、參考書)與自然界中的序列(蛋白質序列、化學形式)都囊括了。表 1 和表 2 中顯示了語料庫的細節。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#

語料庫有了,接下來是對資料怎麼操作。一般來講,對 tokenization 的設計是非常重要的。例如,蛋白質序列是根據胺基酸殘基來編寫的,那麼基於字元的 tokenization 是合適的。為了實現 tokenization,研究對不同的模態進行了專門的 token 化。具體表現在(包括但不限於):

  • 引用:用特殊的參考token[START_REF]和[END_REF] 來包裝引用;
  • #逐步推理:用working memory token 來封裝逐步推理,模擬內部working memory 上下文;
  • 數字:把數字分成單獨的to​​ken。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;
  • SMILES 公式:用[START_SMILES] 和[END_SMILES]包裝序列,並應用基於字元的tokenization。同樣,研究使用 [START_I_SMILES] 和[END_I_SMILES]來表示異構體 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;
  • DNA 序列:應用一種基於字元的tokenization,將每個核苷酸鹼基視為一個token,其中起始token 為[START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下圖 4 顯示了對一篇論文的引用進行處理的範例。在處理引用時使用全域標識符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

資料集處理好之後,接下來就是怎麼實作。 Galactica 在Transformer 架構的基礎上進行了以下修改:

  • #GeLU 激活:將GeLU 激活用於各種大小的模型;
  • 上下文視窗:對於不同大小的模型,使用2048 長度的上下文視窗;
  • #無偏移量:遵循PaLM,在密集核心或層規格中不使用偏移;
  • 學習位置嵌入:學習位置嵌入用於模型;
  • #詞彙表:使用BPE 建立一個包含50k token 的詞彙表。

表 5 列出了不同大小模型以及訓練超參數。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

實驗

#重複的token 被認為是無害的

從圖6 可以看出,經過四個epoch 的訓練後,驗證損失繼續下降。擁有 120B 參數的模型在第五個 epoch 開始時才開始過擬合。這是出乎意料的,因為現有的研究表明重複的 token 可能對表現有害。研究還發現,30B 和 120B 的模型在 epoch-wise 後表現出雙重下降效應,即驗證損失達到平穩(或上升),然後是下降。這種效果在每個 epoch 後都變得更強,最明顯的是 120B 模型在訓練結束時。

圖 8 結果顯示實驗沒有出現過擬合跡象,這表明重複 token 能夠提高下游和上游任務表現。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

其他結果

#鍵入公式太慢了,現在用提示就能產生LaTeX:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

在化學反應中,要求Galactica 在化學方程式LaTeX 中預測反應的產物,模型只根據反應物就能進行推理,結果如下:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

表7 中報告了一些其他結果:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

Galactica 的推理能力。研究首先在 MMLU mathematics 基準上進行評估,並在表 8 中報告了評估結果。 Galactica 與較大的基礎模型相比表現強勁,使用 token 似乎可以提高 Chinchilla 的性能,即使對於較小的 30B Galactica 模型也是如此。

該研究也對MATH 資料集進行了評估,以進一步探索Galactica 的推理能力:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

##從實驗結果可以得出:Galactica 在思維鍊和提示方面都大大優於基礎PaLM 模型。這表明 Galactica 在處理數學任務上是更好的選擇。

在下游任務的評估結果如表 10 所示。 Galactica 顯著優於其他語言模型,並且在大多數任務中優於更大的模型(Gopher 280B)。與 Chinchilla 相比,表現表現差異更大,Chinchilla 在子集任務上似乎更強:特別是高中科目以及數學較少、記憶密集型任務。相比之下,Galactica 往往在數學和研究生程度的任務中表現更好。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

該研究還評估了Chinchilla 在給定輸入上下文的情況下預測引用的能力,這是對Chinchilla 組織科學文獻能力的一個重要測試。結果如下:

更多實驗內容,請參考原文。

以上是大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。