2022 年即將步入尾聲。在這一年裡,機器學習領域湧現了大量有價值的論文,對機器學習社群產生了深遠的影響。
今日,ML & NLP 研究者、Meta AI 技術產品行銷經理、DAIR.AI 創辦人Elvis S. 對2022 年熱度很高的12 篇機器學習論文進行了匯總。貼文很火,還得到了圖靈獎得主 Yann LeCun 的轉推。
接下來,我們一一來看。
論文1:A ConvNet for the 2020s
視覺辨識的快速發展始於ViT 的引入,其很快取代了傳統ConvNet ,成為SOTA 影像分類模型。 ViT 模型在包括目標偵測、語意分割等一系列電腦視覺任務中存在著許多挑戰。因此有研究者提出分層 Swin Transformer,重新引入 ConvNet 先驗,使得 Transformer 作為通用視覺主幹實際上可行,並在各種視覺任務上表現出卓越的性能。
然而,這種混合方法的有效性在很大程度上仍歸功於 Transformer 的內在優勢,而不是卷積固有的歸納偏壓。本文中,FAIR 、UC 柏克萊的研究者重新檢視了設計空間並測試了純 ConvNet 所能達到的極限。研究者逐漸將標準 ResNet「升級」為視覺 Transformer 的設計,並在過程中發現了導致性能差異的幾個關鍵組件。
#論文網址:https://arxiv.org/abs/2201.03545v2
#論文2:Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents
透過大型語言模型(LLM)學習的世界知識能能用於互動式環境中的行動嗎?本文中,UC 伯克利、CMU 和谷歌的研究者探討了將自然語言表達為一組選定可操作步驟的可能性。以往的工作著重於從顯式分佈範例中學習如何行動,但他們驚訝地發現,如果預訓練語言模型足夠大並得到適當的提示,則可以有效地將高級任務分解為中級規劃,無需進一步訓練。但是,LLM 制定的規劃往往無法精確地對應到可接受的行動。
研究者提出的步驟以現有演示為條件,並將規劃在語義上轉換為可接受的行動。在 VirtualHome 環境中的評估表明,他們提出的方法大大提高了 LLM 基線的可執行性。人工評估揭示了可執行性和正確性之間的權衡,但展現了從語言模型中提取可操作知識的可能性跡象。
#論文網址:https://arxiv.org/abs/2201.07207v2
#論文3:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
#這是阿里達摩院推出的統一多模態多任務模型架構OFA,總結了一般模型現階段最好符合的三個特點,即模態無關、任務無關、任務多樣性。該論文被 ICML 2022 接收。
在圖文領域,OFA 將visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等經典任務透過統一的seq2seq 框架進行表示,在任務間共享不同模態的輸入輸出,並且讓Finetune 和預訓練保持一致,不新增額外的參數結構。
#論文網址:https://arxiv.org/abs/2202.03052v2
論文4:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
深度學習中的超參數(HP)調優是一個成本高昂的過程,對於具有數十億參數的神經網路而言更是如此。本文中,微軟和 OpenAI 的研究者表明,在最近發現的 Maximal Update Parametrization(muP)中,即使模型大小發生變化,許多最優 HP 仍保持穩定。
這促成了他們稱為muTransfer 的全新HP 調優範式,即在muP 中對目標模型進行參數化,在較小的模型上不直接進行HP 調優,並將它們零樣本遷移到全尺寸模型中,這也意味著根本不需要直接對後者模型進行調優。研究者在 Transformer 和 ResNet 上驗證了 muTransfer。例如,透過從 40M 參數的模型進行遷移,效能優於已發布的 6.7B GPT-3 模型,調優成本僅為預訓練總成本的 7%。
#論文網址:https://arxiv.org/abs/2203.03466v2
#論文5:OPT: Open Pre-trained Transformer Language Models
#大模型往往經過成千上萬個運算日的訓練,在零樣本和少樣本學習中展現了非凡的能力。不過考慮到它們的計算成本,如果沒有充足的資金,這些大模型很難複製。對於少數可以透過 API 獲得的模型,無法存取它們完整的模型權重,也就難以展開研究。
本文中,Meta AI 的研究者提出了Open Pre-trained Transformers(OPT),這是一套僅用於解碼器的預訓練transformers 模型,參數從125M 到175B 不等。他們表明,OPT-175B 性能與 GPT-3 相當,但開發所需的碳足跡僅為後者的 1/7。
#論文網址:https://arxiv.org/abs/2205.01068v4
#論文6:A Generalist Agent
受大規模語言建模的啟發,Deepmind 建構了一個單一的「通才」智能體Gato,它具有多模態、多任務、多具身(embodiment)特徵。
Gato 可以玩雅達利遊戲、輸出圖片給圖片、跟別人聊天、用機械手臂堆疊積木等等。此外,Gato 還能根據上下文決定是否輸出文字、關節力矩、按鈕按壓或其他 token。
與大多數智能體玩遊戲不同,Gato 使用相同的訓練模型就能玩許多遊戲,而不用為每個遊戲單獨訓練。
#論文網址:https://arxiv.org/abs/2205.06175v3
論文7:Solving Quantitative Reasoning Problems with Language Models
來自Google的研究者提出了一種稱為Minerva 的深度學習語言模型,可以透過逐步推理解決數學定量問題。其解決方案包括數值計算、符號操作,而不需要依賴計算器等外部工具。
此外,Minerva 還結合了多種技術,包括小樣本提示、思維鏈、暫存器提示以及多數投票原則,從而在 STEM 推理任務上實現 SOTA 性能。
Minerva 建立在PaLM(Pathways Language Model ) 的基礎上,在118GB 資料集上進一步訓練完成,資料集來自arXiv 上關於科技方面的論文以及包含使用LaTeX、MathJax或其他數學表達式的網頁的資料進行進一步訓練。
下圖為Minerva 解決問題範例展示:
論文網址:https: //arxiv.org/abs/2206.14858
#論文8:No Language Left Behind: Scaling Human-Centered Machine Translation
##來自Meta AI 的研究者發布了翻譯模型NLLB(No Language Left behind ),直譯為“一個語言都不能少”,其可以支持200 語言之間的任意互譯,除了中英法日等常用語種翻譯外,NLLB 也能翻譯包括盧幹達語、烏爾都語等在內的許多小眾語言。
Meta 宣稱,這是全球第一個以單一模型對應多數語言翻譯的設計,他們希望藉此能夠幫助更多人在社群平台上進行跨語言互動,同時提高使用者在未來元宇宙中的互動體驗。
#論文網址:https://arxiv.org/abs/2207.04672v3
#論文9:High-Resolution Image Synthesis with Latent Diffusion Models
最近一段時間Stable Diffusion 火爆出圈,圍繞著這項技術展開的研究數不勝數。
該研究是來自慕尼黑大學和Runway 的研究者基於其CVPR 2022 的論文《High-Resolution Image Synthesis with Latent Diffusion Models》,並與Eleuther AI、LAION 等團隊合作完成。 Stable Diffusion 可以在消費級 GPU 上 10 GB VRAM 下運行,並在幾秒鐘內生成 512x512 像素的圖像,無需預處理和後處理。
時間僅過去四個月,該開源專案已收穫 38K 星。
計畫網址:https://github.com/CompVis/stable-diffusion
Stable Diffusion 產生圖像範例展示:
論文10:Robust Speech Recognition via Large-Scale Weak Supervision######OpenAI 發布開源模型Whisper,在英語語音識別方面接近人類水平,並具有較高的準確性。 ############Whisper 是一個自動語音辨識(ASR,Automatic Speech Recognition)系統,OpenAI 透過從網路上收集了68 萬小時的98 種語言和多任務監督資料對Whisper 進行了訓練。除了可以用於語音識別,Whisper 還能實現多種語言轉錄,以及將這些語言翻譯成英語。 ################
論文網址:https://arxiv.org/abs/2212.04356
論文11:Make-A-Video: Text-to-Video Generation without Text-Video Data
來自Meta AI 的研究者提出了一個最先進的文本到視頻模型:Make-A-Video,可以將給定的文字提示產生影片。
Make-A-Video 有三個優點:(1)它加速了T2V(Text-to-Video)模型的訓練,不需要從頭開始學習視覺和多模態表示,(2)它不需要配對的文本- 視頻數據,(3)生成的視頻繼承了當今圖像生成模型的多項優點。
該技術旨在實現文字到影片生成,僅用幾個單字或幾行文字就能生成獨一無二的影片。如下圖為一隻狗穿著超級英雄的衣服,穿著紅色的斗篷,在天空中飛翔:
##論文地址: https://arxiv.org/abs/2209.14792
論文12:Galactica: A Large Language Model for Science
#近年來,隨著各學科領域研究的進步,科學文獻和數據爆炸性地成長,使學術研究者從大量資訊中發現有用的見解變得越來越困難。通常,人們會藉助搜尋引擎來獲取科學知識,但搜尋引擎無法自主組織科學知識。
最近,Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica,可以儲存、組合和推理科學知識。 Galactica 可以自行總結歸納出一篇綜述論文、產生詞條的百科全書查詢、對所提問題作出知識性的回答。
#論文網址:https://arxiv.org/abs/2211.09085#
以上是2022出圈的ML研究:爆火的Stable Diffusion、通才智能體Gato,LeCun轉推的詳細內容。更多資訊請關注PHP中文網其他相關文章!