眾所周知,大型語言模型(LLM)可以透過上下文學習的方式從少量範例中學習,無需進行模型微調。目前,這種上下文學習現像只能在大型模型中觀察到。例如,像GPT-4、Llama等大型模型在許多領域中都表現出了卓越的性能,但由於資源限製或實時性要求較高,許多場景無法使用大型模型
那麼,常規大小的模式是否具備這種能力呢?為了探索小模型的上下文學習能力,位元組和華東師大的研究團隊在場景文字辨識任務上進行了研究。
目前,在實際應用場景中,場景文字辨識面臨多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應付所有場景的統一的文本辨識模型。
解決該問題的一個直接方法是收集相應的數據,並在具體場景中微調模型。然而,這個過程需要重新訓練模型,計算量很大,並且需要保存多個模型權重以適應不同的場景。如果文字辨識模型能夠具備情境學習能力,在面對新場景時,只需要少量標註資料作為提示,就能提昇在新場景上的效能,從而解決上述問題。然而,場景文字辨識是一個資源敏感型任務,將大模型作為文字辨識器會消耗大量資源。透過初步的實驗觀察,研究人員發現傳統的大模型訓練方法並不適用於場景文本辨識任務
為了解決這個問題,來自字節跳動和華東師大的研究團隊提出了自進化文本識別器,E2STR(Ego-Evolving Scene Text Recognizer)。這是一個融合了上下文學習能力的常規大小的文本識別器,能夠快速適應不同的文本識別場景,而無需微調
論文連結:https://arxiv.org/pdf/2311.13120.pdf
E2STR 配備了一種情境訓練和情境推理模式,不僅在常規資料集上達到了SOTA 的水平,而且可以使用單一模型提昇在各個場景中的識別性能,實現對新場景的快速適應,甚至超過了經過微調後專用模型的識別性能。 E2STR 證明,常規大小的模型足以在文字辨識任務中實現有效的情境學習能力。
方法
在圖1中,展示了E2STR的訓練與推理過程
1. 基礎文字辨識訓練
#基礎文字辨識訓練階段採用自回歸框架訓練視覺編碼器和語言解碼器,目的為了取得文字辨識能力:
#2. 上下文訓練
情境訓練階段 E2STR 將依據文中所提出的情境訓練範式進行進一步訓練。在這階段,E2STR 會學習理解不同樣本之間的聯繫,從而從上下文提示中獲得推理能力。
如圖2 所示,這篇文章提出ST 策略,在場景文字資料中進行隨機的分割和轉換,從而產生一組"子樣本"。子樣本在視覺和語言方面都是內在連結的。這些內在聯繫的樣本被拼接成一個序列,模型從這些語意豐富的序列中學習上下文知識,從而獲得上下文學習的能力。這一階段同樣採用自回歸框架進行訓練:
#需要進行改寫的內容是:3. 上下文推理 改寫後的內容:3. 根據上下文進行推理
針對一個測試樣本,該框架會從上下文提示池中選擇N 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章透過對視覺 token 序列做平均池化,計算出圖像 embedding I 。然後,從上下文池中選擇影像嵌入與 I 的餘弦相似度最高的前 N 個樣本,從而形成上下文提示。
將上下文提示和測試樣本拼接在一起送入模型後,E2STR會以無需訓練的方式從上下文提示中學習新的知識,從而提高測試樣本的辨識準確度。需要注意的是,上下文提示池只保留視覺編碼器輸出的令牌,使得上下文提示的選擇過程非常有效率。此外,由於上下文提示池很小,且E2STR無需訓練即可進行推理,因此額外的計算開銷也被降至最低
實驗
#實驗主要從三個面向進行:分別是傳統文本辨識集、跨域場景辨識和困難樣本修正
#1.傳統資料集
從訓練集中隨機抽取很少的樣本(1000 個,訓練集0.025% 的樣本數量)組成上下文提示池,在12 個常見的場景文本識別測試集中進行的測試,結果如下:
可以發現 E2STR 在辨識表現差不多已經飽和的傳統資料集上依然提升,超越了SOTA 模型的表現。
需要進行改寫的內容是:2. 跨域場景
跨域場景下每個測試集僅提供100 個域內訓練樣本,無訓練和微調對比結果如下,E2STR 甚至超過了SOTA 方法的微調結果。
需要進行改寫的內容是:3. 修改困難樣本
研究人員收集了一批困難樣本,對這些樣本提供了10%~20% 的標註,對比 E2STR 的無需訓練的上下文學習方法和SOTA 方法的微調學習方法,結果如下:
比較微調方法,E2STR-ICL顯著降低了困難樣本的錯誤率
未來展望
E2STR 證明了使用適當的訓練和推理策略,小模型也可以擁有和LLM 類似的In-context Learning 的能力。在一些即時性要求比較強的任務中,使用小模型也可以對新場景進行快速的適應。更重要的是,這種使用單一模型來實現對新場景快速適應的方法使得建立統一高效的小模型更近了一步。
以上是重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型

本文探討了十個徹底改變人工智能(AI)和機器學習(ML)的開創性出版物。 我們將研究神經網絡和算法的最新突破,並解釋驅動現代AI的核心概念。 Th

AI在SEO中的崛起:超過SEO代理商的前11個工具 AI的快速發展已深刻地重塑了SEO景觀。 旨在提高頂級搜索引擎排名的企業正在利用AI優化其在線策略的能力。 來自AU

探索2024年最好的免費AI遊樂場:綜合指南 訪問正確的工具和平台是在不斷發展的人工智能(AI)領域學習和創新的關鍵。 AI遊樂場提供了絕佳的機會

介紹 向量數據庫是專門的數據庫,旨在有效地存儲和檢索高維矢量數據。 這些向量代表數據點的特徵或屬性,範圍從數十到數千個維度,具體取決於

穩定的擴散:揭示反向擴散的魔力 穩定的擴散是一種強大的生成模型,能夠從噪聲中產生高質量的圖像。此過程涉及兩個關鍵步驟:正向擴散過程(在上一個A中詳細介紹


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版
中文版,非常好用

Dreamweaver Mac版
視覺化網頁開發工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器