首頁 >科技週邊 >人工智慧 >重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

PHPz
PHPz轉載
2023-11-26 20:17:031633瀏覽

眾所周知,大型語言模型(LLM)可以透過上下文學習的方式從少量範例中學習,無需進行模型微調。目前,這種上下文學習現像只能在大型模型中觀察到。例如,像GPT-4、Llama等大型模型在許多領域中都表現出了卓越的性能,但由於資源限製或實時性要求較高,許多場景無法使用大型模型

那麼,常規大小的模式是否具備這種能力呢?為了探索小模型的上下文學習能力,位元組和華東師大的研究團隊在場景文字辨識任務上進行了研究。

目前,在實際應用場景中,場景文字辨識面臨多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應付所有場景的統一的文本辨識模型。

解決該問題的一個直接方法是收集相應的數據,並在具體場景中微調模型。然而,這個過程需要重新訓練模型,計算量很大,並且需要保存多個模型權重以適應不同的場景。如果文字辨識模型能夠具備情境學習能力,在面對新場景時,只需要少量標註資料作為提示,就能提昇在新場景上的效能,從而解決上述問題。然而,場景文字辨識是一個資源敏感型任務,將大模型作為文字辨識器會消耗大量資源。透過初步的實驗觀察,研究人員發現傳統的大模型訓練方法並不適用於場景文本辨識任務

為了解決這個問題,來自字節跳動和華東師大的研究團隊提出了自進化文本識別器,E2STR(Ego-Evolving Scene Text Recognizer)。這是一個融合了上下文學習能力的常規大小的文本識別器,能夠快速適應不同的文本識別場景,而無需微調

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

論文連結:https://arxiv.org/pdf/2311.13120.pdf

E2STR 配備了一種情境訓練和情境推理模式,不僅在常規資料集上達到了SOTA 的水平,而且可以使用單一模型提昇在各個場景中的識別性能,實現對新場景的快速適應,甚至超過了經過微調後專用模型的識別性能。 E2STR 證明,常規大小的模型足以在文字辨識任務中實現有效的情境學習能力。

方法

在圖1中,展示了E2STR的訓練與推理過程

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

1. 基礎文字辨識訓練

#基礎文字辨識訓練階段採用自回歸框架訓練視覺編碼器和語言解碼器,目的為了取得文字辨識能力:

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

#2. 上下文訓練

情境訓練階段 E2STR 將依據文中所提出的情境訓練範式進行進一步訓練。在這階段,E2STR 會學習理解不同樣本之間的聯繫,從而從上下文提示中獲得推理能力。

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

如圖2 所示,這篇文章提出ST 策略,在場景文字資料中進行隨機的分割和轉換,從而產生一組"子樣本"。子樣本在視覺和語言方面都是內在連結的。這些內在聯繫的樣本被拼接成一個序列,模型從這些語意豐富的序列中學習上下文知識,從而獲得上下文學習的能力。這一階段同樣採用自回歸框架進行訓練:

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

#需要進行改寫的內容是:3. 上下文推理 改寫後的內容:3. 根據上下文進行推理

針對一個測試樣本,該框架會從上下文提示池中選擇N 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章透過對視覺 token 序列做平均池化,計算出圖像 embedding I 。然後,從上下文池中選擇影像嵌入與 I 的餘弦相似度最高的前 N ​​個樣本,從而形成上下文提示。

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

將上下文提示和測試樣本拼接在一起送入模型後,E2STR會以無需訓練的方式從上下文提示中學習新的知識,從而提高測試樣本的辨識準確度。需要注意的是,上下文提示池只保留視覺編碼器輸出的令牌,使得上下文提示的選擇過程非常有效率。此外,由於上下文提示池很小,且E2STR無需訓練即可進行推理,因此額外的計算開銷也被降至最低

實驗

#實驗主要從三個面向進行:分別是傳統文本辨識集、跨域場景辨識和困難樣本修正

#1.傳統資料集

從訓練集中隨機抽取很少的樣本(1000 個,訓練集0.025% 的樣本數量)組成上下文提示池,在12 個常見的場景文本識別測試集中進行的測試,結果如下:

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

可以發現 E2STR 在辨識表現差不多已經飽和的傳統資料集上依然提升,超越了SOTA 模型的表現。

需要進行改寫的內容是:2. 跨域場景

跨域場景下每個測試集僅提供100 個域內訓練樣本,無訓練和微調對比結果如下,E2STR 甚至超過了SOTA 方法的微調結果。

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

需要進行改寫的內容是:3. 修改困難樣本

研究人員收集了一批困難樣本,對這些樣本提供了10%~20% 的標註,對比 E2STR 的無需訓練的上下文學習方法和SOTA 方法的微調學習方法,結果如下:

重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力

比較微調方法,E2STR-ICL顯著降低了困難樣本的錯誤率

未來展望

E2STR 證明了使用適當的訓練和推理策略,小模型也可以擁有和LLM 類似的In-context Learning 的能力。在一些即時性要求比較強的任務中,使用小模型也可以對新場景進行快速的適應。更重要的是,這種使用單一模型來實現對新場景快速適應的方法使得建立統一高效的小模型更近了一步。

以上是重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除