重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

PHPz

Nov 26, 2023 pm 08:17 PM

訓練文字

眾所周知，大型語言模型（LLM）可以透過上下文學習的方式從少量範例中學習，無需進行模型微調。目前，這種上下文學習現像只能在大型模型中觀察到。例如，像GPT-4、Llama等大型模型在許多領域中都表現出了卓越的性能，但由於資源限製或實時性要求較高，許多場景無法使用大型模型

那麼，常規大小的模式是否具備這種能力呢？為了探索小模型的上下文學習能力，位元組和華東師大的研究團隊在場景文字辨識任務上進行了研究。

目前，在實際應用場景中，場景文字辨識面臨多種挑戰：不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等，因此很難訓練一個能應付所有場景的統一的文本辨識模型。

解決該問題的一個直接方法是收集相應的數據，並在具體場景中微調模型。然而，這個過程需要重新訓練模型，計算量很大，並且需要保存多個模型權重以適應不同的場景。如果文字辨識模型能夠具備情境學習能力，在面對新場景時，只需要少量標註資料作為提示，就能提昇在新場景上的效能，從而解決上述問題。然而，場景文字辨識是一個資源敏感型任務，將大模型作為文字辨識器會消耗大量資源。透過初步的實驗觀察，研究人員發現傳統的大模型訓練方法並不適用於場景文本辨識任務

為了解決這個問題，來自字節跳動和華東師大的研究團隊提出了自進化文本識別器，E2STR（Ego-Evolving Scene Text Recognizer）。這是一個融合了上下文學習能力的常規大小的文本識別器，能夠快速適應不同的文本識別場景，而無需微調

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

論文連結：https://arxiv.org/pdf/2311.13120.pdf

E2STR 配備了一種情境訓練和情境推理模式，不僅在常規資料集上達到了SOTA 的水平，而且可以使用單一模型提昇在各個場景中的識別性能，實現對新場景的快速適應，甚至超過了經過微調後專用模型的識別性能。 E2STR 證明，常規大小的模型足以在文字辨識任務中實現有效的情境學習能力。

方法

在圖1中，展示了E2STR的訓練與推理過程

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

1. 基礎文字辨識訓練

#基礎文字辨識訓練階段採用自回歸框架訓練視覺編碼器和語言解碼器，目的為了取得文字辨識能力：

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

#2. 上下文訓練

情境訓練階段 E2STR 將依據文中所提出的情境訓練範式進行進一步訓練。在這階段，E2STR 會學習理解不同樣本之間的聯繫，從而從上下文提示中獲得推理能力。

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

如圖2 所示，這篇文章提出ST 策略，在場景文字資料中進行隨機的分割和轉換，從而產生一組"子樣本"。子樣本在視覺和語言方面都是內在連結的。這些內在聯繫的樣本被拼接成一個序列，模型從這些語意豐富的序列中學習上下文知識，從而獲得上下文學習的能力。這一階段同樣採用自回歸框架進行訓練：

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

#需要進行改寫的內容是：3. 上下文推理改寫後的內容：3. 根據上下文進行推理

針對一個測試樣本，該框架會從上下文提示池中選擇N 個樣本，這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說，這篇文章透過對視覺 token 序列做平均池化，計算出圖像 embedding I 。然後，從上下文池中選擇影像嵌入與 I 的餘弦相似度最高的前 N 個樣本，從而形成上下文提示。

重新表達的標題為：位元組跳動與華東師大的合作：探索小模型的脈絡學習能力

將上下文提示和測試樣本拼接在一起送入模型後，E2STR會以無需訓練的方式從上下文提示中學習新的知識，從而提高測試樣本的辨識準確度。需要注意的是，上下文提示池只保留視覺編碼器輸出的令牌，使得上下文提示的選擇過程非常有效率。此外，由於上下文提示池很小，且E2STR無需訓練即可進行推理，因此額外的計算開銷也被降至最低