手寫辨識技術及其演算法分類-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

手寫辨識技術及其演算法分類

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 pm 03:39 PM

機器學習

手寫辨識技術及其演算法分類

機器學習技術的進步必定推動手寫辨識技術的發展。本文將重點放在目前表現優異的手寫辨識技術和演算法。

膠囊網路(CapsNets)

#膠囊網路是神經網路中最新、最先進的架構之一，被視為對現有機器學習技術的改進。

卷積塊中的池化層用於降低資料維度並實現空間不變性，以便識別和分類影像中的物件。然而，池化的一個缺點是在過程中會失去大量有關物件旋轉、位置、比例和其他位置屬性的空間資訊。因此，儘管影像分類的準確性很高，但定位物件在影像中的精確位置的表現較差。

膠囊是一種神經元模組，用於儲存關於物件在高維度向量空間中的位置、旋轉、比例等資訊。每個維度表示物件的特殊特徵。

產生特徵圖和提取視覺特徵的核心透過組合稱為膠囊的多個群組的個人意見與動態路由一起工作。與CNN相比，這導致核心之間的等方差並提高了效能。

產生特徵圖和提取視覺特徵的核心透過組合多個群組(稱為膠囊)的個人意見，與動態路由一起工作。這導致了核心之間的等價性，並與CNN相比提高了效能。

多維循環神經網路(MDRNN)

#RNN/LSTM(長短期記憶)處理順序資料僅限於處理一維數據，例如文本，它們不能直接擴展到圖像。

多維循環神經網路可用與資料中的維度一樣多的循環單元替換標準循環神經網路中的單一循環連接。

在前向傳遞過程中，在資料序列的每一點，網路的隱藏層都會接收外部輸入和其自身的激活，這些激活都是從一個維度向後一步進行的。

識別系統中的主要問題是將二維影像轉換為一維標籤序列。這是透過將輸入資料傳遞給MDRNN層的層次結構來完成的。選擇區塊的高度將2D影像逐漸折疊到1D序列上，然後輸出層可以對其進行標記。

多維循環神經網路旨在使語言模型對輸入維度的每種組合，例如圖像旋轉和剪切、筆畫的歧義和不同的手寫風格的局部失真具有穩健性，並允許它們靈活地建模多維上下文。

Connectionist Temporal Classification(CTC)

#這是一種處理語音辨識、手寫辨識等任務的演算法，將整個輸入資料映射到輸出類別/文字。

傳統識別方法涉及將圖像映射到相應的文本，然而我們不知道圖像的補丁是如何與字元對齊的。 CTC則可以在不知道語音音訊的特定部分或手寫影像如何與特定字元對齊的情況下繞過。

此演算法的輸入是手寫文字圖像的向量表示。影像像素表示和字元序列之間沒有直接對齊。 CTC旨在透過對它們之間所有可能對齊的機率求和來找到此映射。

使用CTC訓練的模型通常使用循環神經網路來估計每個時間步長的機率，因為循環神經網路會考慮輸入中的上下文。它輸出每個序列元素的字元分數，由矩陣表示。

對於解碼，我們可以使用：

#最佳路徑解碼：涉及透過連接每個時間戳最可能的字元來預測句子以形成完整的單詞，從而產生最佳路徑。在下一次訓練迭代中，重複的字元和空格被刪除以更好地解碼文字。

波束搜尋解碼器：以最高機率建議多個輸出路徑。丟棄具有較小機率的路徑以保持波束大小恆定。透過這種方法獲得的結果更準確，並且通常與語言模型結合以給出有意義的結果。

transformer模型

Transformer模型採用不同的策略，使用自註意力來記住整個序列。可以使用transformer模型實作一種非循環的手寫方法。

Transformer模型結合視覺層和文字層的多頭自註意力層，可以學習要解碼的字元序列的語言模型相關依賴關係。語言知識嵌入模型本身中，因此不需要使用語言模型進行任何額外的處理步驟，它也非常適合預測不屬於詞彙表的輸出。

此架構有兩個部分：

文字轉錄器，透過相互關注視覺和語言相關的特徵來輸出解碼字元。

視覺特徵編碼器，旨在透過專注於各種字元位置及其上下文訊息，從手寫文字圖像中提取相關資訊。

編碼器-解碼器與注意力網路

訓練手寫辨識系統總是受到訓練資料稀缺的困擾，為了解決這個問題，該方法利用文字的預訓練特徵向量作為起點。最先進的模型將注意力機制與RNN結合使用，以專注於每個時間戳記的有用特徵。

完整的模型架構可以分為四個階段：對輸入文字影像進行歸一化，將歸一化輸入影像編碼為2D視覺特徵圖，使用雙向LSTM進行解碼以進行順序建模，解碼器的上下文資訊的輸出向量被轉換為單字。

Scan,Attend and Read

#這是一種使用注意力機制進行端對端手寫辨識的方法。它一次掃描整個頁面。因此，它不依賴事先將整個單字分割成字元或行。此方法使用多維LSTM(MDLSTM)架構作為與上述相似的特徵提取器。唯一的區別是最後一層，其中提取的特徵圖垂直折疊，並應用softmax激活函數來識別相應的文字。

這裡使用的注意力模型是基於內容的注意力和基於位置的注意力的混合組合。解碼器LSTM模組採用先前的狀態和注意力圖以及編碼器特徵來產生最終輸出字元和用於下一次預測的狀態向量。

Convolve,Attend and Spell

#這是一種基於注意力機制的手寫文字辨識序列到序列模型。架構包含三個主要部分：

一個編碼器，由一個CNN和一個雙向GRU組成
關注相關特徵的注意力機制
由單向GRU形成的解碼器，能夠逐個字元地拼出對應的單字

循環神經網路最適合文字的時間特性。當與此類循環架構配對時，注意力機制在每個時間步驟專注於正確的特徵方面發揮著至關重要的作用。

手寫文本產生

合成手寫產生可以產生逼真的手寫文本，它可用於提升現有資料集。

深度學習模型需要大量資料進行訓練，而獲取大量不同語言的註解手寫影像的語料庫是一項繁瑣的任務。我們可以使用生成對抗網路生成訓練資料來解決這個問題。

ScrabbleGAN是一種用於合成手寫文字影像的半監督方法。它依賴於一個生成模型，該模型可以使用完全卷積網路生成任意長度的單字圖像。

以上是手寫辨識技術及其演算法分類的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：网易伏羲。如有侵權，請聯絡admin@php.cn刪除

AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲：與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室，由暴風雪和黑曜石等行業巨頭的退伍軍人組成，有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店，提供商會讓他們嗎？May 02, 2025 am 11:16 AM

Uber的Robotaxi策略：自動駕駛汽車的騎車生態系統在最近的Curbivore會議上，Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。利用他們在

AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明，視頻遊戲是最先進的AI研究的寶貴測試理由，尤其是在自主代理商和現實世界機器人的開發中，甚至有可能促進人工通用情報（AGI）的追求。一個

創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體，財務報告和日常對話中顯而易見。但是，對投資者，初創企業和資金的具體後果經常被忽略。風險資本3.0：範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新，反映了向可訪問性和生成AI的戰略轉變。該分析結合了事件前簡報中的見解，並融合了Adobe Leadership。（注意：Adob

Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略，旨在直接與OpenAI等封閉的AI系統競爭，同時為其開源模型創建了新的收入流。這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱，是時候揭露“皇帝的新衣”了，而另一些人則強烈反對人工智能僅僅是普通技術的觀點。讓我們來探討一下。對這一創新性人工智能突破的分析，是我持續撰寫的福布斯專欄文章的一部分，該專欄涵蓋人工智能領域的最新進展，包括識別和解釋各種有影響力的人工智能複雜性（請點擊此處查看鏈接）。人工智能作為普通技術首先，需要一些基本知識來為這場重要的討論奠定基礎。目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能（AGI）甚至可能實現人工超級智能（AS