手書き認識技術とそのアルゴリズム分類-AI-php.cn

ホームページ

テクノロジー周辺機器

手書き認識技術とそのアルゴリズム分類

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 pm 03:39 PM

機械学習

手書き認識技術とそのアルゴリズム分類

機械学習技術の進歩により、手書き認識技術の開発も確実に促進されるでしょう。この記事では、現在優れたパフォーマンスを発揮している手書き認識テクノロジーとアルゴリズムに焦点を当てます。

カプセルネットワーク (CapsNets)

カプセルネットワークは、ニューラルネットワークにおける最新かつ最先端のアーキテクチャの 1 つであり、重要なネットワークであると考えられています。機械学習技術の既存の改善に加えて。

畳み込みブロックのプーリング層は、データの次元を削減し、画像内のオブジェクトを識別および分類するための空間的不変性を実現するために使用されます。ただし、プールの欠点は、オブジェクトの回転、位置、スケール、その他の位置プロパティに関する大量の空間情報がプロセス中に失われることです。したがって、画像分類の精度は高くても、画像内のオブジェクトの正確な位置を特定するパフォーマンスは低くなります。

Capsule は、オブジェクトの位置、回転、スケールなどの情報を高次元ベクトル空間に保存するために使用されるニューロンモジュールです。各次元はオブジェクトの特別な特性を表します。

特徴マップを生成し、視覚的特徴を抽出するカーネルは、カプセルと呼ばれる複数のグループからの個々の意見を組み合わせることで、動的ルーティングと連携します。これにより、カーネル間の分散が均等になり、CNN と比較してパフォーマンスが向上します。

特徴マップを生成し、視覚的特徴を抽出するカーネルは、複数のグループ (カプセルと呼ばれます) からの個々の意見を組み合わせることで、動的ルーティングと連携します。これにより、カーネル間の同等性が高まり、CNN と比較してパフォーマンスが向上します。

多次元リカレントニューラルネットワーク (MDRNN)

RNN/LSTM (Long Short-Term Memory) によるシーケンシャルデータの処理は限定されていますテキストなどの 1 次元データを画像に直接拡張することはできません。

多次元リカレントニューラルネットワークでは、標準のリカレントニューラルネットワーク内の単一のリカレント接続を、データ内の次元と同じ数のリカレントユニットに置き換えることができます。

順方向パス中、データシーケンスの各ポイントで、ネットワークの隠れ層は外部入力と独自のアクティベーションを受け取ります。これは、進行中の 1 つの次元から 1 ステップ後退します。

認識システムにおける主な問題は、2 次元画像を 1 次元のラベルシーケンスに変換することです。これは、入力データを MDRNN レイヤーの階層に渡すことによって行われます。ブロックの高さを選択すると、2D 画像が 1D シーケンスに徐々に折りたたまれ、出力レイヤーでラベルを付けることができます。

多次元リカレントニューラルネットワークは、画像の回転やせん断、ストロークの曖昧さ、さまざまな手書きスタイルのプロパティの局所的な歪みなど、入力次元のあらゆる組み合わせに対して堅牢な言語モデルを作成するように設計されています。多次元コンテキストを柔軟にモデル化できるようになります。

Connectionist Temporalclassification(CTC)

これは、音声認識や手書き認識などのタスクを処理し、入力データ全体をマッピングするアルゴリズムですクラス/テキストを出力します。

従来の認識方法では、画像を対応するテキストにマッピングする必要がありますが、画像のパッチがどのように文字と位置合わせされるかはわかりません。 CTC は、音声または手書きの画像の特定の部分が特定の文字とどのように一致するかを知らなくてもバイパスされる可能性があります。

このアルゴリズムへの入力は、手書きテキストの画像のベクトル表現です。画像のピクセル表現と文字シーケンスの間には直接の調整はありません。 CTC は、それらの間のすべての可能な一致の確率を合計することによって、このマッピングを見つけることを目的としています。

CTC でトレーニングされたモデルは通常、リカレントニューラルネットワークを使用して各タイムステップでの確率を推定します。これは、リカレントニューラルネットワークでは入力のコンテキストが考慮されるためです。行列で表される各シーケンス要素の文字スコアを出力します。

デコードには次のものが使用できます。

ベストパスデコード: タイムスタンプごとに最も可能性の高い文字を連結して完全な形にすることで文を予測します。最適なパスが得られます。次のトレーニング反復では、テキストのデコードを改善するために、繰り返される文字とスペースが削除されます。

ビーム検索デコーダー: 最も高い確率で複数の出力パスを提案します。ビームサイズを一定に保つために、確率が小さいパスは破棄されます。この方法で得られる結果はより正確であり、多くの場合、意味のある結果を得るために言語モデルと組み合わせられます。

トランスフォーマーモデル

トランスフォーマーモデルは、自己注意を使用してシーケンス全体を記憶するという、別の戦略を採用しています。非周期的な手書きメソッドは、トランスフォーマーモデルを使用して実装できます。

Transformer モデルは、ビジュアルレイヤーのマルチヘッドセルフアテンションレイヤーとテキストレイヤーを組み合わせて、デコードされる文字シーケンスの言語モデル関連の依存関係を学習します。言語知識はモデル自体に埋め込まれているため、言語モデルを使用した追加の処理ステップは必要なく、語彙の一部ではない出力を予測するのにも適しています。

このアーキテクチャには 2 つの部分があります:

テキストトランスクライバ。視覚的および言語関連の機能を相互に注意してデコードされた文字を出力します。。

視覚特徴エンコーダー。さまざまな文字の位置とそのコンテキスト情報に焦点を当て、手書きのテキスト画像から関連情報を抽出するように設計されています。

エンコーダ/デコーダおよびアテンションネットワーク

手書き認識システムのトレーニングは、トレーニングデータの不足によって常に問題が発生します。この問題を解決するために、この方法では、開始点として事前にトレーニングされたテキストの特徴ベクトルが使用されます。最先端のモデルは、RNN と連携したアテンションメカニズムを使用して、各タイムスタンプの有用な機能に焦点を当てます。

完全なモデルアーキテクチャは 4 つの段階に分けることができます。入力テキスト画像を正規化し、正規化された入力画像を 2D 視覚特徴マップにエンコードし、デコードに双方向 LSTM を使用します。モデリングでは、デコーダからのコンテキスト情報の出力ベクトルが単語に変換されます。

スキャン、出席、読み取り

これは、アテンションメカニズムを使用したエンドツーエンドの手書き認識の方法です。ページ全体を一度にスキャンします。したがって、事前に単語全体を文字または行に分割する必要はありません。この方法では、上記と同様の特徴抽出器として多次元 LSTM (MDLSTM) アーキテクチャが使用されます。唯一の違いは最後のレイヤーです。ここでは、抽出された特徴マップが垂直に折り畳まれ、対応するテキストを識別するためにソフトマックスアクティベーション関数が適用されます。

ここで使用される注意モデルは、コンテンツベースの注意と場所ベースの注意のハイブリッドの組み合わせです。デコーダ LSTM モジュールは、前の状態、アテンションマップ、およびエンコーダ機能を取得して、次の予測のための最終出力文字と状態ベクトルを生成します。

畳み込み、出席、綴り

これは、アテンションメカニズムに基づく手書きテキスト認識のためのシーケンスツーシーケンスモデルです。このアーキテクチャには、次の 3 つの主要な部分が含まれています。

CNN と双方向 GRU
関連機能に焦点を当てたアテンションメカニズムで構成されるエンコーダ
一方向 GRU によって形成されたデコーダは、対応する単語を 1 文字ずつ綴ることができます。

# リカレントニューラルネットワークは、テキストの時間的特性に最も適しています。このような反復アーキテクチャと組み合わせると、アテンションメカニズムは、各タイムステップで適切な特徴に焦点を当てる上で重要な役割を果たします。

手書きテキストの生成

合成手書き生成では、既存のデータセットを強化するために使用できるリアルな手書きテキストを生成できます。

ディープラーニングモデルのトレーニングには大量のデータが必要であり、さまざまな言語で注釈が付けられた手書き画像の大規模なコーパスを取得するのは面倒な作業です。この問題は、敵対的生成ネットワークを使用してトレーニングデータを生成することで解決できます。

ScrabbleGAN は、手書きのテキスト画像を合成するための半教師あり手法です。これは、完全な畳み込みネットワークを使用して任意の長さの単語イメージを生成できる生成モデルに依存しています。

以上が手書き認識技術とそのアルゴリズム分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は网易伏羲で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles