Maison > Article > Périphériques technologiques > Technologie de reconnaissance d'écriture manuscrite et sa classification par algorithme
Les progrès de la technologie d'apprentissage automatique favoriseront certainement le développement de la technologie de reconnaissance de l'écriture manuscrite. Cet article se concentrera sur les technologies et les algorithmes de reconnaissance d’écriture manuscrite qui fonctionnent actuellement bien.
Les réseaux de capsules sont l'une des architectures les plus récentes et les plus avancées en matière de réseaux de neurones et sont considérées comme une amélioration par rapport aux techniques d'apprentissage automatique existantes.
Les couches de regroupement en blocs convolutifs sont utilisées pour réduire la dimensionnalité des données et obtenir une invariance spatiale pour identifier et classer les objets dans les images. Cependant, l’inconvénient du pooling est qu’une grande quantité d’informations spatiales sur la rotation, la position, l’échelle et d’autres propriétés de position des objets sont perdues au cours du processus. Par conséquent, bien que la précision de la classification des images soit élevée, les performances de localisation de l'emplacement précis des objets dans l'image sont médiocres.
Capsule est un module neuronal utilisé pour stocker des informations sur la position, la rotation, l'échelle et d'autres informations sur les objets dans un espace vectoriel de grande dimension. Chaque dimension représente une caractéristique particulière de l'objet.
Le noyau qui génère des cartes de fonctionnalités et extrait des fonctionnalités visuelles fonctionne avec un routage dynamique en combinant les opinions individuelles de plusieurs groupes appelés capsules. Cela se traduit par une variance égale entre les noyaux et améliore les performances par rapport aux CNN.
Le noyau qui génère des cartes de caractéristiques et extrait des caractéristiques visuelles fonctionne avec un routage dynamique en combinant les opinions individuelles de plusieurs groupes (appelées capsules). Cela se traduit par une équivalence entre les noyaux et des performances améliorées par rapport aux CNN.
Le traitement des données séquentielles RNN/LSTM (Long Short-Term Memory) est limité au traitement de données unidimensionnelles, telles que le texte, et ne peut pas être directement étendu à images.
Les RNN multidimensionnels peuvent remplacer une seule connexion récurrente dans un RNN standard par autant d'unités récurrentes qu'il y a de dimensions dans les données.
Pendant le passage vers l'avant, à chaque point de la séquence de données, la couche cachée du réseau reçoit une entrée externe et ses propres activations, qui sont effectuées un pas en arrière à partir d'une dimension.
Le principal problème des systèmes de reconnaissance est de convertir une image bidimensionnelle en une séquence d'étiquettes unidimensionnelle. Cela se fait en transmettant les données d'entrée à une hiérarchie de couches MDRNN. La sélection de la hauteur du bloc réduit progressivement l'image 2D en une séquence 1D, qui peut ensuite être étiquetée par la couche de sortie.
Les réseaux neuronaux récurrents multidimensionnels sont conçus pour rendre les modèles de langage robustes à chaque combinaison de dimensions d'entrée, telles que la rotation et le cisaillement de l'image, l'ambiguïté des traits et les distorsions locales de différents styles d'écriture manuscrite, et leur permettent de construire de manière flexible des éléments multidimensionnels modulaires. contexte.
Il s'agit d'un algorithme qui gère des tâches telles que la reconnaissance vocale, la reconnaissance de l'écriture manuscrite, etc., mappant l'intégralité des données d'entrée à la classe/texte de sortie.
Les méthodes de reconnaissance traditionnelles impliquent de mapper les images sur le texte correspondant, mais nous ne savons pas comment les parcelles d'images sont alignées sur les caractères. Le CTC peut être contourné sans savoir comment des parties spécifiques de l’audio vocal ou des images manuscrites s’alignent sur des caractères spécifiques.
L'entrée de l'algorithme est une représentation vectorielle d'une image de texte manuscrit. Il n'y a pas d'alignement direct entre la représentation des pixels de l'image et la séquence de caractères. CTC vise à trouver cette cartographie en additionnant les probabilités de tous les alignements possibles entre elles.
Les modèles formés à l'aide de CTC utilisent généralement des réseaux de neurones récurrents pour estimer la probabilité à chaque pas de temps, car les réseaux de neurones récurrents prennent en compte le contexte dans l'entrée. Il génère le score de caractère pour chaque élément de séquence, représenté par une matrice.
Pour le décodage, nous pouvons utiliser :
Décodage du meilleur chemin : implique la prédiction de phrases en concaténant les caractères les plus probables de chaque horodatage pour former un mot complet, ce qui donne le meilleur chemin. Lors de la prochaine itération de formation, les caractères et espaces répétés sont supprimés pour un meilleur décodage du texte.
Beam Search Decoder : suggère plusieurs chemins de sortie avec la probabilité la plus élevée. Les chemins avec des probabilités plus petites sont ignorés pour maintenir la taille du faisceau constante. Les résultats obtenus grâce à cette approche sont plus précis et sont souvent combinés avec des modèles de langage pour donner des résultats significatifs.
Le modèle Transformateur adopte une stratégie différente, en utilisant l'auto-attention pour mémoriser toute la séquence. Une méthode d'écriture manuscrite non cyclique peut être implémentée à l'aide du modèle de transformateur.
Le modèle Transformer combine la couche d'auto-attention multi-têtes de la couche visuelle et la couche de texte pour apprendre les dépendances liées au modèle de langage de la séquence de caractères à décoder. Les connaissances linguistiques sont intégrées dans le modèle lui-même, de sorte qu'aucune étape de traitement supplémentaire n'est nécessaire à l'aide d'un modèle linguistique. Il est également bien adapté pour prédire des résultats qui ne font pas partie du vocabulaire.
Cette architecture comprend deux parties :
Transcripteur de texte, qui génère des caractères décodés en prêtant attention aux caractéristiques visuelles et linguistiques de chacun.
Encodeur de fonctionnalités visuelles, conçu pour extraire des informations pertinentes à partir d'images de texte manuscrites en se concentrant sur diverses positions de caractères et leurs informations contextuelles.
La formation des systèmes de reconnaissance de l'écriture manuscrite est toujours troublée par la rareté des données de formation. Pour résoudre ce problème, cette méthode utilise des vecteurs de caractéristiques de texte pré-entraînés comme point de départ. Les modèles de pointe utilisent des mécanismes d'attention en conjonction avec les RNN pour se concentrer sur les fonctionnalités utiles pour chaque horodatage.
L'architecture complète du modèle peut être divisée en quatre étapes : normalisation de l'image du texte d'entrée, codage de l'image d'entrée normalisée dans une carte de caractéristiques visuelles 2D, décodage à l'aide d'un LSTM bidirectionnel pour la modélisation séquentielle, décodeur. Le vecteur de sortie des informations contextuelles est converti en mots.
Il s'agit d'une méthode de reconnaissance de l'écriture manuscrite de bout en bout utilisant un mécanisme d'attention. Il numérise la page entière en même temps. Par conséquent, il ne nécessite pas de diviser au préalable le mot entier en caractères ou en lignes. Cette méthode utilise une architecture LSTM multidimensionnelle (MDLSTM) comme extracteur de fonctionnalités similaire à celle ci-dessus. La seule différence réside dans la dernière couche, où les cartes de caractéristiques extraites sont pliées verticalement et une fonction d'activation softmax est appliquée pour identifier le texte correspondant.
Le modèle d'attention utilisé ici est une combinaison hybride d'attention basée sur le contenu et d'attention basée sur la localisation. Le module de décodeur LSTM prend les cartes d'état et d'attention précédentes et les fonctionnalités de l'encodeur pour générer le caractère de sortie final et le vecteur d'état pour la prédiction suivante.
Il s'agit d'un modèle séquence à séquence pour la reconnaissance de texte manuscrit basé sur le mécanisme d'attention. L'architecture se compose de trois parties principales :
Le réseau de neurones récurrent est le plus adapté aux caractéristiques temporelles du texte. Associé à une architecture aussi récurrente, le mécanisme d’attention joue un rôle crucial en se concentrant sur les bonnes caractéristiques à chaque pas de temps.
La génération d'écriture manuscrite synthétique peut générer un texte manuscrit réaliste, qui peut être utilisé pour améliorer les ensembles de données existants.
Les modèles d'apprentissage profond nécessitent de grandes quantités de données pour être entraînés, et obtenir un vaste corpus d'images manuscrites annotées dans différentes langues est une tâche fastidieuse. Nous pouvons résoudre ce problème en utilisant des réseaux antagonistes génératifs pour générer des données de formation.
ScrabbleGAN est une méthode semi-supervisée de synthèse d'images de texte manuscrites. Il s'appuie sur un modèle génératif capable de générer des images de mots de longueur arbitraire à l'aide d'un réseau entièrement convolutif.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!