Maison > Article > Périphériques technologiques > Reconnaissance d'images : réseau de neurones convolutifs
Cet article est réimprimé du compte public WeChat "Vivre à l'ère de l'information". Pour réimprimer cet article, veuillez contacter le compte public Vivre à l’ère de l’information.
Le réseau neuronal convolutif (CNN) est un réseau spécial à rétroaction profonde, qui comprend généralement une couche d'entrée de données, une couche de convolution, une couche d'activation, une couche de sous-échantillonnage et une couche entièrement connectée.
La couche convolutive est une unité importante du réseau neuronal convolutif. Elle se compose d'une série de noyaux de convolution qui filtrent les données. Son essence est le poids de la zone locale de l'image et. le noyau de convolution. Processus de superposition linéaire de sommation pondérée en valeurs. L'image I est utilisée comme entrée et le noyau de convolution bidimensionnel K est utilisé pour la convolution. Le processus de convolution peut être exprimé comme suit :
où I(i,j) est l'image dans. (i, j) La valeur de la position, S (i, j) est la carte des caractéristiques obtenue après l'opération de convolution.
L'opération de convolution d'activation est linéaire, ne peut effectuer qu'un mappage linéaire et a une capacité d'expression limitée. Par conséquent, pour traiter les problèmes de cartographie non linéaire, il est nécessaire d’introduire une fonction d’activation non linéaire. Pour traiter différents problèmes non linéaires, les fonctions d'activation introduites sont également différentes. Les fonctions couramment utilisées sont sigmoïde, tanh, relu, etc.
L'expression de la fonction sigmoïde est :
L'expression de la fonction Tanh est : L'expression de la fonction
Relu est :
La couche de sous-échantillonnage est également appelée couche de pooling. Elle est généralement placée après plusieurs couches convolutives pour réduire la taille de l'image caractéristique. La fonction de pooling utilise les caractéristiques statistiques globales des sorties voisines à une certaine position pour remplacer la sortie du réseau à cette position. Généralement, la couche de pooling a trois fonctions : Premièrement, elle réduit la dimension des fonctionnalités. L'opération de pooling est équivalente à un autre processus d'extraction de fonctionnalités, qui peut supprimer les informations redondantes et réduire le volume de traitement des données de la couche suivante. Deuxièmement, afin d'éviter le surajustement, l'opération de mise en commun obtient des informations plus abstraites et améliore la généralisation. La troisième consiste à maintenir l'invariance des fonctionnalités, et l'opération de pooling conserve les fonctionnalités les plus importantes.
La couche entièrement connectée est généralement placée à la fin du réseau neuronal convolutif, et tous les neurones entre les couches sont connectés avec des poids. Le but est de mapper toutes les fonctionnalités apprises dans le réseau à l'espace d'étiquettes de l'échantillon pour porter des jugements de catégorie. La fonction Softmax est généralement utilisée dans la dernière couche du réseau neuronal comme sortie du classificateur. Chaque valeur émise par la fonction softmax est comprise entre (0, 1).
Il existe quelques modèles CNN classiques et efficaces, tels que : VGGNet, ResNet, AlexNet, etc., qui ont été largement utilisés dans le domaine de la reconnaissance d'images.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!