Maison >Périphériques technologiques >IA >L'algorithme d'image contribue à améliorer l'efficacité et à transférer l'évaluation des produits
Zhuanzhuan est une plateforme de commerce électronique principalement engagée dans les transactions de produits d'occasion. Selon les entités de transaction, des relations transactionnelles C2C, C2B, B2C et autres peuvent être formées. Par exemple, il s'agit d'un modèle C2C permettant aux utilisateurs individuels de publier des produits à vendre sur le marché libre de l'application Zhuanzhuan. La société Zhuanzhuan fournit également des services C2B d'envoi par courrier et de recyclage porte-à-porte de téléphones portables et d'autres produits électroniques. Produits B2C d'occasion avec inspection, garantie et service après-vente officiels. Cet article se concentrera sur l'application d'algorithmes d'image dans le processus d'examen des listes de produits dans les magasins Zhuanzhuan B2C.
En raison de la nature non standard des produits d'occasion, il existe des différences de qualité même entre les différents produits en stock sous le même sku. Afin d'améliorer l'expérience utilisateur et d'augmenter la transparence des informations sur les produits, la plateforme utilise des images de produits réelles lors de l'affichage de produits d'occasion et évite l'utilisation d'images rendues de produits standards. Cela implique d'examiner les images d'affichage pertinentes de chaque produit sur les étagères sous divers aspects tels que l'exactitude des informations et la qualité de l'image.
Au début du développement commercial, les images d'affichage pertinentes des produits sur les étagères sont examinées manuellement pour garantir la qualité et l'exactitude des images. Le contenu de l'examen comprend principalement les aspects suivants :
Avec le développement de l'activité, de plus en plus de produits sont mis en rayon chaque jour, et la révision manuelle a progressivement révélé certains problèmes d'efficacité et de précision des révisions :
Compte tenu du travail répétitif dans le contenu de l'évaluation, nous utilisons la classification, la régression, la détection et d'autres technologies liées au domaine de l'image, et utilisons la sortie du modèle d'algorithme pour aider au jugement manuel, ce qui améliore non seulement la précision des résultats de l'évaluation. , mais améliore également considérablement l'efficacité du processus d'examen.
Le contenu qui doit être révisé comprend les points suivants :
Nous avons conçu les solutions suivantes pour les besoins d'audit :
Solution de projet qui doit être audité Si l'image d'affichage du produit et le SKU correspondant sont cohérents L'image correspond si la photographie du produit est claire Plan de retour Si le produit a un plan de détection des étiquettes anti-falsification Schéma de détection pour savoir si le produit est sale ou non Schéma de détection pour savoir si le produit se trouve dans la zone centrale de l'image
La figure suivante montre un diagramme schématique des principaux éléments d'examen. Examen de la liste de produits B2C :
Exemple de carte d'examen
Tous les produits vendus dans le centre commercial doivent prendre des photos physiques des produits à afficher. le processus de mise des produits dans le centre commercial, en raison d'erreurs manuelles et d'autres situations, il peut y avoir une inadéquation entre l'image affichée du produit et les informations sku correspondantes. Pour donner un exemple simple, les informations SKU du produit sont iphone11-red, mais l'image affichée est iphoneX-green. Ce problème peut correspondre au problème de classification d'images, qui équivaut à déterminer la catégorie de produit à partir des informations d'image. Cependant, la simple utilisation de l'algorithme de classification ne peut pas bien résoudre notre problème. L'utilisation directe de la classification pose les problèmes suivants :
Les catégories sont limitées. Que l'image d'entrée soit ou non dans la catégorie, une catégorie sera affichée.
En raison de la catégorie fixe, les SKU nouvellement ajoutés ne peuvent pas être traités.
En raison des problèmes ci-dessus avec la méthode de classification, nous avons modifié la stratégie et utilisé une solution de correspondance d'images. En formant un meilleur extracteur de fonctionnalités, puis en utilisant le schéma de correspondance d'images, nous pouvons mieux résoudre le problème de l'ajout de nouvelles catégories. La solution que nous avons sélectionnée est fondamentalement cohérente avec les solutions académiques en matière de reconnaissance faciale, de réidentification des personnes, de récupération d'images et d'autres directions. Le processus principal comprend l'extraction des caractéristiques de l'image, le calcul de la similarité des images, le tri et la sortie des résultats. Parmi elles, l'extraction de caractéristiques d'image est au centre de nos recherches. Les fonctionnalités traditionnelles de correspondance d'images incluent les fonctionnalités SIFT, SURF, ORB, etc. L'extraction de caractéristiques d'image basée sur l'apprentissage en profondeur utilise principalement les réseaux neuronaux CNN pour l'extraction de caractéristiques. L'image ci-dessous montre notre plan :
Plan de révision des suk de matières premières
Phase de formation : La phase de formation utilise principalement la perte d'entropie croisée combinée à la perte de triplet pour former un réseau de classification. Le réseau fédérateur a essayé MobileNet, ResNet, ShuffleNet, OSNet, etc. Nos résultats expérimentaux montrent que la précision du modèle ResNet est légèrement supérieure, c'est pourquoi ResNet est sélectionné comme réseau fédérateur.
Triple exemple
La Formule 1 donne la fonction binaire de perte d'entropie croisée, qui représente la valeur de sortie de l'échantillon et représente l'étiquette correspondant à l'échantillon. La formule 2 donne la fonction de perte triplet, qui représente le vecteur de caractéristiques correspondant à l'échantillon d'ancrage, représente le vecteur de caractéristiques correspondant à l'échantillon de la même catégorie que l'échantillon d'ancrage, et représente le vecteur de caractéristiques correspondant à l'échantillon d'une catégorie différente de celle l’échantillon d’ancrage. Dans l'espace des caractéristiques, la distance entre l'échantillon négatif et l'échantillon du point d'ancrage moins la distance entre l'échantillon positif et le point d'ancrage doit être supérieure à .
La fonction de perte d'entropie croisée est une fonction de perte de classification courante, et la fonction de perte triplet est une fonction de perte couramment utilisée dans la reconnaissance faciale et la réidentification des piétons. La fonction de perte de triplet peut faire apparaître les fonctionnalités en clusters dans l'espace des fonctionnalités. L'avantage est que des fonctionnalités plus robustes peuvent être obtenues. Si la fonction de perte de triplet est utilisée seule, le modèle converge lentement, nous utilisons donc la perte d'entropie croisée et la perte de triplet pour l'apprentissage supervisé conjoint afin d'accélérer la convergence du modèle et d'améliorer la précision du modèle.
Phase de test : dans la phase de test, le backbone formé est sélectionné comme extracteur de fonctionnalités pour extraire les fonctionnalités d'intégration. Extrayez les caractéristiques de l'image de requête et calculez la similarité cosinus avec les caractéristiques de la bibliothèque de galerie pour obtenir une liste triée par similarité, puis sélectionnez la catégorie correspondant à l'image top1 dans la liste triée comme sortie de catégorie de l'image de requête. Mais lorsque nous avons construit la galerie, un SKU stockait trois images, correspondant à différentes scènes de prise de vue, nous avons donc effectué knn sur la sortie top5 et obtenu le SKU correspondant à l'image requête.
Opération en ligne : afin de garantir que le SKU généré par l'algorithme de correspondance doit être précis, nous affichons la similarité top1 dans la liste triée. Lorsque la similarité est inférieure à un certain seuil, un message d'alarme sera émis pour examen manuel. . Cette stratégie garantit l’exactitude des informations SKU produites par l’algorithme.
Pendant le processus de photographie du produit, en raison du mouvement du produit ou du manque de mise au point, le produit photographié sera flou. Afin d'offrir aux utilisateurs une meilleure expérience d'achat, nous retournerons ces produits pendant le processus d'examen et prendrons à nouveau des photos des produits qui répondent aux exigences avant de pouvoir les mettre en rayon. Le simple fait de se concentrer sur la clarté ou non de l’image peut être compris comme un problème de classification d’image. Étant donné que l'étiquetage indiquant si une image est floue est subjectif et que la classification binaire ne peut pas bien décrire le flou de l'image, dans le processus d'examen réel, les examinateurs de première ligne donnent souvent des résultats de jugement différents pour les images légèrement floues. De telles situations affectent grandement. la cohérence des résultats de l'examen, ce qui entraîne de bons ou de mauvais effets d'affichage des produits dans le centre commercial.
Afin de résoudre le problème ci-dessus, nous divisons le flou de l'image en trois niveaux. Le flou de haut en bas est évidemment flou, légèrement flou et clair. Et donnez les points correspondants, qui sont respectivement 2, 1 et 0 points. Plusieurs personnes évaluent la même image et suppriment les images à la fois clairement floues et claires. Les images restantes sont normalisées numériquement pour obtenir le score de flou de l'image. Bien sûr, nous pouvons subdiviser le degré de flou en quatre catégories, telles que flou évident, flou léger, flou subtil et clair, et laisser davantage d'annotateurs marquer la même image, afin que nous puissions obtenir des valeurs d'étiquette plus détaillées, qui peuvent également apporter de meilleurs résultats de prédiction. Cependant, compte tenu des ressources limitées, nous avons divisé l'ambiguïté en trois niveaux et avons demandé à trois étudiants de la noter. À partir de là, nous transformons le problème de classification binaire en un problème de régression, et pouvons isoler efficacement les normes métier. Le tableau ci-dessous montre comment nous transformons une tâche de classification en tâche de régression.
Nom de l'image : Score du camarade de classe 1 Score du camarade de classe 2 Score du camarade de classe 3 Score total (0-6) Score normalisé L'image 1 est évidemment floue, légèrement floue, évidemment floue 55/6 = 0,83 Image 2, légèrement floue, légèrement floue, évidemment flou 44/6 = 0,67 L'image 3 est claire, légèrement floue et claire 10,17.............
De même, nous utilisons toujours le réseau neuronal convolutif, puis modifions la perte de classification fonction en fonction de perte de régression, nous avons choisi MSE comme fonction de perte pour la tâche de régression, qui représente la valeur prédite de l'échantillon et représente l'étiquette de l'échantillon.
La valeur de sortie du modèle représente le niveau de flou de l'image. Lorsque nous transformons la tâche de classification binaire en tâche de régression, cela peut apporter de nombreux avantages. Le premier est le découplage du développement d'algorithmes et de l'entreprise, afin que le modèle d'algorithme ne devienne pas invalide en raison de changements dans les normes commerciales. Dans le même temps, l'entreprise peut définir différents seuils de flou en fonction des besoins de l'entreprise pour contrôler la clarté des informations ; image du centre commercial.
Nous utilisons une solution de détection pour déterminer si le produit a une étiquette anti-falsification, s'il est sale, et si c'est dans la zone centrale. Parmi ces trois éléments, la détection des étiquettes et éléments anti-effraction est relativement simple. Dans la détection des étiquettes anti-effraction, les caractéristiques des étiquettes anti-effraction sont uniques, il est donc relativement facile de former un modèle avec une précision de détection élevée, que le produit soit centré lors de la détection, que les articles soient volumineux et que les données soient enregistrées ; est facile à collecter, il est également possible de former un produit avec un modèle de détection de très grande précision.
La détection de la saleté est plus difficile car certaines cibles de saleté sont petites et les échantillons ne sont pas faciles à obtenir. Pour résoudre ce problème, nous choisissons une stratégie d'apprentissage actif pendant le processus de collecte de données pour trouver davantage d'échantillons positifs (les échantillons positifs dans la tâche de détection font référence à la classe d'échantillons que nous devons détecter). La méthode est également très simple. Nous utilisons un lot de données pour entraîner le modèle de détection à un stade précoce, puis utilisons le modèle pour sélectionner des échantillons positifs suspects à partir d'un grand lot de données non étiquetées avec une très faible confiance, puis laissons le lot. des données soient étiquetées manuellement. Ensuite, le modèle de formation est mis à jour avec de nouvelles données, ce qui constitue un cycle. Nous pouvons répéter cette étape plusieurs fois et finalement obtenir un modèle de détection comparable à la détection manuelle.
Pour les tâches courantes de classification, de détection et autres en vision par ordinateur, nous ne pouvons pas garantir que le rappel et la précision du modèle atteignent 100 % des indicateurs en même temps. doit être combiné avec l'activité réelle, réfléchissez à l'opportunité de sélectionner un modèle avec une haute précision ou un rappel élevé. La figure ci-dessous montre le graphique de courbe de la relation entre le taux de rappel et la précision (l'image vient du livre du professeur Zhou Zhihua)
Graphique de courbe PR
Pour notre activité d'audit, nous adoptons une stratégie de rappel élevé, c'est-à-dire que pour garantir que le modèle puisse trouver autant d'images de produits que possible qui ne répondent pas aux exigences, le prix est que la précision sera réduite en conséquence. Après avoir rappelé des produits présentant des problèmes photographiques, nous interviendrons manuellement et les examinerons, de sorte que les exemples rappelés par erreur n'auront pas d'impact sur notre activité.
Grâce à l'aide de l'algorithme, la charge de travail des étudiants qui révisent actuellement les éléments a été réduite de 50 %. Parmi les images de produits traitées par l'algorithme, 50 % des produits passent l'algorithme et peuvent être directement mis sur l'application du centre commercial. Les produits restants suspectés de poser problème seront identifiés par l'algorithme puis examinés manuellement.
Dans la première section, nous avons présenté le contexte de l'évaluation des produits, les raisons pour lesquelles nous devons réviser et le contenu de l'évaluation. Nous avons également analysé certains problèmes rencontrés par l'évaluation manuelle dans l'activité actuelle, puis avons donné les détails. avantages commerciaux basés sur les algorithmes.
Dans la section 2, nous présentons le module d'algorithme en détail. En fonction des éléments à examiner, nous avons adopté trois méthodes pour résoudre trois tâches différentes. Il présente également la solution du taux de rappel élevé et du sacrifice de la précision de prédiction pour la mise en œuvre de l'algorithme, ainsi que la faisabilité de cette solution. Enfin, les résultats obtenus par l'algorithme sont donnés.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!