Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - Python 爬虫中如何处理验证码?

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯怪我咯2741 Il y a quelques jours489

répondre à tous(8)je répondrai

  • 迷茫

    迷茫2017-04-18 10:35:47

    Celui-ci utilise la technologie des codes de vérification pour empêcher les programmes réseau tels que les robots d'exploration. Ce que je sais sur le piratage des codes de vérification, c'est l'utilisation de la reconnaissance d'images par intelligence artificielle. Il semble qu'il existe des fonctions similaires, mais la précision n'est pas très élevée.

    répondre
    0
  • 黄舟

    黄舟2017-04-18 10:35:47

    Pour les problèmes de code de vérification, d'une part, vous pouvez vous tourner vers l'API fournie par des prestataires de services professionnels (ils utilisent l'apprentissage automatique ou l'intelligence artificielle), tels que Youyoutu, et d'autre part, vous pouvez écrire votre propre programme de reconnaissance de code de vérification et proposer un projet ; pour référence : https://github .com/luyishisi/…

    répondre
    0
  • 迷茫

    迷茫2017-04-18 10:35:47

    Une solution consiste à vous connecter manuellement au navigateur, puis à extraire les cookies, à les inclure directement dans la requête du robot et à les envoyer.

    répondre
    0
  • PHPz

    PHPz2017-04-18 10:35:47

    La première image est facile à traiter, le code de vérification n'est qu'une image, et le code de vérification peut être obtenu par traitement d'image (technologie ocr)
    L'image deux est plus gênante si vous utilisez la première méthode, c'est plus compliqué. les chiffres seront superposés sur le texte. , il est plus difficile d'obtenir le contenu de l'image. Je n'ai pas de bonne méthode pour la deuxième méthode. J'espère que les étudiants ayant de l'expérience dans ce domaine pourront aider à y répondre.

    répondre
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:35:47

    Le code de vérification est utilisé pour contrecarrer les machines et les robots d'exploration. Si le code de vérification peut être facilement contourné par votre robot d'exploration automatisé, peut-il toujours être appelé code de vérification ? L'affiche doit d'abord comprendre quel est le mécanisme du code de vérification ? , puis jetez un œil. Est-ce aussi facile à contourner que vous l'imaginiez ? En bref, à moins qu'il n'y ait des failles dans la mise en œuvre du code de vérification d'autres sites Web, vous ne pouvez pas contourner le mécanisme du code de vérification. La technologie OCR (Optical Character Recognition) est utilisée pour résoudre ce problème. L'OCR fait référence à un appareil électronique (tel qu'un scanner) qui vérifie les caractères imprimés sur le papier. Il détermine sa forme en détectant les motifs sombres/clairs. utilise ensuite des méthodes de reconnaissance de caractères pour traduire la forme en texte informatique.

    Étapes de base pour la reconnaissance du code de vérification :
    1. Prétraitement
    2. Binarisation
    4.
    En bref, le seuil de reconnaissance du code de vérification est élevé et le coût est élevé, c'est donc inévitable
    Par exemple, dans l'image ci-dessous, le code de vérification est décalé et se chevauche, ce qui le rend difficile à identifier <. 🎜>


    répondre
    0
  • ringa_lee

    ringa_lee2017-04-18 10:35:47

    Vous pouvez utiliser un service de code de vérification comme le 9eu que j'utilise.

    répondre
    0
  • 怪我咯

    怪我咯2017-04-18 10:35:47

    Le moyen le plus simple est de retirer le cookie et de l'écrire dans le code, mais le cookie est sensible au temps

    répondre
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:35:47

    Pour gérer des codes de vérification complexes, la méthode la plus efficace et la plus rapide devrait être de se connecter à la plateforme de codage et de laisser leur traitement manuel.

    répondre
    0
  • Annulerrépondre