Rumah  >  Soal Jawab  >  teks badan

网页爬虫 - Python 爬虫中如何处理验证码?

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯怪我咯2741 hari yang lalu492

membalas semua(8)saya akan balas

  • 迷茫

    迷茫2017-04-18 10:35:47

    Ini sendiri menggunakan teknologi kod pengesahan untuk menghalang program rangkaian seperti perangkak Apa yang saya tahu tentang memecahkan kod pengesahan ialah menggunakan pengecaman imej kecerdasan buatan Nampaknya terdapat fungsi yang serupa, tetapi ketepatannya tidak begitu tinggi

    balas
    0
  • 黄舟

    黄舟2017-04-18 10:35:47

    Untuk isu kod pengesahan, pertama, anda boleh beralih kepada API yang disediakan oleh penyedia perkhidmatan profesional (mereka menggunakan pembelajaran mesin atau kecerdasan buatan), seperti Youyoutu, kedua, anda boleh menulis program pengecaman kod pengesahan anda sendiri dan menyediakan projek untuk rujukan: https://github .com/luyishisi/…

    balas
    0
  • 迷茫

    迷茫2017-04-18 10:35:47

    Satu penyelesaian adalah dengan log masuk secara manual ke penyemak imbas dan kemudian mengekstrak kuki dan terus memasukkannya ke dalam permintaan dalam perangkak dan menghantarnya keluar.

    balas
    0
  • PHPz

    PHPz2017-04-18 10:35:47

    Gambar satu mudah diproses, kod pengesahan hanyalah gambar, dan kod pengesahan boleh diperolehi melalui pemprosesan gambar (teknologi ocr
    Gambar dua lebih menyusahkan nombor akan ditindih pada teks, lebih sukar untuk mendapatkan kandungan imej. Saya tidak mempunyai kaedah yang baik untuk kaedah kedua. Saya harap pelajar yang berpengalaman dalam bidang ini dapat membantu menjawabnya

    balas
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:35:47

    Kod pengesahan digunakan untuk mengatasi mesin dan perangkak Jika kod pengesahan boleh dipintas dengan mudah oleh perangkak automatik anda, adakah ia masih boleh dipanggil kod pengesahan dahulu? , dan kemudian lihat. Adakah ia semudah memintas seperti yang anda bayangkan, melainkan terdapat kelemahan dalam pelaksanaan kod pengesahan tapak web lain, anda tidak boleh memintas mekanisme kod pengesahan kod, seperti teknologi OCR (Optical Character Recognition) ) digunakan untuk menyelesaikan masalah ini OCR merujuk kepada peranti elektronik (seperti pengimbas) yang menyemak aksara yang dicetak pada kertas Ia menentukan bentuknya dengan mengesan corak gelap/cahaya kemudian menggunakan kaedah pengecaman aksara untuk menterjemah bentuk ke dalam teks komputer.

    Langkah asas untuk pengecaman kod pengesahan:
    1 Prapemprosesan
    2. Perduaan
    5
    Ringkasnya, ambang pengecaman kod pengesahan adalah tinggi dan kosnya tinggi, jadi ia tidak dapat dielakkan
    Contohnya, dalam gambar di bawah, kod pengesahan berperingkat dan bertindih, menjadikannya sukar untuk dikenal pasti


    balas
    0
  • ringa_lee

    ringa_lee2017-04-18 10:35:47

    Anda boleh menggunakan perkhidmatan kod pengesahan seperti 9eu yang saya gunakan.

    balas
    0
  • 怪我咯

    怪我咯2017-04-18 10:35:47

    Cara paling mudah ialah mengeluarkan kuki dan menulisnya dalam kod, tetapi kuki itu sensitif masa

    balas
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:35:47

    Untuk menangani kod pengesahan yang kompleks, kaedah yang lebih cekap dan menjimatkan masa adalah dengan menyambung ke platform pengekodan dan membiarkan pemprosesan manualnya.

    balas
    0
  • Batalbalas