>  Q&A  >  본문

网页爬虫 - Python 爬虫中如何处理验证码?

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯怪我咯2741일 전490

모든 응답(8)나는 대답할 것이다

  • 迷茫

    迷茫2017-04-18 10:35:47

    이것 자체는 크롤러 등의 네트워크 프로그램을 방지하기 위해 인증코드 기술을 사용합니다. 인증코드 크래킹에 대해 제가 아는 것은 인공지능 이미지 인식을 사용하는 것 같지만 정확도는 그다지 높지 않습니다.

    회신하다
    0
  • 黄舟

    黄舟2017-04-18 10:35:47

    인증 코드 문제의 경우 먼저 Youyoutu와 같은 전문 서비스 제공업체(기계 학습 또는 인공 지능 사용)에서 제공하는 API를 사용할 수 있습니다. 두 번째로 자체 인증 코드 인식 프로그램을 작성하고 프로젝트를 제공할 수 있습니다. 참고: https://github .com/luyishisi/…

    회신하다
    0
  • 迷茫

    迷茫2017-04-18 10:35:47

    한 가지 해결 방법은 브라우저에 수동으로 로그인한 다음 쿠키를 추출하고 이를 크롤러 요청에 직접 포함시켜 보내는 것입니다.

    회신하다
    0
  • PHPz

    PHPz2017-04-18 10:35:47

    첫 번째 사진은 처리가 쉽고 인증 코드는 사진일 뿐이며 사진 처리(OCR 기술)를 통해 인증 코드를 얻을 수 있습니다.
    첫 번째 방법을 사용하면 더 번거롭습니다. 두 번째 방법은 좋은 방법이 없네요. 이 분야에 경험이 있는 분들이 답변해 주시면 좋겠습니다.

    회신하다
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:35:47

    인증 코드는 기계와 크롤러에 대응하는 데 사용됩니다. 자동화된 크롤러가 인증 코드를 쉽게 우회할 수 있는 경우에도 인증 코드라고 부를 수 있습니까? 먼저 인증 코드의 메커니즘이 무엇인지 파악해야 합니다. , 그런 다음 살펴보십시오. 당신이 상상했던 것처럼 우회하기가 쉬운가요? 간단히 말해서, 다른 웹 사이트의 인증 코드 구현에 허점이 없으면 인증 코드 메커니즘을 우회할 수 없습니다. 이를 해결하기 위해 OCR(Optical Character Recognition)과 같은 코드 기술이 사용됩니다. OCR은 종이에 인쇄된 문자를 확인하여 어둡거나 밝은 패턴을 감지하는 전자 장치(예: 스캐너)를 말합니다. 그런 다음 문자 인식 방법을 사용하여 모양을 컴퓨터 텍스트로 변환합니다.

    인증 코드 인식을 위한 기본 단계:
    2. 그레이스케일
    3. 노이즈 제거
    6.
    간단히 말하면 인증코드 인식 문턱이 높고 비용도 많이 들기 때문에 어쩔 수 없습니다.
    예를 들어 아래 사진에서는 인증코드가 엇갈리고 겹쳐서 식별이 어렵습니다. 🎜>


    회신하다
    0
  • ringa_lee

    ringa_lee2017-04-18 10:35:47

    제가 사용하고 있는 9eu와 같은 인증코드 서비스를 이용하시면 됩니다.

    회신하다
    0
  • 怪我咯

    怪我咯2017-04-18 10:35:47

    가장 쉬운 방법은 쿠키를 꺼내서 코드에 적는 것인데, 쿠키는 시간에 민감합니다

    회신하다
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:35:47

    복잡한 인증코드를 처리하려면 코딩 플랫폼에 연결하여 수동으로 처리하는 것이 더 효율적이고 시간을 절약하는 방법이어야 합니다.

    회신하다
    0
  • 취소회신하다