最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:
另外一种就是出来一些特定字符,需要按顺序点击的:
我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……
迷茫2017-04-18 10:35:47
이것 자체는 크롤러 등의 네트워크 프로그램을 방지하기 위해 인증코드 기술을 사용합니다. 인증코드 크래킹에 대해 제가 아는 것은 인공지능 이미지 인식을 사용하는 것 같지만 정확도는 그다지 높지 않습니다.
黄舟2017-04-18 10:35:47
인증 코드 문제의 경우 먼저 Youyoutu와 같은 전문 서비스 제공업체(기계 학습 또는 인공 지능 사용)에서 제공하는 API를 사용할 수 있습니다. 두 번째로 자체 인증 코드 인식 프로그램을 작성하고 프로젝트를 제공할 수 있습니다. 참고: https://github .com/luyishisi/…
PHPz2017-04-18 10:35:47
첫 번째 사진은 처리가 쉽고 인증 코드는 사진일 뿐이며 사진 처리(OCR 기술)를 통해 인증 코드를 얻을 수 있습니다.
첫 번째 방법을 사용하면 더 번거롭습니다. 두 번째 방법은 좋은 방법이 없네요. 이 분야에 경험이 있는 분들이 답변해 주시면 좋겠습니다.
天蓬老师2017-04-18 10:35:47
인증 코드는 기계와 크롤러에 대응하는 데 사용됩니다. 자동화된 크롤러가 인증 코드를 쉽게 우회할 수 있는 경우에도 인증 코드라고 부를 수 있습니까? 먼저 인증 코드의 메커니즘이 무엇인지 파악해야 합니다. , 그런 다음 살펴보십시오. 당신이 상상했던 것처럼 우회하기가 쉬운가요? 간단히 말해서, 다른 웹 사이트의 인증 코드 구현에 허점이 없으면 인증 코드 메커니즘을 우회할 수 없습니다. 이를 해결하기 위해 OCR(Optical Character Recognition)과 같은 코드 기술이 사용됩니다. OCR은 종이에 인쇄된 문자를 확인하여 어둡거나 밝은 패턴을 감지하는 전자 장치(예: 스캐너)를 말합니다. 그런 다음 문자 인식 방법을 사용하여 모양을 컴퓨터 텍스트로 변환합니다.
인증 코드 인식을 위한 기본 단계:
2. 그레이스케일
3. 노이즈 제거
6.
간단히 말하면 인증코드 인식 문턱이 높고 비용도 많이 들기 때문에 어쩔 수 없습니다.
예를 들어 아래 사진에서는 인증코드가 엇갈리고 겹쳐서 식별이 어렵습니다. 🎜>