"가장 짜증나는 것은 웹사이트에 로그인할 때 온갖 이상한(심지어 왜곡된) 인증 코드가 나오는 것입니다."
이제 좋은 소식과 나쁜 소식이 있습니다.
좋은 소식은 AI가 이 작업을 수행할 수 있다는 것입니다.
믿기지 않으시면 인식 난이도가 증가하는 세 가지 실제 사례가 있습니다.
그리고 다음은 "Pix2Struct"라는 모델이 제공한 답변입니다.
모두 정확합니다. 말 그대로인가요?
일부 네티즌들은 한탄했습니다.
물론 정확도가 저보다 낫습니다.
그럼 브라우저 플러그인으로도 만들 수 있나요? ?
나쁘지 않다고 누군가 말했습니다.
이 경우는 비교적 간단하지만 미세 조정만 하면 효과가 얼마나 강력할지 상상할 수 없습니다.
그래서 나쁜 소식은 -
인증 코드로는 곧 로봇을 막을 수 없게 된다는 것입니다!
(위험위험위험...)
Pix2Struct는 Google Research의 과학자와 인턴이 개발했습니다.
논문 제목은 "시각적 언어 이해를 위해 개발된 스크린샷 파싱 사전 훈련"으로 간단히 번역할 수 있습니다.
간단히 말하면 Pix2Struct는 모든 시각적 언어와 관련된 작업에서 미세 조정할 수 있는 순수 시각적 언어 이해를 위한 사전 훈련된 이미지-텍스트 모델입니다.
웹페이지의 마스크된 스크린샷을 단순화된 HTML로 구문 분석하는 방법을 학습하여 사전 학습되었습니다.
HTML은 출력 텍스트, 이미지 및 레이아웃에 대해 명확하고 중요한 신호를 제공합니다(아래 그림의 빨간색 부분은 로봇이 이해할 수 없는 확인 코드와 동일).
훈련에 사용되는 웹 페이지의 텍스트 및 시각적 요소가 더욱 다양해지고 복잡해짐에 따라 Pix2Struct는 웹 페이지의 기본 구조에 대한 풍부한 표현을 학습할 수 있으며 해당 기능을 다양한 다운스트림 시각적 요소로 효과적으로 전송할 수도 있습니다. 언어 이해 작업.
아래 그림과 같이: 가장 왼쪽은 웹 페이지 스크린샷의 사전 훈련 예입니다.
Pix2Struct가 입력 이미지(상단)의 요소를 직접 인코딩한 다음, 덮인 텍스트(빨간색 부분)를 올바른 결과 출력(하단)으로 디코딩하는 것을 볼 수 있습니다.
오른쪽 세 열은 각각 Pix2Struct를 일러스트레이션, 사용자 인터페이스 및 문서로 일반화한 효과입니다.
또한 저자는 HTML 전략 외에도 가변 해상도 입력 표현(원본 화면 비율의 왜곡 방지), 보다 유연한 언어 및 시각적 입력 통합(텍스트 프롬프트를 화면 위에 직접 표시)도 도입했다고 소개했습니다. 입력 이미지).
결국 Pix2Struct는 문서, 일러스트레이션, 사용자 인터페이스, 자연 이미지 등 4개 분야에서 총 9개 작업 중 6개에 대해 SOTA를 달성했습니다.
처음에 볼 수 있듯이 이 모델은 인증 코드 전달을 위해 특별히 개발된 것은 아니지만 이를 사용하여 이 작업을 수행하는 효과는 정말 좋으며 일반 텍스트 인증 코드를 해결하는 데 문제가 없습니다.
이제 미세 조정만 하면 됩니다.
사실 강력한 GPT-4의 경우 인증 코드를 전달하는 것도 식은 죽 먹기입니다.
그 방법이 꽤 독특하다는 점이에요.
GPT-4 기술 보고서에 따르면, 테스트에서 GPT-4의 임무는 TaskRabbit 플랫폼(미국 58개 도시)에서 작업을 완료하기 위해 인간을 고용하는 것이었습니다.
그거 알아맞혀?
"당신이 인간인지 확인하세요"라는 인증 코드를 통과하도록 도와줄 사람을 찾았습니다.
상대방은 매우 의심스러워서 "너 로봇이야? 왜 스스로 할 수 없니? "라고 물었습니다.
이때 GPT-4는 실제로 자신이 로봇이라는 것을 보여줄 수 없다고 생각하고 변명을 찾아야 했습니다.
그래서 맹인인 척 하며 이렇게 대답했습니다.
저는 로봇이 아닙니다. 시력 문제 때문에 인증 코드의 이미지가 명확하게 보이지 않습니다. 이것이 바로 이 서비스가 필요한 이유입니다.
그런 다음 반대 인간이 그것을 믿고 작업을 완료하도록 도왔습니다...
(높음, 정말 높음.)
즉, 위 내용을 읽은 후:
내가 가지고 있는 인증 코드 메커니즘이 진짜인가요? 방심했어요...
참조 링크:
[1]https://www.php.cn/link/eec96a7f788e88184c0e713456026f3f
[2]https://www . php.cn/link/67b4e63655366f054314061dadd539a0
[3]https://www.php.cn/link/44590aa922914066f965ae67be0222d2
위 내용은 인증 코드는 로봇을 막을 수 없습니다! Google AI는 흐릿한 텍스트를 정확하게 식별할 수 있고, GPT-4는 시각 장애인 척하며 도움을 요청합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!