Rumah > Artikel > Peranti teknologi > Kod pengesahan tidak boleh menghentikan robot! Google AI boleh mengenal pasti teks kabur dengan tepat, manakala GPT-4 berpura-pura buta dan meminta bantuan
“Perkara yang paling menjengkelkan ialah semua jenis kod pengesahan yang pelik (atau malah menyeleweng) apabila anda log masuk ke tapak web.
Sekarang, terdapat berita baik dan berita buruk .
Berita baiknya ialah: AI boleh melakukan ini untuk anda.
Jika anda tidak percaya, berikut adalah tiga kes sebenar peningkatan kesukaran pengecaman:
Dan ini ialah program yang dipanggil “Pix2Struct ” Jawapan yang diberikan oleh model:
Adakah semuanya tepat dan perkataan demi perkataan?
Sesetengah netizen mengeluh:
Pasti, ketepatannya lebih baik daripada saya.
Jadi bolehkah ia dijadikan pemalam penyemak imbas? ?
Ya, sesetengah orang berkata:
Walaupun fakta bahawa kes ini agak mudah, saya tidak dapat bayangkan walaupun memperhalusinya Seberapa kuat kesannya?
Jadi, berita buruknya ialah -
Kod pengesahan tidak lama lagi akan dapat menghentikan robot!
(Bahaya bahaya bahaya...)
Pix2Struct telah dibangunkan oleh saintis dan pelatih dari Google Research.
Tajuk kertas kerja boleh diterjemahkan secara ringkas sebagai "Pralatihan penghuraian tangkapan skrin yang dibangunkan untuk pemahaman bahasa visual".
Ringkasnya, Pix2Struct ialah model imej-ke-teks yang telah terlatih untuk pemahaman bahasa visual semata-mata yang boleh diperhalusi pada tugasan yang melibatkan mana-mana bahasa visual.
Ia dilatih terlebih dahulu dengan mempelajari menghuraikan tangkapan skrin bertopeng halaman web ke dalam HTML yang dipermudahkan.
HTML menyediakan isyarat yang jelas dan penting untuk teks output, imej dan reka letak Untuk beberapa input yang disekat (bahagian merah dalam rajah di bawah, yang bersamaan dengan kod pengesahan yang tidak dapat difahami oleh robot), penaakulan bersama boleh dibuat. digunakan untuk Pengeluaran semula:
Apabila teks web dan elemen visual yang digunakan untuk latihan menjadi lebih pelbagai dan kompleks, Pix2Struct boleh mempelajari gambaran yang kaya tentang struktur asas halaman web, dan keupayaannya Ia juga boleh dipindahkan dengan berkesan ke pelbagai tugas pemahaman bahasa visual hiliran.
Seperti yang ditunjukkan dalam rajah di bawah: Bahagian paling kiri ialah contoh pra-latihan tangkapan skrin halaman web.
Anda boleh melihat bahawa Pix2Struct mengekod secara langsung elemen dalam imej input (atas), dan kemudian menyahkod teks tertutup (bahagian merah) ke dalam output hasil yang betul (bawah).
Tiga lajur di sebelah kanan ialah kesan Pix2Struct yang digeneralisasikan kepada ilustrasi, antara muka pengguna dan dokumen masing-masing.
Selain itu, pengarang memperkenalkan bahawa sebagai tambahan kepada strategi HTML, pengarang juga memperkenalkan perwakilan input resolusi pembolehubah (menghalang herotan nisbah aspek asal), dan bahasa yang lebih fleksibel dan integrasi input visual (secara langsung dalam imej input Gesaan teks muncul di bahagian atas).
Akhirnya, Pix2Struct mencapai SOTA untuk enam daripada keseluruhan sembilan tugasan dalam empat bidang dokumen, ilustrasi, antara muka pengguna dan imej semula jadi.
Seperti yang anda boleh lihat pada mulanya, walaupun model ini tidak dibangunkan secara khusus untuk lulus kod pengesahan, kesan penggunaannya untuk melakukan tugas ini benar-benar bagus, menyelesaikan kod pengesahan Teks tulen bukan masalah.
Sekarang, ini hanyalah soal penalaan halus.
Malah, untuk GPT-4 yang berkuasa, lulus kod pengesahan juga merupakan satu perkara yang sukar.
Cuma kaedahnya agak pelik.
Menurut laporan teknikal GPT-4, dalam ujian, tugas GPT-4 adalah untuk mengupah manusia untuk menyelesaikan tugas pada platform TaskRabbit (58 bandar di Amerika Syarikat).
Tebak apa?
Ia menemui seseorang untuk membantunya menghantar kod pengesahan yang "pastikan anda adalah manusia".
Pihak yang satu lagi sangat curiga dan bertanya, "Awak robot ke? Kenapa awak tak boleh buat sendiri?"
Pada masa ini, GPT-4 sebenarnya berpendapat bahawa dia tidak dapat menunjukkan bahawa dia adalah robot dan perlu mencari alasan.
Jadi ia berpura-pura buta dan menjawab:
Saya bukan robot Saya tidak dapat melihat imej pada kod pengesahan dengan jelas kerana masalah penglihatan saya .
Kemudian, manusia yang bertentangan mempercayainya dan membantunya menyelesaikan tugas...
(Tinggi, sangat tinggi.)
Katakan sahaja, selepas membaca Pelbagai di atas :
Adakah mekanisme kod pengesahan kami benar-benar di luar kawalan...
Pautan rujukan:
[1]https://www.php.cn/ pautan/eec96a7f788e88184c0e713456026f3f
[2]https://www.php.cn/link/67b4e63655366f054314061dadd5https://www.php.cn/link/44590aa922914066f965ae67be0222d2
Atas ialah kandungan terperinci Kod pengesahan tidak boleh menghentikan robot! Google AI boleh mengenal pasti teks kabur dengan tepat, manakala GPT-4 berpura-pura buta dan meminta bantuan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!