ホームページ >テクノロジー周辺機器 >AI >認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

WBOY
WBOY転載
2023-04-12 09:46:021476ブラウズ

「最も迷惑なのは、Web サイトにログインするときに表示されるあらゆる種類の奇妙な (または変態的な) 確認コードです。」

ここで、良いニュースと悪いニュースがあります。

良いニュースは、AI がこれを行ってくれるということです。

信じられないなら、見てください。認識がますます困難になっている 3 つの実際のケースを次に示します。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

そして、これらは次のとおりです。 「Pix2Struct」という名前のファイル モデルによって与えられた答え:

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

はすべて正確で、一字一句正確ですよね?

一部のネチズンは嘆きました:

確かに、精度は私よりも優れています。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

#では、ブラウザのプラグインにできるのでしょうか? ?

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

はい、次のように言う人もいます。

これらのケースは比較的単純ですが、微調整する方法さえ想像できません。その効果はどれほど強力ですか?

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

つまり、悪いニュースは、

検証コードでは間もなくロボットを停止できなくなるということです。

(危険危険危険...)

どうやってやるの?

Pix2Struct は、Google Research の科学者とインターンによって開発されました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

論文のタイトルを簡単に翻訳すると、「視覚言語理解のために開発されたスクリーンショット解析の事前トレーニング」となります。

簡単に言えば、Pix2Struct は、純粋に視覚的な言語を理解するための事前トレーニング済みの画像からテキストへのモデルであり、あらゆる視覚言語を含むタスクに合わせて微調整できます。

これは、Web ページのマスクされたスクリーンショットを単純化された HTML に解析する方法を学習することで事前にトレーニングされています。

HTML は、出力テキスト、画像、レイアウトに対して明確で重要なシグナルを提供します。一部のブロックされた入力 (下図の赤い部分。ロボットが理解できない検証コードに相当) については、共同推論が可能です。再現に慣れている:

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

トレーニングに使用される Web テキストと視覚要素がより多様かつ複雑になるにつれて、Pix2Struct は、その基礎となる構造の豊富な表現を学習できます。 Web ページとその機能は、下流のさまざまな視覚言語理解タスクに効果的に転送することもできます。

下の図に示すように: 左端は、Web ページのスクリーンショットのトレーニング前の例です。

Pix2Struct が入力画像の要素を直接エンコードし (上)、カバーされたテキスト (赤い部分) を正しい結果出力 (下) にデコードしていることがわかります。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

右側の 3 つの列は、イラスト、ユーザー インターフェイス、ドキュメントに一般化された Pix2Struct の効果です。

さらに、著者は、HTML 戦略に加えて、可変解像度の入力表現 (元のアスペクト比の歪みを防ぐため)、およびより柔軟な言語と視覚入力の統合 (直接入力画像 上部にテキスト プロンプトが表示されます)。

最終的に、Pix2Struct は、ドキュメント、イラスト、ユーザー インターフェイス、自然画像の 4 つの分野で、合計 9 つのタスクのうち 6 つのタスクで SOTA を達成しました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

冒頭でわかるように、このモデルは検証コードを渡すために特別に開発されたものではありませんが、このモデルを使用してこのタスクを実行すると、実際に次のような効果が得られます。純粋なテキスト検証コードの問題は解決されますが、問題はありません。

あとは微調整するだけです。

GPT-4 は検証コードも渡すことができます

実際、強力な GPT-4 では、検証コードを渡すことも簡単です。

ただ、その手法がかなり奇妙です。

GPT-4 技術レポートによると、テストにおける GPT-4 のタスクは、TaskRabbit プラットフォーム (米国の 58 都市) でタスクを完了するために人間を雇うことでした。 ######何だと思う?

「あなたが人間であることを確認する」という確認コードを渡すのを手伝ってくれる人物を見つけました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます相手は非常に不審に思い、「あなたはロボットですか?なぜ自分でできないのですか?」と尋ねました。

この時、GPT-4は実は自分がロボットであることを示すことができず、言い訳を見つけなければならないと考えていました。

そこで、盲目のふりをして、「

私はロボットではありません。視力の問題のため、認証コードの画像が見えません。だからこそ、このサービスが必要なのです。」と答えました。

そして、反対側の人間がそれを信じて、タスクの完了を手助けしました...

(すごい、本当にすごい。)

上の文章を読んだ後で言っておきます。 :

検証コードの仕組みは本当に制御不能なのでしょうか...

参考リンク:

[1]

https://www. php.cn/ link/eec96a7f788e88184c0e713456026f3f
[2] https://www.php.cn/link/67b4e63655366f054314061dadd539a0
[3] https://www.php.cn/link/44590aa922914066f965ae67be0222d2

以上が認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。