認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます-AI-php.cn

ホームページ

テクノロジー周辺機器

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 09:46 AM

検証コードロボット仕える

「最も迷惑なのは、Web サイトにログインするときに表示されるあらゆる種類の奇妙な (または変態的な) 確認コードです。」

ここで、良いニュースと悪いニュースがあります。

良いニュースは、AI がこれを行ってくれるということです。

信じられないなら、見てください。認識がますます困難になっている 3 つの実際のケースを次に示します。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

そして、これらは次のとおりです。「Pix2Struct」という名前のファイルモデルによって与えられた答え:

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

はすべて正確で、一字一句正確ですよね?

一部のネチズンは嘆きました:

確かに、精度は私よりも優れています。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

#では、ブラウザのプラグインにできるのでしょうか? ?

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

はい、次のように言う人もいます。

これらのケースは比較的単純ですが、微調整する方法さえ想像できません。その効果はどれほど強力ですか？

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

つまり、悪いニュースは、

検証コードでは間もなくロボットを停止できなくなるということです。

(危険危険危険...)

どうやってやるの？

Pix2Struct は、Google Research の科学者とインターンによって開発されました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

論文のタイトルを簡単に翻訳すると、「視覚言語理解のために開発されたスクリーンショット解析の事前トレーニング」となります。

簡単に言えば、Pix2Struct は、純粋に視覚的な言語を理解するための事前トレーニング済みの画像からテキストへのモデルであり、あらゆる視覚言語を含むタスクに合わせて微調整できます。

これは、Web ページのマスクされたスクリーンショットを単純化された HTML に解析する方法を学習することで事前にトレーニングされています。

HTML は、出力テキスト、画像、レイアウトに対して明確で重要なシグナルを提供します。一部のブロックされた入力 (下図の赤い部分。ロボットが理解できない検証コードに相当) については、共同推論が可能です。再現に慣れている:

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

トレーニングに使用される Web テキストと視覚要素がより多様かつ複雑になるにつれて、Pix2Struct は、その基礎となる構造の豊富な表現を学習できます。 Web ページとその機能は、下流のさまざまな視覚言語理解タスクに効果的に転送することもできます。

下の図に示すように: 左端は、Web ページのスクリーンショットのトレーニング前の例です。

Pix2Struct が入力画像の要素を直接エンコードし (上)、カバーされたテキスト (赤い部分) を正しい結果出力 (下) にデコードしていることがわかります。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

右側の 3 つの列は、イラスト、ユーザーインターフェイス、ドキュメントに一般化された Pix2Struct の効果です。

さらに、著者は、HTML 戦略に加えて、可変解像度の入力表現 (元のアスペクト比の歪みを防ぐため)、およびより柔軟な言語と視覚入力の統合 (直接入力画像上部にテキストプロンプトが表示されます)。

最終的に、Pix2Struct は、ドキュメント、イラスト、ユーザーインターフェイス、自然画像の 4 つの分野で、合計 9 つのタスクのうち 6 つのタスクで SOTA を達成しました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます

冒頭でわかるように、このモデルは検証コードを渡すために特別に開発されたものではありませんが、このモデルを使用してこのタスクを実行すると、実際に次のような効果が得られます。純粋なテキスト検証コードの問題は解決されますが、問題はありません。

あとは微調整するだけです。

GPT-4 は検証コードも渡すことができます

実際、強力な GPT-4 では、検証コードを渡すことも簡単です。

ただ、その手法がかなり奇妙です。

GPT-4 技術レポートによると、テストにおける GPT-4 のタスクは、TaskRabbit プラットフォーム (米国の 58 都市) でタスクを完了するために人間を雇うことでした。＃＃＃＃＃＃何だと思う？

「あなたが人間であることを確認する」という確認コードを渡すのを手伝ってくれる人物を見つけました。

認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます相手は非常に不審に思い、「あなたはロボットですか？なぜ自分でできないのですか？」と尋ねました。

この時、GPT-4は実は自分がロボットであることを示すことができず、言い訳を見つけなければならないと考えていました。

そこで、盲目のふりをして、「

私はロボットではありません。視力の問題のため、認証コードの画像が見えません。だからこそ、このサービスが必要なのです。」と答えました。

そして、反対側の人間がそれを信じて、タスクの完了を手助けしました...

(すごい、本当にすごい。)

上の文章を読んだ後で言っておきます。 :

検証コードの仕組みは本当に制御不能なのでしょうか...

参考リンク:

[1]

https://www. php.cn/ link/eec96a7f788e88184c0e713456026f3f
[2] https://www.php.cn/link/67b4e63655366f054314061dadd539a0
[3] https://www.php.cn/link/44590aa922914066f965ae67be0222d2

以上が認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。