Siri をもう精神薄弱にさせません! Apple は、「GPT-4 よりもはるかに優れた新しいデバイス側モデルを定義しています。テキストを取り除き、画面情報を視覚的にシミュレートします。最小パラメータモデルは、ベースラインシステムよりも 5% 優れています。」

Siri をもう精神薄弱にさせません! Apple は、「GPT-4 よりもはるかに優れた新しいデバイス側モデルを定義しています。テキストを取り除き、画面情報を視覚的にシミュレートします。最小パラメータモデルは、ベースラインシステムよりも 5% 優れています。」

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 02, 2024 pm 09:20 PM

AIgpt-4API呼び出し配置

執筆者: Noah

制作 | 51CTO テクノロジースタック (WeChat ID: blog51cto)

Siri は常にユーザーから「少々精神的に不安定」であると批判されています。知恵遅れ「助けがあるよ！

Siri は誕生以来、インテリジェント音声アシスタントの分野を代表するものの 1 つですが、そのパフォーマンスは長い間満足のいくものではありませんでした。しかし、Appleの人工知能チームが発表した最新の研究結果は、現状を大きく変えると予想されている。これらの結果は刺激的であり、この分野の将来に大きな期待を抱かせます。

関連する研究論文の中で、Apple の AI 専門家は、Siri が画像内のコンテンツを識別するだけでなく、よりスマートで実用的になるシステムについて説明しています。この機能モデルは ReALM と呼ばれ、GPT 4.0 標準に基づいており、GPT 4.0 よりも優れたベンチマーク機能を備えています。これらの専門家は、自分たちが開発したモデルを使用して、開発した機能を実装することで、Siri をよりスマートに、より実用的に、さまざまなシナリオに適したものにすることができると考えています。

1. 動機: さまざまなエンティティの参照解決を解決する

Apple の研究チームによると、「会話アシスタントが、関連するコンテンツの指示を含むコンテキストを理解できるようにすることが非常に重要です。ユーザーが画面に表示されている内容に基づいて質問できるようにすることは、音声操作エクスペリエンスを確保するための重要なステップです。」

たとえば、人間とコンピューターの対話中に、ユーザーはよく次のように言及します。音声アシスタントに電話番号をダイヤルする、地図上の特定の場所に移動する、特定のアプリや Web ページを開くなどの指示など、画面上の要素またはコンテンツ。会話型アシスタントがユーザーの指示の背後にあるエンティティ参照を理解できない場合、それらのコマンドを正確に実行できません。

さらに、人間の会話ではファジー参照の現象がよく見られますが、人間とコンピュータの自然なインタラクションを実現し、ユーザーが音声アシスタントを使用して画面の内容について問い合わせるときにコンテキストを正確に理解するために、参照世代分析機能は非常に重要です。

Apple が論文の中で言及した ReALM (Reference Resolution As Language Modeling) と呼ばれるモデルの利点は、ユーザーの画面上のコンテンツと進行中のコンテンツの両方を考慮できることです。タスクは次のとおりです。大規模な言語モデルを使用して、さまざまなタイプのエンティティ (会話エンティティと非会話エンティティを含む) の参照解決の問題を解決します。

従来のテキストモダリティは画面に表示されるエンティティの処理には不便ですが、ReALM システムは参照解析を言語モデリングの問題に変換し、LLM を使用して画面に表示されるエンティティを処理することに成功しています。非会話的なエンティティを参照すると、この目標の達成が大幅に促進されます。これにより、高度にインテリジェントでより没入感のあるユーザーエクスペリエンスを実現することが期待されています。

2. 再構築: 従来のテキストモーダルの限界を突破する

従来のテキストモーダルは、画面上にエンティティが表示されるため、画面に表示されるエンティティを処理するには不便です。画面には通常、画像、アイコン、ボタン、それらの間の相対位置など、豊富な視覚情報とレイアウト構造が含まれています。この情報は、純粋なテキスト記述で完全に表現するのは困難です。

この課題に対処するために、ReALM システムは、画面上のエンティティとその位置情報を解析して画面を再構築することを創造的に提案し、画面を反映して視覚化できるプレーンテキスト表現を生成します。コンテンツ。

エンティティパーツは、言語モデルがエンティティが表示される場所とその周囲にどのようなテキストがあるかを理解できるように特別にマークされているため、画面上の情報を「見る」ことをシミュレートし、必要なコンテキストを提供できます。画面上の参照対象を理解および解析する際の情報。このアプローチは、大規模な言語モデルを使用して画面コンテンツからコンテキストをエンコードする初めての試みであり、従来のテキストモダリティでは処理が難しい画面エンティティの問題を克服します。

具体的には、ReALM システムは次の手順を使用して、大規模な言語モデルが画面に表示されたエンティティを「理解」し、処理できるようにします。

まず、上位層のデータ検出器を使用して、画面テキスト内のエンティティを抽出します。これらのエンティティには、タイプ、境界ボックス、およびエンティティの周囲の非エンティティテキスト要素のリストが含まれます。これは、画面上のすべての視覚的エンティティについて、システムがその基本情報とそれが存在するコンテキストをキャプチャすることを意味します。

そこで、ReALM は、エンティティと周囲のオブジェクトの境界ボックスの中心点を垂直 (上から下) と水平 (左から右) に分割するアルゴリズムを革新的に提案します。整然と、安定して配置されています。エンティティ間の距離が近い場合、エンティティは同じ行上にありタブで区切られているとみなされ、距離が設定されたマージンを超える場合は、次の行に配置されます。このように、上記の方法を継続的に適用することにより、エンティティ間の相対的な空間的位置関係を効果的に保持しながら、画面コンテンツを左から右、上から下に平文形式でエンコードすることができます。

このようにして、本来LLMでは直接処理することが難しかった画面の視覚情報を、言語モデルの入力に適したテキスト形式に変換し、LLMがシーケンスから完全に処理できるようにします。 - シーケンスタスク: 画面エンティティの正確な識別と参照解像度を実現するために、画面エンティティの特定の場所とコンテキストが考慮されます。

これにより、ReALM システムは、対話エンティティを参照する問題を解決する際に優れたパフォーマンスを発揮するだけでなく、非対話エンティティ、つまり、画面のパフォーマンスが向上しました。

3. 詳細: タスク定義とデータセット

簡単に言えば、ReALM システムが直面するタスクは、ユーザーが実行したいタスクに応じて、指定されたエンティティセット内で、現在のユーザークエリに関連するエンティティを検索します。

このタスクは、大規模な言語モデルの多肢選択式の質問として構成されており、ユーザーの画面に表示されているエンティティから 1 つ以上の選択肢を回答として選択することが期待されます。もちろん、場合によっては、答えが「どちらでもない」ということもあります。

実際、研究論文では、タスクに関与するエンティティを 3 つのカテゴリに分類しています:

1. 画面エンティティ: 現在のエンティティを指します。ユーザーインターフェイスに表示されるエンティティ。

2. 対話エンティティ: 会話の内容に関連するエンティティ。ユーザーの以前の発言に由来する可能性があります (たとえば、ユーザーが「お母さんに電話する」と発言した場合、連絡先リストの「お母さん」のエントリは関連するエンティティ）、または会話中の仮想アシスタントによって提供される場合もあります（ユーザーが選択できる場所のリストなど）。

3. バックグラウンドエンティティ: バックグラウンドプロセスから発生し、デフォルトで鳴る目覚まし時計やバックグラウンドで再生される音楽など、ユーザーの画面表示や仮想アシスタントとの対話に必ずしも直接反映されるわけではない関連エンティティ。

ReALM のトレーニングとテストに使用されるデータセットは、合成データと手動で注釈が付けられたデータで構成されており、次の 3 つのカテゴリに分類できます。

まず、ダイアログデータセット: ユーザーとエージェント間の対話に関連するエンティティのデータポイントが含まれています。これらのデータは、評価者に合成エンティティのリストを含むスクリーンショットを表示させ、リスト内で選択されたエンティティを明示的に指すクエリを提供するよう依頼することで収集されました。

2 番目の合成データセット: テンプレート生成メソッドを使用してデータを取得します。このメソッドは、詳細な説明に依存せずにユーザークエリとエンティティタイプだけで参照を判断できる場合に特に便利です。。合成データセットには、同じクエリに対応する複数のエンティティを含めることもできます。

3 番目の画面データセット: 主にユーザーの画面に現在表示されているエンティティのデータが含まれ、各データにはユーザークエリ、エンティティリスト、クエリに対応する正しいエンティティが含まれます。 (またはエンティティのコレクション)。各エンティティに関する情報には、エンティティタイプと、エンティティに関連付けられた名前やその他のテキスト詳細 (目覚まし時計のラベルや時間など) などのその他のプロパティが含まれます。

画面関連のコンテキストを持つデータポイントの場合、コンテキスト情報は、エンティティの境界ボックスとエンティティを囲む他のオブジェクトのリストの形式で、タイプとテキストの内容とともに提供されます。これらの周囲の物体の位置情報や位置属性情報を取得します。データセット全体のサイズはカテゴリに応じてトレーニングセットとテストセットに分かれており、それぞれ一定のサイズがあります。

4. 結果: 最小モデルでも 5% のパフォーマンス向上を達成しました。

Apple はベンチマークテストで、自社のシステムを GPT 3.5 および GPT 4.0 と比較しました。 ReALM モデルは、さまざまな種類の参照解析タスクを解決する際に優れた競争力を示します。

Siri をもう精神薄弱にさせません! Apple は、「GPT-4 よりもはるかに優れた新しいデバイス側モデルを定義しています。テキストを取り除き、画面情報を視覚的にシミュレートします。最小パラメータモデルは、ベースラインシステムよりも 5% 優れています。」写真

論文によると、ReALM のパラメータが最も少ないバージョンでも、また、ベースラインシステムと比較して 5% 以上のパフォーマンス向上も達成しました。より大きなモデルのバージョンでは、ReALM は GPT-4 よりも明らかに優れています。特に画面上に表示されるエンティティを処理する場合、モデルサイズが大きくなるにつれて、画面データセット上の ReALM のパフォーマンス向上がより顕著になります。

さらに、ReALM モデルのパフォーマンスは、新しい分野のゼロサンプル学習シナリオでは GPT-4 のパフォーマンスに非常に近くなります。特定のフィールドでクエリを処理する場合、ReALM モデルはユーザーのリクエストに基づいて微調整されるため、GPT-4 よりも正確に実行されます。

たとえば、明るさを調整するというユーザー要求の場合、GPT-4 はその要求を設定に関連付けるだけで、バックグラウンドに存在するスマートホームデバイスも関連エンティティであることを無視します。 ReALM はドメイン固有のデータに基づいてトレーニングされるため、そのような特定のドメインの参照問題をよりよく理解し、正しく解析できます。

「現在の最先端の LLM である GPT-4 よりもパラメーターがはるかに少ないにもかかわらず、RealLM が以前の方法よりも優れたパフォーマンスを発揮し、純粋にテキストフィールドに基づいた画面を処理できることを実証しました。引用すると、ReaLMも同等の性能を実現できており、また特定分野のユーザー発話においてはGPT-4よりも優れた性能を発揮するため、性能を確保しつつ開発向けのアプリケーションに適していると言える。「これは、実用的なアプリケーション環境にとって推奨されるソリューションであり、デバイス上でローカルに効率的に実行できる参照解像度システムです。」

さらに、研究者らは、リソースが損なわれると、限られた低遅延の応答が必要である、または複数のプロセスが関与している API 呼び出しなどのステージ統合などの実際のアプリケーションシナリオでは、単一の大規模なエンドツーエンドモデルが適用できないことがよくあります。

これに関連して、モジュール式に設計された ReALM システムには、より優れた最適化の可能性と解釈可能性を提供しながら、アーキテクチャ全体に影響を与えることなく、元の基準解像度モジュールを簡単に交換およびアップグレードできるという、より多くの利点があります。。

将来に向けて、研究の方向性は、画面領域をグリッドに分割したり、相対的な空間位置をテキスト形式でエンコードしたりするなど、より複雑な方法を指しています。これは非常に困難ではありますが、これは探究すべき有望な手段です。

5.最後に記載

人工知能の分野では、Apple は常に慎重ですが、静かに投資も行っています。マルチモーダル大型モデル MM1 であれ、AI 主導のアニメーション生成ツール Keyframer であれ、今日の ReALM であれ、Apple の研究チームは技術的なブレークスルーを達成し続けています。

Google、Microsoft、Amazon などの競合他社は、検索、クラウドサービス、オフィスソフトウェアに AI を追加し、次々と力を入れています。 Apple が取り残されないように努めているのは明らかだ。生成 AI 実装の成果が次々と現れる中、Apple は追いつくペースを加速させています。関係者らは以前から、Appleが6月の世界開発者会議で人工知能分野に注力することを明らかにしており、新たな人工知能戦略がiOS 18アップグレードの中核となる内容となる可能性が高い。その頃には、あなたに驚きが訪れるかもしれません。

参考リンク：

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful -on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上がSiri をもう精神薄弱にさせません! Apple は、「GPT-4 よりもはるかに優れた新しいデバイス側モデルを定義しています。テキストを取り除き、画面情報を視覚的にシミュレートします。最小パラメータモデルは、ベースラインシステムよりも 5% 優れています。」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a