検索
ホームページテクノロジー周辺機器AI言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

大規模言語モデル (LLM) は、モデルの微調整を必要とせずに、文脈学習を通じて少数の例から学習できることはよく知られています。現在、この文脈学習現象は大規模モデルでのみ観察できます。たとえば、GPT-4 や Llama などの大規模モデルは多くの分野で優れたパフォーマンスを示していますが、リソースの制約や高いリアルタイム要件のため、大規模なモデルは多くのシナリオで使用できません

#では、通常サイズのモデルにもこの機能はあるのでしょうか?小型モデルのコンテキスト学習機能を調査するために、Byte 大学と華東師範大学の研究チームは、シーン テキスト認識タスクに関する研究を実施しました。

現在、実際の応用シナリオでは、シーン テキスト認識は、さまざまなシーン、テキスト レイアウト、変形、照明の変更、ぼやけた書き込み、フォントの多様性など、さまざまな課題に直面しています。すべてのシナリオを処理できる統合テキスト認識モデルをトレーニングするのは困難です。

#この問題を解決する直接的な方法は、対応するデータを収集し、特定のシナリオでモデルを微調整することです。ただし、このプロセスにはモデルの再トレーニングが必要であり、計算量が多く、さまざまなシナリオに適応するために複数のモデルの重みを保存する必要があります。テキスト認識モデルにコンテキスト学習機能があれば、新しいシナリオに直面したときに、新しいシナリオでのパフォーマンスを向上させるためのプロンプトとして少量の注釈付きデータのみが必要となり、上記の問題が解決されます。ただし、シーンのテキスト認識はリソースに依存するタスクであり、大規模なモデルをテキスト認識装置として使用すると、大量のリソースが消費されます。研究者らは、予備的な実験観察を通じて、従来の大規模モデルのトレーニング方法がシーンのテキスト認識タスクには適していないことを発見しました。

この問題を解決するために、ByteDance と華東師範大学の研究チームは、自己進化型テキスト認識装置 E2STR (Ego-Evolving Scene Text Recognizer) を提案しました。これは、コンテキスト学習機能を組み込んだ通常サイズのテキスト認識ツールであり、微調整を必要とせずに、さまざまなテキスト認識シナリオにすぐに適応できます。論文リンク: https://arxiv.org/pdf/2311.13120.pdf

E2STR には、従来のデータで SOTA レベルに達するだけでなく、コンテキスト トレーニングおよびコンテキスト推論モードが装備されています。を設定しており、単一のモデルを使用してさまざまなシナリオでの認識パフォーマンスを向上させ、新しいシナリオへの迅速な適応を達成でき、微調整後の専用モデルの認識パフォーマンスを超えることさえあります。 E2STR は、テキスト認識タスクで効果的なコンテキスト学習機能を実現するには通常サイズのモデルで十分であることを示しています。

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

#方法

図 1 に、E2STR のトレーニングと推論のプロセスを示します。

#1. 基本的なテキスト認識トレーニング

#基本的なテキスト認識トレーニング フェーズでは、自己回帰フレームワークを使用してビジュアル エンコーダーと言語デコーダ、目的はテキスト認識機能を取得することです:

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

#2. コンテキスト トレーニング

コンテキスト トレーニング フェーズ E2STR は、この記事で提案されているコンテキスト トレーニング パラダイムに従ってさらにトレーニングされます。この段階で、E2STR はさまざまなサンプル間のつながりを理解し、文脈上の手がかりから推論する能力を獲得します。

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

#図 2 に示すように、この記事では、シーン テキスト データをランダムにセグメント化して変換し、一連の「サブサンプル」を生成する ST 戦略を提案します。 。サブサンプルは視覚的にも言語的にも本質的にリンクされています。これらの本質的に関連するサンプルはシーケンスに結合され、モデルはこれらの意味的に豊富なシーケンスからコンテキストの知識を学習し、それによってコンテキストを学習する能力を獲得します。このステージでは、トレーニングに自己回帰フレームワークも使用します:

書き直す必要がある内容は次のとおりです: 3. 文脈に基づく推論 書き換えられた内容: 3. コンテキストに基づく推論

#テスト サンプルの場合、フレームワークは、視覚的潜在空間にあるコンテキスト キュー プールから N 個のサンプルを選択します。テストサンプルとの類似性が最も高くなります。具体的には、この記事では、ビジュアル トークン シーケンスのプーリングを平均することで画像埋め込み I を計算します。次に、画像埋め込みと I の間のコサイン類似度が最も高い上位 N 個のサンプルがコンテキスト プールから選択され、コンテキスト キューが形成されます。

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

コンテキスト キューとテスト サンプルが結合されてモデルに供給されると、E2STR はトレーニングなしでコンテキスト キューから新しい知識を学習します。これにより、テストサンプルの認識精度が向上します。コンテキスト キュー プールはビジュアル エンコーダーによって出力されたトークンのみを保持するため、コンテキスト キューの選択プロセスが非常に効率的になることに注意することが重要です。さらに、コンテキスト ヒント プールが小さく、E2STR では推論のトレーニングが必要ないため、追加の計算オーバーヘッドも最小限に抑えられます。

実験

実験は主に 3 つの側面から実行されます: 従来のテキスト認識セット、クロスドメイン シーン認識、および困難なサンプル修正

#1. 従来のデータ セット

トレーニング セットからランダムにいくつかのサンプル (1000、トレーニング セット内のサンプル数の 0.025%) を選択してコンテキスト プロンプト プールを形成し、それを 12 の一般的なシーン テキスト認識テスト セットでテストします。

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

##E2STR は認識性能がほぼ飽和している従来のデータセットをさらに改善し、SOTA の性能を上回っていることがわかります。モデル 。

書き直す必要がある内容は次のとおりです。 2. クロスドメイン シナリオ

各テスト セットは、クロスドメインシナリオ ドメイン内トレーニングサンプルは 100 個のみ提供 トレーニングなしと微調整の比較結果は以下の通り E2STR は SOTA 法の微調整結果をも上回ります。

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

#書き直す必要がある内容は次のとおりです。 3. 難しいサンプルを修正します。

研究者らは、一連の困難なサンプルを収集し、これらのサンプルに 10% ~ 20% の注釈を付けました。トレーニングを行わない E2STR のコンテキスト学習手法と SOTA 手法の微調整学習手法を比較しました。結果は次のとおりです:

言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索

微調整手法と比較して、E2STR-ICL は困難なサンプルのエラー率を大幅に削減します

今後の見通し

E2STR は、適切なトレーニングと推論戦略を使用すると、小規模モデルでも LLM と同様のコンテキスト内学習機能を備えられることを証明しています。リアルタイム要件が強い一部のタスクでは、小さなモデルを使用して新しいシナリオに迅速に適応することもできます。さらに重要なのは、単一モデルを使用して新しいシナリオへの迅速な適応を達成するこの方法により、統合された効率的な小規模モデルの構築に一歩近づくことができます。

以上が言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。