大型モデルは新たな研究ブームを牽引しており、産業界と学術界の両方で数多くの革新的な成果が生まれています。
Xiaohongshu 技術チームもこの波の中で常に模索しており、多くの論文の研究結果が ICLR、ACL、CVPR、AAAI、SIGIR、WWW などのトップ国際会議で頻繁に発表されています。
大規模モデルと自然言語処理の交差点で、どのような新しい機会と課題が発見されているのでしょうか?
大規模モデルの効果的な評価方法にはどのようなものがありますか?どうすればアプリケーション シナリオにうまく統合できるでしょうか?
6月27日19:00〜21:30、【REDtechがやってくる】『Little Red Book 2024 Large Model Frontier Paper Sharing』第11号がオンライン放送されます!
REDtechはXiaohongshuコミュニティ検索チームをライブブロードキャストルームに特別に招待し、2024年にXiaohongshuが出版した6つの大規模なモデル研究論文を共有します。 Xiaohongshu Jingpai LTRの責任者であるFeng Shaoxiong氏は、Li Yiwei氏、Wang Xinglin氏、Yuan Peiwen氏、Zhang Chao氏らと協力して、最新の大型モデルの解読および蒸留技術、大型モデルの評価方法、および大型モデルの使用について話し合いました。 Xiaohonshu プラットフォーム上の実用的なアプリケーションのモデル。
アクティビティアジェンダ
01 スカイハイコストの脱出: 多段階推論の早期停止の自己矛盾 / ICLR 2024 に選出
スカイハイコストの脱出: 早期停止の自己整合性マルチステップ推論 性的手法 | 共有者: Li Yiwei
自己一貫性 (SC) は、複数の思考チェーンを生成し、最終的な答えとして多数決を採用する解読戦略です。モデルのパフォーマンス。しかし、これは、あらかじめ設定されたサイズのサンプルを複数必要とする、コストのかかる方法です。 ICLR 2024 で、Xiaohongshu 氏は、SC のコストを大幅に削減できる、シンプルでスケーラブルなサンプリング プロセスである早期停止自己一貫性 (ESC) を提案しました。これに基づいて、チームはさらに、さまざまなタスクやモデルのパフォーマンスとコストのバランスを動的に選択するための ESC 制御スキームを導き出しました。 3 つの主流の推論タスク (数学、常識、記号推論) に関する実験結果は、ESC が元のパフォーマンスをほぼ維持しながら、6 つのベンチマーク全体の平均サンプル数を大幅に削減することを示しています。
論文アドレス: https://arxiv.org/abs/2401.10480
02 本質を統合し、ドロスを排除: 自由形式言語生成のためのきめ細かい自己一貫性 / ACL 2024 に選出
選択細かい点: 自由形式生成タスクのための細粒度自己一貫性手法| 共有者: Wang Xinglin
Xiaohongshu は、ACL 2024 で細粒度自己一貫性 (FSC) 手法を提案しました。 -自由形式生成タスクのパフォーマンスにおける一貫性メソッド。研究チームはまず、実験を通じて、自由形式生成タスクに対する既存の自己矛盾のない手法の欠点は、粒度の粗い共通サンプル選択に起因しており、異なるサンプルの粒度の細かいフラグメント間の共通知識を効果的に利用できないことを分析しました。これに基づいて、チームは大規模モデルの自己融合に基づく FSC 手法を提案し、実験により、かなりの消費量を維持しながら、コード生成、要約生成、および数学的推論タスクで大幅に優れたパフォーマンスを達成することが確認されました。
論文アドレス: https://github.com/WangXinglin/FSC
03 BatchEval: Towards Human-like Text Evaluation / ACL 2024に選出、フィールド委員長が満点を付けて最優秀論文を推薦
Mai人間レベルのテキスト評価を目指して| 共有者: Yuan Peiwen
Xiaohongshu は、より低いオーバーヘッドで人間のようなテキスト評価効果を実現できる BatchEval メソッドを ACL 2024 で提案しました。研究チームはまず、評価の頑健性における既存のテキスト評価手法の欠点が評価スコアの不均一な分布に起因し、スコア統合における次善のパフォーマンスが評価視点の多様性の欠如に起因していることを理論レベルから分析しました。これに基づいて、人間の評価プロセスにおけるサンプル間の比較からインスピレーションを得て、多様な視点によるより三次元的かつ包括的な評価ベンチマークを確立するために、BatchEval が類推的に提案されました。現在のいくつかの最先端のメソッドと比較して、BatchEval は評価オーバーヘッドと評価効果の両方で大幅に優れたパフォーマンスを実現します。
論文アドレス: https://arxiv.org/abs/2401.00437
04 相互一貫性によるSuperLLMの監督不十分な評価/ACL 2024に選出
相互一貫性による正確な監督信号の欠如下で超人レベルを達成一貫性 大規模言語モデルの評価| 共有者: Yuan Peiwen
Xiaohongshu は、ACL 2024 で PEEM 手法を提案しました。これは、モデル間の相互一貫性を通じて人間のレベルを超えた大規模な言語モデルの正確な評価を実現できます。研究チームはまず、大規模な言語モデルの急速な開発傾向が、多くの面で徐々に人間のレベルに達し、あるいは超えることを加速させるだろうと分析した。この状況では、人間はもはや正確な評価信号を提供できなくなるだろう。このシナリオでの能力評価を実現するために、チームはモデル間の相互整合性を評価信号として使用するというアイデアを提案し、評価サンプルが無限の場合、参照モデル間に独立した予測分布が存在することを導き出しました。および評価対象のモデルを指定すると、参照モデル間のこの一貫性をモデルの機能の正確な尺度として使用できます。これに基づいて、チームはEMアルゴリズムに基づくPEEM手法を提案し、実験により、実際には上記の条件の不足を効果的に軽減し、人間のレベルを超える大規模な言語モデルの正確な評価を達成できることを確認しました。
論文アドレス: https://github.com/ypw0102/PEEM
05 Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / AAAI 2024 Oral に選出
プロモーションにネガティブサンプルを使用大規模モデル 推論機能の抽出 | 共有者: Li Yiwei
大規模言語モデル (LLM) は、さまざまな推論タスクでうまく機能しますが、そのブラックボックス特性と膨大な数のパラメーターが、実際の広範な適用の妨げとなります。特に複雑な数学的問題を扱う場合、LLM は誤った推論の連鎖を生成することがあります。従来の研究方法では、肯定的なサンプルからの知識のみが伝達され、間違った答えを含む合成データは無視されます。 AAAI 2024 で、Xiaohongshu 検索アルゴリズム チームは革新的なフレームワークを提案し、モデル蒸留プロセスにおけるネガティブ サンプルの価値を初めて提案および検証し、ポジティブ サンプルの使用に加えて完全な分析を行うモデル特化フレームワークを構築しました。ネガティブサンプルの使用 LLM の知識を高めるため。このフレームワークには、ネガティブ支援トレーニング (NAT)、ネガティブ キャリブレーション強化 (NCE)、動的自己一貫性 (ASC) を含む 3 つのシリアル化ステップが含まれており、トレーニングから推論までのプロセス全体をカバーします。広範な一連の実験により、LLM 知識の蒸留におけるネガティブ データの重要な役割が実証されています。
論文アドレス: https://arxiv.org/abs/2312.12832
06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / WWW 2024に選出
大規模言語モデルに基づくノートコンテンツ表現推奨システム| 共有者: Zhang Chao
Xiaohonshu APP は毎日大量の新しいメモを生成します。これらの新しいコンテンツを興味のあるユーザーに効果的に推奨するにはどうすればよいですか?メモの内容に基づく推奨表現は、メモのコールド スタートの問題を軽減する方法であり、多くの下流アプリケーションの基礎でもあります。近年、大規模言語モデルは、その強力な一般化機能とテキスト理解機能により大きな注目を集めています。したがって、私たちは大規模な言語モデルを使用して、メモ内容の理解を高めるためのメモ内容表現推奨システムを構築したいと考えています。強化された表現の生成とマルチモーダルなコンテンツ表現の生成という 2 つの観点から、私たちの最近の取り組みを紹介します。現在、このシステムは小紅書社の複数のビジネスシナリオに適用され、大きなメリットをもたらしています。 紙アドレス: https://arxiv.org/abs/2403.01744ライブ視聴方法
-
ライブ放送時間: 2024年6月27日 19:00〜21:30
ライブブロードキャストプラットフォーム: WeChatビデオアカウント[REDtech]、同じ名前のBilibili、Douyin、Xiaohongshuアカウントでライブブロードキャストします。
友達を招待してライブ配信ギフトの予約をしてください
以上が小紅書の大規模なモデル論文共有セッションには、4 つの主要な国際会議の著者が集まりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ホットトピック









