ホームページ >テクノロジー周辺機器 >AI >2024 インテリジェント ソース カンファレンスの議題が明らかに丨生成モデル
2024年6月14日と15日、第6回北京志源会議はオフラインとオンラインを組み合わせて開催されます。オフライン会場は中関村国家自主イノベーション実証区会議センターに位置します。 2024年の知源会議には、世界的な視野を持つ今年の優秀な研究者が再び集まり、新しいアイデアを交換し、新たなアイデアを探求し、新たなフロンティアをリードします。登録チャンネルが正式にオープンしました。
北京志源会議カウントダウン: 11日
世代モデルフォーラム丨6月15日午後
生成関数 モデリングは人工知能の基礎の一つですパラダイムは、一般的な人工知能に向けた重要なステップです。生成モデリング手法の急速な発展とモデル規模の急速な成長に伴い、自己回帰モデルや拡散確率モデルに代表される生成人工知能(GPTシリーズ、Sora、安定拡散など)はテキスト、画像、ビデオ、クロスモダリティなどの重要な分野で一連の画期的な進歩が見られました。このフォーラムは、生成確率モデリングの将来の開発に焦点を当てており、生成人工知能の最前線の専門家や学者 4 名が招かれ、生成モデリングの最先端の進歩を共有し、マルチモーダルな統合生成モデリング手法の構築方法やその他の重要な将来について議論します。方向性の問題。
フォーラムの議題
フォーラム会長
、中国人民大学上級研究員、人工知能学部准教授
Li Chongxuan、中国人民大学ヒルハウス人工知能大学院准教授兼博士指導教員 彼は、2010 年から 2019 年まで清華大学で学士号と博士号を取得しました。主に機械学習と深層生成モデルの研究を行っており、代表的な研究はテキストから画像への大型モデル DALL・E 2、Stable Diffusion、およびテキストからビデオへの大型モデル ViDu に展開されています。彼は、国際会議 ICLR 最優秀論文賞、ウー・ウェンジュン優秀青少年賞、ウー・ウェンジュン人工知能一等賞、中国コンピュータ連盟優秀博士論文を受賞しています。 Boxin Plan と北京科学技術スターに選ばれ、国立自然科学財団と科学技術省の多くのプロジェクトを主宰し、参加してきました。 ICLRやNeurIPSなどの国際会議の議長を歴任。
Chen Jianfei、清華大学准教授
Chen Jianfei は、201 年に清華大学でコンピューターサイエンスの学士号と博士号を取得しましたそれぞれ4月と2019年に協力しましたTSAILグループ 朱俊教授と協力。彼の研究対象には、効率的な機械学習、特に量子化ニューラル ネットワーク、確率的最適化アルゴリズム、確率的推論アルゴリズムが含まれます。過去には、いくつかのスケーラブルなトピック モデル トレーニング システムも開発しました。 2019 年、Chen Jianfei はその優れた業績により CCF 優秀博士論文賞を受賞しました。 2009 年には中国情報オリンピックでも金メダルを獲得しました。 2018 年、Chen Jianfei は RealAI を共同設立し、彼のキャリアの中で特筆すべき成果を上げました。
スピーチテーマとゲスト紹介(スピーチ順)
1、ビデオ生成前進行状況に沿って
レポート紹介: 画像生成と同様に、ビデオ生成も、コンテンツの一貫性、長時間のビデオ生成、およびコンピューティング リソースの消費という点で大きな課題に直面しています。しかし、ビデオ生成は 2023 年になっても急速な発展を遂げており、Stable Video Diffusion、Runway Gen-2、Video Diffusion Transformer、Sora などの優れたモデルが登場しています。このレポートでは、まずビデオ生成が現在直面している課題を紹介し、次に最新の優れたビデオ生成モデルを詳細に紹介し、最後にビデオ生成の技術開発の展望を示します。
Lu Zhiwu、中国人民大学教授
Lu Zhiwu 博士、中国人民大学ヒルハウス人工知能大学院教授兼博士指導者。 2005 年に北京大学数理科学部情報科学科を卒業し、理学修士号を取得し、2011 年に香港城市大学コンピュータ サイエンス学科を博士号を取得して卒業しました。彼の研究方向は機械学習とコンピュータビジョンです。中国初のユニバーサル マルチモーダル事前トレーニング モデル Wenlan BriVL を設計します。マルチモダリティの分野で初の Nature サブジャーナル論文を出版しました。 OpenAI よりも早く、Sora 風のビデオ生成ベース ディスプレイをリリースしました。
2、ビジュアル自己回帰モデリング: 次スケール予測によるスケーラブルな画像生成
レポートの紹介: 講演者は、以下に基づいた最新のビジュアル生成フレームワーク Visual AutoRegressive Modeling を紹介します。ビジュアル トークナイザーとトランスフォーマーを組み合わせて Next Scale Prediction を実装すると、GPT スタイルの自己回帰ビジュアル生成が初めて可能になり、効果、速度、スケーリング機能の点で Diffusion を上回り、ビジュアル生成の分野にスケーリング則が導入されます。古典的な普及モデルと、最近注目を集めている自動回帰モデルの最先端の進歩を紹介します。
Jiang Yi、ByteDance GenAI 研究者
Jiang Yi、ByteDance GenAI 研究者、浙江大学卒業、代表作に Sparse R-CNN、ByteTrack、UNINEXT など。彼の現在の研究対象は、主にコンピュータ ビジョンとビジュアル生成の基本モデルの研究開発であり、CVPR、ICCV、NeurIPS、ICLR、ICML、ECCV などの学会や雑誌に 30 以上の論文を発表しています。彼の作品は Github でオープンソース化されており、20,000 個のスターを獲得しています。
3 広範囲にわたる懸念。しかし、技術の発展に伴い、この分野で解決すべき重要な問題がますます顕著になり、研究者はより深い議論にさらなるエネルギーを注ぐことが求められています。このレポートは、この分野が直面しているいくつかの重要な問題を整理して要約し、次のトピックに関する著者の予備的な考えと洞察を共有することを目的としています。 1. 生成モデルの探索の究極の追求 2. 視覚信号分割の問題 3.トークナイザーのジレンマ 4. 拡散モデルの固有の矛盾問題 5. 拡散モデルが最尤推定であるかどうか。報告書は、これらの議論が学術界の注目を集め、この分野の継続的な革新と発展の促進に貢献することを期待している。
マイクロソフト リサーチ アジアのビジュアル コンピューティング グループの研究者、Gu Shuyan 氏
Gu Shuyan 氏は、米国科学技術大学オートメーション学科で学士号を取得しました。それぞれ 2017 年と 2022 年に中国に赴任。現在はマイクロソフト リサーチ アジアのビジュアル コンピューティング グループの研究員。主な研究方向はコンピューター ビジョンの生成モデルです。研究対象には主に、敵対的生成ネットワークと拡散モデルの理論と応用、新世代の生成モデルの探索、生成モデルの品質評価が含まれます。彼は CVPR、ICCV、ECCV およびその他の会議で多くの論文を発表し、多くの会議や雑誌で査読者を務めています。4.
レポートの紹介:
AIGC大規模モデルは広範なアプリケーション結果を達成しました。ただし、非効率的な逐次推論プロセスにより、ユーザー エクスペリエンスが低下し、導入コストが高くなることがよくあります。このレポートでは、推論アルゴリズムの観点から大規模モデルの推論効率を向上させる方法を紹介し、モデル アーキテクチャ、シーケンス圧縮、キャッシュの最適化などの他の側面での高速化方法を検討します。
Deng Zhijie、
上海交通大学清源研究所助教授
Deng Zhijie、上海交通大学電気工学院清源研究所の助教授兼博士指導教員。主な研究方向は生成モデルと機械学習です。 ICML、NeurIPS、ICLR、CVPR などの学会やジャーナルで筆頭著者/責任著者として 20 本以上の論文を発表しています。 NVIDIA Pioneer Research Awardを受賞。この研究活動は、中国国家自然科学財団、上海科学技術イノベーション行動計画、CCF-Baichuan-Inbo Large Model Fund およびその他のプロジェクトによって支援されています。
5、座談会
座談会ゲスト:
QRコードをスキャンして今すぐ登録し、カンファレンス登録に参加してください
このカンファレンスはオフラインモードとオンラインモードの統合を採用しています。登録チャンネルはオープンしています。無料で登録するためのコード。オフライン席に限りがあるため、組織委員会は登録順に審査し、会議前に審査結果通知をお送りします。公開セッションは登録ユーザーにオンラインでライブ中継されます。
以上が2024 インテリジェント ソース カンファレンスの議題が明らかに丨生成モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。