検索
ホームページテクノロジー周辺機器AI「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成

従来の時空間予測モデルでは、通常、良好な結果を得るために大量のデータのサポートが必要です。

しかし、都市ごとの発展レベルの違いやデータ収集ポリシーの不一致により、多くの地域の時空間データ (交通量や人流データなど) は限られています。したがって、データが不足している場合、モデルの転送可能性が特に重要になります。

現在の研究は主にソース都市のデータに依存してモデルをトレーニングし、ターゲット都市のデータに適用していますが、このアプローチには複雑なマッチング設計が必要になることがよくあります。ソース都市とターゲット都市の間でより広範な知識の伝達をどのように達成するかは、依然として難しい課題です。

最近、事前トレーニングされたモデルは、自然言語処理とコンピューター ビジョンの分野で大きな進歩を遂げました。プロンプトテクノロジーの導入により、微調整と事前トレーニングの間のギャップが狭まり、事前トレーニングされた高度なモデルが新しいタスクにより迅速に適応できるようになります。この方法の利点は、面倒な微調整への依存が減り、モデルの効率と柔軟性が向上することです。プロンプトテクノロジーを通じて、モデルはユーザーのニーズをより深く理解し、より正確な出力を生成できるため、人々により良いエクスペリエンスとサービスを提供できます。この革新的なアプローチは人工知能テクノロジーの開発を推進し、さまざまな業界にさらなる可能性と機会をもたらします。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成写真

紙のリンク: https://openreview.net/forum?id=QyFm3D3Tzi

オープンソース コードとデータ: https://www.php.cn/link/6644cb08d30b2ca55c284344a9750c2e

ICLR2024で本学科都市科学コンピューティング研究センターが発表した最新成果「拡散ニューラルネットワーク生成による空間時間的少数ショット学習」清華大学電子工学博士 GPD (Generative Pre-Trained Diffusion) モデルは、データがまばらなシナリオで時空間学習を成功裏に達成するために導入されました。

この方法では、生成ニューラル ネットワークのパラメーターを使用して、時空間スパース データ学習を拡散モデルの生成事前トレーニング問題に変換します。従来の方法とは異なり、この方法では、転送可能な特徴を抽出したり、複雑なパターン マッチング戦略を設計したりする必要がなくなり、数ショットのシナリオに適したモデルの初期化を学習する必要もなくなりました。

代わりに、このメソッドは、ソース都市からのデータに関する事前トレーニングによってニューラル ネットワーク パラメーターの最適化に関する知識を学習し、プロンプトに基づいてターゲット都市に適したニューラル ネットワーク モデルを生成します。

この手法のイノベーションは、「プロンプト」に基づいてカスタマイズされたニューラル ネットワークを生成し、異なる都市間のデータ分布と特性の違いに効果的に適応し、独創的な時空間知識の伝達を実現できることです。

この研究は、都市コンピューティングにおけるデータ不足の問題を解決するための新しいアイデアを提供します。論文のデータとコードはオープンソースです。

データ配信からニューラル ネットワーク パラメータ配信へ

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成図 1: データ パターン レベルの知識伝達とニューラル ネットワーク レベルの知識伝達

図 1(a) に示すように、従来の知識伝達方法では通常、ソース都市のデータに基づいてモデルをトレーニングし、それをターゲット都市に適用します。ただし、異なる都市間のデータ分布には大きな違いがある可能性があり、その結果、ソース都市モデルが直接移行され、ターゲット都市のデータ分布にうまく適合しない可能性があります。

したがって、私たちは乱雑なデータ配布への依存を取り除き、知識を共有するためのより本質的で伝達可能な方法を模索する必要があります。データ分布と比較して、ニューラル ネットワーク パラメータの分布には、より「高次」の特性があります。

図 1 は、データ パターン レベルからニューラル ネットワーク レベルの知識伝達への変換プロセスを示しています。ソース都市からのデータでニューラル ネットワークをトレーニングし、それをターゲット都市に適応したニューラル ネットワーク パラメーターを生成するプロセスに変換することで、ターゲット都市のデータ分布と特性をより適切に適応させることができます。

トレーニング前のプロンプト微調整: 時空間的な少数ショット学習の実現

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成図 2 GPD モデルの概要

図 2 に示すように、この研究で提案された GPD は、ソース都市のモデル パラメーターから直接学習し、ターゲット都市の新しいモデル パラメーターを生成するように設計された条件付き生成フレームワークです。この方法は 3 つの主要な段階で構成されます。 ##1. ニューラル ネットワークの準備段階: まず、各ソース都市エリアについて、調査は個別の時空間予測モデルをトレーニングし、その最適化されたネットワーク パラメーターを保存します。各領域のモデル パラメーターは、モデルがそれぞれの領域の特性に最適に適応できるように、パラメーターを共有することなく個別に最適化されます。

2. 拡散モデルの事前トレーニング: このフレームワークは、収集された事前トレーニングされたモデル パラメーターをトレーニング データとして使用して、拡散モデルをトレーニングし、モデル パラメーターの生成プロセスを学習します。拡散モデルは、ランダムな初期化から始まるパラメータ最適化プロセスと同様のプロセスである段階的なノイズ除去を通じてパラメータを生成するため、対象都市のデータ分布によりよく適応できます。

3. ニューラル ネットワーク パラメーターの生成: 事前トレーニング後、ターゲット都市の地域的な手がかりを使用してパラメーターを生成できます。このアプローチでは、ヒントを活用して知識の伝達と正確なパラメーターのマッチングを促進し、都市間地域間の類似点を最大限に活用します。

プレトレーニングキュー微調整フレームワークでは、特定の領域の特性を捉えることができる限り、キューの選択は非常に柔軟であることに注目する価値があります。たとえば、人口、地域、機能、興味のある地点 (POI) の分布などのさまざまな静的特徴を使用して、この目的を達成できます。

この研究では、空間的および時間的側面の両方から地域的な手がかりを利用しています。空間的な手がかりは、都市知識グラフ [1,2] のノード表現から得られます。地域的な隣接性や機能的類似性などの関係のみを使用します。これらの関係は、容易に理解できます。すべての都市で利用可能であり、時間的手がかりは自己教師あり学習モデルのエンコーダーから得られます。プロンプトデザインの詳細については、元の記事を参照してください。

さらに、この研究では、さまざまなキュー導入方法も調査され、事前知識に基づくキュー導入が最適なパフォーマンスを発揮することが実験で検証されました。つまり、空間キューを使用して、空間相関をモデル化するためのニューラル ネットワーク パラメーターの生成をガイドします。 、および時間プロンプトを使用して、時間ニューラル ネットワーク パラメーターの生成をガイドします。

実験結果

チームは、他の研究者が結果を再現できるように、論文の中で実験設定を詳細に説明しました。彼らはまた、オリジナルの論文とオープンソース データ コードを提供しました。ここではその実験結果に焦点を当てます。

提案されたフレームワークの有効性を評価するために、この研究では、複数の都市データセットを対象として、群衆の流れ予測と交通速度予測という 2 つの古典的な時空間予測タスクに関する実験を実施しました。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成表 1 は、4 つのデータセットに関する最先端のベースライン手法との比較結果を示しています。これらの結果に基づいて、次のことがわかります。

1) GPD は、ベースライン モデルと比較してパフォーマンスに大きな利点を示し、さまざまなデータ シナリオで一貫して優れたパフォーマンスを示します。これは、GPD が効果的なニューラル ネットワーク パラメーター レベルの知識伝達を達成していることを示しています。

2) GPD は長期予測シナリオで良好なパフォーマンスを示します。この重要な傾向は、フレームワークによるより重要な知識のマイニングに起因し、長期的な時空間パターンの知識を対象都市に伝達するのに役立ちます。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成図 3 さまざまな時空間予測モデルのパフォーマンスの比較

さらに、この研究では、さまざまな時空間予測に適応するための GPD フレームワークの柔軟性も検証されました。モデル。古典的な時空間グラフ手法 STGCN に加えて、この研究では時空間予測モデルとして GWN と STID も導入し、拡散モデルを使用してそれらのネットワーク パラメーターを生成します。

実験の結果、フレームワークの優位性はモデルの選択に影響されず、さまざまな先進的なモデルに適応できることがわかりました。

さらに、この研究では、2 つの合成データセットのパターン類似性を操作することによってケース分析を実行します。

図 4 は、領域 A と B が非常に類似した時系列パターンを持っているのに対し、領域 C は大きく異なるパターンを示していることを示しています。一方、図 5 は、ノード A とノード B が対称な空間位置を持っていることを示しています。

したがって、領域 A と B は非常によく似た時空間パターンを持つ一方で、C とは明らかな違いがあると推測できます。モデルによって生成されたニューラル ネットワークのパラメーター分布の結果は、A と B のパラメーター分布は似ていますが、C のパラメーター分布とは大きく異なることを示しています。これにより、GPD フレームワークが多様な時空間パターンを持つニューラル ネットワーク パラメーターを効果的に生成できることがさらに検証されました。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成

図 4 さまざまな地域における時系列とニューラル ネットワーク パラメーターの分布の視覚化

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成

図 5 地域別のシミュレーション データ セットspace 接続関係

参考:

https://www.php.cn/link/6644cb08d30b2ca55c284344a9750c2e

[1] Liu, Yu, 他al.「Urbankg: 都市型ナレッジ グラフ システム」ACM Transactions on Intelligent Systems and Technology 14.4 (2023): 1-25.

[2] Zhou、Zhilun、他「階層型ナレッジ グラフ学習が可能」位置ベースのソーシャル ネットワークにおける社会経済指標の予測。」ACM Web Conference 2023 の議事録。2023.

以上が「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラル ネットワーク パラメーターを生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません