AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
作者曾秋琳,毕业于哈尔滨工业大学,硕士毕业于新加坡国立大学。在王博授和凌晓峰院士的指导下,博士期间主要围绕随机时间变化的分布问题展开理论论证、方法和应用的研究。目前已在ICLR/AAAI/IEEE TNNLS发表多篇学术论文。
个人主页:https://hardworkingpearl.github.io/
在现实世界的机器学习应用中,随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化(EDG),目标是通过学习跨领域的潜在演变模式,并利用这些模式,使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而,由于 EDG 数据集中时间戳的数量有限,现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战,这限制了它们对新任务的泛化和适应性。
为了解决这个问题,我们提出了一种新的方法 SDE-EDG,它通过连续插值样本收集数据分布的无限细分网格演变轨迹(IFGET),以克服过拟合的问题。此外,通过利用随机微分方程(SDEs)捕获连续轨迹的固有能力,我们提出了将 SDE 建模的轨迹通过最大似然估计与 IFGET 的轨迹对齐,从而实现捕获分布演变趋势。
论文标题:Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
论文链接:https://openreview.net/pdf?id=bTMMNT7IdW
项目链接:https://github.com/HardworkingPearl/SDE-EDG-iclr2024
方法
核心思想
为了克服这一挑战,SDE-EDG 提出了一种新颖的方法,通过构建无限细分网格演变轨迹(Infinitely Fined-Grid Evolving Trajectory, IFGET),在潜在表示空间中创建连续插值样本,以弥合时间戳之间的间隔。此外,SDE-EDG 利用随机微分方程(Stochastic Differential Equations, SDEs)的内在能力来捕捉连续的轨迹动态,通过路径对齐正则化器将 SDE 建模的轨迹与 IFGET 对齐,从而实现跨域捕获演变分布趋势。
方法细节
1. 构建 IFGET:
首先,SDE-EDG 在潜在表示空间中为每个样本建立样本到样本的对应关系,收集每个个体样本的演变轨迹。对于时刻的每个类别 k 的任一样本,我们搜索时刻在特征空间离其最近的为其在的对应样本:
这里是计算两个向量之间的距离,是从下个领域采样的个样本的集合。
然后,利用这种对应关系生成连续插值样本,旨在连接时间戳间隔之间的时间间隙,避免对稀疏时间戳的过拟合,
这里采样自 Beta 分布。通过收集通过以上方式产生的样本的时序轨迹,我们得到 IFGET。
2. 使用 SDE 建模轨迹:
SDE-EDG 采用神经 SDE 来模拟数据在潜在空间中的连续时间轨迹。与传统的基于离散时间戳的模型不同, SDE 天然适合于模拟连续的时间轨迹。SDE-EDG 建模了时序轨迹,可以通过时刻的样本预测任意未来时刻的样本:
这里特征空间变量是由时刻的样本预测得到,是 drift function,是 diffusion function。
3. 路径对齐与最大似然估计:
SDE-EDG 通过最大化 IFGET 的似然估计来训练模型,
最终训练函数是,第一项是预测分类任务误差损失函数。
4. 实验
下表展示了 SDE-EDG 與其他基準方法在多個資料集上分類準確率的比較。這些資料集包括 Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS), 和 Ocular Disease (OD)。結果顯示,SDE-EDG 在所有資料集上的平均準確率均優於其他方法。
下圖提供了一個直覺的比較,展示了SDE-EDG 演算法(左)與傳統DG 方法IRM (右)在特徵表示上的差異。透過資料特徵空間的可視化,我們可以觀察到SDE-EDG 學習到的特徵表示具有明顯的決策邊界,其中不同類別的資料點被清晰地區分開來,以不同形狀表示,並且不同域的資料以彩虹條的顏色區分。這表明 SDE-EDG 能夠成功捕捉資料隨時間演變的動態,並在特徵空間中保持類別的可分性。相較之下,IRM 的特徵表示則傾向於將資料點坍縮到單一方向,導致決策邊界不明顯,反映出 IRM 在捕捉時變分佈趨勢方面的不足。
下圖透過一系列子圖深入展示了SDE-EDG 演算法在捕捉資料隨時間演變的能力方面的優勢。子圖 (a) 提供了 Sine 資料集的真實標籤分佈,其中正例和負例以不同顏色的點表示,為後續的比較提供了基準。接著,子圖 (b) 和 (c) 分別展示了基於 ERM 的傳統方法和 SDE-EDG 演算法對同一資料集的預測結果,透過對比可以看出 SDE-EDG 在捕捉資料演進模式上的明顯優勢。子圖(d) 和(e) 進一步揭示了SDE-EDG 學習到的演化路徑,其中(d) 展示了應用了路徑對齊損失(最大似然損失函數)後的路徑,而(e) 展示了未應用該損失時的路徑。透過這個對比,可以直觀地看到路徑對齊損失對於確保模型能夠正確捕捉和表徵資料隨時間變化的重要性。
下圖子圖(a) 展示了在Portraits 資料集上,使用不同演算法進行訓練時的準確率收斂軌跡。這個子圖提供了一個直觀的視角,以比較 SDE-EDG 演算法與其他基準方法(如 ERM、MLDG、GI)在訓練過程中表現的變化。透過觀察訓練準確率隨時間推移的成長趨勢,我們可以評估不同演算法的學習能力和收斂速度。 SDE-EDG 演算法的收斂軌跡尤其值得關注,因為它揭示了該演算法在適應不斷演變的資料分佈時的效率和穩定性。
下圖子圖(b) 和(c) 分別展示了RMNIST 和Circle 資料集上,SDE-EDG 演算法在這些資料集上的表現顯示出其在處理時變分佈時的優越性,即使在面對較大時間跨度的目標域時,也能保持較高的準確率,這表明了SDE-EDG 演算法在捕捉和適應資料演進模式方面的強大能力。
下圖子圖 (d) 和 (e) 探討了最大似然損失(Maximum Likelihood Loss)在 RMNIST 和 PowerSupply 資料集上對 SDE-EDG 效能的影響。透過改變正則化權重 α 的值,這兩個子圖展示了不同 α 設定對模型表現的具體影響。實驗結果表明,適當的 α 值可以顯著提高 SDE-EDG 在特定資料集上的效能,這強調了在實際應用中根據資料集特性和任務需求調整超參數的重要性。
#結論
#論文作者提出了一種新的SDE-EDG 方法,用於建構模時變域泛化(EDG)問題。該方法涉及透過識別樣本到樣本的對應關係並產生連續插值樣本來建立 IFGET。隨後,作者採用隨機微分方程(SDE)並與 IFGET 對齊進行訓練。文章的貢獻在於揭示了透過收集個體的時間軌跡來捕捉演變模式的重要性,以及在時間間隔之間進行插值以減輕源時間戳數量有限的問題,這有效地防止了SDE-EDG 對有限時間戳的過擬合。
以上是ICLR 2024 Oral | 應對隨時間變化的分佈偏移,西安大略大學等提出學習時序軌跡方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!