關於多元時間序列中的公平性問題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

關於多元時間序列中的公平性問題

王林

Apr 28, 2023 am 10:07 AM

機器學習序列多元時間

今天要跟大家介紹一篇2023.1發在arixv的多元時序預測文章，出發點比較有趣：如何提升多變量時間序列的公平性。文中所採用的建模方法都是先前在時空預測、Domain Adaptation等中所使用過的常規操作，但是對於多變量公平性這個點的提出比較新穎。

關於多元時間序列中的公平性問題

論文標題：Learning Informative Representation for Fairness-aware Multivariate Time-series Forecasting: A Group-based Perspective
下載網址：https://arxiv.org/pdf/2301.11535.pdf

1.多元時間序列的公平性

公平性問題，在機器學習領域中是一個宏觀的概念。機器學習中公平性的一種理解是，一個模型對於不同的樣本的擬合效果的一致程度。如果一個模型在某些樣本上效果很好，有些樣本上效果不好，那麼這個模型的公平性就比較差。例如，一個常見的場景是推薦系統中，模型對於頭部樣本的預測效果優於尾部樣本，這反映了模型對於不同樣本的預測效果存在不公平性。

回到多元時間序列預測問題中，公平性指的是模型是否對各變數的預測效果都比較好。如果模型對於不同變項的預測效果差異很大，那麼這個多元時間序列預測模型是不公平的。例如下圖中的例子，第一行表格是各種模型在各變數上預測效果MAE的方差，可以看到不同模型多存在一定程度的不公平性。下圖的序列是一個例子，有些序列的預測效果比較好，而有些序列的預測效果較差。

關於多元時間序列中的公平性問題

2.不公平現象的成因和解法

為什麼會造成不公平？無論是在多元時間序列中，或是其他機器學習領域，造成不同樣本預測效果差異較大的一大原因是，不同樣本的特徵不同，模型在訓練過程中可能被某些樣本的特徵所主導，導致模型對主導訓練的樣本預測效果好，而對於非主導樣本的預測效果差。

在多元時間序列中，不同的變量，其序列pattern可能存在很大的差異。例如上面圖的例子，大部分序列都是平穩的，主導了模型的訓練過程。而少數序列呈現了和其他序列不同的波動性，導致模型在這部分序列上預測效果較差。

如何解決多元時間序列中的不公平現象呢？一個想法是，既然造成不公平現象的原因是不同序列的特徵不同，如果能將各個序列之間的共性，以及各個序列之間的差異性分解開，獨立進行建模，就能緩解上述問題。

這篇文章就建立在這個思路之上，整體架構是利用聚類的方法將多變量序列分組，並得到每組的共性特徵；進一步使用對抗學習的方法，從原始表示中剝離各組特有的信息，得到公共的信息。透過上述過程，實現來了公共資訊和序列特有資訊的剝離，再基於這兩個部分資訊進行最終預測。

關於多元時間序列中的公平性問題

3、實作細節

整體的模型結構主要包含4個模組：多變量序列關係學習、時空關係網路、序列聚類、分解學習。

多變量序列關係學習

多元時間序列的一個重點是學習各個序列之間的關係。本文採用的是Spatial-Temporal的方法學習這個關係。由於多元時間序列不像很多時空預測任務，因此各個變數之間的關係可以預先定義好，因此這裡使用了鄰接矩陣的自動學習方法。具體的計算邏輯為，為每個變數產生一個隨機初始化的embedding，然後使用embedding的內積，以及一些後處理，計算兩兩變數之間的關係，作為鄰接矩陣對應位置上的元素，公式如下：

關於多元時間序列中的公平性問題

這種自動學習鄰接矩陣的方法，在時空預測中很常用，在Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks（KDD 2020）、REST : Reciprocal Framework for Spatiotemporal-coupled Prediction（WWW 2021）等文章中，都採用了這種方式。我在星球文章KDD2020經典時空預測模型MTGNN程式碼解析中詳細介紹相關模型的原理實現，有興趣的同學可以進一步閱讀。

時空關係網

有了鄰接矩陣後，文中採用了圖時序預測模型，對多變量時間序列進行時空編碼，得到每個變數序列的表示。具體的模型結構很類似DCRNN，在GRU基礎上，每個單元的計算引入了GCN模組。可以理解為，在正常GRU的每個單元的計算過程中，引入了鄰居節點的向量做一次GCN，得到更新後的表示。關於DCRNN的實作程式碼原理，可以參考DCRNN模型原始碼解析這篇文章。

序列聚類

在得到每個變數時間序列的表示後，下一步就是將這些表示聚類，以此得到各個變數序列的分組，進而提取每組變數特有的訊息。文中引入下面的損失函數來指導聚類過程，其中H表示每個變數序列的表示，F表示每個變數的序列跟K個類別的從屬關係。

關於多元時間序列中的公平性問題

這個損失函數的更新過程需要採用EM演算法，即固定序列表示H，最佳化F，以及固定F，最佳化H。文中所採用的方法是，訓練幾輪模型得到表示H後，使用SVD更新一次矩陣F。

分解學習

分解學習模組的核心是將各個類別變數的公共表示和私有表示區分開，公共表示指的是各個類別簇變數的序列共有的特點，私有表示指的是每個類別簇內變數序列獨有的特徵。為了實現這個目的，文中採用了分解學習和對抗學習的思路，將各個類簇的表示，從原始的序列表示中剝離開。類簇表示代表每個類別的特性，剝離後的表示代表所有序列的共性，利用這個共性的表示來預測，可以實現對各個變數預測的公平性。

文中利用對抗學習的思路，直接計算公共表示和私有表示（也就是聚類得到的每個類簇的表示）的L2距離，以此作為loss反向優化，讓公共部分錶示和私有表示的差距盡可能拉大。此外，還會增加一個正交約束，讓公共表示和私有表示的內積接近0。

4、實驗結果

文中的實驗主要從公平性和預測效果兩個方面進行了對比，對比的模型包括基礎時序預測模型（LSTNet、Informer）、圖時序預測模型等。在公平性上，採用的是不同變數預測結果的方差，透過對比，本文的方法公平性相比其他模型要有比較明顯的提升（如下表）。

關於多元時間序列中的公平性問題

在預測效果上，本文所提出的模型也基本上能夠取得和SOTA相當的效果：

關於多元時間序列中的公平性問題

5 、總結

如何確保模型的公平性，是機器學習很多場景都面臨的問題。本文將此維度的問題引入了多元時間序列預測中，並利用時空預測、對抗學習的方法進行了比較好的解決。

以上是關於多元時間序列中的公平性問題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

從摩擦到流：AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技術革命正在獲得動力，促使法律專業人員積極採用AI解決方案。對於那些旨在保持競爭力的人來說，被動抵抗不再是可行的選擇。為什麼技術採用至關重要？法律專業人員

這就是AI對您的看法，對您的了解May 09, 2025 am 11:24 AM

許多人認為與AI的互動是匿名的，與人類交流形成了鮮明的對比。但是，AI在每次聊天期間都會積極介紹用戶。每個單詞的每個提示都經過分析和分類。讓我們探索AI Revo的這一關鍵方面

建立蓬勃發展的AI-Ready企業文化的7個步驟May 09, 2025 am 11:23 AM

成功的人工智能戰略，離不開強大的企業文化支撐。正如彼得·德魯克所言，企業運作依賴於人，人工智能的成功也同樣如此。對於積極擁抱人工智能的組織而言，構建適應AI的企業文化至關重要，它甚至決定著AI戰略的成敗。西蒙諾諮詢公司（West Monroe）近期發布了構建蓬勃發展的AI友好型企業文化的實用指南，以下是一些關鍵要點： 1. 明確AI的成功模式：首先，要對AI如何賦能業務有清晰的願景。理想的AI運作文化，能夠實現人與AI系統之間工作流程的自然融合。 AI擅長某些任務，而人類則擅長創造力、判

Netflix New Scroll，Meta AI的遊戲規則改變者，Neuralink價值85億美元May 09, 2025 am 11:22 AM

Meta升級AI助手應用，可穿戴式AI時代來臨！這款旨在與ChatGPT競爭的應用，提供文本、語音交互、圖像生成和網絡搜索等標準AI功能，但現在首次增加了地理位置功能。這意味著Meta AI在回答你的問題時，知道你的位置和正在查看的內容。它利用你的興趣、位置、個人資料和活動信息，提供最新的情境信息，這在以前是無法實現的。該應用還支持實時翻譯，這徹底改變了Ray-Ban眼鏡上的AI體驗，使其實用性大大提升。對外國電影徵收關稅是對媒體和文化的赤裸裸的權力行使。如果實施，這將加速向AI和虛擬製作的

今天採取這些步驟以保護自己免受AI網絡犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在徹底改變網絡犯罪領域，這迫使我們必須學習新的防禦技巧。網絡罪犯日益利用深度偽造和智能網絡攻擊等強大的人工智能技術進行欺詐和破壞，其規模前所未有。據報導，87%的全球企業在過去一年中都成為人工智能網絡犯罪的目標。那麼，我們該如何避免成為這波智能犯罪的受害者呢？讓我們探討如何在個人和組織層面識別風險並採取防護措施。網絡罪犯如何利用人工智能隨著技術的進步，犯罪分子不斷尋找新的方法來攻擊個人、企業和政府。人工智能的廣泛應用可能是最新的一個方面，但其潛在危害是前所未有的。特別是，人工智