微軟研究院(Microsoft Research)和普林斯頓大學的研究人員於11月13日提出了一個通用框架,用於設計無監督學習問題的有效演算法,如高斯分佈和子空間聚類的混合
研究人員提出的框架,使用了一個元演算法來解決雜訊問題,該元演算法採用下界學習計算公式的計算方法。這個框架是基於Garg、Kayal和Saha(FOCS'20)最近的工作而設計的,他們提出了這個框架,用於在沒有任何噪音的情況下學習算術公式。元演算法的一個關鍵因素是有效演算法,用於解決稱為「穩健向量空間分解」的新問題
研究證明,當某些矩陣具有足夠大的最小非零奇異值時,元演算法效果很好。 「我們推測這個條件適用於我們問題的平滑實例,因此我們的框架將為平滑設定中的這些問題產生有效的演算法。」
##該研究的題目是《在在存在噪音的情況下學習算術公式:無監督學習的通用框架和應用》(Learning Arithmetic Formulas in the Presence of Noise: A General Framework and Applications to Unsupervised Learning),於11月13日在arXiv預印平台上發布
無監督學習涉及發現資料中隱藏的模式和結構,而不使用任何標籤或直接的人類監督。
在這裡,研究人員考慮具有良好數學結構或從數學上明確定義的分佈所產生的資料。前者的一個例子是,可以根據某些相似性模式將資料點分組為有意義的集群,並且目標是找到底層集群。後者的一個例子是混合建模,它假設資料是由簡潔描述的機率分佈(例如高斯分佈)的混合生成的,目標是從樣本中學習這些分佈的參數。
解決許多無監督學習問題的通用框架是矩方法,它利用資料的統計矩來推斷模型的底層結構或底層參數。對於許多無監督學習問題場景,其中基礎資料具有一些很好的數學結構,資料的矩是參數的明確定義的函數。啟發式論證表明,相反的情況通常應該成立,即結構/分佈的參數通常由數據的一些低階矩唯一確定。在這個大方向上,主要的挑戰是設計演算法來(近似地)從(經驗)力矩中恢復潛在的參數。
我們也希望演算法高效、耐雜訊(即,即使僅近似而不是精確地知道矩,也能很好地工作),甚至是異常容忍度(即,即使少數數據點不符合底層結構/分佈也能很好地工作)。但即使是該領域最簡單的問題也往往是 NP 困難的,並且即使沒有噪音和異常值也仍然如此。
因此,人們實際上不能指望一種具有可證明的最壞情況保證的演算法。但人們可以希望演算法能夠保證通常運作良好,即對於隨機問題實例,或者更理想的是對於以平滑方式選擇的實例。因此,針對無監督學習中的每個此類問題設計了許多不同的演算法,具有不同程度的效率、噪音容忍度、離群值容忍度和可證明的保證。
在這項工作中,研究人員給出了一個適用於許多此類無監督學習問題的元演算法。研究的出發點是觀察到許多此類問題都歸結為學習算術公式的適當子類的任務。
以上是通用的無監督學習問題解決方案:基於元演算法的框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!