自訓練是一種半監督分類方法,包括平滑度和聚類假設。因此,它也被稱為自標記或決策導向學習。
通常,當標記的資料集包含大量關於資料生成過程的信息,並且未標記的樣本僅用於微調演算法時,自訓練是一個不錯的選擇。
然而,當這些條件不滿足時,自訓練的結果就不理想。因此自訓練在很大程度上取決於標記樣本。
自訓練的每一步都會根據目前決策函數對未標記資料進行標記,並使用預測進行重新訓練。
自訓練演算法以擬合另一個先前學習的監督模型預測的偽標籤。
資料實例分為訓練集和測試集,分類演算法訓練在標記訓練資料上。評估資料點,使用信賴向量表示預測結果。
2、選擇與最大置信度相關的前K個值並將其新增至標記資料集中。
3、分類器預測標記測試資料實例的類別標籤,並使用所選的指標評估分類器效能。
4、分類器使用新的標記資料集重新訓練。
自訓練利用標記資料集的結構來發現合適的分離超曲面。在這個過程之後,對未標記的樣本進行評估,並將具有足夠大置信度的分類點包含在新的訓練集中,自訓練演算法會重複這個過程,直到每個資料點都被分類。
以上是自訓練的概念及其與半監督式學習的聯繫的詳細內容。更多資訊請關注PHP中文網其他相關文章!