處理缺失值
在資料預處理中,關鍵步驟是處理缺少的數據,因為機器學習模型不會接受NaN值作為它們的輸入。有很多種方法可以填滿這些NaN值,但我們首先要先理解缺失值的重要性。
很簡單的一種方法是從機器學習資料集中刪除所有缺失值,但在這之前,請先檢查機器學習資料集中出現的NaN值的總體百分比。如果小於1%,我們可以刪除所有缺失值,否則我們需要透過選擇其他方法,例如集中趨勢測量、KNN Imputer等來估算資料。
當我們在特徵中使用數字時,我們使用平均或中位數。平均值是平均值我們可以透過將一行所有值匯總然後除以它們的量來計算。中位數也表示一個平均值,中位數將資料依大小順序排列起來,形成一個數列,居於數列中間位置的那個資料。當一組資料中的個別資料變動較大時,常用中位數來描述這組資料的集中趨勢。
如果機器學習資料集中有偏態分佈,往往使用中位數會比平均數好。
異常值/離群值
異常值是與其他觀測值有顯著差異的資料點。有時,這些異常值也可能很敏感。在處理異常值之前,建議先檢查機器學習資料集。
例如:
- 基於觀測降雨量的深度值預測中離群值具有重要意義。
- 房價預測中的異常值則沒有任何意義。
資料外洩
什麼是 機器學習 模型中的資料外洩問題呢?
當我們用來訓練模具機器學習型的資料包含機器學習模型試圖預測的資訊時,就會發生資料外洩。這會導致模型部署後的預測結果不可靠。
這個問題可能是由於資料標準化或歸一化方法造成的。因為我們大多數人在將資料分割成訓練集和測試集之前會繼續使用這些方法。
選擇合適的機器學習模型
實時,我覺得不必要地轉向一些複雜的模型可能會對面向業務的人產生一些可解釋性問題。例如,線性迴歸將比神經網路演算法更容易解釋。
主要根據資料集的大小和複雜性來選擇對應的機器學習模型,如果我們處理複雜的問題,我們可以使用一些高效的機器學習模型,如SVN、KNN、隨機森林等。
大多數時候,資料探索階段會有助於我們選擇對應的機器學習模型。如果在視覺化中資料是線性可分離的,那麼我們可以使用線性迴歸。如果我們對資料不了解,支援向量機和KNN將會很有用。
另外還有一個模型可解釋問題,例如,線性迴歸比神經網路演算法更容易解釋。
驗證指標
指標是模型預測器和實際資料的量化度量。如果問題是迴歸方面的,則關鍵指標是準確度(R2評分),MAE(平均絕對誤差)和RMSE(均方根誤差)。如果是分類上的問題,關鍵指標則是精確,召回,F1score和混淆矩陣。
以上是新手在機器學習中常見的五大問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能