搜尋
首頁科技週邊人工智慧機器學習迴歸模型相關重要知識點總結

1、線性迴歸的假設是什麼?

線性迴歸有四個假設:

  • 線性:自變數(x)和因變數(y)之間應該存在線性關係,這意味著x值的變化也應該在相同方向上改變y值。
  • 獨立性:特徵應該相互獨立,這意味著最小的多重共線性。
  • 常態性:殘差應該是常態分佈的。
  • 同方差性:迴歸線周圍資料點的變異數對於所有值應該相同。

2、什麼是殘差,它如何用來評估迴歸模型?

殘差是指預測值與觀測值之間的誤差。它測量數據點與迴歸線的距離。它是透過從觀察值中減去預測值的計算機。

殘差圖是評估迴歸模型的好方法。它是一個圖表,在垂直軸上顯示所有殘差,在 x 軸上顯示特徵。如果數據點隨機散佈在沒有圖案的線上,那麼線性迴歸模型非常適合數據,否則我們應該使用非線性模型。

機器學習迴歸模型相關重要知識點總結

3、如何區分線性迴歸模型與非線性迴歸模型?

兩者都是迴歸問題的型別。兩者的差別在於他們訓練的數據。

線性迴歸模型假設特徵和標籤之間存在線性關係,這表示如果我們取得所有資料點並將它們繪製成線性(直線)線應該適合資料。

非線性迴歸模型假設變數之間沒有線性關係。非線性(曲線​​)線應該能夠正確地分離和擬合數據。

機器學習迴歸模型相關重要知識點總結

找出資料是線性還是非線性的三種最佳方法-

  1. #殘差圖
  2. 散點圖
  3. 假設資料是線性的,訓練一個線性模型並透過準確率進行評估。

4、什麼是多重共線性,它如何影響模型表現?

當某些特徵彼此高度相關時,就會發生多重共線性。相關性是指表示一個變數如何受到另一個變數變化影響的量測。

如果特徵 a 的增加導致特徵 b 的增加,那麼這兩個特徵是正相關的。如果 a 的增加導致特徵 b 的減少,那麼這兩個特徵是負相關的。在訓練資料上有兩個高度相關的變數會導致多重共線性,因為它的模型無法在資料中找到模式,從而導致模型表現不佳。所以在訓練模型之前首先要盡量消除多重共線性。

5、異常值如何影響線性迴歸模型的表現?

異常值是值與資料點的平均值範圍不同的資料點。換句話說,這些點與數據不同或在第 3 標準之外。

機器學習迴歸模型相關重要知識點總結

線性迴歸模型試圖找出一條可以減少殘差的最佳擬合線。如果資料包含異常值,則最佳擬合線將向異常值移動一點,從而增加錯誤率並得出具有非常高 MSE 的模型。

6、什麼是 MSE 和 MAE 有什麼不同?

MSE 代表均方誤差,它是實際值和預測值之間的平方差。而 MAE 是目標值和預測值之間的絕對差。

MSE 會懲罰大錯誤,而 MAE 不會。隨著 MSE 和 MAE 的值都降低,模型趨向於一條更好的擬合線。

7、L1 和 L2 正規化是什麼,什麼時候該使用?

在機器學習中,我們的主要目標是創建一個可以在訓練和測試資料上表現更好的通用模型,但是在資料非常少的情況下,基本的線性迴歸模型往往會過度擬合,因此我們會使用l1 和l2 正規化。

L1 正規化或 lasso 迴歸透過在成本函數內添加添加斜率的絕對值作為懲罰項。有助於透過刪除斜率值小於閾值的所有資料點來去除異常值。

L2 正規化或ridge 迴歸增加了相當於係數大小平方的懲罰項。它會懲罰具有較高斜率值的特徵。

l1 和 l2 在訓練資料較少、變異數高、預測特徵大於觀察值、資料存在多重共線性的情況下都很有用。

8、異方差是什麼意思?

它是指最佳擬合線周圍的資料點的變異數在一個範圍內不一樣的情況。它導致殘差的不均勻分散。如果它存在於資料中,那麼模型傾向於預測無效輸出。檢定異方差的最好方法之一是繪製殘差圖。

資料內部異方差的最大原因之一是範圍特徵之間的巨大差異。例如,如果我們有一個從1 到100000 的列,那麼將值增加10% 不會改變較低的值,但在較高的值時則會產生非常大的差異,從而產生很大的方差差異的數據點。

9、變異數膨脹因子的作用是什麼的作用是什麼?

變異數膨脹因子(vif)用於找出使用其他自變數可預測自變數的程度。

讓我們以具有 v1、v2、v3、v4、v5 和 v6 特徵的範例資料為例。現在,為了計算 v1 的 vif,將其視為預測變量,並嘗試使用所有其他預測變量對其進行預測。

如果 VIF 的值很小,那麼最好從資料中刪除該變數。因為較小的值表示變數之間的高相關性。

10、逐步迴歸(stepwise regression)如何運作?

逐步迴歸是在假設檢定的幫助下,透過移除或加入預測變數來建立迴歸模型的一種方法。它透過迭代檢驗每個自變量的顯著性來預測因變量,並在每次迭代之後刪除或添加一些特徵。它運行n次,並試圖找到最佳的參數組合,以預測因變數的觀測值和預測值之間的誤差最小。

它可以非常有效率地管理大量數據,並解決高維度問題。

11、除了MSE 和 MAE 外迴歸還有什麼重要的指標嗎?

機器學習迴歸模型相關重要知識點總結

我們用一個迴歸問題來介紹這些指標,我們的其中輸入是工作經驗,輸出是薪水。下圖顯示了為預測薪水而繪製的線性迴歸線。

機器學習迴歸模型相關重要知識點總結

1、平均絕對誤差(MAE):

機器學習迴歸模型相關重要知識點總結

平均絕對誤差(MAE) 是最簡單的迴歸度量。它將每個實際值和預測值的差異相加,最後除以觀察次數。為了使迴歸模型被認為是一個好的模型,MAE 應該盡可能小。

MAE的優點是:

簡單易懂。結果將具有與輸出相同的單位。例如:如果輸出列的單位是LPA,那麼如果MAE 為1.2,那麼我們可以解釋結果是1.2LPA 或-1.2LPA,MAE 對異常值相對穩定(與其他一些迴歸指標相比,MAE 受異常值的影響較小)。

MAE的缺點是:

MAE使用的是模函數,但模函數不是在所有點都可微的,所以很多情況下不能作為損失函數。

2、均方誤差(MSE):

機器學習迴歸模型相關重要知識點總結

MSE取每個實際值和預測值之間的差異,然後將差異平方並將它們相加,最後除以觀測數量。為了使迴歸模型被認為是一個好的模型,MSE 應該盡可能小。

MSE的優點:平方函數在所有點上都是可微的,因此它可以用作損失函數。

MSE的缺點:由於 MSE 使用平方函數,結果的單位是輸出的平方。因此很難解釋結果。由於它使用平方函數,如果資料中有異常值,則差異也會被平方,因此,MSE 對異常值不穩定。

3、均方根誤差(RMSE):

機器學習迴歸模型相關重要知識點總結

#均方根誤差(RMSE)取每個實際值和預測值之間的差值,然後將差異平方並將它們相加,最後除以觀測數量。然後取結果的平方根。因此,RMSE 是 MSE 的平方根。為了使迴歸模型被認為是一個好的模型,RMSE 應該盡可能小。

RMSE 解決了 MSE 的問題,單位將與輸出的單位相同,因為它取平方根,但仍然對異常值不那麼穩定。

上述指標取決於我們正在解決的問題的上下文, 我們不能在不了解實際問題的情況下,只看 MAE、MSE 和 RMSE 的值來判斷模型的好壞。

4、R2 score:

機器學習迴歸模型相關重要知識點總結

如果我們沒有任何輸入數據,但是想知道他在這家公司能拿到多少薪水,那麼我們能做的最好的事情就是給他們所有員工薪水的平均值。

機器學習迴歸模型相關重要知識點總結

R2 score 給出的值介於 0 到 1 之間,可以針對任何上下文進行解釋。它可以理解為是適合度的好壞。

SSR 是迴歸線的誤差平方和,SSM 是均線誤差的平方和。我們將迴歸線與平均線進行比較。

機器學習迴歸模型相關重要知識點總結

  • 如果 R2 得分為 0,則表示我們的模型與平均線的結果是相同的,因此需要改進我們的模型。
  • 如果 R2 得分為 1,則等式的右側部分變為 0,這只有在我們的模型適合每個資料點且沒有出現誤差時才會發生。
  • 如果 R2 分數為負,則表示等式右邊大於 1,這可能發生在 SSR > SSM 時。這意味著我們的模型比平均線最差,也就是說我們的模型不如取平均數進行預測

如果我們模型的R2 得分為0.8,這意味著可以說模型能夠解釋80% 的輸出變異數。也就是說,80%的薪資變動可以用輸入(工作年資)來解釋,但剩下的20%是未知的。

如果我們的模型有2個特徵,工作年資和麵試分數,那麼我們的模型能夠使用這兩個輸入特徵來解釋80%的薪資變化。

R2的缺點:

隨著輸入特徵數量的增加,R2會趨於相應的增加或保持不變,但永遠不會下降,即使輸入特徵對我們的模型不重要(例如,將面試當天的氣溫添加到我們的範例中,R2是不會下降的即使溫度對輸出不重要)。

5、Adjusted R2 score:

上式中R2為R2,n為觀測數(行),p為獨立特徵數。 Adjusted R2解決了R2的問題。

當我們加入對我們的模型不那麼重要的特性時,例如添加溫度來預測工資.....

機器學習迴歸模型相關重要知識點總結

當加入對模型很重要的特性時,例如加入面試分數來預測薪資…

機器學習迴歸模型相關重要知識點總結

##以上就是迴歸問題的重要知識點和解決回歸問題使用的各種重要指標的介紹及其優缺點,希望對你有所幫助。

以上是機器學習迴歸模型相關重要知識點總結的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器