這是一個AI賦能的時代,而機器學習則是實現AI的一種重要技術手段。那麼,是否存在一個通用的通用的機器學習系統架構呢?
在老碼農的認知範圍內,Anything is nothing,對系統架構而言尤其如此。但是,如果適用於大多數機器學習驅動的系統或用例,建立一個可擴展的、可靠的機器學習系統架構還是可能的。 從機器學習生命週期的角度來看,這個所謂的通用架構涵蓋了關鍵的機器學習階段,從開發機器學習模型,到部署訓練系統和服務系統到生產環境。 我們可以嘗試從10個要素的維度來描述這樣的一個機器學習系統架構。
1.數據和特徵工程流水線
在給定的時間內提供高品質的數據,並以可伸縮和靈活的方式生成有用的機器學習特徵。一般來說,資料流水線可以與特徵工程管線分離。資料管線是指提取、轉換和載入(ETL)的管線,其中,資料工程師負責將資料傳輸到儲存位置,例如建立在物件儲存之上的資料湖,特徵工程管線著重於將原始資料轉換成可以幫助機器學習演算法更快、更準確地學習的機器學習特徵。
特徵工程一般分為兩個階段。在第一階段,特徵工程邏輯通常由資料科學家在開發階段透過各種實驗創建,以便找到最佳的特徵集合,而資料工程師或機器學習工程師則負責特徵工程管線的生產,為模型訓練和在生產環境中服務提供高品質的特徵資料。
2. 特徵儲存
儲存機器學習的特徵數據,進行版本管理,用於發現、共享和重用,並為模型訓練和服務提供一致的數據和機器學習特徵,從而提高機器學習系統的可靠性。
面對機器學習的特徵數據,特徵儲存是特徵工程管線創建的持久化儲存方案。特性儲存支援模型訓練和服務。因此,它是一個非常重要的部分,是端對端機器學習系統架構的重要元件。
3.機器學習模型訓練和再訓練管線
對於機器學習訓練運行不同的參數和超參數,以一種簡單和可配置的方式進行實驗,並記錄這些訓練所運行的各種參數和模型性能指標。自動評估、驗證、選擇表現最好的模型並記錄到機器學習模型庫中。
4.訓練與模型的元存儲
存儲並記錄機器學習的運行,包括參數、指標、代碼、配置結果和經過培訓的模型,並提供模型的生命週期管理、模型註解、模型發現和模型重用等功能。
對於一個完整的機器學習系統來說,以工程、模型訓練和模型服務為特徵,可以從資料中產生大量的元資料。所有這些元資料對於了解系統如何運作非常有用,可以從資料-> 特徵-> 模型-> 服務端來提供可追蹤性,並在模型停止工作時提供用於調試的有用資訊。
5.機器學習模型服務管線
為在生產環境中使用機器學習模型提供適當的基礎設施,既考慮到全程服務,也要考慮延遲。
一般來說,有三種服務模式: 大量服務、串流服務和online服務。每種服務類型都需要完全不同的基礎設施。此外,基礎設施應該是容錯和自動擴展的,以回應請求和吞吐量波動,特別是對於關鍵業務的機器學習系統。
6.監控生產中的ML 模型
在生產環境中,在發現資料和模型漂移及異常時,提供資料收集、監控、分析、視覺化和通知功能,並提供必要的資訊協助系統調試。
7.機器學習管線
與特定的機器學習工作流程相比,機器學習管線提供了一個可重複使用的框架,使資料科學家能夠更快地開發和迭代,同時保持高品質的程式碼並減少生產時間。一些機器學習管線框架也提供了編排和架構抽象的功能。
8.工作流程編排
工作流程編排是整合端對端機器學習系統的關鍵元件,協調和管理所有這些關鍵元件的依賴項。工作流程編排工具還提供諸如日誌記錄、快取、調試和重試等功能。
9.持續整合/持續訓練/持續交付(CI/CT/CD)
持續測試和持續整合是指持續以新資料訓練新模型,在需要時升級模型效能,並以安全、敏捷和自動化的方式持續為生產環境提供服務並部署模型。
10.針對資料和模型的端對端品質控制
在端對端機器學習工作流程的各個階段,需要嵌入可靠的資料品質檢查、模型品質檢查、資料和概念漂移偵測,以確保機器學習系統本身是可靠且可信的。這些品質控制的檢查包括描述統計、整體資料形狀、資料缺失、資料重複、幾乎恆定的特徵、統計測試、距離指標和模型預測質量,等等。
以上,可以稱為機器學習系統架構的10個要素。在我們的實踐中,整個工作流程應該保持大致相同,但可能需要對其中某些要素進行調整和自訂。
如何調整機器學習的系統架構呢?
如何在產品設計之初精簡架構要素呢?
如何在引進機器學習系統系統時,維持原有系統架構的持續性呢?
以上是機器學習系統架構的十個要素的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。