搜尋
首頁系統教程Linux規範啟動為ML初學者的數據科學堆棧

數據科學是數據的研究。它涉及收集,分析和解釋大量信息。數據科學家使用這些信息來做出決策,解決問題並預測未來的趨勢。

數據科學家使用各種工具和技術來分析和解釋複雜的數據集。這有助於企業和組織做出更好的決策。

如果您是從數據科學開始的初學者,那麼在建立適當的數據科學環境方面,您可能會面臨一些挑戰。

以下是建立數據科學環境對初學者可能具有挑戰性的一些原因:

  1. 軟件安裝:新手通常在安裝必要的軟件(例如編程語言(例如Python或r),庫和工具(例如Jupyter Notebooks或Rstudio))方面很難。
  2. 了解依賴關係:軟件通常需要其他軟件的特定版本才能正常工作。如果無法正確管理,這可能會令人困惑,並導致錯誤。
  3. 學習曲線:數據科學涉及學習新技能,包括編程,統計和機器學習。對於初學者來說,這可能是壓倒性的。
  4. 數據處理:處理數據可能很複雜,尤其是在處理大型或混亂的數據集時。了解如何清潔,存儲和處理數據至關重要,但最初可能很難掌握。
  5. 版本控制:跟踪代碼和數據的更改很重要,但設置和管理可能很棘手,尤其是對於諸如GIT之類的版本控制系統的人。
  6. 選擇合適的工具:有許多可用的工具和框架,為特定項目選擇合適的工具可能會使初學者令人生畏。

通過了解這些挑戰,初學者可以更好地準備自己,並尋求正確的資源和支持以克服它們。

對於新的數據科學家來說,最初的障礙可能具有挑戰性,但是隨著持久性和一致的學習,旅程將變得更加順利。

多虧了Canonical的數據科學堆棧(DSS) ,現在設置數據科學變得更加容易。在本教程中,我們將討論什麼是數據科學堆棧,以及如何在Ubuntu操作系統中輕鬆快速地設置數據科學環境

目錄

什麼是數據科學堆棧(DSS)?

Canonical的數據科學堆棧(DSS)是數據科學家和機器學習工程師的開箱即用解決方案。

數據科學堆棧通過提供預先配置的環境,包括所有必要的工具和庫,用於機器學習和數據分析,從而簡化了設置過程。

通過設計用於在Ubuntu工作站上運行並優化GPU的使用,DSS可以增強機器學習模型的性能,這對計算密集型任務特別有益。

DSS允許用戶更多地關注其模型的開發和優化,而不是環境設置的技術。

這可以節省大量時間,否則將花費在安裝和配置各個組件上。

數據科學堆棧中包括什麼?

數據科學堆棧(DSS)為數據科學家和機器學習工程師提供了一個全面而整合的環境。這是它提供的:

  1. 預安裝的工具:DSS包括流行的開源工具,例如Microk8sJupyterlabMLFlow ,這對於數據探索,模型開發和實驗跟踪至關重要。
  2. 機器學習框架:默認情況下,它具有兩個廣泛使用的機器學習框架, PytorchTensorflow ,它們可以用於建築和培訓模型。
  3. 命令行接口(CLI) :DSS提供了一種直觀的CLI,用於部署這些工具和框架,從而更容易管理和擴展環境。
  4. 用戶界面:部署後,用戶可以訪問工具的UI,以便在無需手動設置的情況下開始從事其數據科學項目。
  5. 包裝依賴性:DSS處理包裝依賴性,以確保所有工具,庫和框架彼此兼容並順利進行。
  6. 硬件兼容性:它旨在與機器的硬件兼容,優化工具和框架的性能
  7. 簡化的配置:傳統上,在工作站上設置機器學習環境可能很複雜且難以逆轉。 DSS通過提供有效利用工作站的GPU的可訪問,可訪問,隔離和可重現的ML環境來解決這一問題。
  8. GPU配置:DSS通過包括GPU操作員來簡化GPU配置,該操作員管理GPU用於機器學習任務的設置和使用,從而有效利用其計算能力。

總體而言,DSS旨在為數據科學和機器學習提供無憂且優化的環境,使用戶可以專注於其核心任務,而不是技術設置和維護其工具。

在Ubuntu安裝數據科學堆棧(DSS)

要開始使用數據科學堆棧(DSS)進行機器學習和數據科學,請按照以下步驟設置您的環境:

先決條件

  • 操作系統:確保您的系統上安裝了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
  • Internet連接:您需要一個主動的Internet連接才能下載並安裝必要的軟件。
  • SNAP :確保在系統上安裝了SNAP,因為安裝Microk8和DSS所需。

設置Microk8

DSS使用Microk8作為其容器編排系統,允許工作負載訪問主機的GPU。

要在Ubuntu上安裝Microk8,請運行:

 $ sudo snap安裝microk8s  - 渠道1.28/穩定 - 經典

接下來,啟用所需的服務:

 $ sudo microk8s啟用存儲DNS RBAC

安裝DSS CLI

數據科學堆棧通過命令行接口(CLI)管理。

使用以下命令安裝DSS CLI:

 $ sudo snap install data-science-stack-通道最新/穩定

完成這些步驟後,您將安裝DSS的基礎組件並準備使用。現在,您可以繼續設置機器學習環境,並開始使用DSS CLI開始運行第一筆筆記本。

數據科學堆棧開始

安裝Microk8和DSS CLI後,下一步是在Microk8s頂部初始化DSS並準備MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS,您需要使用THEDSS InitializeCommand,該啟動量可以在Microk8s群集中設置必要的資源。

 $ DSS初始化-kubeconfig =“ $(sudo microk8s config)”

- kubeconfigflag用於指定Microk8S生成的Kubernetes配置文件的路徑。

DSS初始化命令可能需要幾分鐘才能完成。在此期間,DSS CLI將顯示表示部署進度的消息。您會看到類似於以下信息的消息:

 [INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...

此消息表明,DSS正在等待TensorFlow筆記本電腦的部署準備就緒。在系統設置環境並確保正確配置所有組件的情況下,請耐心等待。

初始化完成後,您將看到下面的輸出:

 [info]執行初始化命令
[info]存儲提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空間DSS中的部署MLFlow準備就緒...
[info]命名空間DSS中的部署MLFLOF已準備就緒
[INFO] DSS初始化。要創建第一個筆記本電腦運行命令:

DSS創建

示例:
  DSS創建mynotebook -image = pytorch
  DSS創建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0

規範啟動為ML初學者的數據科學堆棧

現在,您將準備開始使用MLFlow跟踪服務器和DSS提供的其他組件。

然後,您可以繼續在DSS環境中創建並運行第一個機器學習筆記本。

開始您的第一本Jupyter筆記本

要使用數據科學堆棧(DSS)啟動第一個Jupyter筆記本,您需要使用Thedss CreateCommand,這使您可以指定要創建的筆記本的類型。

在這裡,我們正在創建一個帶有CUDA支持的tensorflow筆記本,名為My-Tensorflow-Notebook:

 $ dss創建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0

成功創建筆記本後,您將看到下面的輸出:

 [info]執行創建命令
[INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[info]命名空間DSS中的部署my-tensorflow notebook已準備就緒
[INFO]成功:筆記本My-Tensorflow-Notebook成功創建了。
[INFO]訪問筆記本,請訪問http://10.152.183.253:80。

規範啟動為ML初學者的數據科學堆棧

筆記本準備好後,該命令顯示一個URL,您可以使用該URL訪問Jupyterlab UI。

要開始使用筆記本電腦,請打開Web瀏覽器,然後將提供的URL輸入地址欄。

如您在上面的輸出中看到的那樣,我們可以從Web瀏覽器訪問http://10.152.183.253:80的新創建的筆記本。用您自己的URL替換URL。

這將帶您進入Jupyterlab接口,您可以在其中創建新筆記本電腦,上傳數據並使用TensorFlow和CUDA開始機器學習任務。

規範啟動為ML初學者的數據科學堆棧

請記住,URL中的IP地址和端口號可能會根據您的特定設置而有所不同。

就是這樣。您現在可以開始與筆記本互動。

查看DSS狀態

要快速檢查您的數據科學堆棧(DSS)環境的狀態,包括MLFLOW的狀態和GPU加速度的可用性,您可以使用如下所示。

 $ DSS狀態

THEDSS STATUCMAND將為您提供DSS環境當前狀態的摘要。這是輸出外觀的示例:

 [INFO] MLFLOW部署:準備就緒
[info] mlflow URL:http://10.152.183.157:5000
[INFO] GPU加速度:禁用

輸出的說明:

  • MLFLOW部署:Ready表示MLFlow跟踪服務器正在啟動並運行。
  • MLFlow URL提供了您可以在其中訪問MLFlow UI以跟踪機器學習實驗的URL。
  • GPU加速度:禁用表明,在當前DSS環境中沒有可用或配置的GPU。

要驗證,請從Web瀏覽器打開MLFLOW URL http://10.152.183.157:5000。

這將打開Web瀏覽器中的MLFlow儀表板。

MLFlow儀表板中的實驗選項卡:

規範啟動為ML初學者的數據科學堆棧

由於這是我們的新裝置,因此還沒有實驗。為了創建實驗,請使用MLFlow實驗CLI。

MLFlow儀表板中的模型選項卡:

規範啟動為ML初學者的數據科學堆棧

列表DSS命令

要查看數據科學堆棧(DSS)的可用命令列表,您可以將DSS命令與-HELP選項一起使用。

在您的終端中運行以下命令:

 $ dss-螺旋

這將顯示命令列表以及其目的的簡要說明。

如果您需要有關特定DSS命令的更多詳細信息,則可以使用命令,然後使用-HELP選項。

例如,要獲取有關初始化命令的詳細信息,您將運行:

 $ DSS日誌 - 螺旋

從microk8s中刪除數據科學堆棧

如果您不再需要DSS,則可以使用DSS Purge命令從Microk8s群集中刪除數據科學堆棧。

要刪除DSS,請在您的終端中執行以下命令:

 $ DSS清除

該命令將完全刪除所有DSS組件,包括Jupyter筆記本電腦,MLFLOW服務器以及DSS環境中存儲的任何數據。

重要的是要注意,此操作是不可逆轉的,並且DSS環境中的所有數據將永久丟失。在進行清除之前,請確保備份任何重要數據。

刪除DSS CLI和MICROK8S

當DSS Purge命令從Microk8s群集中刪除DSS組件時,它不會刪除DSS CLI或Microk8s群集本身。如果您也想刪除這些內容,則需要刪除它們各自的快照:

要刪除DSS CLI,請使用以下命令:

 $ sudo snap刪除數據科學堆棧

要刪除microk8s,請使用以下命令:

 $ sudo snap刪除microk8s

通過遵循以下步驟,您可以從系統中完全刪除數據科學堆棧(DSS)及其相關組件。

常見問題(常見問題解答)

問:什麼是數據科學堆棧(DSS)?

答:數據科學堆棧(DSS)是一個用於機器學習和數據科學的全面,現成的環境。它旨在簡化數據科學工具和框架的設置和管理,使用戶可以專注於其核心任務,而不是環境配置的複雜性。

問:DSS中包含哪些工具?

答:DSS包括各種開源工具,例如Jupyter筆記本,MLFLOW和流行的機器學習框架,例如Tensorflow和Pytorch。它還提供了一個容器編排系統Microk8s,用於管理工作負載。

問:如何安裝DSS?

答:要安裝DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet連接並安裝了SNAP。然後,您可以使用SNAP命令安裝Microk8和DSS CLI。有關詳細說明,請參閱《官方文檔或安裝指南》。

問:如何使用DSS啟動jupyter筆記本?

答:您可以使用DSS Create命令啟動帶有DSS的Jupyter筆記本,為筆記本指定所需的圖像。例如,要啟動TensorFlow筆記本電腦,您將使用DSS創建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。

問:DSS狀態命令的目的是什麼?

答:DSS狀態命令可快速概述DSS環境的當前狀態,包括MLFLOW的狀態和GPU加速度的可用性。它可以幫助您驗證所有組件的運行正確。

問:如何從環境中刪除DSS?

答:要刪除DSS,您可以使用DSS Purge命令,該命令將刪除所有DSS組件,包括Jupyter Notebooks和MLFlow服務器。請注意,此操作是不可逆轉的,將導致DSS環境中所有數據的丟失。

問:在哪裡可以找到有關DSS命令的更多信息?

答:您可以通過使用DSS -HELP命令來列出所有可用命令和DSS - 螺旋,以獲取特定命令的詳細用法。

問:DSS可以免費使用嗎?

是的,DSS基於開源工具,可以免費使用。

問:DSS適合數據科學的初學者?

答:是的,DSS的設計為用戶友好,可以成為初學者的好工具,因為它降低了設置數據科學環境的複雜性。它提供了現成的優化環境,使用戶可以快速開始從事數據科學項目。

結論

總之,數據科學堆棧(DSS)簡化了數據科學任務的設置。它提供了一系列工具,可以很好地合作,從而更容易快速啟動項目。

無論您是數據科學的新手還是經驗豐富,DSS都可以通過處理技術設置來幫助您專注於工作。這是一個可靠的工具,支持有效的數據分析和模型構建。

資源

  • 數據科學堆棧(DSS)文檔

相關閱讀

  • 如何在Linux上安裝Anaconda
  • 如何在Linux中安裝Miniconda

以上是規範啟動為ML初學者的數據科學堆棧的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Linux和Windows之間的硬件兼容性有何不同?Linux和Windows之間的硬件兼容性有何不同?Apr 23, 2025 am 12:15 AM

Linux和Windows在硬件兼容性上不同:Windows有廣泛的驅動程序支持,Linux依賴社區和廠商。解決Linux兼容性問題可通過手動編譯驅動,如克隆RTL8188EU驅動倉庫、編譯和安裝;Windows用戶需管理驅動程序以優化性能。

Linux和Windows之間虛擬化支持有哪些差異?Linux和Windows之間虛擬化支持有哪些差異?Apr 22, 2025 pm 06:09 PM

Linux和Windows在虛擬化支持上的主要區別在於:1)Linux提供KVM和Xen,性能和靈活性突出,適合高定制環境;2)Windows通過Hyper-V支持虛擬化,界面友好,與Microsoft生態系統緊密集成,適合依賴Microsoft軟件的企業。

Linux系統管理員的主要任務是什麼?Linux系統管理員的主要任務是什麼?Apr 19, 2025 am 12:23 AM

Linux系統管理員的主要任務包括系統監控與性能調優、用戶管理、軟件包管理、安全管理與備份、故障排查與解決、性能優化與最佳實踐。 1.使用top、htop等工具監控系統性能,並進行調優。 2.通過useradd等命令管理用戶賬戶和權限。 3.利用apt、yum管理軟件包,確保系統更新和安全。 4.配置防火牆、監控日誌、進行數據備份以確保系統安全。 5.通過日誌分析和工具使用進行故障排查和解決。 6.優化內核參數和應用配置,遵循最佳實踐提升系統性能和穩定性。

很難學習Linux嗎?很難學習Linux嗎?Apr 18, 2025 am 12:23 AM

學習Linux並不難。 1.Linux是一個開源操作系統,基於Unix,廣泛應用於服務器、嵌入式系統和個人電腦。 2.理解文件系統和權限管理是關鍵,文件系統是層次化的,權限包括讀、寫和執行。 3.包管理系統如apt和dnf使得軟件管理方便。 4.進程管理通過ps和top命令實現。 5.從基本命令如mkdir、cd、touch和nano開始學習,再嘗試高級用法如shell腳本和文本處理。 6.常見錯誤如權限問題可以通過sudo和chmod解決。 7.性能優化建議包括使用htop監控資源、清理不必要文件和使用sy

Linux管理員的薪水是多少?Linux管理員的薪水是多少?Apr 17, 2025 am 12:24 AM

Linux管理員的平均年薪在美國為75,000至95,000美元,歐洲為40,000至60,000歐元。提升薪資可以通過:1.持續學習新技術,如雲計算和容器技術;2.積累項目經驗並建立Portfolio;3.建立職業網絡,拓展人脈。

Linux的主要目的是什麼?Linux的主要目的是什麼?Apr 16, 2025 am 12:19 AM

Linux的主要用途包括:1.服務器操作系統,2.嵌入式系統,3.桌面操作系統,4.開發和測試環境。 Linux在這些領域表現出色,提供了穩定性、安全性和高效的開發工具。

互聯網在Linux上運行嗎?互聯網在Linux上運行嗎?Apr 14, 2025 am 12:03 AM

互聯網運行不依賴單一操作系統,但Linux在其中扮演重要角色。 Linux廣泛應用於服務器和網絡設備,因其穩定性、安全性和可擴展性受歡迎。

Linux操作是什麼?Linux操作是什麼?Apr 13, 2025 am 12:20 AM

Linux操作系統的核心是其命令行界面,通過命令行可以執行各種操作。 1.文件和目錄操作使用ls、cd、mkdir、rm等命令管理文件和目錄。 2.用戶和權限管理通過useradd、passwd、chmod等命令確保系統安全和資源分配。 3.進程管理使用ps、kill等命令監控和控制系統進程。 4.網絡操作包括ping、ifconfig、ssh等命令配置和管理網絡連接。 5.系統監控和維護通過top、df、du等命令了解系統運行狀態和資源使用情況。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。