數據科學是數據的研究。它涉及收集,分析和解釋大量信息。數據科學家使用這些信息來做出決策,解決問題並預測未來的趨勢。
數據科學家使用各種工具和技術來分析和解釋複雜的數據集。這有助於企業和組織做出更好的決策。
如果您是從數據科學開始的初學者,那麼在建立適當的數據科學環境方面,您可能會面臨一些挑戰。
以下是建立數據科學環境對初學者可能具有挑戰性的一些原因:
- 軟件安裝:新手通常在安裝必要的軟件(例如編程語言(例如Python或r),庫和工具(例如Jupyter Notebooks或Rstudio))方面很難。
- 了解依賴關係:軟件通常需要其他軟件的特定版本才能正常工作。如果無法正確管理,這可能會令人困惑,並導致錯誤。
- 學習曲線:數據科學涉及學習新技能,包括編程,統計和機器學習。對於初學者來說,這可能是壓倒性的。
- 數據處理:處理數據可能很複雜,尤其是在處理大型或混亂的數據集時。了解如何清潔,存儲和處理數據至關重要,但最初可能很難掌握。
- 版本控制:跟踪代碼和數據的更改很重要,但設置和管理可能很棘手,尤其是對於諸如GIT之類的版本控制系統的人。
- 選擇合適的工具:有許多可用的工具和框架,為特定項目選擇合適的工具可能會使初學者令人生畏。
通過了解這些挑戰,初學者可以更好地準備自己,並尋求正確的資源和支持以克服它們。
對於新的數據科學家來說,最初的障礙可能具有挑戰性,但是隨著持久性和一致的學習,旅程將變得更加順利。
多虧了Canonical的數據科學堆棧(DSS) ,現在設置數據科學變得更加容易。在本教程中,我們將討論什麼是數據科學堆棧,以及如何在Ubuntu操作系統中輕鬆快速地設置數據科學環境。
目錄
什麼是數據科學堆棧(DSS)?
Canonical的數據科學堆棧(DSS)是數據科學家和機器學習工程師的開箱即用解決方案。
數據科學堆棧通過提供預先配置的環境,包括所有必要的工具和庫,用於機器學習和數據分析,從而簡化了設置過程。
通過設計用於在Ubuntu工作站上運行並優化GPU的使用,DSS可以增強機器學習模型的性能,這對計算密集型任務特別有益。
DSS允許用戶更多地關注其模型的開發和優化,而不是環境設置的技術。
這可以節省大量時間,否則將花費在安裝和配置各個組件上。
數據科學堆棧中包括什麼?
數據科學堆棧(DSS)為數據科學家和機器學習工程師提供了一個全面而整合的環境。這是它提供的:
- 預安裝的工具:DSS包括流行的開源工具,例如Microk8s , Jupyterlab和MLFlow ,這對於數據探索,模型開發和實驗跟踪至關重要。
- 機器學習框架:默認情況下,它具有兩個廣泛使用的機器學習框架, Pytorch和Tensorflow ,它們可以用於建築和培訓模型。
- 命令行接口(CLI) :DSS提供了一種直觀的CLI,用於部署這些工具和框架,從而更容易管理和擴展環境。
- 用戶界面:部署後,用戶可以訪問工具的UI,以便在無需手動設置的情況下開始從事其數據科學項目。
- 包裝依賴性:DSS處理包裝依賴性,以確保所有工具,庫和框架彼此兼容並順利進行。
- 硬件兼容性:它旨在與機器的硬件兼容,優化工具和框架的性能
- 簡化的配置:傳統上,在工作站上設置機器學習環境可能很複雜且難以逆轉。 DSS通過提供有效利用工作站的GPU的可訪問,可訪問,隔離和可重現的ML環境來解決這一問題。
- GPU配置:DSS通過包括GPU操作員來簡化GPU配置,該操作員管理GPU用於機器學習任務的設置和使用,從而有效利用其計算能力。
總體而言,DSS旨在為數據科學和機器學習提供無憂且優化的環境,使用戶可以專注於其核心任務,而不是技術設置和維護其工具。
在Ubuntu安裝數據科學堆棧(DSS)
要開始使用數據科學堆棧(DSS)進行機器學習和數據科學,請按照以下步驟設置您的環境:
先決條件
- 操作系統:確保您的系統上安裝了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
- Internet連接:您需要一個主動的Internet連接才能下載並安裝必要的軟件。
- SNAP :確保在系統上安裝了SNAP,因為安裝Microk8和DSS所需。
設置Microk8
DSS使用Microk8作為其容器編排系統,允許工作負載訪問主機的GPU。
要在Ubuntu上安裝Microk8,請運行:
$ sudo snap安裝microk8s - 渠道1.28/穩定 - 經典
接下來,啟用所需的服務:
$ sudo microk8s啟用存儲DNS RBAC
安裝DSS CLI
數據科學堆棧通過命令行接口(CLI)管理。
使用以下命令安裝DSS CLI:
$ sudo snap install data-science-stack-通道最新/穩定
完成這些步驟後,您將安裝DSS的基礎組件並準備使用。現在,您可以繼續設置機器學習環境,並開始使用DSS CLI開始運行第一筆筆記本。
數據科學堆棧開始
安裝Microk8和DSS CLI後,下一步是在Microk8s頂部初始化DSS並準備MLFLOW以供使用。
初始化DSS和MLFLOW
要初始化DSS,您需要使用THEDSS InitializeCommand,該啟動量可以在Microk8s群集中設置必要的資源。
$ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
- kubeconfigflag用於指定Microk8S生成的Kubernetes配置文件的路徑。
DSS初始化命令可能需要幾分鐘才能完成。在此期間,DSS CLI將顯示表示部署進度的消息。您會看到類似於以下信息的消息:
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
此消息表明,DSS正在等待TensorFlow筆記本電腦的部署準備就緒。在系統設置環境並確保正確配置所有組件的情況下,請耐心等待。
初始化完成後,您將看到下面的輸出:
[info]執行初始化命令 [info]存儲提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config [INFO]等待命名空間DSS中的部署MLFlow準備就緒... [info]命名空間DSS中的部署MLFLOF已準備就緒 [INFO] DSS初始化。要創建第一個筆記本電腦運行命令: DSS創建 示例: DSS創建mynotebook -image = pytorch DSS創建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
現在,您將準備開始使用MLFlow跟踪服務器和DSS提供的其他組件。
然後,您可以繼續在DSS環境中創建並運行第一個機器學習筆記本。
開始您的第一本Jupyter筆記本
要使用數據科學堆棧(DSS)啟動第一個Jupyter筆記本,您需要使用Thedss CreateCommand,這使您可以指定要創建的筆記本的類型。
在這裡,我們正在創建一個帶有CUDA支持的tensorflow筆記本,名為My-Tensorflow-Notebook:
$ dss創建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
成功創建筆記本後,您將看到下面的輸出:
[info]執行創建命令 [INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready... [INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒... [INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒... [info]命名空間DSS中的部署my-tensorflow notebook已準備就緒 [INFO]成功:筆記本My-Tensorflow-Notebook成功創建了。 [INFO]訪問筆記本,請訪問http://10.152.183.253:80。
筆記本準備好後,該命令顯示一個URL,您可以使用該URL訪問Jupyterlab UI。
要開始使用筆記本電腦,請打開Web瀏覽器,然後將提供的URL輸入地址欄。
如您在上面的輸出中看到的那樣,我們可以從Web瀏覽器訪問http://10.152.183.253:80的新創建的筆記本。用您自己的URL替換URL。
這將帶您進入Jupyterlab接口,您可以在其中創建新筆記本電腦,上傳數據並使用TensorFlow和CUDA開始機器學習任務。
請記住,URL中的IP地址和端口號可能會根據您的特定設置而有所不同。
就是這樣。您現在可以開始與筆記本互動。
查看DSS狀態
要快速檢查您的數據科學堆棧(DSS)環境的狀態,包括MLFLOW的狀態和GPU加速度的可用性,您可以使用如下所示。
$ DSS狀態
THEDSS STATUCMAND將為您提供DSS環境當前狀態的摘要。這是輸出外觀的示例:
[INFO] MLFLOW部署:準備就緒 [info] mlflow URL:http://10.152.183.157:5000 [INFO] GPU加速度:禁用
輸出的說明:
- MLFLOW部署:Ready表示MLFlow跟踪服務器正在啟動並運行。
- MLFlow URL提供了您可以在其中訪問MLFlow UI以跟踪機器學習實驗的URL。
- GPU加速度:禁用表明,在當前DSS環境中沒有可用或配置的GPU。
要驗證,請從Web瀏覽器打開MLFLOW URL http://10.152.183.157:5000。
這將打開Web瀏覽器中的MLFlow儀表板。
MLFlow儀表板中的實驗選項卡:
由於這是我們的新裝置,因此還沒有實驗。為了創建實驗,請使用MLFlow實驗CLI。
MLFlow儀表板中的模型選項卡:
列表DSS命令
要查看數據科學堆棧(DSS)的可用命令列表,您可以將DSS命令與-HELP選項一起使用。
在您的終端中運行以下命令:
$ dss-螺旋
這將顯示命令列表以及其目的的簡要說明。
如果您需要有關特定DSS命令的更多詳細信息,則可以使用命令,然後使用-HELP選項。
例如,要獲取有關初始化命令的詳細信息,您將運行:
$ DSS日誌 - 螺旋
從microk8s中刪除數據科學堆棧
如果您不再需要DSS,則可以使用DSS Purge命令從Microk8s群集中刪除數據科學堆棧。
要刪除DSS,請在您的終端中執行以下命令:
$ DSS清除
該命令將完全刪除所有DSS組件,包括Jupyter筆記本電腦,MLFLOW服務器以及DSS環境中存儲的任何數據。
重要的是要注意,此操作是不可逆轉的,並且DSS環境中的所有數據將永久丟失。在進行清除之前,請確保備份任何重要數據。
刪除DSS CLI和MICROK8S
當DSS Purge命令從Microk8s群集中刪除DSS組件時,它不會刪除DSS CLI或Microk8s群集本身。如果您也想刪除這些內容,則需要刪除它們各自的快照:
要刪除DSS CLI,請使用以下命令:
$ sudo snap刪除數據科學堆棧
要刪除microk8s,請使用以下命令:
$ sudo snap刪除microk8s
通過遵循以下步驟,您可以從系統中完全刪除數據科學堆棧(DSS)及其相關組件。
常見問題(常見問題解答)
問:什麼是數據科學堆棧(DSS)?答:數據科學堆棧(DSS)是一個用於機器學習和數據科學的全面,現成的環境。它旨在簡化數據科學工具和框架的設置和管理,使用戶可以專注於其核心任務,而不是環境配置的複雜性。
問:DSS中包含哪些工具?答:DSS包括各種開源工具,例如Jupyter筆記本,MLFLOW和流行的機器學習框架,例如Tensorflow和Pytorch。它還提供了一個容器編排系統Microk8s,用於管理工作負載。
問:如何安裝DSS?答:要安裝DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet連接並安裝了SNAP。然後,您可以使用SNAP命令安裝Microk8和DSS CLI。有關詳細說明,請參閱《官方文檔或安裝指南》。
問:如何使用DSS啟動jupyter筆記本?答:您可以使用DSS Create命令啟動帶有DSS的Jupyter筆記本,為筆記本指定所需的圖像。例如,要啟動TensorFlow筆記本電腦,您將使用DSS創建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。
問:DSS狀態命令的目的是什麼?答:DSS狀態命令可快速概述DSS環境的當前狀態,包括MLFLOW的狀態和GPU加速度的可用性。它可以幫助您驗證所有組件的運行正確。
問:如何從環境中刪除DSS?答:要刪除DSS,您可以使用DSS Purge命令,該命令將刪除所有DSS組件,包括Jupyter Notebooks和MLFlow服務器。請注意,此操作是不可逆轉的,將導致DSS環境中所有數據的丟失。
問:在哪裡可以找到有關DSS命令的更多信息?答:您可以通過使用DSS -HELP命令來列出所有可用命令和DSS
是的,DSS基於開源工具,可以免費使用。
問:DSS適合數據科學的初學者?答:是的,DSS的設計為用戶友好,可以成為初學者的好工具,因為它降低了設置數據科學環境的複雜性。它提供了現成的優化環境,使用戶可以快速開始從事數據科學項目。
結論
總之,數據科學堆棧(DSS)簡化了數據科學任務的設置。它提供了一系列工具,可以很好地合作,從而更容易快速啟動項目。
無論您是數據科學的新手還是經驗豐富,DSS都可以通過處理技術設置來幫助您專注於工作。這是一個可靠的工具,支持有效的數據分析和模型構建。
資源:
- 數據科學堆棧(DSS)文檔
相關閱讀:
- 如何在Linux上安裝Anaconda
- 如何在Linux中安裝Miniconda
以上是規範啟動為ML初學者的數據科學堆棧的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Linux和Windows在硬件兼容性上不同:Windows有廣泛的驅動程序支持,Linux依賴社區和廠商。解決Linux兼容性問題可通過手動編譯驅動,如克隆RTL8188EU驅動倉庫、編譯和安裝;Windows用戶需管理驅動程序以優化性能。

Linux和Windows在虛擬化支持上的主要區別在於:1)Linux提供KVM和Xen,性能和靈活性突出,適合高定制環境;2)Windows通過Hyper-V支持虛擬化,界面友好,與Microsoft生態系統緊密集成,適合依賴Microsoft軟件的企業。

Linux系統管理員的主要任務包括系統監控與性能調優、用戶管理、軟件包管理、安全管理與備份、故障排查與解決、性能優化與最佳實踐。 1.使用top、htop等工具監控系統性能,並進行調優。 2.通過useradd等命令管理用戶賬戶和權限。 3.利用apt、yum管理軟件包,確保系統更新和安全。 4.配置防火牆、監控日誌、進行數據備份以確保系統安全。 5.通過日誌分析和工具使用進行故障排查和解決。 6.優化內核參數和應用配置,遵循最佳實踐提升系統性能和穩定性。

學習Linux並不難。 1.Linux是一個開源操作系統,基於Unix,廣泛應用於服務器、嵌入式系統和個人電腦。 2.理解文件系統和權限管理是關鍵,文件系統是層次化的,權限包括讀、寫和執行。 3.包管理系統如apt和dnf使得軟件管理方便。 4.進程管理通過ps和top命令實現。 5.從基本命令如mkdir、cd、touch和nano開始學習,再嘗試高級用法如shell腳本和文本處理。 6.常見錯誤如權限問題可以通過sudo和chmod解決。 7.性能優化建議包括使用htop監控資源、清理不必要文件和使用sy

Linux管理員的平均年薪在美國為75,000至95,000美元,歐洲為40,000至60,000歐元。提升薪資可以通過:1.持續學習新技術,如雲計算和容器技術;2.積累項目經驗並建立Portfolio;3.建立職業網絡,拓展人脈。

Linux的主要用途包括:1.服務器操作系統,2.嵌入式系統,3.桌面操作系統,4.開發和測試環境。 Linux在這些領域表現出色,提供了穩定性、安全性和高效的開發工具。

互聯網運行不依賴單一操作系統,但Linux在其中扮演重要角色。 Linux廣泛應用於服務器和網絡設備,因其穩定性、安全性和可擴展性受歡迎。

Linux操作系統的核心是其命令行界面,通過命令行可以執行各種操作。 1.文件和目錄操作使用ls、cd、mkdir、rm等命令管理文件和目錄。 2.用戶和權限管理通過useradd、passwd、chmod等命令確保系統安全和資源分配。 3.進程管理使用ps、kill等命令監控和控制系統進程。 4.網絡操作包括ping、ifconfig、ssh等命令配置和管理網絡連接。 5.系統監控和維護通過top、df、du等命令了解系統運行狀態和資源使用情況。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。