规范启动为ML初学者的数据科学堆栈-LINUX-PHP中文网

首页

系统教程

LINUX

规范启动为ML初学者的数据科学堆栈

Jennifer Aniston

Mar 17, 2025 am 10:22 AM

数据科学是数据的研究。它涉及收集，分析和解释大量信息。数据科学家使用这些信息来做出决策，解决问题并预测未来的趋势。

数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。

如果您是从数据科学开始的初学者，那么在建立适当的数据科学环境方面，您可能会面临一些挑战。

以下是建立数据科学环境对初学者可能具有挑战性的一些原因：

软件安装：新手通常在安装必要的软件（例如编程语言（例如Python或r），库和工具（例如Jupyter Notebooks或Rstudio））方面很难。
了解依赖关系：软件通常需要其他软件的特定版本才能正常工作。如果无法正确管理，这可能会令人困惑，并导致错误。
学习曲线：数据科学涉及学习新技能，包括编程，统计和机器学习。对于初学者来说，这可能是压倒性的。
数据处理：处理数据可能很复杂，尤其是在处理大型或混乱的数据集时。了解如何清洁，存储和处理数据至关重要，但最初可能很难掌握。
版本控制：跟踪代码和数据的更改很重要，但设置和管理可能很棘手，尤其是对于诸如GIT之类的版本控制系统的人。
选择合适的工具：有许多可用的工具和框架，为特定项目选择合适的工具可能会使初学者令人生畏。

通过了解这些挑战，初学者可以更好地准备自己，并寻求正确的资源和支持以克服它们。

对于新的数据科学家来说，最初的障碍可能具有挑战性，但是随着持久性和一致的学习，旅程将变得更加顺利。

多亏了Canonical的数据科学堆栈（DSS） ，现在设置数据科学变得更加容易。在本教程中，我们将讨论什么是数据科学堆栈，以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境。

什么是数据科学堆栈（DSS）？

Canonical的数据科学堆栈（DSS）是数据科学家和机器学习工程师的开箱即用解决方案。

数据科学堆栈通过提供预先配置的环境，包括所有必要的工具和库，用于机器学习和数据分析，从而简化了设置过程。

通过设计用于在Ubuntu工作站上运行并优化GPU的使用，DSS可以增强机器学习模型的性能，这对计算密集型任务特别有益。

DSS允许用户更多地关注其模型的开发和优化，而不是环境设置的技术。

这可以节省大量时间，否则将花费在安装和配置各个组件上。

数据科学堆栈中包括什么？

数据科学堆栈（DSS）为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的：

预安装的工具：DSS包括流行的开源工具，例如Microk8s ， Jupyterlab和MLFlow ，这对于数据探索，模型开发和实验跟踪至关重要。
机器学习框架：默认情况下，它具有两个广泛使用的机器学习框架， Pytorch和Tensorflow ，它们可以用于建筑和培训模型。
命令行接口（CLI） ：DSS提供了一种直观的CLI，用于部署这些工具和框架，从而更容易管理和扩展环境。
用户界面：部署后，用户可以访问工具的UI，以便在无需手动设置的情况下开始从事其数据科学项目。
包装依赖性：DSS处理包装依赖性，以确保所有工具，库和框架彼此兼容并顺利进行。
硬件兼容性：它旨在与机器的硬件兼容，优化工具和框架的性能
简化的配置：传统上，在工作站上设置机器学习环境可能很复杂且难以逆转。 DSS通过提供有效利用工作站的GPU的可访问，可访问，隔离和可重现的ML环境来解决这一问题。
GPU配置：DSS通过包括GPU操作员来简化GPU配置，该操作员管理GPU用于机器学习任务的设置和使用，从而有效利用其计算能力。

总体而言，DSS旨在为数据科学和机器学习提供无忧且优化的环境，使用户可以专注于其核心任务，而不是技术设置和维护其工具。

在Ubuntu安装数据科学堆栈（DSS）

要开始使用数据科学堆栈（DSS）进行机器学习和数据科学，请按照以下步骤设置您的环境：

先决条件

操作系统：确保您的系统上安装了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
Internet连接：您需要一个主动的Internet连接才能下载并安装必要的软件。
SNAP ：确保在系统上安装了SNAP，因为安装Microk8和DSS所需。

设置Microk8

DSS使用Microk8作为其容器编排系统，允许工作负载访问主机的GPU。

要在Ubuntu上安装Microk8，请运行：

 $ sudo snap安装microk8s  - 渠道1.28/稳定 - 经典

接下来，启用所需的服务：

 $ sudo microk8s启用存储DNS RBAC

安装DSS CLI

数据科学堆栈通过命令行接口（CLI）管理。

使用以下命令安装DSS CLI：

 $ sudo snap install data-science-stack-通道最新/稳定

完成这些步骤后，您将安装DSS的基础组件并准备使用。现在，您可以继续设置机器学习环境，并开始使用DSS CLI开始运行第一笔笔记本。

数据科学堆栈开始

安装Microk8和DSS CLI后，下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS，您需要使用THEDSS InitializeCommand，该启动量可以在Microk8s群集中设置必要的资源。

 $ DSS初始化-kubeconfig =“ $（sudo microk8s config）”

- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。

DSS初始化命令可能需要几分钟才能完成。在此期间，DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息：

 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...

此消息表明，DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下，请耐心等待。

初始化完成后，您将看到下面的输出：

 [info]执行初始化命令
[info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空间DSS中的部署MLFlow准备就绪...
[info]命名空间DSS中的部署MLFLOF已准备就绪
[INFO] DSS初始化。要创建第一个笔记本电脑运行命令：

DSS创建

示例：
  DSS创建mynotebook -image = pytorch
  DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy：v1.8.0

规范启动为ML初学者的数据科学堆栈

现在，您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。

然后，您可以继续在DSS环境中创建并运行第一个机器学习笔记本。

开始您的第一本Jupyter笔记本

要使用数据科学堆栈（DSS）启动第一个Jupyter笔记本，您需要使用Thedss CreateCommand，这使您可以指定要创建的笔记本的类型。

在这里，我们正在创建一个带有CUDA支持的tensorflow笔记本，名为My-Tensorflow-Notebook：

 $ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda：v1.8.0

成功创建笔记本后，您将看到下面的输出：

 [info]执行创建命令
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[info]命名空间DSS中的部署my-tensorflow notebook已准备就绪
[INFO]成功：笔记本My-Tensorflow-Notebook成功创建了。
[INFO]访问笔记本，请访问http://10.152.183.253:80。

规范启动为ML初学者的数据科学堆栈

笔记本准备好后，该命令显示一个URL，您可以使用该URL访问Jupyterlab UI。

要开始使用笔记本电脑，请打开Web浏览器，然后将提供的URL输入地址栏。

如您在上面的输出中看到的那样，我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。

这将带您进入Jupyterlab接口，您可以在其中创建新笔记本电脑，上传数据并使用TensorFlow和CUDA开始机器学习任务。

规范启动为ML初学者的数据科学堆栈

请记住，URL中的IP地址和端口号可能会根据您的特定设置而有所不同。

就是这样。您现在可以开始与笔记本互动。

查看DSS状态

要快速检查您的数据科学堆栈（DSS）环境的状态，包括MLFLOW的状态和GPU加速度的可用性，您可以使用如下所示。

 $ DSS状态

THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例：

 [INFO] MLFLOW部署：准备就绪
[info] mlflow URL：http：//10.152.183.157:5000
[INFO] GPU加速度：禁用

输出的说明：

MLFLOW部署：Ready表示MLFlow跟踪服务器正在启动并运行。
MLFlow URL提供了您可以在其中访问MLFlow UI以跟踪机器学习实验的URL。
GPU加速度：禁用表明，在当前DSS环境中没有可用或配置的GPU。

要验证，请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。

这将打开Web浏览器中的MLFlow仪表板。

MLFlow仪表板中的实验选项卡：

规范启动为ML初学者的数据科学堆栈

由于这是我们的新装置，因此还没有实验。为了创建实验，请使用MLFlow实验CLI。

MLFlow仪表板中的模型选项卡：

规范启动为ML初学者的数据科学堆栈

列表DSS命令

要查看数据科学堆栈（DSS）的可用命令列表，您可以将DSS命令与-HELP选项一起使用。

在您的终端中运行以下命令：

 $ dss-螺旋

这将显示命令列表以及其目的的简要说明。

如果您需要有关特定DSS命令的更多详细信息，则可以使用命令，然后使用-HELP选项。

例如，要获取有关初始化命令的详细信息，您将运行：

 $ DSS日志 - 螺旋

从microk8s中删除数据科学堆栈

如果您不再需要DSS，则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。

要删除DSS，请在您的终端中执行以下命令：

 $ DSS清除

该命令将完全删除所有DSS组件，包括Jupyter笔记本电脑，MLFLOW服务器以及DSS环境中存储的任何数据。

重要的是要注意，此操作是不可逆转的，并且DSS环境中的所有数据将永久丢失。在进行清除之前，请确保备份任何重要数据。

删除DSS CLI和MICROK8S

当DSS Purge命令从Microk8s群集中删除DSS组件时，它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容，则需要删除它们各自的快照：

要删除DSS CLI，请使用以下命令：

 $ sudo snap删除数据科学堆栈

要删除microk8s，请使用以下命令：

 $ sudo snap删除microk8s

通过遵循以下步骤，您可以从系统中完全删除数据科学堆栈（DSS）及其相关组件。

常见问题（常见问题解答）

问：什么是数据科学堆栈（DSS）？

答：数据科学堆栈（DSS）是一个用于机器学习和数据科学的全面，现成的环境。它旨在简化数据科学工具和框架的设置和管理，使用户可以专注于其核心任务，而不是环境配置的复杂性。

问：DSS中包含哪些工具？

答：DSS包括各种开源工具，例如Jupyter笔记本，MLFLOW和流行的机器学习框架，例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s，用于管理工作负载。

问：如何安装DSS？

答：要安装DSS，您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS，Internet连接并安装了SNAP。然后，您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明，请参阅《官方文档或安装指南》。

问：如何使用DSS启动jupyter笔记本？

答：您可以使用DSS Create命令启动带有DSS的Jupyter笔记本，为笔记本指定所需的图像。例如，要启动TensorFlow笔记本电脑，您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda：v1.8.0。

问：DSS状态命令的目的是什么？

答：DSS状态命令可快速概述DSS环境的当前状态，包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。

问：如何从环境中删除DSS？

答：要删除DSS，您可以使用DSS Purge命令，该命令将删除所有DSS组件，包括Jupyter Notebooks和MLFlow服务器。请注意，此操作是不可逆转的，将导致DSS环境中所有数据的丢失。

问：在哪里可以找到有关DSS命令的更多信息？

答：您可以通过使用DSS -HELP命令来列出所有可用命令和DSS - 螺旋，以获取特定命令的详细用法。

问：DSS可以免费使用吗？

是的，DSS基于开源工具，可以免费使用。

问：DSS适合数据科学的初学者？

答：是的，DSS的设计为用户友好，可以成为初学者的好工具，因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境，使用户可以快速开始从事数据科学项目。

结论

总之，数据科学堆栈（DSS）简化了数据科学任务的设置。它提供了一系列工具，可以很好地合作，从而更容易快速启动项目。

无论您是数据科学的新手还是经验丰富，DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具，支持有效的数据分析和模型构建。

资源：

数据科学堆栈（DSS）文档

相关阅读：

如何在Linux上安装Anaconda
如何在Linux中安装Miniconda

以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使用Next＆＃039; Linux中的尴尬命令 - 第6部分May 15, 2025 am 10:43 AM

在我们的尴尬系列的第六部分中，我们将探索下一个命令，该命令可以通过跳过冗余处理步骤来提高脚本执行的效率。下一个命令是什么？awk instruc中的下一个命令

如何在Linux中有效传输文件May 15, 2025 am 10:42 AM

在Linux系统中传输文件是一项常见任务，每个系统管理员都应掌握，尤其是涉及本地或远程系统间的网络传输。Linux提供了两种常用的工具来完成此任务：SCP（安全复制）和Rsync。两者都提供了一种安全且便捷的方式，用于在本地或远程机器之间传输文件。本文将详细介绍如何使用SCP和Rsync命令来传输文件，包括本地和远程文件传输。了解Linux中的scp（安全复制协议）scp命令是一个命令行程序，用于在两个主机之间通过SSH（安全 Shell）安全地复制文件和目录，这意味着在文件通过互联网传输时，数