搜索
首页系统教程LINUX规范启动为ML初学者的数据科学堆栈

数据科学是数据的研究。它涉及收集,分析和解释大量信息。数据科学家使用这些信息来做出决策,解决问题并预测未来的趋势。

数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。

如果您是从数据科学开始的初学者,那么在建立适当的数据科学环境方面,您可能会面临一些挑战。

以下是建立数据科学环境对初学者可能具有挑战性的一些原因:

  1. 软件安装:新手通常在安装必要的软件(例如编程语言(例如Python或r),库和工具(例如Jupyter Notebooks或Rstudio))方面很难。
  2. 了解依赖关系:软件通常需要其他软件的特定版本才能正常工作。如果无法正确管理,这可能会令人困惑,并导致错误。
  3. 学习曲线:数据科学涉及学习新技能,包括编程,统计和机器学习。对于初学者来说,这可能是压倒性的。
  4. 数据处理:处理数据可能很复杂,尤其是在处理大型或混乱的数据集时。了解如何清洁,存储和处理数据至关重要,但最初可能很难掌握。
  5. 版本控制:跟踪代码和数据的更改很重要,但设置和管理可能很棘手,尤其是对于诸如GIT之类的版本控制系统的人。
  6. 选择合适的工具:有许多可用的工具和框架,为特定项目选择合适的工具可能会使初学者令人生畏。

通过了解这些挑战,初学者可以更好地准备自己,并寻求正确的资源和支持以克服它们。

对于新的数据科学家来说,最初的障碍可能具有挑战性,但是随着持久性和一致的学习,旅程将变得更加顺利。

多亏了Canonical的数据科学堆栈(DSS) ,现在设置数据科学变得更加容易。在本教程中,我们将讨论什么是数据科学堆栈,以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境

目录

什么是数据科学堆栈(DSS)?

Canonical的数据科学堆栈(DSS)是数据科学家和机器学习工程师的开箱即用解决方案。

数据科学堆栈通过提供预先配置的环境,包括所有必要的工具和库,用于机器学习和数据分析,从而简化了设置过程。

通过设计用于在Ubuntu工作站上运行并优化GPU的使用,DSS可以增强机器学习模型的性能,这对计算密集型任务特别有益。

DSS允许用户更多地关注其模型的开发和优化,而不是环境设置的技术。

这可以节省大量时间,否则将花费在安装和配置各个组件上。

数据科学堆栈中包括什么?

数据科学堆栈(DSS)为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的:

  1. 预安装的工具:DSS包括流行的开源工具,例如Microk8sJupyterlabMLFlow ,这对于数据探索,模型开发和实验跟踪至关重要。
  2. 机器学习框架:默认情况下,它具有两个广泛使用的机器学习框架, PytorchTensorflow ,它们可以用于建筑和培训模型。
  3. 命令行接口(CLI) :DSS提供了一种直观的CLI,用于部署这些工具和框架,从而更容易管理和扩展环境。
  4. 用户界面:部署后,用户可以访问工具的UI,以便在无需手动设置的情况下开始从事其数据科学项目。
  5. 包装依赖性:DSS处理包装依赖性,以确保所有工具,库和框架彼此兼容并顺利进行。
  6. 硬件兼容性:它旨在与机器的硬件兼容,优化工具和框架的性能
  7. 简化的配置:传统上,在工作站上设置机器学习环境可能很复杂且难以逆转。 DSS通过提供有效利用工作站的GPU的可访问,可访问,隔离和可重现的ML环境来解决这一问题。
  8. GPU配置:DSS通过包括GPU操作员来简化GPU配置,该操作员管理GPU用于机器学习任务的设置和使用,从而有效利用其计算能力。

总体而言,DSS旨在为数据科学和机器学习提供无忧且优化的环境,使用户可以专注于其核心任务,而不是技术设置和维护其工具。

在Ubuntu安装数据科学堆栈(DSS)

要开始使用数据科学堆栈(DSS)进行机器学习和数据科学,请按照以下步骤设置您的环境:

先决条件

  • 操作系统:确保您的系统上安装了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
  • Internet连接:您需要一个主动的Internet连接才能下载并安装必要的软件。
  • SNAP :确保在系统上安装了SNAP,因为安装Microk8和DSS所需。

设置Microk8

DSS使用Microk8作为其容器编排系统,允许工作负载访问主机的GPU。

要在Ubuntu上安装Microk8,请运行:

 $ sudo snap安装microk8s  - 渠道1.28/稳定 - 经典

接下来,启用所需的服务:

 $ sudo microk8s启用存储DNS RBAC

安装DSS CLI

数据科学堆栈通过命令行接口(CLI)管理。

使用以下命令安装DSS CLI:

 $ sudo snap install data-science-stack-通道最新/稳定

完成这些步骤后,您将安装DSS的基础组件并准备使用。现在,您可以继续设置机器学习环境,并开始使用DSS CLI开始运行第一笔笔记本。

数据科学堆栈开始

安装Microk8和DSS CLI后,下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS,您需要使用THEDSS InitializeCommand,该启动量可以在Microk8s群集中设置必要的资源。

 $ DSS初始化-kubeconfig =“ $(sudo microk8s config)”

- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。

DSS初始化命令可能需要几分钟才能完成。在此期间,DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息:

 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...

此消息表明,DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下,请耐心等待。

初始化完成后,您将看到下面的输出:

 [info]执行初始化命令
[info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空间DSS中的部署MLFlow准备就绪...
[info]命名空间DSS中的部署MLFLOF已准备就绪
[INFO] DSS初始化。要创建第一个笔记本电脑运行命令:

DSS创建

示例:
  DSS创建mynotebook -image = pytorch
  DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0

规范启动为ML初学者的数据科学堆栈

现在,您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。

然后,您可以继续在DSS环境中创建并运行第一个机器学习笔记本。

开始您的第一本Jupyter笔记本

要使用数据科学堆栈(DSS)启动第一个Jupyter笔记本,您需要使用Thedss CreateCommand,这使您可以指定要创建的笔记本的类型。

在这里,我们正在创建一个带有CUDA支持的tensorflow笔记本,名为My-Tensorflow-Notebook:

 $ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0

成功创建笔记本后,您将看到下面的输出:

 [info]执行创建命令
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[info]命名空间DSS中的部署my-tensorflow notebook已准备就绪
[INFO]成功:笔记本My-Tensorflow-Notebook成功创建了。
[INFO]访问笔记本,请访问http://10.152.183.253:80。

规范启动为ML初学者的数据科学堆栈

笔记本准备好后,该命令显示一个URL,您可以使用该URL访问Jupyterlab UI。

要开始使用笔记本电脑,请打开Web浏览器,然后将提供的URL输入地址栏。

如您在上面的输出中看到的那样,我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。

这将带您进入Jupyterlab接口,您可以在其中创建新笔记本电脑,上传数据并使用TensorFlow和CUDA开始机器学习任务。

规范启动为ML初学者的数据科学堆栈

请记住,URL中的IP地址和端口号可能会根据您的特定设置而有所不同。

就是这样。您现在可以开始与笔记本互动。

查看DSS状态

要快速检查您的数据科学堆栈(DSS)环境的状态,包括MLFLOW的状态和GPU加速度的可用性,您可以使用如下所示。

 $ DSS状态

THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例:

 [INFO] MLFLOW部署:准备就绪
[info] mlflow URL:http://10.152.183.157:5000
[INFO] GPU加速度:禁用

输出的说明:

  • MLFLOW部署:Ready表示MLFlow跟踪服务器正在启动并运行。
  • MLFlow URL提供了您可以在其中访问MLFlow UI以跟踪机器学习实验的URL。
  • GPU加速度:禁用表明,在当前DSS环境中没有可用或配置的GPU。

要验证,请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。

这将打开Web浏览器中的MLFlow仪表板。

MLFlow仪表板中的实验选项卡:

规范启动为ML初学者的数据科学堆栈

由于这是我们的新装置,因此还没有实验。为了创建实验,请使用MLFlow实验CLI。

MLFlow仪表板中的模型选项卡:

规范启动为ML初学者的数据科学堆栈

列表DSS命令

要查看数据科学堆栈(DSS)的可用命令列表,您可以将DSS命令与-HELP选项一起使用。

在您的终端中运行以下命令:

 $ dss-螺旋

这将显示命令列表以及其目的的简要说明。

如果您需要有关特定DSS命令的更多详细信息,则可以使用命令,然后使用-HELP选项。

例如,要获取有关初始化命令的详细信息,您将运行:

 $ DSS日志 - 螺旋

从microk8s中删除数据科学堆栈

如果您不再需要DSS,则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。

要删除DSS,请在您的终端中执行以下命令:

 $ DSS清除

该命令将完全删除所有DSS组件,包括Jupyter笔记本电脑,MLFLOW服务器以及DSS环境中存储的任何数据。

重要的是要注意,此操作是不可逆转的,并且DSS环境中的所有数据将永久丢失。在进行清除之前,请确保备份任何重要数据。

删除DSS CLI和MICROK8S

当DSS Purge命令从Microk8s群集中删除DSS组件时,它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容,则需要删除它们各自的快照:

要删除DSS CLI,请使用以下命令:

 $ sudo snap删除数据科学堆栈

要删除microk8s,请使用以下命令:

 $ sudo snap删除microk8s

通过遵循以下步骤,您可以从系统中完全删除数据科学堆栈(DSS)及其相关组件。

常见问题(常见问题解答)

问:什么是数据科学堆栈(DSS)?

答:数据科学堆栈(DSS)是一个用于机器学习和数据科学的全面,现成的环境。它旨在简化数据科学工具和框架的设置和管理,使用户可以专注于其核心任务,而不是环境配置的复杂性。

问:DSS中包含哪些工具?

答:DSS包括各种开源工具,例如Jupyter笔记本,MLFLOW和流行的机器学习框架,例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s,用于管理工作负载。

问:如何安装DSS?

答:要安装DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet连接并安装了SNAP。然后,您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明,请参阅《官方文档或安装指南》。

问:如何使用DSS启动jupyter笔记本?

答:您可以使用DSS Create命令启动带有DSS的Jupyter笔记本,为笔记本指定所需的图像。例如,要启动TensorFlow笔记本电脑,您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。

问:DSS状态命令的目的是什么?

答:DSS状态命令可快速概述DSS环境的当前状态,包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。

问:如何从环境中删除DSS?

答:要删除DSS,您可以使用DSS Purge命令,该命令将删除所有DSS组件,包括Jupyter Notebooks和MLFlow服务器。请注意,此操作是不可逆转的,将导致DSS环境中所有数据的丢失。

问:在哪里可以找到有关DSS命令的更多信息?

答:您可以通过使用DSS -HELP命令来列出所有可用命令和DSS - 螺旋,以获取特定命令的详细用法。

问:DSS可以免费使用吗?

是的,DSS基于开源工具,可以免费使用。

问:DSS适合数据科学的初学者?

答:是的,DSS的设计为用户友好,可以成为初学者的好工具,因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境,使用户可以快速开始从事数据科学项目。

结论

总之,数据科学堆栈(DSS)简化了数据科学任务的设置。它提供了一系列工具,可以很好地合作,从而更容易快速启动项目。

无论您是数据科学的新手还是经验丰富,DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具,支持有效的数据分析和模型构建。

资源

  • 数据科学堆栈(DSS)文档

相关阅读

  • 如何在Linux上安装Anaconda
  • 如何在Linux中安装Miniconda

以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用Next' Linux中的尴尬命令 - 第6部分如何使用Next' Linux中的尴尬命令 - 第6部分May 15, 2025 am 10:43 AM

在我们的尴尬系列的第六部分中,我们将探索下一个命令,该命令可以通过跳过冗余处理步骤来提高脚本执行的效率。下一个命令是什么?awk instruc中的下一个命令

如何在Linux中有效传输文件如何在Linux中有效传输文件May 15, 2025 am 10:42 AM

在Linux系统中传输文件是一项常见任务,每个系统管理员都应掌握,尤其是涉及本地或远程系统间的网络传输。Linux提供了两种常用的工具来完成此任务:SCP(安全复制)和Rsync。两者都提供了一种安全且便捷的方式,用于在本地或远程机器之间传输文件。本文将详细介绍如何使用SCP和Rsync命令来传输文件,包括本地和远程文件传输。了解Linux中的scp(安全复制协议)scp命令是一个命令行程序,用于在两个主机之间通过SSH(安全 Shell)安全地复制文件和目录,这意味着在文件通过互联网传输时,数

有史以来最受欢迎的Linux桌面环境有史以来最受欢迎的Linux桌面环境May 15, 2025 am 10:35 AM

与Windows和Mac OS X相比,Linux的一个引人入胜的功能是对各种桌面环境的支持。这使桌面用户可以根据其计算要求选择最合适且最合适的桌面环境。A

如何在Linux桌面中安装Libreoffice 24.8如何在Linux桌面中安装Libreoffice 24.8May 15, 2025 am 10:15 AM

Libreoffice脱颖而出,是一个健壮的开源办公室套件,适用于Linux,Windows和Mac平台。它拥有一系列用于处理Word文档,电子表格,演示,图纸,计算和Mathematica的高级功能

如何使用linux中的仅限文件来处理PDF文件如何使用linux中的仅限文件来处理PDF文件May 15, 2025 am 09:58 AM

管理PDF文件的Linux用户可以使用各种程序。具体来说,有许多专门为各种功能设计的专业PDF工具。

如何使用AWK和STDIN过滤命令输出如何使用AWK和STDIN过滤命令输出May 15, 2025 am 09:53 AM

在AWK命令系列的较早部分中,我们的重点主要是从文件中读取输入。但是,如果您需要从stdin中读取输入怎么办?在Awk系列的第7部分中,我们将探索几个示例,您可以在其中使用O的输出。

CLIFM- Linux的Lightning -Fast终端文件管理器CLIFM- Linux的Lightning -Fast终端文件管理器May 15, 2025 am 09:45 AM

Clifm是一个独特而令人难以置信的迅速命令行文件管理器,在类似壳的界面的基础上设计。这意味着用户可以使用他们已经熟悉的命令与他们的文件系统互动。

如何从Linux Mint 21.3升级到Linux Mint 22如何从Linux Mint 21.3升级到Linux Mint 22May 15, 2025 am 09:44 AM

如果您不想执行Linux Mint 22 Wilma的新安装,则可以选择从以前的版本中升级。在本指南中,我们将详细介绍从Linux Mint 21.3升级的过程(21.X系列的最新次要版本

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。