数据科学是数据的研究。它涉及收集,分析和解释大量信息。数据科学家使用这些信息来做出决策,解决问题并预测未来的趋势。
数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。
如果您是从数据科学开始的初学者,那么在建立适当的数据科学环境方面,您可能会面临一些挑战。
以下是建立数据科学环境对初学者可能具有挑战性的一些原因:
- 软件安装:新手通常在安装必要的软件(例如编程语言(例如Python或r),库和工具(例如Jupyter Notebooks或Rstudio))方面很难。
- 了解依赖关系:软件通常需要其他软件的特定版本才能正常工作。如果无法正确管理,这可能会令人困惑,并导致错误。
- 学习曲线:数据科学涉及学习新技能,包括编程,统计和机器学习。对于初学者来说,这可能是压倒性的。
- 数据处理:处理数据可能很复杂,尤其是在处理大型或混乱的数据集时。了解如何清洁,存储和处理数据至关重要,但最初可能很难掌握。
- 版本控制:跟踪代码和数据的更改很重要,但设置和管理可能很棘手,尤其是对于诸如GIT之类的版本控制系统的人。
- 选择合适的工具:有许多可用的工具和框架,为特定项目选择合适的工具可能会使初学者令人生畏。
通过了解这些挑战,初学者可以更好地准备自己,并寻求正确的资源和支持以克服它们。
对于新的数据科学家来说,最初的障碍可能具有挑战性,但是随着持久性和一致的学习,旅程将变得更加顺利。
多亏了Canonical的数据科学堆栈(DSS) ,现在设置数据科学变得更加容易。在本教程中,我们将讨论什么是数据科学堆栈,以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境。
目录
什么是数据科学堆栈(DSS)?
Canonical的数据科学堆栈(DSS)是数据科学家和机器学习工程师的开箱即用解决方案。
数据科学堆栈通过提供预先配置的环境,包括所有必要的工具和库,用于机器学习和数据分析,从而简化了设置过程。
通过设计用于在Ubuntu工作站上运行并优化GPU的使用,DSS可以增强机器学习模型的性能,这对计算密集型任务特别有益。
DSS允许用户更多地关注其模型的开发和优化,而不是环境设置的技术。
这可以节省大量时间,否则将花费在安装和配置各个组件上。
数据科学堆栈中包括什么?
数据科学堆栈(DSS)为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的:
- 预安装的工具:DSS包括流行的开源工具,例如Microk8s , Jupyterlab和MLFlow ,这对于数据探索,模型开发和实验跟踪至关重要。
- 机器学习框架:默认情况下,它具有两个广泛使用的机器学习框架, Pytorch和Tensorflow ,它们可以用于建筑和培训模型。
- 命令行接口(CLI) :DSS提供了一种直观的CLI,用于部署这些工具和框架,从而更容易管理和扩展环境。
- 用户界面:部署后,用户可以访问工具的UI,以便在无需手动设置的情况下开始从事其数据科学项目。
- 包装依赖性:DSS处理包装依赖性,以确保所有工具,库和框架彼此兼容并顺利进行。
- 硬件兼容性:它旨在与机器的硬件兼容,优化工具和框架的性能
- 简化的配置:传统上,在工作站上设置机器学习环境可能很复杂且难以逆转。 DSS通过提供有效利用工作站的GPU的可访问,可访问,隔离和可重现的ML环境来解决这一问题。
- GPU配置:DSS通过包括GPU操作员来简化GPU配置,该操作员管理GPU用于机器学习任务的设置和使用,从而有效利用其计算能力。
总体而言,DSS旨在为数据科学和机器学习提供无忧且优化的环境,使用户可以专注于其核心任务,而不是技术设置和维护其工具。
在Ubuntu安装数据科学堆栈(DSS)
要开始使用数据科学堆栈(DSS)进行机器学习和数据科学,请按照以下步骤设置您的环境:
先决条件
- 操作系统:确保您的系统上安装了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
- Internet连接:您需要一个主动的Internet连接才能下载并安装必要的软件。
- SNAP :确保在系统上安装了SNAP,因为安装Microk8和DSS所需。
设置Microk8
DSS使用Microk8作为其容器编排系统,允许工作负载访问主机的GPU。
要在Ubuntu上安装Microk8,请运行:
$ sudo snap安装microk8s - 渠道1.28/稳定 - 经典
接下来,启用所需的服务:
$ sudo microk8s启用存储DNS RBAC
安装DSS CLI
数据科学堆栈通过命令行接口(CLI)管理。
使用以下命令安装DSS CLI:
$ sudo snap install data-science-stack-通道最新/稳定
完成这些步骤后,您将安装DSS的基础组件并准备使用。现在,您可以继续设置机器学习环境,并开始使用DSS CLI开始运行第一笔笔记本。
数据科学堆栈开始
安装Microk8和DSS CLI后,下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。
初始化DSS和MLFLOW
要初始化DSS,您需要使用THEDSS InitializeCommand,该启动量可以在Microk8s群集中设置必要的资源。
$ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。
DSS初始化命令可能需要几分钟才能完成。在此期间,DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息:
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
此消息表明,DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下,请耐心等待。
初始化完成后,您将看到下面的输出:
[info]执行初始化命令 [info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config [INFO]等待命名空间DSS中的部署MLFlow准备就绪... [info]命名空间DSS中的部署MLFLOF已准备就绪 [INFO] DSS初始化。要创建第一个笔记本电脑运行命令: DSS创建 示例: DSS创建mynotebook -image = pytorch DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
现在,您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。
然后,您可以继续在DSS环境中创建并运行第一个机器学习笔记本。
开始您的第一本Jupyter笔记本
要使用数据科学堆栈(DSS)启动第一个Jupyter笔记本,您需要使用Thedss CreateCommand,这使您可以指定要创建的笔记本的类型。
在这里,我们正在创建一个带有CUDA支持的tensorflow笔记本,名为My-Tensorflow-Notebook:
$ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
成功创建笔记本后,您将看到下面的输出:
[info]执行创建命令 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [info]命名空间DSS中的部署my-tensorflow notebook已准备就绪 [INFO]成功:笔记本My-Tensorflow-Notebook成功创建了。 [INFO]访问笔记本,请访问http://10.152.183.253:80。
笔记本准备好后,该命令显示一个URL,您可以使用该URL访问Jupyterlab UI。
要开始使用笔记本电脑,请打开Web浏览器,然后将提供的URL输入地址栏。
如您在上面的输出中看到的那样,我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。
这将带您进入Jupyterlab接口,您可以在其中创建新笔记本电脑,上传数据并使用TensorFlow和CUDA开始机器学习任务。
请记住,URL中的IP地址和端口号可能会根据您的特定设置而有所不同。
就是这样。您现在可以开始与笔记本互动。
查看DSS状态
要快速检查您的数据科学堆栈(DSS)环境的状态,包括MLFLOW的状态和GPU加速度的可用性,您可以使用如下所示。
$ DSS状态
THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例:
[INFO] MLFLOW部署:准备就绪 [info] mlflow URL:http://10.152.183.157:5000 [INFO] GPU加速度:禁用
输出的说明:
- MLFLOW部署:Ready表示MLFlow跟踪服务器正在启动并运行。
- MLFlow URL提供了您可以在其中访问MLFlow UI以跟踪机器学习实验的URL。
- GPU加速度:禁用表明,在当前DSS环境中没有可用或配置的GPU。
要验证,请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。
这将打开Web浏览器中的MLFlow仪表板。
MLFlow仪表板中的实验选项卡:
由于这是我们的新装置,因此还没有实验。为了创建实验,请使用MLFlow实验CLI。
MLFlow仪表板中的模型选项卡:
列表DSS命令
要查看数据科学堆栈(DSS)的可用命令列表,您可以将DSS命令与-HELP选项一起使用。
在您的终端中运行以下命令:
$ dss-螺旋
这将显示命令列表以及其目的的简要说明。
如果您需要有关特定DSS命令的更多详细信息,则可以使用命令,然后使用-HELP选项。
例如,要获取有关初始化命令的详细信息,您将运行:
$ DSS日志 - 螺旋
从microk8s中删除数据科学堆栈
如果您不再需要DSS,则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。
要删除DSS,请在您的终端中执行以下命令:
$ DSS清除
该命令将完全删除所有DSS组件,包括Jupyter笔记本电脑,MLFLOW服务器以及DSS环境中存储的任何数据。
重要的是要注意,此操作是不可逆转的,并且DSS环境中的所有数据将永久丢失。在进行清除之前,请确保备份任何重要数据。
删除DSS CLI和MICROK8S
当DSS Purge命令从Microk8s群集中删除DSS组件时,它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容,则需要删除它们各自的快照:
要删除DSS CLI,请使用以下命令:
$ sudo snap删除数据科学堆栈
要删除microk8s,请使用以下命令:
$ sudo snap删除microk8s
通过遵循以下步骤,您可以从系统中完全删除数据科学堆栈(DSS)及其相关组件。
常见问题(常见问题解答)
问:什么是数据科学堆栈(DSS)?答:数据科学堆栈(DSS)是一个用于机器学习和数据科学的全面,现成的环境。它旨在简化数据科学工具和框架的设置和管理,使用户可以专注于其核心任务,而不是环境配置的复杂性。
问:DSS中包含哪些工具?答:DSS包括各种开源工具,例如Jupyter笔记本,MLFLOW和流行的机器学习框架,例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s,用于管理工作负载。
问:如何安装DSS?答:要安装DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet连接并安装了SNAP。然后,您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明,请参阅《官方文档或安装指南》。
问:如何使用DSS启动jupyter笔记本?答:您可以使用DSS Create命令启动带有DSS的Jupyter笔记本,为笔记本指定所需的图像。例如,要启动TensorFlow笔记本电脑,您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。
问:DSS状态命令的目的是什么?答:DSS状态命令可快速概述DSS环境的当前状态,包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。
问:如何从环境中删除DSS?答:要删除DSS,您可以使用DSS Purge命令,该命令将删除所有DSS组件,包括Jupyter Notebooks和MLFlow服务器。请注意,此操作是不可逆转的,将导致DSS环境中所有数据的丢失。
问:在哪里可以找到有关DSS命令的更多信息?答:您可以通过使用DSS -HELP命令来列出所有可用命令和DSS
是的,DSS基于开源工具,可以免费使用。
问:DSS适合数据科学的初学者?答:是的,DSS的设计为用户友好,可以成为初学者的好工具,因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境,使用户可以快速开始从事数据科学项目。
结论
总之,数据科学堆栈(DSS)简化了数据科学任务的设置。它提供了一系列工具,可以很好地合作,从而更容易快速启动项目。
无论您是数据科学的新手还是经验丰富,DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具,支持有效的数据分析和模型构建。
资源:
- 数据科学堆栈(DSS)文档
相关阅读:
- 如何在Linux上安装Anaconda
- 如何在Linux中安装Miniconda
以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章!

Linux和Windows在虚拟化支持上的主要区别在于:1)Linux提供KVM和Xen,性能和灵活性突出,适合高定制环境;2)Windows通过Hyper-V支持虚拟化,界面友好,与Microsoft生态系统紧密集成,适合依赖Microsoft软件的企业。

Linux系统管理员的主要任务包括系统监控与性能调优、用户管理、软件包管理、安全管理与备份、故障排查与解决、性能优化与最佳实践。1.使用top、htop等工具监控系统性能,并进行调优。2.通过useradd等命令管理用户账户和权限。3.利用apt、yum管理软件包,确保系统更新和安全。4.配置防火墙、监控日志、进行数据备份以确保系统安全。5.通过日志分析和工具使用进行故障排查和解决。6.优化内核参数和应用配置,遵循最佳实践提升系统性能和稳定性。

学习Linux并不难。1.Linux是一个开源操作系统,基于Unix,广泛应用于服务器、嵌入式系统和个人电脑。2.理解文件系统和权限管理是关键,文件系统是层次化的,权限包括读、写和执行。3.包管理系统如apt和dnf使得软件管理方便。4.进程管理通过ps和top命令实现。5.从基本命令如mkdir、cd、touch和nano开始学习,再尝试高级用法如shell脚本和文本处理。6.常见错误如权限问题可以通过sudo和chmod解决。7.性能优化建议包括使用htop监控资源、清理不必要文件和使用sy

Linux管理员的平均年薪在美国为75,000至95,000美元,欧洲为40,000至60,000欧元。提升薪资可以通过:1.持续学习新技术,如云计算和容器技术;2.积累项目经验并建立Portfolio;3.建立职业网络,拓展人脉。

Linux的主要用途包括:1.服务器操作系统,2.嵌入式系统,3.桌面操作系统,4.开发和测试环境。Linux在这些领域表现出色,提供了稳定性、安全性和高效的开发工具。

互联网运行不依赖单一操作系统,但Linux在其中扮演重要角色。Linux广泛应用于服务器和网络设备,因其稳定性、安全性和可扩展性受欢迎。

Linux操作系统的核心是其命令行界面,通过命令行可以执行各种操作。1.文件和目录操作使用ls、cd、mkdir、rm等命令管理文件和目录。2.用户和权限管理通过useradd、passwd、chmod等命令确保系统安全和资源分配。3.进程管理使用ps、kill等命令监控和控制系统进程。4.网络操作包括ping、ifconfig、ssh等命令配置和管理网络连接。5.系统监控和维护通过top、df、du等命令了解系统运行状态和资源使用情况。

介绍 Linux是一个强大的操作系统,由于其灵活性和效率,开发人员,系统管理员和电源用户都喜欢。但是,经常使用长而复杂的命令可能是乏味的


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Atom编辑器mac版下载
最流行的的开源编辑器

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。