ホームページ >システムチュートリアル >Linux >Canonicalは、ML初心者向けのデータサイエンススタックを起動します

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

Jennifer Aniston
Jennifer Anistonオリジナル
2025-03-17 10:22:09379ブラウズ

データサイエンスはデータの研究です。大量の情報を収集、分析、および解釈することが含まれます。データサイエンティストは、この情報を使用して決定を下し、問題を解決し、将来の傾向を予測します。

データサイエンティストは、さまざまなツールと手法を使用して、複雑なデータセットを分析および解釈します。これは、企業や組織がより良い決定を下すのに役立ちます。

データサイエンスから始めたばかりの初心者なら、おそらく適切なデータサイエンス環境を設定する際にいくつかの課題に直面するでしょう。

データサイエンス環境をセットアップすることが初心者にとって挑戦的である可能性がある理由は次のとおりです。

  1. ソフトウェアのインストール:初心者は、プログラミング言語(PythonやRなど)、ライブラリ、ツール(Jupyter NotebooksやRStudioなど)など、必要なソフトウェアのインストールに苦労することがよくあります。
  2. 依存関係の理解:ソフトウェアには、正しく動作するために他のソフトウェアの特定のバージョンが必要になることがよくあります。これは混乱を招く可能性があり、適切に管理されていないとエラーにつながる可能性があります。
  3. 学習曲線:データサイエンスには、プログラミング、統計、機械学習など、新しいスキルの学習が含まれます。これは初心者にとって圧倒される可能性があります。
  4. データ処理:特に大規模または乱雑なデータセットを扱う場合、データの操作は複雑になる可能性があります。データを掃除、保存、および処理する方法を理解することは重要ですが、最初は把握するのは難しい場合があります。
  5. バージョン制御:コードとデータの変更を追跡することは重要ですが、特にGITのような新しいバージョン制御システムのセットアップと管理が難しい場合があります。
  6. 適切なツールの選択:利用可能な多くのツールとフレームワークがあり、特定のプロジェクトに適したツールを選択することは、初心者にとって困難です。

これらの課題を理解することにより、初心者は自分自身をよりよく準備し、それらを克服するための適切なリソースとサポートを求めることができます。

最初のハードルは新しいデータサイエンティストにとって困難な場合がありますが、持続性と一貫した学習により、旅はより滑らかになります。

Canonicalのデータサイエンススタック(DSS)のおかげで、データサイエンスのセットアップは今でははるかに簡単になりました。このチュートリアルでは、データサイエンススタックとは何か、それを使用してUbuntuオペレーティングシステムでデータサイエンス環境を簡単かつ迅速にセットアップする方法について説明します。

目次

データサイエンススタック(DSS)とは何ですか?

Canonicalによるデータサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニア向けのすぐに使えるソリューションです。

データサイエンススタックは、機械学習とデータ分析に必要なすべてのツールとライブラリを含む事前に構成された環境を提供することにより、セットアッププロセスを簡素化します。

Ubuntuワークステーションで実行し、GPUの使用を最適化するように設計されることにより、DSSは機械学習モデルのパフォーマンスを向上させることができます。これは、計算集中的なタスクに特に有益です。

DSSを使用すると、ユーザーは環境セットアップの技術ではなく、モデルの開発と最適化により焦点を合わせることができます。

これにより、個々のコンポーネントのインストールと構成に費やされる時間を節約できます。

データサイエンススタックには何が含まれていますか?

データサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニアに包括的で統合された環境を提供します。これが提供されるものです:

  1. 事前にインストールされたツール:DSSには、データ探索、モデル開発、実験追跡に不可欠なMicrok8sJupyterlabMLFlowなどの一般的なオープンソースツールが含まれています。
  2. 機械学習フレームワーク:デフォルトでは、2つの広く使用されている機械学習フレームワーク、 PytorchTensorflowが付属しており、モデルの構築とトレーニングに使用する準備ができています。
  3. コマンドラインインターフェイス(CLI) :DSSは、これらのツールとフレームワークを展開するための直感的なCLIを提供し、環境の管理とスケーリングを容易にします。
  4. ユーザーインターフェイス:展開後、ユーザーはツールのUISにアクセスして、手動セットアップの手間をかけずにデータサイエンスプロジェクトの作業を開始できます。
  5. パッケージングの依存関係:DSSはパッケージングの依存関係を処理し、すべてのツール、ライブラリ、フレームワークが互いに互換性があり、スムーズに動作するようにします。
  6. ハードウェア互換性:マシンのハードウェアと互換性があり、ツールとフレームワークのパフォーマンスを最適化するように設計されています
  7. 簡素化された構成:伝統的に、ワークステーションに機械学習環境を設定することは複雑で、逆にするのが難しい場合があります。 DSSは、ワークステーションのGPUを効率的に利用するアクセス可能で、生産準備が整った、孤立した、再現可能なML環境を提供することにより、これに対処します。
  8. GPU構成:DSSは、 GPUオペレーターを含めることによりGPU構成を簡素化します。GPUオペレーターは、機械学習タスクのGPUのセットアップと使用を管理し、計算能力を効果的に活用します。

全体として、DSSは、データサイエンスと機械学習のための手間のかからない最適化された環境を提供することを目指しており、ユーザーはツールの技術的なセットアップとメンテナンスではなく、コアタスクに集中できるようにします。

Ubuntuにデータサイエンススタック(DSS)をインストールします

機械学習とデータサイエンスのためにデータサイエンススタック(DSS)の使用を開始するには、次の手順に従って環境を設定します。

前提条件

  • オペレーティングシステム:ubuntu 22.04 LTSまたはUbuntu 24.04 LTSがシステムにインストールされていることを確認してください。
  • インターネット接続:必要なソフトウェアをダウンロードしてインストールするには、アクティブなインターネット接続が必要です。
  • SNAP :MicroK8SとDSSのインストールに必要なため、SNAPがシステムにインストールされていることを確認してください。

microk8sのセットアップ

DSSは、MicroK8Sをコンテナオーケストレーションシステムとして使用します。これにより、ワークロードがホストのGPUにアクセスできます。

ubuntuにmicrok8sをインストールするには、実行してください。

 $ sudo snapインストールmicrok8s -channel 1.28/stable-クラシック

次に、必要なサービスを有効にします。

 $ sudo microk8sがストレージDNS RBACを有効にします

DSS CLIのインストール

データサイエンススタックは、コマンドラインインターフェイス(CLI)を介して管理されます。

次のコマンドでDSS CLIをインストールします。

 $ sudo snapインストールデータサイエンススタック - チャネル最新/安定性

これらの手順が完了すると、DSSの基礎コンポーネントがインストールされ、使用可能になります。これで、機械学習環境のセットアップに進み、DSS CLIを使用して最初のノートブックの実行を開始できます。

データサイエンススタックを始めましょう

MicroK8SとDSS CLIをインストールした後、次のステップは、MicroK8Sの上にDSSを初期化し、使用するためにMLFLOWを準備することです。

DSSとMLFLOWの初期化

DSSを初期化するには、MicroK8Sクラスター内の必要なリソースをセットアップするTheDSS initializeCommandを使用する必要があります。

 $ dss initialize -kubeconfig = "$(sudo microk8s config)"

- kubeconfigflagは、microk8sによって生成されたKubernetes構成ファイルへのパスを指定するために使用されます。

DSS初期化コマンドは、完了するまでに数分かかる場合があります。この間、DSS CLIは展開の進行を示すメッセージを表示します。次のようなメッセージが表示されます。

 [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...

このメッセージは、DSSがTensorflowノートブックの展開を準備するのを待っていることを示しています。システムが環境をセットアップし、すべてのコンポーネントが正しく構成されていることを保証するため、我慢してください。

初期化が完了すると、以下のような出力が表示されます。

 [情報] Initializeコマンドの実行
[情報]提供されたkubeconfigの保存/home/ostechnix/snap/data-science-stack/16/.dss/config
[情報]名前空間DSSの展開mlflowを待っている...
[情報]名前空間DSSの展開mlflowの準備ができました
[情報] DSS初期化。最初のノートブックを作成するには、コマンドを実行します。

DSS作成

例:
  DSSはmy-notebookを作成します-image = pytorch
  dssはmy-notebookを作成します-image = kubeflownotebookswg/jupyter-scipy:v1.8.0

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

これで、MLFLOW追跡サーバーとDSSが提供するその他のコンポーネントの使用を開始する準備が整います。

その後、DSS環境内で最初の機械学習ノートブックを作成して実行することができます。

最初のJupyterノートブックを開始します

データサイエンススタック(DSS)を使用して最初のJupyterノートブックを開始するには、作成するノートブックの種類を指定できるTheDSS CreateCommandを使用する必要があります。

ここでは、CUDAサポートを備えたMy-Tensorflow-Notebookという名前のTensorflowノートブックを作成しています。

 $ dssはmy-tensorflow-notebookを作成します-image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0

ノートブックの作成が成功すると、以下のような出力が表示されます。

 [情報] CREATEコマンドの実行
[情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...
[情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...
[情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...
[info]名前空間DSSのMy-Tensorflow-Notebookの展開準備ができています
[情報]成功:ノートブックMy-TensorFlow-Notebookは正常に作成されました。
[情報] http://10.152.183.253:80でノートブックにアクセスします。

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

ノートブックの準備ができたら、コマンドはJupyterLab UIにアクセスするために使用できるURLを表示します。

ノートブックの作業を開始するには、Webブラウザを開き、提供されたURLをアドレスバーに入力します。

上記の出力にあるように、Webブラウザからhttp://10.152.183.253:80の新しく作成されたノートブックにアクセスできます。 URLを独自のものに置き換えます。

これにより、JupyterLabインターフェイスに移動し、新しいノートブックを作成し、データをアップロードし、TensorflowとCudaを使用して機械学習タスクを開始できます。

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

URLのIPアドレスとポート番号は、特定のセットアップによって異なる場合があることを忘れないでください。

それでおしまい。これで、ノートブックとの対話を開始できます。

DSSステータスを表示します

MLFLOWのステータスやGPU加速度の可用性など、データサイエンススタック(DSS)環境のステータスをすばやく確認するには、以下のようなTheDSS StatusCommandを使用できます。

 $ DSSステータス

TheDSS StatusCommandは、DSS環境の現在の状態の概要を提供します。これは、出力がどのように見えるかの例です。

 [情報] MLFLOW展開:準備ができています
[情報] MLFLOW URL:http://10.152.183.157:5000
[情報] GPU加速:無効

出力の説明:

  • MLFLOW展開:準備ができていることは、MLFLOW追跡サーバーが稼働していることを示します。
  • MLFLOW URLは、 MLFLOW UIにアクセスして機械学習実験を追跡できるURLを提供します。
  • GPUアクセラレーション:無効は、現在のDSS環境で使用できるGPUが使用または構成されていないことを示しています。

確認するには、MLFLOW URL http://10.152.183.157:5000をWebブラウザーから開きます。

これにより、WebブラウザのMLFLOWダッシュボードが開きます。

MLFLOWダッシュボードの実験タブ:

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

私たちの新しいインストールなので、まだ実験はありません。実験を作成するには、MLFLOW実験CLIを使用してください。

mlflowダッシュボードの[モデル]タブ:

Canonicalは、ML初心者向けのデータサイエンススタックを起動します

DSSコマンドのリスト

データサイエンススタック(DSS)の利用可能なコマンドのリストを表示するには、 - ヘルプオプションでDSSコマンドを使用できます。

端末で次のコマンドを実行します。

 $ dss -help

これにより、コマンドのリストが表示され、その目的の簡単な説明が表示されます。

特定のDSSコマンドに関する詳細情報が必要な場合は、コマンドを使用して、 - ヘルプオプションが続くことができます。

たとえば、初期化コマンドの詳細を取得するには、実行します。

 $ DSSログ - ヘルプ

Microk8sからデータサイエンススタックを削除します

DSSがもう必要ない場合は、DSS Purgeコマンドを使用して、MicroK8Sクラスターからデータサイエンススタックを削除できます。

DSSを削除するには、端末で次のコマンドを実行します。

 $ dss purge

このコマンドは、Jupyterノートブック、MLFLOWサーバー、およびDSS環境内に保存されているデータなど、すべてのDSSコンポーネントを完全に削除します。

このアクションは不可逆的であり、DSS環境内のすべてのデータが永久に失われることに注意することが重要です。パージを進める前に、必ず重要なデータをバックアップしてください。

DSS CLIおよびMICROK8Sを削除します

DSSパージコマンドは、MicroK8SクラスターからDSSコンポーネントを削除しますが、DSS CLIまたはMicroK8Sクラスター自体を削除しません。これらも削除したい場合は、それぞれのスナップを削除する必要があります。

DSS CLIを削除するには、次のコマンドを使用します。

 $ sudo snapデータサイエンススタックを削除します

microk8sを削除するには、次のコマンドを使用します。

 $ sudo snap microk8sを削除します

これらの手順に従うことにより、システムからデータサイエンススタック(DSS)とそれに関連するコンポーネントを完全に削除できます。

よくある質問(FAQ)

Q:データサイエンススタック(DSS)とは何ですか?

A:Data Science Stack(DSS)は、機械学習とデータサイエンスのための包括的な、すぐに実行できる環境です。データサイエンスツールとフレームワークのセットアップと管理を簡素化するように設計されており、ユーザーは環境構成の複雑さではなく、コアタスクに集中できるようにします。

Q:DSSにはどのツールが含まれていますか?

A:DSSには、Jupyter Notebook、MLFlow、TensorflowやPytorchなどの人気のある機械学習フレームワークなど、さまざまなオープンソースツールが含まれています。また、ワークロードを管理するためのコンテナオーケストレーションシステムMICROK8Sも提供します。

Q:DSSをインストールするにはどうすればよいですか?

A:DSSをインストールするには、Ubuntu 22.04 LTSまたはUbuntu 24.04 LTS、インターネット接続、SNAPがインストールされる必要があります。次に、SNAPコマンドを使用してMicroK8SとDSS CLIをインストールできます。詳細な手順については、公式ドキュメントまたはインストールガイドを参照してください。

Q:DSSでJupyterノートブックを開始するにはどうすればよいですか?

A:DSS Createコマンドを使用して、DSSを使用してJupyterノートブックを開始し、ノートブックに目的の画像を指定できます。たとえば、Tensorflow Notebookを開始するには、DSS Create My-Tensorflow-Notebook - image = Kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0を使用します。

Q:DSSステータスコマンドの目的は何ですか?

A:DSSステータスコマンドは、MLFLOWのステータスやGPU加速度の可用性など、DSS環境の現在の状態の概要を概説します。すべてのコンポーネントが正しく機能していることを確認するのに役立ちます。

Q:環境からDSSを削除するにはどうすればよいですか?

A:DSSを削除するには、DSS Purgeコマンドを使用して、JupyterノートブックやMLFLOWサーバーなどのすべてのDSSコンポーネントを削除できます。このアクションは不可逆的であり、DSS環境内のすべてのデータが失われることに注意してください。

Q:DSSコマンドに関する詳細情報はどこにありますか?

A:DSS(HELPコマンドを使用して利用可能なすべてのコマンドをリストし、DSS - ヘルプを使用して、特定のコマンドの詳細な使用を取得することにより、DSSコマンドに関する詳細情報を見つけることができます。

Q:DSSは自由に使用できますか?

はい、DSSはオープンソースツールに基づいており、自由に使用できます。

Q:DSSはデータサイエンスの初心者に適していますか?

A:はい、DSSはユーザーフレンドリーになるように設計されており、データサイエンス環境のセットアップの複雑さを減らすため、初心者にとって素晴らしいツールになる可能性があります。ユーザーが迅速にデータサイエンスプロジェクトの作業を開始できるようにする既製の最適化された環境を提供します。

結論

要約すると、データサイエンススタック(DSS)は、データサイエンスタスクのセットアップを簡素化します。うまく機能するツールのコレクションを提供し、プロジェクトを迅速に開始しやすくします。

データサイエンスが初めてであろうと経験豊富であろうと、DSSは技術的なセットアップを処理することで仕事に集中するのに役立ちます。これは、効率的なデータ分析とモデル構築をサポートする信頼できるツールです。

リソース

  • データサイエンススタック(DSS)ドキュメント

関連する読み取り

  • LinuxにAnacondaをインストールする方法
  • LinuxにMinicondaをインストールする方法

以上がCanonicalは、ML初心者向けのデータサイエンススタックを起動しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。