ホームページ >システムチュートリアル >Linux >Canonicalは、ML初心者向けのデータサイエンススタックを起動します
データサイエンスはデータの研究です。大量の情報を収集、分析、および解釈することが含まれます。データサイエンティストは、この情報を使用して決定を下し、問題を解決し、将来の傾向を予測します。
データサイエンティストは、さまざまなツールと手法を使用して、複雑なデータセットを分析および解釈します。これは、企業や組織がより良い決定を下すのに役立ちます。
データサイエンスから始めたばかりの初心者なら、おそらく適切なデータサイエンス環境を設定する際にいくつかの課題に直面するでしょう。
データサイエンス環境をセットアップすることが初心者にとって挑戦的である可能性がある理由は次のとおりです。
これらの課題を理解することにより、初心者は自分自身をよりよく準備し、それらを克服するための適切なリソースとサポートを求めることができます。
最初のハードルは新しいデータサイエンティストにとって困難な場合がありますが、持続性と一貫した学習により、旅はより滑らかになります。
Canonicalのデータサイエンススタック(DSS)のおかげで、データサイエンスのセットアップは今でははるかに簡単になりました。このチュートリアルでは、データサイエンススタックとは何か、それを使用してUbuntuオペレーティングシステムでデータサイエンス環境を簡単かつ迅速にセットアップする方法について説明します。
目次
Canonicalによるデータサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニア向けのすぐに使えるソリューションです。
データサイエンススタックは、機械学習とデータ分析に必要なすべてのツールとライブラリを含む事前に構成された環境を提供することにより、セットアッププロセスを簡素化します。
Ubuntuワークステーションで実行し、GPUの使用を最適化するように設計されることにより、DSSは機械学習モデルのパフォーマンスを向上させることができます。これは、計算集中的なタスクに特に有益です。
DSSを使用すると、ユーザーは環境セットアップの技術ではなく、モデルの開発と最適化により焦点を合わせることができます。
これにより、個々のコンポーネントのインストールと構成に費やされる時間を節約できます。
データサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニアに包括的で統合された環境を提供します。これが提供されるものです:
全体として、DSSは、データサイエンスと機械学習のための手間のかからない最適化された環境を提供することを目指しており、ユーザーはツールの技術的なセットアップとメンテナンスではなく、コアタスクに集中できるようにします。
機械学習とデータサイエンスのためにデータサイエンススタック(DSS)の使用を開始するには、次の手順に従って環境を設定します。
DSSは、MicroK8Sをコンテナオーケストレーションシステムとして使用します。これにより、ワークロードがホストのGPUにアクセスできます。
ubuntuにmicrok8sをインストールするには、実行してください。
$ sudo snapインストールmicrok8s -channel 1.28/stable-クラシック
次に、必要なサービスを有効にします。
$ sudo microk8sがストレージDNS RBACを有効にします
データサイエンススタックは、コマンドラインインターフェイス(CLI)を介して管理されます。
次のコマンドでDSS CLIをインストールします。
$ sudo snapインストールデータサイエンススタック - チャネル最新/安定性
これらの手順が完了すると、DSSの基礎コンポーネントがインストールされ、使用可能になります。これで、機械学習環境のセットアップに進み、DSS CLIを使用して最初のノートブックの実行を開始できます。
MicroK8SとDSS CLIをインストールした後、次のステップは、MicroK8Sの上にDSSを初期化し、使用するためにMLFLOWを準備することです。
DSSを初期化するには、MicroK8Sクラスター内の必要なリソースをセットアップするTheDSS initializeCommandを使用する必要があります。
$ dss initialize -kubeconfig = "$(sudo microk8s config)"
- kubeconfigflagは、microk8sによって生成されたKubernetes構成ファイルへのパスを指定するために使用されます。
DSS初期化コマンドは、完了するまでに数分かかる場合があります。この間、DSS CLIは展開の進行を示すメッセージを表示します。次のようなメッセージが表示されます。
[情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...
このメッセージは、DSSがTensorflowノートブックの展開を準備するのを待っていることを示しています。システムが環境をセットアップし、すべてのコンポーネントが正しく構成されていることを保証するため、我慢してください。
初期化が完了すると、以下のような出力が表示されます。
[情報] Initializeコマンドの実行 [情報]提供されたkubeconfigの保存/home/ostechnix/snap/data-science-stack/16/.dss/config [情報]名前空間DSSの展開mlflowを待っている... [情報]名前空間DSSの展開mlflowの準備ができました [情報] DSS初期化。最初のノートブックを作成するには、コマンドを実行します。 DSS作成 例: DSSはmy-notebookを作成します-image = pytorch dssはmy-notebookを作成します-image = kubeflownotebookswg/jupyter-scipy:v1.8.0
これで、MLFLOW追跡サーバーとDSSが提供するその他のコンポーネントの使用を開始する準備が整います。
その後、DSS環境内で最初の機械学習ノートブックを作成して実行することができます。
データサイエンススタック(DSS)を使用して最初のJupyterノートブックを開始するには、作成するノートブックの種類を指定できるTheDSS CreateCommandを使用する必要があります。
ここでは、CUDAサポートを備えたMy-Tensorflow-Notebookという名前のTensorflowノートブックを作成しています。
$ dssはmy-tensorflow-notebookを作成します-image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
ノートブックの作成が成功すると、以下のような出力が表示されます。
[情報] CREATEコマンドの実行 [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [info]名前空間DSSのMy-Tensorflow-Notebookの展開準備ができています [情報]成功:ノートブックMy-TensorFlow-Notebookは正常に作成されました。 [情報] http://10.152.183.253:80でノートブックにアクセスします。
ノートブックの準備ができたら、コマンドはJupyterLab UIにアクセスするために使用できるURLを表示します。
ノートブックの作業を開始するには、Webブラウザを開き、提供されたURLをアドレスバーに入力します。
上記の出力にあるように、Webブラウザからhttp://10.152.183.253:80の新しく作成されたノートブックにアクセスできます。 URLを独自のものに置き換えます。
これにより、JupyterLabインターフェイスに移動し、新しいノートブックを作成し、データをアップロードし、TensorflowとCudaを使用して機械学習タスクを開始できます。
URLのIPアドレスとポート番号は、特定のセットアップによって異なる場合があることを忘れないでください。
それでおしまい。これで、ノートブックとの対話を開始できます。
MLFLOWのステータスやGPU加速度の可用性など、データサイエンススタック(DSS)環境のステータスをすばやく確認するには、以下のようなTheDSS StatusCommandを使用できます。
$ DSSステータス
TheDSS StatusCommandは、DSS環境の現在の状態の概要を提供します。これは、出力がどのように見えるかの例です。
[情報] MLFLOW展開:準備ができています [情報] MLFLOW URL:http://10.152.183.157:5000 [情報] GPU加速:無効
出力の説明:
確認するには、MLFLOW URL http://10.152.183.157:5000をWebブラウザーから開きます。
これにより、WebブラウザのMLFLOWダッシュボードが開きます。
MLFLOWダッシュボードの実験タブ:
私たちの新しいインストールなので、まだ実験はありません。実験を作成するには、MLFLOW実験CLIを使用してください。
mlflowダッシュボードの[モデル]タブ:
データサイエンススタック(DSS)の利用可能なコマンドのリストを表示するには、 - ヘルプオプションでDSSコマンドを使用できます。
端末で次のコマンドを実行します。
$ dss -help
これにより、コマンドのリストが表示され、その目的の簡単な説明が表示されます。
特定のDSSコマンドに関する詳細情報が必要な場合は、コマンドを使用して、 - ヘルプオプションが続くことができます。
たとえば、初期化コマンドの詳細を取得するには、実行します。
$ DSSログ - ヘルプ
DSSがもう必要ない場合は、DSS Purgeコマンドを使用して、MicroK8Sクラスターからデータサイエンススタックを削除できます。
DSSを削除するには、端末で次のコマンドを実行します。
$ dss purge
このコマンドは、Jupyterノートブック、MLFLOWサーバー、およびDSS環境内に保存されているデータなど、すべてのDSSコンポーネントを完全に削除します。
このアクションは不可逆的であり、DSS環境内のすべてのデータが永久に失われることに注意することが重要です。パージを進める前に、必ず重要なデータをバックアップしてください。
DSSパージコマンドは、MicroK8SクラスターからDSSコンポーネントを削除しますが、DSS CLIまたはMicroK8Sクラスター自体を削除しません。これらも削除したい場合は、それぞれのスナップを削除する必要があります。
DSS CLIを削除するには、次のコマンドを使用します。
$ sudo snapデータサイエンススタックを削除します
microk8sを削除するには、次のコマンドを使用します。
$ sudo snap microk8sを削除します
これらの手順に従うことにより、システムからデータサイエンススタック(DSS)とそれに関連するコンポーネントを完全に削除できます。
A:Data Science Stack(DSS)は、機械学習とデータサイエンスのための包括的な、すぐに実行できる環境です。データサイエンスツールとフレームワークのセットアップと管理を簡素化するように設計されており、ユーザーは環境構成の複雑さではなく、コアタスクに集中できるようにします。
Q:DSSにはどのツールが含まれていますか?A:DSSには、Jupyter Notebook、MLFlow、TensorflowやPytorchなどの人気のある機械学習フレームワークなど、さまざまなオープンソースツールが含まれています。また、ワークロードを管理するためのコンテナオーケストレーションシステムMICROK8Sも提供します。
Q:DSSをインストールするにはどうすればよいですか?A:DSSをインストールするには、Ubuntu 22.04 LTSまたはUbuntu 24.04 LTS、インターネット接続、SNAPがインストールされる必要があります。次に、SNAPコマンドを使用してMicroK8SとDSS CLIをインストールできます。詳細な手順については、公式ドキュメントまたはインストールガイドを参照してください。
Q:DSSでJupyterノートブックを開始するにはどうすればよいですか?A:DSS Createコマンドを使用して、DSSを使用してJupyterノートブックを開始し、ノートブックに目的の画像を指定できます。たとえば、Tensorflow Notebookを開始するには、DSS Create My-Tensorflow-Notebook - image = Kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0を使用します。
Q:DSSステータスコマンドの目的は何ですか?A:DSSステータスコマンドは、MLFLOWのステータスやGPU加速度の可用性など、DSS環境の現在の状態の概要を概説します。すべてのコンポーネントが正しく機能していることを確認するのに役立ちます。
Q:環境からDSSを削除するにはどうすればよいですか?A:DSSを削除するには、DSS Purgeコマンドを使用して、JupyterノートブックやMLFLOWサーバーなどのすべてのDSSコンポーネントを削除できます。このアクションは不可逆的であり、DSS環境内のすべてのデータが失われることに注意してください。
Q:DSSコマンドに関する詳細情報はどこにありますか? A:DSS(HELPコマンドを使用して利用可能なすべてのコマンドをリストし、DSS
はい、DSSはオープンソースツールに基づいており、自由に使用できます。
Q:DSSはデータサイエンスの初心者に適していますか?A:はい、DSSはユーザーフレンドリーになるように設計されており、データサイエンス環境のセットアップの複雑さを減らすため、初心者にとって素晴らしいツールになる可能性があります。ユーザーが迅速にデータサイエンスプロジェクトの作業を開始できるようにする既製の最適化された環境を提供します。
要約すると、データサイエンススタック(DSS)は、データサイエンスタスクのセットアップを簡素化します。うまく機能するツールのコレクションを提供し、プロジェクトを迅速に開始しやすくします。
データサイエンスが初めてであろうと経験豊富であろうと、DSSは技術的なセットアップを処理することで仕事に集中するのに役立ちます。これは、効率的なデータ分析とモデル構築をサポートする信頼できるツールです。
リソース:
関連する読み取り:
以上がCanonicalは、ML初心者向けのデータサイエンススタックを起動しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。