Heim >System-Tutorial >LINUX >Canonical startet Data Science Stack für ML -Anfänger
Datenwissenschaft ist die Untersuchung von Daten. Es umfasst das Sammeln, Analysieren und Interpretieren großer Informationsmengen. Datenwissenschaftler verwenden diese Informationen, um Entscheidungen zu treffen, Probleme zu lösen und zukünftige Trends vorherzusagen.
Datenwissenschaftler verwenden verschiedene Tools und Techniken, um komplexe Datensätze zu analysieren und zu interpretieren. Dies hilft Unternehmen und Organisationen, bessere Entscheidungen zu treffen.
Wenn Sie ein Anfänger sind, der gerade erst mit Data Science beginnt, werden Sie sich wahrscheinlich vor einigen Herausforderungen stellen, um ein ordnungsgemäßes Datenwissenschaftsumfeld einzurichten.
Hier sind einige Gründe, warum die Einrichtung eines Datenwissenschaftsumfelds für Anfänger schwierig sein kann:
Durch das Verständnis dieser Herausforderungen können sich Anfänger besser vorbereiten und die richtigen Ressourcen und Unterstützung suchen, um sie zu überwinden.
Die anfänglichen Hürden können für neue Datenwissenschaftler eine Herausforderung sein, aber mit Beharrlichkeit und konsequentem Lernen wird die Reise reibungsloser.
Dank des Data Science Stack (DSS) von Canonical wurde die Einrichtung von Data Science jetzt viel einfacher. In diesem Tutorial werden wir diskutieren, was Data Science Stack ist und wie sie in Ubuntu -Betriebssystemen einfach und schnell ein Datenwissenschaftsumfeld einrichten können.
Inhaltsverzeichnis
Der Data Science Stack (DSS) von Canonical ist eine außergewöhnliche Lösung für Datenwissenschaftler und maschinelles Lernen.
Der Data Science Stack vereinfacht den Setup-Prozess durch eine vorkonfigurierte Umgebung, die alle erforderlichen Tools und Bibliotheken für maschinelles Lernen und Datenanalyse enthält.
Durch die Ausführung von Ubuntu -Workstations und die Optimierung der Verwendung von GPUs kann DSS die Leistung von maschinellen Lernmodellen verbessern, was besonders für rechnerisch intensive Aufgaben vorteilhaft ist.
DSS ermöglicht es Benutzern, sich mehr auf die Entwicklung und Optimierung ihrer Modelle zu konzentrieren als auf die technischen technischen geltenden Umgebungsaufnahmen.
Dies kann viel Zeit sparen, die sonst für die Installation und Konfiguration einzelner Komponenten aufgewendet werden würde.
Der Data Science Stack (DSS) bietet Datenwissenschaftlern und Ingenieuren für maschinelles Lernen eine umfassende und integrierte Umgebung. Folgendes bietet es:
Insgesamt soll DSS ein problemloses und optimiertes Umfeld für Datenwissenschaft und maschinelles Lernen bieten, sodass Benutzer sich eher auf ihre Kernaufgaben als auf die technische Einrichtung und Wartung ihrer Tools konzentrieren können.
Befolgen Sie diese Schritte, um Ihre Umgebung einzurichten:
DSS verwendet Microk8s als Container -Orchestrierungssystem, mit dem Workloads auf den GPUs des Hosts zugreifen können.
Um Microk8s auf Ubuntu zu installieren, rennen Sie:
$ sudo snap install microk8s -channel 1.28/stabil -klassisch
Aktivieren Sie als nächstes die erforderlichen Dienste:
$ sudo microk8s aktivieren Speicher -DNS RBAC
Der Data Science Stack wird über eine Befehlszeilenschnittstelle (CLI) verwaltet.
Installieren Sie DSS CLI mit dem folgenden Befehl:
$ sudo snap Installieren Sie den Data-Science-Stack-Channel Neueste/Stable
Wenn diese Schritte abgeschlossen sind, haben Sie die grundlegenden Komponenten von DSS installiert und verwenden. Sie können nun Ihre Umgebungen für maschinelles Lernen einrichten und Ihre ersten Notizbücher mit der DSS CLI ausführen.
Nach der Installation von Microk8s und der DSS -CLI besteht der nächste Schritt darin, DSS auf Microk8s zu initialisieren und MLFlow zur Verwendung vorzubereiten.
Um DSS zu initialisieren, müssen Sie das InitializeCommand von Theedss verwenden, wodurch die erforderlichen Ressourcen innerhalb des Microk8s -Clusters festgelegt sind.
$ dSS initialize -kubeconfig = "$ (sudo microk8s config)"
Die KubeConfigFlag wird verwendet, um den Pfad zur Kubernetes-Konfigurationsdatei anzugeben, die von microk8s generiert wird.
Der Befehl DSS -Initialisierungsbefehl kann einige Minuten dauern. Während dieser Zeit zeigt die DSS -CLI Nachrichten an, die den Fortschritt der Bereitstellung angeben. Sie sehen Nachrichten ähnlich wie folgt:
[Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ...
Diese Nachricht zeigt an, dass DSS auf die Bereitstellung des TensorFlow -Notizbuchs wartet. Seien Sie geduldig, da das System die Umgebung festlegt und sicherstellt, dass alle Komponenten korrekt konfiguriert sind.
Sobald die Initialisierung abgeschlossen ist, sehen Sie eine Ausgabe wie unten:
[Info] Befehl Initialize ausführen [Info] Speichern bereitgestellt KubeConfig to /home/ostechnix/snap/data-science-stack/16/.dss/config [Info] Warten auf den Bereitstellungsmlflow in Namespace DSS, um fertig zu sein ... [Info] Bereitstellungsmlflow in Namespace DSS ist bereit [Info] DSS initialisiert. Um Ihr erstes Notizbuch zu erstellen, führen Sie den Befehl aus: DSS erstellen Beispiele: DSS erstellen My-NoTebook-Image = Pytorch DSS erstellen my-notebook --image = kubeflownotebookswg/jupyter-scipy: v1.8.0
Jetzt können Sie den MLFlow Tracking -Server und andere von DSS bereitgestellte Komponenten verwenden.
Sie können dann Ihr erstes Notizbuch für maschinelles Lernen in der DSS -Umgebung erstellen und ausführen.
Um Ihr erstes Jupyter -Notizbuch mit dem Data Science Stack (DSS) zu starten, müssen Sie mit dem THEDSS CreateCommand die Art von Notebook angeben, die Sie erstellen möchten.
Hier erstellen wir ein TensorFlow-Notizbuch namens My-TensorFlow-Notebook mit CUDA-Unterstützung:
$ DSS erstellen My-TensorFlow-Notebook-IMAGE = KUBEFOWNOTBOOKSWG/JUPYTER-TENSORFLOW-CUDA: V1.8.0
Bei erfolgreicher Erstellung des Notizbuchs sehen Sie wie unten eine Ausgabe wie unten:
[Info] Befehl erstellen erstellen [Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ... [Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ... [Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ... [Info] Bereitstellung My-TensorFlow-Notebook in Namespace DSS ist bereit [Info] Erfolg: Notebook My-TensorFlow-Notebook erfolgreich erstellt. [Info] Zugriff auf das Notizbuch unter http://10.152.183.253:80.
Sobald das Notizbuch fertig ist, zeigt der Befehl eine URL an, mit der Sie auf die JupyterLab -Benutzeroberfläche zugreifen können.
Öffnen Sie einen Webbrowser, um mit Ihrem Notebook mit Ihrem Notebook zu arbeiten, und geben Sie die bereitgestellte URL in die Adressleiste ein.
Wie Sie in der obigen Ausgabe sehen, können wir von einem Webbrowser auf das neu erstellte Notebook unter http://10.152.183.253:80 zugreifen. Ersetzen Sie die URL durch Ihre eigenen.
Auf diese Weise führt Sie zur JupyterLab -Schnittstelle, in der Sie neue Notizbücher erstellen, Daten hochladen und Ihre Aufgaben für maschinelles Lernen mit TensorFlow und CUDA beginnen können.
Denken Sie daran, dass die IP -Adresse und die Portnummer in der URL je nach Ihrem spezifischen Setup variieren können.
Das war's. Sie können jetzt mit Ihrem Notebook interagieren.
Um den Status Ihrer Data Science Stack (DSS) -Enumgebung, einschließlich des Status von MLFlow und der Verfügbarkeit der GPU -Beschleunigung, schnell zu überprüfen, können Sie den Status -Command wie unten verwenden.
$ DSS Status
Der Status -Command mit dem THEDSS bietet Ihnen eine Zusammenfassung des aktuellen Standes Ihrer DSS -Umgebung. Hier ist ein Beispiel dafür, wie die Ausgabe aussehen könnte:
[Info] MLFlow -Bereitstellung: Bereit [Info] MLFlow URL: http://10.152.183.157:5000 [Info] GPU -Beschleunigung: Behindert
Erläuterung der Ausgabe:
Öffnen Sie zur Überprüfung die MLFlow -URL http://10.152.183.157:5000 in Ihrem Webbrowser.
Dadurch wird das MLFlow -Dashboard in Ihrem Webbrowser geöffnet.
Registerkarte Experimente im MLFlow -Dashboard:
Da es unsere neue Installation ist, gibt es noch keine Experimente. Um ein Experiment zu erstellen, verwenden Sie die MLFlow -Experimente CLI.
Registerkarte "Modelle" in MLFlow Dashboard:
Um die Liste der verfügbaren Befehle für den Data Science Stack (DSS) anzuzeigen, können Sie den Befehl DSS mit der Option -Help verwenden.
Führen Sie den folgenden Befehl in Ihrem Terminal aus:
$ DSS -HELP
Dadurch wird eine Liste von Befehlen zusammen mit einer kurzen Beschreibung ihres Zwecks angezeigt.
Wenn Sie detailliertere Informationen zu einem bestimmten DSS -Befehl benötigen, können Sie den Befehl verwenden, gefolgt von der Option -HELP.
Um beispielsweise Details zum Befehl "Initialize" zu erhalten, würden Sie ausgeführt:
$ DSS -Protokolle -HELP
Wenn Sie kein DSS mehr benötigen, können Sie den Befehl DSS -Spülen verwenden, um den Data Science -Stack aus Ihrem MicroK8s -Cluster zu entfernen.
Um DSS zu entfernen, führen Sie den folgenden Befehl in Ihrem Terminal aus:
$ DSS Säuberung
In diesem Befehl werden alle DSS -Komponenten, einschließlich Jupyter -Notebooks, dem MLFlow -Server und allen in der DSS -Umgebung gespeicherten Daten vollständig entfernt.
Es ist wichtig zu beachten, dass diese Aktion irreversibel ist und alle Daten in der DSS -Umgebung dauerhaft verloren gehen. Stellen Sie sicher, dass wichtige Daten sichern, bevor Sie mit der Säuberung fortfahren.
Während der Befehl DSS -Spülmittel die DSS -Komponenten aus dem Microk8s -Cluster entfernt, entzieht er die DSS -CLI oder den Microk8s -Cluster selbst nicht. Wenn Sie diese auch entfernen möchten, müssen Sie ihre jeweiligen Schnappschüsse löschen:
Verwenden Sie den folgenden Befehl, um die DSS -CLI zu entfernen:
$ sudo snap entfernen Sie den Daten-Science-Stack
Verwenden Sie zum Entfernen von Microk8s den folgenden Befehl:
$ sudo snap entfernen microk8s
Wenn Sie diese Schritte ausführen, können Sie den Data Science Stack (DSS) und seine zugehörigen Komponenten aus Ihrem System vollständig entfernen.
A: Data Science Stack (DSS) ist eine umfassende, bereitgestellte Umgebung für maschinelles Lernen und Datenwissenschaft. Es ist so konzipiert, dass es das Setup und die Verwaltung von Tools und Frameworks von Data Science vereinfacht und Benutzer ermöglicht, sich auf ihre Kernaufgaben und nicht auf die Feinheiten der Umgebungskonfiguration zu konzentrieren.
F: Welche Tools sind in DSS enthalten?A: DSS enthält eine Vielzahl von Open-Source-Tools wie Jupyter Notebook, MLFlow und beliebte Rahmenbedingungen für maschinelles Lernen wie Tensorflow und Pytorch. Es bietet auch ein Container -Orchestrierungssystem, Microk8s, für die Verwaltung von Workloads.
F: Wie installiere ich DSS?A: Um DSS zu installieren, müssen Sie Ubuntu 22.04 LTS oder Ubuntu 24.04 LTS, eine Internetverbindung und SNAP installiert haben. Anschließend können Sie Microk8s und die DSS -CLI mit SNAP -Befehlen installieren. Ausführliche Anweisungen finden Sie im offiziellen Dokumentations- oder Installationshandbuch.
F: Wie beginne ich ein Jupyter -Notizbuch mit DSS?A: Sie können ein Jupyter -Notizbuch mit DSS mit dem Befehl dss creat starten und das gewünschte Bild für Ihr Notebook angeben. Um beispielsweise ein TensorFlow-Notebook zu starten, verwenden Sie DSS erstellen Sie My-TensorFlow-Notebook-IMAGE = KUBEFOWNOTBOOKSWG/JUPYTER-TENSORFLOW-CUDA: V1.8.0.
F: Was ist der Zweck des DSS -Statusbefehls?A: Der Befehl DSS -Status bietet einen kurzen Überblick über den aktuellen Status Ihrer DSS -Umgebung, einschließlich des Status von MLFlow und der Verfügbarkeit der GPU -Beschleunigung. Es hilft Ihnen, zu überprüfen, ob alle Komponenten korrekt funktionieren.
F: Wie entferne ich DSS aus meiner Umgebung?A: Um DSS zu entfernen, können Sie den Befehl DSS -Spülen verwenden, mit dem alle DSS -Komponenten, einschließlich Jupyter -Notebooks und den MLFlow -Server, entfernt werden. Beachten Sie, dass diese Aktion irreversibel ist und zum Verlust aller Daten in der DSS -Umgebung führt.
F: Wo finde ich weitere Informationen zu DSS -Befehlen? A: Sie können detaillierte Informationen zu DSS -Befehlen finden, indem Sie den Befehl DSS -HELP verwenden, um alle verfügbaren Befehle und DSS
Yes, DSS is based on open-source tools and is free to use.
Q: Is DSS suitable for beginners in data science?A: Ja, DSS ist so konzipiert, dass sie benutzerfreundlich sein und für Anfänger ein großartiges Werkzeug sein können, da es die Komplexität der Einrichtung eines Datenwissenschaftsumfelds verringert. It provides a ready-made and optimized environment that allows users to start working on data science projects quickly.
In summary, the Data Science Stack (DSS) simplifies the setup for data science tasks. It provides a collection of tools that work well together, making it easier to start projects quickly.
Whether you're new to data science or experienced, DSS helps you focus on your work by handling the technical setup. It's a reliable tool that supports efficient data analysis and model building.
Resource :
Related Read :
Das obige ist der detaillierte Inhalt vonCanonical startet Data Science Stack für ML -Anfänger. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!