Heim >System-Tutorial >LINUX >Canonical startet Data Science Stack für ML -Anfänger

Canonical startet Data Science Stack für ML -Anfänger

Jennifer Aniston
Jennifer AnistonOriginal
2025-03-17 10:22:09379Durchsuche

Datenwissenschaft ist die Untersuchung von Daten. Es umfasst das Sammeln, Analysieren und Interpretieren großer Informationsmengen. Datenwissenschaftler verwenden diese Informationen, um Entscheidungen zu treffen, Probleme zu lösen und zukünftige Trends vorherzusagen.

Datenwissenschaftler verwenden verschiedene Tools und Techniken, um komplexe Datensätze zu analysieren und zu interpretieren. Dies hilft Unternehmen und Organisationen, bessere Entscheidungen zu treffen.

Wenn Sie ein Anfänger sind, der gerade erst mit Data Science beginnt, werden Sie sich wahrscheinlich vor einigen Herausforderungen stellen, um ein ordnungsgemäßes Datenwissenschaftsumfeld einzurichten.

Hier sind einige Gründe, warum die Einrichtung eines Datenwissenschaftsumfelds für Anfänger schwierig sein kann:

  1. Software -Installation : Neulinge haben häufig Probleme mit der Installation der erforderlichen Software, z. B. Programmiersprachen (wie Python oder R), Bibliotheken und Tools (wie Jupyter -Notebooks oder Rstudio).
  2. Abhängigkeiten verstehen : Software erfordert häufig bestimmte Versionen anderer Software, um korrekt zu arbeiten. Dies kann verwirrend sein und zu Fehlern führen, wenn sie nicht ordnungsgemäß verwaltet werden.
  3. Lernkurve : Datenwissenschaft beinhaltet das Erlernen neuer Fähigkeiten, einschließlich Programmierung, Statistik und maschinelles Lernen. Dies kann für Anfänger überwältigend sein.
  4. Datenhandhabung : Die Arbeit mit Daten kann komplex sein, insbesondere bei großen oder unordentlichen Datensätzen. Das Verständnis, wie Sie Daten reinigen, speichern und verarbeitet werden, ist entscheidend, kann jedoch anfangs schwer zu verstehen sein.
  5. Versionskontrolle : Es ist wichtig, Änderungen in Code und Daten zu verfolgen, aber es ist schwierig, sich einzurichten und zu verwalten, insbesondere für diejenigen, die neu in Versionskontrollsystemen wie Git sind.
  6. Auswahl der Tools : Es gibt viele Tools und Frameworks, und die Auswahl der richtigen für ein bestimmtes Projekt kann für Anfänger entmutigend sein.

Durch das Verständnis dieser Herausforderungen können sich Anfänger besser vorbereiten und die richtigen Ressourcen und Unterstützung suchen, um sie zu überwinden.

Die anfänglichen Hürden können für neue Datenwissenschaftler eine Herausforderung sein, aber mit Beharrlichkeit und konsequentem Lernen wird die Reise reibungsloser.

Dank des Data Science Stack (DSS) von Canonical wurde die Einrichtung von Data Science jetzt viel einfacher. In diesem Tutorial werden wir diskutieren, was Data Science Stack ist und wie sie in Ubuntu -Betriebssystemen einfach und schnell ein Datenwissenschaftsumfeld einrichten können.

Inhaltsverzeichnis

Was ist Data Science Stack (DSS)?

Der Data Science Stack (DSS) von Canonical ist eine außergewöhnliche Lösung für Datenwissenschaftler und maschinelles Lernen.

Der Data Science Stack vereinfacht den Setup-Prozess durch eine vorkonfigurierte Umgebung, die alle erforderlichen Tools und Bibliotheken für maschinelles Lernen und Datenanalyse enthält.

Durch die Ausführung von Ubuntu -Workstations und die Optimierung der Verwendung von GPUs kann DSS die Leistung von maschinellen Lernmodellen verbessern, was besonders für rechnerisch intensive Aufgaben vorteilhaft ist.

DSS ermöglicht es Benutzern, sich mehr auf die Entwicklung und Optimierung ihrer Modelle zu konzentrieren als auf die technischen technischen geltenden Umgebungsaufnahmen.

Dies kann viel Zeit sparen, die sonst für die Installation und Konfiguration einzelner Komponenten aufgewendet werden würde.

Was ist im Data Science Stack enthalten?

Der Data Science Stack (DSS) bietet Datenwissenschaftlern und Ingenieuren für maschinelles Lernen eine umfassende und integrierte Umgebung. Folgendes bietet es:

  1. Vorinstallierte Tools : DSS enthält beliebte Open-Source-Tools wie Microk8s , JupyterLab und MLFlow , die für die Datenerforschung, die Modellentwicklung und die Versuchsverfolgung von wesentlicher Bedeutung sind.
  2. Maschinelles Lernen Frameworks : Standardmäßig werden zwei weit verbreitete Rahmenbedingungen für maschinelles Lernen geliefert, Pytorch und TensorFlow , die für das Erstellen und Trainingsmodelle verwendet werden können.
  3. Befehlszeilenschnittstelle (CLI) : DSS bietet eine intuitive CLI für die Bereitstellung dieser Tools und Frameworks und erleichtert die Verwaltung und Skalierung der Umgebung.
  4. Benutzeroberflächen : Nach der Bereitstellung können Benutzer auf die Benutzeroberflächen der Tools zugreifen, um an ihren Datenwissenschaftsprojekten zu arbeiten, ohne das manuelle Setup zu belasten.
  5. Verpackungsabhängigkeiten : DSS behandelt die Verpackungsabhängigkeiten und stellt sicher, dass alle Werkzeuge, Bibliotheken und Frameworks miteinander kompatibel sind und reibungslos zusammenarbeiten.
  6. Hardwarekompatibilität : Es ist so konzipiert, dass sie mit der Hardware der Maschine kompatibel ist und die Leistung der Tools und Frameworks optimiert
  7. Vereinfachte Konfiguration : Traditionell kann das Einrichten maschineller Lernumgebungen auf Workstations komplex und schwierig sein. DSS berücksichtigt dies, indem es zugängliche, produktionsbereite, isolierte und reproduzierbare ML-Umgebungen bereitstellt, die den GPUs einer Workstation effizient nutzen.
  8. GPU -Konfiguration : DSS vereinfacht die GPU -Konfiguration durch Einbeziehung des GPU -Operators , der das Setup und die Verwendung von GPUs für maschinelle Lernaufgaben verwaltet und ihre Rechenleistung effektiv nutzt.

Insgesamt soll DSS ein problemloses und optimiertes Umfeld für Datenwissenschaft und maschinelles Lernen bieten, sodass Benutzer sich eher auf ihre Kernaufgaben als auf die technische Einrichtung und Wartung ihrer Tools konzentrieren können.

Installieren Sie Data Science Stack (DSS) in Ubuntu

Befolgen Sie diese Schritte, um Ihre Umgebung einzurichten:

Voraussetzungen

  • Betriebssystem : Stellen Sie sicher, dass Sie Ubuntu 22.04 LTS oder Ubuntu 24.04 LTS auf Ihrem System installiert haben.
  • Internetverbindung : Sie benötigen eine aktive Internetverbindung, um die erforderliche Software herunterzuladen und zu installieren.
  • SNAP : Stellen Sie sicher, dass Snap in Ihrem System installiert ist, da es für die Installation von Microk8s und DSS erforderlich ist.

Einrichten von Microk8s

DSS verwendet Microk8s als Container -Orchestrierungssystem, mit dem Workloads auf den GPUs des Hosts zugreifen können.

Um Microk8s auf Ubuntu zu installieren, rennen Sie:

 $ sudo snap install microk8s -channel 1.28/stabil -klassisch

Aktivieren Sie als nächstes die erforderlichen Dienste:

 $ sudo microk8s aktivieren Speicher -DNS RBAC

Installation der DSS CLI

Der Data Science Stack wird über eine Befehlszeilenschnittstelle (CLI) verwaltet.

Installieren Sie DSS CLI mit dem folgenden Befehl:

 $ sudo snap Installieren Sie den Data-Science-Stack-Channel Neueste/Stable

Wenn diese Schritte abgeschlossen sind, haben Sie die grundlegenden Komponenten von DSS installiert und verwenden. Sie können nun Ihre Umgebungen für maschinelles Lernen einrichten und Ihre ersten Notizbücher mit der DSS CLI ausführen.

Erste Schritte mit Data Science Stack

Nach der Installation von Microk8s und der DSS -CLI besteht der nächste Schritt darin, DSS auf Microk8s zu initialisieren und MLFlow zur Verwendung vorzubereiten.

Initialisierung von DSS und MLFlow

Um DSS zu initialisieren, müssen Sie das InitializeCommand von Theedss verwenden, wodurch die erforderlichen Ressourcen innerhalb des Microk8s -Clusters festgelegt sind.

 $ dSS initialize -kubeconfig = "$ (sudo microk8s config)"

Die KubeConfigFlag wird verwendet, um den Pfad zur Kubernetes-Konfigurationsdatei anzugeben, die von microk8s generiert wird.

Der Befehl DSS -Initialisierungsbefehl kann einige Minuten dauern. Während dieser Zeit zeigt die DSS -CLI Nachrichten an, die den Fortschritt der Bereitstellung angeben. Sie sehen Nachrichten ähnlich wie folgt:

 [Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ...

Diese Nachricht zeigt an, dass DSS auf die Bereitstellung des TensorFlow -Notizbuchs wartet. Seien Sie geduldig, da das System die Umgebung festlegt und sicherstellt, dass alle Komponenten korrekt konfiguriert sind.

Sobald die Initialisierung abgeschlossen ist, sehen Sie eine Ausgabe wie unten:

 [Info] Befehl Initialize ausführen
[Info] Speichern bereitgestellt KubeConfig to /home/ostechnix/snap/data-science-stack/16/.dss/config
[Info] Warten auf den Bereitstellungsmlflow in Namespace DSS, um fertig zu sein ...
[Info] Bereitstellungsmlflow in Namespace DSS ist bereit
[Info] DSS initialisiert. Um Ihr erstes Notizbuch zu erstellen, führen Sie den Befehl aus:

DSS erstellen

Beispiele:
  DSS erstellen My-NoTebook-Image = Pytorch
  DSS erstellen my-notebook --image = kubeflownotebookswg/jupyter-scipy: v1.8.0

Canonical startet Data Science Stack für ML -Anfänger

Jetzt können Sie den MLFlow Tracking -Server und andere von DSS bereitgestellte Komponenten verwenden.

Sie können dann Ihr erstes Notizbuch für maschinelles Lernen in der DSS -Umgebung erstellen und ausführen.

Starten Sie Ihr erstes Jupyter -Notizbuch

Um Ihr erstes Jupyter -Notizbuch mit dem Data Science Stack (DSS) zu starten, müssen Sie mit dem THEDSS CreateCommand die Art von Notebook angeben, die Sie erstellen möchten.

Hier erstellen wir ein TensorFlow-Notizbuch namens My-TensorFlow-Notebook mit CUDA-Unterstützung:

 $ DSS erstellen My-TensorFlow-Notebook-IMAGE = KUBEFOWNOTBOOKSWG/JUPYTER-TENSORFLOW-CUDA: V1.8.0

Bei erfolgreicher Erstellung des Notizbuchs sehen Sie wie unten eine Ausgabe wie unten:

 [Info] Befehl erstellen erstellen
[Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ...
[Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ...
[Info] Warten auf die Bereitstellung My-TensorFlow-Notebook in Namespace DSS, um bereit zu sein ...
[Info] Bereitstellung My-TensorFlow-Notebook in Namespace DSS ist bereit
[Info] Erfolg: Notebook My-TensorFlow-Notebook erfolgreich erstellt.
[Info] Zugriff auf das Notizbuch unter http://10.152.183.253:80.

Canonical startet Data Science Stack für ML -Anfänger

Sobald das Notizbuch fertig ist, zeigt der Befehl eine URL an, mit der Sie auf die JupyterLab -Benutzeroberfläche zugreifen können.

Öffnen Sie einen Webbrowser, um mit Ihrem Notebook mit Ihrem Notebook zu arbeiten, und geben Sie die bereitgestellte URL in die Adressleiste ein.

Wie Sie in der obigen Ausgabe sehen, können wir von einem Webbrowser auf das neu erstellte Notebook unter http://10.152.183.253:80 zugreifen. Ersetzen Sie die URL durch Ihre eigenen.

Auf diese Weise führt Sie zur JupyterLab -Schnittstelle, in der Sie neue Notizbücher erstellen, Daten hochladen und Ihre Aufgaben für maschinelles Lernen mit TensorFlow und CUDA beginnen können.

Canonical startet Data Science Stack für ML -Anfänger

Denken Sie daran, dass die IP -Adresse und die Portnummer in der URL je nach Ihrem spezifischen Setup variieren können.

Das war's. Sie können jetzt mit Ihrem Notebook interagieren.

DSS -Status anzeigen

Um den Status Ihrer Data Science Stack (DSS) -Enumgebung, einschließlich des Status von MLFlow und der Verfügbarkeit der GPU -Beschleunigung, schnell zu überprüfen, können Sie den Status -Command wie unten verwenden.

 $ DSS Status

Der Status -Command mit dem THEDSS bietet Ihnen eine Zusammenfassung des aktuellen Standes Ihrer DSS -Umgebung. Hier ist ein Beispiel dafür, wie die Ausgabe aussehen könnte:

 [Info] MLFlow -Bereitstellung: Bereit
[Info] MLFlow URL: http://10.152.183.157:5000
[Info] GPU -Beschleunigung: Behindert

Erläuterung der Ausgabe:

  • MLFlow -Bereitstellung: Ready zeigt an, dass der MLFlow -Tracking -Server im Betrieb ist.
  • Die MLFlow -URL bietet der URL, in der Sie auf die MLFlow -Benutzeroberfläche zugreifen können, um Ihre Experimente für maschinelles Lernen zu verfolgen.
  • GPU -Beschleunigung: Deaktiviert zeigt, dass für die Verwendung in der aktuellen DSS -Umgebung keine GPU verfügbar oder konfiguriert ist.

Öffnen Sie zur Überprüfung die MLFlow -URL http://10.152.183.157:5000 in Ihrem Webbrowser.

Dadurch wird das MLFlow -Dashboard in Ihrem Webbrowser geöffnet.

Registerkarte Experimente im MLFlow -Dashboard:

Canonical startet Data Science Stack für ML -Anfänger

Da es unsere neue Installation ist, gibt es noch keine Experimente. Um ein Experiment zu erstellen, verwenden Sie die MLFlow -Experimente CLI.

Registerkarte "Modelle" in MLFlow Dashboard:

Canonical startet Data Science Stack für ML -Anfänger

Auflistung von DSS -Befehlen

Um die Liste der verfügbaren Befehle für den Data Science Stack (DSS) anzuzeigen, können Sie den Befehl DSS mit der Option -Help verwenden.

Führen Sie den folgenden Befehl in Ihrem Terminal aus:

 $ DSS -HELP

Dadurch wird eine Liste von Befehlen zusammen mit einer kurzen Beschreibung ihres Zwecks angezeigt.

Wenn Sie detailliertere Informationen zu einem bestimmten DSS -Befehl benötigen, können Sie den Befehl verwenden, gefolgt von der Option -HELP.

Um beispielsweise Details zum Befehl "Initialize" zu erhalten, würden Sie ausgeführt:

 $ DSS -Protokolle -HELP

Entfernen von Data Science Stack aus microk8s

Wenn Sie kein DSS mehr benötigen, können Sie den Befehl DSS -Spülen verwenden, um den Data Science -Stack aus Ihrem MicroK8s -Cluster zu entfernen.

Um DSS zu entfernen, führen Sie den folgenden Befehl in Ihrem Terminal aus:

 $ DSS Säuberung

In diesem Befehl werden alle DSS -Komponenten, einschließlich Jupyter -Notebooks, dem MLFlow -Server und allen in der DSS -Umgebung gespeicherten Daten vollständig entfernt.

Es ist wichtig zu beachten, dass diese Aktion irreversibel ist und alle Daten in der DSS -Umgebung dauerhaft verloren gehen. Stellen Sie sicher, dass wichtige Daten sichern, bevor Sie mit der Säuberung fortfahren.

Entfernen Sie DSS CLI und Microk8s

Während der Befehl DSS -Spülmittel die DSS -Komponenten aus dem Microk8s -Cluster entfernt, entzieht er die DSS -CLI oder den Microk8s -Cluster selbst nicht. Wenn Sie diese auch entfernen möchten, müssen Sie ihre jeweiligen Schnappschüsse löschen:

Verwenden Sie den folgenden Befehl, um die DSS -CLI zu entfernen:

 $ sudo snap entfernen Sie den Daten-Science-Stack

Verwenden Sie zum Entfernen von Microk8s den folgenden Befehl:

 $ sudo snap entfernen microk8s

Wenn Sie diese Schritte ausführen, können Sie den Data Science Stack (DSS) und seine zugehörigen Komponenten aus Ihrem System vollständig entfernen.

Häufig gestellte Fragen (FAQ)

F: Was ist Data Science Stack (DSS)?

A: Data Science Stack (DSS) ist eine umfassende, bereitgestellte Umgebung für maschinelles Lernen und Datenwissenschaft. Es ist so konzipiert, dass es das Setup und die Verwaltung von Tools und Frameworks von Data Science vereinfacht und Benutzer ermöglicht, sich auf ihre Kernaufgaben und nicht auf die Feinheiten der Umgebungskonfiguration zu konzentrieren.

F: Welche Tools sind in DSS enthalten?

A: DSS enthält eine Vielzahl von Open-Source-Tools wie Jupyter Notebook, MLFlow und beliebte Rahmenbedingungen für maschinelles Lernen wie Tensorflow und Pytorch. Es bietet auch ein Container -Orchestrierungssystem, Microk8s, für die Verwaltung von Workloads.

F: Wie installiere ich DSS?

A: Um DSS zu installieren, müssen Sie Ubuntu 22.04 LTS oder Ubuntu 24.04 LTS, eine Internetverbindung und SNAP installiert haben. Anschließend können Sie Microk8s und die DSS -CLI mit SNAP -Befehlen installieren. Ausführliche Anweisungen finden Sie im offiziellen Dokumentations- oder Installationshandbuch.

F: Wie beginne ich ein Jupyter -Notizbuch mit DSS?

A: Sie können ein Jupyter -Notizbuch mit DSS mit dem Befehl dss creat starten und das gewünschte Bild für Ihr Notebook angeben. Um beispielsweise ein TensorFlow-Notebook zu starten, verwenden Sie DSS erstellen Sie My-TensorFlow-Notebook-IMAGE = KUBEFOWNOTBOOKSWG/JUPYTER-TENSORFLOW-CUDA: V1.8.0.

F: Was ist der Zweck des DSS -Statusbefehls?

A: Der Befehl DSS -Status bietet einen kurzen Überblick über den aktuellen Status Ihrer DSS -Umgebung, einschließlich des Status von MLFlow und der Verfügbarkeit der GPU -Beschleunigung. Es hilft Ihnen, zu überprüfen, ob alle Komponenten korrekt funktionieren.

F: Wie entferne ich DSS aus meiner Umgebung?

A: Um DSS zu entfernen, können Sie den Befehl DSS -Spülen verwenden, mit dem alle DSS -Komponenten, einschließlich Jupyter -Notebooks und den MLFlow -Server, entfernt werden. Beachten Sie, dass diese Aktion irreversibel ist und zum Verlust aller Daten in der DSS -Umgebung führt.

F: Wo finde ich weitere Informationen zu DSS -Befehlen?

A: Sie können detaillierte Informationen zu DSS -Befehlen finden, indem Sie den Befehl DSS -HELP verwenden, um alle verfügbaren Befehle und DSS -HELP aufzulisten, um eine detaillierte Verwendung für einen bestimmten Befehl zu erhalten.

Q: Is DSS free to use?

Yes, DSS is based on open-source tools and is free to use.

Q: Is DSS suitable for beginners in data science?

A: Ja, DSS ist so konzipiert, dass sie benutzerfreundlich sein und für Anfänger ein großartiges Werkzeug sein können, da es die Komplexität der Einrichtung eines Datenwissenschaftsumfelds verringert. It provides a ready-made and optimized environment that allows users to start working on data science projects quickly.

Abschluss

In summary, the Data Science Stack (DSS) simplifies the setup for data science tasks. It provides a collection of tools that work well together, making it easier to start projects quickly.

Whether you're new to data science or experienced, DSS helps you focus on your work by handling the technical setup. It's a reliable tool that supports efficient data analysis and model building.

Resource :

  • Data Science Stack (DSS) Documentation

Related Read :

  • How To Install Anaconda On Linux
  • How To Install Miniconda In Linux

Das obige ist der detaillierte Inhalt vonCanonical startet Data Science Stack für ML -Anfänger. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn