Maison >Tutoriel système >Linux >Canonical lance la pile de science des données pour les débutants ML
La science des données est l'étude des données. Il s'agit de collecter, d'analyser et d'interpréter de grandes quantités d'informations. Les scientifiques des données utilisent ces informations pour prendre des décisions, résoudre des problèmes et prédire les tendances futures.
Les scientifiques des données utilisent divers outils et techniques pour analyser et interpréter des ensembles de données complexes. Cela aide les entreprises et les organisations à prendre de meilleures décisions.
Si vous êtes un débutant en commençant par la science des données, vous ferez probablement face à plusieurs défis dans la mise en place d'un environnement de science des données approprié.
Voici quelques raisons pour lesquelles la création d'un environnement de science des données peut être difficile pour les débutants:
En comprenant ces défis, les débutants peuvent mieux se préparer et rechercher les bonnes ressources et le soutien pour les surmonter.
Les obstacles initiaux peuvent être difficiles pour les nouveaux scientifiques des données, mais avec une persistance et un apprentissage cohérent, le voyage deviendra plus lisse.
Grâce à la pile de science des données de Canonical (DSS) , la configuration de la science des données est devenue beaucoup plus facile maintenant. Dans ce tutoriel, nous discuterons de la pile de science des données et de la façon de les utiliser pour configurer un environnement de science des données facilement et rapidement dans les systèmes d'exploitation Ubuntu .
Table des matières
La pile de science des données (DSS) de Canonical est une solution prête à l'emploi pour les scientifiques des données et les ingénieurs d'apprentissage automatique.
La pile de science des données simplifie le processus de configuration en fournissant un environnement préconfiguré qui inclut tous les outils et bibliothèques nécessaires pour l'apprentissage automatique et l'analyse des données.
En étant conçu pour fonctionner sur des postes de travail Ubuntu et en optimisant l'utilisation des GPU, DSS peut améliorer les performances des modèles d'apprentissage automatique, ce qui est particulièrement bénéfique pour les tâches à forte intensité de calcul.
Le DSS permet aux utilisateurs de se concentrer davantage sur le développement et l'optimisation de leurs modèles plutôt que sur les détails techniques de la configuration de l'environnement.
Cela peut économiser beaucoup de temps qui serait autrement consacré à l'installation et à la configuration des composants individuels.
Le Data Science Stack (DSS) fournit un environnement complet et intégré pour les scientifiques des données et les ingénieurs d'apprentissage automatique. Voici ce qu'il offre:
Dans l'ensemble, DSS vise à fournir un environnement sans tracas et optimisée pour la science des données et l'apprentissage automatique, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur la configuration technique et la maintenance de leurs outils.
Pour commencer à utiliser la pile de science des données (DSS) pour l'apprentissage automatique et la science des données, suivez ces étapes pour configurer votre environnement:
DSS utilise Microk8S comme système d'orchestration de conteneurs, qui permet aux charges de travail d'accéder aux GPU de l'hôte.
Pour installer des microk8 sur Ubuntu, exécuter:
$ sudo snap install Microk8s - Channel 1.28 / stable - Classic
Ensuite, activez les services requis:
$ sudo microk8s activer le stockage DNS RBAC
La pile de science des données est gérée via une interface de ligne de commande (CLI).
Installez DSS CLI avec la commande suivante:
$ sudo snap installer data-science-stack - Channel Dernier / stable
Avec ces étapes terminées, vous aurez installé les composants fondamentaux de DSS et prêts à l'emploi. Vous pouvez maintenant procéder à la configuration de vos environnements d'apprentissage automatique et à commencer à exécuter vos premiers ordinateurs portables à l'aide de la CLI DSS.
Après avoir installé Microk8s et le DSS CLI, l'étape suivante consiste à initialiser DSS au-dessus des microk8 et à préparer MLFlow à utiliser.
Pour initialiser DSS, vous devrez utiliser TheDSS InicizIzecommand, qui met en place les ressources nécessaires dans le cluster Microk8s.
$ dss initialize --kubEconfig = "$ (sudo microk8s config)"
Le - KuBEConfigflag est utilisé pour spécifier le chemin d'accès au fichier de configuration de Kubernetes généré par Microk8s.
La commande DSS Initialize peut prendre quelques minutes. Pendant ce temps, le DSS CLI affichera des messages indiquant la progression du déploiement. Vous verrez des messages similaires à ce qui suit:
[Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...
Ce message indique que DSS attend que le déploiement du cahier TensorFlow soit prêt. Soyez patient car le système configure l'environnement et garantit que tous les composants sont correctement configurés.
Une fois l'initialisation terminée, vous verrez une sortie comme ci-dessous:
[Info] Exécution de la commande Initialize [Info] Stockage fourni KubEconfig à /home/ostechnix/snap/data-science-stack/16/.dsss/config [Info] En attente de déploiement MLFlow dans DSS d'espace de noms pour être prêt ... [Info] Déploiement mlflow dans l'espace de noms DSS est prêt [Info] DSS initialisé. Pour créer votre premier cahier, exécutez la commande: DSS Créer Exemples: DSS Créer My-noteBook --image = Pytorch DSS Créer My-noteBook --image = KubeFlowoteBookSwg / Jupyter-Scipy: v1.8.0
Maintenant, vous serez prêt à commencer à utiliser le serveur de suivi MLFlow et d'autres composants fournis par DSS.
Vous pouvez ensuite procéder à la création et à l'exécution de votre premier ordinateur portable d'apprentissage automatique dans l'environnement DSS.
Pour démarrer votre premier ordinateur portable Jupyter à l'aide de la pile de science des données (DSS), vous devrez utiliser TheDSS CreateCommand, qui vous permet de spécifier le type de cahier que vous souhaitez créer.
Ici, nous créons un ordinateur portable TensorFlow nommé My-TensorFlow-Notebook avec support CUDA:
$ dss Créer My-Tensorflow-notebook --image = kubeflowotebookswg / jupyter-tensorflow-cuda: v1.8.0
Lors de la création réussie du cahier, vous verrez une sortie comme ci-dessous:
[Info] Exécution de la commande de création [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] Déploiement My-TensorFlow-notebook dans l'espace de noms DSS est prêt [Info] Succès: Notebook My-TensorFlow-notebook créé avec succès. [Info] Accédez au cahier à http://10.152.183.253:80.
Une fois le cahier prêt, la commande affiche une URL que vous pouvez utiliser pour accéder à l'interface utilisateur de JupyterLab.
Pour commencer à travailler avec votre cahier, ouvrez un navigateur Web et entrez l'URL fournie dans la barre d'adresse.
Comme vous le voyez dans la sortie ci-dessus, nous pouvons accéder au bloc-notes nouvellement créé sur http://10.152.183.253:80 à partir d'un navigateur Web. Remplacez l'URL par le vôtre.
Cela vous amènera à l'interface JupyterLab où vous pouvez créer de nouveaux ordinateurs portables, télécharger des données et commencer vos tâches d'apprentissage automatique à l'aide de TensorFlow et Cuda.
N'oubliez pas que l'adresse IP et le numéro de port dans l'URL peuvent varier en fonction de votre configuration spécifique.
C'est ça. Vous pouvez maintenant commencer à interagir avec votre cahier.
Pour vérifier rapidement l'état de votre environnement de pile de science des données (DSS), y compris l'état de MLFlow et la disponibilité de l'accélération du GPU, vous pouvez utiliser TheDSS StatusCommand comme ci-dessous.
Statut de $ DSS
TheDSS StatusCommand vous fournira un résumé de l'état actuel de votre environnement DSS. Voici un exemple de ce à quoi pourrait ressembler la sortie:
[Info] Département MLFlow: prêt [Info] URL mlflow: http://10.152.183.157:5000 [Info] Accélération du GPU: désactivé
Explication de la sortie:
Pour vérifier, ouvrez l'URL MLFlow http://10.152.183.157:5000 de votre navigateur Web.
Cela ouvrira le tableau de bord MLFlow dans votre navigateur Web.
Onglet Expériences dans le tableau de bord MLFlow:
Puisqu'il s'agit de notre nouvelle installation, il n'y a pas encore d'expériences. Pour créer une expérience, utilisez les expériences MLFlow CLI.
Onglet Modèles dans le tableau de bord MLFlow:
Pour afficher la liste des commandes disponibles pour la pile de science des données (DSS), vous pouvez utiliser la commande DSS avec l'option - Help.
Exécutez la commande suivante dans votre terminal:
$ dss - help
Cela affichera une liste de commandes ainsi qu'une brève description de leur objectif.
Si vous avez besoin d'informations plus détaillées sur une commande DSS spécifique, vous pouvez utiliser la commande suivie de l'option - Help.
Par exemple, pour obtenir des détails sur la commande Initialize, vous exécuteriez:
$ dss journaux - help
Si vous n'avez plus besoin de DSS, vous pouvez utiliser la commande DSS Purge pour supprimer la pile de science des données de votre cluster Microk8s.
Pour supprimer DSS, exécutez la commande suivante dans votre terminal:
$ dss purge
Cette commande supprimera complètement tous les composants DSS, y compris les ordinateurs portables Jupyter, le serveur MLFlow et toutes les données stockées dans l'environnement DSS.
Il est important de noter que cette action est irréversible et que toutes les données de l'environnement DSS seront perdantes en permanence. Assurez-vous de sauvegarder toutes les données importantes avant de procéder à la purge.
Alors que la commande DSS Purge supprime les composants DSS du cluster Microk8s, il ne supprime pas le DSS CLI ou le cluster Microk8s lui-même. Si vous souhaitez également les supprimer, vous devrez supprimer leurs snaps respectifs:
Pour supprimer le DSS CLI, utilisez la commande suivante:
$ sudo snap supprimer la pile de données
Pour supprimer les microk8, utilisez la commande suivante:
$ sudo snap supprimer les microk8
En suivant ces étapes, vous pouvez complètement supprimer la pile de science des données (DSS) et ses composants associés de votre système.
R: Data Science Stack (DSS) est un environnement complet et prêt à gérer pour l'apprentissage automatique et la science des données. Il est conçu pour simplifier la configuration et la gestion des outils et des cadres de science des données, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur les subtilités de la configuration de l'environnement.
Q: Quels outils sont inclus dans DSS?R: DSS comprend une variété d'outils open-source tels que Jupyter Notebook, MLFlow et des cadres d'apprentissage automatique populaires comme TensorFlow et Pytorch. Il fournit également un système d'orchestration de conteneurs, Microk8, pour gérer les charges de travail.
Q: Comment installer DSS?R: Pour installer DSS, vous devez avoir Ubuntu 22.04 LTS ou Ubuntu 24.04 LTS, une connexion Internet et un snap installé. Ensuite, vous pouvez installer Microk8s et le DSS CLI à l'aide de commandes SNAP. Pour des instructions détaillées, reportez-vous au guide officiel de documentation ou d'installation.
Q: Comment démarrer un cahier Jupyter avec DSS?R: Vous pouvez démarrer un ordinateur portable Jupyter avec DSS à l'aide de la commande DSS Create, en spécifiant l'image souhaitée pour votre ordinateur portable. Par exemple, pour démarrer un cahier TensorFlow, vous utiliseriez DSS Create My-Tensorflow-noteBook --image = KubeFlowoteBookSwg / Jupyter-Tensorflow-Cuda: v1.8.0.
Q: Quel est le but de la commande DSS Status?R: La commande DSS Status fournit un aperçu rapide de l'état actuel de votre environnement DSS, y compris l'état de MLFlow et la disponibilité de l'accélération GPU. Il vous aide à vérifier que tous les composants fonctionnent correctement.
Q: Comment supprimer le DSS de mon environnement?R: Pour supprimer DSS, vous pouvez utiliser la commande DSS Purge, qui supprimera tous les composants DSS, y compris les ordinateurs portables Jupyter et le serveur MLFlow. Notez que cette action est irréversible et entraînera la perte de toutes les données dans l'environnement DSS.
Q: Où puis-je trouver plus d'informations sur les commandes DSS? R: Vous pouvez trouver des informations détaillées sur les commandes DSS en utilisant la commande DSS --Help pour répertorier toutes les commandes et DSS
Oui, DSS est basé sur des outils open source et est libre à utiliser.
Q: Le DSS est-il adapté aux débutants en science des données?R: Oui, DSS est conçu pour être convivial et peut être un excellent outil pour les débutants car il réduit la complexité de la mise en place d'un environnement de science des données. Il fournit un environnement prêt à l'emploi et optimisé qui permet aux utilisateurs de commencer à travailler rapidement sur des projets de science des données.
En résumé, la pile de sciences des données (DSS) simplifie la configuration des tâches de science des données. Il fournit une collection d'outils qui fonctionnent bien ensemble, ce qui facilite le démarrage des projets rapidement.
Que vous soyez nouveau dans la science des données ou que DSS vous aide à vous concentrer sur votre travail en gérant la configuration technique. Il s'agit d'un outil fiable qui prend en charge une analyse efficace des données et une construction de modèles.
Ressource :
Lire connexe :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!