La science des données est l'étude des données. Il s'agit de collecter, d'analyser et d'interpréter de grandes quantités d'informations. Les scientifiques des données utilisent ces informations pour prendre des décisions, résoudre des problèmes et prédire les tendances futures.
Les scientifiques des données utilisent divers outils et techniques pour analyser et interpréter des ensembles de données complexes. Cela aide les entreprises et les organisations à prendre de meilleures décisions.
Si vous êtes un débutant en commençant par la science des données, vous ferez probablement face à plusieurs défis dans la mise en place d'un environnement de science des données approprié.
Voici quelques raisons pour lesquelles la création d'un environnement de science des données peut être difficile pour les débutants:
- Installation de logiciels : les débutants ont souvent du mal à installer les logiciels nécessaires, tels que les langages de programmation (comme Python ou R), les bibliothèques et les outils (comme Jupyter Notebooks ou Rstudio).
- Comprendre les dépendances : les logiciels nécessitent souvent des versions spécifiques d'autres logiciels fonctionnent correctement. Cela peut être déroutant et entraîner des erreurs si elle n'est pas gérée correctement.
- Courbe d'apprentissage : la science des données implique l'apprentissage de nouvelles compétences, y compris la programmation, les statistiques et l'apprentissage automatique. Cela peut être écrasant pour les débutants.
- Gestion des données : le travail avec les données peut être complexe, en particulier lorsque vous traitez avec des ensembles de données importants ou désordonnés. Comprendre comment nettoyer, stocker et traiter les données est crucial mais peut être difficile à saisir au départ.
- Contrôle de version : garder une trace des modifications du code et des données est importante, mais peut être difficile à configurer et à gérer, en particulier pour les nouveaux systèmes de contrôle de version comme Git.
- Choisir les bons outils : il existe de nombreux outils et frameworks disponibles, et le choix des bons pour un projet spécifique peut être intimidant pour les débutants.
En comprenant ces défis, les débutants peuvent mieux se préparer et rechercher les bonnes ressources et le soutien pour les surmonter.
Les obstacles initiaux peuvent être difficiles pour les nouveaux scientifiques des données, mais avec une persistance et un apprentissage cohérent, le voyage deviendra plus lisse.
Grâce à la pile de science des données de Canonical (DSS) , la configuration de la science des données est devenue beaucoup plus facile maintenant. Dans ce tutoriel, nous discuterons de la pile de science des données et de la façon de les utiliser pour configurer un environnement de science des données facilement et rapidement dans les systèmes d'exploitation Ubuntu .
Table des matières
Qu'est-ce que la pile de science des données (DSS)?
La pile de science des données (DSS) de Canonical est une solution prête à l'emploi pour les scientifiques des données et les ingénieurs d'apprentissage automatique.
La pile de science des données simplifie le processus de configuration en fournissant un environnement préconfiguré qui inclut tous les outils et bibliothèques nécessaires pour l'apprentissage automatique et l'analyse des données.
En étant conçu pour fonctionner sur des postes de travail Ubuntu et en optimisant l'utilisation des GPU, DSS peut améliorer les performances des modèles d'apprentissage automatique, ce qui est particulièrement bénéfique pour les tâches à forte intensité de calcul.
Le DSS permet aux utilisateurs de se concentrer davantage sur le développement et l'optimisation de leurs modèles plutôt que sur les détails techniques de la configuration de l'environnement.
Cela peut économiser beaucoup de temps qui serait autrement consacré à l'installation et à la configuration des composants individuels.
Qu'est-ce qui est inclus dans la pile de science des données?
Le Data Science Stack (DSS) fournit un environnement complet et intégré pour les scientifiques des données et les ingénieurs d'apprentissage automatique. Voici ce qu'il offre:
- Outils préinstallés : DSS comprend des outils d'oer-source populaires comme les Microk8 , JupyterLab et MLFlow , qui sont essentiels pour l'exploration des données, le développement du modèle et le suivi des expériences.
- Cadres d'apprentissage automatique : par défaut, il est livré avec deux cadres d'apprentissage automatique largement utilisés, Pytorch et TensorFlow , qui sont prêts à l'emploi pour la construction et la formation de modèles.
- Interface de ligne de commande (CLI) : DSS fournit une CLI intuitive pour déployer ces outils et ces cadres, ce qui facilite la gestion et l'échelle de l'environnement.
- Interfaces utilisateur : Après le déploiement, les utilisateurs peuvent accéder aux UIS des outils pour commencer à travailler sur leurs projets de science des données sans les tracas de la configuration manuelle.
- Dépendances de l'emballage : DSS gère les dépendances d'emballage, garantissant que tous les outils, bibliothèques et cadres sont compatibles entre eux et fonctionnent en douceur ensemble.
- Compatibilité matérielle : il est conçu pour être compatible avec le matériel de la machine, optimisant les performances des outils et des frameworks
- Configuration simplifiée : traditionnellement, la configuration des environnements d'apprentissage automatique sur les postes de travail peut être complexe et difficile à inverser. DSS aborde cela en fournissant des environnements ML accessibles, prêts à la production, isolés et reproductibles qui utilisent efficacement les GPU d'une station de travail.
- Configuration du GPU : DSS simplifie la configuration du GPU en incluant l' opérateur GPU , qui gère la configuration et l'utilisation des GPU pour les tâches d'apprentissage automatique, en tirant parti efficacement leur puissance de calcul.
Dans l'ensemble, DSS vise à fournir un environnement sans tracas et optimisée pour la science des données et l'apprentissage automatique, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur la configuration technique et la maintenance de leurs outils.
Installer Data Science Stack (DSS) dans Ubuntu
Pour commencer à utiliser la pile de science des données (DSS) pour l'apprentissage automatique et la science des données, suivez ces étapes pour configurer votre environnement:
Condition préalable
- Système d'exploitation : Assurez-vous que vous avez installé Ubuntu 22.04 LTS ou UBUNTU 24.04 installé sur votre système.
- Connexion Internet : vous aurez besoin d'une connexion Internet active pour télécharger et installer le logiciel nécessaire.
- SNAP : assurez-vous que Snap est installé sur votre système, car il est nécessaire pour installer des Microk8 et DSS.
Configuration des microk8
DSS utilise Microk8S comme système d'orchestration de conteneurs, qui permet aux charges de travail d'accéder aux GPU de l'hôte.
Pour installer des microk8 sur Ubuntu, exécuter:
$ sudo snap install Microk8s - Channel 1.28 / stable - Classic
Ensuite, activez les services requis:
$ sudo microk8s activer le stockage DNS RBAC
Installation de la CLI DSS
La pile de science des données est gérée via une interface de ligne de commande (CLI).
Installez DSS CLI avec la commande suivante:
$ sudo snap installer data-science-stack - Channel Dernier / stable
Avec ces étapes terminées, vous aurez installé les composants fondamentaux de DSS et prêts à l'emploi. Vous pouvez maintenant procéder à la configuration de vos environnements d'apprentissage automatique et à commencer à exécuter vos premiers ordinateurs portables à l'aide de la CLI DSS.
Commencer avec la pile de science des données
Après avoir installé Microk8s et le DSS CLI, l'étape suivante consiste à initialiser DSS au-dessus des microk8 et à préparer MLFlow à utiliser.
Initialisation DSS et MLFlow
Pour initialiser DSS, vous devrez utiliser TheDSS InicizIzecommand, qui met en place les ressources nécessaires dans le cluster Microk8s.
$ dss initialize --kubEconfig = "$ (sudo microk8s config)"
Le - KuBEConfigflag est utilisé pour spécifier le chemin d'accès au fichier de configuration de Kubernetes généré par Microk8s.
La commande DSS Initialize peut prendre quelques minutes. Pendant ce temps, le DSS CLI affichera des messages indiquant la progression du déploiement. Vous verrez des messages similaires à ce qui suit:
[Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...
Ce message indique que DSS attend que le déploiement du cahier TensorFlow soit prêt. Soyez patient car le système configure l'environnement et garantit que tous les composants sont correctement configurés.
Une fois l'initialisation terminée, vous verrez une sortie comme ci-dessous:
[Info] Exécution de la commande Initialize [Info] Stockage fourni KubEconfig à /home/ostechnix/snap/data-science-stack/16/.dsss/config [Info] En attente de déploiement MLFlow dans DSS d'espace de noms pour être prêt ... [Info] Déploiement mlflow dans l'espace de noms DSS est prêt [Info] DSS initialisé. Pour créer votre premier cahier, exécutez la commande: DSS Créer Exemples: DSS Créer My-noteBook --image = Pytorch DSS Créer My-noteBook --image = KubeFlowoteBookSwg / Jupyter-Scipy: v1.8.0
Maintenant, vous serez prêt à commencer à utiliser le serveur de suivi MLFlow et d'autres composants fournis par DSS.
Vous pouvez ensuite procéder à la création et à l'exécution de votre premier ordinateur portable d'apprentissage automatique dans l'environnement DSS.
Démarrage de votre premier cahier Jupyter
Pour démarrer votre premier ordinateur portable Jupyter à l'aide de la pile de science des données (DSS), vous devrez utiliser TheDSS CreateCommand, qui vous permet de spécifier le type de cahier que vous souhaitez créer.
Ici, nous créons un ordinateur portable TensorFlow nommé My-TensorFlow-Notebook avec support CUDA:
$ dss Créer My-Tensorflow-notebook --image = kubeflowotebookswg / jupyter-tensorflow-cuda: v1.8.0
Lors de la création réussie du cahier, vous verrez une sortie comme ci-dessous:
[Info] Exécution de la commande de création [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ... [Info] Déploiement My-TensorFlow-notebook dans l'espace de noms DSS est prêt [Info] Succès: Notebook My-TensorFlow-notebook créé avec succès. [Info] Accédez au cahier à http://10.152.183.253:80.
Une fois le cahier prêt, la commande affiche une URL que vous pouvez utiliser pour accéder à l'interface utilisateur de JupyterLab.
Pour commencer à travailler avec votre cahier, ouvrez un navigateur Web et entrez l'URL fournie dans la barre d'adresse.
Comme vous le voyez dans la sortie ci-dessus, nous pouvons accéder au bloc-notes nouvellement créé sur http://10.152.183.253:80 à partir d'un navigateur Web. Remplacez l'URL par le vôtre.
Cela vous amènera à l'interface JupyterLab où vous pouvez créer de nouveaux ordinateurs portables, télécharger des données et commencer vos tâches d'apprentissage automatique à l'aide de TensorFlow et Cuda.
N'oubliez pas que l'adresse IP et le numéro de port dans l'URL peuvent varier en fonction de votre configuration spécifique.
C'est ça. Vous pouvez maintenant commencer à interagir avec votre cahier.
Afficher le statut DSS
Pour vérifier rapidement l'état de votre environnement de pile de science des données (DSS), y compris l'état de MLFlow et la disponibilité de l'accélération du GPU, vous pouvez utiliser TheDSS StatusCommand comme ci-dessous.
Statut de $ DSS
TheDSS StatusCommand vous fournira un résumé de l'état actuel de votre environnement DSS. Voici un exemple de ce à quoi pourrait ressembler la sortie:
[Info] Département MLFlow: prêt [Info] URL mlflow: http://10.152.183.157:5000 [Info] Accélération du GPU: désactivé
Explication de la sortie:
- Déploiement MLFlow: Ready indique que le serveur de suivi MLFlow est opérationnel.
- L'URL MLFlow fournit l'URL où vous pouvez accéder à l'interface utilisateur MLFlow pour suivre vos expériences d'apprentissage automatique.
- Accélération GPU: Désactivé montre qu'il n'y a pas de GPU disponible ou configuré pour une utilisation dans l'environnement DSS actuel.
Pour vérifier, ouvrez l'URL MLFlow http://10.152.183.157:5000 de votre navigateur Web.
Cela ouvrira le tableau de bord MLFlow dans votre navigateur Web.
Onglet Expériences dans le tableau de bord MLFlow:
Puisqu'il s'agit de notre nouvelle installation, il n'y a pas encore d'expériences. Pour créer une expérience, utilisez les expériences MLFlow CLI.
Onglet Modèles dans le tableau de bord MLFlow:
Listing des commandes DSS
Pour afficher la liste des commandes disponibles pour la pile de science des données (DSS), vous pouvez utiliser la commande DSS avec l'option - Help.
Exécutez la commande suivante dans votre terminal:
$ dss - help
Cela affichera une liste de commandes ainsi qu'une brève description de leur objectif.
Si vous avez besoin d'informations plus détaillées sur une commande DSS spécifique, vous pouvez utiliser la commande suivie de l'option - Help.
Par exemple, pour obtenir des détails sur la commande Initialize, vous exécuteriez:
$ dss journaux - help
Suppression de la pile de science des données de Microk8
Si vous n'avez plus besoin de DSS, vous pouvez utiliser la commande DSS Purge pour supprimer la pile de science des données de votre cluster Microk8s.
Pour supprimer DSS, exécutez la commande suivante dans votre terminal:
$ dss purge
Cette commande supprimera complètement tous les composants DSS, y compris les ordinateurs portables Jupyter, le serveur MLFlow et toutes les données stockées dans l'environnement DSS.
Il est important de noter que cette action est irréversible et que toutes les données de l'environnement DSS seront perdantes en permanence. Assurez-vous de sauvegarder toutes les données importantes avant de procéder à la purge.
Retirez DSS CLI et Microk8
Alors que la commande DSS Purge supprime les composants DSS du cluster Microk8s, il ne supprime pas le DSS CLI ou le cluster Microk8s lui-même. Si vous souhaitez également les supprimer, vous devrez supprimer leurs snaps respectifs:
Pour supprimer le DSS CLI, utilisez la commande suivante:
$ sudo snap supprimer la pile de données
Pour supprimer les microk8, utilisez la commande suivante:
$ sudo snap supprimer les microk8
En suivant ces étapes, vous pouvez complètement supprimer la pile de science des données (DSS) et ses composants associés de votre système.
Questions fréquemment posées (FAQ)
Q: Qu'est-ce que la pile de science des données (DSS)?R: Data Science Stack (DSS) est un environnement complet et prêt à gérer pour l'apprentissage automatique et la science des données. Il est conçu pour simplifier la configuration et la gestion des outils et des cadres de science des données, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur les subtilités de la configuration de l'environnement.
Q: Quels outils sont inclus dans DSS?R: DSS comprend une variété d'outils open-source tels que Jupyter Notebook, MLFlow et des cadres d'apprentissage automatique populaires comme TensorFlow et Pytorch. Il fournit également un système d'orchestration de conteneurs, Microk8, pour gérer les charges de travail.
Q: Comment installer DSS?R: Pour installer DSS, vous devez avoir Ubuntu 22.04 LTS ou Ubuntu 24.04 LTS, une connexion Internet et un snap installé. Ensuite, vous pouvez installer Microk8s et le DSS CLI à l'aide de commandes SNAP. Pour des instructions détaillées, reportez-vous au guide officiel de documentation ou d'installation.
Q: Comment démarrer un cahier Jupyter avec DSS?R: Vous pouvez démarrer un ordinateur portable Jupyter avec DSS à l'aide de la commande DSS Create, en spécifiant l'image souhaitée pour votre ordinateur portable. Par exemple, pour démarrer un cahier TensorFlow, vous utiliseriez DSS Create My-Tensorflow-noteBook --image = KubeFlowoteBookSwg / Jupyter-Tensorflow-Cuda: v1.8.0.
Q: Quel est le but de la commande DSS Status?R: La commande DSS Status fournit un aperçu rapide de l'état actuel de votre environnement DSS, y compris l'état de MLFlow et la disponibilité de l'accélération GPU. Il vous aide à vérifier que tous les composants fonctionnent correctement.
Q: Comment supprimer le DSS de mon environnement?R: Pour supprimer DSS, vous pouvez utiliser la commande DSS Purge, qui supprimera tous les composants DSS, y compris les ordinateurs portables Jupyter et le serveur MLFlow. Notez que cette action est irréversible et entraînera la perte de toutes les données dans l'environnement DSS.
Q: Où puis-je trouver plus d'informations sur les commandes DSS? R: Vous pouvez trouver des informations détaillées sur les commandes DSS en utilisant la commande DSS --Help pour répertorier toutes les commandes et DSS
Oui, DSS est basé sur des outils open source et est libre à utiliser.
Q: Le DSS est-il adapté aux débutants en science des données?R: Oui, DSS est conçu pour être convivial et peut être un excellent outil pour les débutants car il réduit la complexité de la mise en place d'un environnement de science des données. Il fournit un environnement prêt à l'emploi et optimisé qui permet aux utilisateurs de commencer à travailler rapidement sur des projets de science des données.
Conclusion
En résumé, la pile de sciences des données (DSS) simplifie la configuration des tâches de science des données. Il fournit une collection d'outils qui fonctionnent bien ensemble, ce qui facilite le démarrage des projets rapidement.
Que vous soyez nouveau dans la science des données ou que DSS vous aide à vous concentrer sur votre travail en gérant la configuration technique. Il s'agit d'un outil fiable qui prend en charge une analyse efficace des données et une construction de modèles.
Ressource :
- Documentation de la pile de science des données (DSS)
Lire connexe :
- Comment installer Anaconda sur Linux
- Comment installer MiniConda en Linux
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Les modèles de sécurité de Linux et Windows ont chacun leurs propres avantages. Linux offre une flexibilité et une personnalisation, permettant la sécurité via les autorisations utilisateur, les autorisations du système de fichiers et Selinux / Apparmor. Windows se concentre sur la convivialité et s'appuie sur Windowsdefender, UAC, pare-feu et bitlocker pour assurer la sécurité.

Linux et Windows diffèrent dans la compatibilité matérielle: Windows a une prise en charge approfondie du pilote, et Linux dépend de la communauté et des fournisseurs. Pour résoudre les problèmes de compatibilité Linux, vous pouvez compiler manuellement les pilotes, tels que le clonage du référentiel de pilotes RTL8188EU, la compilation et l'installation; Les utilisateurs de Windows doivent gérer les conducteurs pour optimiser les performances.

Les principales différences entre Linux et Windows dans le support de virtualisation sont: 1) Linux fournit KVM et Xen, avec des performances et une flexibilité exceptionnelles, adaptées aux environnements de personnalisation élevés; 2) Windows prend en charge la virtualisation via Hyper-V, avec une interface amicale, et est étroitement intégré à l'écosystème Microsoft, adapté aux entreprises qui reposent sur le logiciel Microsoft.

Les principales tâches des administrateurs système Linux incluent la surveillance du système et le réglage des performances, la gestion des utilisateurs, la gestion des packages de logiciels, la gestion de la sécurité et la sauvegarde, le dépannage et la résolution, l'optimisation des performances et les meilleures pratiques. 1. Utilisez le haut, le HTOP et d'autres outils pour surveiller les performances du système et régler. 2. Gérez les comptes d'utilisateurs et les autorisations via des commandes UserAdd et d'autres commandes. 3. Utilisez APT et YUM pour gérer les packages logiciels pour assurer les mises à jour du système et la sécurité. 4. Configurez un pare-feu, surveillez les journaux et effectuez une sauvegarde de données pour assurer la sécurité du système. 5. Dépannage et résoudre par l'analyse des journaux et l'utilisation des outils. 6. Optimiser les paramètres du noyau et la configuration des applications et suivre les meilleures pratiques pour améliorer les performances et la stabilité du système.

Apprendre Linux n'est pas difficile. 1.Linux est un système d'exploitation open source basé sur UNIX et est largement utilisé dans les serveurs, les systèmes intégrés et les ordinateurs personnels. 2. Comprendre le système de fichiers et la gestion de l'autorisation est la clé. Le système de fichiers est hiérarchique et les autorisations incluent la lecture, l'écriture et l'exécution. 3. Les systèmes de gestion des packages tels que APT et DNF rendent la gestion des logiciels pratique. 4. La gestion des processus est implémentée via PS et les commandes supérieures. 5. Commencez à apprendre à partir de commandes de base telles que MKDIR, CD, Touch et Nano, puis essayez une utilisation avancée telle que les scripts shell et le traitement de texte. 6. Les erreurs courantes telles que les problèmes d'autorisation peuvent être résolues via Sudo et CHMOD. 7. Les suggestions d'optimisation des performances incluent l'utilisation de HTOP pour surveiller les ressources, le nettoyage des fichiers inutiles et l'utilisation de SY

Le salaire annuel moyen des administrateurs Linux est de 75 000 $ à 95 000 $ aux États-Unis et de 40 000 € à 60 000 € en Europe. Pour augmenter le salaire, vous pouvez: 1. Apprendre en permanence de nouvelles technologies, telles que le cloud computing et la technologie des conteneurs; 2. Accumuler l'expérience du projet et établir un portefeuille; 3. Établissez un réseau professionnel et développez votre réseau.

Les principales utilisations de Linux comprennent: 1. Système d'exploitation du serveur, 2. Système intégré, 3. Système d'exploitation de bureau, 4. Environnement de développement et de test. Linux excelle dans ces domaines, offrant des outils de stabilité, de sécurité et de développement efficaces.

Internet ne s'appuie pas sur un seul système d'exploitation, mais Linux joue un rôle important. Linux est largement utilisé dans les serveurs et les appareils réseau et est populaire pour sa stabilité, sa sécurité et son évolutivité.


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

Dreamweaver Mac
Outils de développement Web visuel

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.
