Rumah >Tutorial sistem >LINUX >Canonical melancarkan Stack Science Data untuk pemula ML
Sains data adalah kajian data. Ia melibatkan mengumpul, menganalisis, dan mentafsir sejumlah besar maklumat. Para saintis data menggunakan maklumat ini untuk membuat keputusan, menyelesaikan masalah, dan meramalkan trend masa depan.
Para saintis data menggunakan pelbagai alat dan teknik untuk menganalisis dan mentafsir set data kompleks. Ini membantu perniagaan dan organisasi membuat keputusan yang lebih baik.
Jika anda seorang pemula yang baru bermula dengan sains data, anda mungkin akan menghadapi beberapa cabaran dalam menubuhkan persekitaran sains data yang betul.
Berikut adalah beberapa sebab mengapa menubuhkan persekitaran sains data boleh mencabar untuk pemula:
Dengan memahami cabaran -cabaran ini, pemula dapat mempersiapkan diri dengan lebih baik dan mencari sumber dan sokongan yang tepat untuk mengatasinya.
Rintangan awal boleh mencabar untuk saintis data baru, tetapi dengan kegigihan dan pembelajaran yang konsisten, perjalanan akan menjadi lebih lancar.
Terima kasih kepada Stack Science Data Canonical (DSS) , menubuhkan sains data menjadi lebih mudah sekarang. Dalam tutorial ini, kami akan membincangkan apakah Stack Science Data dan cara menggunakannya untuk menyediakan persekitaran sains data dengan mudah dan cepat dalam sistem operasi Ubuntu .
Jadual Kandungan
Stack Science Data (DSS) oleh Canonical adalah penyelesaian keluar-of-the-box untuk saintis data dan jurutera pembelajaran mesin.
Stack sains data memudahkan proses persediaan dengan menyediakan persekitaran pra-konfigurasi yang merangkumi semua alat dan perpustakaan yang diperlukan untuk pembelajaran mesin dan analisis data.
Dengan direka untuk menjalankan stesen kerja Ubuntu dan mengoptimumkan penggunaan GPU, DSS dapat meningkatkan prestasi model pembelajaran mesin, yang sangat bermanfaat untuk tugas -tugas yang intensif.
DSS membolehkan pengguna memberi tumpuan lebih kepada pembangunan dan pengoptimuman model mereka dan bukannya teknikal persediaan persekitaran.
Ini dapat menjimatkan sejumlah besar masa yang akan dibelanjakan untuk memasang dan mengkonfigurasi komponen individu.
Stack Sains Data (DSS) menyediakan persekitaran yang komprehensif dan bersepadu untuk saintis data dan jurutera pembelajaran mesin. Inilah yang ditawarkannya:
Secara keseluruhannya, DSS bertujuan untuk menyediakan persekitaran yang bebas dan dioptimumkan untuk sains data dan pembelajaran mesin, yang membolehkan pengguna memberi tumpuan kepada tugas teras mereka dan bukannya persediaan teknikal dan penyelenggaraan alat mereka.
Untuk mula menggunakan Stack Sains Data (DSS) untuk pembelajaran mesin dan sains data, ikuti langkah -langkah ini untuk menubuhkan persekitaran anda:
DSS menggunakan microk8s sebagai sistem orkestra kontena, yang membolehkan beban kerja mengakses GPU tuan rumah.
Untuk memasang microk8s di Ubuntu, jalankan:
$ sudo snap memasang microk8s -channel 1.28/stabil -klasik
Seterusnya, aktifkan perkhidmatan yang diperlukan:
$ sudo microk8s membolehkan penyimpanan dns rbac
Tumpukan sains data diuruskan melalui antara muka baris arahan (CLI).
Pasang DSS CLI dengan arahan berikut:
$ sudo snap Pasang data sains-stack-Channel terbaru/stabil
Dengan langkah -langkah ini selesai, anda akan mempunyai komponen asas DSS yang dipasang dan bersedia untuk digunakan. Anda kini boleh meneruskan persekitaran pembelajaran mesin anda dan mula menjalankan buku nota pertama anda menggunakan DSS CLI.
Selepas memasang Microk8s dan DSS CLI, langkah seterusnya adalah untuk memulakan DSS di atas Microk8s dan menyediakan MLFlow untuk digunakan.
Untuk memulakan DSS, anda perlu menggunakan InitizeCommand Thedss, yang menetapkan sumber yang diperlukan dalam kluster Microk8S.
$ DSS Inisialisasi --KubeConfig = "$ (sudo microk8s config)"
-KubeConFigFlag digunakan untuk menentukan laluan ke fail konfigurasi Kubernet yang dihasilkan oleh microk8s.
Perintah permulaan DSS mungkin mengambil masa beberapa minit untuk disiapkan. Pada masa ini, DSS CLI akan memaparkan mesej yang menunjukkan kemajuan penempatan. Anda akan melihat mesej yang serupa dengan yang berikut:
[INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ...
Mesej ini menunjukkan bahawa DSS sedang menunggu penggunaan buku nota Tensorflow untuk siap. Bersabarlah kerana sistem menetapkan persekitaran dan memastikan semua komponen dikonfigurasi dengan betul.
Setelah permulaan selesai, anda akan melihat output seperti di bawah:
[INFO] Melaksanakan Perintah Inisialisasi [Maklumat] Menyimpan disediakan KubeConfig ke /home/ostechnix/snap/data-science-stack/16/.dss/config [INFO] Menunggu MLFlow Deployment di DSS ruang nama untuk siap ... [INFO] Deployment mlflow di ruang nama DSS sudah siap [INFO] DSS diasaskan. Untuk membuat buku nota pertama anda jalankan arahan: DSS membuat Contoh: DSS Buat My-Notebook --Image = Pytorch DSS Buat My-Notebook --Image = KubeflownotebookSWG/Jupyter-Scipy: v1.8.0
Sekarang, anda akan bersedia untuk mula menggunakan Server Penjejakan MLFlow dan komponen lain yang disediakan oleh DSS.
Anda kemudian boleh meneruskan untuk membuat dan menjalankan notebook pembelajaran mesin pertama anda dalam persekitaran DSS.
Untuk memulakan buku nota Jupyter pertama anda menggunakan Stack Science Data (DSS), anda perlu menggunakan TheDSS CreateCommand, yang membolehkan anda menentukan jenis buku nota yang anda ingin buat.
Di sini, kami mencipta buku nota tensorflow bernama My-Tensorflow-notebook dengan sokongan CUDA:
$ DSS Buat My-TensorFlow-Notebook --Image = KubeflownotebookSWG/Jupyter-Tensorflow-Cuda: v1.8.0
Setelah penciptaan buku nota yang berjaya, anda akan melihat output seperti di bawah:
[INFO] Melaksanakan Buat Perintah [INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ... [INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready... [INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ... [INFO] Penyebaran My-Tensorflow-Notebook dalam DSS ruang nama sudah siap [INFO] Kejayaan: Notebook My-Tensorflow-Notebook berjaya dicipta dengan jayanya. [INFO] Akses buku nota di http://10.152.183.253:80.
Sebaik sahaja buku nota siap, arahan menunjukkan URL yang boleh anda gunakan untuk mengakses UI Jupyterlab.
Untuk mula bekerja dengan buku nota anda, buka pelayar web dan masukkan URL yang disediakan ke bar alamat.
Seperti yang anda lihat dalam output di atas, kami boleh mengakses buku nota yang baru dibuat di http://10.152.183.253:80 dari pelayar web. Gantikan URL dengan anda sendiri.
Ini akan membawa anda ke antara muka Jupyterlab di mana anda boleh membuat buku nota baru, memuat naik data, dan memulakan tugas pembelajaran mesin anda menggunakan TensorFlow dan CUDA.
Ingat bahawa alamat IP dan nombor port dalam URL mungkin berbeza -beza bergantung pada persediaan khusus anda.
Itu sahaja. Anda kini boleh mula berinteraksi dengan buku nota anda.
Untuk segera memeriksa status persekitaran Sains Sains Data (DSS) anda, termasuk status MLFlow dan ketersediaan pecutan GPU, anda boleh menggunakan status komando THEDSS seperti di bawah.
Status $ DSS
THEDSS StatusCommand akan memberikan anda ringkasan keadaan semasa persekitaran DSS anda. Inilah contoh apa output yang kelihatan seperti:
[INFO] MLFLOW DEPUCE: Bersedia [INFO] MLFLOW URL: http://10.152.183.157:5000 [INFO] Percepatan GPU: Dilumpuhkan
Penjelasan Output:
Untuk mengesahkan, buka URL MLFLOW http://10.152.183.157:5000 dari pelayar web anda.
Ini akan membuka papan pemuka MLFLOW di pelayar web anda.
Tab Eksperimen di papan pemuka MLFLOW:
Oleh kerana ia adalah pemasangan baru kami, belum ada eksperimen. Untuk membuat eksperimen menggunakan Eksperimen MLFLOW CLI.
Tab Model di MLFlow Dashboard:
Untuk melihat senarai arahan yang tersedia untuk Stack Sains Data (DSS), anda boleh menggunakan arahan DSS dengan pilihan -HELP.
Jalankan arahan berikut di terminal anda:
$ DSS -HELP
Ini akan memaparkan senarai arahan bersama -sama dengan penerangan ringkas tentang tujuan mereka.
Jika anda memerlukan maklumat yang lebih terperinci mengenai arahan DSS tertentu, anda boleh menggunakan arahan yang diikuti dengan pilihan -HELP.
Sebagai contoh, untuk mendapatkan butiran mengenai perintah Inisialisasi, anda akan menjalankan:
$ DSS Logs -Help
Jika anda tidak memerlukan DSS lagi, anda boleh menggunakan arahan DSS Purge untuk mengeluarkan timbunan sains data dari cluster Microk8S anda.
Untuk mengeluarkan DSS, laksanakan arahan berikut di terminal anda:
$ DSS PURGE
Perintah ini akan menghapuskan semua komponen DSS, termasuk buku nota Jupyter, pelayan MLFLOW, dan sebarang data yang disimpan dalam persekitaran DSS.
Adalah penting untuk diperhatikan bahawa tindakan ini tidak dapat dipulihkan, dan semua data dalam persekitaran DSS akan hilang secara kekal. Pastikan untuk membuat sandaran apa -apa data penting sebelum meneruskan dengan pembersihan.
Walaupun perintah pembersihan DSS menghilangkan komponen DSS dari cluster Microk8S, ia tidak mengeluarkan DSS CLI atau cluster Microk8S itu sendiri. Sekiranya anda ingin membuangnya juga, anda perlu memadamkan snap masing -masing:
Untuk mengeluarkan DSS CLI, gunakan arahan berikut:
$ sudo snap keluarkan data sains-sains
Untuk mengalih keluar microk8s, gunakan arahan berikut:
$ sudo snap keluarkan microk8s
Dengan mengikuti langkah -langkah ini, anda boleh mengeluarkan sepenuhnya Stack Science Data (DSS) dan komponen yang berkaitan dari sistem anda.
A: Stack Sains Data (DSS) adalah persekitaran yang komprehensif dan siap sedia untuk pembelajaran mesin dan sains data. Ia direka untuk memudahkan persediaan dan pengurusan alat sains data dan rangka kerja, yang membolehkan pengguna memberi tumpuan kepada tugas teras mereka dan bukannya selok -belok konfigurasi persekitaran.
S: Alat apa yang termasuk dalam DSS?A: DSS merangkumi pelbagai alat sumber terbuka seperti buku nota Jupyter, MLFlow, dan kerangka pembelajaran mesin popular seperti Tensorflow dan Pytorch. It also provides a container orchestration system, MicroK8s, for managing workloads.
S: Bagaimana saya memasang DSS?A: Untuk memasang DSS, anda perlu mempunyai Ubuntu 22.04 LTS atau Ubuntu 24.04 LTS, sambungan Internet, dan SNAP dipasang. Kemudian, anda boleh memasang Microk8s dan DSS CLI menggunakan arahan SNAP. Untuk arahan terperinci, rujuk kepada dokumentasi rasmi atau panduan pemasangan.
S: Bagaimana saya memulakan buku nota Jupyter dengan DSS?A: Anda boleh memulakan buku nota Jupyter dengan DSS menggunakan arahan DSS Create, menyatakan imej yang dikehendaki untuk buku nota anda. Sebagai contoh, untuk memulakan buku nota tensorflow, anda akan menggunakan DSS membuat my-tensorflow-notebook --Image = KubeflownoteBookSWG/Jupyter-Tensorflow-Cuda: v1.8.0.
S: Apakah tujuan arahan status DSS?A: Perintah status DSS memberikan gambaran ringkas mengenai keadaan semasa persekitaran DSS anda, termasuk status MLFLOW dan ketersediaan pecutan GPU. Ia membantu anda mengesahkan bahawa semua komponen berfungsi dengan betul.
S: Bagaimana saya membuang DSS dari persekitaran saya?A: Untuk mengalih keluar DSS, anda boleh menggunakan arahan DSS Purge, yang akan mengeluarkan semua komponen DSS, termasuk buku nota Jupyter dan pelayan MLFLOW. Perhatikan bahawa tindakan ini tidak dapat dipulihkan dan akan mengakibatkan kehilangan semua data dalam persekitaran DSS.
S: Di mana saya boleh mendapatkan lebih banyak maklumat mengenai arahan DSS? A: Anda boleh mendapatkan maklumat terperinci mengenai arahan DSS dengan menggunakan arahan DSS -HELP untuk menyenaraikan semua arahan yang tersedia dan DSS
Ya, DSS didasarkan pada alat sumber terbuka dan bebas digunakan.
S: Adakah DSS sesuai untuk pemula dalam sains data?A: Ya, DSS direka untuk menjadi mesra pengguna dan boleh menjadi alat yang hebat untuk pemula kerana ia mengurangkan kerumitan menubuhkan persekitaran sains data. Ia menyediakan persekitaran yang siap sedia dan dioptimumkan yang membolehkan pengguna mula bekerja pada projek sains data dengan cepat.
Ringkasnya, Stack Sains Data (DSS) memudahkan persediaan untuk tugas sains data. Ia menyediakan koleksi alat yang berfungsi dengan baik bersama -sama, menjadikannya lebih mudah untuk memulakan projek dengan cepat.
Sama ada anda baru dalam sains data atau berpengalaman, DSS membantu anda memberi tumpuan kepada kerja anda dengan mengendalikan persediaan teknikal. Ia adalah alat yang boleh dipercayai yang menyokong analisis data yang cekap dan bangunan model.
Sumber :
Baca Berkaitan :
Atas ialah kandungan terperinci Canonical melancarkan Stack Science Data untuk pemula ML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!