Rumah >Tutorial sistem >LINUX >Canonical melancarkan Stack Science Data untuk pemula ML

Canonical melancarkan Stack Science Data untuk pemula ML

Jennifer Aniston
Jennifer Anistonasal
2025-03-17 10:22:09379semak imbas

Sains data adalah kajian data. Ia melibatkan mengumpul, menganalisis, dan mentafsir sejumlah besar maklumat. Para saintis data menggunakan maklumat ini untuk membuat keputusan, menyelesaikan masalah, dan meramalkan trend masa depan.

Para saintis data menggunakan pelbagai alat dan teknik untuk menganalisis dan mentafsir set data kompleks. Ini membantu perniagaan dan organisasi membuat keputusan yang lebih baik.

Jika anda seorang pemula yang baru bermula dengan sains data, anda mungkin akan menghadapi beberapa cabaran dalam menubuhkan persekitaran sains data yang betul.

Berikut adalah beberapa sebab mengapa menubuhkan persekitaran sains data boleh mencabar untuk pemula:

  1. Pemasangan Perisian : Pemula sering berjuang dengan memasang perisian yang diperlukan, seperti bahasa pengaturcaraan (seperti Python atau R), perpustakaan, dan alat (seperti buku nota Jupyter atau rstudio).
  2. Memahami kebergantungan : Perisian sering memerlukan versi tertentu perisian lain untuk berfungsi dengan betul. Ini boleh mengelirukan dan membawa kepada kesilapan jika tidak diuruskan dengan betul.
  3. Kurva Pembelajaran : Sains data melibatkan pembelajaran kemahiran baru, termasuk pengaturcaraan, statistik, dan pembelajaran mesin. Ini boleh menjadi sangat menggembirakan untuk pemula.
  4. Pengendalian Data : Bekerja dengan data boleh menjadi rumit, terutamanya apabila berurusan dengan dataset besar atau tidak kemas. Memahami cara membersihkan, menyimpan, dan memproses data adalah penting tetapi sukar untuk dipahami pada mulanya.
  5. Kawalan Versi : Menjejaki perubahan dalam kod dan data adalah penting tetapi boleh menjadi rumit untuk menubuhkan dan mengurus, terutama bagi mereka yang baru untuk sistem kawalan versi seperti Git.
  6. Memilih alat yang betul : Terdapat banyak alat dan kerangka yang tersedia, dan memilih yang tepat untuk projek tertentu boleh menjadi menakutkan untuk pemula.

Dengan memahami cabaran -cabaran ini, pemula dapat mempersiapkan diri dengan lebih baik dan mencari sumber dan sokongan yang tepat untuk mengatasinya.

Rintangan awal boleh mencabar untuk saintis data baru, tetapi dengan kegigihan dan pembelajaran yang konsisten, perjalanan akan menjadi lebih lancar.

Terima kasih kepada Stack Science Data Canonical (DSS) , menubuhkan sains data menjadi lebih mudah sekarang. Dalam tutorial ini, kami akan membincangkan apakah Stack Science Data dan cara menggunakannya untuk menyediakan persekitaran sains data dengan mudah dan cepat dalam sistem operasi Ubuntu .

Jadual Kandungan

Apakah Stack Sains Data (DSS)?

Stack Science Data (DSS) oleh Canonical adalah penyelesaian keluar-of-the-box untuk saintis data dan jurutera pembelajaran mesin.

Stack sains data memudahkan proses persediaan dengan menyediakan persekitaran pra-konfigurasi yang merangkumi semua alat dan perpustakaan yang diperlukan untuk pembelajaran mesin dan analisis data.

Dengan direka untuk menjalankan stesen kerja Ubuntu dan mengoptimumkan penggunaan GPU, DSS dapat meningkatkan prestasi model pembelajaran mesin, yang sangat bermanfaat untuk tugas -tugas yang intensif.

DSS membolehkan pengguna memberi tumpuan lebih kepada pembangunan dan pengoptimuman model mereka dan bukannya teknikal persediaan persekitaran.

Ini dapat menjimatkan sejumlah besar masa yang akan dibelanjakan untuk memasang dan mengkonfigurasi komponen individu.

Apa yang termasuk dalam timbunan sains data?

Stack Sains Data (DSS) menyediakan persekitaran yang komprehensif dan bersepadu untuk saintis data dan jurutera pembelajaran mesin. Inilah yang ditawarkannya:

  1. Alat Pra-Memasang : DSS termasuk alat sumber terbuka yang popular seperti Microk8s , Jupyterlab dan MLFlow , yang penting untuk penerokaan data, pembangunan model, dan penjejakan eksperimen.
  2. Rangka Kerja Pembelajaran Mesin : Secara lalai, ia dilengkapi dengan dua kerangka pembelajaran mesin yang digunakan secara meluas, pytorch dan tensorflow , yang siap digunakan untuk model bangunan dan latihan.
  3. Antara Muka Talian Perintah (CLI) : DSS menyediakan CLI intuitif untuk menggunakan alat dan kerangka ini, menjadikannya lebih mudah untuk mengurus dan skala alam sekitar.
  4. Antara muka pengguna : Selepas penempatan, pengguna boleh mengakses UIS alat untuk mula bekerja pada projek sains data mereka tanpa kerumitan persediaan manual.
  5. Ketergantungan pembungkusan : DSS mengendalikan kebergantungan pembungkusan, memastikan semua alat, perpustakaan, dan kerangka serasi antara satu sama lain dan berfungsi dengan lancar bersama -sama.
  6. Keserasian Perkakasan : Ia direka untuk bersesuaian dengan perkakasan mesin, mengoptimumkan prestasi alat dan kerangka kerja
  7. Konfigurasi yang dipermudahkan : Secara tradisinya, menubuhkan persekitaran pembelajaran mesin di stesen kerja boleh menjadi rumit dan sukar untuk dibalikkan. DSS menangani ini dengan menyediakan persekitaran ML yang boleh diakses, siap, terpencil, dan boleh dihasilkan semula yang berkesan menggunakan GPU stesen kerja.
  8. Konfigurasi GPU : DSS memudahkan konfigurasi GPU dengan memasukkan pengendali GPU , yang menguruskan persediaan dan penggunaan GPU untuk tugas pembelajaran mesin, memanfaatkan kuasa pengiraan mereka dengan berkesan.

Secara keseluruhannya, DSS bertujuan untuk menyediakan persekitaran yang bebas dan dioptimumkan untuk sains data dan pembelajaran mesin, yang membolehkan pengguna memberi tumpuan kepada tugas teras mereka dan bukannya persediaan teknikal dan penyelenggaraan alat mereka.

Pasang Stack Sains Data (DSS) di Ubuntu

Untuk mula menggunakan Stack Sains Data (DSS) untuk pembelajaran mesin dan sains data, ikuti langkah -langkah ini untuk menubuhkan persekitaran anda:

Prasyarat

  • Sistem Operasi : Pastikan anda mempunyai Ubuntu 22.04 LTS atau Ubuntu 24.04 LTS dipasang pada sistem anda.
  • Sambungan Internet : Anda memerlukan sambungan internet aktif untuk memuat turun dan memasang perisian yang diperlukan.
  • SNAP : Pastikan snap dipasang pada sistem anda, kerana ia diperlukan untuk memasang Microk8s dan DSS.

Menyediakan microk8s

DSS menggunakan microk8s sebagai sistem orkestra kontena, yang membolehkan beban kerja mengakses GPU tuan rumah.

Untuk memasang microk8s di Ubuntu, jalankan:

 $ sudo snap memasang microk8s -channel 1.28/stabil -klasik

Seterusnya, aktifkan perkhidmatan yang diperlukan:

 $ sudo microk8s membolehkan penyimpanan dns rbac

Memasang DSS CLI

Tumpukan sains data diuruskan melalui antara muka baris arahan (CLI).

Pasang DSS CLI dengan arahan berikut:

 $ sudo snap Pasang data sains-stack-Channel terbaru/stabil

Dengan langkah -langkah ini selesai, anda akan mempunyai komponen asas DSS yang dipasang dan bersedia untuk digunakan. Anda kini boleh meneruskan persekitaran pembelajaran mesin anda dan mula menjalankan buku nota pertama anda menggunakan DSS CLI.

Bermula dengan Stack Sains Data

Selepas memasang Microk8s dan DSS CLI, langkah seterusnya adalah untuk memulakan DSS di atas Microk8s dan menyediakan MLFlow untuk digunakan.

Memulakan DSS dan MLFLOW

Untuk memulakan DSS, anda perlu menggunakan InitizeCommand Thedss, yang menetapkan sumber yang diperlukan dalam kluster Microk8S.

 $ DSS Inisialisasi --KubeConfig = "$ (sudo microk8s config)"

-KubeConFigFlag digunakan untuk menentukan laluan ke fail konfigurasi Kubernet yang dihasilkan oleh microk8s.

Perintah permulaan DSS mungkin mengambil masa beberapa minit untuk disiapkan. Pada masa ini, DSS CLI akan memaparkan mesej yang menunjukkan kemajuan penempatan. Anda akan melihat mesej yang serupa dengan yang berikut:

 [INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ...

Mesej ini menunjukkan bahawa DSS sedang menunggu penggunaan buku nota Tensorflow untuk siap. Bersabarlah kerana sistem menetapkan persekitaran dan memastikan semua komponen dikonfigurasi dengan betul.

Setelah permulaan selesai, anda akan melihat output seperti di bawah:

 [INFO] Melaksanakan Perintah Inisialisasi
[Maklumat] Menyimpan disediakan KubeConfig ke /home/ostechnix/snap/data-science-stack/16/.dss/config
[INFO] Menunggu MLFlow Deployment di DSS ruang nama untuk siap ...
[INFO] Deployment mlflow di ruang nama DSS sudah siap
[INFO] DSS diasaskan. Untuk membuat buku nota pertama anda jalankan arahan:

DSS membuat

Contoh:
  DSS Buat My-Notebook --Image = Pytorch
  DSS Buat My-Notebook --Image = KubeflownotebookSWG/Jupyter-Scipy: v1.8.0

Canonical melancarkan Stack Science Data untuk pemula ML

Sekarang, anda akan bersedia untuk mula menggunakan Server Penjejakan MLFlow dan komponen lain yang disediakan oleh DSS.

Anda kemudian boleh meneruskan untuk membuat dan menjalankan notebook pembelajaran mesin pertama anda dalam persekitaran DSS.

Memulakan Buku Nota Jupyter Pertama Anda

Untuk memulakan buku nota Jupyter pertama anda menggunakan Stack Science Data (DSS), anda perlu menggunakan TheDSS CreateCommand, yang membolehkan anda menentukan jenis buku nota yang anda ingin buat.

Di sini, kami mencipta buku nota tensorflow bernama My-Tensorflow-notebook dengan sokongan CUDA:

 $ DSS Buat My-TensorFlow-Notebook --Image = KubeflownotebookSWG/Jupyter-Tensorflow-Cuda: v1.8.0

Setelah penciptaan buku nota yang berjaya, anda akan melihat output seperti di bawah:

 [INFO] Melaksanakan Buat Perintah
[INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ...
[INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready...
[INFO] Menunggu penyebaran My-Tensorflow-notebook di DSS ruang nama untuk siap ...
[INFO] Penyebaran My-Tensorflow-Notebook dalam DSS ruang nama sudah siap
[INFO] Kejayaan: Notebook My-Tensorflow-Notebook berjaya dicipta dengan jayanya.
[INFO] Akses buku nota di http://10.152.183.253:80.

Canonical melancarkan Stack Science Data untuk pemula ML

Sebaik sahaja buku nota siap, arahan menunjukkan URL yang boleh anda gunakan untuk mengakses UI Jupyterlab.

Untuk mula bekerja dengan buku nota anda, buka pelayar web dan masukkan URL yang disediakan ke bar alamat.

Seperti yang anda lihat dalam output di atas, kami boleh mengakses buku nota yang baru dibuat di http://10.152.183.253:80 dari pelayar web. Gantikan URL dengan anda sendiri.

Ini akan membawa anda ke antara muka Jupyterlab di mana anda boleh membuat buku nota baru, memuat naik data, dan memulakan tugas pembelajaran mesin anda menggunakan TensorFlow dan CUDA.

Canonical melancarkan Stack Science Data untuk pemula ML

Ingat bahawa alamat IP dan nombor port dalam URL mungkin berbeza -beza bergantung pada persediaan khusus anda.

Itu sahaja. Anda kini boleh mula berinteraksi dengan buku nota anda.

Lihat status DSS

Untuk segera memeriksa status persekitaran Sains Sains Data (DSS) anda, termasuk status MLFlow dan ketersediaan pecutan GPU, anda boleh menggunakan status komando THEDSS seperti di bawah.

 Status $ DSS

THEDSS StatusCommand akan memberikan anda ringkasan keadaan semasa persekitaran DSS anda. Inilah contoh apa output yang kelihatan seperti:

 [INFO] MLFLOW DEPUCE: Bersedia
[INFO] MLFLOW URL: http://10.152.183.157:5000
[INFO] Percepatan GPU: Dilumpuhkan

Penjelasan Output:

  • MLFLOW DEPLOYMENT: Sedia menunjukkan bahawa pelayan penjejakan MLFlow sedang berjalan dan berjalan.
  • URL MLFLOW menyediakan URL di mana anda boleh mengakses UI MLFLOW untuk mengesan eksperimen pembelajaran mesin anda.
  • Percepatan GPU: Dilumpuhkan menunjukkan bahawa tidak ada GPU yang tersedia atau dikonfigurasikan untuk digunakan dalam persekitaran DSS semasa.

Untuk mengesahkan, buka URL MLFLOW http://10.152.183.157:5000 dari pelayar web anda.

Ini akan membuka papan pemuka MLFLOW di pelayar web anda.

Tab Eksperimen di papan pemuka MLFLOW:

Canonical melancarkan Stack Science Data untuk pemula ML

Oleh kerana ia adalah pemasangan baru kami, belum ada eksperimen. Untuk membuat eksperimen menggunakan Eksperimen MLFLOW CLI.

Tab Model di MLFlow Dashboard:

Canonical melancarkan Stack Science Data untuk pemula ML

Penyenaraian arahan DSS

Untuk melihat senarai arahan yang tersedia untuk Stack Sains Data (DSS), anda boleh menggunakan arahan DSS dengan pilihan -HELP.

Jalankan arahan berikut di terminal anda:

 $ DSS -HELP

Ini akan memaparkan senarai arahan bersama -sama dengan penerangan ringkas tentang tujuan mereka.

Jika anda memerlukan maklumat yang lebih terperinci mengenai arahan DSS tertentu, anda boleh menggunakan arahan yang diikuti dengan pilihan -HELP.

Sebagai contoh, untuk mendapatkan butiran mengenai perintah Inisialisasi, anda akan menjalankan:

 $ DSS Logs -Help

Mengeluarkan timbunan sains data dari microk8s

Jika anda tidak memerlukan DSS lagi, anda boleh menggunakan arahan DSS Purge untuk mengeluarkan timbunan sains data dari cluster Microk8S anda.

Untuk mengeluarkan DSS, laksanakan arahan berikut di terminal anda:

 $ DSS PURGE

Perintah ini akan menghapuskan semua komponen DSS, termasuk buku nota Jupyter, pelayan MLFLOW, dan sebarang data yang disimpan dalam persekitaran DSS.

Adalah penting untuk diperhatikan bahawa tindakan ini tidak dapat dipulihkan, dan semua data dalam persekitaran DSS akan hilang secara kekal. Pastikan untuk membuat sandaran apa -apa data penting sebelum meneruskan dengan pembersihan.

Keluarkan DSS CLI dan Microk8s

Walaupun perintah pembersihan DSS menghilangkan komponen DSS dari cluster Microk8S, ia tidak mengeluarkan DSS CLI atau cluster Microk8S itu sendiri. Sekiranya anda ingin membuangnya juga, anda perlu memadamkan snap masing -masing:

Untuk mengeluarkan DSS CLI, gunakan arahan berikut:

 $ sudo snap keluarkan data sains-sains

Untuk mengalih keluar microk8s, gunakan arahan berikut:

 $ sudo snap keluarkan microk8s

Dengan mengikuti langkah -langkah ini, anda boleh mengeluarkan sepenuhnya Stack Science Data (DSS) dan komponen yang berkaitan dari sistem anda.

Soalan Lazim (Soalan Lazim)

S: Apakah Stack Sains Data (DSS)?

A: Stack Sains Data (DSS) adalah persekitaran yang komprehensif dan siap sedia untuk pembelajaran mesin dan sains data. Ia direka untuk memudahkan persediaan dan pengurusan alat sains data dan rangka kerja, yang membolehkan pengguna memberi tumpuan kepada tugas teras mereka dan bukannya selok -belok konfigurasi persekitaran.

S: Alat apa yang termasuk dalam DSS?

A: DSS merangkumi pelbagai alat sumber terbuka seperti buku nota Jupyter, MLFlow, dan kerangka pembelajaran mesin popular seperti Tensorflow dan Pytorch. It also provides a container orchestration system, MicroK8s, for managing workloads.

S: Bagaimana saya memasang DSS?

A: Untuk memasang DSS, anda perlu mempunyai Ubuntu 22.04 LTS atau Ubuntu 24.04 LTS, sambungan Internet, dan SNAP dipasang. Kemudian, anda boleh memasang Microk8s dan DSS CLI menggunakan arahan SNAP. Untuk arahan terperinci, rujuk kepada dokumentasi rasmi atau panduan pemasangan.

S: Bagaimana saya memulakan buku nota Jupyter dengan DSS?

A: Anda boleh memulakan buku nota Jupyter dengan DSS menggunakan arahan DSS Create, menyatakan imej yang dikehendaki untuk buku nota anda. Sebagai contoh, untuk memulakan buku nota tensorflow, anda akan menggunakan DSS membuat my-tensorflow-notebook --Image = KubeflownoteBookSWG/Jupyter-Tensorflow-Cuda: v1.8.0.

S: Apakah tujuan arahan status DSS?

A: Perintah status DSS memberikan gambaran ringkas mengenai keadaan semasa persekitaran DSS anda, termasuk status MLFLOW dan ketersediaan pecutan GPU. Ia membantu anda mengesahkan bahawa semua komponen berfungsi dengan betul.

S: Bagaimana saya membuang DSS dari persekitaran saya?

A: Untuk mengalih keluar DSS, anda boleh menggunakan arahan DSS Purge, yang akan mengeluarkan semua komponen DSS, termasuk buku nota Jupyter dan pelayan MLFLOW. Perhatikan bahawa tindakan ini tidak dapat dipulihkan dan akan mengakibatkan kehilangan semua data dalam persekitaran DSS.

S: Di mana saya boleh mendapatkan lebih banyak maklumat mengenai arahan DSS?

A: Anda boleh mendapatkan maklumat terperinci mengenai arahan DSS dengan menggunakan arahan DSS -HELP untuk menyenaraikan semua arahan yang tersedia dan DSS -HELP untuk mendapatkan penggunaan terperinci untuk arahan tertentu.

S: Adakah DSS bebas digunakan?

Ya, DSS didasarkan pada alat sumber terbuka dan bebas digunakan.

S: Adakah DSS sesuai untuk pemula dalam sains data?

A: Ya, DSS direka untuk menjadi mesra pengguna dan boleh menjadi alat yang hebat untuk pemula kerana ia mengurangkan kerumitan menubuhkan persekitaran sains data. Ia menyediakan persekitaran yang siap sedia dan dioptimumkan yang membolehkan pengguna mula bekerja pada projek sains data dengan cepat.

Kesimpulan

Ringkasnya, Stack Sains Data (DSS) memudahkan persediaan untuk tugas sains data. Ia menyediakan koleksi alat yang berfungsi dengan baik bersama -sama, menjadikannya lebih mudah untuk memulakan projek dengan cepat.

Sama ada anda baru dalam sains data atau berpengalaman, DSS membantu anda memberi tumpuan kepada kerja anda dengan mengendalikan persediaan teknikal. Ia adalah alat yang boleh dipercayai yang menyokong analisis data yang cekap dan bangunan model.

Sumber :

  • Dokumentasi Stack Sains Data (DSS)

Baca Berkaitan :

  • Cara memasang anaconda di linux
  • Cara memasang miniconda di linux

Atas ialah kandungan terperinci Canonical melancarkan Stack Science Data untuk pemula ML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn