cari
Rumahpembangunan bahagian belakangTutorial PythonBagaimana untuk membuat projek pemula dalam analisis data

Como criar um projeto iniciante em análise de dados

Helo, hari ini kami akan mencipta projek pertama untuk anda, pemula dalam bidang data, untuk dapat mula mencipta portfolio yang hebat dan dengan semua alat yang diperlukan untuk digunakan data!

Projek ini menunjukkan bahawa, walaupun anda seorang pemula dalam Python, anda sentiasa boleh mencari perpustakaan untuk melaksanakan tugas yang lebih kompleks yang anda belum tahu bagaimana untuk melakukannya dari awal (sesetengah perkara tidak berbaloi untuk dilakukan dari awal sama ada). Pertama sekali, adalah penting anda mempunyai pengetahuan awal tentang Python dan SQL, serta sedikit pengetahuan tentang Tableau untuk mencipta papan pemuka. Anda tidak perlu menjadi pakar, tetapi mengetahui asas alat ini akan membantu anda mengikuti projek dengan lebih mudah, tetapi anda boleh membaca keseluruhan artikel dan cuba menghasilkan semulanya juga kerana saya akan cuba menerangkannya dalam cara paling mudah supaya Kini anda boleh mula mencipta papan pemuka pertama anda!

Bolehkah kita mulakan?

Langkah pertama ialah memastikan persekitaran pembangunan anda dikonfigurasikan pada mesin anda, keperluan untuk projek ini ialah:

  • Python 3
  • MySQL 9.1 (versi terkini di tapak web)
  • Tableau Public

Saya sedang membangunkan projek ini dalam persekitaran Windows 11, jadi beberapa perkara mungkin berbeza-beza bergantung pada OS atau versi Windows anda, tetapi tiada yang terlalu menyimpang daripada perkara yang akan saya bentangkan di sini.

Mari kita mulakan dengan Python. Pergi ke https://www.python.org/downloads/ dan muat turun versi terkini pemasang. Selepas pemasangan, mulakan semula PC anda untuk mengelakkan pepijat (seperti yang berlaku kepada saya hahah) dan boleh menggunakan bahasa tanpa masalah pada baris arahan.

Kemudian, dengan MySQL, pergi ke tapak web https://dev.mysql.com/downloads/mysql/ dan muat turun pemasang Pelayan Komuniti MySQL. Cuma ikut pemasangan standard dan semuanya akan berjalan dengan sempurna.

Sekarang, dengan Tableau Public, pergi ke https://www.tableau.com/pt-br/products/public/download dan buat akaun anda untuk memulakan muat turun. Penciptaan akaun juga diperlukan untuk menerbitkan papan pemuka pertama anda dan juga akan menjadi sangat penting untuk portfolio anda!

Alat lain yang tidak diperlukan, tetapi sangat bagus untuk dimiliki, ialah git dan akaun github. Saya meletakkan semua kod saya dengan komit dan ulasan di sini dan sangat bagus untuk menggunakan github sebagai portfolio kod anda, tetapi jika anda tidak tahu git tidak mengapa dan projek anda akan berfungsi dengan cara yang sama.

Apabila anda telah mengkonfigurasi semuanya, pergi ke direktori tempat anda akan meletakkan aplikasi anda, kemudian mari buat beberapa konfigurasi lagi. Anda memerlukan beberapa perpustakaan Python untuk digunakan dalam projek, saya akan menerangkan perkara yang dilakukan oleh setiap pustaka dan cara memasangnya.

Perpustakaan pertama yang akan kami gunakan ialah BeautifulSoup. Data yang kami perlukan untuk projek ini ada di internet dan kami perlu melakukan proses yang dipanggil Web Scraping untuk mengumpulnya, BeautifulSoup akan membantu kami dengan proses ini dengan membawakan kami alatan yang memudahkan pengumpulan ini.
Untuk memasangnya, hanya pergi ke terminal dan taip

pip install beautifulsoup4

dan... itu sahaja! Memasang kebergantungan dalam Python adalah sangat mudah!

Perpustakaan kedua yang akan kami gunakan ialah permintaan. Jika kami akan bekerja dengan halaman web, kami memerlukan sesuatu yang membantu kami melaksanakan tindakan CRUD dengan API, jadi ini akan menjadi pilihan kami. Sekali lagi, pasang sahaja di terminal dengan

pip install requests

Kami juga akan melaksanakan amalan baik dan menggunakan pembolehubah persekitaran (supaya tiada siapa yang menemui kata laluan, nama pengguna dan maklumat sensitif kami yang lain dalam kod kami), jadi kami memerlukan os dan dotenv. os mesti sudah dipasang secara lalai dalam python, manakala dotenv tidak, jadi ia adalah proses biasa

pip install dotenv

Dan akhir sekali, kami memerlukan perpustakaan untuk menyambung ke pangkalan data MySQL kami, jadi mari gunakan mysql.connector

pip install mysql-connector-python

Sebaik sahaja persekitaran pembangunan dikonfigurasikan, teruskan sahaja ke bahagian proses yang paling menyeronokkan, PENGATURCARAAN!!

Kami akan membuat projek yang akan dibahagikan kepada dua bahagian (dari segi kod), mengikis web dan manipulasi pangkalan data, jadi kami akan mulakan dengan mencipta fail pengikisan web, yang juga akan menjadi tempat kod utama akan pergi tinggal, dan kemudian kami akan mencipta fail untuk meletakkan fungsi manipulasi pangkalan data kami. Ini membantu kami bukan sahaja dalam mengekalkan kod tetapi juga dalam penggunaan semulanya.

Buat fail bernama web_scrapper.py dalam direktori aplikasi.
Seterusnya, kami akan mengimport kebergantungan kami yang kami pasang sebelum ini.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Dari dotenv kami hanya memerlukan fungsi load_dotenv dan oleh itu kami hanya akan mengimportnya.

Pertama, mari kita fikirkan tentang struktur kod kita dan tulis perkara yang kita mahu setiap perkara lakukan, langkah demi langkah, supaya ia lebih teratur. Kami mahu kod kami melakukan tindakan berikut:

  1. Buat pengikis web dan simpan data dalam pembolehubah
  2. Isi pangkalan data dengan data yang kami dapat
  3. Dapatkan data daripada pangkalan data dan letakkan dalam fail csv supaya kami boleh menganalisisnya dalam Tableau Public

Mari kita pergi ke bahagian-bahagian, bahagian pertama yang kita ingin buat dan uji ialah mencipta pengikis web, jadi cara terbaik ialah bermula dengan itu!
Kami akan menggunakan tapak web yang dibuat untuk jenis perkara ini, https://www.scrapethissite.com/, di sana anda akan menemui beberapa jenis halaman untuk berlatih mengikis web. Kami amat berminat dengan model pemula, jadi mari buat permintaan untuk halaman itu:

pip install beautifulsoup4

Di sini kami menggunakan kaedah dapatkan permintaan yang akan bersamaan dengan pembacaan CRUD, ia mengembalikan halaman web dan menyimpannya secara keseluruhan dalam pembolehubah yang kami buat page_countries_area_population.
Kemudian, kami memerlukan BeautifulSoup untuk menghuraikan HTML halaman supaya ia dapat mencari maklumat yang kami perlukan. Untuk melakukan ini, kami akan mencipta pembolehubah yang dipanggil sup dan memanggil BeaultifulSoup dan menghantar teks pembolehubah yang kami buat kepadanya

pip install requests

Ini akan mengembalikan halaman dengan parse dan kaedah BeautifulSoup yang dipautkan kepadanya dalam pembolehubah yang kami buat, sekali gus menjadikan kerja kami lebih mudah.
Sekarang kita perlu mengenal pasti maklumat yang ingin kita alih keluar dari halaman, untuk melakukan ini kita perlu memeriksa halaman web dan mengenal pasti elemen dan coraknya dalam dokumen html. Dalam kes ini kita melihat bahawa nama negara berada di dalam teg h3 dan dengan kelas nama negara, jadi mari kita gunakan ini untuk mendapatkan nama negara

pip install dotenv

Di sini kami memanggil sup yang kami buat sebelum ini dan memanggil fungsi findAll yang akan mengambil semua contoh nama negara untuk kami. Parameter pertama ialah elemen html yang kami cari dan yang kedua ialah atributnya, kerana mereka mungkin mempunyai tag h3 lain yang kami tidak mahu ia pilih, dalam kes ini kami lulus kelas nama negara untuk mengenal pasti elemen kami mahu.
Kami mengulangi proses untuk bilangan penduduk dan keluasan setiap negara

pip install mysql-connector-python

Sebelum menghantar data ini ke pangkalan data, kami akan membersihkannya dan membiarkannya dalam format yang menghalang perkara yang tidak diingini daripada masuk bersamanya. Untuk melakukan ini, saya akan membuat senarai tupel untuk menyimpan data sebelum menghantarnya ke pangkalan data, kerana ini akan menjadikan proses lebih mudah. Walau bagaimanapun, sebelum menambahkannya, kita perlu mengalih keluar tempat kosong daripada nama negara juga.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Dan dengan itu kami sudah mempunyai data yang kami perlukan! Kami boleh memotong tugas pertama itu daripada senarai kami!

Dalam bahagian dua artikel ini, saya akan mengajar anda cara memanipulasi pangkalan data menggunakan Python dan menyelesaikan projek kami?

Atas ialah kandungan terperinci Bagaimana untuk membuat projek pemula dalam analisis data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Python vs C: Memahami perbezaan utamaPython vs C: Memahami perbezaan utamaApr 21, 2025 am 12:18 AM

Python dan C masing -masing mempunyai kelebihan sendiri, dan pilihannya harus berdasarkan keperluan projek. 1) Python sesuai untuk pembangunan pesat dan pemprosesan data kerana sintaks ringkas dan menaip dinamik. 2) C sesuai untuk prestasi tinggi dan pengaturcaraan sistem kerana menaip statik dan pengurusan memori manual.

Python vs C: Bahasa mana yang harus dipilih untuk projek anda?Python vs C: Bahasa mana yang harus dipilih untuk projek anda?Apr 21, 2025 am 12:17 AM

Memilih Python atau C bergantung kepada keperluan projek: 1) Jika anda memerlukan pembangunan pesat, pemprosesan data dan reka bentuk prototaip, pilih Python; 2) Jika anda memerlukan prestasi tinggi, latensi rendah dan kawalan perkakasan yang rapat, pilih C.

Mencapai matlamat python anda: kekuatan 2 jam sehariMencapai matlamat python anda: kekuatan 2 jam sehariApr 20, 2025 am 12:21 AM

Dengan melabur 2 jam pembelajaran python setiap hari, anda dapat meningkatkan kemahiran pengaturcaraan anda dengan berkesan. 1. Ketahui Pengetahuan Baru: Baca dokumen atau tutorial menonton. 2. Amalan: Tulis kod dan latihan lengkap. 3. Kajian: Menyatukan kandungan yang telah anda pelajari. 4. Amalan Projek: Sapukan apa yang telah anda pelajari dalam projek sebenar. Pelan pembelajaran berstruktur seperti ini dapat membantu anda menguasai Python secara sistematik dan mencapai matlamat kerjaya.

Memaksimumkan 2 Jam: Strategi Pembelajaran Python BerkesanMemaksimumkan 2 Jam: Strategi Pembelajaran Python BerkesanApr 20, 2025 am 12:20 AM

Kaedah untuk belajar python dengan cekap dalam masa dua jam termasuk: 1. Semak pengetahuan asas dan pastikan anda sudah biasa dengan pemasangan Python dan sintaks asas; 2. Memahami konsep teras python, seperti pembolehubah, senarai, fungsi, dan lain -lain; 3. Menguasai penggunaan asas dan lanjutan dengan menggunakan contoh; 4. Belajar kesilapan biasa dan teknik debugging; 5. Memohon pengoptimuman prestasi dan amalan terbaik, seperti menggunakan komprehensif senarai dan mengikuti panduan gaya PEP8.

Memilih antara python dan c: bahasa yang sesuai untuk andaMemilih antara python dan c: bahasa yang sesuai untuk andaApr 20, 2025 am 12:20 AM

Python sesuai untuk pemula dan sains data, dan C sesuai untuk pengaturcaraan sistem dan pembangunan permainan. 1. Python adalah mudah dan mudah digunakan, sesuai untuk sains data dan pembangunan web. 2.C menyediakan prestasi dan kawalan yang tinggi, sesuai untuk pembangunan permainan dan pengaturcaraan sistem. Pilihan harus berdasarkan keperluan projek dan kepentingan peribadi.

Python vs C: Analisis perbandingan bahasa pengaturcaraanPython vs C: Analisis perbandingan bahasa pengaturcaraanApr 20, 2025 am 12:14 AM

Python lebih sesuai untuk sains data dan perkembangan pesat, manakala C lebih sesuai untuk prestasi tinggi dan pengaturcaraan sistem. 1. Sintaks Python adalah ringkas dan mudah dipelajari, sesuai untuk pemprosesan data dan pengkomputeran saintifik. 2.C mempunyai sintaks kompleks tetapi prestasi yang sangat baik dan sering digunakan dalam pembangunan permainan dan pengaturcaraan sistem.

2 jam sehari: potensi pembelajaran python2 jam sehari: potensi pembelajaran pythonApr 20, 2025 am 12:14 AM

Adalah mungkin untuk melabur dua jam sehari untuk belajar Python. 1. Belajar Pengetahuan Baru: Ketahui konsep baru dalam satu jam, seperti senarai dan kamus. 2. Amalan dan Amalan: Gunakan satu jam untuk melakukan latihan pengaturcaraan, seperti menulis program kecil. Melalui perancangan dan ketekunan yang munasabah, anda boleh menguasai konsep teras Python dalam masa yang singkat.

Python vs C: Lengkung pembelajaran dan kemudahan penggunaanPython vs C: Lengkung pembelajaran dan kemudahan penggunaanApr 19, 2025 am 12:20 AM

Python lebih mudah dipelajari dan digunakan, manakala C lebih kuat tetapi kompleks. 1. Sintaks Python adalah ringkas dan sesuai untuk pemula. Penaipan dinamik dan pengurusan memori automatik menjadikannya mudah digunakan, tetapi boleh menyebabkan kesilapan runtime. 2.C menyediakan kawalan peringkat rendah dan ciri-ciri canggih, sesuai untuk aplikasi berprestasi tinggi, tetapi mempunyai ambang pembelajaran yang tinggi dan memerlukan memori manual dan pengurusan keselamatan jenis.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.