Penerokaan dan Visualisasi Set Data Filem-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Penerokaan dan Visualisasi Set Data Filem

PHPz

Sep 11, 2024 pm 04:15 PM

Pengenalan

Amalan menjadikan sempurna.

Sesuatu yang mempunyai banyak persamaan dengan menjadi saintis data. Teori hanyalah satu aspek persamaan; aspek yang paling penting ialah mempraktikkan teori. Saya akan berusaha untuk merekodkan keseluruhan proses hari ini untuk membangunkan projek batu penjuru saya, yang akan melibatkan kajian set data filem.

Ini adalah objektifnya:
Objektif:

Muat turun set data filem daripada Kaggle atau dapatkan semula menggunakan API TMDb.
Terokai pelbagai aspek seperti genre filem, rating, populariti pengarah dan trend tahun keluaran.
Buat papan pemuka yang menggambarkan arah aliran ini dan secara pilihan mengesyorkan filem berdasarkan pilihan pengguna.

1. Pengumpulan Data
Saya memutuskan untuk menggunakan Kaggle untuk mencari set data saya. Adalah penting untuk mengingati pembolehubah penting yang anda inginkan untuk set data yang anda gunakan. Yang penting, set data saya harus termasuk yang berikut: arah aliran dalam tahun keluaran, populariti pengarah, penilaian dan genre filem. Akibatnya, saya mesti memastikan set data yang saya pilih mempunyai perkara berikut, sekurang-kurangnya.
Set data saya terletak di Kaggle dan saya akan memberikan pautan di bawah. Anda boleh mendapatkan versi CSV fail dengan memuat turun set data, menyahzipnya dan mengekstraknya. Anda boleh menyemaknya untuk memahami perkara yang telah anda miliki dan untuk benar-benar menyedari jenis cerapan yang anda harap dapat peroleh daripada data yang akan anda periksa.

2. Menghuraikan data

Pertama, kita mesti mengimport perpustakaan yang diperlukan dan memuatkan data yang diperlukan. Saya menggunakan bahasa pengaturcaraan Python dan Buku Nota Jupyter untuk projek saya supaya saya boleh menulis dan melihat kod saya dengan lebih cekap.
Anda akan mengimport perpustakaan yang akan kami gunakan dan memuatkan data seperti yang ditunjukkan di bawah.

Movie Dataset Exploration and Visualization

Kami kemudian akan menjalankan perintah berikut untuk mendapatkan butiran lanjut tentang set data kami.

data.head() # dispalys the first rows of the dataset.
data.tail() # displays the last rows of the dataset.
data.shape # Shows the total number of rows and columns.
len(data.columns)  # Shows the total number of columns.
data.columns # Describes different column names.
data.dtypes # Describes different data types.

Kami kini tahu kandungan set data dan cerapan yang kami harap dapat diekstrak selepas mendapat semua huraian yang kami perlukan. Contoh: Menggunakan set data saya, saya ingin menyiasat corak dalam populariti pengarah, pengedaran penilaian dan genre filem. Saya juga ingin mencadangkan filem bergantung pada pilihan pengguna, seperti pengarah dan genre pilihan.

3. Pembersihan Data

Fasa ini melibatkan mencari sebarang nilai nol dan mengalih keluarnya. Untuk meneruskan dengan visualisasi data, kami juga akan memeriksa set data kami untuk pendua dan mengalih keluar mana-mana yang kami temui. Untuk melakukan ini, kami akan menjalankan kod yang berikut:

1. data['show_id'].value_counts().sum() # Checks for the total number of rows in my dataset
2. data.isna().sum() # Checks for null values(I found null values in director, cast and country columns)
3. data[['director', 'cast', 'country']] = data[['director', 'cast', 'country']].replace(np.nan, "Unknown ") # Fill null values with unknown.

Kami kemudian akan menggugurkan baris dengan nilai yang tidak diketahui dan mengesahkan kami telah menggugurkan kesemuanya. Kami juga akan menyemak bilangan baris yang tinggal yang telah membersihkan data.

Movie Dataset Exploration and Visualization

Kod yang berikut mencari ciri unik dan pendua. Walaupun tiada pendua dalam set data saya, anda mungkin masih perlu menggunakannya sekiranya set data akan datang melakukannya.

data.duplicated().sum() # Checks for duplicates
data.nunique() # Checks for unique features
data.info # Confirms if nan values are present and also shows datatypes.

Jenis data tarikh/masa saya ialah objek dan saya ingin ia berada dalam format tarikh/masa yang betul jadi saya gunakan
data['date_added']=data['date_added'].astype('datetime64[ms]')untuk menukarnya kepada format yang betul.

4. Visualisasi Data

Data data saya mempunyai dua jenis pembolehubah iaitu rancangan TV dan Filem dalam jenis dan saya menggunakan graf bar untuk membentangkan data kategori dengan nilai yang diwakilinya.
Saya juga menggunakan carta pai untuk mewakili perkara yang sama seperti di atas. Kod yang digunakan adalah seperti berikut dan keputusan dijangka ditunjukkan di bawah.

## Pie chart display
plt.figure(figsize=(8, 8))  
data['type'].value_counts().plot(
    kind='pie', 
    autopct='%1.1f%%',  
    colors=['skyblue', 'lightgreen'], 
    startangle=90, 
    explode=(0.05, 0) 
)
plt.title('Distribution of Content Types (Movies vs. TV Shows)')
plt.ylabel('')
plt.show()

Movie Dataset Exploration and Visualization

Saya kemudian melakukan perbandingan dibentangkan menggunakan pd.crosstab(data.type, data.country) untuk membuat perbandingan dibentangkan jenis berdasarkan tarikh keluaran, negara dan faktor lain (anda boleh cuba menukar lajur dalam kod secara bebas). Di bawah ialah kod untuk digunakan dan perbandingan yang dijangkakan. Saya juga menyemak 20 negara pertama yang terkemuka dalam pengeluaran Rancangan Tv dan memvisualisasikannya dalam graf bar. Anda boleh menyalin kod dalam imej dan memastikan hasilnya hampir serupa dengan saya.

Movie Dataset Exploration and Visualization

I then checked for the top 10 movie genre as shown below. You can also use the code to check for TV shows. Just substitute with proper variable names.

Movie Dataset Exploration and Visualization

I extracted months and years separately from the dates provided so that I could visualize some histogram plots over the years.

Movie Dataset Exploration and Visualization

Checked for the top 10 directors with the most movies and compared them using a bar graph.

Movie Dataset Exploration and Visualization

Checked for the cast with the highest rating and visualized them.

Movie Dataset Exploration and Visualization

5. Recommendation System

I then built a recommendation system that takes in genre or director's name as input and produces a list of movies as per the user's preference. If the input cannot be matched by the algorithm then the user is notified.

Movie Dataset Exploration and Visualization

The code for the above is as follows:

def recommend_movies(genre=None, director=None):
    recommendations = data
    if genre:
        recommendations = recommendations[recommendations['listed_in'].str.contains(genre, case=False, na=False)]
    if director:
        recommendations = recommendations[recommendations['director'].str.contains(director, case=False, na=False)]
    if not recommendations.empty:
        return recommendations[['title', 'director', 'listed_in', 'release_year', 'rating']].head(10)
    else:
        return "No movies found matching your preferences."
print("Welcome to the Movie Recommendation System!")
print("You can filter movies by Genre or Director (or both).")
user_genre = input("Enter your preferred genre (or press Enter to skip): ")
user_director = input("Enter your preferred director (or press Enter to skip): ")
recommendations = recommend_movies(genre=user_genre, director=user_director)
print("\nRecommended Movies:")
print(recommendations)

Conclusion

My goals were achieved, and I had a great time taking on this challenge since it helped me realize that, even though learning is a process, there are days when I succeed and fail. This was definitely a success. Here, we celebrate victories as well as defeats since, in the end, each teach us something. Do let me know if you attempt this.
Till next time!

Note!!
The code is in my GitHub:
https://github.com/MichelleNjeri-scientist/Movie-Dataset-Exploration-and-Visualization

The Kaggle dataset is:
https://www.kaggle.com/datasets/shivamb/netflix-shows

Atas ialah kandungan terperinci Penerokaan dan Visualisasi Set Data Filem. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Tujuan utama python: fleksibiliti dan kemudahan penggunaanApr 17, 2025 am 12:14 AM

Fleksibiliti Python dicerminkan dalam sokongan multi-paradigma dan sistem jenis dinamik, sementara kemudahan penggunaan berasal dari sintaks mudah dan perpustakaan standard yang kaya. 1. Fleksibiliti: Menyokong pengaturcaraan berorientasikan objek, fungsional dan prosedur, dan sistem jenis dinamik meningkatkan kecekapan pembangunan. 2. Kemudahan Penggunaan: Tatabahasa adalah dekat dengan bahasa semulajadi, perpustakaan standard merangkumi pelbagai fungsi, dan memudahkan proses pembangunan.

Python: Kekuatan pengaturcaraan serba bolehApr 17, 2025 am 12:09 AM

Python sangat disukai kerana kesederhanaan dan kuasa, sesuai untuk semua keperluan dari pemula hingga pemaju canggih. Kepelbagaiannya dicerminkan dalam: 1) mudah dipelajari dan digunakan, sintaks mudah; 2) perpustakaan dan kerangka yang kaya, seperti numpy, panda, dan sebagainya; 3) sokongan silang platform, yang boleh dijalankan pada pelbagai sistem operasi; 4) Sesuai untuk tugas skrip dan automasi untuk meningkatkan kecekapan kerja.

Belajar python dalam 2 jam sehari: panduan praktikalApr 17, 2025 am 12:05 AM

Ya, pelajari Python dalam masa dua jam sehari. 1. Membangunkan pelan kajian yang munasabah, 2. Pilih sumber pembelajaran yang betul, 3 menyatukan pengetahuan yang dipelajari melalui amalan. Langkah -langkah ini dapat membantu anda menguasai Python dalam masa yang singkat.

Python vs C: Pro and Cons untuk PemajuApr 17, 2025 am 12:04 AM

Python sesuai untuk pembangunan pesat dan pemprosesan data, manakala C sesuai untuk prestasi tinggi dan kawalan asas. 1) Python mudah digunakan, dengan sintaks ringkas, dan sesuai untuk sains data dan pembangunan web. 2) C mempunyai prestasi tinggi dan kawalan yang tepat, dan sering digunakan dalam pengaturcaraan permainan dan sistem.

Python: komitmen masa dan kadar pembelajaranApr 17, 2025 am 12:03 AM

Masa yang diperlukan untuk belajar python berbeza dari orang ke orang, terutamanya dipengaruhi oleh pengalaman pengaturcaraan sebelumnya, motivasi pembelajaran, sumber pembelajaran dan kaedah, dan irama pembelajaran. Tetapkan matlamat pembelajaran yang realistik dan pelajari terbaik melalui projek praktikal.

Python: Automasi, skrip, dan pengurusan tugasApr 16, 2025 am 12:14 AM

Python cemerlang dalam automasi, skrip, dan pengurusan tugas. 1) Automasi: Sandaran fail direalisasikan melalui perpustakaan standard seperti OS dan Shutil. 2) Penulisan Skrip: Gunakan Perpustakaan Psutil untuk memantau sumber sistem. 3) Pengurusan Tugas: Gunakan perpustakaan jadual untuk menjadualkan tugas. Kemudahan penggunaan Python dan sokongan perpustakaan yang kaya menjadikannya alat pilihan di kawasan ini.

Python dan Masa: Memanfaatkan masa belajar andaApr 14, 2025 am 12:02 AM

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python: Permainan, GUI, dan banyak lagiApr 13, 2025 am 12:14 AM

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7533

Tutorial CakePHP

1379

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi