Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.-LINUX-php.cn

Rumah

Tutorial sistem

LINUX

Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 09:44 PM

linuxtutorial linuxTopi Merahsistem linuxarahan linuxpensijilan linuxlinux topi merahvideo linux

Pengenalan

Sehingga 20 Ogos, hari ke-25 tayangannya, "Wolf Warrior II" telah mengutip lebih daripada 5 bilion yuan di box office, benar-benar menjadi satu-satunya filem Asia yang memasuki 100 box office terbaik dalam sejarah filem dunia. Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".

Perangkak Python menganalisis ulasan filem Wolf Warrior.

Selain daripada box office yang meletup, filem ini turut membangkitkan pelbagai emosi penonton malah berkata dengan kasar: Sesiapa yang berani mengkritik "Wolf Warrior II" sama ada terencat akal atau musuh awam.
Semua orang mempunyai ulasan bercampur-campur mengenai "Wolf Warrior II" dan telah meninggalkan komen tentang Douban untuk menyatakan pendapat mereka tentang filem itu. Walaupun pelbagai pendapat disiarkan dan media membuat kecoh, penonton masih tidak dapat membezakan pendapat mana yang lebih dipercayai.

Setakat ini, terdapat lebih daripada 150,000 komen Apabila anda membaca ulasan, anda mungkin melihat sebahagian besar daripada mereka untuk satu tempoh masa, sama ada memuji atau memperlekehkan komen. Oleh itu, sukar untuk mengetahui dengan menyemak imbas ulasan tentang pendapat keseluruhan semua orang tentang filem ini. Sekarang mari kita gunakan analisis data untuk melihat perkara menarik yang berlaku dalam ulasan ini!

Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".

Pemerolehan data

Artikel ini menggunakan data yang diperolehi oleh perangkak Python terutamanya menggunakan pakej permintaan dan semula pakej biasa Program ini tidak memproses kod pengesahan. Saya telah merangkak halaman web Douban sebelum ini, kerana kandungan yang dirangkak adalah kecil, saya tidak menemui kod pengesahan. Semasa saya menulis perangkak ini, saya fikir tidak akan ada kod pengesahan, tetapi apabila kira-kira 15,000 ulasan dirangkak, kod pengesahan muncul.
Kemudian saya berfikir, bukankah hanya 120,000? Paling banyak, saya hanya memasukkan kod pengesahan kira-kira sedozen kali, jadi saya tidak perlu berurusan dengan kod pengesahan. Tetapi apa yang berlaku seterusnya agak mengelirukan saya Apabila saya merangkak kira-kira 15,000 ulasan dan memasukkan kod pengesahan, saya fikir ia akan merangkak kepada kira-kira 30,000, tetapi selepas merangkak kira-kira 3,000, saya masih perlu memasukkannya kod pengesahan.

Kemudian ia terus berjalan seperti ini, tersandung Kadang-kadang ia mengambil masa yang lama untuk merangkak sebelum kod pengesahan diperlukan, dan kadangkala tidak. Tetapi akhirnya, komen itu merangkak. Kandungan yang dirangkak terutamanya termasuk: nama pengguna, sama ada anda telah melihatnya, bilangan bintang ulasan, masa ulasan, bilangan orang yang mendapati ia berguna dan kandungan ulasan. Berikut ialah kod crawler Python:
permintaan import import semula import panda sebagai pd url_first='https://movie.douban.com/subject/26363254/comments?start=0' head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'} html=requests.get(url_first,headers=head,cookies=cookies) cookies={'cookie':'your own cookie'} #Iaitu, cari kuki yang sepadan dengan akaun anda reg=re.compile(r'') #Halaman seterusnya ren=re.compile(r'(.*?).*?comment">(.*?).*?.*?(.*?).*?(.*?).* ?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #Ulasan dan kandungan lain manakala html.status_code==200: url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0] zhanlang=re.findall(ren,html.text) data=pd.DataFrame(zhanlang) data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #Tulis fail csv, 'a+' ialah mod tambahan data=[] zhanlang=[] html=requests.get(url_next,cookies=cookies,headers=head)
Dalam kod di atas, sila tetapkan Ejen Pengguna, Kuki, laluan menyimpan CSV anda sendiri, dsb., dan simpan kandungan yang dirangkak ke dalam fail format CSV.

Pembersihan data

Artikel ini menggunakan bahasa R untuk memproses data Walaupun kami telah memberi perhatian yang besar kepada struktur kandungan yang dirangkak semasa merangkak, tidak dapat dielakkan bahawa terdapat beberapa nilai yang bukan yang kami inginkan. Contohnya, beberapa kandungan ulasan akan muncul dalam item pengulas, jadi masih perlu membersihkan data.

Muat pertama muat semua pakej yang anda ingin gunakan:
perpustakaan(data.jadual) perpustakaan(plot) perpustakaan(stringr) perpustakaan(jiebaR) perpustakaan(wordcloud2) perpustakaan(magrittr)
Import data dan bersihkan:
dt

Analisis ringkas data

Mari kita lihat dahulu komen berdasarkan bilangan bintang:
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)plot_ly(my_dt[,.(.N),by=.(nombor lima bintang)],type = 'bar',x=~nombor lima bintang,y=~N)
Perangkak Python menganalisis ulasan filem Wolf Warrior.

🎜

Bilangan bintang berbucu lima sepadan dengan 5 tahap, 5 bintang bermakna sangat disyorkan, 4 bintang bermakna disyorkan, 3 bintang bermakna okey, 2 bintang bermakna miskin, dan 1 bintang bermakna sangat miskin.
Jelas sekali daripada ulasan Pentagram bahawa kami mempunyai sebab untuk mempercayai bahawa sebahagian besar penonton akan berpuas hati dengan filem ini.

Pertama kita harus membahagikan komen:
wk Paparan awan ulasan keseluruhan: <code>perkataan%data.table() nama set(perkataan,"N","pinshu") perkataan[pinshu>1000] #Alih keluar perkataan frekuensi rendah (kurang daripada 1000) wordcloud2(words[pinshu>1000], saiz = 2, fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
Oleh kerana terdapat terlalu banyak data, komputer saya yang rosak membeku, jadi saya mengalih keluar perkataan dengan frekuensi lebih rendah daripada 1,000 semasa membuat carta awan. Keputusan imej awan adalah seperti berikut:
Perangkak Python menganalisis ulasan filem Wolf Warrior.

Secara keseluruhan, komen semua orang pada video ini cukup bagus! Topik seperti plot, aksi, dan patriotisme menjadi tumpuan perbincangan.

Kata kunci penilaian: Wu Jing, kepahlawanan peribadi, tema utama, China, halo protagonis, Setiausaha Dakang, sangat membakar.

Dapat dilihat bahawa "membakar" bukanlah sambutan yang paling popular selepas menontonnya.

Paparan imej awan dengan tahap komen yang berbeza

Tetapi bagaimana agaknya jika ulasan daripada orang yang mempunyai penilaian berbeza dipaparkan secara berasingan? Iaitu untuk mencipta carta awan untuk kandungan semakan lima tahap (sangat disyorkan, disyorkan, okey, lemah, sangat lemah), kodnya adalah seperti berikut (hanya tukar kod kepada "sangat disyorkan" kepada yang lain).

1. Awan ulasan pengulas yang sangat disyorkan

Perangkak Python menganalisis ulasan filem Wolf Warrior.

2. Awan ulasan pengulas yang disyorkan

Perangkak Python menganalisis ulasan filem Wolf Warrior.

3. Awan ulasan pengulas yang baik

Perangkak Python menganalisis ulasan filem Wolf Warrior.

4. Awan ulasan pengulas yang lemah

Perangkak Python menganalisis ulasan filem Wolf Warrior.

5. Awan ulasan pengulas buruk

Perangkak Python menganalisis ulasan filem Wolf Warrior.

Kesimpulan

Menilai daripada hasil segmentasi perkataan komen yang berbeza, semuanya mempunyai topik yang sama: patriotisme.

Bilangan topik patriotik dalam ulasan yang sangat disyorkan mungkin lebih tinggi daripada ulasan yang kurang disyorkan Dalam ulasan yang sangat disyorkan, orang lebih bersedia untuk membincangkan perkara selain daripada topik patriotik. Kebanyakan komen negatif adalah mengenai topik patriotik. Dan perkadaran mereka sangat menarik Daripada mereka yang sangat mengesyorkannya kepada mereka yang mengulas buruk, bahagian topik patriotik meningkat secara beransur-ansur.

Kita tidak boleh berfikir secara subjektif siapa yang betul atau salah Kita hanya boleh mengatakan bahawa mereka berdiri dari perspektif yang berbeza, jadi hasil yang mereka lihat juga berbeza. Apabila kita tidak bersetuju dengan orang lain, ia selalunya dari perspektif yang berbeza. Orang yang mempunyai komen yang tidak baik mungkin lebih memikirkan topik patriotik (ini hanya perbincangan tentang topik patriotik, bukan yang suka atau tidak suka negara)! !

Selepas analisis, sebab asas mengapa "Wolf Warrior 2" ini telah disokong oleh begitu ramai orang ialah ia telah mencapai adegan peringkat blockbuster Amerika dalam produksi yang tidak dimiliki oleh "Wolf Warrior 1", dan pada masa yang sama membangkitkan semangat patriotik dan membangkitkan hati rakyat.

Atas ialah kandungan terperinci Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:Linux就该这么学. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Adakah sukar untuk belajar Linux?Apr 18, 2025 am 12:23 AM

Pembelajaran Linux tidak sukar. 1.Linux adalah sistem operasi sumber terbuka berdasarkan UNIX dan digunakan secara meluas dalam pelayan, sistem tertanam dan komputer peribadi. 2. Memahami sistem fail dan pengurusan kebenaran adalah kunci. Sistem fail adalah hierarki, dan keizinan termasuk membaca, menulis dan melaksanakan. 3. Sistem pengurusan pakej seperti APT dan DNF menjadikan pengurusan perisian mudah. 4. Pengurusan proses dilaksanakan melalui PS dan arahan teratas. 5. Mula belajar dari arahan asas seperti MKDIR, CD, Touch dan Nano, dan kemudian cuba penggunaan lanjutan seperti skrip shell dan pemprosesan teks. 6. Kesilapan umum seperti masalah kebenaran dapat diselesaikan melalui sudo dan chmod. 7. Cadangan Pengoptimuman Prestasi termasuk menggunakan HTOP untuk memantau sumber, membersihkan fail yang tidak perlu, dan menggunakan SY

Apakah gaji Pentadbir Linux?Apr 17, 2025 am 12:24 AM

Purata gaji tahunan pentadbir Linux ialah $ 75,000 hingga $ 95,000 di Amerika Syarikat dan € 40,000 hingga € 60,000 di Eropah. Untuk meningkatkan gaji, anda boleh: 1. Secara berterusan mempelajari teknologi baru, seperti pengkomputeran awan dan teknologi kontena; 2. Mengumpulkan pengalaman projek dan menubuhkan portfolio; 3. Mewujudkan rangkaian profesional dan mengembangkan rangkaian anda.

Apakah tujuan utama Linux?Apr 16, 2025 am 12:19 AM

Penggunaan utama Linux termasuk: 1. Sistem Operasi Pelayan, 2. Sistem Terbenam, 3. Linux cemerlang dalam bidang ini, menyediakan kestabilan, keselamatan dan alat pembangunan yang cekap.

Adakah Internet berjalan di Linux?Apr 14, 2025 am 12:03 AM

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.

Apakah operasi Linux?Apr 13, 2025 am 12:20 AM

Inti sistem pengendalian Linux adalah antara muka baris arahannya, yang boleh melakukan pelbagai operasi melalui baris arahan. 1. Operasi Fail dan Direktori Gunakan LS, CD, MKDIR, RM dan arahan lain untuk menguruskan fail dan direktori. 2. Pengguna dan Pengurusan Kebenaran Memastikan keselamatan sistem dan peruntukan sumber melalui UserAdd, Passwd, CHMOD dan arahan lain. 3. Pengurusan proses menggunakan PS, membunuh dan arahan lain untuk memantau dan mengawal proses sistem. 4. Operasi rangkaian termasuk PING, IFCONFIG, SSH dan arahan lain untuk mengkonfigurasi dan menguruskan sambungan rangkaian. 5. Pemantauan sistem dan penyelenggaraan sistem seperti TOP, DF, DU untuk memahami status operasi sistem dan penggunaan sumber.

Meningkatkan Produktiviti dengan Pintasan Perintah Custom Menggunakan Linux AliasesApr 12, 2025 am 11:43 AM

Pengenalan Linux adalah sistem operasi yang kuat yang disukai oleh pemaju, pentadbir sistem, dan pengguna kuasa kerana fleksibiliti dan kecekapannya. Walau bagaimanapun, kerap menggunakan arahan panjang dan kompleks boleh membosankan dan er

Apa yang sebenarnya Linux?Apr 12, 2025 am 12:20 AM

Linux sesuai untuk pelayan, persekitaran pembangunan, dan sistem tertanam. 1. Sebagai sistem pengendalian pelayan, Linux stabil dan cekap, dan sering digunakan untuk menggunakan aplikasi konkurasi tinggi. 2. Sebagai persekitaran pembangunan, Linux menyediakan alat arahan dan sistem pengurusan pakej yang cekap untuk meningkatkan kecekapan pembangunan. 3. Dalam sistem tertanam, Linux ringan dan disesuaikan, sesuai untuk persekitaran dengan sumber yang terhad.

Alat dan kerangka penting untuk menguasai penggodaman etika di LinuxApr 11, 2025 am 09:11 AM

Pengenalan: Mengamankan sempadan digital dengan penggodaman etika berasaskan Linux Di dunia yang semakin saling berkaitan, keselamatan siber adalah yang paling penting. Ujian penggodaman dan penembusan etika adalah penting untuk mengenal pasti dan mengurangkan keruntuhan secara proaktif

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7554

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi