Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.
Pengenalan | Sehingga 20 Ogos, hari ke-25 tayangannya, "Wolf Warrior II" telah mengutip lebih daripada 5 bilion yuan di box office, benar-benar menjadi satu-satunya filem Asia yang memasuki 100 box office terbaik dalam sejarah filem dunia. Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II". |
Selain daripada box office yang meletup, filem ini turut membangkitkan pelbagai emosi penonton malah berkata dengan kasar: Sesiapa yang berani mengkritik "Wolf Warrior II" sama ada terencat akal atau musuh awam.
Semua orang mempunyai ulasan bercampur-campur mengenai "Wolf Warrior II" dan telah meninggalkan komen tentang Douban untuk menyatakan pendapat mereka tentang filem itu. Walaupun pelbagai pendapat disiarkan dan media membuat kecoh, penonton masih tidak dapat membezakan pendapat mana yang lebih dipercayai.
Setakat ini, terdapat lebih daripada 150,000 komen Apabila anda membaca ulasan, anda mungkin melihat sebahagian besar daripada mereka untuk satu tempoh masa, sama ada memuji atau memperlekehkan komen. Oleh itu, sukar untuk mengetahui dengan menyemak imbas ulasan tentang pendapat keseluruhan semua orang tentang filem ini. Sekarang mari kita gunakan analisis data untuk melihat perkara menarik yang berlaku dalam ulasan ini!
Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".
Pemerolehan dataArtikel ini menggunakan data yang diperolehi oleh perangkak Python terutamanya menggunakan pakej permintaan dan semula pakej biasa Program ini tidak memproses kod pengesahan. Saya telah merangkak halaman web Douban sebelum ini, kerana kandungan yang dirangkak adalah kecil, saya tidak menemui kod pengesahan. Semasa saya menulis perangkak ini, saya fikir tidak akan ada kod pengesahan, tetapi apabila kira-kira 15,000 ulasan dirangkak, kod pengesahan muncul.
Kemudian saya berfikir, bukankah hanya 120,000? Paling banyak, saya hanya memasukkan kod pengesahan kira-kira sedozen kali, jadi saya tidak perlu berurusan dengan kod pengesahan. Tetapi apa yang berlaku seterusnya agak mengelirukan saya Apabila saya merangkak kira-kira 15,000 ulasan dan memasukkan kod pengesahan, saya fikir ia akan merangkak kepada kira-kira 30,000, tetapi selepas merangkak kira-kira 3,000, saya masih perlu memasukkannya kod pengesahan.
Kemudian ia terus berjalan seperti ini, tersandung Kadang-kadang ia mengambil masa yang lama untuk merangkak sebelum kod pengesahan diperlukan, dan kadangkala tidak. Tetapi akhirnya, komen itu merangkak. Kandungan yang dirangkak terutamanya termasuk: nama pengguna, sama ada anda telah melihatnya, bilangan bintang ulasan, masa ulasan, bilangan orang yang mendapati ia berguna dan kandungan ulasan. Berikut ialah kod crawler Python:
permintaan import<br>
import semula<br>
import panda sebagai pd<br>
url_first='https://movie.douban.com/subject/26363254/comments?start=0'<br>
head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}<br>
html=requests.get(url_first,headers=head,cookies=cookies)<br>
cookies={'cookie':'your own cookie'} #Iaitu, cari kuki yang sepadan dengan akaun anda<br>
reg=re.compile(r'') #Halaman seterusnya<br>
ren=re.compile(r'<span>(.*?)</span>.*?comment">(.*?).*?.*?<span .>(.*?).*?<span>(.*?)</span>.* ?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #Ulasan dan kandungan lain <br>
manakala html.status_code==200:<br>
url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]<br>
zhanlang=re.findall(ren,html.text)<br>
data=pd.DataFrame(zhanlang)<br>
data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #Tulis fail csv, 'a+' ialah mod tambahan<br>
data=[]<br>
zhanlang=[]<br>
html=requests.get(url_next,cookies=cookies,headers=head)
Dalam kod di atas, sila tetapkan Ejen Pengguna, Kuki, laluan menyimpan CSV anda sendiri, dsb., dan simpan kandungan yang dirangkak ke dalam fail format CSV.
Artikel ini menggunakan bahasa R untuk memproses data Walaupun kami telah memberi perhatian yang besar kepada struktur kandungan yang dirangkak semasa merangkak, tidak dapat dielakkan bahawa terdapat beberapa nilai yang bukan yang kami inginkan. Contohnya, beberapa kandungan ulasan akan muncul dalam item pengulas, jadi masih perlu membersihkan data.
Muat pertama muat semua pakej yang anda ingin gunakan:
perpustakaan(data.jadual)<br>
perpustakaan(plot)<br>
perpustakaan(stringr)<br>
perpustakaan(jiebaR)<br>
perpustakaan(wordcloud2)<br>
perpustakaan(magrittr)
Import data dan bersihkan:
dt
Mari kita lihat dahulu komen berdasarkan bilangan bintang:
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)
plot_ly(my_dt[,.(.N),by=.(nombor lima bintang)],type = 'bar',x=~nombor lima bintang,y=~N)
Bilangan bintang berbucu lima sepadan dengan 5 tahap, 5 bintang bermakna sangat disyorkan, 4 bintang bermakna disyorkan, 3 bintang bermakna okey, 2 bintang bermakna miskin, dan 1 bintang bermakna sangat miskin.
Jelas sekali daripada ulasan Pentagram bahawa kami mempunyai sebab untuk mempercayai bahawa sebahagian besar penonton akan berpuas hati dengan filem ini.
Pertama kita harus membahagikan komen:
wk <br>
Paparan awan ulasan keseluruhan: <br>
<code>perkataan%data.table()<br>
nama set(perkataan,"N","pinshu")<br>
perkataan[pinshu>1000] #Alih keluar perkataan frekuensi rendah (kurang daripada 1000)<br>
wordcloud2(words[pinshu>1000], saiz = 2, fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
Oleh kerana terdapat terlalu banyak data, komputer saya yang rosak membeku, jadi saya mengalih keluar perkataan dengan frekuensi lebih rendah daripada 1,000 semasa membuat carta awan. Keputusan imej awan adalah seperti berikut:
Secara keseluruhan, komen semua orang pada video ini cukup bagus! Topik seperti plot, aksi, dan patriotisme menjadi tumpuan perbincangan.
Kata kunci penilaian: Wu Jing, kepahlawanan peribadi, tema utama, China, halo protagonis, Setiausaha Dakang, sangat membakar.
Dapat dilihat bahawa "membakar" bukanlah sambutan yang paling popular selepas menontonnya.
Paparan imej awan dengan tahap komen yang berbezaTetapi bagaimana agaknya jika ulasan daripada orang yang mempunyai penilaian berbeza dipaparkan secara berasingan? Iaitu untuk mencipta carta awan untuk kandungan semakan lima tahap (sangat disyorkan, disyorkan, okey, lemah, sangat lemah), kodnya adalah seperti berikut (hanya tukar kod kepada "sangat disyorkan" kepada yang lain).
1. Awan ulasan pengulas yang sangat disyorkanMenilai daripada hasil segmentasi perkataan komen yang berbeza, semuanya mempunyai topik yang sama: patriotisme.
Bilangan topik patriotik dalam ulasan yang sangat disyorkan mungkin lebih tinggi daripada ulasan yang kurang disyorkan Dalam ulasan yang sangat disyorkan, orang lebih bersedia untuk membincangkan perkara selain daripada topik patriotik. Kebanyakan komen negatif adalah mengenai topik patriotik. Dan perkadaran mereka sangat menarik Daripada mereka yang sangat mengesyorkannya kepada mereka yang mengulas buruk, bahagian topik patriotik meningkat secara beransur-ansur.
Kita tidak boleh berfikir secara subjektif siapa yang betul atau salah Kita hanya boleh mengatakan bahawa mereka berdiri dari perspektif yang berbeza, jadi hasil yang mereka lihat juga berbeza. Apabila kita tidak bersetuju dengan orang lain, ia selalunya dari perspektif yang berbeza. Orang yang mempunyai komen yang tidak baik mungkin lebih memikirkan topik patriotik (ini hanya perbincangan tentang topik patriotik, bukan yang suka atau tidak suka negara)! !
Selepas analisis, sebab asas mengapa "Wolf Warrior 2" ini telah disokong oleh begitu ramai orang ialah ia telah mencapai adegan peringkat blockbuster Amerika dalam produksi yang tidak dimiliki oleh "Wolf Warrior 1", dan pada masa yang sama membangkitkan semangat patriotik dan membangkitkan hati rakyat.
Atas ialah kandungan terperinci Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pembelajaran Linux tidak sukar. 1.Linux adalah sistem operasi sumber terbuka berdasarkan UNIX dan digunakan secara meluas dalam pelayan, sistem tertanam dan komputer peribadi. 2. Memahami sistem fail dan pengurusan kebenaran adalah kunci. Sistem fail adalah hierarki, dan keizinan termasuk membaca, menulis dan melaksanakan. 3. Sistem pengurusan pakej seperti APT dan DNF menjadikan pengurusan perisian mudah. 4. Pengurusan proses dilaksanakan melalui PS dan arahan teratas. 5. Mula belajar dari arahan asas seperti MKDIR, CD, Touch dan Nano, dan kemudian cuba penggunaan lanjutan seperti skrip shell dan pemprosesan teks. 6. Kesilapan umum seperti masalah kebenaran dapat diselesaikan melalui sudo dan chmod. 7. Cadangan Pengoptimuman Prestasi termasuk menggunakan HTOP untuk memantau sumber, membersihkan fail yang tidak perlu, dan menggunakan SY

Purata gaji tahunan pentadbir Linux ialah $ 75,000 hingga $ 95,000 di Amerika Syarikat dan € 40,000 hingga € 60,000 di Eropah. Untuk meningkatkan gaji, anda boleh: 1. Secara berterusan mempelajari teknologi baru, seperti pengkomputeran awan dan teknologi kontena; 2. Mengumpulkan pengalaman projek dan menubuhkan portfolio; 3. Mewujudkan rangkaian profesional dan mengembangkan rangkaian anda.

Penggunaan utama Linux termasuk: 1. Sistem Operasi Pelayan, 2. Sistem Terbenam, 3. Linux cemerlang dalam bidang ini, menyediakan kestabilan, keselamatan dan alat pembangunan yang cekap.

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.

Inti sistem pengendalian Linux adalah antara muka baris arahannya, yang boleh melakukan pelbagai operasi melalui baris arahan. 1. Operasi Fail dan Direktori Gunakan LS, CD, MKDIR, RM dan arahan lain untuk menguruskan fail dan direktori. 2. Pengguna dan Pengurusan Kebenaran Memastikan keselamatan sistem dan peruntukan sumber melalui UserAdd, Passwd, CHMOD dan arahan lain. 3. Pengurusan proses menggunakan PS, membunuh dan arahan lain untuk memantau dan mengawal proses sistem. 4. Operasi rangkaian termasuk PING, IFCONFIG, SSH dan arahan lain untuk mengkonfigurasi dan menguruskan sambungan rangkaian. 5. Pemantauan sistem dan penyelenggaraan sistem seperti TOP, DF, DU untuk memahami status operasi sistem dan penggunaan sumber.

Pengenalan Linux adalah sistem operasi yang kuat yang disukai oleh pemaju, pentadbir sistem, dan pengguna kuasa kerana fleksibiliti dan kecekapannya. Walau bagaimanapun, kerap menggunakan arahan panjang dan kompleks boleh membosankan dan er

Linux sesuai untuk pelayan, persekitaran pembangunan, dan sistem tertanam. 1. Sebagai sistem pengendalian pelayan, Linux stabil dan cekap, dan sering digunakan untuk menggunakan aplikasi konkurasi tinggi. 2. Sebagai persekitaran pembangunan, Linux menyediakan alat arahan dan sistem pengurusan pakej yang cekap untuk meningkatkan kecekapan pembangunan. 3. Dalam sistem tertanam, Linux ringan dan disesuaikan, sesuai untuk persekitaran dengan sumber yang terhad.

Pengenalan: Mengamankan sempadan digital dengan penggodaman etika berasaskan Linux Di dunia yang semakin saling berkaitan, keselamatan siber adalah yang paling penting. Ujian penggodaman dan penembusan etika adalah penting untuk mengenal pasti dan mengurangkan keruntuhan secara proaktif


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.