Pengenalan | Sehingga 20 Ogos, hari ke-25 tayangannya, "Wolf Warrior II" telah mengutip lebih daripada 5 bilion yuan di box office, benar-benar menjadi satu-satunya filem Asia yang memasuki 100 box office terbaik dalam sejarah filem dunia. Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II". |
Selain daripada box office yang meletup, filem ini turut membangkitkan pelbagai emosi penonton malah berkata dengan kasar: Sesiapa yang berani mengkritik "Wolf Warrior II" sama ada terencat akal atau musuh awam.
Semua orang mempunyai ulasan bercampur-campur mengenai "Wolf Warrior II" dan telah meninggalkan komen tentang Douban untuk menyatakan pendapat mereka tentang filem itu. Walaupun pelbagai pendapat disiarkan dan media membuat kecoh, penonton masih tidak dapat membezakan pendapat mana yang lebih dipercayai.
Setakat ini, terdapat lebih daripada 150,000 komen Apabila anda membaca ulasan, anda mungkin melihat sebahagian besar daripada mereka untuk satu tempoh masa, sama ada memuji atau memperlekehkan komen. Oleh itu, sukar untuk mengetahui dengan menyemak imbas ulasan tentang pendapat keseluruhan semua orang tentang filem ini. Sekarang mari kita gunakan analisis data untuk melihat perkara menarik yang berlaku dalam ulasan ini!
Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".
Pemerolehan dataArtikel ini menggunakan data yang diperolehi oleh perangkak Python terutamanya menggunakan pakej permintaan dan semula pakej biasa Program ini tidak memproses kod pengesahan. Saya telah merangkak halaman web Douban sebelum ini, kerana kandungan yang dirangkak adalah kecil, saya tidak menemui kod pengesahan. Semasa saya menulis perangkak ini, saya fikir tidak akan ada kod pengesahan, tetapi apabila kira-kira 15,000 ulasan dirangkak, kod pengesahan muncul.
Kemudian saya berfikir, bukankah hanya 120,000? Paling banyak, saya hanya memasukkan kod pengesahan kira-kira sedozen kali, jadi saya tidak perlu berurusan dengan kod pengesahan. Tetapi apa yang berlaku seterusnya agak mengelirukan saya Apabila saya merangkak kira-kira 15,000 ulasan dan memasukkan kod pengesahan, saya fikir ia akan merangkak kepada kira-kira 30,000, tetapi selepas merangkak kira-kira 3,000, saya masih perlu memasukkannya kod pengesahan.
Kemudian ia terus berjalan seperti ini, tersandung Kadang-kadang ia mengambil masa yang lama untuk merangkak sebelum kod pengesahan diperlukan, dan kadangkala tidak. Tetapi akhirnya, komen itu merangkak. Kandungan yang dirangkak terutamanya termasuk: nama pengguna, sama ada anda telah melihatnya, bilangan bintang ulasan, masa ulasan, bilangan orang yang mendapati ia berguna dan kandungan ulasan. Berikut ialah kod crawler Python:
permintaan import<br>
import semula<br>
import panda sebagai pd<br>
url_first='https://movie.douban.com/subject/26363254/comments?start=0'<br>
head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}<br>
html=requests.get(url_first,headers=head,cookies=cookies)<br>
cookies={'cookie':'your own cookie'} #Iaitu, cari kuki yang sepadan dengan akaun anda<br>
reg=re.compile(r'') #Halaman seterusnya<br>
ren=re.compile(r'<span>(.*?)</span>.*?comment">(.*?).*?.*?<span .>(.*?).*?<span>(.*?)</span>.* ?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #Ulasan dan kandungan lain <br>
manakala html.status_code==200:<br>
url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]<br>
zhanlang=re.findall(ren,html.text)<br>
data=pd.DataFrame(zhanlang)<br>
data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #Tulis fail csv, 'a+' ialah mod tambahan<br>
data=[]<br>
zhanlang=[]<br>
html=requests.get(url_next,cookies=cookies,headers=head)
Dalam kod di atas, sila tetapkan Ejen Pengguna, Kuki, laluan menyimpan CSV anda sendiri, dsb., dan simpan kandungan yang dirangkak ke dalam fail format CSV.
Artikel ini menggunakan bahasa R untuk memproses data Walaupun kami telah memberi perhatian yang besar kepada struktur kandungan yang dirangkak semasa merangkak, tidak dapat dielakkan bahawa terdapat beberapa nilai yang bukan yang kami inginkan. Contohnya, beberapa kandungan ulasan akan muncul dalam item pengulas, jadi masih perlu membersihkan data.
Muat pertama muat semua pakej yang anda ingin gunakan:
perpustakaan(data.jadual)<br>
perpustakaan(plot)<br>
perpustakaan(stringr)<br>
perpustakaan(jiebaR)<br>
perpustakaan(wordcloud2)<br>
perpustakaan(magrittr)
Import data dan bersihkan:
dt
Mari kita lihat dahulu komen berdasarkan bilangan bintang:
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)
plot_ly(my_dt[,.(.N),by=.(nombor lima bintang)],type = 'bar',x=~nombor lima bintang,y=~N)
Bilangan bintang berbucu lima sepadan dengan 5 tahap, 5 bintang bermakna sangat disyorkan, 4 bintang bermakna disyorkan, 3 bintang bermakna okey, 2 bintang bermakna miskin, dan 1 bintang bermakna sangat miskin.
Jelas sekali daripada ulasan Pentagram bahawa kami mempunyai sebab untuk mempercayai bahawa sebahagian besar penonton akan berpuas hati dengan filem ini.
Pertama kita harus membahagikan komen:
wk <br>
Paparan awan ulasan keseluruhan: <br>
<code>perkataan%data.table()<br>
nama set(perkataan,"N","pinshu")<br>
perkataan[pinshu>1000] #Alih keluar perkataan frekuensi rendah (kurang daripada 1000)<br>
wordcloud2(words[pinshu>1000], saiz = 2, fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
Oleh kerana terdapat terlalu banyak data, komputer saya yang rosak membeku, jadi saya mengalih keluar perkataan dengan frekuensi lebih rendah daripada 1,000 semasa membuat carta awan. Keputusan imej awan adalah seperti berikut:
Secara keseluruhan, komen semua orang pada video ini cukup bagus! Topik seperti plot, aksi, dan patriotisme menjadi tumpuan perbincangan.
Kata kunci penilaian: Wu Jing, kepahlawanan peribadi, tema utama, China, halo protagonis, Setiausaha Dakang, sangat membakar.
Dapat dilihat bahawa "membakar" bukanlah sambutan yang paling popular selepas menontonnya.
Paparan imej awan dengan tahap komen yang berbezaTetapi bagaimana agaknya jika ulasan daripada orang yang mempunyai penilaian berbeza dipaparkan secara berasingan? Iaitu untuk mencipta carta awan untuk kandungan semakan lima tahap (sangat disyorkan, disyorkan, okey, lemah, sangat lemah), kodnya adalah seperti berikut (hanya tukar kod kepada "sangat disyorkan" kepada yang lain).
1. Awan ulasan pengulas yang sangat disyorkanMenilai daripada hasil segmentasi perkataan komen yang berbeza, semuanya mempunyai topik yang sama: patriotisme.
Bilangan topik patriotik dalam ulasan yang sangat disyorkan mungkin lebih tinggi daripada ulasan yang kurang disyorkan Dalam ulasan yang sangat disyorkan, orang lebih bersedia untuk membincangkan perkara selain daripada topik patriotik. Kebanyakan komen negatif adalah mengenai topik patriotik. Dan perkadaran mereka sangat menarik Daripada mereka yang sangat mengesyorkannya kepada mereka yang mengulas buruk, bahagian topik patriotik meningkat secara beransur-ansur.
Kita tidak boleh berfikir secara subjektif siapa yang betul atau salah Kita hanya boleh mengatakan bahawa mereka berdiri dari perspektif yang berbeza, jadi hasil yang mereka lihat juga berbeza. Apabila kita tidak bersetuju dengan orang lain, ia selalunya dari perspektif yang berbeza. Orang yang mempunyai komen yang tidak baik mungkin lebih memikirkan topik patriotik (ini hanya perbincangan tentang topik patriotik, bukan yang suka atau tidak suka negara)! !
Selepas analisis, sebab asas mengapa "Wolf Warrior 2" ini telah disokong oleh begitu ramai orang ialah ia telah mencapai adegan peringkat blockbuster Amerika dalam produksi yang tidak dimiliki oleh "Wolf Warrior 1", dan pada masa yang sama membangkitkan semangat patriotik dan membangkitkan hati rakyat.
Atas ialah kandungan terperinci Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

linux设备节点是应用程序和设备驱动程序沟通的一个桥梁;设备节点被创建在“/dev”,是连接内核与用户层的枢纽,相当于硬盘的inode一样的东西,记录了硬件设备的位置和信息。设备节点使用户可以与内核进行硬件的沟通,读写设备以及其他的操作。

区别:1、open是UNIX系统调用函数,而fopen是ANSIC标准中的C语言库函数;2、open的移植性没fopen好;3、fopen只能操纵普通正规文件,而open可以操作普通文件、网络套接字等;4、open无缓冲,fopen有缓冲。

端口映射又称端口转发,是指将外部主机的IP地址的端口映射到Intranet中的一台计算机,当用户访问外网IP的这个端口时,服务器自动将请求映射到对应局域网内部的机器上;可以通过使用动态或固定的公共网络IP路由ADSL宽带路由器来实现。

在linux中,交叉编译是指在一个平台上生成另一个平台上的可执行代码,即编译源代码的平台和执行源代码编译后程序的平台是两个不同的平台。使用交叉编译的原因:1、目标系统没有能力在其上进行本地编译;2、有能力进行源代码编译的平台与目标平台不同。

在linux中,eof是自定义终止符,是“END Of File”的缩写;因为是自定义的终止符,所以eof就不是固定的,可以随意的设置别名,linux中按“ctrl+d”就代表eof,eof一般会配合cat命令用于多行文本输出,指文件末尾。

在linux中,可以利用“rpm -qa pcre”命令判断pcre是否安装;rpm命令专门用于管理各项套件,使用该命令后,若结果中出现pcre的版本信息,则表示pcre已经安装,若没有出现版本信息,则表示没有安装pcre。

linux查询mac地址的方法:1、打开系统,在桌面中点击鼠标右键,选择“打开终端”;2、在终端中,执行“ifconfig”命令,查看输出结果,在输出信息第四行中紧跟“ether”单词后的字符串就是mac地址。

在linux中,rpc是远程过程调用的意思,是Reomote Procedure Call的缩写,特指一种隐藏了过程调用时实际通信细节的IPC方法;linux中通过RPC可以充分利用非共享内存的多处理器环境,提高系统资源的利用率。


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Dreamweaver Mac版
Alat pembangunan web visual

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.
