Python爬蟲類分析《戰狼》影評-Linux-PHP中文網

首頁

系統教程

Linux

Python爬蟲類分析《戰狼》影評

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 09:44 PM

linuxlinux教程紅帽linux系統linux指令linux認證紅帽linuxlinux視頻

導讀	截止到 8 月 20 日，《戰狼Ⅱ》上映的第 25 天，它的票房已超 50 億人民幣，真正成為唯一一部挺進世界影史票房前 100 名的亞洲電影。本文透過 Python 爬蟲的方式取得數據，對豆瓣電影評論進行分析，並製作了豆瓣影評的雲圖。現在，讓我們來看看，《戰狼Ⅱ》評論裡到底藏著哪些有趣的潛台詞。

Python爬蟲類分析《戰狼》影評

#拋開爆炸的票房不說，電影還激起了觀眾各種情緒，甚至有人放狠話說：敢噴《戰狼Ⅱ》的，要么是智障，要么是公敵，就是這麼簡單粗暴。
大家對《戰狼Ⅱ》褒貶不一，紛紛在豆瓣短評上面留言，表達自己對這部電影的看法。儘管各路評論出街，媒體鬧得沸沸揚揚，觀眾還是傻傻分不清楚哪邊意見比較可靠。

截至目前為止已經有超過十五萬的評論，在你看評論的時候，你可能在一段時間裡看到的大部分是表揚或者是貶低的評論。那麼透過瀏覽評論我們很難看出大家對於這部電影的整體狀況。現在讓我們透過數據分析的方法來看看在這些評論中究竟發生了什麼有趣的事情！

本文透過 Python 爬蟲的方式取得數據，對豆瓣電影評論進行分析，製作了豆瓣影評的雲圖。現在，讓我們來看看，《戰狼Ⅱ》評論裡到底藏著哪些有趣的潛台詞。

資料的取得

本文採用的是 Python 爬蟲的方式取得的數據，用到的主要是 requests 套件與正規套件 re，程式並未對驗證碼進行處理。之前也爬取過豆瓣的網頁，當時由於爬取的內容少，所以並沒有遇到驗證碼的事情。在寫本文爬蟲的時候，原以為也不會有驗證碼，但是當爬取到大概 15000 個評論的時候跳出來驗證碼。
然後我就想不就是十二萬嗎？最多我也就是輸入大概十幾次驗證碼，所以就沒有處理驗證碼的事情。但接下來的事情就有點坑到我了，爬取15000 左右評論並輸入驗證碼的時候，我以為會接下來爬取到30000 左右，可是才爬了3000 左右就不行了，還是要輸驗證碼。

然後就一直這樣，跌跌撞撞，有時候爬取好長時間才需要驗證碼，有時候則不是。不過最後還是把評論爬上來了。爬取的內容主要是：用戶名，是否看過，評論的星星點數，評論時間，認為有用的人數，評論內容。以下是 Python 爬蟲的程式碼：
import requests import re import pandas as pd url_first='https://movie.douban.com/subject/26363254/comments?start=0' head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109. html=requests.get(url_first,headers=head,cookies=cookies) cookies={'cookie':'你自己的cookie'} #也就是找到你的帳號對應的cookie reg=re.compile(r'') #下一頁 ren=re.compile(r' (.*?).*?comment">(.*?).*?.*?(.*?).*? (.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?) \n',re.S) #評論等內容 while html.status_code==200: url_next='https://movie.douban.com/subject/26363254/comments' re.findall(reg,html.text)[0] zhanlang=re.findall(ren,html.text) data=pd.DataFrame(zhanlang) data.to_csv('/home/wajuejiprince/文檔/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a ') #寫入csv檔案,'a '是追加模式 data=[] zhanlang=[] html=requests.get(url_next,cookies=cookies,headers=head) # 以上程式碼注意設定你自己的 User-Agent，Cookie，CSV 儲存路徑等，爬取的內容儲存成 CSV 格式的檔案。

資料清洗本文用 R語言來處理數據，雖然在爬取的時候已經非常注意爬取內容的結構了，但是還是不可避免的有一些值不是我們想要的。例如有的評論內容會出現在評論者這項中，所以還是有必要進行一下資料的清洗。

首先載入要用到的所有套件：

library(data.table)library(plotly) library(stringr) library(jiebaR) library(wordcloud2) library(magrittr) # 導入資料並清洗：

dt

資料淺析先來看看透過星星數評論的情況：

plot_ly(my_dt[,.(.N),by=.(五星數)],type = 'bar',x=~五星數,y=~N)
Python爬蟲類分析《戰狼》影評

五角星的數量對應 5 個等級，5 顆星代表力薦，4 顆星代表推薦，3 顆星代表還行，2 顆星代表較差，1 顆星代表很差。
透過五角星的評論顯而易見，我們有理由相信絕大部分觀眾對這部電影持滿意態度。

首先我們應該先進行評論的分詞：
wk 整體評論雲圖展示： <code>words�ta.table() setnames(words,"N","pinshu") words[pinshu>1000] #去除較低頻數的詞彙（小於1000的） wordcloud2(words[pinshu>1000], size = 2, fontFamily = "微軟雅黑",color = "random-light", backgroundColor = "grey")
由於資料太多，導致我的破電腦卡頓，所以在製作雲圖的時候去掉了頻數低於 1000 的詞彙。雲圖結果如下：
Python爬蟲類分析《戰狼》影評

整體來看，大家對這不影片的評論還是不錯！劇情，動作，愛國等話題是大家談論的焦點。

評價關鍵字：吳京、個人英雄主義、主旋律、中國、主角光環、達康書記、很燃。

可見，「燃」並不是看完後最多的回饋，觀眾更多是對吳京本人的讚嘆，以及對愛國主義和個人主義的評價。

不同評論等級的雲圖展示

但是如果把不同評價的人的評論分別展示會是什麼樣子呢？也就是對五個等級（力薦，推薦，還行，較差，很差）的評論內容製作雲圖，程式碼如下（只要改變程式碼中力薦為其他即可）。

1. 力薦的評論人的評論雲圖

Python爬蟲類分析《戰狼》影評

##2. 推薦的評論人的評論雲圖

Python爬蟲類分析《戰狼》影評

##3. 還行的評論人的評論雲圖

Python爬蟲類分析《戰狼》影評

##4. 較差的評論人的評論雲圖

Python爬蟲類分析《戰狼》影評

##5. 很差的評論人的評論雲圖

Python爬蟲類分析《戰狼》影評

##結論

從不同的評論的分詞結果來看，他們都有一個共同的主題：愛國。

在力薦的評論中可能愛國話題的基數比很差的評論中的多，在力薦的評論中人們更願意討論的是愛國話題之外的事情。在很差的評論中人們討論的大多是愛國話題。而且他們佔的比例很有意思，從力薦的人到評論很差的人，愛國話題的比例逐漸增加。

我們不能主觀的認為誰對誰錯，只能說他們站在的角度不一樣，所以看到的結果也不太一樣。當我們和別人意見不同時，往往是所處的角度不同。評論很差的人考慮的更多的是愛國的話題吧（這裡只是愛國話題的討論，並不是誰愛不愛國）！！

分析完了，這部《戰狼2》之所以能獲得這麼多人的支持，根本原因還是在於從製作上實現了《戰狼1》所沒有的美國大片級大場面，同時在愛國主義上引起了共鳴，激起了民心。

以上是Python爬蟲類分析《戰狼》影評的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：Linux就该这么学。如有侵權，請聯絡admin@php.cn刪除

比較和對比Linux和Windows的安全模型。Apr 24, 2025 am 12:03 AM

Linux和Windows的安全模型各有優勢。 Linux提供靈活性和可定制性，通過用戶權限、文件系統權限和SELinux/AppArmor實現安全。 Windows則注重用戶友好性，依賴WindowsDefender、UAC、防火牆和BitLocker保障安全。

Linux和Windows之間的硬件兼容性有何不同？Apr 23, 2025 am 12:15 AM

Linux和Windows在硬件兼容性上不同：Windows有廣泛的驅動程序支持，Linux依賴社區和廠商。解決Linux兼容性問題可通過手動編譯驅動，如克隆RTL8188EU驅動倉庫、編譯和安裝；Windows用戶需管理驅動程序以優化性能。

Linux和Windows之間虛擬化支持有哪些差異？Apr 22, 2025 pm 06:09 PM

Linux和Windows在虛擬化支持上的主要區別在於：1)Linux提供KVM和Xen，性能和靈活性突出，適合高定制環境；2)Windows通過Hyper-V支持虛擬化，界面友好，與Microsoft生態系統緊密集成，適合依賴Microsoft軟件的企業。

Linux系統管理員的主要任務是什麼？Apr 19, 2025 am 12:23 AM

Linux系統管理員的主要任務包括系統監控與性能調優、用戶管理、軟件包管理、安全管理與備份、故障排查與解決、性能優化與最佳實踐。 1.使用top、htop等工具監控系統性能，並進行調優。 2.通過useradd等命令管理用戶賬戶和權限。 3.利用apt、yum管理軟件包，確保系統更新和安全。 4.配置防火牆、監控日誌、進行數據備份以確保系統安全。 5.通過日誌分析和工具使用進行故障排查和解決。 6.優化內核參數和應用配置，遵循最佳實踐提升系統性能和穩定性。

很難學習Linux嗎？Apr 18, 2025 am 12:23 AM

學習Linux並不難。 1.Linux是一個開源操作系統，基於Unix，廣泛應用於服務器、嵌入式系統和個人電腦。 2.理解文件系統和權限管理是關鍵，文件系統是層次化的，權限包括讀、寫和執行。 3.包管理系統如apt和dnf使得軟件管理方便。 4.進程管理通過ps和top命令實現。 5.從基本命令如mkdir、cd、touch和nano開始學習，再嘗試高級用法如shell腳本和文本處理。 6.常見錯誤如權限問題可以通過sudo和chmod解決。 7.性能優化建議包括使用htop監控資源、清理不必要文件和使用sy