Python クローラーが映画「Wolf Warrior」レビューを分析-Linux-php.cn

ホームページ

システムチュートリアル

Linux

Python クローラーが映画「Wolf Warrior」レビューを分析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 09:44 PM

linuxLinuxチュートリアルレッドハットLinuxシステムLinuxコマンドLinux 認定レッドハットリナックスLinuxビデオ

＃＃＃導入＃＃＃『狼戦士II』公開から25日目である8月20日の時点で興行収入は50億元を超え、アジア映画としては世界映画史上唯一興行収入トップ100に入った。この記事では、Python クローラーを使用してデータを取得し、Douban 映画レビューを分析し、Douban 映画レビューのクラウドイメージを作成します。では、『Wolf Warrior II』のレビューにはどのような興味深い意味が隠されているのかを見てみましょう。

Python クローラーが映画「Wolf Warrior」レビューを分析

爆発的な興行収入とは関係なく、この映画は観客にさまざまな感情を呼び起こしました。「『ウルフウォリアー II』をあえて批判する者は精神薄弱か公共の敵のどちらかです。単純かつ粗暴です」と厳しい言葉を投げかける人もいたそれとして。
誰もが「Wolf Warrior II」についてさまざまなレビューをしており、映画についての意見を表明するためにDoubanにコメントを残しています。さまざまな意見が発表され、メディアは騒いだが、視聴者にはどの意見がより信頼できるのかはまだ分からなかった。

現在までに 15 万件以上のコメントが寄せられていますが、コメントを読んでみると、一定期間は賞賛や非難のコメントがほとんどです。そのため、コメントを閲覧しても、この映画に対するみんなの全体的な意見を知るのは困難です。それでは、データ分析を使用して、これらのコメントでどのような興味深いことが起こったのかを見てみましょう。

この記事では、Python クローラーを通じてデータを取得し、Douban 映画レビューを分析し、Douban 映画レビューのクラウドイメージを作成します。では、『Wolf Warrior II』のレビューにはどのような興味深い意味が隠されているのかを見てみましょう。

＃＃＃データ収集＃＃＃この記事ではPythonクローラーで取得したデータを使用しており、主にrequestsパッケージと通常パッケージreを使用していますが、このプログラムでは検証コードは処理しません。以前、Douban の Web ページをクロールしたことがありますが、その時はクロールされたコンテンツが少なかったため、認証コードには遭遇しませんでした。このクローラーを書いたときは認証コードは出ないと思っていましたが、15,000件ほどのコメントをクロールした時点で認証コードが表示されました。それで思ったのですが、たったの12万ではないでしょうか？認証コードを入力するのはせいぜい十数回程度だったので、認証コードを気にする必要はありませんでした。しかし、その後何が起こったのかは私にとって少し混乱しました。約 15,000 件のコメントをクロールして認証コードを入力したとき、約 30,000 件までクロールされると思ったのですが、約 3,000 件クロールしても機能しませんでした。それでも認証コードを入力する必要がありました。コードです。

その後、このようにつまずき、検証コードを要求するまで長い間這うこともあれば、そうでないこともありました。しかし、最終的にはコメントがクロールされてしまいました。クロールされるコンテンツは主に、ユーザー名、見たかどうか、コメントの星の数、コメントの時間、役に立ったと感じた人の数、コメントの内容です。以下は Python クローラーのコードです:

インポートリクエスト
インポート再パンダを pd としてインポートします url_first='https://movie.douban.com/subject/26363254/comments?start=0' head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML、Gecko など) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'} html=requests.get(url_first,headers=head,cookies=cookies) cookies={'cookie':'自分の cookie'} #つまり、あなたのアカウントに対応する cookie を見つけます reg=re.compile(r'') #次のページ ren=re.compile(r' (.*?) .*?comment">(.*?).*?.*?(.*?).*? (.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?) \n',re.S) #コメントとその他のコンテンツ while html.status_code==200: url_next='https://movie.douban.com/subject/26363254/comments' re.findall(reg,html.text)[0] zhanlang=re.findall(ren,html.text) データ=pd.DataFrame(zhanlang) data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a ') #csv ファイルを書き込みます。'a ' は追加モードです データ=[] zhanlang=[] html=requests.get(url_next,cookies=cookies,headers=head) 上記コードでは、User-Agent、Cookie、CSVの保存パスなどを独自に設定し、クロールしたコンテンツをCSV形式のファイルに保存してください。
データクリーニング

この記事では R 言語を使用してデータを処理しています。クロール時にクロールされるコンテンツの構造には細心の注意を払っていますが、意図しない値が含まれることは避けられません。たとえば、一部のコメント内容はコメント投稿者アイテムに表示されるため、データをクリーンアップする必要があります。

まず、使用するすべてのパッケージをロードします:

ライブラリ(データ.テーブル)
ライブラリ(たくさん)ライブラリ(stringr) ライブラリ(jiebaR) ライブラリ(wordcloud2) ライブラリ(magrittr) データをインポートしてクリーンアップします:
dt＃＃＃データ分析＃＃＃まずはコメントの状況を星の数で見てみましょう。

plot_ly(my_dt[,.(.N),by=.(五つ星の数値)],type = 'bar',x=~五つ星の数値,y=~N)

五芒星の数は 5 つのレベルに対応しており、5 つ星は非常に推奨されることを意味し、4 つ星は推奨されることを意味し、3 つ星はまあまあ、2 つ星は悪い、1 つ星は非常に悪いを意味します。 『ペンタグラム』のレビューを見れば、大多数の視聴者がこの映画に満足すると信じる理由があることは明らかです。 まずコメントを分割する必要があります: <code>週# 全体的なコメントクラウド表示: words<code>�ta.table() setnames(単語,"N","ピンシュ") Words[pinshu>1000] #低頻度単語 (1000 未満) を削除 wordcloud2(words[pinshu>1000], size = 2, fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey") データが多すぎて壊れたパソコンがフリーズしてしまったため、雲図を作成する際に頻度が1,000未満の単語を削除しました。雲図の結果は次のとおりです:

Python クローラーが映画「Wolf Warrior」レビューを分析

全体として、この映画に対するみんなのコメントはとても良いです。陰謀、行動、愛国心などのトピックが議論の焦点です。

評価キーワード: ウー・ジン、個人的な英雄主義、メインテーマ、中国、主人公のオーラ、ダカン長官、非常に燃える。

視聴後に最も人気のある反応は「乱」ではなく、視聴者は呉静自身を賞賛し、愛国心や個人主義についてコメントすることに興味を持っていたことがわかります。

さまざまなコメントレベルのクラウド画像表示しかし、異なる評価を持つ人々のコメントが別々に表示されたらどうなるでしょうか?それはレビュー内容を5段階（強く推奨、推奨、まあまあ、悪い、非常に悪い）の雲図を作成するもので、コードは以下の通りです（「強く推奨」のコードをその他に変更するだけです）。

1. 強く推奨されるレビュアーのコメントクラウド

Python クローラーが映画「Wolf Warrior」レビューを分析

2. 推奨レビュアーのコメントクラウド

Python クローラーが映画「Wolf Warrior」レビューを分析

3. 優れたレビュアーによるレビュークラウド

Python クローラーが映画「Wolf Warrior」レビューを分析

4. 評価の低いレビュー担当者のクラウドレビュー

Python クローラーが映画「Wolf Warrior」レビューを分析

5. 悪いレビュアーのレビュークラウド

Python クローラーが映画「Wolf Warrior」レビューを分析＃＃＃結論は＃＃＃

さまざまなコメントの単語分割結果から判断すると、それらはすべて、愛国心という共通のトピックを持っています。強く推奨されるコメントでは、あまり推奨されないコメントよりも愛国的なトピックの数が多くなる可能性があります。強く推奨されるコメントでは、人々は愛国的なトピック以外のことについても積極的に議論します。否定的なコメントのほとんどは愛国的な話題に関するものでした。そしてその割合がとても面白くて、強く勧める人から低評価の人まで、徐々に愛国的な話題の割合が増えていきます。

誰が正しくて誰が間違っているかを主観的に考えることはできず、立場が違うので見える結果も違うとしか言いようがありません。私たちが他の人と意見が異なるときは、多くの場合、異なる視点からのものです。悪いコメントをしている人は、愛国的な話題についてもっと考えている可能性があります (これは単に愛国的な話題についての議論であり、誰がその国を好きか嫌いかではありません)。！

分析の結果、この『ウルフウォリアー 2』がこれほど多くの人に支持されている根本的な理由は、『ウルフウォリアー 1』にはなかったアメリカの超大作レベルのシーンを制作段階で実現したこと、そして、それは同時に愛国心を体現し、人々の共鳴を呼び起こし、心を呼び起こしました。

以上がPython クローラーが映画「Wolf Warrior」レビューを分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はLinux就该这么学で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Linuxの基本を学ぶ方法は？Apr 10, 2025 am 09:32 AM

基本的なLinux学習の方法は次のとおりです。1。ファイルシステムとコマンドラインインターフェイス、2。LS、CD、MKDIR、3。ファイルの作成と編集などのファイル操作を学習するマスター基本コマンド、4。

Linuxの最も使用は何ですか？Apr 09, 2025 am 12:02 AM

Linuxは、サーバー、組み込みシステム、デスクトップ環境で広く使用されています。 1）サーバーフィールドでは、Linuxは、その安定性とセキュリティにより、Webサイト、データベース、アプリケーションをホストするための理想的な選択肢となっています。 2）埋め込みシステムでは、Linuxは高いカスタマイズと効率で人気があります。 3）デスクトップ環境では、Linuxはさまざまなユーザーのニーズを満たすために、さまざまなデスクトップ環境を提供します。

Linuxの欠点は何ですか？Apr 08, 2025 am 12:01 AM

Linuxの欠点には、ユーザーエクスペリエンス、ソフトウェア互換性、ハードウェアサポート、学習曲線が含まれます。 1.ユーザーエクスペリエンスは、WindowsやMacOほどフレンドリーではなく、コマンドラインインターフェイスに依存しています。 2。ソフトウェアの互換性は他のシステムほど良くなく、多くの商用ソフトウェアのネイティブバージョンがありません。 3.ハードウェアサポートはWindowsほど包括的ではなく、ドライバーは手動でコンパイルされる場合があります。 4.学習曲線は急で、コマンドラインの操作をマスターするには時間と忍耐が必要です。

Linuxは学ぶのが難しいですか？Apr 07, 2025 am 12:01 AM

linuxisnothardtolearn、butthedifficultydependsonyourbackgroundandgoals.forthosewithosexperience、特にcommand-llinefamparsition、linuxisaneasyytransition.beginnersmayteeper relearningcurvebutcanagewithpersources.linux'sopen-sourcenature

Linuxの5つの基本コンポーネントは何ですか？Apr 06, 2025 am 12:05 AM

Linuxの5つの基本コンポーネントは次のとおりです。1。カーネル、ハードウェアリソースの管理。 2。機能とサービスを提供するシステムライブラリ。 3.シェル、ユーザーがシステムと対話するインターフェイス。 4.ファイルシステム、データの保存と整理。 5。アプリケーション、システムリソースを使用して機能を実装します。

Ubuntu Home Automation：オープンソースツールを使用してスマートリビングスペースを構築するApr 05, 2025 am 09:19 AM

スマートホームで新しい章を開く：Ubuntuに基づくオープンソースホームオートメーションシステム Smart Home Technologyは、私たちが生きている空間との対話方法に革命をもたらし、利便性、安全性、エネルギー効率を日常生活にもたらしました。ライトや電化製品のリモートコントロールから、セキュリティカメラや自動気候制御の監視に至るまで、スマートホームテクノロジーはますます人気が高まっています。ただし、多くのビジネススマートホームシステムには、高コスト、プライバシーの問題、互換性が限られているという制限があります。幸いなことに、オープンソースソフトウェアソリューションは、Ubuntuの力を組み合わせて代替手段を提供します。これにより、ユーザーはカスタマイズ可能で費用対効果が高く、安全なスマートホームエコシステムを作成できます。このガイドでは、Ubuntuとオープンソースツールを使用してホームオートメーションシステムをセットアップする方法について説明します。

Linux vs. Windows：2025年の違いは何ですか？Apr 05, 2025 am 09:05 AM

Linux vs. Windows：2025比較 MacosまたはWindowsからの切り替えを考えていますか？ Linuxが答えかもしれません。 MACOSユーザーは（MacOSのUNIXコアのため）比較的スムーズな移行を見つけるでしょうが、Windowsユーザーは適応する必要があります。このガイドヒグ

Linuxデバイスとは何ですか？Apr 05, 2025 am 12:04 AM

Linuxデバイスは、サーバー、パーソナルコンピューター、スマートフォン、組み込みシステムなどのLinuxオペレーティングシステムを実行するハードウェアデバイスです。彼らはLinuxの力を利用して、Webサイトのホスティングやビッグデータ分析などのさまざまなタスクを実行します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。