Python 크롤러는 'Wolf Warrior' 영화 리뷰를 분석합니다.
소개 | 개봉 25일째인 8월 20일 기준, '늑대전사2'는 박스오피스 50억 위안 이상의 수익을 올리며, 세계영화사상 박스오피스 100위권에 진입한 유일한 아시아 영화가 됐다. 이 기사에서는 Python 크롤러를 사용하여 데이터를 얻고, Douban 영화 리뷰를 분석하고, Douban 영화 리뷰의 클라우드 이미지를 만듭니다. 이제 '늑대전사2' 리뷰에는 어떤 흥미로운 서브텍스트가 숨겨져 있는지 살펴보자. |
영화는 폭발적인 흥행 외에도 관객들에게 다양한 감정을 불러일으켰습니다. 어떤 사람들은 "늑대전사2"를 감히 비판하는 사람은 정신박약자이거나 공공의 적입니다.
모두가 "늑대 전사 II"에 대해 엇갈린 평가를 내렸고 Douban에 댓글을 남겨 영화에 대한 의견을 표현했습니다. 다양한 댓글이 쏟아지고 언론이 난리를 피웠지만 관객들은 여전히 어느 의견이 더 신빙성 있는지 알 수 없었다.
지금까지 달린 댓글은 15만 개가 넘습니다. 댓글을 읽어보면 상당 기간 칭찬하거나 폄하하는 댓글이 대부분일 것입니다. 그래서 이 영화에 대한 모든 사람의 전반적인 의견이 무엇인지 댓글을 살펴보는 것만으로는 알기 어렵습니다. 이제 데이터 분석을 통해 이 댓글에서 어떤 흥미로운 일이 일어났는지 살펴보겠습니다!
이 기사에서는 Python 크롤러를 사용하여 데이터를 얻고 Douban 영화 리뷰를 분석하고 Douban 영화 리뷰의 클라우드 이미지를 만듭니다. 이제 '늑대전사2' 리뷰에는 어떤 흥미로운 서브텍스트가 숨겨져 있는지 살펴보자.
데이터 획득이 글은 Python 크롤러에서 얻은 데이터를 사용합니다. 주로 요청 패키지와 일반 패키지를 사용합니다. 이 프로그램은 확인 코드를 처리하지 않습니다. 이전에 Douban의 웹페이지를 크롤링한 적이 있는데 크롤링된 콘텐츠가 작아서 인증 코드를 발견하지 못했습니다. 이 크롤러를 작성할 때에는 인증코드가 없을 줄 알았는데 댓글이 15,000개 정도 크롤링 되니까 인증코드가 뜹니다.
그러다가 생각해보니 그냥 12만명 아닌가? 인증코드를 입력한 횟수가 기껏해야 열두 번 정도밖에 되지 않아 인증코드를 처리할 필요가 없었습니다. 그런데 그다음에 일어난 일이 저에게는 좀 혼란스러웠습니다. 댓글을 15,000개 정도 크롤링하고 인증코드를 입력하니 30,000개 정도 크롤링이 될 줄 알았는데, 3,000개 정도 크롤링한 후에도 계속 입력이 안 되더라구요. 확인 코드. .
그런데 계속 이렇게 맴돌다가 인증코드가 필요할 때까지 크롤링하는 데 오랜 시간이 걸렸고 때로는 그렇지 않았습니다. 하지만 결국 댓글은 크롤링되었습니다. 크롤링되는 콘텐츠는 주로 사용자 이름, 보았는지 여부, 댓글의 별 수, 댓글 시간, 유용하다고 생각한 사람 수, 댓글 내용입니다. 다음은 Python 크롤러의 코드입니다:
가져오기 요청<br>
다시 가져오기<br>
팬더를 pd로 가져오기<br>
url_first='https://movie.douban.com/subject/26363254/comments?start=0'<br>
head={'User-Agent':'Mozilla/5.0(X11; Linux x86_64) AppleWebKit/537.36(KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}<br>
html=requests.get(url_first,headers=head,cookies=cookies)<br>
cookie={'cookie':'your own cookie'} #즉, 귀하의 계정에 해당하는 쿠키를 찾아보세요<br>
reg=re.compile(r'') #다음페이지<br>
ren=re.compile(r'<span>(.*?)</span>.*?comment">(.*?).*?.*?<span .>(.*?).*?<span>(.*?)</span>.* ?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #댓글 및 기타 내용 <br>
동안 html.status_code==200:<br>
url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]<br>
zhanlang=re.findall(ren,html.text)<br>
data=pd.DataFrame(잔랑)<br>
data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #csv 파일 쓰기, 'a+'가 추가 모드<br>
데이터=[]<br>
잔랑=[]<br>
html=requests.get(url_next,cookies=cookies,headers=head)
위 코드에서 User-Agent, 쿠키, CSV 저장 경로 등을 직접 설정하고, 크롤링된 콘텐츠를 CSV 형식의 파일로 저장해 주세요.
이 글에서는 데이터를 처리하기 위해 R 언어를 사용합니다. 크롤링할 때 크롤링되는 콘텐츠의 구조에 많은 주의를 기울였지만, 일부 값이 우리가 원하는 것이 아닐 수 없습니다. 예를 들어 일부 댓글 내용이 댓글 작성자 항목에 표시되므로 여전히 데이터 정리가 필요합니다.
먼저 사용하려는 모든 패키지를 로드하세요.
라이브러리(data.table)<br>
도서관(plotly)<br>
도서관(stringr)<br>
도서관(jiebaR)<br>
도서관(wordcloud2)<br>
도서관(magrittr)
데이터 가져오기 및 정리:
dt
먼저 별 개수에 따른 댓글 상황을 살펴보겠습니다.
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)
plot_ly(my_dt[,.(.N),by=.(별 다섯개 숫자)],type = 'bar',x=~별 다섯 개 숫자,y=~N)
별표의 개수는 5단계에 해당하며, 별 5개는 적극 권장, 별 4개는 권장, 별 3개는 괜찮음, 별 2개는 나쁨, 별 1개는 매우 나쁨을 의미합니다.
Pentagram의 리뷰를 보면 대다수의 시청자가 이 영화에 만족할 것이라고 믿을 만한 이유가 있다는 것이 분명합니다.
먼저 댓글을 분류해야 합니다.
wk <br>
전반적인 리뷰 클라우드 표시: <br>
<code>단어%data.table()<br>
setnames(단어,"N","pinshu")<br>
단어[pinshu>1000] #빈도가 낮은 단어 제거(1000개 미만)<br>
wordcloud2(words[pinshu>1000], 크기 = 2,fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
데이터가 너무 많아서 고장난 컴퓨터가 멈춰서 클라우드 차트를 만들 때 빈도가 1,000 미만인 단어를 제거했습니다. 클라우드 이미지 결과는 다음과 같습니다.
전반적으로 이번 영상에 대한 모든 분들의 댓글이 꽤 좋아요! 줄거리, 행동, 애국심과 같은 주제가 토론의 초점입니다.
평가 키워드: 오징, 개인의 영웅주의, 메인 테마, 중국, 주인공 아우라, 다강 비서, 매우 불타오르다.
'버닝'이 시청 후 가장 인기 있는 피드백이 아니라는 것을 알 수 있습니다. 시청자들은 우징 자신을 존경하고 애국심과 개인주의에 대해 논평하는 데 더 관심이 있습니다.
댓글 수준이 다른 클라우드 이미지 표시하지만 평점이 다른 사람들의 댓글이 별도로 표시된다면 어떤 모습일까요? 즉, 5단계(강력히 권장, 권장, 괜찮음, 나쁨, 매우 나쁨)의 리뷰 내용에 대한 클라우드 차트를 생성하는 것입니다. 코드는 다음과 같습니다(기타 코드를 "강력히 권장"으로 변경하면 됩니다).
1. 강력추천 리뷰어들의 댓글 클라우드다양한 댓글의 단어 분할 결과를 보면 모두 애국심이라는 공통된 주제를 가지고 있습니다.
강력 추천 댓글의 애국 주제 수가 비추천 댓글의 수보다 높을 수 있습니다. 사람들은 애국 주제 이외의 주제에 대해 토론할 의향이 더 높습니다. 부정적인 댓글의 대부분은 애국적인 주제에 관한 것이었습니다. 그리고 그 비율이 매우 흥미롭습니다. 적극 추천하는 사람부터 나쁜 의견을 말하는 사람까지 애국적인 주제의 비율이 점차 증가합니다.
누가 옳고 그른지 주관적으로 판단할 수는 없지만, 서로 다른 관점에 서 있기 때문에 보는 결과도 다릅니다. 우리가 다른 사람들과 의견이 다를 때, 그것은 종종 다른 관점에서 비롯됩니다. 나쁜 댓글을 가진 사람들은 애국적인 주제에 대해 더 많이 생각하고 있을 수도 있습니다. (이것은 단지 애국적인 주제에 대한 토론일 뿐이며 누가 국가를 사랑하거나 싫어하는지가 아닙니다.) !
분석 결과, 이 '늑대전사2'가 이렇게 많은 사람들에게 지지를 받는 근본적인 이유는 '늑대전사1'이 볼 수 없었던 미국 블록버스터 수준의 제작 장면을 달성함과 동시에 애국심을 불러일으키고 사람들의 마음을 불러일으켰습니다.
위 내용은 Python 크롤러는 'Wolf Warrior' 영화 리뷰를 분석합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Linux와 Windows의 보안 모델에는 각각 고유 한 장점이 있습니다. Linux는 유연성 및 사용자 정의 가능성을 제공하여 사용자 권한, 파일 시스템 권한 및 Selinux/Apparmor를 통해 보안을 가능하게합니다. Windows는 사용자 친화성에 중점을두고 WindowsDefender, UAC, 방화벽 및 Bitlocker에 의존하여 보안을 보장합니다.

Linux와 Windows는 하드웨어 호환성이 다릅니다. Windows는 광범위한 드라이버 지원이 있으며 Linux는 커뮤니티 및 공급 업체에 따라 다릅니다. Linux 호환성 문제를 해결하려면 RTL8188EU 드라이버 리포지토리 복제, 컴파일 및 설치와 같은 드라이버를 수동으로 컴파일 할 수 있습니다. Windows 사용자는 성능을 최적화하기 위해 드라이버를 관리해야합니다.

가상화 지원에서 Linux와 Windows의 주요 차이점은 다음과 같습니다. 1) Linux는 KVM과 Xen을 제공하며, 높은 커스터마이징 환경에 적합한 뛰어난 성능과 유연성을 제공합니다. 2) Windows는 친숙한 인터페이스를 통해 Hyper-V를 통한 가상화를 지원하며 Microsoft 소프트웨어에 의존하는 기업에 적합한 Microsoft Ecosystem과 밀접하게 통합됩니다.

Linux 시스템 관리자의 주요 작업에는 시스템 모니터링 및 성능 조정, 사용자 관리, 소프트웨어 패키지 관리, 보안 관리 및 백업, 문제 해결 및 해상도, 성능 최적화 및 모범 사례가 포함됩니다. 1. 상단, HTOP 및 기타 도구를 사용하여 시스템 성능을 모니터링하고 조정하십시오. 2. 사용자 ADD 명령 및 기타 명령을 통해 사용자 계정 및 권한을 관리합니다. 3. APT 및 YUM을 사용하여 소프트웨어 패키지를 관리하여 시스템 업데이트 및 보안을 보장합니다. 4. 방화벽을 구성하고 로그를 모니터링하고 데이터 백업을 수행하여 시스템 보안을 보장합니다. 5. 로그 분석 및 공구 사용을 통해 문제를 해결하고 해결합니다. 6. 커널 매개 변수 및 응용 프로그램 구성을 최적화하고 모범 사례를 따라 시스템 성능 및 안정성을 향상시킵니다.

Linux를 배우는 것은 어렵지 않습니다. 1.Linux는 UNIX를 기반으로 한 오픈 소스 운영 체제이며 서버, 임베디드 시스템 및 개인용 컴퓨터에서 널리 사용됩니다. 2. 파일 시스템 및 권한 관리 이해가 핵심입니다. 파일 시스템은 계층 적이며 권한에는 읽기, 쓰기 및 실행이 포함됩니다. 3. APT 및 DNF와 같은 패키지 관리 시스템은 소프트웨어 관리를 편리하게 만듭니다. 4. 프로세스 관리는 PS 및 최고 명령을 통해 구현됩니다. 5. MKDIR, CD, Touch 및 Nano와 같은 기본 명령에서 학습을 시작한 다음 쉘 스크립트 및 텍스트 처리와 같은 고급 사용법을 사용해보십시오. 6. 권한 문제와 같은 일반적인 오류는 Sudo 및 CHMod를 통해 해결할 수 있습니다. 7. 성능 최적화 제안에는 HTOP을 사용하여 리소스 모니터링, 불필요한 파일 청소 및 SY 사용이 포함됩니다.

Linux 관리자의 평균 연봉은 미국에서 $ 75,000 ~ $ 95,000, 유럽에서는 40,000 유로에서 60,000 유로입니다. 급여를 늘리려면 다음과 같이 할 수 있습니다. 1. 클라우드 컴퓨팅 및 컨테이너 기술과 같은 새로운 기술을 지속적으로 배울 수 있습니다. 2. 프로젝트 경험을 축적하고 포트폴리오를 설정합니다. 3. 전문 네트워크를 설정하고 네트워크를 확장하십시오.

Linux의 주요 용도에는 다음이 포함됩니다. 1. 서버 운영 체제, 2. 임베디드 시스템, 3. 데스크탑 운영 체제, 4. 개발 및 테스트 환경. Linux는이 분야에서 뛰어나 안정성, 보안 및 효율적인 개발 도구를 제공합니다.

인터넷은 단일 운영 체제에 의존하지 않지만 Linux는 이에 중요한 역할을합니다. Linux는 서버 및 네트워크 장치에서 널리 사용되며 안정성, 보안 및 확장 성으로 인기가 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

WebStorm Mac 버전
유용한 JavaScript 개발 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
