찾다
시스템 튜토리얼리눅스Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

Feb 19, 2024 pm 11:45 PM
linux리눅스 튜토리얼레드햇리눅스 시스템리눅스 명령리눅스 인증빨간 모자 리눅스리눅스 비디오

스테이션B는 다들 잘 아실 거라 생각합니다. 사실 스테이션B 크롤러 홈페이지에는 검색량이 많이 나오더라구요. 하지만 종이에서 읽은 내용은 결국 얕고, 자세하게 해야 한다는 걸 확실히 알기에 여기까지 왔습니다. 결국 크롤링된 데이터의 총량은 760만 이었습니다.

준비

먼저 스테이션 B를 열고, 홈페이지에서 영상을 찾아 클릭해주세요. 정상적인 작동을 위해서는 개발자 도구를 엽니다. 이번에는 웹페이지를 파싱하지 않고 스테이션 B에서 제공하는 API를 크롤링해 영상정보를 얻는 것이 목표다. 웹페이지 파싱 속도가 너무 느리고 IP 주소가 쉽게 차단된다.

JS 옵션을 확인하고 F5를 눌러 새로고침하세요

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

API 주소를 찾았습니다

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

복사해서 불필요한 내용을 제거하고 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633을 받으세요. 브라우저로 열면 다음과 같은 json 데이터를 얻을 수 있습니다

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

실습 코딩

자, 이제 코드를 코딩할 수 있습니다. 요청을 통한 지속적인 반복을 통해 데이터를 얻습니다. 크롤러를 더욱 효율적으로 만들기 위해 멀티스레딩을 사용할 수 있습니다.

핵심 코드

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

반복 크롤링

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

전체 프로젝트에서 가장 중요한 부분은 약 20줄의 코드로 매우 간결합니다.

실행 효과는 대략 이렇습니다. 숫자는 얼마나 많은 링크가 크롤링되었는지를 나타냅니다. 실제로 전체 사이트 정보는 하루 또는 이틀 만에 크롤링될 수 있습니다.

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

크롤링 후 처리 방법은 사용자의 취향에 따라 먼저 csv 파일로 저장한 후 요약하여 데이터베이스에 삽입합니다.

데이터베이스 테이블

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

몇 달 전에 이 콘텐츠를 크롤링한 이후로 데이터가 실제로 약간 뒤쳐져 있습니다.

총 데이터량

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

가장 많이 재생된 동영상 상위 10개를 확인하세요

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

답글이 가장 많은 상위 10개 동영상을 확인하세요

Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.

위 내용은 Python을 사용하여 B 스테이션의 전체 비디오 정보를 크롤링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 Linux就该这么学에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Linux는 실제로 좋은 것은 무엇입니까?Linux는 실제로 좋은 것은 무엇입니까?Apr 12, 2025 am 12:20 AM

Linux는 서버, 개발 환경 및 임베디드 시스템에 적합합니다. 1. 서버 운영 체제로서 Linux는 안정적이고 효율적이며 종종 고 대전성 애플리케이션을 배포하는 데 사용됩니다. 2. 개발 환경으로서 Linux는 효율적인 명령 줄 도구 및 패키지 관리 시스템을 제공하여 개발 효율성을 향상시킵니다. 3. 임베디드 시스템에서 Linux는 가볍고 사용자 정의 가능하며 자원이 제한된 환경에 적합합니다.

Linux에서 윤리적 해킹을 마스터하기위한 필수 도구 및 프레임 워크Linux에서 윤리적 해킹을 마스터하기위한 필수 도구 및 프레임 워크Apr 11, 2025 am 09:11 AM

소개 : Linux 기반의 윤리적 해킹으로 디지털 프론티어 보안 점점 더 상호 연결된 세상에서 사이버 보안이 가장 중요합니다. 윤리적 해킹 및 침투 테스트는 취약점을 적극적으로 식별하고 완화하는 데 필수적입니다.

Linux 기본 사항을 배우는 방법?Linux 기본 사항을 배우는 방법?Apr 10, 2025 am 09:32 AM

기본 Linux 학습 방법은 다음과 같습니다. 1. 파일 시스템 및 명령 줄 인터페이스 이해, 2. LS, CD, MKDIR, 3. 파일 생성 및 편집과 같은 파일 작업 배우기, 4. 파이프 라인 및 GREP 명령과 같은 고급 사용법, 5. 연습 및 탐색을 통해 지속적으로 기술을 향상시킵니다.

Linux를 가장 많이 사용하는 것은 무엇입니까?Linux를 가장 많이 사용하는 것은 무엇입니까?Apr 09, 2025 am 12:02 AM

Linux는 서버, 임베디드 시스템 및 데스크탑 환경에서 널리 사용됩니다. 1) 서버 필드에서 Linux는 안정성 및 보안으로 인해 웹 사이트, 데이터베이스 및 응용 프로그램을 호스팅하기에 이상적인 선택이되었습니다. 2) 임베디드 시스템에서 Linux는 높은 사용자 정의 및 효율성으로 인기가 있습니다. 3) 데스크탑 환경에서 Linux는 다양한 사용자의 요구를 충족시키기 위해 다양한 데스크탑 환경을 제공합니다.

리눅스의 단점은 무엇입니까?리눅스의 단점은 무엇입니까?Apr 08, 2025 am 12:01 AM

Linux의 단점에는 사용자 경험, 소프트웨어 호환성, 하드웨어 지원 및 학습 곡선이 포함됩니다. 1. 사용자 경험은 Windows 또는 MacOS만큼 친절하지 않으며 명령 줄 인터페이스에 의존합니다. 2. 소프트웨어 호환성은 다른 시스템만큼 좋지 않으며 많은 상용 소프트웨어의 기본 버전이 부족합니다. 3. 하드웨어 지원은 Windows만큼 포괄적이지 않으며 드라이버를 수동으로 컴파일 할 수 있습니다. 4. 학습 곡선은 가파르고 명령 줄 운영을 마스터하는 데 시간과 인내가 필요합니다.

Linux는 배우기가 어렵습니까?Linux는 배우기가 어렵습니까?Apr 07, 2025 am 12:01 AM

LinuxisNothardTolearn, ButtheDifficulturedsonyourbackground 및 Ggoals.forthosewithoSexperience, 특히 Command-linefamiliarity, BeginnersMayFaceAsTeeperLearneLearneCURVEBUTCANMANAGEWITHPROPERSORCES.LINUX'SOURCENATURY, BAS

Linux의 5 가지 기본 구성 요소는 무엇입니까?Linux의 5 가지 기본 구성 요소는 무엇입니까?Apr 06, 2025 am 12:05 AM

Linux의 5 가지 기본 구성 요소는 다음과 같습니다. 1. 커널, 하드웨어 리소스 관리; 2. 기능과 서비스를 제공하는 시스템 라이브러리; 3. 쉘, 사용자가 시스템과 상호 작용할 수있는 인터페이스; 4. 파일 시스템, 데이터 저장 및 구성; 5. 시스템 리소스를 사용하여 기능을 구현합니다.

우분투 홈 자동화 : 오픈 소스 도구가있는 스마트 생활 공간 구축우분투 홈 자동화 : 오픈 소스 도구가있는 스마트 생활 공간 구축Apr 05, 2025 am 09:19 AM

Smart Home에서 새로운 챕터 열기 : Ubuntu를 기반으로 한 오픈 소스 홈 자동화 시스템 Smart Home Technology는 우리가 생활 공간과 상호 작용하는 방식에 혁명을 일으켜 일상 생활에 편리함, 안전 및 에너지 효율성을 제공했습니다. 조명 및 기기의 원격 제어에서 보안 카메라 및 자동 기후 제어 모니터링에 이르기까지 Smart Home 기술은 점점 인기를 얻고 있습니다. 그러나 많은 비즈니스 스마트 홈 시스템에는 높은 비용, 개인 정보 보호 문제 및 제한성 호환성이 있습니다. 다행히 오픈 소스 소프트웨어 솔루션은 Ubuntu의 힘을 결합하여 대안을 제공하여 사용자가 사용자 정의 가능하고 비용 효율적이며 안전한 스마트 홈 생태계를 만들 수 있습니다. 이 안내서는 우분투 및 오픈 소스 도구를 사용하여 홈 자동화 시스템을 설정하는 방법을 살펴 봅니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경