使用Python爬取B站全站视频信息-LINUX-PHP中文网

首页

系统教程

LINUX

使用Python爬取B站全站视频信息

王林

Feb 19, 2024 pm 11:45 PM

linuxlinux教程红帽linux系统linux命令linux认证红帽linuxlinux视频

B站我想大家都熟悉吧，其实 B 站的爬虫网上一搜一大堆。不过纸上得来终觉浅，绝知此事要躬行，我码故我在。最终爬取到数据总量为 760万 条。

准备工作

首先打开 B 站，随便在首页找一个视频点击进去。常规操作，打开开发者工具。这次是目标是通过爬取 B 站提供的 api 来获取视频信息，不去解析网页，解析网页的速度太慢了而且容易被封 ip。

勾选 JS 选项，F5 刷新

使用Python爬取B站全站视频信息

找到了 api 的地址

使用Python爬取B站全站视频信息

复制下来，去除没必要的内容，得到https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用浏览器打开，会得到如下的 json 数据

使用Python爬取B站全站视频信息

动手写码

好了，到这里代码就可以码起来了，通过 request 不断的迭代获取数据，为了让爬虫更高效，可以利用多线程。

核心代码

使用Python爬取B站全站视频信息

迭代爬取

使用Python爬取B站全站视频信息

整个项目的最主要部分的代码也就是 20 行左右，挺简洁的。

运行的效果大概是这样的，数字是已经已经爬取了多少条链接，其实完全可以在一天或者两天内就把全站信息爬完的。

使用Python爬取B站全站视频信息

至于爬取后要怎么处理就看自己爱好了，我是先保存为 csv 文件，然后再汇总插入到数据库。

数据库表

使用Python爬取B站全站视频信息

由于这些内容是我在几个月前爬取的，所以数据其实有些滞后了。

数据总量

使用Python爬取B站全站视频信息

查询播放量前十的视频

使用Python爬取B站全站视频信息

查询回复量前十的视频

使用Python爬取B站全站视频信息

以上是使用Python爬取B站全站视频信息的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：Linux就该这么学。如有侵权，请联系admin@php.cn删除

比较和对比Linux和Windows的安全模型。Apr 24, 2025 am 12:03 AM

Linux和Windows的安全模型各有优势。Linux提供灵活性和可定制性，通过用户权限、文件系统权限和SELinux/AppArmor实现安全。Windows则注重用户友好性，依赖WindowsDefender、UAC、防火墙和BitLocker保障安全。

Linux和Windows之间的硬件兼容性有何不同？Apr 23, 2025 am 12:15 AM

Linux和Windows在硬件兼容性上不同：Windows有广泛的驱动程序支持，Linux依赖社区和厂商。解决Linux兼容性问题可通过手动编译驱动，如克隆RTL8188EU驱动仓库、编译和安装；Windows用户需管理驱动程序以优化性能。

Linux和Windows之间虚拟化支持有哪些差异？Apr 22, 2025 pm 06:09 PM

Linux和Windows在虚拟化支持上的主要区别在于：1)Linux提供KVM和Xen，性能和灵活性突出，适合高定制环境；2)Windows通过Hyper-V支持虚拟化，界面友好，与Microsoft生态系统紧密集成，适合依赖Microsoft软件的企业。

Linux系统管理员的主要任务是什么？Apr 19, 2025 am 12:23 AM

Linux系统管理员的主要任务包括系统监控与性能调优、用户管理、软件包管理、安全管理与备份、故障排查与解决、性能优化与最佳实践。1.使用top、htop等工具监控系统性能，并进行调优。2.通过useradd等命令管理用户账户和权限。3.利用apt、yum管理软件包，确保系统更新和安全。4.配置防火墙、监控日志、进行数据备份以确保系统安全。5.通过日志分析和工具使用进行故障排查和解决。6.优化内核参数和应用配置，遵循最佳实践提升系统性能和稳定性。

很难学习Linux吗？Apr 18, 2025 am 12:23 AM

学习Linux并不难。1.Linux是一个开源操作系统，基于Unix，广泛应用于服务器、嵌入式系统和个人电脑。2.理解文件系统和权限管理是关键，文件系统是层次化的，权限包括读、写和执行。3.包管理系统如apt和dnf使得软件管理方便。4.进程管理通过ps和top命令实现。5.从基本命令如mkdir、cd、touch和nano开始学习，再尝试高级用法如shell脚本和文本处理。6.常见错误如权限问题可以通过sudo和chmod解决。7.性能优化建议包括使用htop监控资源、清理不必要文件和使用sy