爬虫如何获得biilbili播放数？-php教程-PHP中文網

首頁

後端開發

php教程

爬虫如何获得biilbili播放数？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 17, 2016 am 08:32 AM

countgtltspantitle

  <i id="dianji" title="播放"></i><i id="dm_count" title="弹幕"></i><i id="stow_count" title="收藏"></i><i id="pt"><span class="v_ctimes" title="硬币数量"></span></i>

回复内容：

用av2047063举例，访问下面的网址：【网址已隐去】
@妹空酱提醒我才想起来。。。。
先去自己申请一个appkey。。。在这里：
bilibili - 提示
然后就可以对bilibiliapi为所欲为了。。。。
B站第三方客户端就是这么开发出来的。。。

可以看到最后两个参数id=av号&page=分p
play后面的18253即为播放数。

==============================
b站有公开api啊。。。。。。。那么麻烦干嘛。。。答主的第一次就就交在这里了，，，
———————————————————————————————————————
前不久学习了python，正好复习一下
代码如下：
import re,urllib
page=urllib.urlopen('http://m.acg.tv/video/av2046040.html')
HTML=page.read()
re_times=r'

(.*)

'
result = re.findall(re_times,HTML)
re_title=r'

(.*)

'
title=re.findall(re_title,HTML)
print title[0],'的播放次数为',result[0]

下面以av2046040为例：http://www.bilibili.com/video/av2046040/
可以看到

使用火狐查看选中部分源代码，如下

但是我通过python的urllib模块并没有获取到页面内容：
page=urllib.urlopen('http://www.bilibili.com/video/av2046040/')

于是我转换思路，貌似B站的手机版网页可以，
然后使用火狐的User-Agent Overrider修改浏览器UA为Android FireFox/29

既可以获得如下界面：

获取到页面实际地址后，就可以再次使用火狐查看源代码

既可以写出正则表达式：
re_times=r'

(.*)

'
然后正则匹配就好了。

<span class="c"># encoding=utf8</span>
<span class="c"># author:shell-von</span>

<span class="kn">import</span> <span class="nn">requests</span>
<span class="kn">import</span> <span class="nn">re</span>
<span class="n">aid</span> <span class="o">=</span> <span class="s">'3210612'</span>
<span class="n">api_key</span> <span class="o">=</span> <span class="s">"http://interface.bilibili.com/count?key=27f582250563d5d6b11d6833&aid=</span><span class="si">%s</span><span class="s">"</span>
<span class="n">data</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">api_key</span> <span class="o">%</span> <span class="n">aid</span><span class="p">)</span><span class="o">.</span><span class="n">content</span>
<span class="n">regex</span> <span class="o">=</span> <span class="s">r"\('(?:.|#)([\w_]+)'\)\.html\('?(\d+)'?\)"</span>
<span class="k">print</span> <span class="nb">dict</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">regex</span><span class="p">,</span> <span class="n">data</span><span class="p">))</span>

以前写过一个。。。。

haogefeifei/get_bilibili_anime · GitHub 这是MATLAB的抓取，其中api可以利用Chrome的开发者工具获得：

<span class="n">aid</span> <span class="p">=</span> <span class="mi">3295561</span><span class="p">;</span>
<span class="n">api</span> <span class="p">=</span> <span class="s">'http://interface.bilibili.com/count?key=b9415053057bb00966665eaa'</span><span class="p">;</span>
<span class="n">data</span> <span class="p">=</span> <span class="n">regexp</span><span class="p">(</span><span class="n">webread</span><span class="p">(</span><span class="n">api</span><span class="p">,</span><span class="s">'aid'</span><span class="p">,</span><span class="n">aid</span><span class="p">),</span><span class="s">'#(\w)+\D*(\d)+'</span><span class="p">,</span><span class="s">'tokens'</span><span class="p">);</span>
<span class="n">data</span> <span class="p">=</span> <span class="p">[</span><span class="n">data</span><span class="p">{:}]</span>

说下大概的思路。
0、打开特定的av页面，通过这条语句来找到CID和AID。注意：ctrl + u中能看到的源代码就是能匹配的源代码。
1、发送请求到interface.bilibili.com/player?id=cid:(匹配的CID，要前面的冒号)&aid=(匹配的AID)
2、从获取的xml文件中找到，就是你要的答案了。

=====================================================

实际上，我们ctrl + u看到的页面是网站发给我们的其中一个包而已，而最终的结果页面是网站发给我们的多个包组合的结果。
有时候，网站会将数据封装在json或者xml中，然后通过多个请求获取数据，最后在本地用js来进行最后的构建。
因此，页面上看到的内容是最后的结果，如果你要判断这个结果来自于源页面还是json还是xml，就需要通过开发者工具抓抓包，然后自己分析。

总之，逻辑就是：
0、这个数据哪来的？ —— 通过抓包分析
1、模拟获取这个数据的过程。 —— 直接访问该数据的来源url

当然还要注意你要传的参数。这个参数从哪些地方获取也需要自己分析。

====================================================

还是举个例子吧。

注意：B站发回的数据是gzip，然而urllib2的urlopen不会自动解压，需要手动处理。
可以参考这个回答：
Does python urllib2 automatically uncompress gzip data fetched from webpage?

随便在首页找了个页面，地址如下：
【爱深黑切】路人女主的玩坏方法~第一弹

import urllib2
import re
from StringIO import StringIO
import gzip

def find_cid_aid(html):
    target = re.compile('EmbedPlayer(?P<args>.*?)</script>',re.DOTALL)
    cidaid = target.search(html)
    cidaid = html[cidaid.start('args'):cidaid.end('args')]
    cid = cidaid.find('cid=')
    aid = cidaid.find('&aid=')
    index = aid
    while cidaid[index] != '"':
        index += 1
    return (cidaid[cid + 4:aid],cidaid[aid + 5:index])

def find_how_many(cid_aid):
    target = re.compile(r'<click>(?P<result>.*?)</click>',re.DOTALL)
    cid = cid_aid[0]
    aid = cid_aid[1]
    addr = r'http://interface.bilibili.com/player?id=cid:' + cid + '&aid=' + aid
    f = urllib2.urlopen(addr)
    res = f.read()
    target = target.search(res)
    return res[target.start('result'):target.end('result')]

headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', \
           'Accept-Language':'zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3', \
           'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0) Gecko/20100101 Firefox/28.0',\
           'Host':'www.bilibili.com', \
           'Accept-Encoding':'gzip, deflate', \
           'Cache-Control':'max-age=0', \
           'Connection':'keep-alive'}

request = urllib2.Request(r'http://www.bilibili.com/video/av2046145/', headers=headers)

html = urllib2.urlopen(request)

if html.info().get('Content-Encoding') == 'gzip':
    buf = StringIO(html.read())
    f = gzip.GzipFile(fileobj=buf)
    html = f.read()

cid_aid = find_cid_aid(html)
print find_how_many(cid_aid)

获取cid aid请求http://interface.bilibili.com/player
什么东西抓抓包就知道了

比如说如图一样的懒人眼镜，你懂的~~这里的源码直接可以直接用正则匹配到cid和aid,

cid=1511100&aid=1044050

然后请求

http://interface.bilibili.com/player?id=cid:1511100&aid=1044050

然后被包围的就是播放数了

<click>4611</click>

你在电脑屏幕上面看到的一切都是数据来着啊。B站的网页也只不过是一堆代码而已。稍微获取一下源代码，解gzip压缩，转换一下编码，正则表达式搜索一下，就能出来了，很简单的。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP：服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言，用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言，無需編譯，適合快速開發。 2.PHP代碼嵌入HTML中，易於網頁開發。 3.PHP處理服務器端邏輯，生成HTML輸出，支持用戶交互和數據處理。 4.PHP可與數據庫交互，處理表單提交，執行服務器端任務。

PHP和網絡：探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡，並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年，因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成，使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響，但也面臨版本更新和安全性挑戰。 4)近年來的性能改進，如PHP7的發布，使其能與現代語言競爭。 5)未來，PHP需應對容器化、微服務等新挑戰，但其靈活性和活躍社區使其具備適應能力。

為什麼要使用PHP？解釋的優點和好處Apr 16, 2025 am 12:16 AM

PHP的核心優勢包括易於學習、強大的web開發支持、豐富的庫和框架、高性能和可擴展性、跨平台兼容性以及成本效益高。 1)易於學習和使用，適合初學者；2)與web服務器集成好，支持多種數據庫；3)擁有如Laravel等強大框架；4)通過優化可實現高性能；5)支持多種操作系統；6)開源，降低開發成本。

揭穿神話：PHP真的是一種死語嗎？Apr 16, 2025 am 12:15 AM

PHP沒有死。 1)PHP社區積極解決性能和安全問題，PHP7.x提升了性能。 2)PHP適合現代Web開發，廣泛用於大型網站。 3)PHP易學且服務器表現出色，但類型系統不如靜態語言嚴格。 4)PHP在內容管理和電商領域仍重要，生態系統不斷進化。 5)通過OPcache和APC等優化性能，使用OOP和設計模式提升代碼質量。

PHP與Python辯論：哪個更好？Apr 16, 2025 am 12:03 AM

PHP和Python各有優劣，選擇取決於項目需求。 1)PHP適合Web開發，易學，社區資源豐富，但語法不夠現代，性能和安全性需注意。 2)Python適用於數據科學和機器學習，語法簡潔，易學，但執行速度和內存管理有瓶頸。

PHP的目的：構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站，其核心功能包括：1.生成動態內容，通過與數據庫對接實時生成網頁；2.處理用戶交互和表單提交，驗證輸入並響應操作；3.管理會話和用戶認證，提供個性化體驗；4.優化性能和遵循最佳實踐，提升網站效率和安全性。

PHP：處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互，並通過會話管理等功能處理服務器端邏輯。 1）使用MySQLi或PDO連接數據庫，執行SQL查詢。 2）通過會話管理等功能處理HTTP請求和用戶狀態。 3）使用事務確保數據庫操作的原子性。 4）防止SQL注入，使用異常處理和關閉連接來調試。 5）通過索引和緩存優化性能，編寫可讀性高的代碼並進行錯誤處理。