请求的url 数据
http://www.hkex.com.hk/chi/st...
对了我只抓取一张表,希望能够提取关键表的数据.
希望抓取的数据是该成交报表,但是HTML 的标签都是<pre>造成了数据提取的困难。
1 |
|
代號 股票名稱 股數(SH) 金額($) 股數(SH) 金額($)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
1 2 3 4 5 |
|
应该如何提取该表格的数据内容。
ringa_lee2017-04-18 10:20:37
先定位賣空成交量位置a = soup.find('a', attrs={'name':'short_selling'}),然後根據pre->font的相鄰關係,一直往下走直到列不到6行就結束
1 2 3 4 5 6 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
|
黄舟2017-04-18 10:20:37
給你一個方案。
1 2 3 |
|
阿神2017-04-18 10:20:37
幹嘛這麼麻煩用beautifulsoup
,殺雞焉用牛刀
你的網頁只有一行行資料啊,格式簡單的不能再簡單
你直接把頁面上的資料複製下來,保存成txt
,然后用readline
、split
、正規表達式提取資料不就可以了嘛