python爬数据，得到一个列表，但怎样去掉里面的span标签呢？

Question

用p6ython3.6爬下了部分数据，但是最后显示的是含span标签的列表，当我用get_text、contents等方法，就会报错。这是为什么呢？
最开始返回的结果如下：

仅有的幸福 · Answer

bs的API记得不是很清楚了，应该是有可以直接获取文本的函数的,应该是get_text()这个函数吧。由于你用的是find_all(),那么需要再在返回的结果下做一次遍历，就是这样

rs = list()
for data in soup.find("p",{"class":"list-main-eventset-finan"}).find_all("li"):
    contents=data.find("i",{"class":"cell date"}).find_all("span")
    for content in contents:
        rs.append(content.get_text())

此外，也可以使用正则表达式来匹配，直接匹配(.*?)<这个pattern。但是也得像上面那样遍历这个contens列表才行。

phpcn_u1582 · Answer

题主可以试试 text_content() 方法

ringa_lee · Answer

正则表达式或者split+SUBSTRING也可以，灵活着用

python爬数据，得到一个列表，但怎样去掉里面的span标签呢？

全部回复(3)我来回复