python - 请教2个BeautifulSoup匹配豆瓣top250电影的优雅实现？

豆瓣top250电影的链接

<p class="info">
  <p class="hd">
    <a href="https://movie.douban.com/subject/1292052/" class="">
    <span class="title">肖申克的救赎</span>
    <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
    <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
    </a>

</p>

<p class="bd">
  <p class="">
    导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins<br>
    1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
  </p>
</p>

网页的dom一般都是以这样的形式排列的，想请教两点：

以电影名来说，有两个标签的class都是title，我这种原始方法会匹配两个title，有什么方法可以只匹配第一个中文title呢？

titles = soup.find_all(name='span', attrs={'class': 'title'})

导演和主演栏目<p>标签的class为空，请问beautifulsoup中有什么方法可以匹配到这个标签内的内容呢？

补充

下面这种实现并不行，因为豆瓣一个页面的话有25个电影，有40多个这样的title标签，没有50个的原因是国产电影没有英文名只有一个title

titles = soup.find_all(name='span', attrs={'class': 'title'})[0].text

如果它有50个标签还好，我可以通过列表推倒式来排除偶数的title的标签，但是国产电影没有英文名，它只会有一个title标签，所以这种实现并不完美。

[title for index, title in enumerate(titles) if index % 2 == 0]

大家讲道理2803日前941

python - 请教2个BeautifulSoup匹配豆瓣top250电影的优雅实现？

补充

全員に返信(2)返信します