用 BeautifulSoup,如何过滤某些标签 比如我想对 “ </p>, <p data-page-model="text"> ”这个进行过滤

2017-01-05 16:12:58 +08:00
 ten
2557 次点击
所在节点    Python
2 条回复
JohnDHH
2017-01-06 10:05:14 +08:00
In [1]: from bs4 import BeautifulSoup

In [2]: soup = BeautifulSoup('''<p data-page-model="text">a</p>\n <p data-page="text">b</p>''', "html.parser")

In [3]: soup.find_all("p", attrs={'data-page-model':'text'})
Out[3]: [<p data-page-model="text">a</p>]

In [4]: soup.find_all("p", attrs={'data-page':'text'})
Out[4]: [<p data-page="text">b</p>]
mymusise
2017-01-06 22:16:04 +08:00
提前把 html document replace 一下?
html.replace('</p>, <p data-page-model="text">','')

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/332438

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX