如何清理爬虫数据中一些不需要的 HTML 属性

2018-04-08 11:46:16 +08:00
 jayan2358

比如对于以下数据

<p id="a">data</p>

我只想保留

<p>data</p>

该如何操作,有快捷的方法吗?

4190 次点击
所在节点    Python
10 条回复
xgzxy
2018-04-08 11:53:10 +08:00
用 text()提取出文本吧,就能取出 data 了吧
sheep3
2018-04-08 12:02:59 +08:00
直接正则 replaceAll("<\S+\s(.*?)>","")
唔..... 大概有这种语法吧.....
Daniel65536
2018-04-08 12:17:15 +08:00
lxml.html.clean
hanxiV2EX
2018-04-08 12:19:54 +08:00
二楼的正则可以搞定吧
woscaizi
2018-04-08 12:48:55 +08:00
Xpath 语法可解
rayhy
2018-04-08 14:48:29 +08:00
jayan2358
2018-04-08 16:49:41 +08:00
@woscaizi
/text() 吗,我还是要保留 html 标签的,毕竟内容里有 img
Luckyray
2018-04-08 16:58:36 +08:00
为什么要保留 html 文件?保存下来想要的数据不行吗
qsnow6
2018-04-08 22:14:25 +08:00
都让开,看我这个贴: https://www.v2ex.com/t/342064#reply12
soulmine
2018-04-09 10:22:56 +08:00
@jayan2358 你要 img 直接 attr 取嘛 和你 text 不矛盾啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/445015

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX