如何清理爬虫数据中一些不需要的 HTML 属性

2018-04-08 11:46:16 +08:00

jayan2358

比如对于以下数据

<p id="a">data</p>

我只想保留

<p>data</p>

该如何操作，有快捷的方法吗？

4190 次点击

所在节点

10 条回复

xgzxy

2018-04-08 11:53:10 +08:00

用 text()提取出文本吧，就能取出 data 了吧

sheep3

2018-04-08 12:02:59 +08:00

直接正则 replaceAll("<\S+\s(.*?)>","")
唔..... 大概有这种语法吧.....

Daniel65536

2018-04-08 12:17:15 +08:00

lxml.html.clean

hanxiV2EX

2018-04-08 12:19:54 +08:00

二楼的正则可以搞定吧

woscaizi

2018-04-08 12:48:55 +08:00

Xpath 语法可解

rayhy

2018-04-08 14:48:29 +08:00

jayan2358

2018-04-08 16:49:41 +08:00

@woscaizi
/text() 吗，我还是要保留 html 标签的，毕竟内容里有 img

Luckyray

2018-04-08 16:58:36 +08:00

为什么要保留 html 文件？保存下来想要的数据不行吗

qsnow6

2018-04-08 22:14:25 +08:00

soulmine

2018-04-09 10:22:56 +08:00

@jayan2358 你要 img 直接 attr 取嘛和你 text 不矛盾啊

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.