Beautifulsoup 如何过滤出换行、空行以及空格和中文空格

2016-03-27 19:16:59 +08:00
 dsp2138
Beautifulsoup 如何过滤出换行、空行以及空格和中文空格!
请教,对于 html 中存在很多空行,空格的处理问题!
很多文章是存 word 中直接复制到到网页上的,对于这种方式编辑的 html 结构可能比较混乱!
如何净化或者说格式化这种 html !
快速过滤出换行符、空格、中文空格等

对于正则已经简单写处理方法,凑合能用

def del_content_blank(s):
clean_str = re.sub(r'\n|&nbsp|\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020', '', str(s))
return clean_str

但 Beautifulsoup 中对于换行是作为一个子节点解析的!那我怎么才能用 Beautifulsoup 模块过滤换行、空行以及空格和中文空格?这个问题请假大家,谢谢
13079 次点击
所在节点    Python
5 条回复
dsp2138
2016-03-27 19:36:17 +08:00

没人给解答下吗
qiu0130
2016-03-27 21:31:17 +08:00
dsp2138
2016-03-27 22:36:48 +08:00
@qiu0130 谢谢, github 我这里访问受限!
我先尝试下.stripped_strings
xj90512
2016-03-28 10:49:42 +08:00
.replace
dsp2138
2016-03-28 13:32:35 +08:00
@xj90512 单就去除空格之类的字符应该可以,但如想保留 html 标签,该怎么做?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/266682

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX