为什么爬虫获取的文本带有格式?

2015-05-24 11:31:31 +08:00
 cc7756789
其中 question.title() 是一个爬虫爬取html获得标题的结果。
但是为什么自动有格式,而且我也没有发现带有换行符之类的, 甚至试过替换掉html标签,但也没有发现html标签。以前爬虫的学习仅限于普通的功能,忽略了这些问题,但是如今想实现更多的功能,不清楚为什么会出现这种情况。
而且截取下来的标题,内容等统统都带有格式,搞得很多空行很不好看,可是没发现任何换行符之类的。
```
a = os.path.split('/home/path/')
if a[1] == '':
a = a[0] + '/' + re.sub('<[^>]+>','',str(question.title())) + '.txt'
print a
```

结果
```
/home/path/

做寿司需要厨师哪方面的功夫?

.txt
```
questions.title()获取到的标题文本,中间自动带空行,如何让其变成普通的无格式字符串?
变成 /home/path/做寿司需要厨师哪方面的功夫?.txt
2295 次点击
所在节点    Python
1 条回复
cc7756789
2015-05-24 11:47:42 +08:00
额,原来是因为空格, 只需要用 s.strip()去掉空格就可以了。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/193322

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX