使用 Python 写了爬虫,总是因为未知原因意外停止

2017-03-16 13:35:30 +08:00
 klxq15
用 python 写了一个爬虫,就是简单的网页抓取,在运行一天左右后就自己停了,没有出错信息。在 google 一番后看到某个人说因为调试输出过多(也就是 print 函数)导致缓冲区溢出,所以意外停止。问一下大家有可能是这个问题吗?看大家写了那么多爬虫一直 print 也没有这种情况啊。
2703 次点击
所在节点    Python
8 条回复
nyanyh
2017-03-16 13:41:44 +08:00
流程里多打几次 log 就能看出问题了
CosimoZi
2017-03-16 13:42:19 +08:00
不要 print,用 logging 模块
LeeSeoung
2017-03-16 14:06:06 +08:00
把所有 print 注释掉再跑一遍不就知道是不是了。。
ic2y
2017-03-16 14:08:58 +08:00
我给你说一个可能的原因。。我当初是碰到 这种情况了。。当时我的爬虫,爬到了有人分享的 Android 开发工具包。。好几个 G 的文件。。爬虫没做判断,自己在那里下载,崩掉了。 。你做做 log ,然后多考虑特殊情况。捕捉 Exception
SunnyFeng
2017-03-16 19:03:28 +08:00
放弃 print , 学习一下怎么用 log 吧,设计良好的 log 比用完就删的 print 有用得多。
klxq15
2017-03-16 19:21:52 +08:00
谢谢大家都回答,目前已经删除 print 输出调试,正在测试是不是这方面的问题,也准备从 print 转向 log
julyclyde
2017-03-16 20:38:31 +08:00
如果是这个原因的话,你把内容 print 到哪儿去了?
dangyuluo
2017-03-17 06:16:40 +08:00
logstash 非常好用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/347898

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX