开始在简书上写 Python 爬虫系列文章

2017-04-01 09:34:57 +08:00
 wisefree

第一篇: http://www.jianshu.com/p/11d7da95c3ca

这一系列文章不写复杂的爬虫,而是将复杂的爬虫涉及到的核心知识点写清楚

  1. 代理池(高匿)

  2. 多进程

  3. 正则表达式

  4. 数据库

  5. selenuim

  6. 手机抓包

  7. ....

希望 V 友能提提建议,能投稿就更好了

11289 次点击
所在节点    Python
82 条回复
creatorYC
2017-04-23 16:09:22 +08:00
我想问问为什么我写的爬虫运行一段时间就会报 requests.exceptions.ConnectionError: ('Connection aborted.', BadStatusLine("''",)),用的 python 和 requests 库,我没有使用多线程,在请求之前都添加了 time.sleep(0.5) ,按说不至于请求太频繁啊,请问这个问题该怎么解决啊!谢谢了
wisefree
2017-04-23 22:43:30 +08:00
@creatorYC 我没有遇到过这样的问题,不知道你 google 没有,你的问题在 stackoverflow 有几个问答,你尝试一下。

还有, time.sleep(0.5) 还真谈不上有多保险,这个不同的网站都不一样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/351900

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX