开始在简书上写 Python 爬虫系列文章

2017-04-01 09:34:57 +08:00
 wisefree

第一篇: http://www.jianshu.com/p/11d7da95c3ca

这一系列文章不写复杂的爬虫,而是将复杂的爬虫涉及到的核心知识点写清楚

  1. 代理池(高匿)

  2. 多进程

  3. 正则表达式

  4. 数据库

  5. selenuim

  6. 手机抓包

  7. ....

希望 V 友能提提建议,能投稿就更好了

11289 次点击
所在节点    Python
82 条回复
cheese
2017-04-01 16:15:03 +08:00
@wisefree 哈哈哈,没想到还有这个待遇,不过链接还是去了吧。毕竟我不是做技术的,保留我的用户名让我得瑟下
wisefree
2017-04-01 16:17:22 +08:00
@cheese 好的,已经 ok 了。多交流哈,欢迎投稿,哈哈
kancloud
2017-04-01 18:34:35 +08:00
@wisefree 如果你是多人团队写作的话 看云肯定比简书方便 都是 MD 啊 另外 看云支持付费阅读哦 ^_^
wisefree
2017-04-01 19:34:28 +08:00
@kancloud 好的,我会关注这个平台的,:)
wisefree
2017-04-01 19:40:35 +08:00
刚看到一个 V 友也在写爬虫文章,选择的平台也是简书。(在 Python 这个节点靠前的位置)

他是从零入门的,而我这个不是从零入门的,基础知不会讲到。想想还,真是有缘,哈哈
fffflyfish
2017-04-01 19:50:29 +08:00
爬动态网站的方法不只有使用 webkit 这种傻瓜式的方法,还可以用抓包的方法
kingcos
2017-04-01 20:01:41 +08:00
可以啊!!!支持楼主!!!已关注!!!👍👍👍
wisefree
2017-04-01 20:06:12 +08:00
@fffflyfish 有文章讲讲这方面的知识吗?
同时欢迎 V 友投稿
wisefree
2017-04-01 20:06:57 +08:00
@kingcos 谢谢,真的欢迎投稿,感觉自己挖了个大坑
wellhome
2017-04-01 21:47:36 +08:00
@wisefree 感谢分享,请教一下
如何确保程序连续运行?另外写一个监控进程?
另外是多线程釆集还是就一个进程?
wisefree
2017-04-01 22:48:02 +08:00
@wellhome 不用客气的,欢迎交流

保证程序连续运行,是什么情况?能描述一个具体的实例么?

我使用的是多进程
mingyun
2017-04-01 23:19:07 +08:00
文末的头像很赞,基于 wordcloud 吗
wisefree
2017-04-01 23:26:52 +08:00
@mingyun 果然也是老司机。确实是用 wordcloud 做的
yxisen
2017-04-02 01:20:50 +08:00
Mark 一下。
wellhome
2017-04-02 08:03:10 +08:00
@wisefree 比如你应该是放后跑爬虫程的吧?有没有遇到因为各种原因跑着跑着退出了? 然后有另外一个进程监控一下?
wisefree
2017-04-02 08:16:23 +08:00
@wellhome 好问题!
爬取网页多的情况下,并不知道会出现什么样的异常,除非对网站十分熟悉。那么换一种思路,按绝大多数的正常网页来编写爬虫程序,其余的用 try except 处理。

最后对极少数的异常网页,做特殊处理。

这是我的思路,欢迎交流

(如果楼主愿意写些爬虫文章,欢迎投稿哈)
onelove
2017-04-02 12:42:07 +08:00
太好了,正在学习爬虫。
AkiseAru
2017-04-02 14:03:03 +08:00
在学 py2.7 _(:3 」∠)_
wisefree
2017-04-02 15:06:01 +08:00
@onelove 哈哈,赶紧写了第二篇, https://www.v2ex.com/t/352150
wisefree
2017-04-02 15:06:33 +08:00
@AkiseAru 差不多的,有 Python 基础就可以看,刚刚发布了第二篇, https://www.v2ex.com/t/352150

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/351900

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX