第二篇爬虫文章来了,只不过是前传

2017-04-02 15:05:28 +08:00
 wisefree

第一篇: https://www.v2ex.com/t/351900

第二篇: http://www.jianshu.com/p/b3bc88ffb251 爬虫中的正则表达式( re )—前传

这篇文章只是一个开头,希望通过这篇文章收集大家的建议

  1. 大家认为好的资料( github 上的,自己写的,你认为写的比较好的博客....都行)

我可以把推荐的资料放在文末的参考资料中或者直接写在正文中,当然会推荐者署名

  1. 大家对这篇文章的建议,应该怎么写比较好,欢迎大家提建议

  2. 欢迎投稿,;)

3786 次点击
所在节点    Python
20 条回复
WildCat
2017-04-02 15:23:27 +08:00
期待代理池的文章!
wisefree
2017-04-02 15:28:58 +08:00
@WildCat 正则写完就写代理池。当然还要看正则这篇文章的反馈情况,:)
Merlini
2017-04-02 15:51:26 +08:00
期待并发和代理池
zjhui
2017-04-02 16:00:32 +08:00
同期待代理池
jimmy66
2017-04-02 16:02:45 +08:00
期待代理池+1
wisefree
2017-04-02 17:38:31 +08:00
@Merlini 嗯,等我写完正则。。。或者可以投稿把正则这个坎绕过去
wisefree
2017-04-02 17:38:37 +08:00
@zjhui 等我写完正则。。。或者可以投稿把正则这个坎绕过去
wisefree
2017-04-02 17:39:13 +08:00
@jimmy66 好的,我会根据反馈情况不断修正文章的更新进度
dsg001
2017-04-02 19:54:34 +08:00
期待代理池+1
demonchang
2017-04-02 20:07:50 +08:00
代理池等待中
wisefree
2017-04-02 22:44:16 +08:00
@dsg001
@demonchang
嗯,这个等我慢慢跳坑
欢迎投稿
UnisandK
2017-04-02 22:47:20 +08:00
看大家期望这么高你要不先把代理池写了(逃
wisefree
2017-04-03 07:46:45 +08:00
@UnisandK 这个很难做到,文章不能大跃进啊(摊手
wisefree
2017-04-03 07:53:40 +08:00
代理池构建的思路是:
1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行

2. 检查是否为高匿代理,为了加快检查速度,采取多进程

3. 加上高匿代理,进行爬虫

所以,正则是基础,多进程也很重要(多线程也行)

大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:)

我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:)

(当然主要是因为,我要写毕业论文....还有....找工作...)
wisefree
2017-04-03 10:31:58 +08:00
补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效
prasanta
2017-04-04 13:29:13 +08:00
如何高效获取一手 ip 代理,而不是从别人网站上爬,题主有思路么
wisefree
2017-04-04 14:54:58 +08:00
@prasanta 这个还真没思路。可能只有花钱买吧
saxon
2017-04-04 15:11:41 +08:00
最好详细讲解一下 并发原理...
pycon2015 上讲的就不错
不然新人看了 还是一头雾水
wisefree
2017-04-04 15:57:10 +08:00
@saxon 谢谢建议。文章中不涉及基础原理,只讲实战部分。主要原因是原理部分我真的讲不好。

如果有并发原理的好文章,欢迎投稿,:)
yxisen
2017-04-06 22:37:02 +08:00
期待数据入库 0.0

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/352150

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX