想深入的学习爬虫相关的技术,哪位前辈给点指点,该学点啥?

2014-08-15 22:16:51 +08:00
 zhangsan
先自我介绍下,做.NET开发4年了,ASP.NET,winfrom都搞过。
一直有个进大公司的梦想,众所周知做c#很难进到大公司工作,加上又是专科毕业。
看了某个稍微大点的公司,只有个爬虫岗位跟c#能沾点边。所以就盯上了这个岗位。
工作这4年也接触过一些抓取的工作,都只是用正则抓一些文章、图片、模拟登录什么的,感觉有些小儿科。

现在想深入、专业的学习下爬虫技术。

求推荐路线、书籍、教程等

同求专科程序员进大公司方法

万分感谢!
3895 次点击
所在节点    问与答
12 条回复
jptanggordon
2014-08-15 22:32:53 +08:00
男神拉扎尔0 0
em70
2014-08-15 22:35:24 +08:00
用尽你的所有办法,去把豆瓣电影,图书数据抓下来,存到数据库里。遇到实在无法逾越的困难再上来问人
Heavytiger
2014-08-15 22:40:20 +08:00
爬虫和采集是一个意思么?怎么都推崇这个呢?
zhangsan
2014-08-15 22:44:42 +08:00
@jptanggordon thk 只是喜欢图上那句话,我还真不知道头像上这是谁。
@em70 变相的技术提升过程,好建议,感谢!这就去抓。



一定是夜深了,也没人来看帖子~
bengol
2014-08-15 22:45:24 +08:00
去百度
zhangsan
2014-08-15 22:46:24 +08:00
@Heavytiger 没有专业的学过,请原谅 概念不清与用词拙略~
MarioLuisGarcia
2014-08-15 22:46:44 +08:00
楼主能整站抓取知乎就牛逼了,上面好多删答案的
binux
2014-08-15 23:02:52 +08:00
学一遍怎么做网站,前后端一起,然后你就会爬了。
zhangsan
2014-08-15 23:07:52 +08:00
@MarioLuisGarcia 之前抓过58,OCR过验证码,但是感觉不是很专业,想专业的学学爬虫。
@binux 网站还是会写点,能写个符合Web标准的页面。
no13bus
2014-08-15 23:26:37 +08:00
@zhangsan 队列服务和定时爬取 这些都做了吗?可以试试celery框架。最近我一直在用。非常棒。
zhangsan
2014-08-15 23:40:43 +08:00
@no13bus 框架还真没用过,任务队列单机版的用消费者模式实现过(.net下异步实现比较简单),分布式的没用过,现在确实想看看分布式的爬虫实现。
iannil
2014-08-16 03:52:39 +08:00
http://v2ex.com/t/127220
之前回答过,楼主移步查看。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/128153

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX