有什么关于爬虫比较好的入门教程吗?

2019-02-27 17:04:45 +08:00
 xiaozaiziwyt
某东上看了一些比较火的爬虫实战的书,发现不是一堆安装就是教程过时……
看得我是各种头疼,浪费生命。
有没有新一些的,可操作性强的呀。
新手入门求推荐。。。
4779 次点击
所在节点    Python
39 条回复
huruwo
2019-02-27 17:20:11 +08:00
开发环境的安装过程是必须的,你要是已经安装了就跳过前几章不就行了吗。
xiaozaiziwyt
2019-02-27 17:26:48 +08:00
@huruwo 其实环境已经安装好了,我的意思是资料有些过时了,好多代码跑不起来……
redglede
2019-02-27 17:28:54 +08:00
视频网课不好吗
BlackPineappo
2019-02-27 17:31:18 +08:00
掘金和简书上有很多
dongya
2019-02-27 17:32:57 +08:00
直接写, 不用看教程,
dongya
2019-02-27 17:33:13 +08:00
@dongya 不用看教材
Cooky
2019-02-27 17:43:18 +08:00
request + beautifulsoup 不用学直接裸写
xkeyideal
2019-02-27 17:54:27 +08:00
楼主是不是认为爬虫就是将别人的接口数据或网页获取后进行解析?

如果是,那么按照 @dongya 说的,不需要看教程,直接写,用到什么包就去找,或者自己撸即可,没有多少技术含量可言

真正的爬虫,应该是如何破解别人的防爬程序,图片验证码破解,js、浏览器,代理等

各类爬虫实战的书籍都是教你,怎么分布式,如何高性能,哪哪个库解析会比较不错,连个怎么挂代理都不教你,别人服务从源头上把你访问量掐死,这些有啥用? 还不如去 github 上找些相关的开源项目源码看看呢

一流爬虫是从防爬根源解决问题
二流爬虫是用某些 js 和无头浏览器解决问题
不入流爬虫是写个代码强搞,并发不控制,代理也不挂,拿别人当傻子
aaa5838769
2019-02-27 17:57:26 +08:00
request + beautifulsoup
xiaozaiziwyt
2019-02-27 17:59:27 +08:00
@redglede 例如哪些呢?没了解过网课这些……
xiaozaiziwyt
2019-02-27 18:01:11 +08:00
@BlackPineappo 感觉有些零散,有没有相对系统一些的
xiaozaiziwyt
2019-02-27 18:02:28 +08:00
@xkeyideal 刚开始接触,基本没有什么技术可言,想一点一点来……
Outliver0
2019-02-27 18:08:00 +08:00
github 上找代码看,然后自己写
CFO
2019-02-27 20:15:58 +08:00
拿起 scrapy 的文档就是一把梭
redglede
2019-02-27 20:44:30 +08:00
@xiaozaiziwyt MOOC 上有个北京理工大学的爬虫课程,你去搜
Ehco1996
2019-02-27 21:50:43 +08:00
BlackPineappo
2019-02-28 08:46:19 +08:00
@xiaozaiziwyt 《 Python 爬虫开发与项目实战》
kblacksheep
2019-02-28 09:35:48 +08:00
崔庆才那本爬虫教程还不错的
a226679594
2019-02-28 10:08:38 +08:00
github
xpresslink
2019-02-28 10:13:34 +08:00
基本上不用看书,主要依赖于你的综合性基础。

先学一下 Python 语言基础,达到中级水平,正则表达式,常用标准库掌握了,特别是多线程,协程等还有相关的标准库要撸过练习代码。

数据库 Mysql,mongoDB,redis 基础操作都要会。

建设楼主先学一下 web 开发,你先要会 web 服务器是怎么工作的原理。推荐 flask 或 Django,建议 flask 吧,因为那个 sqlalchemy 是个通用 ORM,后面爬虫也常用到。
HTML,JS+Ajax,CSS 很熟悉。
HTTP 协议,Session,cookie,header 明白怎么回事。
前后端是如何交互的,用户登录安全验证等都要明白。

有了上面的基础,然后再学爬虫,都不用看书,随便网上参考一下教程,差不多半天时间就可以写了。
不过 scrapy 这个框架还是要大体学习一下的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/539334

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX