新手学 Python 爬虫

2019-09-18 23:26:42 +08:00
 buaishi

我是一名大学 Python 小白,我一次偶然的机会接触到了 Python 爬虫,感觉很是喜欢,所以我现在真心想了解和学习这方面技能,不知道前辈有什么推荐书籍或者其他学习方式吗?

4636 次点击
所在节点    Python
25 条回复
linvaux
2019-09-19 00:15:53 +08:00
先把 requests 库看明白
buaishi
2019-09-19 00:23:19 +08:00
@linvaux 好嘞 明白
MrZhaoyx
2019-09-19 09:00:19 +08:00
最近在看《 Python 网络数据采集》,写的挺不错的
Leigg
2019-09-19 09:14:57 +08:00
requests,beautifulsoup,scrapy,lxml,re,这几个是爬虫必知必会的库,先用熟,再看源码掌握其原理就是中高级了。
aaronhua
2019-09-19 09:37:33 +08:00
哔哩哔哩上一搜一大把的视频教程。个人觉得,新手不建议看书。视频更容易入手些。
buaishi
2019-09-19 10:17:14 +08:00
@MrZhaoyx 好的 我去了解了解
buaishi
2019-09-19 10:17:36 +08:00
@Leigg 谢谢哈
locoz
2019-09-19 10:18:25 +08:00
先定义一下爬虫的两种方向:
垂直爬虫指只爬特定的某些网站,且对所需数据都进行标准化、格式化的爬虫
通用爬虫指做搜索引擎、新闻聚合等用的那些爬虫,什么网站都爬,但只需要提取一些浅层的数据

然后你可以先看看崔庆才的书,现在他那个书的第一版已经免费了,在博客上就能直接看,虽然不算很深,但广度基本足够了,入门的时候用来了解一下还是可以的。
然后看方向决定是深入哪方面,如果想往垂直爬虫方向发展就深入逆向,如果想往通用爬虫方向发展就深入算法、机器学习。
buaishi
2019-09-19 10:18:42 +08:00
@aaronhua 进军 b 站 哈哈
buaishi
2019-09-19 10:20:07 +08:00
@locoz 知道了 会去了解的 谢谢哈😁
locoz
2019-09-19 10:22:07 +08:00
偷偷打个广告,我之前发的文章也可以看看。我现在和几个号主一起组建了 NightTeam 团队(微信公众号沿用了之前的 [小周码字] ),未来发布的文章也可以看看,都是高质量文章,跟那些一天到晚标题搞噱头、内容纯水的号不一样。
buaishi
2019-09-19 10:26:48 +08:00
@locoz 好的 OK 我也弄了个公众号 孟夏启明 但不知道干什么用😂😂😂
Zhancha
2019-09-19 11:17:11 +08:00
@buaishi 也可以试试原生库,再使用 requests 和 requests-html
zdnyp
2019-09-19 11:26:00 +08:00
@Leigg 这个里中高级还有点远吧...还有 JS 和逆向呢
zdnyp
2019-09-19 11:26:45 +08:00
@locoz +1
hackxing
2019-09-19 13:34:24 +08:00
自己学 Python 爬虫的笔记: https://meowv.com/category/python/
wangkai0351
2019-09-19 13:38:44 +08:00
@hackxing 大多是照本宣科,看不出有自己的理解见解,库源码分析都没有,就不要拿出来了吧
wolfan
2019-09-19 13:41:02 +08:00
@aaronhua 看书加视频,理论加实践更好。
SjwNo1
2019-09-19 13:48:03 +08:00
反爬 反反爬 反反反爬 。。。。
DOUWH
2019-09-19 17:31:58 +08:00
真心劝你别学爬虫~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/601971

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX