想系统的学一下爬虫,各位大佬有没有比较好的,比较系统的教程,最好是从零开始。

2021-05-27 10:26:44 +08:00
 zror
开始用 selenium 感觉还挺好用的,我说那就爬爬淘宝,然后刷一会就被淘宝限制了。网上反爬的教程一大堆,也不知道哪些是可行的。
后来又发现有 Puppeteer 个东西,v 友有爬虫大神能分享点教程么 谢谢了
6035 次点击
所在节点    Python
33 条回复
SlipStupig
2021-05-27 10:30:34 +08:00
先从学习《网络安全法》学起,这不是开玩笑,我是认真的
murmur
2021-05-27 10:32:04 +08:00
爬虫简单,反爬攻破难,需要经验,那都是别人吃饭的东西怎么可能随便分享给你,你上来就想挑战淘宝
zror
2021-05-27 10:37:27 +08:00
@murmur 我不是想爬淘宝的数据,就是想秒杀个玩具
no1xsyzy
2021-05-27 10:51:16 +08:00
@zror 那不还是淘宝吗?能爬淘宝大概能算爬虫学硕士毕业。
所有网站你只能一个个去试,指不定昨天刚封堵一个反爬方式。
herozzm
2021-05-27 10:55:12 +08:00
一来就调整高难题目,先爬爬小网站吧,无非就是验证码破解,ip 限制,前端加密等等
chennuo
2021-05-27 11:09:22 +08:00
真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
Lemeng
2021-05-27 11:12:00 +08:00
淘宝是非常钢的。建议参考上面大神的建议
mschultz
2021-05-27 11:14:14 +08:00
阿里系的很多网页(淘宝、高德地图)正常人类正常浏览都有困难吧(休息会儿呗,坐下来喝口水,我们马上回来)
palexu
2021-05-27 11:22:43 +08:00
一上来就挑战电商网站。。。 这种大电商都养着一整个专业反爬虫团队呢
Jwyt
2021-05-27 11:26:34 +08:00
哪有一上来就用自动化测试的东西弄爬虫的?
建议先去看看 http 协议,python 的话先多用 urllib 和 requests
获取数据之后是清洗数据,看看 html 解析、xml 、正则
上面的用的差不多了,学习下爬虫框架,scrapy 、pyspider
再深入的话就是反反爬和大规模爬虫性能这块了,包括 js 反解、app 抓包、逆向。。
tuoov
2021-05-27 11:39:16 +08:00
《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程,不过现在高级点的爬虫基本上都靠逆向和抓包,更多是偏实践的东西
Numbcoder
2021-05-27 11:42:48 +08:00
爬虫写的好,牢饭吃到老
byte10
2021-05-27 11:49:37 +08:00
爬虫其实很简单的啦,如果高频的去爬就很难。你要先搞定账号,IP,这些搞定之后,去重写一个 开源的浏览器,然后把 GUI 那层 css 渲染去掉,基本就完美的爬了。
shuxhan
2021-05-27 11:49:40 +08:00
从入门到入牢
ysmood
2021-05-27 12:44:51 +08:00
只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/
imn1
2021-05-27 13:10:15 +08:00
没事,就三个步骤:抓页面,分析代码,保存(或下载文件)
只是 2 用 python 比较省心,多年以前用 php 就一个编码都弄得头疼
1/3 其实跟 python 没啥关系(哪个顺手都可以),我更多用 wget/aria2

以前爬过几千万张图片(累计),可能上亿,现在没啥动力爬了,另一方面是封闭了,有帐号都不给看,更别说没帐号了

最后,一开始就刷大厂,你真以为所见即所得啊,爬虫练手最好先找外面的,例如岛国(顺便学一下编码问题)
buffzty
2021-05-27 13:49:53 +08:00
@imn1 哪个语言写爬虫没有编码语言? 函数都不会用还写 php 吗? html 适合你
imn1
2021-05-27 14:21:37 +08:00
@buffzty #17
我不知道你这么激动是为什么
我说的编码指的是,gbk/big5/shift-jis/enc-k/utf8 这些,不是写代码
php5.3 前在 windows 处理 unicode 是痛点,特别是非 ASCII 路径,5.3 后就没写过了,“多年前”指的是这个

我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料,不过没空整理,都送人了
我没任何歧视 php 的意思,我是因为发现 python 处理韩文 windows 路径很方便,才转过去的
zhengfan2016
2021-05-27 14:28:13 +08:00
上来就是搞淘宝,你当淘宝那些 985,211,硕士都是纸糊的吗。你觉得你一人能搞得过人家几万人的团队?
x86
2021-05-27 14:48:15 +08:00
这是一上来就挑战最高难度的...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/779500

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX