手把手教你写妹子图爬虫再次更新一发,这次先出个问题,再安利美女学霸一枚

2015-05-23 18:09:06 +08:00
 jason52
好久不更,这次先一个问题,大家试着自己能不能解决哦~~

主角就是这个网站中的美女学霸照片。
https://www.zhinsta.com/profile/527439732/

首先分析一下思路,这个网站明显也是抓 instagram 上的照片导入过来的,至于 instagram 爬虫又现成的解决方案,先按下不表。你要解决的只是抓美女照片这个需求的话,直接墙外搞个服务器爬下来即可。

现在的限定是,在墙内的情况下只是抓在这个服务器上的照片。

注意,我分析的时候发现有 tricky 的地方,明显没有妹子图这么好抓。下一页和更多没有使用显式的链接,没有什么规律。

这个时候,就可以放出比较高级的爬虫技巧,比如,之前我做的笔记里




大侠先试试看

上图,剑桥化学系女学霸~~



7344 次点击
所在节点    Python
31 条回复
jianghu52
2015-05-23 23:45:58 +08:00
我比较笨。用的是比较笨的方法。
这个页面写的挺规矩的。要是我爬的话,首先进入第一页就不用说了。
然后Beautiful Soup来遍历文件,class= photos的只有一个地方,下面的ul 下面的li 里面就是图片了。
之后 [更多] 里面的href也写的比较明白。直接拼好连接做一个迭代再继续模拟访问。就能得到新的一页。
这样就能一直到最后一页。至于最后一页有没有 [更多] 我也不知道。快12点了。我准备睡觉了。以上纯粹脑洞。如果有问题,欢迎拍砖。
O21
2015-05-23 23:54:57 +08:00
很简单的。。。自己看一天python 就会了。
xuhaotian
2015-05-24 04:13:26 +08:00
微博 instagram

已双关注

先闪,谢谢lz
won
2015-05-24 08:57:32 +08:00
没任何图形识别技术在里面嘛,我觉得还是爬马赛克图片更直接
jason52
2015-05-24 10:49:18 +08:00
实验一下~~

jason52
2015-05-24 10:57:49 +08:00
楼主给的一个解~经大神一点拨,完全不用上js解析了唉(摊手)


mingyun
2015-05-24 11:27:37 +08:00
@ChiangDi 哈哈,正有此意
davidlau
2015-05-24 11:33:17 +08:00
weibo.cn 无js可直接抓
lhbc
2015-05-24 12:24:52 +08:00
剑桥化学女学霸,分分钟让你死了都不知道怎么回事,哈哈哈
Rorysky
2015-05-24 12:36:38 +08:00
@ChiangDi 不重复利用几次,是不是太浪费了
shepherd
2015-05-25 01:11:07 +08:00
这样真的好吗?一群人围着别人相册YY
不过,看完相册真的就不觉得累了啊。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/193227

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX