手把手教你写妹子图爬虫再次更新一发,这次先出个问题,再安利美女学霸一枚

2015-05-23 18:09:06 +08:00
 jason52
好久不更,这次先一个问题,大家试着自己能不能解决哦~~

主角就是这个网站中的美女学霸照片。
https://www.zhinsta.com/profile/527439732/

首先分析一下思路,这个网站明显也是抓 instagram 上的照片导入过来的,至于 instagram 爬虫又现成的解决方案,先按下不表。你要解决的只是抓美女照片这个需求的话,直接墙外搞个服务器爬下来即可。

现在的限定是,在墙内的情况下只是抓在这个服务器上的照片。

注意,我分析的时候发现有 tricky 的地方,明显没有妹子图这么好抓。下一页和更多没有使用显式的链接,没有什么规律。

这个时候,就可以放出比较高级的爬虫技巧,比如,之前我做的笔记里




大侠先试试看

上图,剑桥化学系女学霸~~



7344 次点击
所在节点    Python
31 条回复
49
2015-05-23 18:56:16 +08:00
这排版有一种 氯 的味道
>_<
ChiangDi
2015-05-23 19:08:55 +08:00
看了她的 weibo ,感觉基因好完美,应该很多男生会有跟她繁衍后代的欲望。。。
ddqp
2015-05-23 19:19:54 +08:00
顶!
libraor
2015-05-23 19:50:34 +08:00
你们都没发现照片都不是她自己,而是另外一个很亲密的人拍的么?so,骚年啊,不要YY了,快去写代码吧。。
jason52
2015-05-23 20:35:29 +08:00
@49 这是神马意思???
@ChiangDi 说的好文艺~~
@ddqp 和你的头像以及楼上完美的契合~~

@libraor 然而也并没什么luan用~~
jason52
2015-05-23 20:43:19 +08:00
feiyuanqiu
2015-05-23 20:50:30 +08:00
@jason52 哈哈哈,都去看美女去了
你主楼的问题是要解决 js 生成的页面的抓取吗?那可以看看 PhantomJS http://phantomjs.org/
neone
2015-05-23 20:50:38 +08:00
忍不住点开她微博看了下(原谅我,我还是一个少年)。另外,思路的话由于对爬虫不是很了解,所有并不敢大声说话。
jason52
2015-05-23 20:54:20 +08:00
@feiyuanqiu 恩,还有个casperjs,基于你说的这个封装了一层,我考察了一番~~~
mianju
2015-05-23 21:25:17 +08:00
说好的手把手教程呢?
vjnjc
2015-05-23 21:37:54 +08:00
你们是怎么找到她得weibo得,有诀窍么?
jason52
2015-05-23 21:49:08 +08:00
vjnjc
2015-05-23 21:57:15 +08:00
@jason52 。。。果然我还是个新手哈哈哈
staticor
2015-05-23 21:59:14 +08:00
本来就是想学习Python技术的. 搞这么一个照片弄没心情学了- .
binux
2015-05-23 22:28:15 +08:00
完全没有看出来这个页面有什么难的了。。
http://demo.pyspider.org/results?project=zhinsta
jason52
2015-05-23 22:36:33 +08:00
@binux 虫叔粗线~~这个解好简洁~~~我靠,这个框架好~~
Sin
2015-05-23 22:38:43 +08:00
@49 居然看懂了>_<
jason52
2015-05-23 22:46:14 +08:00
@Sin 被你这么一说,我也懂了~

我感觉楼下会有数字粗线~
jason52
2015-05-23 22:53:47 +08:00
@binux 话说pyspider一出,爬虫其实就不用写"程序"啦。主要就是写一个配置文件定义一下所要的参数,所有的循环和判断部分可以省掉了。
binux
2015-05-23 22:55:00 +08:00
@jason52 配置文件永远没有程序灵活

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/193227

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX