用 Python 3 写了个基于 selenium 的知乎关键词爬虫,可以爬钓鱼贴图片(各种爆照! 你懂得。。。)

2017-04-02 14:50:14 +08:00
 AnyISalIn

demo

地址在这里 zhihu_fun Github,求 star !!!!

。。。嗯,其实也可以爬其他方面的东西,但是目前只支持抓图片,其实这不是我的本意,我是想抓技术方面的东西的,但是我同事想要看这个,所以我就先抓这些图片了。。。Python 菜鸟一枚,代码写的很烂,还望各位大神多多指教

为什么要用 Selenium ?

新版知乎部分页面用 React 重写了,必须得加载 JS ,很多加载啥的都需要点击,所以我就用到了 Selenium

为什么不用知乎 API ?

单纯的想写一个爬虫而已

7420 次点击
所在节点    Python
33 条回复
ProjectSky
2017-04-02 15:30:18 +08:00
一百次点击,无人回复,干的漂亮。
jimmy66
2017-04-02 16:11:19 +08:00
厉害了
AltairT
2017-04-02 16:19:04 +08:00
营养跟不上啊...农村人还是在 B 乎上 Block 这些话题吧
Hello1995
2017-04-02 16:39:20 +08:00
提醒:_b 去掉试试😏
AnyISalIn
2017-04-02 17:21:56 +08:00
@Hello1995 哇,去掉了,发现更大的世界
fy
2017-04-02 18:24:08 +08:00
楼主 66666
Aspx
2017-04-02 19:45:01 +08:00
star 已送
phithon
2017-04-02 19:51:14 +08:00
这必须赞一波
guyskk
2017-04-02 21:06:36 +08:00
已 star ,过了不到一个小时开始非常慢了,难道是把知乎扒光了?
akira
2017-04-02 21:07:55 +08:00
按照关键字搜帖子的时候,发现很多帖子里面的图片都是无关的。 好奇怎么过滤的
zhihaofans
2017-04-02 21:09:37 +08:00
让我想起了知乎上这个收藏 https://www.zhihu.com/collection/60771406 (大胸妹子 - 收藏夹 - 知乎)
AnyISalIn
2017-04-02 22:04:04 +08:00
@guyskk 你配置文件中的 url_generate_time 设置为多少,默认为 30s ,意味着爬问题只爬 30s, 剩下的就是怕回答中的图片,我爬了 20 多 g 了,设置为 None 就可以一直爬下去。。
AnyISalIn
2017-04-02 22:04:59 +08:00
@akira 这个的话,我并没有做,但是可以经爬下来之后做图像识别啥的,嗯,比较高端
falcon05
2017-04-02 22:25:48 +08:00
很好,收藏了
guyskk
2017-04-02 23:02:24 +08:00
@AnyISalIn #12 设置都是默认值
AnyISalIn
2017-04-02 23:12:31 +08:00
@guyskk 嗯,你设置 url_generate_time 为 None 就能一直爬了,我已经爬了 22G 了。。。
Kalv8n
2017-04-03 08:10:45 +08:00
估计能扒到 nfsw 这类管理员来不及删的东西
bsidb
2017-04-03 09:19:40 +08:00
@AnyISalIn 可以搞个深度 CNN 分类器啦(雾)
AnyISalIn
2017-04-03 10:16:49 +08:00
@bsidb 感觉太高端了。。。
jyf
2017-04-03 11:22:55 +08:00
知乎不做 ip 限次?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/352146

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX