也来一发,豆瓣害羞组读图版

2014-10-26 21:16:15 +08:00
 binux

看到有人专名写一个爬虫,于是用手上的东西,做了一个这个东西。
先直接上地址: https://f.binux.me/haixiuzu.html

pyspider DEMO版 + 多说 做数据库 + 前端渲染一个瀑布流

嘿,还真像那么回事有没有。

那么问题来了,还有哪些免费的 KV 数据库,有 HTTP API 的,能公开读取数据的。
多说老是转义导入的数据。。

25797 次点击
所在节点    分享创造
44 条回复
lubuwei
2014-10-27 18:21:22 +08:00
呃,下班再打开看看......
shakespark
2014-10-29 08:50:05 +08:00
为啥里面还有丁丁...
shakespark
2014-10-29 08:54:14 +08:00
理解了...各种晒10分钟的图被lz抓取了啊哈哈哈
hydyy
2014-10-29 09:31:21 +08:00
。。。
chilaoqi
2014-10-29 10:42:58 +08:00
这么多丁丁 大丈夫?
binux
2014-10-29 10:47:11 +08:00
@chilaoqi 别人要发,而且不是发我这,数据也不存我这。。我有什么办法。。
axe
2014-10-29 15:29:25 +08:00
害羞组是用来约约约的吗。。
yangkeao
2014-10-29 17:34:45 +08:00
我想知道多说做数据库是什么情况。。
binux
2014-10-29 18:46:42 +08:00
@yangkeao 抓到一条数据之后,往多说上发一条评论,评论内容就是抓到数据。
然后页面取最新评论就行了。
gkuchan
2014-10-29 19:17:27 +08:00
…… 能不能把女人删掉 搞一个只有男人的版本……
Qulyf
2014-10-30 17:25:31 +08:00
@gkuchan ←← 好像暴露了什么...
alsotang
2014-11-01 20:52:13 +08:00
碉堡了
2232588429
2014-11-02 00:49:20 +08:00
这个数据库是采到26号的?上限怎么定的?
binux
2014-11-02 00:55:21 +08:00
@2232588429 我只采集了第一页,我是从26号开始采集的。
wh1100717
2014-11-20 22:33:20 +08:00
其实你这个还可以加以下功能:
1. 定时check你抓下来的帖子是否删除,如果删除,则高亮显示(原因你懂的)
2. 想办法用算法把广告过滤掉...
3. 增加手动点击发豆油功能(原因你懂的)
4. 增加几个组一起check好了==!

我也写了个一个类似的东西...不过写完就觉得无趣懒得完善了,哈哈
binux
2014-11-20 22:39:28 +08:00
@wh1100717 我就试试我的爬虫,一个晚上做的,我也懒得完善
mnhkahn
2015-02-25 08:50:41 +08:00
大哥,你这个有些图多说那边没给你处理么?
binux
2015-02-25 17:57:21 +08:00
@mnhkahn 处理什么
lukew
2016-01-15 14:03:34 +08:00
@binux
好项目 最近需要搭建一个爬虫系统 果断上手!
想问下 这个项目还是活的吧?
binux
2016-01-15 18:25:15 +08:00
@lukew 没死

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/141661

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX