请教如何爬取简书某一时间段发帖

2017-05-02 19:09:19 +08:00
 wisefree

我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13

想尝试的思路如下:

实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求

问题

  1. 用这种方法得到的结果是否靠谱?请问有更靠谱的方法吗?
  2. 用 Google 还是用百度呢?

先谢谢各位大 V,:)

2283 次点击
所在节点    Python
10 条回复
shaxiboy
2017-05-02 19:19:27 +08:00
我是进来学习的😁
wisefree
2017-05-02 19:20:27 +08:00
@shaxiboy 欢迎,我也是来向大 V 学习的,:)
sampeng
2017-05-02 19:52:56 +08:00
用搜索引擎并不靠谱。。会不停的重复。。。
wisefree
2017-05-02 19:58:33 +08:00
@sampeng 谢谢回复。限定了时间还会不停地重复么?
yuluofanchen
2017-05-03 08:17:54 +08:00
用谷歌,但实际不是很准。
sampeng
2017-05-03 10:43:39 +08:00
@wisefree 主要是爬虫复杂度会上升。。排序会变。。而且人家谷歌也有防机器人。
有这经历研究这个不如直接去爬人家主站
wisefree
2017-05-03 11:04:48 +08:00
@yuluofanchen 嗯嗯,我也只要一个大致的结果,
wisefree
2017-05-03 11:06:06 +08:00
@sampeng 爬主站,难度太大,因为好像只有把所有的帖子都爬下来,才能分析某段时间的发帖量
sampeng
2017-05-03 11:15:12 +08:00
如果只是需要一个大致的结果,所有的帖子的响应 header 头上都有 Date 字段。刚去看了一眼,都是和发帖时间对应的。那么问题就简化成,扫描所有帖子。直 请求过去。看看 Date 头。
再简化一下,你如何获得所有帖子的列表。这个比你纠结用搜索引擎应该难度更小一点吧。。
wisefree
2017-05-04 11:04:41 +08:00
@sampeng 谢谢提供思路!对于获得所有帖子列表,有什么好的思路么?

我目前想的是通过几十个热门专题,对专题内的所有帖子进行爬取,但是感觉只能爬取到网站少部分的帖子

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/358615

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX