怎样爬取微信公众号中的文章?

2016-04-09 12:18:18 +08:00
 wangleineo

如果只是爬取内容的话,可以用搜狗的微信搜索页面作为入口。但是其他元数据比如阅读量/点赞量怎么爬取?似乎只有微信内置浏览器能显示这些信息?爬虫怎样抓到?另外超过 10w 就不显示具体数字,怎样能获得真实的阅读数。还有,刚刚发布的文章怎样立即就能被爬虫发现?

这些都是可以做到的, http://www.newrank.cn/ 能看到榜单上图文的真实阅读量 http://chuansong.me/ 能精确显示几分钟前发布的文章,显然是实时抓取的

实时抓取的功能我猜测是用程序模拟了一个微信客户端,接受推送?

有没有人了解这些爬虫怎么实现的?

7338 次点击
所在节点    问与答
8 条回复
2232588429
2016-04-09 12:47:27 +08:00
传送门也爬不到阅读量和点赞数啊,要是能实时抓取这个就好了。
matsuijurina
2016-04-09 12:51:10 +08:00
iOS 逆向微信, hook 相应的消息函数,注入自己的 dylib ,想拿到的都能拿到。
wangleineo
2016-04-09 12:53:52 +08:00
@2232588429 有的,看排行榜 http://werank.cn/
wangleineo
2016-04-09 13:04:17 +08:00
@matsuijurina 一个微信可关注的公众号数量是有限的吧,要关注所有公众号,不是要很多个微信号和很多设备?
安卓有没有类似方案?
matsuijurina
2016-04-09 13:27:53 +08:00
@wangleineo 安卓逆向微信玩的人更多吧,模拟器上多开,伪装真机验证。不过,关注所有公众号,这个有点猛,没有内部接口不知道怎么做到。
marenight
2016-04-09 14:37:58 +08:00
有个老师收购了几千部安卓手机,然后做了这个 http://www.gsdata.cn/
soho176
2016-04-09 18:02:38 +08:00
这个我也想知道咋做的
dongya
2016-06-06 15:17:22 +08:00
@marenight ....这不是真的吧。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/269741

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX