如何抓取微信公共帐号发布的文章的阅读数和赞数

2014-10-10 16:11:03 +08:00
 macken
RT 求指教
37223 次点击
所在节点    程序员
107 条回复
ACzero
2016-01-19 16:35:38 +08:00
请问现在是用什么方法解决的?
ganjingui
2016-01-23 19:51:42 +08:00
@macken 怎么获取到 KEY 呀,能交流交流吗?
haoning747
2016-01-28 13:29:46 +08:00
这是之前做的网盘引擎: www.quzhuanpan.com ,现在想搞个微信爬虫,发现很多人都是搜狗为入口,大家有新思路吗?
bojone
2016-02-02 00:39:46 +08:00
@g080166 我目前有个方案,可以获取到阅读数,还有抓取到微信文章列表(跳过搜狗),成本很低。有兴趣请邮箱联系~~
bojone
2016-02-02 00:40:59 +08:00
@g080166 万级数据是很轻松的。
yangyong
2016-02-15 08:06:42 +08:00
@bojone 您是怎么做的 我 q 250218783
ganjingui
2016-02-16 21:03:03 +08:00
@bojone 您好,你的方案是怎么做的 我的 QQ 是 18470338
7zheng
2016-02-26 11:34:33 +08:00
@bojone 邮箱在哪里?
JoeyDeng
2016-03-10 05:33:35 +08:00
@bojone 我的 qq 402682376 谢谢
bojone
2016-03-13 09:37:49 +08:00
@JoeyDeng
@ganjingui
@yangyong
bojone@spaces.ac.cn
czzsean
2016-03-29 15:19:57 +08:00
@bojone 您好,你的方案是怎么做的 我的 QQ 是 946817112
p5er
2016-04-17 20:29:41 +08:00
@macken 我用微信桌面版抓包发现。当我用微信搜狗获得的 URL ,粘到微信桌面版点开后,在第一个 get 请求的 URL 里,就已经带上了 key ,说明微信桌面版的程序,会自动把不带 key 的 URL 经过计算变成带 Key 的。然后第二个请求,就是通过 post 方法,带着 key 去请求 getappmsgext ,从而获得阅读数。所以我觉得 key 是在桌面版程序里计算出来的。
macken
2016-04-17 22:50:17 +08:00
@p5er 微信是 TCP 通信的, HTTP 抓包是抓不出来的
p5er
2016-04-18 01:38:35 +08:00
@macken 我在 win7 上,开着 finddler 抓的, finddler 可以抓 https ,我粘到微信桌面版的连接是: http://mp.weixin.qq.com/s?__biz=MzA5NDE0MzIyOQ==&mid=204008313&idx=3&sn=90448d00d2e845efb7501ba627a930d6&3rd=MzA3MDU4NTYzMw==&scene=6#rd

然后,我能明显看到两条请求:
1 、 get 方法
http://mp.weixin.qq.com/s?__biz=MzA5NDE0MzIyOQ==&mid=204008313&idx=3&sn=90448d00d2e845efb7501ba627a930d6&3rd=MzA3MDU4NTYzMw==&scene=6&key=b28b03434249256bac1ce522598d7a9a5e52cf754d3e7e991b9e221da19c4f11f547ee26842e06679e87bc7df3d6ab39&ascene=1&uin=MTEyNDA3ODkyMA%3D%3D&devicetype=Windows+7&version=62000025&pass_ticket=gsFoBLv2Z2XwQM3jUq2Oi9qIqK5L2QNPxrNcKNvX6brw0vTvl4aMbxa0DQnGJYep

2 、 post 方法
http://mp.weixin.qq.com/mp/getappmsgext?__biz=MzA5NDE0MzIyOQ==&appmsg_type=9&mid=204008313&sn=90448d00d2e845efb7501ba627a930d6&idx=3&scene=6&title=%E3%80%90%E6%9F%AF%E6%83%A0%E6%96%B0%E8%80%81%E5%B8%88%E5%B0%8F%E7%A4%BC%E5%8C%85%E7%B2%BE%E9%80%89%E3%80%91%E7%BB%B4%E5%A4%9A%E5%88%A9%E4%BA%9A%E5%A5%B3%E7%8E%8B%E7%9A%84%E7%A7%98%E5%AF%86&ct=1425391891&devicetype=Windows 7&version=&f=json&r=0.7216593634802848&is_need_ad=0&comment_id=0&is_need_reward=0&both_ad=1&reward_uin_count=0&uin=MTEyNDA3ODkyMA%253D%253D&key=b28b03434249256bac1ce522598d7a9a5e52cf754d3e7e991b9e221da19c4f11f547ee26842e06679e87bc7df3d6ab39&pass_ticket=gsFoBLv2Z2XwQM3jUq2Oi9qIqK5L2QNPxrNcKNvX6brw0vTvl4aMbxa0DQnGJYep&wxtoken=2028779324&devicetype=Windows%26amp%3Bnbsp%3B7&clientversion=62000025&x5=0

从原始连接,到第 1 条请求,我觉得这个是微信软件自动生成的 key ,这个 key 应该有规律。
p5er
2016-04-18 01:40:28 +08:00
macken
2016-04-18 15:06:48 +08:00
@p5er key 的获取是通过 tcp 通信获取的, finddler 是抓不到 tcp 的包的。
tinkerz
2016-06-20 17:04:57 +08:00
@macken 请问下,之前有过爬取公众号历史文章的经验不? 我这边现在要爬这部分内容,貌似只能登陆关注才能全部爬取,而且还要获取 key- -。 不知这儿用到的 key 跟文章阅读的 key 是不是同一类?
macken
2016-06-20 17:36:55 +08:00
@tinkerz 确实是只有关注以后才能抓取全部历史, key 是否一样这个我也没研究过
FANNG
2016-06-30 14:18:39 +08:00
tinkerz
2016-07-11 16:15:02 +08:00
@macken 现在获取 key 还有其他什么思路吗? 编辑器里面插入 html 片段好像不好使了... 只能按键精灵了么- -

另外 知乎上有人说什么万能 key 这个是个什么东东啊? 有了解过么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/138062

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX