知道有个传送门网站,但那个网站似乎不稳定(对爬虫来说,很容易503)。我们决定自己做个爬取微信公众号文章的站。首先要获得某个公众号的具体历史文章列表。这个可以通过微信上查看历史文章获取,然后抓包分析,获取了一定的效果。现在知道 url getmasssendmsg?__biz=MjM5NDM3MDQwMA==&uin=MTM1OTY1NzgyMA%3D%3D&key=1d3004ed55a8e3866db43e981efca321ea995610a3e118f8e873edc416d2e4ced7c42ec56d8ec12591ddbf188f8678f7&devicetype=android-17&version=26000032&lang=zh_CN&pass_ticket=QBqGJE4KnmXPpjLqhheqoycmRWzt0IiDkxKOfkSHk06ZjRoVHEmwS0OM2p7DhJaF
这样的结构。biz参数是每个号独有的,key似乎也不一样。但找不到规律。。
不知道传送门是怎么获取那么多文章链接的?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/146497
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.