前嗅可以采集公众号所有的历史消息啦!
相信之前采集过公众号历史文章的人都知道,用搜狗微信搜索公众号进行数据采集很方便,但是这个方法也有一个比较大的缺点,那就是只能显示最近 10 条群发文章。所以,小编今天要教大家另一个方法,可以采集公众号的全部历史文章!
前嗅通过微信官方提供的转载文章接口,能够采集到全部的历史文章。首先 ,你需要拥有一个自己的微信公众号,登录微信公众平台,打开浏览器的开发者工具,复制下登录后的 cookie 信息。
接下来,我们点击下一页内容,通过开发者工具查看每页的网页地址,找到每一页的地址的规律。图中我复制了前几页的地址,可以看到每一页中只有两个参数不同,一个是随机数 random,一个是 begin 表示页码,我们只要修改 begin 的参数,就能成功打开网址得到我们需要的数据。
现在需要的东西都找到了,那我们就可以开始在软件里配置采集模板了。输入采集地址,把 cookie 信息复制到软件中,在频道属性部分选择手动登录功能,即可完成登录。
完成登录后的操作就比较简单了(前嗅官网上有很多视频教程),可以根据自己的需求添加任意字段进行采集,小编这里采集的字段有:文章标题、原文链接、发布时间、来源、正文内容。
小编用这个方法采集了某个公众号的全部历史文章,不过采集的时候需要注意,采集速度太快会提示“操作频繁”,所以在软件中我们需要把采集时间间隔设置的长一点,小编建议设置 10 秒以上的时间间隔。
为了更直观的浏览数据,小编把数据导入到了 excel 表中。
以上,就是采集微信公众号历史文章的方法,有兴趣的用户可以自己采集试试看,当然,有大规模采集需求的用户也可以联系小编。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.