请问有什么方法能抓取公众号的内容?

2015-06-10 15:07:33 +08:00
 a9563akl
请问有什么方法能抓取公众号的内容?搜狗的微信搜索有加密过,没法直接抓。大神们知道zaker、传送门这些平台的公众号文章都是怎么采集的?
2852 次点击
所在节点    问与答
11 条回复
timest
2015-06-11 09:27:19 +08:00
目前我正在用python写爬虫,已经已经爬了3万多篇了,等我完成后会开源到github上。你邮箱留个给我,到时候Email你。
a9563akl
2015-06-11 10:29:44 +08:00
@timest 哇,大神,搜狗搜索的js加密已经解决了?感谢感谢,邮箱是leezhangfj@gmail.com。
mingyun
2015-06-14 15:59:45 +08:00
@timest 同求 mybestpartner@sina.com
timest
2015-06-15 17:20:34 +08:00
已经私聊了
a9563akl
2015-06-17 16:10:04 +08:00
@timest 大神我加你了
berry10086
2015-06-18 21:31:47 +08:00
爬搜狗的数据,直接用phantomjs解析界面,反爬虫、接口加密都不是事了
http://weirss.me
a9563akl
2015-07-01 17:46:50 +08:00
@berry10086 能够抓取到文章的图片吗?
berry10086
2015-07-01 21:09:09 +08:00
@a9563akl 没有反外链的图片可以抓到
a9563akl
2015-07-04 14:58:49 +08:00
@berry10086 你的方法,图片和文字是分开抓取的吗?
berry10086
2015-07-04 15:36:02 +08:00
@a9563akl 抓到图片的地址,没有下载
Moker
2015-08-12 16:30:21 +08:00
@berry10086 话说你抓了公众号历史的数据么?还是只按天爬....
今天也特么的坑说要爬公众号的内容 不过我是用pyspider

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/197506

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX