V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  mysky007  ›  全部回复第 1 页 / 共 1 页
回复总数  2
2018-06-17 16:03:16 +08:00
回复了 vvaaiinn 创建的主题 Python 微信公众号内容的抓取、大家有什么好的建议吗
2018-06-17 15:53:33 +08:00
回复了 vvaaiinn 创建的主题 Python 微信公众号内容的抓取、大家有什么好的建议吗
通过搜狗入口抓取,有两种方案可以获取到文章的链接:1、解析 html 中的 json 数据。2、使用 seimiAgent 动态加载页面,再用 xpath 提取。使用第一种成本较低。至于 ip 可能被封问题,可考虑接多家 ip 代理服务商切换代理。http://www.keydatas.com/doc/fuyYRzrY7vy2 这个平台采用的就是这种方案,可以采集,但速度没有普通网页快,可能是尝试了不同 IP 代理比较耗时。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2533 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 10:34 · PVG 18:34 · LAX 02:34 · JFK 05:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.