建设通网站的爬虫设计

2018-10-25 08:51:57 +08:00
 stephenliubp

建设通的爬虫程序如何设计?

产品有:小程序、App、网站

建设通网站网址

各位大佬,这种情况如何解决啊?如何爬取账号且 VIP 可见的数据

3684 次点击
所在节点    iDev
7 条回复
dingyaguang117
2018-10-25 10:25:57 +08:00
selenium + chrome headless 啦
uminokoe
2018-10-25 13:00:55 +08:00
selenium + firefox headless 啦
stephenliubp
2018-10-25 15:07:28 +08:00
@dingyaguang117 为什么他可以解决呢??请求的时候对方会限制请求次数,只要次数多了就会封 VIP
shawndev
2018-11-02 16:36:54 +08:00
selenium + headless chrome
stephenliubp
2018-11-03 19:53:17 +08:00
@shawndev 不行的。正常用户操作多了都封锁账号。「 selenium + headless chrome 」 做到的就是模拟浏览器加载出来,这对于这个情景根本不适用
kangzlong
2018-11-30 09:01:44 +08:00
@stephenliubp 如果你要的内容必须登录才能爬到而且一个账号操作频繁就会被锁住的话,我感觉你应该在注册账号这块想想办法,自动注册一堆账号。因为我要是这么设计的话,我的 API 也必然要求账号信息,所以你怎么都绕不过去
stephenliubp
2018-11-30 09:14:09 +08:00
@kangzlong 注册不可以的。注册必须购买 VIP 才可以,5000 RMB

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/500893

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX