milukun
2020-11-14 21:08:12 +08:00
曾经的经验给你简单分享一下,有几个知识点需要知道:
( 1 )微信文章有两种链接,临时链接和永久链接。在微信里打开的是永久链接,在搜狗里面搜索出来的是临时链接
( 2 )顾名思义,临时链接有时间限制,一般超过 6 个小时就无法打开显示链接已过期。但是放到微信里点又可以打开,因为微信使用了 key 进行了链接转换。
( 3 )这个 key 又分为万能 key (解任何文章,与你的微信账号相关联,有效期 2 小时)和公众号 key (只对单一公众号有效,有效期 2 小时)。key 不仅可以转换链接,还可以用来打开列表页。
( 4 )一个微信账号的万能 key 使用频繁会导致封号(无法转换、浏览文章)
( 5 )自 19 年开始搜狗不再根据时间顺序返回搜索结果,导致无法通过“关键词”查找最新文章,且未登录账号只能看到前 100 页的数据
( 6 )搜狗搜索公众号显示最近 10 条文章(目前已经不显示数据了),也是临时链接
( 7 )搜狗搜索微信出现验证码非常频繁
( 8 )使用手机或 pc 客户端可以查看公众号列表页,但是 pc 端需要先关注才能看到。这里能做的抓取方案是中间人攻击,但是别忘了你是用自己的微信号做的,你要考虑怎么自动化控制刷页面,最重要的是你能撑几个小时不被封号?以及你有多少实例,能花大价钱购买养好的微信号呢?(新号权重非常低,浏览列表页的数量很少,如果只看不养号,很快就被封了)
( 9 )可能有人说,不就是 python 发个 requests 请求吗?我手机刷一下列表页,找到 url,request body,模拟一下不就好咯。关于这一点你可以去看( 3 )和( 4 )
最主要的成本来自于,需要真实有效的微信号和批量操作。
综合以上成本,你倒不如选择有腾讯做股东的公众号数据分析平台-新榜(不是做广告哈)去买数据....
当然,数据二道贩子有很多,也有很多个人在卖,都比自己去搞定要低成本的多(学习除外)
另外未经授权抓取数据并贩卖是违法行为!