用 huginn 爬取新浪微博,原来好好的,快多半年后,突然发现爬取不到任何东西。检查发现竟然是被新浪微博封了,但是奇怪的是,就 huginn 不行,而普通的下载工具,甚至 autoit 等脚本,随随便便就能把新浪微博爬取下来,太奇怪了。比如下面的链接: https://s.weibo.com/weibo?q=%E4%B8%AD%E5%9B%BD%E8%87%AA%E5%BC%BA&typeall=1&suball=1×cope=custom:2021-08-01:&Refer=g&scope=ori 用 huginn 不行,其他的下载工具随随便便都可以。 换了其他地方的机器,电脑和 ip 不同,huginn 照样无法正常爬取。 huginn 里面设置了 user-agent 也不行,怪了,huginn 有什么特征能够被识别吗
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.