大概去年底就开始了,群里别人发的豆瓣 url,无论是小组帖子还是日记广播,点开都会在一秒内跳转到豆瓣首页。
最开始,我以为是豆瓣因整改不给我看了。可是一来整改也不会那么久,二来别人既然发这个 url 说明他是能打开的。
然后我试验了一番,发现无论是否登录豆瓣帐号,无论电脑还是平板,浏览器打开都会跳转首页。有一个别人发的豆瓣社死组的热帖,我直接点开会跳首页,在社死组帖子列表里找到点开却可以正常浏览。在平板上如果不选择 Edge 打开而是用豆瓣 App 打开,也是可以正常浏览的。
看起来像我被豆瓣当成爬虫了?我有哪些可能被当成爬虫的地方?虽然我没做错什么,但我还是被迫进行了一番反思:
是因为我最近折腾平板与浏览器,在不同环境下多次登录豆瓣帐号吗?可是我不登录帐号时也会跳转首页啊。
是因为我的 UserAgent 不常见吗?我的电脑 UA 是 Linux/FireFox,我的平板 UA 是 Linux/Edge (不是 Android ),Linux UA 低人一等?我不懂反爬,但是我相信每一个写爬虫的人都懂得伪造 UA,如果根据 UA 判断是否为爬虫,除了恶心正常的 Linux 用户没有别的意义。
我突然想到,跳转首页这一行为并不是在服务端通过重定向完成的,我是先打开这个 URL,能正常看到里面的内容,然后一秒种内跳转到首页,这种跳转似乎并不能防御爬虫。
这么说不是因为反爬?我又拿了个豆瓣 url 发给 tg 群友,问问他们能不能打开。tg 的爬虫正确预览了 url 的内容,截至发帖,有两名群友表示会跳转首页,还有一名群友表示不会。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.