V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Livid  ›  全部回复第 78 页 / 共 1410 页
回复总数  28187
1 ... 74  75  76  77  78  79  80  81  82  83 ... 1410  
@bxqqq 可能和我们今天针对这次爬虫事件部署的一条新的 WAF 规则有关,刚才做了一些调整,你再试试?
@Xianmua 是的,依然还在运行。而且,只要你停在 /t/ 主题页面上,就会持续获取新的任务,并不像 @sciooga 说的「浏览一个主题,最多会额外增加 3 个 get 请求」

https://i.v2ex.co/vG86M7XV.png
2023-05-14 13:02:22 +08:00
回复了 Livid 创建的主题 V2EX 如果你在用一个叫做 V2EX Plus 的插件,我需要你的帮助
根据我刚才在虚拟机里的测试结果,只要停在 /t/ 页面上,就会一直从你的服务器上持续获取抓取任务,并不像你说的,至多获得额外的 3 个抓取任务。大家也可以来验证一下。

屏蔽规则已经部署,可能会产生误伤,欢迎大家的反馈。
关于翻页 502 。

之前我们上了这样的一个功能,用 cookie 保存访问过的最后的页码。这样当你进入一个有多页的主题页面时,会直接进入到你最后访问过的页面。

这个爬虫会让用户的这个 cookie 中增加大量用户没有访问过的页面的页码。

至于是否是由于 cookie 尺寸过大造成的 502 ,因为我没有也不会去安装这个插件,所以我无法验证。

这也是为什么遇到 502 问题的用户,清掉 cookie 之后就可以访问了。

我们最近暂时把这个记住和跳转页码的功能下掉了。所以现在当你访问一个有多页的主题时,如果 URL 中没有指定 p=x 那么现在只会默认进入第一页。
@sciooga 用户的访问时段是集中的,这个你从你自己的 goaccess 日志中也可以看到。

由于插件的行为,在高峰时段,插件用户会造成额外的 3 倍的访问压力。
@sciooga 所以,你可以通过你的服务器上的一个配置,来决定这个插件的用户是否跑抓取、及抓多少量?

你知道这听起来像是什么吗?
2023-05-14 10:30:34 +08:00
回复了 vPlus 创建的主题 分享发现 ### ✨ V2EX 周报 本周热门主题及高赞回复 05.06-05.12
谢谢大家,我需要大家的帮助:

https://www.v2ex.com/t/939839
@sciooga 如果这个插件确实会给 V2EX 的后端每天增加几十万次很可能没有命中缓存的请求(因为是历史内容),那对于网站性能是会有影响的。

如果你不打算解决这个问题的话,那我们只能想办法从后端来做防御了。你在给我增加我不想要的工作量。
@sciooga 所以,目前( 2023 年 5 月 14 日),插件的爬取行为依然还在继续,是吗?
而且,这样的功能:

1. 会显著增加 V2EX 的服务器负担
2. 增加用户遇到 403 rate limit 的概率,最后是我们会经常收到这样的用户询问:为什么又把我的 IP 403 了?

哎……
2023-05-11 16:35:53 +08:00
回复了 zpfhbyx 创建的主题 反馈 翻页就 502 ...
@sciooga 昨天的部署里去掉了 /t/ 里面两个可能和这个有关的 redirect 。之前我猜测是某种 infinite loop 发生。
@ob 你的已经恢复。谢谢。
1 ... 74  75  76  77  78  79  80  81  82  83 ... 1410  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2334 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 97ms · UTC 02:06 · PVG 10:06 · LAX 19:06 · JFK 22:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.