如果你在用一个叫做 V2EX Plus 的插件,我需要你的帮助

2023-05-14 10:22:43 +08:00
 Livid
这件事情的上下文:

https://www.v2ex.com/t/939486?p=1



及我在第二页的回复:

https://www.v2ex.com/t/939486?p=2

我需要一些这个爬虫在执行分布式爬取任务时的样本,主要是 Request Headers 及其他特征。

谢谢。
17675 次点击
所在节点    V2EX
39 条回复
zyronon
2023-05-14 13:30:53 +08:00
@SunsetShimmer #19

我是脚本作者,问题可以反馈到 git 上,我会去处理
ye4241
2023-05-14 13:42:23 +08:00
@sciooga 这样子似乎也能说得通,但是我插件都卸载了,我刷新了好几次页面,他竟然还在产生新的浏览记录的样子。
sciooga
2023-05-14 14:14:08 +08:00
@ye4241 #22 不好意思,已经在动车上了,https://vdaily.huguotao.com/api/topic/task 这个接口是返回需要爬取的主题 id 了,我现在看了已经是停止了,浏览记录的问题应该不是一直在产生吧?如果一直在产生确实很奇怪
zyronon
2023-05-14 14:15:21 +08:00
@SunsetShimmer 可以正常使用了,站长更新了 WAF 规则了
ClarkAbe
2023-05-14 19:00:28 +08:00
这已经不是爬虫了吧...完全就是木马了...今天下发的是爬虫任务...那明天, 后天呢?
genesislive
2023-05-14 22:11:00 +08:00
@ye4241 上传 cookie 就是木马了
SekiBetu
2023-05-14 22:29:29 +08:00
这个不是要站长自己来解决吗,和脚本作者有啥关系,没有这个人创造这个脚本,V 站就不会被爬数据了吗?
ksc010
2023-05-15 00:17:06 +08:00
@SekiBetu 问题不是用 用户的 cookie 爬取数据吗?
8355
2023-05-15 09:09:27 +08:00
所以我建议大家还是在卸载插件后退出下登陆
codingadog
2023-05-15 09:23:50 +08:00
@SekiBetu 偷别人帐号的 cookie 用来爬数据就不是偷了?
ffkjjj
2023-05-15 09:27:19 +08:00
这个插件不知道什么情况下会自动启用 vDaily. 我关闭过 vDaily 两次, 都被自动启用了.
因为我不喜欢在首页右侧出现 vDaliy 的相关主题列表, 我就关闭过这个功能. 后面发现 首页 vDaliy 列表又出现了, 一看设置, vDaliy 是开启的. 当时还以为记忆出现了偏差, 以为之前没关闭过 vDaliy. 然后又手动关闭了 vDaliy 一次. 今天看到这个主题, 又去看了眼设置, vDaliy 又被启用了...
Ashore
2023-05-15 09:49:52 +08:00
@ffkjjj 云端控制开启?或者代码有 bug 。
sciooga
2023-05-15 10:41:38 +08:00
@ffkjjj
@Ashore

这是每次更新后部分选项有可能会被重置的 bug 包括 vDaily
https://github.com/sciooga/v2ex-plus/commit/b561ba6e0f93c043e1410e75c092043af675f72e

这是之前一个选项页不能保存的 bug
https://github.com/sciooga/v2ex-plus/commit/f44e40904e01e0834956659e16c54a99c4ab5386

或者是网络不稳定选项同步到谷歌时延迟太大的 bug
https://github.com/sciooga/v2ex-plus/commit/e347cf22b9ed8bf003f8366d3e847ccf7ac9fae9
clikes
2023-05-15 14:31:28 +08:00
我以前觉得 computer ethic 这门课不知所云,现在知道还是非常有意义的
air00dd
2023-05-15 18:31:58 +08:00
@codingadog #30 他的逻辑是受害者有罪论,荡妇羞辱的伎俩。声称是用户裙子穿太短活该(网站安全不到位),反正都是要被其他人偷窥的,所以他偷窥就有理,用户还不能指责偷窥者行为
air00dd
2023-05-15 18:40:50 +08:00
@clikes #33 很多粗制滥造的教学课程都一笔带过,特别忽视用户安全隐私、计算机论理学,从这个话题延伸开说,很多灰色产业链都是靠非法爬数据起家,对网站 DDOS 来进行敲诈也很泛滥。
air00dd
2023-05-15 18:49:52 +08:00
@sciooga #17

“刚刚发现,这个插件似乎把 V2EX 的 cookie 上传到了服务器的,然后“最近查看过的主题”里面全是自己没看过的主题。。。

关闭插件里面的不让 vDaily ,卸载插件是没有用的,必须要重新退出登录让老 cookie 失效才能真正不让他爬虫的。”

1 "必须退出登录停止爬虫“这里是有什么误解还是什么缓存问题?

2 获取历史主题说实话挺恐怖的,就像自己家里突然多出了不认识的人。如果是市场扩展都可以举报 report abuse 的
zhushu77777
2023-05-15 19:24:32 +08:00
可以帮我账号解封吗?我什么事都没做,莫名其妙封了
enrolls
2023-05-16 17:25:07 +08:00
应该是不会有明显的特征。tampermonkey 下的 JS 脚本,基于浏览器用 js 来控制页面啊。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939839

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX