致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学

2014-12-10 16:38:37 +08:00
 Livid
抱歉我们现在用的机器还不够高大上,你的这种爬法,确实会影响到目前我们网站的访问质量。

所以,只能把你的 10 几个 IP 全部封了。

今天早些时候,我们还封了 YisouSpider 的另外 10 几个 IP。

我可以理解你们想要从这里开采资源的心情,但是就算是开采,请用一些可持续的方式。不可持续的方式,是在浪费所有人的时间和你的资源。

7527 次点击
所在节点    V2EX
36 条回复
abelyao
2014-12-10 16:41:28 +08:00
抵制一切爬站采集的行为!
我愿意在 v2ex 发帖交流,但我不愿意我发表的内容,被复制到一个我不知道的网站去!
Livid
2014-12-10 16:43:48 +08:00
@abelyao 我们的回复一直在被很多网站用各种方式搬运。

不过,这些用偷懒的方式做起来的东西,一般都无法持续。

Karma 上的瑕疵,会让任何一件事情都很难持续。
tinyhill
2014-12-10 16:45:15 +08:00
被爬了说明有价值,只能这么安慰自己。
whicily
2014-12-10 16:46:26 +08:00
@Livid 请问一下 v2ex 是如何 block ip 的,iptables 么?
kurtrossel
2014-12-10 16:48:20 +08:00
爬到数据也不会珍惜的,真能发掘出更大价值也算,各种滥用
Devin
2014-12-10 16:49:49 +08:00
@Livid good job!
abelyao
2014-12-10 16:50:07 +08:00
@Livid 真蛋疼,这些站就该倒闭光了才好。
之前在自己的网站 或 cnblogs 写过几篇热门博客,也都 “被发表” 到一些大论坛大网站去,有些好点的在角落里留个署名,大多数什么来源都没标注。
kmvan
2014-12-10 16:50:15 +08:00
這并发略吊…

话说Karma是…?
jiang42
2014-12-10 16:53:15 +08:00
就是说之前v2ex不稳定是爬虫的原因?
mortal
2014-12-10 17:09:51 +08:00
@kmvan 业?
herozzm
2014-12-10 17:30:32 +08:00
这个爬虫不合格啊,这个密集采集,都会被管理员K的
Showfom
2014-12-10 17:31:52 +08:00
这爬虫太明显了吧。。。。
learnshare
2014-12-10 17:34:02 +08:00
垃圾站:我们不生产内容,我们只是内容的搬运工。

互联网的内容不应该复制来复制去,有必要的话,一个链接过来就好了。<a> 不是互联网的核心?
raincious
2014-12-10 17:41:21 +08:00
lincanbin
2014-12-10 17:43:30 +08:00
这写爬虫都不知道换个baiduspider的header
xieguobihaha
2014-12-10 17:55:09 +08:00
good job
abelyao
2014-12-10 18:31:53 +08:00
@kmvan @mortal @raincious
话说有这么高大上的含义吗…?
我的理解还是简单的 “前因后果” 之类的,例如接上老大那句话就是 “根源上的瑕疵,会让任何一件事情都很难持续。”
matrix67
2014-12-10 18:57:39 +08:00
不过贵站那个收藏回复值应该开放出来
Livid
2014-12-10 19:02:29 +08:00
@matrix67 收藏回复值是指什么东西?
Ansen
2014-12-10 19:46:38 +08:00
@abelyao 通俗点就是节操……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/152913

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX