爬虫到底侵不侵权

2015-02-05 12:04:23 +08:00
 WhyLiam
我去年写了个网站,因为没有什麽信息量,所以爬了2000条数据。这星期接到了对方的信息,让我把爬的数据删了。
对于这次处理,我会近期把网站关了。因为我的网站可以说完全没有用户,就是大学练手留下来的东西,也没有什麽损失。

但是对于以后无信息量建网站的时候,

1. 该不该使用爬虫
2. 爬了数据怎麽处理可以避免侵权
8301 次点击
所在节点    问与答
45 条回复
WhyLiam
2015-02-05 13:16:33 +08:00
@msg7086 那我在註明版權歸對方所有的時候,可否轉載文章。
還有比如github上的代碼 我在註明版權歸對方所有的時候編譯,發布 呢?
感覺自己有點鑽牛角尖了
em70
2015-02-05 13:18:04 +08:00
爬虫不侵权,用爬来的数据才可能侵权
msg7086
2015-02-05 13:19:54 +08:00
@CopyPaste 不要揣测他人的意图。或者说,揣测他人意图没事,别拿来当做理由就行了。
别人怎么想的,是别人说了算,不是你说了算啊……

@WhyLiam 在法律框架内,不可以。
只有一种方式,那就是合理使用。
比如说新闻报道或者搜索引擎,为了报道或者为了提供搜索服务,局部转载小幅片段是可以的。
9hills
2015-02-05 13:20:29 +08:00
@WhyLiam 不能,你在你的盗版windows桌面写一行大字『本系统版权归微软所有』,就不侵权了?

@CopyPaste 你真不知道么,呵呵
9hills
2015-02-05 13:23:11 +08:00
@CopyPaste 既然你不知道,那我明确告诉你,未得到版权人允许的转载,对说的就是你的做法就是侵权。怎么样,得到答案了吧。还不去乖乖删掉侵权文章。

注:版权人允许包括直接授权,根据Licence授权等
pockry
2015-02-05 13:23:41 +08:00
本来想打一大段话,但想想也说服不了有先入为主的想法的人,干脆不说了,还是用实际行动吧。

我自己写的文章都随便人转的,你们能把它们玩出花来,是你们的本事,如果你能标个来源和署名,那是你素质高,说不定我们还能交个朋友。
glasslion
2015-02-05 13:28:35 +08:00
@msg7086 这里举GitHub为例有点不恰当。当代码托管在 GitHub, 其版权授权应该满足GitHub 的ToS
https://help.github.com/articles/open-source-licensing/

Generally speaking, the absence of a license means that the default copyright laws apply. This means that you retain all rights to your source code and that nobody else may reproduce, distribute, or create derivative works from your work. This might not be what you intend.

Even if this is what you intend, if you publish your source code in a public repository on GitHub, you have accepted the Terms of Service which do allow other GitHub users some rights. Specifically, you allow others to view and fork your repository.
CopyPaste
2015-02-05 13:32:15 +08:00
算了不说了,讨论个事情真费劲,@9hills你哪里看到我转侵权文章了,说的是网站文章的事情,把github拿出来干嘛?github有各种Licence声明好么。
9hills
2015-02-05 13:38:36 +08:00
@CopyPaste
=============
我去年写了个网站,因为没有什麽信息量,所以爬了2000条数据。这星期接到了对方的信息,让我把爬的数据删了。
=============

请问你获得对方授权了么?这个不是无授权的转载是什么?你不应该关掉?关掉还BB?
9hills
2015-02-05 13:39:12 +08:00
@CopyPaste 另外如果作者没有声明任意Licence,则默认是保留全部权利,你无权转载
CopyPaste
2015-02-05 13:39:33 +08:00
@9hills 你丫看看这是谁写的
9hills
2015-02-05 13:41:42 +08:00
@CopyPaste 另外上面@的是lz,@错了。。
msg7086
2015-02-05 13:42:09 +08:00
@CopyPaste
1. 我举个栗子而已。
2. 有License的时候遵循License,不写License遵循网站TOS与美国版权法。
9hills
2015-02-05 13:42:57 +08:00
@CopyPaste
============
CopyPaste 37 分钟前
@9hills 不知道的还不能问了?了解的就普及下,别在这装清高。
============================

你这个发言让我把你当lz了
miao
2015-02-05 13:52:24 +08:00
google baidu等大公司,爬了互联网几乎所有网页和内容. 到底他们侵权了没?

大量有版权的内容都被他们爬了
@9hills
9hills
2015-02-05 13:59:21 +08:00
@miao 爬虫遵守的是robots协议,这个协议允许爬就能爬。

如果网站没有robots文件,按照Google的解释是不会爬。也是遵循着版权人不允许就不抓取的原则。

另外爬取和展现是两回事,爬取相当于网页本地浏览,展现相当于二次分发。目前搜索引擎的展现仅限于两个:1. 在搜索结果中显示摘要非全文。2. 网页快照

这两个在美国都打过官司,被认为是合理使用,不构成侵权。
miao
2015-02-05 14:30:09 +08:00
@9hills 谢谢解惑.
shakoon
2015-02-05 15:04:12 +08:00
@WhyLiam “一個從0開始的網站,沒有信息,沒有索引,沒有收入。很難做吧。”
是不容易,但也并非不可能。我做过的一个网站就是完全白手起家,半年左右才有比较多的访问量,八九个月时就排到搜索引擎第一位了,而我自始至终未采集任何外站数据、未做任何seo。所以说,真心想做网站,是不需要更是不应该去爬什么东西的,搜索巨头们不是傻瓜,那些东西是抄的一目了然。
peartail
2015-02-05 15:26:56 +08:00
从网站的角度看,爬虫不仅侵权,还浪费了网站的带宽。

我个人觉得有必要通过立法,让robots.txt这种东西不仅仅是一个君子协议,更要有法律效力。
alexkh
2015-02-05 16:06:22 +08:00
爬虫只是内容采集的方式而已,本身并没有侵权不侵权一说。

是否侵权主要针对网站内容而言,如果是被版权保护的内容被采集了,那肯定是属于侵权了;反之就随便采集了。

如果是版权保护内容,不要说用爬虫采集,就是ctrl+c,ctrl+v手动复制粘贴,也仍然是侵权。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/168446

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX