假如我扒光了 XXX 网站的内容……会怎么样?

84 天前
 craftx
文中的 XXX ,可以替换为任何一家网站。

首先假设:
1. XXX 是由一家中国大陆地区的商业公司建设和运营。——注意这里有两个重点,运营方是追求利润的公司,而且是中国大陆地区的公司(比如世纪佳缘那种)
2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ,禁止爬虫
4. XXX 有反爬虫机制,比如限制单个 IP 的访问频率、验证码、滑块

然后假设,我扒光 XXX 的手段包括且不限于:
1. 伪造浏览器标识,或者直接使用无窗口浏览器模拟人类真实操作
2. 变换 IP 地址
3. 通过技术手段模拟人类真实操作去突破验证码、滑块等反爬虫机制

最后假设,我拿到 XXX 的全部内容后,用于下面的目的:
1. 训练深度学习语言模型,模型可能开源或闭源,训练目的可能是技术研究或者商业应用
2. 语言模型推理的外挂知识库,XXX 的内容可能直接原文插入到知识库,也可能经过清洗、分割、增强、重新合成后插入到知识库。——注意这里两个使用方式是有区别的,一个用原文,一个非原文

那么,会怎么样?
3391 次点击
所在节点    问与答
16 条回复
wclebb
84 天前
参考纽约时报告 OpenAI 。
blackeeper
84 天前
放心吧,只要你用于商业行为,严重影响到他,可以抓到你的。
XXX 的内容是有指纹标记的,不管你怎么清洗处理,总会有漏网之鱼。
找到一处标记,就可以锁定了
opengps
84 天前
凡是擦边的,无论做不做,都不要拿出来公开说
opengps
84 天前
你拿出来说无非是想分摊风险,但既然你要做这事了,风险都应当是你自己去承担,别人参与讨论也不是在帮你找越线边界
Greendays
84 天前
首先这个网站得发现你的违法行为。
falcon05
84 天前
现在的各种大模型就是最大的爬虫,网站早就被扒了不知多少次了。
coderluan
84 天前
那么你就是把来源删了的 new bing.
darkengine
84 天前
2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ,禁止爬虫
------

有了这两条,就看 xxx 公司能不能发现你爬数据,以及想不想搞你了。
esee
84 天前
🌚大部分公司并不是只靠这个软件信息系统挣钱,真正支撑起来的是后面的业务团队,这个业务团队利用这些信息才能挣到钱,少了一方都没啥用。大部分程序员都会有一种错觉,把对方的功能或者网站或者资料复制一份过来,也能复刻出一个一样的挣钱模式
summerwar
84 天前
我不觉得国内哪个网站的资料值得,当然,你获得了一堆资料,但是宣传的时候如果用了这家网站的资料作为噱头,而他们查完发现你并不在付费用户之中,那么你就有了一次难得的机会,去解释获取资料的合理途径。
NoOneNoBody
84 天前
最近一个月扒了十几个站,正在等律师信,透过 tor 搭桥扒的
googlefans
84 天前
可以随时告你
zerovoid
84 天前
不会怎么样,这家公司只会把自己的技术风控部门给开除了
jackOff
84 天前
哪怕你爬了了诈骗网站内容警察也可以抓你,除非你有所谓的重大立功。否则你的行为就是爬虫犯罪
wnpllrzodiac
84 天前
你被网站扒光。。。
flynaj
84 天前
你说的就是百度,中文网站很多就是这样被百度干死的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1076497

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX