看今天的阮一峰周报想到个点,数据共享计划

201 天前
 meeop

当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益

那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?

我能想到的一个方案:

做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用

这个方案能做到:

免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
数据来源于人民,再被人民分发出去,道德架构上合理

3227 次点击
所在节点    问与答
41 条回复
iyiluo
201 天前
不是已经有了吗,web3 的数据存储,filecoin 啥的。你想的方案一看就是违法的,所有绕过 robots.txt 策略的爬虫都不怎么合法
meeop
201 天前
@iyiluo 咱讨论是否合理,恶法非法
kenshinhu
201 天前
我认为应尽量降低服务器存储的费用,并确保数据的长期保存。我不禁想到那些保存了数百万年信息的化石,这可能是最优的解决方案。

试想一下,如果前一个文明发展到了比我们更高的科技水平,他们是否也曾一开始使用电子设备记录信息?后来,他们可能也发现了类似的问题,才意识到石头是最廉价且时效最长的解决办法。
liprais
201 天前
你准备进去蹲几年?
meeop
201 天前
@liprais 一天也不想进去,只是讨论
meeop
201 天前
@liprais 以及这个行为其实是合法的,我把我们的聊天截图后保存,分发,难道有哪里违法吗?
pkoukk
201 天前
每个用户上报的数据相当于自己详细的浏览记录,属于个人隐私数据,还是极度隐私
你愿意公开自己的浏览器记录?
summerwar
201 天前
请先回答下面的问题:

1.对于用户来说,这个插件的使用是收费的还是免费的?查阅别人产生的数据是收费的还是免费的?

2.别人使用插件产生的数据,是否对用户有益(金钱激励还是积分或者等级等提升)?如果有益,这些益处是否能让用户愿意让渡个人隐私而使用,如果免费,用户为何要使用插件来产生数据?

3.数据存储到哪里?服务器、数据库以及所产生的的各种费用谁来支付?代码及这些数据的日常维护产生的费用如何支付?

4.数据如何展示和使用?由展示产生的费用如何支付?

5.作为反对数据封闭的一员,你的数据必然不会封闭起来,那么请问,由此产生的爬虫问题如何解决?是否要屏蔽或者防止爬虫爬取数据?为了与目的相一致必然不能禁止爬虫,那么因为爬虫产生的流量费用如何支持?
yxd19
201 天前
@kenshinhu 那么是否需要大容量呢?如果它低成本大容量长期保存,那么它岂不是成了六边形战士了?那就不是想不想有而是能不能有的问题了。
MMM25O7lf09iR4ic
201 天前
他能浏览不代表你能爬取他浏览的,某个网盘共享插件也干过这种小聪明,判了几年。
meeop
201 天前
@pkoukk 所以强调是在用户允许下共享特定数据

比如你是一个博主,每发一篇博客插件都会问你,是否愿意共享此篇博客到全网,通常应该都是愿意的。

另一个场景,我是一个普通用户,插件给你个按钮,推荐当前内容到全网(这个行为应该是会违法网站用户协议,不过每个人分享几篇内容目前不违反任何法律)
meeop
201 天前
@summerwar
1 是否收费
必然不能收费,用爱发电,收费那就是非法牟利了
而且插件也未必是某个特定的人开发,它应该是类似 bt 下载之类的开源协议和客户端

2 是否有激励
一般没有
用户分享一般目的是分享自己发布的内容,以及如标题所述为打破数据垄断做一点微小的贡献
但也可以有
比如你可以悬赏说挖一篇抖音的视频返现几毛钱(少量分享目前是灰产,就各个网站之间互相搬运,剽窃别人创作的内容)

3 数据存哪里?
不存储
这里只是尝试建立一个内容共享生态机制
存储是内容消费侧考虑的事

当内容充分共享时,当然是谁用谁存储,各取所需
比如我提供一个网盘下载搜索,我自然要监听网盘类资源共享消息并存储

4 如何消费
如 3 所述,取决于生态圈具体的应用

5 如何反爬?
数据都共享了还爬什么,直接监听共享消息啥都有
meeop
201 天前
@erwsd32ew 那肯定,所以需要用户授权,这是用户行为,插件只是提供工具
kenshinhu
201 天前
那也是的,大容量存储是个重要的东西。不过,假如有了低成本、长期保存的方法,那信息压缩还会同时发展吧!

像那些远古的化石,虽然看起来只是石头,但实际上它们保存了非常丰富的信息,比如气候变化、生物进化等。这些信息在石头中存储了数百万年,而且非常密集。
pkoukk
201 天前
@meeop #10 你这样相当于把互联网所有内容的风险转嫁到自己身上了,有人通过这个发色情,诈骗,你就得因为帮信蹲牢子
qq135449773
201 天前
其实我觉得这个想法是 ok 的,但是现在需要立法角度考虑 1 用户数据归属权 2 赋予爬虫更宽松的合法权力。

指望国内某些人这辈子能想到这个问题肯定是没戏了。但是另一方面,不止国内,现在国外因为最近几年 AI 大火特火,各家各户都在各种限制爬虫。

这样下去肯定不是办法,我估计将来为了保护互联网开放权力,迟早国外会有国家牵头法律上去限制这种城墙高筑的行为。
somebody1
201 天前
你开发吧。

反正我不会用的,我浏览网站都不想网站知道,还想让你个第三方知道!!!
meeop
201 天前
@pkoukk 我觉得不会,因为第一转发的人是某个具体用户,行为主体是该用户,第二也不存在“我”,因为这就是个开源软件,而且作者还是个外国人的话,中国法律管不到.

比如说有人用 bt 分发色情信息,抓谁?
meeop
201 天前
@qq135449773 我觉得指望庙堂去改革是不可能的,也没有动力去改革

要想改变只能靠群众自发支持新技术

比如说短信和电话费用贵,我就做个 im 软件,当时不是各种阻挠吗,如今不还得妥协
还有个例子是电视机顶盒,明明互联网电视更方便,但是就是不让介入,现在把电视搞得没人看了

所以你觉得信息垄断不好,就应该力所能及的支持一些反垄断方案
meeop
201 天前
@somebody1 那是因为你是实名认证浏览的,允许匿名账户不关联具体个人信息不就完了

比如别人看到的是“火爆兔兔”浏览了 xx 网站,分享了 xx 信息

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047609

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX