看今天的阮一峰周报想到个点,数据共享计划

202 天前
 meeop

当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益

那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?

我能想到的一个方案:

做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用

这个方案能做到:

免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
数据来源于人民,再被人民分发出去,道德架构上合理

3227 次点击
所在节点    问与答
41 条回复
pkoukk
202 天前
@meeop #17 你的软件通过什么途径,把信息“广播”到网络上面去呢?
网页么?那这个网页是谁提供的?如果是你,那么这个网站上出现违法内容,你就要担责。
如果你找些 github 这些公开免费网页作为途径,相当于薅公共服务的羊毛,他们愿意接收么?
meeop
202 天前
@pkoukk 用 gossip 协议啊,比特币用的这个
或者用 dht 协议,ipfs 和 bt 都是这个方案
还可以用一些免费公共服务做信号服务器,比如电报群
或者使用 mastodon 等区中心消息服务

这些方案都不依赖中心服务器,上面都有违法内容,都不需要有人担责
somebody1
202 天前
@meeop #20

厂商的隐私保护我都没法全信,你谁啊,你搞个匿名我就信?
meeop
202 天前
@somebody1 这里的隐私保护不是基于信用的,而是基于算法

上述比特币啊,dht 啊,电报啊都是保护隐私的

判断原理也很简单,只要一个服务不需要你填写任何隐私信息,那就是保护隐私了啊
你啥都没填有啥好获取的
如果是怕木马病毒后门之类,可以靠开源社区保证,你不懂有比人懂,代码开源的有问题就爆出来了
H97794
202 天前
各个大厂互相投广告!!!
linyongxin
202 天前
前段时间有篇爆文“中文互联网正在加速崩塌”,第二天全被删了。
meeop
202 天前
@H97794 确实会如此,相当于 ddos 攻击

不过那是这个服务有很高热度之后的事了,而且也不是没法解决
meeop
202 天前
@linyongxin 这也是数据被垄断的另一个体现啊,因为数据被少数寡头控制,所以你才能很简单的删除

数据分发到全网的话,根本不可能被删除
pkoukk
202 天前
@meeop #21 那你这个服务也不算 “广播” 吧,实际就类似于 tg 上面的盗版资源分享群咯?
想看到这些内容,也得知道你这个地方,再加入你这里,才看得到。
tg 上的盗版群也是需要管理员的,否则大量的灰黑产广告就会淹没有效信息
YGHMXFAL
202 天前
@meeop #22 IPFS/BT 这些都是抗审查不抗封锁,ISP 有心/有红头文件,你这一套从技术上就玩不转了
meeop
202 天前
@pkoukk 确实具体实现还是有挑战的,主要在如何治理垃圾信息
meeop
202 天前
@YGHMXFAL 我觉得不至于
1 如果真有红头文件,说明这一套这的可行且有很多人用(有巨大影响),那就已经成功了,能吸引到更多资源去对抗和迭代技术
2 理论上只要能和墙外服务器建立数据连接,就能实现所有信息的传播
实践层面上,比如 v2ray,支持对通信流量进行混淆和隐藏,看起来就是一个普通的 http 或者其他人畜无害协议包

一个简单的解法就是挂个梯子,后面就是外网对外网的通信了,国内管不着
YGHMXFAL
202 天前
还有一个问题就是,你这一套,在数据巨头看来也很好打击:

强制内容登录后可见,然后加隐藏水印,以后在私域之外发现该内容就追踪+封号

不止是截图可以藏水印,复制也可以藏“水印”,看看起点怎么追杀盗版,每一个账号看到的内容实际上不一样,随便多一个/错一个空格/空行/标点符号,不影响阅读,但是能追踪到你
YGHMXFAL
202 天前
@meeop #32 那网民都有能力/兴趣到墙外冲浪了,还搬运墙内私域的内容干啥呢?你是说想搞互联网档案馆墙内专版吗?这个中国数字时代就是吧?
meeop
202 天前
@YGHMXFAL 这个还是技术对抗问题
只要资源足够,你能反爬,我就能解反爬,结果取决于谁资源多

对于我说的这个场景,项目不成功没人对抗我,项目成功就有更多资源升级技术

而且最近不是还有兜底方案吗,直接用 ai 理解页面内容再整理数据输出,我已知的所有水印技术都会失效(明水印,隐水印,字符里藏隐藏字符或者编码)
prompt 比如这么写:帮我理解当前页面,重新绘制所有图片并略微修改规避版权,重新理解并描述所有文字,并去掉可能的用户追踪编码
meeop
202 天前
@YGHMXFAL 只是讨论,比如打破数据垄断,实现真正意义全网数据共享?
YGHMXFAL
202 天前
@meeop #35

①还需要网民有访问 AI 的能力,拉高了门槛,自然就缩小了受众圈子

②AI 重构原始内容,必然存在理解偏差和失真,失真后,受众能否接受?我个人不能接受
Goooooos
202 天前
“数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利”


数据是用户创造没错,用户可以上传多家平台,除了特定签约用户,没人限制只能上传某个平台
summerwar
201 天前
你使用任何协议,即使不依赖于中心服务器,那么也必然存在着存储这些数据的服务器?那么请问,这些服务器存储这些数据,对他们有何益处?他们为什么要消耗金钱来存储这些东西?

其次,这些数据既然是开源的协议和客户端,那么必然要考虑第二个问题,如何保证数据的真实性。当用户访问量大的时候,我直接往上面发送大量广告数据或者垃圾数据如何处理?如何保证数据的干净,减少垃圾数据的产生?数据是否能够修改,如果可以修改,如何保证不被篡改?

最后,bt 协议也好,其他的协议也好,必然是对用户来说,好处大于坏处的,你这个我没看出来对用户好在哪里?

数据是免费的,但是存储数据和展示数据是需要消耗货币的,维护数据和筛选数据也是需要消耗货币的,不能觉得因为数据是用户直接共享的,而认为没有成本,其实成本还是很高的。

技术手段不能解决所有问题,但所有的问题最终要回到经济问题上来,那就是钱从哪里来?

btw:广播全网,这里的全网指哪里?下游消费者就能存储解析,整理全网原始数据,那么当这个数据巨大的时候 ,每个人的硬盘上都先存储一份吗?按照今天互联网数据的产生速度,怕是不到一个月数据就把硬盘撑破了
TY233
201 天前
@yxd19 感觉你在说 DNA ,信息密度和时间尺度都是顶级容器

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047609

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX