当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益

那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?

我能想到的一个方案:

做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用

这个方案能做到:

免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
数据来源于人民,再被人民分发出去,道德架构上合理

pkoukk

202 天前

@meeop #17 你的软件通过什么途径，把信息“广播”到网络上面去呢？
网页么？那这个网页是谁提供的？如果是你，那么这个网站上出现违法内容，你就要担责。
如果你找些 github 这些公开免费网页作为途径，相当于薅公共服务的羊毛，他们愿意接收么？

meeop

202 天前

@pkoukk 用 gossip 协议啊,比特币用的这个
或者用 dht 协议,ipfs 和 bt 都是这个方案
还可以用一些免费公共服务做信号服务器,比如电报群
或者使用 mastodon 等区中心消息服务

这些方案都不依赖中心服务器,上面都有违法内容,都不需要有人担责

somebody1

202 天前

@meeop #20

厂商的隐私保护我都没法全信，你谁啊，你搞个匿名我就信？

meeop

202 天前

@somebody1 这里的隐私保护不是基于信用的,而是基于算法

上述比特币啊,dht 啊,电报啊都是保护隐私的

判断原理也很简单,只要一个服务不需要你填写任何隐私信息,那就是保护隐私了啊
你啥都没填有啥好获取的
如果是怕木马病毒后门之类,可以靠开源社区保证,你不懂有比人懂,代码开源的有问题就爆出来了

H97794

202 天前

各个大厂互相投广告!!!

linyongxin

202 天前

前段时间有篇爆文“中文互联网正在加速崩塌”，第二天全被删了。

meeop

202 天前

@H97794 确实会如此,相当于 ddos 攻击

不过那是这个服务有很高热度之后的事了,而且也不是没法解决

meeop

202 天前

@linyongxin 这也是数据被垄断的另一个体现啊,因为数据被少数寡头控制,所以你才能很简单的删除

数据分发到全网的话,根本不可能被删除

pkoukk

202 天前

@meeop #21 那你这个服务也不算 “广播” 吧，实际就类似于 tg 上面的盗版资源分享群咯？
想看到这些内容，也得知道你这个地方，再加入你这里，才看得到。
tg 上的盗版群也是需要管理员的，否则大量的灰黑产广告就会淹没有效信息

YGHMXFAL

202 天前

@meeop #22 IPFS/BT 这些都是抗审查不抗封锁,ISP 有心/有红头文件,你这一套从技术上就玩不转了

meeop

202 天前

@pkoukk 确实具体实现还是有挑战的,主要在如何治理垃圾信息

meeop

202 天前

@YGHMXFAL 我觉得不至于
1 如果真有红头文件,说明这一套这的可行且有很多人用(有巨大影响),那就已经成功了,能吸引到更多资源去对抗和迭代技术
2 理论上只要能和墙外服务器建立数据连接,就能实现所有信息的传播
实践层面上,比如 v2ray,支持对通信流量进行混淆和隐藏,看起来就是一个普通的 http 或者其他人畜无害协议包

一个简单的解法就是挂个梯子,后面就是外网对外网的通信了,国内管不着

YGHMXFAL

202 天前

还有一个问题就是,你这一套,在数据巨头看来也很好打击:

强制内容登录后可见,然后加隐藏水印,以后在私域之外发现该内容就追踪+封号

不止是截图可以藏水印,复制也可以藏“水印”,看看起点怎么追杀盗版,每一个账号看到的内容实际上不一样,随便多一个/错一个空格/空行/标点符号,不影响阅读,但是能追踪到你

YGHMXFAL

202 天前

@meeop #32 那网民都有能力/兴趣到墙外冲浪了,还搬运墙内私域的内容干啥呢?你是说想搞互联网档案馆墙内专版吗?这个中国数字时代就是吧?

meeop

202 天前

@YGHMXFAL 这个还是技术对抗问题
只要资源足够,你能反爬,我就能解反爬,结果取决于谁资源多

对于我说的这个场景,项目不成功没人对抗我,项目成功就有更多资源升级技术

而且最近不是还有兜底方案吗,直接用 ai 理解页面内容再整理数据输出,我已知的所有水印技术都会失效(明水印,隐水印,字符里藏隐藏字符或者编码)
prompt 比如这么写:帮我理解当前页面,重新绘制所有图片并略微修改规避版权,重新理解并描述所有文字,并去掉可能的用户追踪编码

meeop

202 天前

@YGHMXFAL 只是讨论,比如打破数据垄断,实现真正意义全网数据共享?

YGHMXFAL

202 天前

@meeop #35

①还需要网民有访问 AI 的能力,拉高了门槛,自然就缩小了受众圈子

②AI 重构原始内容,必然存在理解偏差和失真,失真后,受众能否接受?我个人不能接受

Goooooos

202 天前

“数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利”

数据是用户创造没错，用户可以上传多家平台，除了特定签约用户，没人限制只能上传某个平台

summerwar

201 天前

你使用任何协议，即使不依赖于中心服务器，那么也必然存在着存储这些数据的服务器？那么请问，这些服务器存储这些数据，对他们有何益处？他们为什么要消耗金钱来存储这些东西？

其次，这些数据既然是开源的协议和客户端，那么必然要考虑第二个问题，如何保证数据的真实性。当用户访问量大的时候，我直接往上面发送大量广告数据或者垃圾数据如何处理？如何保证数据的干净，减少垃圾数据的产生？数据是否能够修改，如果可以修改，如何保证不被篡改？

最后，bt 协议也好，其他的协议也好，必然是对用户来说，好处大于坏处的，你这个我没看出来对用户好在哪里？

数据是免费的，但是存储数据和展示数据是需要消耗货币的，维护数据和筛选数据也是需要消耗货币的，不能觉得因为数据是用户直接共享的，而认为没有成本，其实成本还是很高的。

技术手段不能解决所有问题，但所有的问题最终要回到经济问题上来，那就是钱从哪里来？

btw：广播全网，这里的全网指哪里？下游消费者就能存储解析，整理全网原始数据，那么当这个数据巨大的时候，每个人的硬盘上都先存储一份吗？按照今天互联网数据的产生速度，怕是不到一个月数据就把硬盘撑破了

TY233

201 天前

@yxd19 感觉你在说 DNA ，信息密度和时间尺度都是顶级容器

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047609

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

看今天的阮一峰周报想到个点,数据共享计划

当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

我能想到的一个方案:

这个方案能做到: