能否建立一个的 AI 训练众包平台

已经有很多人讨论过这个点子了，就像挖矿一样；能否建立一个的 AI 训练众包平台；家里有显卡的小伙伴可以把闲置的设备租出去赚取收益；而没有强力计算设备的用户无需花费大量资金购买设备，只需登录平台，提交任务即可进行 AI 训练；

之前的技术瓶颈在于几乎不可能将大规模的 AI 训练拆分成一个个分布式的小任务，因为数据量庞大，并行交换要求高速的带宽等等；但是目前像 Stable Diffusion 这样的图像处理任务，一旦部署了稳定和标准化的模型，是可以将任务拆分为极小的数据单位的；这样技术上就能将一个个任务分配给某一台个人 PC 去处理；

我拍脑袋想了一下，建立这样一个平台的难点在于反作弊和计算量评估；这两点应该都有合适的解决方案；

反作弊可以参考挖矿的算法，为每个客户端生成一对公 /私钥，服务端下发每个计算任务时，采用私钥加密；客户端上传每个计算任务时，采用公钥加密；
计算量评估先期可以采用服务端评估的方法；后期可以通过下发任务给配置类似的客户端，采用同一个客户端并行执行同一任务，然后比较计算时间，来建立一个靠谱的计算量评估机制
最后是防止滥用和羊毛党，可以采用信用评分，对于完成任务优秀的客户端打高分，给它分配更多更高收益的任务，从经济系统上进行激励；

我搜了一下，目前这个点子的相关项目不是很多，都在起步阶段，我觉得挺有前景的；

大家讨论一下，这个项目在技术 /商业 /可行性上有哪里漏洞？

我在 github 上建立一个一下项目，有兴趣的小伙伴可以去讨论下:

https://github.com/aitobox

xingHI

2023-06-14 10:11:57 +08:00

人工智能训练本质上也是数学计算的过程，所以分布式肯定是没问题的。但是有一些比较麻烦的问题
1. 你不可能把整个模型都放在客户端，你需要对你的神经网络进行拆分，或者把特定的技术分开，这个拆分目前是否已经有成熟的方案？
2. 神经网络的本质是完整的链接反应和反馈修正，万一某一台没有完成任务，你是不是需要重新分配，那么后面的连接内容是不是就不能继续，就要等待这个完成，这个如何进行优化？
3. 从商业角度来看，你这一套东西之成本，是否比现在成熟的公有云 GPU 算力平台便宜？

brainzhang

2023-06-14 10:13:51 +08:00

拍脑袋简单想一下设计思路；
简单的分为 Client 和 Server 两个部分:

Server 端功能：
=========

- 用户注册和认证：提供用户注册和认证功能，确保只有经过验证的用户才能使用平台服务。

- 任务管理：实现任务创建、分配和执行跟踪功能。将用户提交的任务进行分配给可用的 Client 端，并跟踪任务的执行状态和进度。

- 收益统计和分配：记录用户的工作量和收益情况，并根据平台规则进行收益分配。确保公平和透明的收益分配机制。

- 防作弊机制：实施防作弊机制，采用非对称机密算法确保 Client 端的安全性和工作量的保护。

Client 端功能：
=========

- 安装和配置：用户加入平台后，需要下载和安装 Client 端程序，并进行必要的配置，包括与 Server 端的通信设置和密钥管理。另外要部署好完成任务所需要的环境，比如 StandAlone 的 Stable Diffusion 环境

- 任务接收和执行：Client 端接收由 Server 端分配的任务，执行任务所需的计算操作，并生成结果。

- 结果上传：完成任务后，Client 端使用公钥加密任务结果，然后上传至 Server 端进行验证和处理。

防作弊机制：
=========
- 非对称加密算法：为每个 Client 端生成一对公私钥，Client 端只持有公钥。Server 端使用私钥对任务进行签名，Client 端使用公钥验证任务有效性，以确保任务的安全传输。

- 结果加密：Client 端使用公钥加密任务结果，上传至 Server 端。Server 端使用私钥解密任务结果，确保结果的保密性和完整性。

任务工作量验证和奖励机制：
=========

- 任务积分：根据任务的计算量大小，为任务分配一定的积分，以反映任务的工作量。

- 并行执行和结果比对：Server 端可以将一个任务分配给多个 Client 端并行执行，然后将结果进行比对，以确保结果的准确性和一致性。

- 信用评分：根据 Client 端的历史记录和表现，进行信用评分，评分高的 Client 端可以获得更高的任务奖励，激励诚实工作和打击造假。

总体设计目标：保证平台的安全性、可靠性和公平性，促进用户的参与和奖励诚实工作。

brainzhang

2023-06-14 10:18:38 +08:00

@xingHI
1. 现在想要实现分布式的神经网络训练肯定是技术难度极大的；但是本地跑一个图像生成的任务，肯定是能拆分独立运行的；先做简单的

2. 先不优化，大力出奇迹；接入客户端多了，可以一个任务同时分担到多个矿工机器上去，最后人工或 server 端挑选跑的结果比较好的

3. 这个跟公有云应该是错位竞争；它肯定不如公有云靠谱，毕竟接入的机器可能从 1060 到 A100 都有；但是肯定是能重复利用闲置设备的；这个我觉得算是众包和集中运营各有优势；这种众包形式可以给囊中羞涩的学生或者小工作室提供一个可选项；大公司就去租公有云；

brainzhang

2023-06-14 10:20:28 +08:00

可以更具体一步，当前把 stable diffusion 做成这种众包形式，我觉得技术上应该没有瓶颈吧;

brainzhang

2023-06-14 10:22:15 +08:00

至于模型太大，客户端太臃肿，这个真不用考虑；

当时不是有一堆零知识证明的币，要挖矿就要先下载一个十几 GB 的数据包，大家不也是玩的不亦乐乎嘛

crokily

2023-06-14 10:29:59 +08:00

@brainzhang
那怎么拆分呢，确定能拆的出来吗

brainzhang

2023-06-14 10:32:44 +08:00

@crokily 就拿 stable diffusion 举例子吧；最简单的，就是把 stable diffusion webui 的 Request 请求包装，传给客户端就可以了；每次生成一张图片，请求数据并不大啊；

这个细节在于一个靠谱的、下载好常用模型的 standalone stable diffusion Client ；加入众包平台，等着平台派单就可以了；

zooo

2023-06-14 10:39:23 +08:00

之前有过类似的想法，我记得之前有个帖子讨论过这种情况，好像有人给出过一个项目在做类似的事情

整体想法就是将 AI 计算与挖矿的工作量证明结合起来

难点是防止客户端恶意造假，比如并没有计算而给出错误的计算结果；还有就是估计计算量。

第一点我觉得通过加密的方式也不太好结果，通过多个客户端冗余计算倒是可以解决一些，缺点就是计算浪费了一部分。

hhjswf

2023-06-14 10:40:27 +08:00

早就有了吧

brainzhang

2023-06-14 10:43:59 +08:00

@zooo 我看过那个帖子；我觉得非要跟工作量证明挂钩大可不必；这个目的并不是建立一个去中心化的绝对公正的平台；而是一个比较可行的众包平台；比如我作为运营商给计算用户分配任务，不需要绝对公平，只要让他觉得相对比较公平的任务积分就可以了；初期甚至可以这样，人工来判断这个任务值多少积分，然后下发给合适的接单者；

这个过程初期都可以用人工，后期完成的任务多了，设备也多了，可以从服务端进行统计，为每一个任务建立合适的积分奖励；

brainzhang

2023-06-14 10:45:38 +08:00

@hhjswf 我就找到了一个类似的，也是刚刚在做:
https://github.com/aitobox/AI-Horde

请问您有什么成熟的类似平台推荐一下？我去试用试用，感激不尽；

zooo

2023-06-14 10:47:47 +08:00

@brainzhang 那你这个项目就是偏向将 AI 任务拆分，分布式计算，通过用户自己使用自己的机器接任务。

zooo

2023-06-14 10:48:33 +08:00

我想太多了，想复杂了

看到有加密就想到了挖矿哈哈哈哈

OysterQAQ

2023-06-14 10:50:44 +08:00

搜一下边缘计算的论文吧还涉及到一堆恶意回传梯度的问题

hhjswf

2023-06-14 10:52:40 +08:00

@brainzhang 恒源云算力变现计划

NSAtools

2023-06-14 10:58:01 +08:00

了解一下东数西算战略

brainzhang

2023-06-14 11:05:56 +08:00

@hhjswf 这个我看了；感觉它做的比较高大上，是想要做一站式的分布式 GPU 平台；

我想的这个比较简单，初期可以看成是 Stable Difussion 的众包平台；没有那么通用和底层；

Pteromyini

2023-06-14 11:09:50 +08:00

你想做的实际上跟边缘计算有异曲同工之处，问题是现阶段技术没法做到，而深度学习网络拆分更是大问题，并行计算一直是研究的热门方向，很遗憾，目前并没有太完美的解决方案

glfpes

2023-06-14 11:10:52 +08:00

单卡的训练，做成众包模式肯定没有问题

只是需求端一般是公司或者是科研机构，比起成本更追求服务稳定性，所以这个众包平台的目标客户只能是个人玩家。目前个人玩模型的还是少数，预期也不太可能人均训练模型。所以可能需求不大。

sujin190

2023-06-14 11:11:26 +08:00

数据安全也是一个很大问题，训练用的数据可都是各大公司的资产，云厂商可以通过签署合同承担责任，个人用户你没法约束他而且也不稳定，而且把现在普通显卡和专业超算算力差距会越来越大，大概率得不偿失

再说吧复杂模型必须只能是大厂商巨额投入才能玩得动的，否则如何建立护城河，越是难以进入的领域就代表着越高的回报，资金对于他们来说完全不是问题，所以这个的发展方向只会是更大更贵更复杂