能否建立一个的 AI 训练众包平台

2023-06-14 09:49:31 +08:00
 brainzhang

已经有很多人讨论过这个点子了,就像挖矿一样;能否建立一个的 AI 训练众包平台;家里有显卡的小伙伴可以把闲置的设备租出去赚取收益;而没有强力计算设备的用户无需花费大量资金购买设备, 只需登录平台,提交任务即可进行 AI 训练;

之前的技术瓶颈在于几乎不可能将大规模的 AI 训练拆分成一个个分布式的小任务,因为数据量庞大,并行交换要求高速的带宽等等;但是目前像 Stable Diffusion 这样的图像处理任务,一旦部署了稳定和标准化的模型,是可以将任务拆分为极小的数据单位的;这样技术上就能将一个个任务分配给某一台个人 PC 去处理;

我拍脑袋想了一下,建立这样一个平台的难点在于反作弊和计算量评估;这两点应该都有合适的解决方案;

我搜了一下,目前这个点子的相关项目不是很多,都在起步阶段,我觉得挺有前景的;

大家讨论一下,这个项目在 技术 /商业 /可行性 上有哪里漏洞?

我在 github 上建立一个一下项目,有兴趣的小伙伴可以去讨论下:

https://github.com/aitobox

5824 次点击
所在节点    奇思妙想
82 条回复
brainzhang
2023-06-14 11:12:59 +08:00
@Pteromyini 我的描述可能不是很清楚;这个众包平台并不是要把大模型训练这个过程拆分;而是把一个个完整的任务,比如一个文生图这样的任务,分发给平台上各个接单设备;

这种单个的、使用固定模型、使用标准化参数输入的任务,是可以分别派单的;

这个平台不涉及高深的训练算法;只是想把咸鱼画图接单流水化而已;
chesha1
2023-06-14 11:15:07 +08:00
stable diffusion 本来就是推理,推理当然可以在边缘平台上随便拆分了,你的手机都能跑推理
但是大家现在的需求主要是训练,这个不好拆分
brainzhang
2023-06-14 11:19:58 +08:00
@chesha1 对的;我就是想做一个比较通用的推理众包平台,上面可以运行 stable diffusion 文生图、声音转换等等现成的模型任务;这些任务是可以单卡运行的;

至于需求,这个真不好说;我只能说这个跟公有云是错位竞争,面向个人爱好者和小工作室,不是给大企业训练模型用的;
Genii
2023-06-14 11:27:50 +08:00
联邦学习?
monkeyWie
2023-06-14 12:12:31 +08:00
感觉是个不错的点子,就看怎么抽象和设计了
xu11111111
2023-06-14 12:15:31 +08:00
可是怎么确保不传回假的数据呢,我直接瞎掰一个结果返回给你你怎么知道
就算采用多个设备一起计算
可是不同的设备的随机过程就不一样啊?他和挖矿不一样带了一点开奖的性质在
这样的话服务端怎么确保客户端真的算了呢

- 任务积分
- 并行执行和结果比对
- 信用评分

在可以造假的情况下,12 直接没有意义,3 应该是基于历史的 2 进行评分的吧,那也没有意义了

人工判断?那也太闲了,不同人的主观性如何修正?

综上,感觉不如直接卖设备
chesha1
2023-06-14 12:23:44 +08:00
@brainzhang 关键是推理的需求真不大呀,训练需要快速出结果,迭代提高性能,算法工程师的工资烧着玩是大厂不能接受的
但是推理不在乎速度有多慢,就还拿你举的 stable diffusion 的例子,我把参数设置好,跑一个小时还是两个小时有影响吗?睡觉的时候开着电脑跑就行了
大多数人的手头的设备无法支持需求大显存的训练,但是推理还是能支持的,它们恐怕不太愿意再花钱买推理服务,毕竟手头也有设备,无非就是跑慢一点
brainzhang
2023-06-14 12:23:50 +08:00
@xu11111111

反作弊确实是个问题;但我认为并不是无解的;

1. 首先,像文生图这样的任务,如果传入相同的参数,指定同样的模型,其结果是固定的,并不是随机的;所以可以通过相同任务分给多个接单者,然后进行结果比对,来排查有没有作弊;

2. 因为最终用户会感知结果好坏,可以像咸鱼那样,对接单者和用户都建立评分机制;久而久之,可靠的接单者和可靠的用户自然会脱颖而出;这样就形成了类似于 信用极好者与信用极好者 交易的氛围;就从经济机制上反作弊了

3. 平台人工判读;首先我觉得做好了 1 ,2 ,需要人工判读的时候并不多;至于太闲了或主观性,想想内容审查就知道了;判断一个 AI 文生图好不好,总比内容审核靠谱简单多了;
brainzhang
2023-06-14 12:26:15 +08:00
@chesha1 您说的就是问题所在啊,有的人显存并没有那么大;他不可能为了生成一张图去买个显卡吧;也不太可能去买个公有云服务去搞一遍搭建吧;只能去用像 midjourney 这样的现成的服务;或者他就想一次快速生成 1000 张图片,去买公有云的价格肯定不便宜;

一个 all for one ,one for all 的众包平台,会极大的降低成本;
Pteromyini
2023-06-14 13:21:52 +08:00
@brainzhang #28 1 就有问题,结果不是固定的,他确实是随机的,训练过程必然会添加 noise ,2 好坏与设备无关,更多看运气,要不然也不会把深度学习称为炼丹了
brainzhang
2023-06-14 13:38:27 +08:00
@Pteromyini

有 noise 的训练先不分给新来的接单者做;

先把固定参数、固定模型的推理任务交给新人做;像 stable difussion ,固定的参数配置输入,结果是相同的,可以分给三个人同时做,然后比对结果;

随机的训练交给"信用极好"者来做;信用只能通过时间和任务来累积;这样就从经济模型上规避作弊风险了;
woctordho
2023-06-14 13:45:16 +08:00
AI Horde 已经相当成熟了,它就是一个大模型(包括图片生成和文字生成)的众包平台
woctordho
2023-06-14 13:46:48 +08:00
建议楼主先搞清楚“训练”和“推理”这两个概念,普通用户输入文字输出图片不叫“训练”,叫“推理”

随机数的问题只要给定随机种子就行了
brainzhang
2023-06-14 13:50:24 +08:00
@woctordho 是的;我的用词不严谨;这个平台主要作用是推理;

当平台通过用户的推理任务完成度,建立信用机制后;可以引入一些训练的任务;
lambdaq
2023-06-14 13:52:09 +08:00
为什么要拿显卡训练,因为显存在 CUDA core 之间数据复制效率有要求。。。。

你分布式训练,怎么解决各个显卡之间的带宽和延迟问题?
woctordho
2023-06-14 13:57:41 +08:00
@lambdaq 分布式训练也有人试过,比如 https://training-transformers-together.github.io/

他们估计分布式训练中 IO bound 的部分在过去两年里已经快了一万倍,继续进化的话因特网上通信的速度赶上几年前 NVLink 的速度也不是不可能
brainzhang
2023-06-14 13:58:01 +08:00
@lambdaq 前期可以只做单卡运行的推理任务;
lambdaq
2023-06-14 14:04:06 +08:00
@woctordho 延迟呢?一卡有难万卡围观?
shalingye
2023-06-14 14:05:36 +08:00
这个项目我王多鱼投了!
brainzhang
2023-06-14 14:06:51 +08:00
@lambdaq 一个任务就在一张卡上跑啊; 想要快,就选性能强的节点,多消耗积分;

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/948555

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX