有熟悉算法的朋友吗，问几个算法难题哈！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 33 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天用 pytorch 训了一个“推文评估专家”，

输入是历史上所有火了的内容，

用户可以输入自己想要发布的内容，输出是火的概率，

发之前先看专家怎么说，会不会因为 NSFW 被处罚。

感悟：AI 真是数据吞金兽，数据标注，数据清洗真累人.

未来：

可以发展演进成，人类喜好偏好打分 Agent.

我发现的新问题（难题）：

1. 文本的偏好识别写好的代码，是否可以服用一些模块，迁移泛化到图片、视频、音频、代码的偏好识别？

2. 如何获取高质量的文本、图片、视频、音频数据？高质量的定义标准是什么？

3. 如何应对同一个问题因为时间的迁移带来的不同正确答案？譬如 2022 年之前阿里 CEO 是张勇，2023 年开始换人了.

4. 如何应对空间因素带来的答案变化，譬如提到本市的时候，在上海就是上海，在成都就是成都？

5. 如何应对时间函数，即有些内容符合当下热点，因此符合人类偏好，过了时间信息又不重要了？

6. 有哪些分布式训练和分布式推理的框架和技术可以试用（给几个关键词我查查）？

7. fine-tuning 、LoRA 的技术实现区别是什么？需要的数据量差异是什么？

9. 机器配置不够好的情况下，如何成本可控地做相应的模型训练实验？租哪里的算力更合算？

10. 训练数据有脏数据的情况下（譬如 10%），如何把脏数据遗忘掉，而不用重新训练？

目前尚无回复