V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
newlin
V2EX  ›  机器学习

有熟悉算法的朋友吗,问几个算法难题哈!

  •  
  •   newlin · 15 天前 · 284 次点击
    今天用 pytorch 训了一个“推文评估专家”,

    输入是历史上所有火了的内容,

    用户可以输入自己想要发布的内容,输出是火的概率,

    发之前先看专家怎么说,会不会因为 NSFW 被处罚。

    感悟:AI 真是数据吞金兽,数据标注,数据清洗真累人.

    未来:

    可以发展演进成,人类喜好偏好打分 Agent.

    我发现的新问题(难题):

    1. 文本的偏好识别写好的代码,是否可以服用一些模块,迁移泛化到图片、视频、音频、代码的偏好识别?

    2. 如何获取高质量的文本、图片、视频、音频数据?高质量的定义标准是什么?

    3. 如何应对同一个问题因为时间的迁移带来的不同正确答案?譬如 2022 年之前阿里 CEO 是张勇,2023 年开始换人了.

    4. 如何应对空间因素带来的答案变化,譬如提到本市的时候,在上海就是上海,在成都就是成都?

    5. 如何应对时间函数,即有些内容符合当下热点,因此符合人类偏好,过了时间信息又不重要了?

    6. 有哪些分布式训练和分布式推理的框架和技术可以试用(给几个关键词我查查)?

    7. fine-tuning 、LoRA 的技术实现区别是什么?需要的数据量差异是什么?

    9. 机器配置不够好的情况下,如何成本可控地做相应的模型训练实验?租哪里的算力更合算?

    10. 训练数据有脏数据的情况下(譬如 10%),如何把脏数据遗忘掉,而不用重新训练?
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   804 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:31 · PVG 04:31 · LAX 13:31 · JFK 16:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.