首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shiji
V2EX  ›  问与答

机器学习,怎么判断数据是否有学习的意义?

  •  
  •   shiji · 45 天前 · 797 次点击
    这是一个创建于 45 天前的主题,其中的信息可能已经有所发展或是发生改变。
    假设数据大于一千条,参数 30 个左右。
    简单试了 sklearn 的大部分 classifier 和 regression,准确率和随机猜答案没多少区别。。

    是不是意味着这组数据确实挖掘不出什么价值?

    数据是:
    https://archive.ics.uci.edu/ml/machine-learning-databases/00503/
    8 回复  |  直到 2019-12-06 14:12:33 +08:00
    Xs0ul
        2
    Xs0ul   45 天前   ♥ 1
    https://archive.ics.uci.edu/ml/datasets/Hepatitis+C+Virus+%28HCV%29+for+Egyptian+patients

    手滑发出去了. 这个数据集应该是随着这篇论文发表的. abstract 里说达到了 99.48% 的 accuracy

    刚开始尝试可能没法达到这么好的效果,但是 classification 和 regression 都没想好就试,不太合理吧
    shiji
        3
    shiji   45 天前
    @Xs0ul 那个 paper 我看了,作者对比了自己的算法,和一些常见的算法。比如 OneR, 他 oneR 就已经有百分之九十五的准确率了。所以按理来说某一个 attribute 是和要预测的那一列强相关,然后 coefficient 跑出来,都很散,参数和参数之间关联性都很弱,所以我怀疑是这份上传的数据有问题。。才有了这么一问
    shiji
        4
    shiji   45 天前
    RHxW
        5
    RHxW   45 天前
    特征工程?
    Xs0ul
        6
    Xs0ul   44 天前
    @shiji #4 压缩包里的 Discretization-Criteria.csv 你试了吗?看起来有默认的一些离散化
    shiji
        7
    shiji   44 天前
    @Xs0ul 试过了,原始数据,和离散化之后的我都试过了。
    wysnylc
        8
    wysnylc   44 天前
    人肉智能,人肉
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4123 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 51ms · UTC 01:43 · PVG 09:43 · LAX 17:43 · JFK 20:43
    ♥ Do have faith in what you're doing.