各位 大佬们 关于机器学习 数据集中特征少

2019-10-10 08:47:21 +08:00
 Liu6
数据集中 只有一列 id 和 comment 然后 comment 全是中文 这个怎么进行处理??? 加特征吗 ? 那应该加什么特征呢???? 第一次接触文本数据集
2142 次点击
所在节点    问与答
25 条回复
Liu6
2019-10-10 08:48:39 +08:00
我是萌新 !!! 求各位大佬 解答!!!
Liu6
2019-10-10 09:01:55 +08:00
QAQ 么大佬解答吗? QAQ
SeaRecluse
2019-10-10 09:08:15 +08:00
并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复?
Liu6
2019-10-10 09:12:51 +08:00
这里好像不能发图片 就是一列 iD   一列 评论  类似 商店评论  然后 在预测
e3kiq0
2019-10-10 09:18:46 +08:00
是不是应该有个具体点的预测目标?
vsitebon
2019-10-10 09:23:07 +08:00
发图片的方法: https://www.v2ex.com/t/408727?p=2
Liu6
2019-10-10 09:23:15 +08:00
@e3kiq0 一列  ID  一列 label一列  comment    label  只有0或1  0 代表 comment 中的好评论 1反之    comment  全是中文评论 上面是训练集   对这个训练集 操作  然后对 test 集中的 comment 预测2000条评论 看是0 还是1
Liu6
2019-10-10 09:31:04 +08:00
@vsitebon 看了 但是 还是云里雾里的 不会 QAQ 不知道怎么把电脑上的 图片 上传
Liu6
2019-10-10 09:32:04 +08:00
数据包含 2 个 csv 文件:

train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。

字段名称 字段说明
comment comment 即用户评论
label label 是评论的类别,有 0 和 1 两个值
test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。

字段名称 字段说明
id 行的唯一标示,提交时需要一一对应提交结果文件
comment comment 即用户评论
e3kiq0
2019-10-10 09:34:18 +08:00
直接用 comment 学习效果怎么样?
Liu6
2019-10-10 09:34:52 +08:00
比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了
duanxian1hao
2019-10-10 09:35:37 +08:00
萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示;
e3kiq0
2019-10-10 09:39:58 +08:00
e3kiq0@foxmail.com 能不能分享一下数据?学习一下。感谢 。
Eleutherios
2019-10-10 09:52:27 +08:00
等等……#11 的意思是,比赛题不会做了,请外援出出主意?

It is unfair (
Liu6
2019-10-10 10:06:54 +08:00
@Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化
lv2016
2019-10-10 10:15:32 +08:00
之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等
TimePPT
2019-10-10 10:22:57 +08:00
这不就是典型的二分类问题么……题目已经很简单了😂
Liu6
2019-10-10 10:39:36 +08:00
@TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办
TimePPT
2019-10-10 10:43:58 +08:00
@Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6
Liu6
2019-10-10 10:47:30 +08:00
@TimePPT 感谢! 我去瞅瞅

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/607698

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX