求教一个机器学习相关的问题:多情感分类

2018-12-01 23:33:04 +08:00
 ACSuperChen

最近在做毕设,然后毕设题目大概是:基于文本的多情感分类,重点就是这个字。
按照要求,大概要分四种情感。但是百度了一通,发现现在做的,好像都是情感二分:积极 or 消极,很难进行更多情感的分类。而且,现在进行分类的思路也就是是 NLP 相关的东西
所以,想问下懂的 V2er,如果有做过这方面的大佬,我想请教一下,该用什么思路去完成这种多情感的分类?我只需要思路,不需要具体实现,或者有参考的文献更好,谢谢!

2446 次点击
所在节点    程序员
18 条回复
fairyto2
2018-12-02 00:03:40 +08:00
无监督的话即使是二分类准确率也不高
txy3000
2018-12-02 00:11:56 +08:00
数据集先跑一种情绪模型二分 负集部分再跑其他类型情绪模型做二分。。

如果样本可以复合多种情绪标签,正集也跑一次。。

multilable classification deep learning Google 一下应该有你需要的吧
diggerdu
2018-12-02 00:17:12 +08:00
mutli tasking learning / multi instance learning
随便搜了下 找到一篇 ijcai2018 的文章 Text Emotion Distribution Learning via Multi-Task Convolutional Neural Network
仅供参考
Xs0ul
2018-12-02 01:40:29 +08:00
模型完全不是问题,二分类和多类并不算多大的差别。关键是你要怎么去找到对应的数据
Xs0ul
2018-12-02 01:49:28 +08:00
推荐一个论文和思路:DepecheMood
大致就是很多新闻之后会有 7、8 个按钮,震惊之类的,就直接把这些作为标签。论文里用的网站 www.rappler.com
bugcoder
2018-12-02 01:57:04 +08:00
可以做 emotion analysis 啊。
six basic emotions: happiness, sadness, anger, fear, surprise, and disgust.
做学问请不要用百度。找到你要做的题目的对应准确英文,然后用 google scholar 搜索。
bugcoder
2018-12-02 02:07:09 +08:00
https://pdfs.semanticscholar.org/12f8/11a52e5a786f556598c99c560ee3539ad684.pdf
这个地方列举了不少 sentiment analysis tasks,可以用来开拓思路。
kingcos
2018-12-02 03:15:45 +08:00
提个外行的问题,人要是假装,比如说假笑,怎么区分呢……
dartabe
2018-12-02 04:05:04 +08:00
就像上面说的 多次二分

比如 兴奋 非兴奋

开心 不开心

悲伤 不悲伤

名字我有点忘了 好像是逻辑回归的多分类拓展
dartabe
2018-12-02 04:06:30 +08:00
输出套一个 softmax 好像也是多分类吧
Kilerd
2018-12-02 07:12:15 +08:00
我的毕业也是情感多分类,同 6 楼那样,一开始想做六个分类,但是准确度奇差()
Kilerd
2018-12-02 07:13:29 +08:00
可能是我水平问题,后来改成了三分类,积极 中立,消极。效果还可以,80 的正确率,勉强能当毕设用
Kilerd
2018-12-02 07:16:13 +08:00
在做六分类的时候,我发现 marker 的个人主观性占了很大的评判比例,happiness surprise 太难分了。 对了,我用的数据是自己爬的豆瓣电影评论
Kilerd
2018-12-02 07:18:56 +08:00
@kingcos 正常的语料,不用 deep learning,只用统计法都可以判出来是 negative 的
itskingname
2018-12-02 09:08:13 +08:00
我司目前已经有成熟可用的九情感分类了。
swordspoet
2018-12-02 09:21:22 +08:00
不知道你的数据集有没有标签,数据质量如何,如果上述两个问题的答案是肯定的,这个问题是比较简单的。传统的机器学习和深度学习都比较擅长解决这类问题,数据是中文的,你还要分一分词,如果是英文的那就更好办了; sklearn 的 svm、贝叶斯,TensorFlow 的 textcnn、textrnn 在不在调参的基础上都能取得不错的效果,四分类不是一个太难的问题。

楼主可以 Google 关键词:text classification textcnn/textrnn,还有看看 sklearn 的官方文档,上面的例子蛮多的。
winglight2016
2018-12-02 09:47:11 +08:00
给 lz 提供一个极简方法: 设置两个门槛值,一个对应积极,一个对应消极,落在中间的部分就是中立,这样三个分类也算“多”分类了吧
rochek
2018-12-03 14:42:52 +08:00
这个很好做的,搜 text classification 一堆
基本原理就是文本分类,处理的好的话准确率应该 90 以上

数据集可买,可自搜
模型可买,可写

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/513445

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX