CNN 人脸表情识别的问题

各位大神，我想请教问题，刚入门的小白。

人脸表情数据集用的 FER2013。

CNN 结构是：conv1(3 3 64)->conv2(3 3 64)->maxpool1->conv3(3 3 128)->conv4(3 3 128)->maxpool2(dropout=0.2)->conv5(3 3 256)->conv6(3 3 256)->maxpool3(dropout=0.25)->conv7(3 3 512)->conv8(3 3 512)->maxpool4(dropout=0.25)->fc1(dropout=0.25)->fc2(dropout=0.25)->softmax

激活函数都是 RElu batch_size=50 learning_rate=0.001 训练数据=30000 个测试数据=5000 个

我发现 epoch 跑到 50 多的时候，每一个 batch 的 loss 跟 acc 开始重复上一个 epoch 了，请问这样应该怎么改进呀，这个模型是看的一篇论文上的，论文上能跑到 60%，我卡在 25%不动了

希望大佬们如果做过这方面的话给我指点一下，谢谢了。

下面这是我跑的数据： Epoch: 72, Test Loss= 0.018, Test Accuracy= 0.256 Epoch: 73, Batch: 0, Loss= 1.779, Training Accuracy= 0.240 Epoch: 73, Batch: 50, Loss= 1.774, Training Accuracy= 0.320 Epoch: 73, Batch: 100, Loss= 1.803, Training Accuracy= 0.220 Epoch: 73, Batch: 150, Loss= 1.802, Training Accuracy= 0.260 Epoch: 73, Batch: 200, Loss= 1.882, Training Accuracy= 0.180 Epoch: 73, Batch: 250, Loss= 1.808, Training Accuracy= 0.220 Epoch: 73, Batch: 300, Loss= 1.932, Training Accuracy= 0.160 Epoch: 73, Batch: 350, Loss= 1.811, Training Accuracy= 0.300 Epoch: 73, Batch: 400, Loss= 1.801, Training Accuracy= 0.300 Epoch: 73, Batch: 450, Loss= 1.775, Training Accuracy= 0.280 Epoch: 73, Batch: 500, Loss= 1.754, Training Accuracy= 0.280 Epoch: 73, Batch: 550, Loss= 1.737, Training Accuracy= 0.280 Epoch: 73, Test Loss= 0.018, Test Accuracy= 0.256 Epoch: 74, Batch: 0, Loss= 1.779, Training Accuracy= 0.240 Epoch: 74, Batch: 50, Loss= 1.774, Training Accuracy= 0.320 Epoch: 74, Batch: 100, Loss= 1.803, Training Accuracy= 0.220 Epoch: 74, Batch: 150, Loss= 1.802, Training Accuracy= 0.260 Epoch: 74, Batch: 200, Loss= 1.882, Training Accuracy= 0.180 Epoch: 74, Batch: 250, Loss= 1.808, Training Accuracy= 0.220 Epoch: 74, Batch: 300, Loss= 1.932, Training Accuracy= 0.160 Epoch: 74, Batch: 350, Loss= 1.811, Training Accuracy= 0.300 Epoch: 74, Batch: 400, Loss= 1.801, Training Accuracy= 0.300 Epoch: 74, Batch: 450, Loss= 1.775, Training Accuracy= 0.280 Epoch: 74, Batch: 500, Loss= 1.754, Training Accuracy= 0.280 Epoch: 74, Batch: 550, Loss= 1.737, Training Accuracy= 0.280 Epoch: 74, Test Loss= 0.018, Test Accuracy= 0.256

larryli1995

2018-03-14 13:23:41 +08:00

Epoch: 72, Test Loss= 0.018, Test Accuracy= 0.256
Epoch: 73, Batch: 0, Loss= 1.779, Training Accuracy= 0.240
Epoch: 73, Batch: 50, Loss= 1.774, Training Accuracy= 0.320
Epoch: 73, Batch: 100, Loss= 1.803, Training Accuracy= 0.220
Epoch: 73, Batch: 150, Loss= 1.802, Training Accuracy= 0.260
Epoch: 73, Batch: 200, Loss= 1.882, Training Accuracy= 0.180
Epoch: 73, Batch: 250, Loss= 1.808, Training Accuracy= 0.220
Epoch: 73, Batch: 300, Loss= 1.932, Training Accuracy= 0.160
Epoch: 73, Batch: 350, Loss= 1.811, Training Accuracy= 0.300
Epoch: 73, Batch: 400, Loss= 1.801, Training Accuracy= 0.300
Epoch: 73, Batch: 450, Loss= 1.775, Training Accuracy= 0.280
Epoch: 73, Batch: 500, Loss= 1.754, Training Accuracy= 0.280
Epoch: 73, Batch: 550, Loss= 1.737, Training Accuracy= 0.280
Epoch: 73, Test Loss= 0.018, Test Accuracy= 0.256
Epoch: 74, Batch: 0, Loss= 1.779, Training Accuracy= 0.240
Epoch: 74, Batch: 50, Loss= 1.774, Training Accuracy= 0.320
Epoch: 74, Batch: 100, Loss= 1.803, Training Accuracy= 0.220
Epoch: 74, Batch: 150, Loss= 1.802, Training Accuracy= 0.260
Epoch: 74, Batch: 200, Loss= 1.882, Training Accuracy= 0.180
Epoch: 74, Batch: 250, Loss= 1.808, Training Accuracy= 0.220
Epoch: 74, Batch: 300, Loss= 1.932, Training Accuracy= 0.160
Epoch: 74, Batch: 350, Loss= 1.811, Training Accuracy= 0.300
Epoch: 74, Batch: 400, Loss= 1.801, Training Accuracy= 0.300
Epoch: 74, Batch: 450, Loss= 1.775, Training Accuracy= 0.280
Epoch: 74, Batch: 500, Loss= 1.754, Training Accuracy= 0.280
Epoch: 74, Batch: 550, Loss= 1.737, Training Accuracy= 0.280
Epoch: 74, Test Loss= 0.018, Test Accuracy= 0.256

ioiogoo

2018-03-14 14:35:29 +08:00

能否把论文发出来看看？
我感觉这个结构里面用的 dropout 太多了（纯讨论），dropout 是为了防止参数过多而导致过拟合，卷积层由于所有参数共享且参数较少，所以过拟合的问题不是很严重，加这么多的 dropout 会不会因为信息丢失太多而导致欠拟合或者训练速度减慢？

看到这个帖子后搜到的一些关于 dropout 层是否应该用在卷积层的讨论：
https://www.quora.com/Why-would-I-need-to-apply-a-dropout-layer-before-a-convolutional-layer
https://stats.stackexchange.com/questions/240305/where-should-i-place-dropout-layers-in-a-neural-network
https://www.zhihu.com/question/52426832

larryli1995

2018-03-14 23:36:43 +08:00

@winglight2016 我是看的一篇论文上这么做的，他就达到了 60 多的准确率，不知道怎么搞得。
@Hzzone 这个数据本来就是乱的呀你是说 batch 随机取吗？
@enenaaa 我等下试试谢谢啦。
@ioiogoo 感谢感谢，我研究下，不会了再问您。
@takato 谢谢我等下试试我觉得改成 INCEPTION 模型应该也不错。
@glasslion 谢谢，我等下画个 confusion matrix 分析一下。
@Suddoo 我用的是 TF 框架，这个 FER2013 本来不就是乱着的吗？ shuffle 会有用吗？还有您说数据标准化，我已经标准化了，然后把最后 softmax 去掉了，不知道这样可以不可以，之前没标准化，最后加 SOFTMAX 准确率更低了