最近疫情在家研究了一下机器学习,有个疑问想请算法大佬们帮忙解答一下

2020-03-31 14:24:55 +08:00
 wangyzj

用图片识别和 TensorFlow 举例吧

假设我有一堆图片数据,质量呢类似 sklearn 那种自带的测试数据吧,也不需要做什么处理

那我的下一步工作搭建 CNN

[None, 32, 32, 3] input->conv->relu->pool->conv->relu->pool->conv->relu->pool->fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)->output [10, 1]

搭完了,训练完了,模型出来了

然后搭建 TensorFlow serving,服务也做好了,功能也实现了,简单的工程化也做完了,算是已经可以上线用了

假设准确率有 90%

那我作为一个算法工程师,我下一步应该干嘛?

所有里面的数学公式都基本算是固定的,我不敢改,跟数学家比也没那个能力,感觉图像识别模型貌似也相对固定。

还有炼丹,超参数优化。除了这些呢?

扩充一下

如果这是一个推荐模型,那我又需要做什么?

萌新有所疑惑,上述描述肯定有缺陷,大佬们也轻喷

2239 次点击
所在节点    程序员
9 条回复
Jooooooooo
2020-03-31 14:45:28 +08:00
所以是调参工程师, 洗数据工程师, 特征提取工程师, 规则工程师啊

你能自己想出新模型那就是另外一回事了
qwertqwert12345
2020-03-31 15:19:07 +08:00
工程上一般是 水多加面,面多加水(指训练数据),然后考虑一下可不可以降低模型复杂度,或者加入新的结构去提高准确率

或者考虑一下安全性方面

研究深度学习,再学一下各种有名的通用模型咯,RNN,GNN,LSTM,GAN 啥的
sleeepyy
2020-03-31 15:19:31 +08:00
看你的目的是什么了,如果只是学一下相关背景,这样就已经足够了。
如果是要应用到真实场景,
准确率方面:
考虑从 raw data 清洗成可以用于训练、预测的数据(更好的数据增强、特征提取方式)
考虑训练集和测试集之间的 out-of-distribution 的问题
etc.
效率方面:
针对特定硬件的优化
针对特定场景(数据特征(比如 sparse 的数据))的优化
计算图的简化
etc.
以及是否要做集成模型,是否要 online learning 等问题
wangyzj
2020-03-31 15:33:45 +08:00
@qwertqwert12345 每个不同的模型都有特定的场景,特定的场景我觉得都会有同样的问题
zcfnc
2020-03-31 15:36:50 +08:00
我以前在学校的时候以为机器学习出来工作是自己动手撸算法
然后现在发现可能是自己太垃圾了
成了一个调参侠。。。。
wangyzj
2020-03-31 15:39:30 +08:00
@sleeepyy 我本来是打算转算法的,毕竟 crud 跟算法比,算法更有竞争力
但我研究这段时间我又犹豫了
感觉很多场景应用都已经固化了

集成模型我还没研究过
fancy111
2020-03-31 15:42:37 +08:00
下一步。。。。 累积训练,找误差,写算法,改模型。。。。 完美~ 上市,集成硬件,卖~
wangyzj
2020-03-31 16:18:53 +08:00
@fancy111 调皮
wangyzj
2020-04-01 10:43:29 +08:00
自己顶一下
希望还有更多大佬来答疑解惑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/657932

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX