@yushiro 过程上是得到一组参数使得数据拟合成我们想要的数据分布,也就是说从原始数据中抽取特征来适应真实标签(抽取这个过程实际上就是各式各样的数学变换,经验上讲都会说网络结构深而窄效果会更好,不同的任务可能会有不同的网络结构),然后用一个合适 loss 来监督这个拟合过程( loss 用来衡量标签和模型拟合出来的数据分布之间的差异,降 loss 的方法有梯度下降,牛顿法等方法),那么第二个问题可以抽象理解一下就是手写体的数据分布和验证码数据分布之间的差异有多大,能不能用相同的参数对不同的数据拟合出相同的结果或者说是合适的结果,这可能更多涉及到数据域适应的问题,我没做过图像的东西,但我了解到的图像这一块很多时候是会用预训练的网络先学最基础通识的东西,然后应对不同数据任务是要单独做有监督 fine-tune 的,这算是迁移学习了,所以如果数据源分布差异很大,那么从理论上讲模型得到的参数在 fine-tune 过后是不大一样的。
@watermelon92 如果你英文阅读无障碍的话,我强烈推荐 keras 作者的书《 Deep Learning with Python 》。我觉得入门完美啊,抽象程度刚刚好,既不会陷入底层数学,又不会太“实战”(以至于只会调参不懂原理)。如果你想硬核一点,我建议先看吴恩达的 ML 课前三章,打好基础,然后就开始看他的 DL 课。基础知识应该差不多了,然后就赶紧去实践吧!