机器学习初学者,感谢各位的包涵。疑问如下:
首先,吴恩达机器学习课程中,第六周应用机器学习的建议——模型选择和交叉验证一节中讲到(如图一),将六成数据作为训练集,两成数据交叉验证集,两成数据测试集。然后分四步:
第一:用训练集训练出多个模型得到各自参数;
第二:将这若干个模型分别在此用交叉验证集计算各自交叉验证误差;
第三:选取交叉验证误差最小的模型;
第四:用第三步选出的模型,对测试集计算泛化误差。
以上大体是吴恩达课程中该部分对交叉验证的概述。
然而,我在搜索引擎及书籍中看到一种观点如下,如图二《白话机器学习算法》,这本书的意思大概为:
将全部数据集本身切分,然后分别依次互相做交叉验证集。
两处对交叉验证名词的解读有明显不同。
故有此疑问,机器学习中的交叉验证到底是指什么呢?吴恩达机器学习课程和一些书籍中的该名词指的是同一种事物吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.