做推荐算法实验时，测试集中用户数量庞大，能否从中随机抽取用户作为实验对象，看算法在这些用户上的效果？

因为测试集中用户数量比较庞大，对里面的每个用户都进行测试的话，实验时间比较长。时间关系，我就想的是还是使用原来的训练集进行训练，然后在测试的时候，从测试集中抽取部分用户来进行实验，以这部分用户的测试结果的均值，作为我算法的效果。比如我随机抽取 100 人，然后给这 100 个用户产生推荐，将这 100 个人的最终的实验结果的均值作为我这个算法的实验结果，但是这 100 个用户我是会保存下来，其他对比算法也是要对这 100 个用户进行推荐，以便和我的算法在这 100 个用户上的结果进行对比，请问这样做可以吗

enzo113

2018-03-26 12:23:12 +08:00

@DongDongXie #2 正常情况下测试集的大小应该少于训练集，并且测试用的时间应该远远少于训练的时间吧。这样其实做一个完整的测试也不会花太多时间？

vegito2002

2018-03-26 12:31:02 +08:00

理论上好像可以；只要 test set 只用来测试，小一点应该问题不大。当然要看你实际模拟的是一个什么分布，如果方差很大的分布，最后结果的随机性可能就比较大；

我也不太理解为什么你都能 train 完了，居然 test 时间还成为瓶颈了嘛？

Google 的 typeahead 好像就有一个随机取样的过程在里面，不过那个不是机器学习算法，不知道有没有参考价值。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/441385

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.