免费开放 33.5 万条贫困户记录，用来做机器学习

2016-12-07 22:04:31 +08:00

crayonyi

github 地址： https://github.com/bowenpay/poormining

我们公司正在做一个贫困户的征信模型 v0.1 ，以发展农村金融。

为了争取开源世界的力量，开放了 2 个县的数据，共 33.5 万条贫困户记录，每条记录有 33 个字段。时间跨度为 2014 年~2016 年， 3 年共 3 张表。这 2 个县，一个县用于建模，另一个县用于验证。

其中，需要建模预测下一年是否能脱贫以及下一年的人均年收入。

目前用随机森林模型预测是否脱贫，准确率高达 98% ；

用线性回归模型预测下一年人均年收入，在误差为 10%的情况下，准确率为 60%；

使用 Lasso 回归模型和岭回归模型预测效果也为 60%左右。

欢迎大家来修改代码，使用更多的模型来预测，或者调整模型参数，以提高预测准确度。

6532 次点击

所在节点

互联网

45 条回复

kraymond

2016-12-08 08:03:34 +08:00

楼主能不能也给我发一份 csv 文件？ kraymond#yeah.net 谢谢

misaka19000

2016-12-08 08:58:37 +08:00

@xupefei 3ks

bxb100

2016-12-08 09:26:58 +08:00

请问用的跑数据机器性能如何，我根本跑不起来

nevin47

2016-12-08 10:04:03 +08:00

搭车求一份 csv ，多谢楼主

nevin47#foxmail.com

另外 LZ 的数据很明显的出现非均衡了，所以很有必要平衡以后再做训练

我的大论文正好是非均衡研究的，容我最近把论文提交了给这个项目 pull 一个我的 resample 方法，我在我们的小贷数据上测试效果还是不错的

crayonyi

2016-12-08 10:16:43 +08:00

@minami 我用你的方法试试。如果你能做 pull request ，那就更好。

udumbara

2016-12-08 10:16:58 +08:00

1 、目标变量很奇怪，如果是征信模型，用于对这些人发放贷款，目标变量应该是最后是否违约；
2 、如果以贫困状况为目标变量，收入这个变量和目标变量几乎含义一样；
3 、其实在信用模型里最大的痛点还不是算法的优劣，就以你的这个模型为例，里面的收入和负债；这个两个变量就是这个行业的痛点，真实的收入和隐性的负债，不管是银行还是非银行机构都在拼命解决这种信息不对称的问题，当 X 变量不准时，模型在样本外的预测能力就是个大问题

crayonyi

2016-12-08 10:25:01 +08:00

@kraymond @nevin47 csv 数据已发

crayonyi

2016-12-08 10:26:24 +08:00

@bxb100 我用的是 mac pro ，大概 20 秒左右出结果。

bxb100

2016-12-08 10:34:12 +08:00

@crayonyi 谢谢

crayonyi

2016-12-08 10:38:32 +08:00

@udumbara 该项目不能为一个完整的征信模型提供数据，但是可以解决冷启动的问题。

因为这部分数据银行没有，他们几乎不存款；互联网公司也没有，因为他们也几乎不上网。如果想给他们贷款，必须有个第 1 步。所以我们用下一年是否脱贫以及下一年人均年收入作为目标变量。

目前商业的贷款，利息大概是 6%左右；但贫困户几乎贷不到商业贷款。

中国扶贫基金会下面有个中和农信，可以给贫困户贷款，但是利息为 12%，高于商业贷款，目的是为了杜绝投机倒把。
现在一年大概贷出去 20-30 个亿，每年利润 3000 万左右。违约率非常低，才百分之零点几，因为养了 3600 多人，专门下去跑。这样算下来，平均 1 个员工 1 万块年收入都不到。当然，这里是有公益性质的。

所以，我们希望能通过技术的手段，把利息和成本降下来。先走通第 1 步，放出贷款，然后不断用你说的违约率数据，来丰富模型。

udumbara

2016-12-08 12:32:18 +08:00

@crayonyi 也算是好事一件，建议是，在信用风险模型才用的算法里，业界目前还是以逻辑回归为主，随机森林算是个黑箱算法，逻辑回归在模型的业务解释上是很好操作的

udumbara

2016-12-08 12:33:29 +08:00

@crayonyi 也算是好事一件，建议是，在信用风险模型用的算法里，业界目前还是以逻辑回归为主，随机森林算是个黑箱算法，逻辑回归在模型的业务解释上是很好操作的

honeycomb

2016-12-08 13:11:36 +08:00

@crayonyi 脱敏数据很棒

reticentfat

2016-12-08 14:13:34 +08:00

求一份 csv ，多谢楼主 ;wy07011002#gmail.com

andysheng

2016-12-08 15:10:58 +08:00

同求一份 csv ， andysheng#live.com

jingliang

2016-12-08 16:47:40 +08:00

mark 一下，对这份数据感兴趣--=

fatestigma

2016-12-08 16:55:03 +08:00

同求一份 csv ， fate_stigma+v2ex#hotmail.com 。感觉有点兴趣，最近学 Julia ，想看看能不能练习一下。

imsoso

2016-12-08 16:57:26 +08:00

未经允许泄露他人隐私， 5 条以上，已经构成犯罪

BUPTGuo

2016-12-08 17:16:11 +08:00

@crayonyi 数据不平衡，做重采样再跑下看看？
以非机器学习的角度，脱贫多数不是短时间完成的，收入变化趋势应该对结果有影响。（短时间实现脱贫的，一般都是有突发情况）

BUPTGuo

2016-12-08 17:17:52 +08:00

最近发现好多跟机器学习相关的帖子，搜了下原来真的有个节点叫机器学习，不过似乎帖子热度不高。。。

第 2 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/326041

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

免费开放 33.5 万条 贫困户记录，用来做 机器学习

免费开放 33.5 万条贫困户记录，用来做机器学习