免费开放 33.5 万条 贫困户记录,用来做 机器学习

2016-12-07 22:04:31 +08:00
 crayonyi

github 地址: https://github.com/bowenpay/poormining

我们公司正在做一个贫困户的征信模型 v0.1 ,以发展农村金融。

为了争取开源世界的力量,开放了 2 个县的数据,共 33.5 万条 贫困户记录,每条记录有 33 个字段。时间跨度为 2014 年~2016 年, 3 年共 3 张表。这 2 个县,一个县用于建模,另一个县用于验证。

其中,需要建模预测下一年是否能脱贫以及下一年的人均年收入。

目前用随机森林模型预测是否脱贫,准确率高达 98% ;

用线性回归模型预测下一年人均年收入,在误差为 10%的情况下,准确率为 60%;

使用 Lasso 回归模型 和 岭回归模型 预测效果也为 60%左右。

欢迎大家来修改代码,使用更多的模型来预测,或者调整模型参数,以提高预测准确度。

6532 次点击
所在节点    互联网
45 条回复
kraymond
2016-12-08 08:03:34 +08:00
楼主能不能也给我发一份 csv 文件? kraymond#yeah.net 谢谢
misaka19000
2016-12-08 08:58:37 +08:00
@xupefei 3ks
bxb100
2016-12-08 09:26:58 +08:00
请问用的跑数据机器性能如何,我根本跑不起来
nevin47
2016-12-08 10:04:03 +08:00
搭车求一份 csv ,多谢楼主

nevin47#foxmail.com

另外 LZ 的数据很明显的出现非均衡了,所以很有必要平衡以后再做训练

我的大论文正好是非均衡研究的,容我最近把论文提交了给这个项目 pull 一个我的 resample 方法,我在我们的小贷数据上测试效果还是不错的
crayonyi
2016-12-08 10:16:43 +08:00
@minami 我用你的方法试试。 如果你能做 pull request ,那就更好。
udumbara
2016-12-08 10:16:58 +08:00
1 、目标变量很奇怪,如果是征信模型,用于对这些人发放贷款,目标变量应该是最后是否违约;
2 、如果以贫困状况为目标变量,收入这个变量和目标变量几乎含义一样;
3 、其实在信用模型里最大的痛点还不是算法的优劣,就以你的这个模型为例,里面的收入和负债;这个两个变量就是这个行业的痛点,真实的收入和隐性的负债,不管是银行还是非银行机构都在拼命解决这种信息不对称的问题,当 X 变量不准时,模型在样本外的预测能力就是个大问题
crayonyi
2016-12-08 10:25:01 +08:00
@kraymond @nevin47 csv 数据已发
crayonyi
2016-12-08 10:26:24 +08:00
@bxb100 我用的是 mac pro ,大概 20 秒左右出结果。
bxb100
2016-12-08 10:34:12 +08:00
@crayonyi 谢谢
crayonyi
2016-12-08 10:38:32 +08:00
@udumbara 该项目不能为一个完整的征信模型提供数据,但是可以解决冷启动的问题。

因为这部分数据银行没有,他们几乎不存款;互联网公司也没有,因为他们也几乎不上网。 如果想给他们贷款,必须有个第 1 步。 所以我们用 下一年是否脱贫 以及 下一年人均年收入 作为目标变量。

目前商业的贷款,利息大概是 6%左右;但贫困户几乎贷不到商业贷款。

中国扶贫基金会下面有个中和农信,可以给贫困户贷款,但是利息为 12%,高于商业贷款,目的是为了杜绝投机倒把。
现在一年大概贷出去 20-30 个亿,每年利润 3000 万左右。违约率非常低,才百分之零点几, 因为养了 3600 多人,专门下去跑。 这样算下来,平均 1 个员工 1 万块年收入都不到。 当然,这里是有公益性质的。

所以,我们希望能通过技术的手段,把利息和成本降下来。 先走通第 1 步,放出贷款,然后不断用你说的违约率数据,来丰富模型。
udumbara
2016-12-08 12:32:18 +08:00
@crayonyi 也算是好事一件,建议是,在信用风险模型才用的算法里,业界目前还是以逻辑回归为主,随机森林算是个黑箱算法,逻辑回归在模型的业务解释上是很好操作的
udumbara
2016-12-08 12:33:29 +08:00
@crayonyi 也算是好事一件,建议是,在信用风险模型用的算法里,业界目前还是以逻辑回归为主,随机森林算是个黑箱算法,逻辑回归在模型的业务解释上是很好操作的
honeycomb
2016-12-08 13:11:36 +08:00
@crayonyi 脱敏数据很棒
reticentfat
2016-12-08 14:13:34 +08:00
求一份 csv ,多谢楼主 ;wy07011002#gmail.com
andysheng
2016-12-08 15:10:58 +08:00
同求一份 csv , andysheng#live.com
jingliang
2016-12-08 16:47:40 +08:00
mark 一下,对这份数据感兴趣--=
fatestigma
2016-12-08 16:55:03 +08:00
同求一份 csv , fate_stigma+v2ex#hotmail.com 。感觉有点兴趣,最近学 Julia ,想看看能不能练习一下。
imsoso
2016-12-08 16:57:26 +08:00
未经允许泄露他人隐私, 5 条以上,已经构成犯罪
BUPTGuo
2016-12-08 17:16:11 +08:00
@crayonyi 数据不平衡,做重采样再跑下看看?
以非机器学习的角度,脱贫多数不是短时间完成的,收入变化趋势应该对结果有影响。(短时间实现脱贫的,一般都是有突发情况)
BUPTGuo
2016-12-08 17:17:52 +08:00
最近发现好多跟机器学习相关的帖子,搜了下原来真的有个节点叫机器学习,不过似乎帖子热度不高。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/326041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX