数据分析不是这样做的
如果按你所说的去分析,极可能得出是个“人格分裂”的 profile
@
xy2020 #5 提到的一个词很正确 —— “脏数据”
数据分析必须是基于“真实”数据,所谓真实,是指行为表现和分析标的是合理相符的,并不是说真实存在或出现的就是真实数据
你所说的数据其实可以粗分两大类,真实和虚拟
例如购物、银行流水、行程、线下人际关系……等等,这些是相对真实的数据
但,评论、话题、聊天……等等,这些只能算虚拟数据,和本人真实属性是否对等、关联,有待商榷
很重要的点是,即使实名注册,在前台匿名的情况下,大多人的心态仍然归属“匿名”,所以不能将这些主观类型数据视为真实
即使线下,一个人的言论,也不能直接视为其内心价值观和性格对等关联,更何况虚拟环境
主观数据,只能归纳出这个人的表现是怎样,而不是他本身就是这样
如果一个人,他在虚拟环境也能保持本心的话,或者无意识遵从本心,确实能得出他的真实属性,前提是你能判断他是这样 —— 但这就构成一个互斥逻辑:这个项目模型究竟是从表推导里,还是里推导表?
然后真实数据里面也有“脏数据”,例如我大部分支出还是现金的,大部分说的不是数额,而是商品类别,单纯银行流水、线上购物记录,会得出一个偏差结果,提示:我有记录支出频次最高的地方是医院,但实际上我快 5 年没去过医院看病。除非模型数据还能包含我的诊疗记录,否则,如果没有前面那句话,单从银行流水,能分析出我是病患,还是我家人是病患?
数据分析,目前不能做到个体精准分析,只能做到泛类型分析
能对每个人精准分析,这是目前很多人对“大数据”的错误理解,包括从事和不从事这个行业的人都有这个误区
精准分析,就要结合精准的行为数据,例如某个人去就餐的数据,那是他真实吃进肚子里的,有人在这种情况还能产生“脏数据”,那就真是稀奇了。但如果他只是打包买走,这就不是精准行为数据了