本
文
摘
要
利用统计模型,是否可以较为精准的预测人生轨迹?来自全世界160多个团队用实践告诉我们——非常困难[1]。
这160个团队加入了一个名为“脆弱家庭挑战”(Fragile Families Challenge)的项目。每一团队都被分发了一份面板数据集,该数据集统计了美国4,242个未婚先育“脆弱”家庭的方方面面,涵盖了高达12,942个变量,时间跨度近15年。
他们的任务是,以前五期数据为训练集,来预测第六期中部分变量(e.g. 孩子的学习成绩、是否居无定所等)的情况。为了降低难度,第六期部分数据被给出了,和前五期数据一起作为训练集(Training data),以便研究者设定学习模型。而预测精准度,则会依靠第六期中那些未公布情况,也就是测试集(Holdout data)来评估。
(1)RHoldout2=1−∑i∈Holdout(yi−y^i)2∑i∈Holdout(yi−y¯Training)2R_{\mathrm{Holdout}}^{2}=1-\frac{\sum_{i \in \mathrm{Holdout}}\left(y_{i}-\hat{y}_{i}\right)^{2}}{\sum_{i \in \mathrm{Holdout}}\left(y_{i}-\bar{y}_{\mathrm{Training}}\right)^{2}} \tag{1}
如式1所示,分母是以训练集均值为预测值而产生的误差平方和,分子是模型预测值产生的误差平方和。在被1减去后,该指标衡量了团队所采用模型的消减误差比例。
较高的数据质量和较多的变量,使得这160个顶尖团队可以各尽所能,充分利用各种机器学习模型与理论框架来从事预测工作。他们相继提交了各自的预测结果。但结果不尽如人意。预测最精准的情况下,也只不过消减了大约23%的误差,最少的只有约3%。项目组织者在看完不同团队的成果后,说道:
For all outcomes, the distance between the most divergent submissions was less than the distance between the best submission and the truth.
"总的来看,最好和最差的两种预测之间的差异,要小于最好的预测与现实之间的差异"他又接着说:
In other words, the submissions were much better at predicting each other than at predicting the truth.
“换句话说,一个预测模型更善于预测另一个预测模型的结果,而非预测现实。“有些讽刺的是,那些通过简单模型(e.g. 线性回归,logistic回归)所得预测结果的精度,只比表现最好的模型差上几个百分点,并且超过了大多数复杂模型。
我们能预测人生吗?回答是——不行,至少现在不行。
应该感到庆幸的是,这预示了我们的人生具有无限的可能,过去经历尽管会对未来的人生产生深远影响,但在概率意义上,他们并没有锁定未来;
应该感到失落的是,我们仍对影响个人命运的要素或机制知之甚少——一个数据集包含了学界认为的几乎所有能影响一个家庭命运的变量,而其在众多拥有卓越才智的学者手中被加以利用,但实际能做到的预测精度也极为有限。
我们离理解我们自身,还有相当漫长的路要走。