本
文
摘
要
不考虑两个样本间的水平差异,平均来讲,是 10 个人赛跑第 1 名更厉害一些。
这道数学题,其实等价于:100 个人里随机抽取 10 个人,他们中的第 1 名,在 100 个人中的平均排名,是在第 10 名以前,还是第 10 名以后?
对于这个问题,直接用各个名次的概率分布算期望值,大概会比较麻烦,我现在在地铁上,也算不出来。
但我想到一种「奇妙」的解法:
设有 100 个球要排序,我先取出 10 个球排成一排,然后把剩下的 90 个球随机塞在最左、最右或者任意两个球之间。
最初 10 个球之间的缝隙,算上最左、最右,共有 11 个。所以平均来讲,每个缝隙会塞 90/11 个球。
于是,最初 10 个球中最左边的那个球(也就是第 1 名),平均最终会排在 101/11 的位置上。
这个数大约是 9.18,是小于 10 的。
因此,10 个人中的第 1 名,平均来讲,要比 100 个人中的第 10 名要好一些。用那个「奇妙」的算法容易算得,它的平均水平,应该等同于 109 个人中的第 10 名,或者,更一般化地说,是在足够多人参加比赛时的前 1/11。
~~~~~
进阶:那么,「各个名次的概率分布」可以算嘛?可以的。
简单的排列组合问题。100 选 10,总共组合数: C10010C_{100}^{10} 。
如果 10 人中的第 1 名排在 100 人中的第 k 名,那么说明其他 9 个人都在第 k+1 名及以后。
于是满足条件的组合数为: C100−k9C_{100-k}^{9}
故所求的排名期望:
E=∑k=191k⋅C100−k9C10010E=\sum_{k=1}^{91}k\cdot{\frac{C_{100-k}^{9}}{C_{100}^{10}}}
这个公式看起来不好算,其实用 Excel 可以简单完成:
最终得到的结果同样是 9.18,这说明之前的算法是正确的。
此外,可以画出各个排名的概率分布和累计概率分布:
可以看到,10 个人中的第 1 名,在 100 个人中排名前 10 的概率是 66.95%,大约是 2/3 的样子。中位数是在第 7 名,但是由于长尾,平均排名就变成了 9.18。