汽车之家流言终结者中有关刹车距离测试的疑问——比赛评分中为什么要去掉一个最高分和一个最低分

汽车之家在本月27号制作的流言终结者系列节目[1]中对刹车距离所做测试的方式是进行五组刹车操作,测量出相应刹车距离,在除去一个最高分和一个最低分之后对剩余三组刹车测试成绩取平均值。看了这个节目之后,我总觉得这个貌似科学的研究方式存在问题。虽然电视上比如歌手大赛评分都是使用同样的去分模式,但那一般都有约十个评委进行打分,而汽车之家的这个测试也许因为成本原因不便进行许多组的测试吧。虽然网上有许多关于去掉一个最高分和一个最低分原因的网文[2],但在细思之下,还是想把自己的看法表达出来,也算个统计学门外汉的看法罢。

人们认为,在通常情况下独立事件(的发生)能够呈现正态分布,白话一点说,就是多数数据都是靠近平均值的,只有少数数据的状态比较异常,会偏离平均值,因此作图的话,会显示为一个中间密集(凸起)、旁边稀疏(下凹)的所谓钟型形态。从中心向周边扩散开去看,有约68%的可能某个数据落于中心周边一个标准差的范围内,有约95%的可能其落于中心周边两个标准差的范围内,有约99%的可能其落于中心周边三个标准差的范围内。如果考虑两个标准差是一个可接受的惯例的话,那么一个异常数据(特别的大或特别的小)通常会出现在剩下的5%的范围内,也就是正态分布图里钟型曲线的两个尾端。这样一来,不难理解歌手大赛中为什么十位评委的打分要在去除掉一个最高分和一个最低分之后再进行剩余分数的平均了——在所有评委独立打分,也就是任意两个评委所给出的分数不存在相关性的情况下,他们的分数中存在两个异常的(偏离正常值较远)、对比赛选手来说不公平的分数,因此要剔除。再考虑到这两个异常值可能处于钟型正态分布图的任一端,因此剔除的就是一个最高分、一个最低分了。

如果保守一些,认为只有更少的数据能够落于“正常”的范围内,或者说只有更少的数据能够代表真正可能的数值,那么在正态分布的钟型图上位于两端尾部的范围(表示异常数值的部分)就需要更广一些,也就是说需要剔除更多的“最高分”和“最低分”。从另一个角度来理解,这种情况意味着对最终数据结果的“信心”的减少,更少的数据一般不如更多的数据具有代表性,因而不利于反映真实的情况。

在刹车距离测试的环节中,测试的组数为五(次),若认为有95%的可能性这五次刹车测试成绩能够代表真实的测试成绩,也就是说只有5%的测试数据是异常值的话,那么也应当从这五组成绩中取平均数而非剔除掉两组再平均(5*95%近似等于5)。此外,按这五次成绩来计算(分别是四次13.8米和一次14米),14米恰好处于这五次测试数据平均值的两倍标准差范围内[3],也就是说,按惯例推断有95%的把握这五组测试数据是真实可靠的,可以用来取平均数而不必剔除掉两组。

不过话又说回来,进行多组测试也有不少麻烦,表面上的时间成本要考虑,人工成本也要考虑,进行了多次连续刹车后,刹车盘性能衰减和轮胎磨损效应下多组测试还是否属于严格意义上的独立测试……这些都得考虑到。


  1. 流言终结者:揭开三大汽车有关流言真相 ↩︎

  2. 为何要去掉一个最高分和一个最低分 ↩︎

  3. μ=13.84\mu = 13.84, σ=0.08\sigma = 0.08, 13.84+20.08=1413.84+2*0.08 = 14 ↩︎