周末了,大家做点儿数字游戏,顺便复习下以前学过的知识。

现实中有一组数据如下:

3.20.845.15226547.150.431.17.96.64

4.118.22.363.753.251.6322.831.421.92

5.622.355.623.1731.7

26个。按此数据作出统计图表如下:

 

 

 

 

最后那个数据怎么看都有点儿特殊,是不是异常值呀?

统计学里有专门检验异常值的方法,算起来有点儿麻烦。

有另一个简单的方法,四分位法。

Excel对应的函数是QUARTILE(A1:A26,quart)

A1:A26代表上述数据,quart的含义及计算结果如下:

Quart=0,最小值=0.43

Quart=11/4分位点=2

Quart=2,中值=3.185

Quart=33/4分位点=5.615

Quart=4,最大值=31.7

四分位法定义:

四分位距IQR =Q3-Q1=3.615

上上限Q3+3*IQR=16.46

上限Q3+1.5*IQR=11.0375

超过上限称为异常值,超过上上限称为极端异常值。

Q3+X*IQR=31.7,即5.615+3.615X=31.7,得X=7.216

31.7超过了Q3+7*IQR

可惜四分位法没有定义。这倒给了我们创新的机会,姑且定义:

Q3+7*IQR为上上上限,超过上上上限称为极端极端异常值。

 

现实中出现了异常值就值得关注,因为异常值的存在会带来极大的危害。

现实中出现了极端异常值更值得关注。

现实中出现了极端极端异常值,2008年的流行语就变成了:

为什么呢?