描述统计分析常用的5个指标

描述统计分析作用:

将一系列的数据用几个有代表性的数值进行描述,从而说明数据的整体情况。常用的有:平均数、四分位数、标准差、标准分、变异系数。

1、平均数:容易受异常值影响,描述数据不准确。

2、四分位数:可以用5个数值整体描述数据的分布情况,但无法知道数据的波动情况。

四分位数的实际作用:

(1)利用箱线图,比较不同类别数据的整体情况

(2)快速识别异常值

3、标准差:描述数据的波动大小(标准差=波动大小=离散程度=变异性),即数据集中某个数值到平均值的平均距离;标准差的单位与计算数值的单位相同。

4、标准分:表示某个数值距离平均值多少个标准差,即可知道数值距离平均值的相对接近程度

5、变异系数:标准差能表示数据整体的波动,但如果两个数据差别比较大,那么标准差就无法比较。

用标准差除以数据集的平均值,就可以消除数据大小的差异。

标准差除以平均值得到的值叫作变异系数,通常用变异系数来比较不同数据集的波动大小

6、小结:




备注:

1、数据清洗时,可以通过是数据的分布情况找出异常值;

编辑于 2021-09-06 09:29