三、数据分布
2025年11月28日
三、数据分布
数据分布是指一组数据中每个具体的测量值在全部测量值中出现的次数,即数据的分布是对观测值分布范围的总结。
在数据分布中,最重要的分布就是正态分布。在自然界中,正态分布也是最常见的分布。例如,人的身高、智商都是呈正态分布的。在很多推论统计中,如T检验、方差分析都要求数据符合正态分布。在统计分析中,分布状况往往以正态分布为基础和比较对象。数据分布的形态有两个重要的特征:一个是偏度(Skewness),一个是峰度(Peakedness)。
(一)偏 度
偏度指的是数据分布的对称程度。如果分布是左右对称的,则称之为正态;如果分布偏左,偏度>0,则称之为正偏态;如果分布偏右,偏度<0,则称之为负偏态(见图8-20)。在正态分布下,众数、中位数与平均值相等;在正偏态时,众数>中位数>平均值;在负偏态时,众数<中位数<平均值。

图8-20 偏态与正态分布
(二)峰 度
峰度又称峰态系数,指的是数据分布形态的陡缓程度。峰度反映了峰部的尖度。这个统计量需要与正态分布相比较。数据的峰度>0,表示该总体数据分布与正态分布相比较为陡峭,为尖峰;数据的峰度<0,表示该总体数据分布与正态分布相比较为平坦,为平峰(见图8-21)。峰度的绝对值数值越大,表示其分布形态的陡缓程度与正态分布的差异程度越大。

图8-21 峰度