实战机器学习
上QQ阅读APP看书,第一时间看更新

2.2.1 描述统计分析

描述统计分析是指运用表格、图形结合统计数据来描述数据特征的各项活动,主要包括频数分析、集中趋势分析、离散程度分析以及分布分析等。

(1)频数分析:频数指各个值出现的次数,利用频数分析可以发现异常值。

(2)集中趋势分析:用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

(3)离散程度分析:用来反映数据之间的差异程度,常用的指标有方差和标准差。

(4)分布分析:用以描述特征数值的分布状态。在机器学习过程中,希望用训练集训练得到的模型可以合理用于测试集,因此通常假设数据独立同分布。

图表的形式来表达数据比用文字表达更简单明了,因此条形图、饼图以及折线图等统计图形往往结合于描述统计分析之中。