实战机器学习
上QQ阅读APP看书,第一时间看更新

2.2.4 分类分析

分类分析能够根据特征的特点将数据对象划分为不同的类型,再通过进一步分析挖掘到更深层次的事物本质。有时不仅是对离散变量采用分类分析,连续变量也可以通过分箱法进行分类分析。分箱法可以将连续变量离散化,从而发掘特征潜在规律,使模型更稳定,降低模型过拟合风险。常用的分箱方法包括有监督与无监督两种。

1.无监督分箱法

无监督分箱法包括等距分箱与等频分箱。等距分箱是指每个区间的数值距离相等。从最小值到最大值的区间里,将数值等分,则每个数值区间的长度为: ,区间边界值为。每个区间里面的样本数量可能不等。等频分箱是指每个区间内包含的样本数量大致相同,区间的边界值需要经过计算得到。例如, ,则每个区间内应该包含大约10%的样本数量。

2.有监督分箱法

卡方分箱法是最经典的有监督分箱法,依赖于卡方检验,自底向上将具有最小卡方值的相邻区间合并在一起,将数据离散化。其基本思想是类的频率在一个区间内应当保持一致,卡方值则是数据分布之间的差异度量,卡方值低表明具有相似的类分布。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。具体的流程如下:

(1)根据显著性水平和自由度得到的卡方值自由度比类别数量小1设定卡方阈值。

(2)根据待离散属性对实例进行初始化排序,每一个实例只属于一个区间。

(3)计算每一对相邻区间的卡方值,自底向上将卡方值最小的区间合并,计算步骤如公式2.3和公式2.4所示。

 (2.3)

 (2.4)

其中, 是第区间里的样本数, 是第类样本占全体样本的比例, 为第区间里第类的数量, 的期望频率。

在对数据进行分箱之后,还需要对其进行编码才能输入模型进行分析,具体的编码方法在第4章中有进一步描述。