上QQ阅读APP看书,第一时间看更新
2.2.4 分类分析
分类分析能够根据特征的特点将数据对象划分为不同的类型,再通过进一步分析挖掘到更深层次的事物本质。有时不仅是对离散变量采用分类分析,连续变量也可以通过分箱法进行分类分析。分箱法可以将连续变量离散化,从而发掘特征潜在规律,使模型更稳定,降低模型过拟合风险。常用的分箱方法包括有监督与无监督两种。
1.无监督分箱法
无监督分箱法包括等距分箱与等频分箱。等距分箱是指每个区间的数值距离相等。从最小值到最大值的区间里,将数值等分,则每个数值区间的长度为: ,区间边界值为。每个区间里面的样本数量可能不等。等频分箱是指每个区间内包含的样本数量大致相同,区间的边界值需要经过计算得到。例如, ,则每个区间内应该包含大约10%的样本数量。
2.有监督分箱法
卡方分箱法是最经典的有监督分箱法,依赖于卡方检验,自底向上将具有最小卡方值的相邻区间合并在一起,将数据离散化。其基本思想是类的频率在一个区间内应当保持一致,卡方值则是数据分布之间的差异度量,卡方值低表明具有相似的类分布。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。具体的流程如下:
(1)根据显著性水平和自由度得到的卡方值自由度比类别数量小1设定卡方阈值。
(2)根据待离散属性对实例进行初始化排序,每一个实例只属于一个区间。
(3)计算每一对相邻区间的卡方值,自底向上将卡方值最小的区间合并,计算步骤如公式2.3和公式2.4所示。
(2.3)
(2.4)
其中, 是第区间里的样本数, 是第类样本占全体样本的比例, 为第区间里第类的数量, 为的期望频率。
在对数据进行分箱之后,还需要对其进行编码才能输入模型进行分析,具体的编码方法在第4章中有进一步描述。