data:image/s3,"s3://crabby-images/0a39c/0a39c0ddc011939ea735900faebd32ad71410792" alt="数据科学与机器学习:数学与统计方法"
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.4 汇总统计量
下式中,x=[x1,…,xn]T是包含n个数字的列向量。例如,对于我们的nutri数据,向量x可以表示226(n=226)个人的身高。
x的样本均值用表示,是数据值的平均值:
data:image/s3,"s3://crabby-images/7e9f2/7e9f2dfcc264eb40fb13e77adadd0e1322da40f0" alt=""
例如,对数据nutri使用mean方法,可以得到:
data:image/s3,"s3://crabby-images/66a0f/66a0fadcbf6b5869ae07534cc393731f73d14ca0" alt=""
x的p样本分位数(0<p<1)是指这样的数值x,使得样本中小于或等于x的数据比例至少为p,而大于或等于x的数据比例至少为1-p。样本中位数就是0.5样本分位数。p样本分位数也称为100×p百分位数。25、50、75样本百分位数称为数据的第一、第二、第三四分位数。对于数据nutri,它们的计算方法如下:
data:image/s3,"s3://crabby-images/d2c64/d2c642b4cfb001456d63e6870024e6992e28768c" alt=""
样本均值和中位数提供了数据的位置信息,而样本分位数(如0.1和0.9分位数)之间的距离则提供了数据的分散(分布)指示。衡量数据分散性的其他指标有样本范围(maxixi-minixi)和样本方差:
data:image/s3,"s3://crabby-images/4ed47/4ed47a07cd62df712acd60f727b78e82bdcac3ca" alt=""
为样本标准差。对于nutri数据,height的范围(单位cm)为
data:image/s3,"s3://crabby-images/bc5cf/bc5cf101ff46d8d89b0f54e0d0f2b18f40a256de" alt=""
height的方差(单位cm2)为:
data:image/s3,"s3://crabby-images/9e381/9e3813d45c9afd70d9e35c0f3410463bbbeb4658" alt=""
该特征的标准差可以通过以下方法获得:
data:image/s3,"s3://crabby-images/7156e/7156ed2ef6df1c6f1e0aaa1e465f41271791a5a8" alt=""
1.3节介绍了定性特征汇总的describe方法,通过最常用的计数和不重复元素的数量进行汇总。当应用于定量特征时,它返回的则是最小值、最大值、均值和3个四分位数。例如,nutri数据中height特征具有如下统计汇总结果:
data:image/s3,"s3://crabby-images/1a65b/1a65b91d24521a3b40ae4ccb81b86085fa6d4119" alt=""