第三节 数据处理方法
在计量测试实际工作中,会遇到各种各样的数据处理问题,常见的包括,一组测量数据、不等权测量数据、组合测量数据和实验数据拟合等。不同的数据需应用不同的数据处理方法,常用的包括,异常值的判定和剔除、数据位数与数据修约、最小二乘法和回归统计与数据拟合等。
一、异常值的判定和剔除
在一列重复测量数据中,如有个别数据与其他的有明显差异,则它们很可能含有粗大误差(简称粗差),称其为可疑数据,记为xd。根据随机误差理论,出现大误差的概率虽小,但也是可能的。因此如果不恰当地剔除含大误差的数据,会造成测量分散性偏小的假象。反之,如果对混有粗大误差的数据,即异常值,未加剔除,必然会造成测量分散性偏大的后果。以上两种情况都严重影响对的估计。因此对数据中异常值的正确判断与处理,是获得客观的测量结果的一个重要保障。
在测量过程中,确实是因读错记错数据,仪器的突然故障,或外界条件的突变等异常情况引起的异常值,一经发现,就应在记录中除去,但需注明原因。这种从技术上和物理上找出产生异常值的原因,是发现和剔除粗大误差的首要方法。有时,在测量完成后也不能确知数据中是否含有粗大误差,这时可采用统计的方法进行判别。统计法的基本思想是:给定一个显著性水平,按一定分布确定一个临界值,凡超过这个界限的误差,就认为它不属于随机误差的范畴,而是粗大误差,该数据应予以剔除。
以下三个常用的统计判断准则,它们都仅用于对正态或近似正态的样本数据的判断处理。
(一)3σ准则
3σ准则又称拉依达准则,它是以测量次数充分大为前提。实际测量中,常以Bessel公式算得的s代替σ,以代替真值。对某个可疑数据xd ,若其残差满足
则剔除xd。
利用式(3-29)容易说明,在n≤10的情况下,用3σ准则剔除粗差注定失效。因此在测量次数较少时,不宜用此准则。事实上,由易得
取n≤10,即有恒成立,与原假设式(3-40)矛盾。故3σ准则要在远大于10的情形才适用,一般是在n>50情形才用它。
(二)格拉布斯(Grubbs)准则
1950年Grubbs根据顺序统计量的某种分布规律提出一种判别粗差的准则。1974年我国有人用电子计算机做过统计模拟试验,与其他几个准则相比,对样本中仅混入一个异常值的情况,用Grubbs准则检验的功效最高。
设正态独立测量的一个样本为x1, x2,…, xn,对其中的一个可疑数据xd (当然它与的残差绝对值最大)构造统计量
Grubbs导出了它的理论分布。选定显著性水平(相当于犯“弃真”错误的概率)α,通常取0.05或0.01,求得符合下式的临界值G(α,n)
因此有如下的判别准则(称为格拉布斯准则):
若
式中 ;
。
则数据xd含有粗差,应予剔除;否则,应予保留。可疑数据xd也应一并加入计算,表3-6中列出了测量次数为3~50的G(α,n)值。
表3-6 格拉布斯准则的临界值G(α,n)
(三)狄克逊(Dixon)准则
1950年Dixon提出另一种无须估算和s的方法,它是根据测量数据按大小排列后的顺序差来判别粗差,有人指出,用狄克逊(Dixon)准则判断样本数据中混有一个以上异常值的情形效果较好。以下介绍一种Dixon双侧检验准则。
设正态测量总体的一个样本为x1,x2,…,xn,按大小顺序排列为
构造检验高端异常值和低端异常值的统计量,分以下几种情形:
以上的r10 ,,…r22 ,分别简记为rij和。Dixon导出了它们的概率密度函数。选定显著性水平α,求得临界值D(α, n),见表3-7。若
则判断为异常值;若
则判断为异常值;否则,判断没有异常值。Dixon认为对不同的测量次数,应选用不同的统计量rij,才能收到良好的效果。
根据前人的实践经验,以上三个准则,可以参照如下几点原则选用:
表3-7 Dixon双侧检验的临界值
1)大样本情形(n>50)用3σ准则最简单方便;30<n<50情形,用Grubbs准则效果较好;3≤n≤30情形,用Grubbs准则适于剔除一个异常值,用Dixon准则适用于剔除一个以上异常值。
2)在实际应用中,较为精密的场合可选用两三种准则同时判断,若一致认为应当剔除时,则可以比较放心地剔除;当几种方法的判定结果有矛盾时,则应当慎重考虑,通常选择a=0.01,且在可剔与不可剔时,一般以不剔除为妥。
(四)稳健处理数据方法
在严重偏离正态分布的情况下,目前还没有好的判断粗差准则。这里,建议直接采用稳健估计的算法来进行数据处理。其中一种常用的方法是取a截尾均值,截尾系数常取0.1,如确认无可疑数据则截尾系数取0,即为取通常的算术平均值。采用稳健估计的算法,容易实现对测量数据的自动处理。
假设一组测量数据无显著系统误差,大致服从对称分布,则可按以下步骤处理。
1)计算数据的标准偏差s。
2)判别可疑数据
n≥10时,k0=0.6,k=3;
n<10时, k0=0.7,。
3)求a截尾均值,常取a=0.1。即
有可疑时, a=0.1
式中 [an]——取an的整数部分。
无可疑时,a=0不截尾,用常规的算术均值。
4)标准偏差估计:
有可疑时,对残差排序
无可疑时,
二、数字位数与数据修约规则
测量结果是指经测量合理赋予被测量的值。在表示测量结果时,它一般包含两个部分,即最佳估计值部分和测不准部分,前者又称为结果部分,后者又称为不确定度部分。这两部分的数据用多少位数字来表示,多余位数又如何修约,是一个十分重要的问题。数字的位数太多容易使人误认为测量准确度很高;太少则会损失原有的测量准确度。目前修约规则的标准主要有:GB/T 8170—2008《数值修约规则与极限数值的表示和判定》、GB 3101—1993《有关量、单位和符号的一般原则》的附录B:数的修约规则(参考件)(ISO 80000-1:2009附件B)。数值修约规则可归纳为:“1”单位修约、“2”单位修约、“5”单位修约(修约间隔中“0”只起定位作用)。
以下简要讨论结果部分和不确定度部分的数字位数及其数据修约的规则。
(一)结果部分数字位数与数据修约
1.数字位数、有效数字
如果测量结果Y的测不准部分数字是某一位上的半个单位,该位到Y的左起第一个非零数字一共有n位,则称Y有n位有效数字。在书写不带不确定度的任一数字时,应使左起第一个非零数字一直到最后一个数字为止,都是有效数字。例如,有效数字0.0045表示有2位有效数字,测不准部分数字是0.5×10-3,而有效数字0.004500,则认为测不准部分数字0.0×10-5。又如,近似数3400的测不准部分数字是0.5×102,应写为34×102,而不应写为3400。
提倡采用科学记数法,可以避免很大和很小的数在末端和首端0写得过多,即可以采用a×10m记数法,其中0.1≤a<1或1≤a<10,而m为整数。注意到,国际单位制SI单位的倍数单位(含分数单位)的因数在很大或很小时取103m,故通常量的数值写成(0.1~1000)×103m,如0.0045写成4.5×10-3,0.004500写成4.500×10-3,34×102写成3.4×103,又如,0.1234写成123.4×10-3等。
在计量工作中,检定结果一般应带上不确定度,否则认为检定结果数字是有效数字。在数据运算中,中间的计算位数可适当多取几位。
2.数据修约
(1)数据保留位数规则 测量结果中,最末一位有效数字取到哪一位,是由测量误差决定的,即最末一位有效数字应与测量误差是同一量级。例如,用千分尺测长时,其测量最大允许误差只能达到0.01mm,若测出长度L=20.531mm,显然小数点后第二位数字已不可靠,此时只应保留小数点后第二位数字,即写成L=20.53mm,为四位有效位数。因此上述测量结果可表示为,L=(20.53±0.01)mm。在比较重要的测量场合,测量结果部分和测不准部分数字可以比上述原则多取一位数字,测量结果表示为L=(20.531±0.015)mm。
(2)数字舍入规则 对于测量结果部分多余的数字应按“四舍六入,逢五为偶”的原则进行修约。GB/T 8170—2008《数值修约规则与极限数值的表示和判定》规定的“数字修约规则”如下。
1)舍弃的数字段中,首位数字(最左一位数字)大于5,则保留的数字末位进1。
2)舍弃的数字段中,首位数字(最左一位数字)小于5,则舍去,保留的数字末位不进1。
3)舍弃的数字段中,首位数字(最左一位数字)等于5,而5右边的其他舍弃位不都是0时,则保留的数字段末位进1。
4)舍弃的数字段中,首位数字(最左一位数字)等于5,5右边的其他舍弃位都是0时,则将保留的数字段末位变成偶数;即:当保留数字的末位是奇数(1,3,5,7,9)时,则进1变偶(即保留数字的末位数字加1);若所保留的末位数字为偶数(0,2,4,6,8)时,则保持不变。
数据修约规则举例见表3-8。
(3)数据运算规则 在近似数运算中,所有参与运算的数据,在有效数字后可多保留一位以上数字,称为安全数字。在采用高位数的电子计算机运算时,可以不计较中间运算位数的舍入,只在运算出最后结果时,再按数据保留位数规则和数字舍入规则对多余位数的数字进行修约。
表3-8 数据修约规则举例(保留四位数字)
(二)测量不确定度的数字位数与数据修约
1.测量不确定度的有效数字位数
在报告测量结果时,不确定度U或uc(y)都只能是(1~2)位有效数字。也就是说,报告的测量不确定度最多为2位有效数字。
例如国际上2005年公布的相对原子质量,给出的测量不确定度只有一位有效数字;2006年公布的物理常量,给出的测量不确定度均是二位有效数字。在不确定度计算过程中可以适当多保留几位数字,以避免中间运算过程的修约误差影响到最后报告的不确定度。
最终报告测量不确定度有效位数取一位还是两位?这主要取决于修约误差限的绝对值占测量不确定度的比例大小。经修约后近似值的误差限称修约误差限,有时简称修约误差。
例如:U=0.1mm,则修约误差为±0.05mm,修约误差的绝对值占不确定度的比例为50%;而取二位有效数字U=0.13mm,则修约误差限为±0.005mm,修约误差的绝对值占不确定度的比例为3.8%。
一般建议:当第1位(即首位)有效数字是l或2时,应保留2位有效数字。除此之外,对测量要求不高的情况可以保留1位有效数字。测量要求较高时,一般取二位有效数字。
2.测量不确定度的数字修约规则
(1)通用的数字修约规则 通用的修约规则是依据GB/T 8170—2008《数值修约规则与极限数值的表示和判定》,我们可以简单地记成:“四舍六入,逢五取偶”。
报告测量不确定度时按通用规则进行数字修约,例如:
uc=0.568mV,应写成uc=0.57mV或uc=0.6mV;
uc=0.561mV,应写成uc=0.56mV;
U=10.5nm,应写成U=10nm;
U=10.5001nm,应写成U=11nm;
U=11.5×10-5取二位有效数字,应写成U=12×10-5;取一位有效数字,应写成U=1×10-4;
U=123568μA,取一位有效数字,应写成U=1×105μA。
修约的注意事项:不可连续修约,例如:要将7.691499修约到四位有效数字,应一次修约为7.691。若采取7.691499→7.6915→7.692是不对的。
(2)为了保险起见,也可将不确定度的末位后的数字全都进位而不是舍去。
例如:uc=10.27mΩ,报告时取二位有效数字,为保险起见可取uc=11mΩ。
【案例】某计量检定员经测量得到被测量估计值为y=5012.53mV,U=1.32mv,在报告时,她取不确定度为一位有效数字U=2mV,测量结果为y±U=5013mV±2mV;核验员检查结果认为她把不确定度写错了,核验员认为不确定度取一位有效数字应该是U=1mV。
【案例分析】依据JJF 1059.1—2012规定:为了保险起见,可将不确定度的末位后的数字全都进位而不是舍去。该计量检定员采取保险的原则,给出测量不确定度和相应测量结果是允许的,应该说她的处理是正确的。而核验员采用通用的数据修约规则处理测量不确定度的有效数字也没有错。这种情况下应该尊重该检定员的意见。
测量不确定度的数字修约,简便的方法可按1/3法则进行,即当取至整数位时,小于1/3的小数舍去,大于1/3的小数进1。例如,2.20×18.41=41.4→42,2.92×31.7=92.6→93。采用1/3法则的优点是:符合七个国际组织的“测量不确定度表示指南”(GUM);界限易于操作,没有小数恰在界限1/3=0.3333…的数;1/3与微小标准差的1/3准则相呼应。
三、权与加权数据处理
在实际测量中,会遇到不同实验室、不同仪器、不同测量方法或不同时期对同一测量对象所进行的测量,或者在相同测量条件下几组不同测量次数所得的测量结果的综合评定等。本节要讨论如何对这些情形的测量数据综合求得最可信的测量结果及标准差。
(一)权与加权算术平均值
权是用来表明一个数据在一组数据中占有的相对可信赖程度的数字指标。加在某个数据上的权的数值越大,则说明了此数据所占的比重越重,可信赖程度越高。例如,用卡尺测得某圆形工件直径为x1=60.00(01)mm,而用立式测长仪测得的结果是x2=60.001(001)mm,因为后者比前者的测量更精确,故在综合这两个数据时,自然认为后者比前者占有较大的比重,对结果施加较大的影响。因此在对这两个数据处理时应考虑加权算术平均:
式中 w1,w2——x1、x2的权,而且在本例中w2>w1。
有了权的概念后,可以把传统概念的等精度测量的问题视为等权的测量问题,对多次测量数据按式(3-28)估计其最佳结果。而传统概念的不等精度测量的问题应视为不等权测量的问题,对多次测量的数据则应按如下的加权算术平均方式来估计其最佳结果。
(二)权的确定与单位权
设测量数据x1,x2,…,xn,待定的权依次为w1,w2,…,wn。形式上,它们是测量次数分别为ni的等精度测量,有
w1∶w2∶…∶wn=n1∶n2∶…∶nn
根据式(3-30)有
所以有
即
式中 ——比例常数。
如果取比例常数
那么有
min(w1,…,wn)=1
由此得到的权wi称为单位化权,记为
假设其中量xi的权为wi,引入新的量
利用方差的性质,并根据式(3-52),有
按式(3-53)取单位权,恒有
用单位权化思想,可将某些不等权的测量问题转化为等权的测量问题处理。例如,对于有些原适合等权数据的系统误差和粗大误差的统计判断准则,只要按式(3-54)处理后,也可用来处理不等权数据。以下用单位权化的方法来估计加权算术平均值的实验标准偏差。
(三)加权算术平均值的实验标准偏差
1.组内符合公式
根据式(3-52),并对式(3-51)取方差,有
式中把加权平均方差视为“等权”单次测量的方差,除以测量次数n后就是加权平均值的方差。实际上,式(3-55)是式(3-30)的推广形式。
2.组外符合公式
对残差单位权化得
对等权测量数据,由贝塞尔公式得
这是“单次”测量的标准偏差估计式,称为不等权的贝塞尔公式。
为了求得“”次测量的平均值的标准偏差,根据式(3-29),有
实际上,式(3-55)是式(3-29)与(3-30)的推广形式。
式(3-55)与式(3-57)都可用来计算均值标准偏差。根据它们是否与xi有关,分别称为组内和组外符合公式。由于种种原因,例如测值xi可能含有系统误差,或者各个xi的标准偏差给的不正确等,两者的结果常会不一致。特别当组数很少时,显然用贝塞尔公式来估算不可靠,这种情形可用组内符合公式。在有些场合,取大者作为最后测量结果,更为稳当。
另外,需要强调的是最小二乘法是常用于数据处理的一个数学工具。例如,前面提到的算术平均值和加权算术平均值就是根据残差的平方和为最小原则,即最小二乘法原理。