-
协方差可略的三条是误导
—— 关于相关性的讨论(3)
-
史锦顺
-
(一)计量规范《JJF1059.1-2012》的表述
协方差可略的三条
4.4.4.1 协方差的估计方法
a)两个输入量的估计值xi与xj的协方差在以下情况时可取零或忽略不计:
1)xi和xj中任意一个量可作为常数处理;
2)在不同实验室用不同测量设备、不同时间测得的量值;
3)独立测量的不同量的测量结果。
-
(二)交叉因子的史氏求法
误差量有两个特点,一个是“绝对性”,一个是“上限性”。误差分析的基础是误差元(测得值减真值)。误差合成的任务是把误差元变成误差范围(误差元的绝对值的一定概率意义上的最大可能值)。误差范围体现误差量的两个特点。误差范围恒正,误差范围是误差量的上限。
误差合成就是把误差元变成误差范围。
标准误差σ是随机误差的表征量,3σ是随机误差范围。贝塞尔公式,以平均值代换掉标准误差定义中的真值,可实现对标准误差的计算,称为实验标准误差。
标准误差的定义是取“均方差”,是系列测得值的误差(以真值为参考)的“平方和的平均值的根”。贝塞尔公式的实验标准误差,是残差(测得值减平均值)的“平方和的平均值的根”。
在随机误差的处理上,经典误差理论用“方和根法”,利用了“二量之和的平方等于二量各自平方的和”这个随机变量的特性,是巧妙而成功的。
-
1980年启动而于1993年推行的不确定度论(包括1980年后的一些误差理论书籍),把“方和根法”,推广到仅有系统误差或以系统误差为主的场合,这就出了问题。这里仔细分析一下各种情况。
-
2.1理论基础
函数的变化量,等于函数对各个自变量偏微分的和。就是泰勒展开的一级近似。
f(x,y) = f(xo,yo)+ (?f/?x) (x-xo)+ (?f/?y) (y-yo) (1)
f(x,y) - f(xo,yo) =(?f/?x) Δx+ (?f/?y) Δy (2)
Δf =(?f/?x)Δx + (?f/?y)Δy (3)
公式(3)是变量关系的普遍形式。对所研究的特定函数来说,?f/?x、?f/?y是常数。
变量关系用于测量计量领域,x是测得值,xo是真值, Δx是测得值x的误差元;y是测得值,yo是真值,Δy是测得值y的误差元;f(x,y)是求得的函数值, f(xo,yo) 是函数的真值,Δf= f(x,y)-f(xo,yo) 是求得的函数值的误差元。
-
2.2 交叉因子的一般表达
设函数的误差由两项误差Δx、Δy引起。由此,函数的两项误差元为:
Δf(x) = (?f/?x) Δx
Δf(y) = (?f/?y) Δy
把分项误差作用的灵敏系数与该项误差归并,记为:
Δf(x) = ΔX
Δf(y) = ΔY
函数的误差元式(3)变为:
Δf=ΔX +ΔY (4)
对(4)式两边平方并求和、平均:
(1/N)∑Δf^2=(1/N)∑(ΔX +ΔY)^2
=(1/N)∑ΔX^2 + 2(1/N)∑ΔXΔY+(1/N)∑ΔY^2 (5)
(5)式右边的第一项为σ(X)^2,第三项为σ(Y)^2; (5)式的第二项是交叉项,是我们研究的重点对象。第二项为
2(1/N)∑ΔXΔY = 2{(1/N)(∑ΔXΔY) / [σ(X) σ(Y)]} [σ(X) σ(Y)]
= 2J [σ(X) σ(Y)] (6)
(5)成为
σ(f)^2 = σ(X)^2+2 J [σ(X) σ(Y)] + σ(Y)^2 (7)
(6)式(7)式中的J为:
J =(1/N)(∑ΔXΔY) / [σ(X) σ(Y)] (8)
当前,称J(通常记为r)为相关系数。这和统计理论的相关系数,物理意义不一致。为澄清已有的混淆,以下称J为交叉因子。
-
2.3 随机误差间合成的交叉因子
记误差元为ε,系统误差元为β,随机误差元为ξ。
对随机误差的合成,ΔX是ξx, ΔY是ξy,代入(8)式,并变成残差形式(以平均值为参考),有:
J =[1/(N-1)](∑ξxξy) / [σ(X) σ(Y)] (9)
由于ξx、ξy是随机误差,可正可负,可大可小,有对称性与有界性,多次测量,是大量的,因此,随机误差间的合成的交叉因子为零(或可以忽略)。
随机误差合成,“方和根法”成立。由(7)式,有
σ(f) =√[σ(X)^2+ σ(Y)^2] (10)
-
2.4 随机误差与系统误差合成的交叉因子
两个分项误差,一个是随机的,记为ξ;一个是系统的(重复测量中不变),记为β。代入公式(8),有
J =(1/N)(∑ξiβ) / [σ(X) σ(Y)] (11)
系统误差元是常数可以提出来,有
J =(1/N) (β∑ξi) / [σ(X) σ(Y)] (12)
精密测量,要进行多次重复测量取平均值,ξi 相当于残差,残差之和为零。因此精密测量时,随机误差与系统误差的交叉因子可以忽略,因此,“方和根法”成立。
说明一点。此前,我没做过这项推导,又顾及单次测量无抵消作用的情况,曾主张随机误差与系统误差的合成用“绝对值合成法”。此法不错,但保守。鉴于现在已有上述证明,且注意到“单次测量”仅出现在随机误差可略(重复测量中示值为常值)的普通测量中,可以不必顾虑。由是,我的主张更改为:系统误差范围与随机误差范围合成,可以用“方和根法”合成。
-
2.5 系统误差与系统误差合成的交叉因子
设(8)式中ΔX为系统误差βx ,ΔY为系统误差βy,则系统误差的交叉因子为
J =(1/N)(∑βxβy) / [σ(X) σ(Y)] (13)
βx、βy为系统误差。系统误差在系列测量时不变,是常数。有
σ(X)= |βx| (14)
σ(Y)= |βy| (15)
将(14)(15)代入(13),则得系统误差的交叉因子为:
J =(1/N) (∑βxβy) / [ |βx| |βy| ]
=(1/N)Nβxβy / [|βx| |βy|]
=±1
即有
|J|=1 (16)
当βxβy同号时,系统误差的交叉因子为+1;当βxβy异号时,系统误差的交叉因子为-1.
当系统误差的交叉因子为+1时,(7)式为:
σ(f)^2 = σ(X)^2+2 σ(X) σ(Y) + σ(Y)^2
= [σ(X) + σ(Y)]^2
既有:
σ(f) = σ(X) + σ(Y) (17)
即
| Δf | =|ΔX|+|ΔY|
也就是
| Δf | =|βx|+|βy| (18)
(18)式就是绝对值合成公式。
当系统误差的交叉因子为-1时,(15)式变为二量差的公式。因为通常只是知道系统误差之误差范围,又鉴于误差量“上限性”的特点,二量差的公式不能用。
-
综上所述,系统误差在“方和根法”合成时,交叉项中的交叉因子是+1(相关系数为-1的解不能用);这样,“方和根法”,就回归为“绝对和法”。
测量仪器的误差,通常以系统误差为主。在有系统误差存在,特别是以系统误差为主的通常情况下,交叉项中的误差项,不是弱相关而是强相关(借用常用说法)。这样,不确定度评定的通常的假设条件“不相关”,通常是不成立的。就是说,不确定度评定的“方和根法”是没道理的。不确定度理论有五大难关:分布规律、不相关假设、变系统为随机、范围到方差的往返折腾、求自由度,都是自找麻烦,并无必要;不仅不必要,由于忽略交叉项,不合理地缩小误差范围,违背误差量的上限性特点,成为工程的隐患。
除对纯随机误差外,不搞“方和根合法”合成,也就避免了不确定度论提出以来的困扰计量界的五大难关,多么轻松!
-
2.6 系统误差比重大时,合成的交叉因子
测量仪器的误差,通常是以系统误差为主的。 若系统误差在总误差的比重,大于60%,则误差因子也会大于0.6,就是强相关。因此,正视测量仪器以系统误差为主的实际情况,各仪器的测量误差合成,一般不能用“方和根法”。
-
(三)《JJF1059.1-2012》置疑
【JJF1059.1-2012条款】出处见(一),下同。
1)xi和xj中任意一个量可作为常数处理;协方差可以忽略。
【史评】
这条的意思,是说:xi与xj中,有一个是常量,协方差就可忽略。两个都是常量,则更可忽略。在讨论误差合成中,系统误差是常量。本条款说:二分项误差中,有一个是系统误差,则协方差可略。二误差都是系统误差,则协方差当然可略。
由前边(二)中的推导证明,可知:两个误差都是随机误差,协方差可略;两误差中有一个是随机误差,另一个是系统误差,协方差也可略。当二量都是系统误差时,强相关,协方差不可略。
可见,本文的协方差忽略条件是有一个是纯随机误差;而JJF1059却说协方差的忽略条件是有一个是系统误差。
两种说法有本质区别。规范条款认为协方差通常可以忽略;因此通常可用“方和根法”;本文分析则说明,通常“方和根法”是不成立的。因为测量仪器的误差,不仅有系统误差,而且通常是以系统误差为主的。
-
【JJF1059.1-2012条款】
2)在不同实验室用不同测量设备、不同时间测得的量值;协方差可以忽略。
【史评】
不同实验室、不同测量设备、不同时间的测量,都避免不了有系统误差存在,而且测量仪器一般是以系统误差为主。必须至少有一个是纯随机误差(或随机误差占绝大比例),才能忽略协方差。因此,在不同实验室用不同测量设备、不同时间测得的量值,只要系统误差占主导,就不能忽略协方差。
-
【JJF1059.1-2012条款】
3)独立测量的不同量的测量结果;协方差可以忽略。
【史评】
此条不妥。理由同上。只要测量中系统误差占较大比例,而不是纯随机误差,就不能忽略协方差。
-
总之,《JJF1001-2012》为宣扬GUM的“方和根法”而强调的“协方差可忽略”的三项条款,是不对的,是一种误导。
-
强调指出:
在讨论合成方法中,把交叉项能否忽略,说成是相关不相关,这本身就是一种误导。两个完全不相关的量,只要取这二量的和的平方,平方的展开式中,就必然有交叉项。此交叉项能不能忽略,不是二量是否相关的问题,而是必须有一个量可正可负地变化,或两个量同时可正可负的变化,才能忽略交叉项。如果两个量都是常量,交叉项必定不能忽略。同号为正,而异号为负,不存在抵消的问题。不确定度论出世以来,把交叉项同“相关系数”联系起来,造成严重的误导。许多人在此误导之下,以为二量不相关就可以忽略交叉项,其实,这是错误的。
本文与前文,笔者也时而有“相关”与“不相关”的说法,那是“借用”或仅仅是针锋相对地辩论,其实本人并没有囿于不确定度论的说教。
- |