首页 理论教育 数据的模型化:冲刷对库容的影响及参数估计优化

数据的模型化:冲刷对库容的影响及参数估计优化

时间:2023-06-24 理论教育 版权反馈
【摘要】:恢复库容的数量取决于冲刷时河槽的纵横剖面。因断面窄深,边坡系数对库容计算的结果影响较大。显然因为数据的测量误差在确定那些参数时定会引进某一不确定值。接着,必须估计数据到模型的拟合优化度。对于一般的统计估计者,表示“对于估计者最优化的立项假设条件的微小偏离不敏感”。①M-估计是根据最大似然讨论得来的,是模型拟合最恰当的一种,也就是参数的估计。

数据的模型化:冲刷对库容的影响及参数估计优化

简单地说,模型化就是将试验中获取的一组测量值,拟合成一个与可调参数相关的模型。这种模型有时仅是一种简单函数,如多项式或高斯函数,通过拟合,提供了恰当的系数。模型化也可用作一种满足约束条件的内插值,在此要把几个数据点扩展成一个连续的函数,而且具有此函数应该看起来像一个什么模样的基本思想。

对于动力传动系统试验来讲,进行数据的模型化处理,实现设计特性与试验数据的科学比对或指导设计参数的调整是试验的目的所在。关于数据的模型化理论和方法有大量的算法可实现,如作为最大似然估计的最小二乘法、直线拟合、通用线性最小二乘法、稳健估计等,这里主要介绍数据的直线拟合、稳健估计等。

(一)数据的直线拟合

显而易见,直线拟合是考虑将一套N个数据点(x,y)拟合为一条直线模型的问题

这个问题通常称为“线性回归”。我们假设与每个测量值yi有关的不确定量σi是已知的,并且xi系列值(非独立定量的值)也确切地知道。根据χ2拟合的理论,使下式

最小化得到的最大似然估计叫作χ2法。为了测试模型与数据拟合的吻合度,可利用χ2最佳函数,此时为:

如果测量误差正态分布,那么这个最佳函数将给出a和b的最大似然参数估计;如果误差为非正态分布,那么就不是最大似然参数估计,但可能仍然具有实际意义。

使式(6-45)最小来确定a和b,在最小值处,χ2(a,b)对于a、b的导数分别为0。即

如果定义下列和的形式,那么上述方程可以再写成一种简要形式,即

在上述定义的条件下,式(6-47)变为

通过这两个方程求两个未知量解的计算为:

方程(6-51)给出了最佳拟合模型参数a和b的解。

我们还需要估计出在估计a和b中的可能不确定量。显然因为数据的测量误差在确定那些参数时定会引进某一不确定值。如果数据是独立的,那么每个数据就将自己的一点不确定量分配给参数。误差传递的条件表明任一函数值f的变量将变为:

对于直线,a和b关于yi的导数可直接从解中求出:

(www.xing528.com)

将式(6-52)中所有的点相加,则有

上式即为在估计a和b时的变量。还有就是a和b的相关变量,表示为

a和b中的不确定量的相关关系是介于±1之间,从式(6-53)得到下式

rab为正值时表示a和b的误差可能为相同符号,而负值表示它们是反相关的,可能符号相反。

接着,必须估计数据到模型的拟合优化度。因为没有这个估计,我们一点也没有表明模型中参数a和b的意义。χ2法有时会发生与式(6-45)一样无法接受的概率Q值为

这里的gamm q是文献《科学计算的技巧与程序库》6.2节中不完全gamma函数Q(a,x)。若果Q值大于0.1,那么拟合优化度是可信的;如果Q值大于0.001,并且误差是非正态分布评定或者是适度低估的,那么拟合优化度是可接受的;如果Q值小于0.001,那么确实对模型和(或)估计过程表示怀疑。

如果不知道各个点Si的测量误差,可以采用误差理论估计这些误差。关于估计参数a和b的可能的不确定值的方法如下:

设式(6-48)所有方程中的σi=1,由方程得到σa和σb与另外一个因子相乘,其中χ2是用拟合参数a和b由式(6-51) 计算得到的。如上述讨论,这个方法相当于建设拟合优化度优良,因此得到非独立拟合优化度的概率Q。

(二)稳健估计

“稳健”这一术语是G.EP.Box在1953年写的《统计学》中引进的。对于一般的统计估计者,表示“对于估计者最优化的立项假设条件的微小偏离不敏感”。“微小”一词有两种解释,均很重要;或者是所有点部分都有小偏离,或者是对少部分数据点的部分有大偏离。就是这后种解释,导出局外点的说法,一般对统计过程是很重要的。

统计学家已经发展了多种稳健统计估计方法。很多能归到下列三类中的某一类。

①M-估计是根据最大似然讨论得来的,是模型拟合最恰当的一种,也就是参数的估计。

②L-估计是“顺序统计量的线性”。这些估计是最适用于中心值估计和中心倾向估计的,尽管它也偶尔用于老参数估计的某些问题上,两个“典型”的L-估计将给出一般四项,它们是:中值和Tukey的三平均——由一个分布的四分点的第一、第二、第三点的加权平均值来定义,权数分别为1/4、1/2和1/4。

③R-估计是基于秩检测的估计。例如,两种分布是否相等可由计算两个分布的一个组合样品中分布的平均秩的Wilcoxon检测来估计。如果不是由形式定义的,Kolmogorov-Smirnov统计和Spearman秩一级相关关系实质上是R-估计。

最优控制领域和滤波领域得来的而不是从数理统计得来的一些其他类型的稳健技术可以从相关文献中获得。适于稳健统计方法的一些示例如图6-7所示。

图6-7 稳健统计方法的示例

图6-7(a)是具有一个尾部稳健外点的一维分布:这些局外点中的统计振荡能妨碍中心峰值的准确确定。图6-7(b)是在二维中拟合一直线的分布,非稳健技术如最小二乘法拟合对局外点没有所希望的敏感度。关于稳健估计的详细阐述超出了本书讨论的范畴,感兴趣的读者可参阅相关文献资料。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈