首页 理论教育 图书馆知识发现技术:算法模型及应用研究

图书馆知识发现技术:算法模型及应用研究

时间:2023-08-08 理论教育 版权反馈
【摘要】:数据挖掘的算法有很多种,本章根据复旦大学图书馆采访决策的需求,选择数据挖掘中的预测模型,即根据以往的采访、流通、出版数据预测各学科采访经费比例。此处仅讨论多元线性回归。,xp是p个可以精确测量或可控制的变量。如果变量y与x1,x2,…,bp是p+1个待估参数,εi表示第i次试验中的随机因素对yi的影响。,bp)′,ε=(ε1,ε2,…上式便是p元线性回归的数学模型。

图书馆知识发现技术:算法模型及应用研究

数据挖掘的算法有很多种,本章根据复旦大学图书馆采访决策的需求,选择数据挖掘中的预测模型,即根据以往的采访、流通、出版数据预测各学科采访经费比例。采访数据与当年的新闻出版主管部门的出版数据、流通数据、学科师生人数等存在相关关系,基于对复旦大学图书馆采访决策支持的数据相关关系的认知,采用基于多元回归分析方法的数据挖掘策略来发现这种关系,并给出相应的数学方程式,指导和预测未来的采访比例。

多元回归是指研究一个变量和两个或两个以上自变量的回归,亦称为多元线性回归,是反映一种现象或事物的数量依赖多种现象或事物的数量的变动而相应地变动的规律,也是建立多个变量之间线性或非线性数学模型数量关系式的统计方法。变量之间的关系一般分为两种:一种是完全确定关系,即函数关系;一种是相关关系,即变量之间既存在着密切联系,但又不能由一个或多个变量的值求出另一个变量的值。对于彼此联系比较紧密的变量,人们总希望建立一定的公式,以便变量之间互相推测。回归分析的任务就是用数学表达式来描述相关变量之间的关系[7]

相关变量之间的关系可以是线性的,也可以是非线性的。此处仅讨论多元线性回归。设x1,x2,…,xp是p个可以精确测量或可控制的变量。如果变量y与x1,x2,…,xp之间的内在联系是线性的,那么进行n次试验,则可得n组数据:(yi,xi1,xi2,…,xip),i=1,2,…,n。

它们之间的关系可表示如下:

其中,b0,b1,b2,…,bp是p+1个待估参数,εi表示第i次试验中的随机因素对yi的影响。为简便起见,将此n个方程表示成矩阵形式:(www.xing528.com)

Y=XB+ε,

其中,Y=(y1,y2,…,yn)′,B=(b0,b1,…,bp)′,ε=(ε1,ε2,…,εn)′。

上式便是p元线性回归的数学模型。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈