首页 理论教育 以相对重要性为中心的聚合优化方案

以相对重要性为中心的聚合优化方案

时间:2023-07-08 理论教育 版权反馈
【摘要】:相对值聚合的基础是基于阈值的聚合。相对值聚合的基本思想是,从网络中节点或关系的重要性出发,不再仅仅着眼于其整体的分布,而是侧重于从局部发现重要的聚合。对比阈值来说,相对值聚合最大的特点在于各个聚合的共性主要体现在聚合结果的规模上。节点的相对值聚合其实相对简单,其判断和实现也较为容易;从网络中边的值进行的相对值聚合较为复杂。

以相对重要性为中心的聚合优化方案

上述提出的以节点为中心的聚合方法和以层次为中心的聚合方法是两类典型的聚合方法。以节点为中心的聚合方法大多数是局部的,并没有把整个网络的特征作为整体的考虑因素;以层次为中心的聚合方法针对大规模的数据集时只是得出将整个资源群体分成了不同的类,无法凸显资源本身的重要性。在综合考虑整个网络特点和资源重要性的情况下实施聚合显得十分必要,本研究认为,在资源及其实体形成的网络中,通过相对重要性对资源实施聚合是一种好的解决方式。

相对值聚合的基础是基于阈值的聚合。基于阈值的聚合方法是一种较为简单易行的聚合方法,其基本思想是在确定资源及其实体构成的网络中节点(文献、作者、关键词、期刊等)重要性的基础上,按照重要性的程度对节点进行排序,并进一步设置重要性程度标准的一种聚合方法。例如,在引文网络中,在每篇文献的被引次数或者不同类型的中心性后,只需要获得权值的分布情况,通过划定阈值就可以获得一定规模的文献聚合。

绝对值聚合的方法的优点在于简单明了,其结果大多数以列表的方式呈现,由于分析过程和结果非常类似于目前主流的搜索引擎,因此易于根据需求进行调整,作者通过简单地划定阈值的大小就可以得到不同规模的聚合结果。但是其缺点也同样十分明显,由于一般情况下阈值聚合只考虑目标内容与检索式之间的匹配情况,例如关键词出现的次数,与检索词之间的相似程度等,并没有把对象本身之间所具有的关联纳入考虑范围,因此绝对值聚合得到的结果可能比较分散且相对单一,这样可能导致作者无法通过结果之间的参照来获取自己所需的知识。

阈值聚合的形式可以用图4-3表示,其数学形式表达如下:定义网络N=(A,C,w),其中A表示网络中的节点,C表示网络中的关系数,w表示关系的权重且w:C→R,在关系重要性阈值t时获得的子网N(t)=[A(C′),C′,w],A(C′)为构成子网中所有关系对的节点,对于任意关系对α,有:

图4-3 阈值为t的绝对值聚合

同样的,在相同的网络中,如果w表示的是节点的权重,那么在节点的重要性阈值为t时获得的子网N(t)=[A′,C(A′),w],A′为构成子网中所有关系的节点,对于任意节点v,有:

虽然两种绝对值聚合出发点略有不同,一个是从边的重要性进行聚合获取,另一个则是从节点重要性出发进行聚合获取,但是从结果上来看其效果都是一致的,即都是获得了相对较小规模的子网。然而单独对边进行揭示并没有太大的意义,因此这里的聚合结果主要针对节点即资源或特征项而言。

基于阈值的聚合是一种二维的思想。相对值聚合的基本思想是,从网络中节点或关系的重要性出发,不再仅仅着眼于其整体的分布,而是侧重于从局部发现重要的聚合。例如,在一个连通的引文网络中,其平面二维坐标(X,Y)分布结构由整个网络的结构决定,可以通过一定的算法(如常见的K-K算法[28]、力导引算法[29]等)使网络整体的二维布局更为合理,在此基础上以各节点或关系的重要性程度值作为第三维的Z坐标,可以绘制网络的三维立体图形,如图4-4所示。正如前文所提到的,阈值聚合算法相当于从网络中最高点开始设置平面,随着平面的不断下降,最高点就逐渐露出来;而相对值聚合则主要侧重于这种三维结构中的特殊的聚合,即其中的节点或关系的重要性程度值要大于与其相连的周边节点或关系的重要性程度值,从而产生一个相对“高地”,这些聚合产生的原因是其中的节点或关系的相对重要性较高。对比阈值来说,相对值聚合最大的特点在于各个聚合的共性主要体现在聚合结果的规模上。(www.xing528.com)

图4-5是相对值聚合的一个例子,这里的t主要是针对最后聚合结果的规模,表示聚合结果中包含的节点数量或者关系对t的数量位于区间[z,Z]之间。对于网络G=(V,E),V代表网络中的节点集合,E代表网络中边的集合。一个非空点集合C⊆V在如下条件下满足为一个节点相对值聚合,即聚合中节点的值大于或者等于聚合外部的节点值,其数学表达如下:

图4-4 以节点重要性为Z轴的资源网络三维效果图

图4-5 规模为t的相对值聚合

公式中,u和v表示网络中的某个节点,N(C)表示聚合C周边的节点集合。

节点的相对值聚合其实相对简单,其判断和实现也较为容易;从网络中边的值进行的相对值聚合较为复杂。对于网络G=(V,C),V代表网络中节点的集合,E代表边的集合。点集合C⊆V在如下条件下满足为一个基于边重要性的相对值聚合,即存在一个对应于点集合C的子图g,且子图g为联通子图(不存在孤立点),子图中的边构成了一个生成树T,对于那些两个端点都不属于C或者仅有一个端点属于C的边来说,其边值的大小都小于或者等于生成树T中边的值。数学公式表达式如下:

公式中u和v表示节点,e表示边。E(T)表示最小生成树T边的集合。上述的两个公式中,w都是代表点或者边的值。这两个公式事实上主要给出了聚合内部的节点或者边与聚合外部节点或者边之间的关系。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈