首页 理论教育 面向信息内容安全的新闻处理技术:逻辑方法及应用

面向信息内容安全的新闻处理技术:逻辑方法及应用

时间:2023-11-23 理论教育 版权反馈
【摘要】:逻辑方法就是研究怎样学习出主题过滤规律的,认为知识就是过滤。逻辑方法比较适应于具有离散变量的样本。传统的逻辑方法主要包括基于覆盖的AQ家族算法,以信息熵为基础的ID3决策树算法以及基于Rough Sets理论的学习算法。

面向信息内容安全的新闻处理技术:逻辑方法及应用

逻辑方法就是研究怎样学习出主题过滤规律的,认为知识就是过滤。逻辑方法比较适应于具有离散变量的样本。对于连续性的变量,常常采用一些离散化的手段把它们转化成离散值。传统的逻辑方法主要包括基于覆盖的AQ家族算法,以信息熵为基础的ID3决策树算法以及基于Rough Sets理论的学习算法。

1.ID3决策树(Decision Tree)算法

ID3是Quinlan于1986年提出的一种重要的归纳学习算法,在机器学习中有广泛的应用,它从训练集中自动归纳出决策树。在应用时,决策树算法基于一种信息增益标准来选择具有信息的词,然后根据文本中出现的词的组合判断相关主题。决策树有以下三个特点:

(1)使用一棵过滤决策树表示学习结果;

(2)决策树的每个节点都是样本的某个属性,采用信息熵作为节点的选择依据;

(3)采用了有效的增量学习策略。(www.xing528.com)

2.AQ11算法[21]

AQ11使用了逻辑语言来描述学习结果。整个学习过程就是一个逻辑演算过程:

其中e1+∈EP,表示正例样本集合中的一个正例样本,其中e1-∈EN表示反例样本集合中的一个反例样本。然后使用分配率和吸收率对上式进行简化。

3.基于Rough集理论的逻辑学习算法

Rough Set是波兰数学家Pawlak提出的一种不确定性知识的表示方法,后来被人们用做数据约简。数据约简是指去除那些对于过滤不起作用的元素,分为只删除属性值的值约简,以及可以删除整个属性的属性约简。数据约简可以在保持相关主题一致的约束下大大简化样本数据,最终使用很少的几条逻辑规则就能描述过滤规则。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈