首页 理论教育 网络舆情:热点话题演化中噪声引入分析

网络舆情:热点话题演化中噪声引入分析

时间:2023-11-04 理论教育 版权反馈
【摘要】:缺点是在话题演化过程中可能会引入噪声特征,从而降低话题识别与追踪系统的综合性能,甚至导致上述的话题漂移现象的产生。本节以TDT4语料中的41020话题“印度尼西亚教堂的袭击”为例,再次梳理话题的演化过程,简析理论上如何避免话题演化过程中噪声特征的引入。图6-541020话题演化脉络通过上述分析发现,从话题的完整演化脉络来看,噪声特征具有明显的特性,这些特性对话题演化中噪声特征的识别具有重要的理论指导。

网络舆情:热点话题演化中噪声引入分析

随着时间的推移,新的相关报道不断融入已有话题,实现话题的动态演化,该过程符合人们的逻辑认知。缺点是在话题演化过程中可能会引入噪声特征,从而降低话题识别与追踪系统的综合性能,甚至导致上述的话题漂移现象的产生。本节以TDT4语料中的41020话题“印度尼西亚教堂的袭击”为例,再次梳理话题的演化过程,简析理论上如何避免话题演化过程中噪声特征的引入。

41020话题起始于2000年12月24日,TDT评测会议组通过新闻早报(ZBN)、中国广播系统(CTS)和中国电视系统(CBS)三家媒体搜集、追踪与该话题相关的中文新闻报道,图6-5展示了该话题的演化脉络,图中矩形框里的内容为对应时间追踪到的新的相关报道的描述特征。

图6-5中左边带箭头的线为时间轴,观察上图可以发现,在话题演化过程中,核心特征“印尼;教堂;爆炸”贯穿于话题发展的始终,体现了话题核心内容的守恒。在话题演化的过程中,还出现了一些新的特征,有些新特征的引入可以体现话题的演化,起到正面的作用,有些新特征的引入却起到了反面的作用。图中2000年12月25日之后出现的新特征“警方;嫌犯;驻守;疗伤”等很好地体现了话题的发展脉络,起到了正面的作用;而2000年12月26日出现的新特征“中东和平;以色列;巴勒斯坦;死亡文化”在后续的相关报道中均未出现,这些特征的引入,可能会使话题在发展过程中产生漂移,故在话题演化中起到了反面作用;特征“恐怖分子;国家分裂”出现在TDT4语料的多个中文话题中,它们的引入势必会降低话题与话题之间的区分度,故在进行话题表示时这些新引入特征的权重应进行适当衰减。

图6-5 41020话题演化脉络(www.xing528.com)

通过上述分析发现,从话题的完整演化脉络来看,噪声特征具有明显的特性,这些特性对话题演化中噪声特征的识别具有重要的理论指导。

(1)间断性:在话题演化过程中,不同时间段的相关新闻报道会引入一些新的特征,有效新特征的引入往往标志着话题发展过程中一个新阶段的到来,可降低话题追踪的漏报率。但是,若一个新的特征仅在某个相关新闻报道中以较高权重出现,在之后的时间距离Δt内或之后的n个相关报道中再也没出现,则认为该特征的间断性较强,为噪声的可能性很大,其权重应该进行衰减,例如41020话题中的“以色列;巴勒斯坦;死亡文化”。

(2)分布性:依据特征选择理论,如果特征ki在话题topic1,topic2,…,topicn中均出现,则该特征的类辨别能力较差,在后期的话题识别与追踪中存在误报可能。据此,如果追踪到的新相关报道中的新特征kj分布在m(m≥2)个话题中,则需要使其权重衰减,且衰减程度应与m成正比。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈