资源之间的关联不仅仅取决于形式上的词重复,还取决于词背后所包含的语义信息和产生的语义关联,这种真实的语义在图情领域常用“主题”(subjects)来表示。topic model则是机器学习和自然语言处理中的一类统计模型,其主要目的是用于发现文档集合中出现的topic,topic的实质也是语义信息。两者相比,topic没有像subject一样严格地进行规范控制,topic及其所构成的结构网络和本体类似,但是又避免了像本体一样过于抽象和复杂,因此具有良好的灵活性,可操作性也较高。
1998年,Papadimitriou等人就提出了主题模型的相关概念[38],其后衍生出隐含概率语义分析(Probabilistic Latent Semantic Indexing,简称PLSI)[39],以及在此基础上的模型变形。其基本思想认为,文本不仅仅是表现在词典空间上,而且具有语义维度,语义是文本所包含信息的浓缩和集成,文本则是在这些语义上的表示。目前最成熟且在实际应用中最为广泛的主题模型主要包括潜在狄利克雷分析(Latent Dirichlet allocation,简称LDA)模型[40]和作者主题模型(Author Topic Model)[41]两种。
假设有两个句子:①“比尔·盖茨离职了。”②“微软的价格会不会下降?”这两个句子从显性的角度来看没有任何公共词语,但是从内容上看明显是相关的。这是因为从背景来看,比尔·盖茨是微软的创始人和实际的商业代表。这种类型的问题在实际的资源获取过程中经常会遇到,但是传统的分析方法从词出现的角度是无法反映其语义关联的。
主题模型,就是对词所组成的资源中隐含的主题或者语义建模的方法。上面的两个句子中,微软这个词表达的是IT巨头微软公司这样的主题,当和第一句话进行对比时,微软所表达的语义就和比尔·盖茨所代表的语义匹配上,这样就说明两者之间相关。某个主题可以表达为一系列相关的词语,比如一个文章如果涉及“微软”这个主题,那么“Microsoft”“比尔·盖茨”“Office办公系统”等词就会以较高的频率出现,而如果涉及其他的主题例如“Google”,那么“搜索引擎”“谷歌地图”等出现的频次就会较高。数学表达为:主题就是词汇的条件概率分布,与主题关系密切程度越高的词汇,其条件概率越大,反之则越小。简单来讲,每个主题类似于一个词袋,包含了许多出现概率较高的词,这些词的语义内涵都指向这个主题,或者说这些语义上的共性定义了这个主题。对于一个资源来说,其中所包含的词汇很可能来自于许多不同的主题的词汇,那么这个资源就表现为多个主题的综合体。
从资源创作的角度来看,作者虽然是直接将词语组织成文档或者资源来表达自己对世界的认知或感觉,但这个过程事实上是作者先将一系列概念、观点进行组织,然后选择能够表达这些概念和观点的词使用,组织起来表达观点,这里的观点或者概念就是词所包含的真实的语义。语义主题可以理解为许多词的集合,而这种集合过程又符合一定的概率分布特征。从生成模型的角度来看,每个资源或者文档的每个词都是以一定的概率选择了某个主题,并从这个主题中以一定概率选择某个词语的过程。那么,一个资源或者文档的生成,其中每个词出现的概率p就表现为:(www.xing528.com)
对于一个包含大量文档的资源集,现有的技术很容易对它们进行分词,从而得到所有词的一个集合,这样每个文档都是一个包含在总词集中词的一个组合结果。对于每个词来说,可以用它们在文档中出现的次数占所有词的比例作为其概率,即上面公式中左边是已知的。主题模型就是用大量的已知的词汇在文档中的概率,推导出词汇和主题、主题和文档的方法。其中的主题层,本质上就是语义层。
与目前通行的语义网标准RDF/OWL相比,主题模型的语义表现力并不弱于RDF,而两者不同点在于:第一,主题的发现提供了更多的语义抽象,且每个主题之间的关联被包含在概率分布中,而RDF则是提供了通过一种关系所关联的两个主题之间的形态;第二,主题模型中,主题之间实质上是存在n元关系,而RDF则主要表现为三元组;第三,通过RDF等建立本体的方式本质上是知识体系的规范化组织在前,资源的描述和揭示在后,进一步通过推理等功能增加了知识性,而主题模型的方法则直接面向资源对象进行自然语言处理,是一种无监督的自动化处理方式,无需任何人工标注过程;第四,主题模型独立于语言而存在,无论是哪种语言,只要可以分词,主题模型就可以使用,而传统的本体方式存在语言类型的边界。
一般而言利用RDF和本体等手段处理的资源都具有资源指向的功能,而主题模型则是抽取词表达在文档或资源中的语义,无法用来直接定位资源,因此有必要结合其他的分析方法。例如通过计算文档之间的语义上的距离来判断两者之间的语义相似度,另一种可行的方法是在计量分析中的共现聚类和网络分析中的社团发现的基础上,利用主题模型的语义挖掘结果进一步进行分析。两者之间的关系可以表示为:计量中的共现关系是从表面到内容,而主题模型则是从内容到表面,两者结合才能更好地完成知识发现和资源聚合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。