首页 理论教育 学术文本中的领域无关词汇功能分析

学术文本中的领域无关词汇功能分析

时间:2023-11-20 理论教育 版权反馈
【摘要】:领域无关词汇功能仅包括两大类:问题和方法。图2-2问题与方法的标注科研工作具有整体和部分、全局和阶段之分,因此,仅仅将领域无关词汇功能分为问题和方法两类也是不够的。以下将对各个词汇功能类别分别予以详细说明。图2-3领域无关词汇功能分类体系核心问题和核心方法核心问题和核心方法揭示了文章全文的主要研究课题以及在研究问题的核心解决途径,是在文档级别对文献内容的总结。

学术文本中的领域无关词汇功能分析

领域无关词汇功能仅包括两大类:问题和方法。问题是科研工作需要解决的工作对象,方法是用于解决问题的途径、手段。为了与“方法”的表述相对应,在本书后文中,也会使用“应用”一词表示“问题”的含义。

学术文本词汇的“问题”和“方法”功能是对词汇对应事物在所在文献所映射的科研工作中所承担角色的反映。对于所有的科研工作而言,问题都是必不可少的。研究方法可能显性存在,也可能不显性地存在(在一些社会科学的研究中有可能出现),但无论如何,在问题的解决过程中至少存在隐含的解决思路或解决途径。

图2-2给出了一篇文档的标题及摘要片段,从中可以看到,该研究的主要问题是“Noun sense induction”,使用的主要方法则是“clustering ofWeb search results”或者“Web search results”。之所以会出现对主要方法的不同认知,原因在于学术文本词汇功能在一定程度上涉及语用分析的内容,对于不同的读者而言,对方法的理解会有所不同。某些人可能认为聚类(clustering)对问题的研究起着主要的作用,Web搜索结果(Web search results)不过是一个新的数据而已;而另外一些人可能认为聚类只是一个常见的方法,对文档所反映的科研目标的达成并无多大意义,实现研究目标的主要因素在于引入了Web搜索结果。

图2-2 问题与方法的标注

科研工作具有整体和部分、全局和阶段之分,因此,仅仅将领域无关词汇功能分为问题和方法两类也是不够的。科研文献是对科研工作及其成果的固化,科研文献也可以从文档级和片段级两个层面加以分析。文档级对应于科研工作的整体和全局,而科研工作的部分和阶段则反映于科研文献的片段之中。这里所说的片段可能是章节,也可能是段落或者句子

在文档层面,需要界定的“方法”和“应用”是针对研究论文整体而言的,研究主要使用了什么方法,针对的是何种应用。

在片段层面,片段的是科研工作的某一个过程或者某一个阶段、某一局部在论文上的体现。研究人员在特定片段中表述使用某种方法,处理某种应用。文档层面和片段层面的方法和应用可能是相同的,也可能完全不同。

基于以上分析,领域无关词汇功能可以分为问题和方法两类。在文档层面,存在核心问题和核心方法两个类别,而在片段层面,则存在一般问题、一般方法、其他问题、其他方法四个类别,分类体系如图2-3所示。以下将对各个词汇功能类别分别予以详细说明。

图2-3 领域无关词汇功能分类体系

(1)核心问题和核心方法

核心问题和核心方法揭示了文章全文的主要研究课题以及在研究问题的核心解决途径,是在文档级别对文献内容的总结。

作者通常会在标题和摘要中揭示核心问题和核心方法,但这也并不尽然,某些作者在撰写论文时会给出一些与核心问题和核心方法没有明确关联的标题,例如关于信息抽取的论文就出现如“To Title,or not to Title”“No Noun Phrases Left Behind”这样的标题。

一篇文档中可能会有多个词汇同时构成“核心问题”或者“核心方法”,作者可能会反复强调自己的工作以及使用的方法。

图2-4给出了一篇论文的标题和摘要,并给出了功能标注。从图中可以看到,文章的核心问题和核心方法在标题中得到了揭示,核心问题是日文依存分析(Japanese dependency structure analysis),使用的核心方法是支持向量机(support vector machines)。同时,在摘要中也看到了对应于核心问题和核心方法的词汇,并且几乎使用了同样的文字表述,本书将这些词汇视为都具备了核心问题或者核心方法的词汇功能。

图2-4 核心问题与核心方法示例1

(www.xing528.com)

图2-5 核心问题与核心方法示例2

图2-5给出了另外一个关于核心问题和核心方法的例子。在这个例子中,研究的核心问题是语篇解析器(discourse parser)或者语篇解析(discourse parsing),使用的方法依然是支持向量机(support vector machine)。在这个例子中,核心问题在标题和摘要中都有词汇体现,但是在文字表述上是不一致的,分别是“discourse parser”和“parse discourse”,前者是名词术语,后者则是动词名词组合。

(2)一般问题和一般方法

一般问题与一般方法是指在文档片段中(本书在句子级别进行分析)词汇所承担的问题或者方法功能。

图2-6给出了一个一般方法和一般问题的标注实例。可以看到,作者引入了一系列的特征以解决一个分类问题。

图2-6 一般问题与一般方法示例1

图2-7中,作者将实体举例(entity distance)作为特征,并将其使用在支持向量机分类中,与图2-6给出的示例不同,这一个例子中并没有明确的需要解决的问题。

图2-7 一般问题与一般方法示例2

(3)其他问题和其他方法

其他问题和其他方法是指作为背景知识或者作为参照对象的问题和方法。这些问题和方法对作者的科研问题解决没有直接的影响。

图2-8给出的是其他问题和其他方法的一个示例。在这一个例子中,如果没有第一个句子的存在,则很难判定第二个句子中的一系列方法,如“conventional parsing techniques”“machine learning framework”等的功能应该属于其他方法。在这里,其他问题和其他方法的判定需要结合论文的整体背景加以实现。

图2-8 其他问题与其他方法示例1

图2-9给出了一个单句的实例,在这个例子中,即使没有上下句参考,依然可以发现最大熵方法(maximum entropy tagging method)的功能类别是其他方法。

图2-9 其他问题与其他方法示例2

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈