首页 理论教育 学术文本词汇功能分析的理论方法应用

学术文本词汇功能分析的理论方法应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:目前关于词汇语义功能自动标注,主要采用基于规则提取和基于机器学习的方法。当人工标注数据时,需要遵循规范的流程,此外还需要对标注的结果进行恰当的检验,以保证数据集的可信度。Simone Teufel和Advaith Siddharthan等对学术文本的引文功能进行标注时,先抽取一定数量的引文,三个人分别独立进行标注,然后使用kappa分析对引文功能分类框架的信度进行检验。借鉴上述的相关研究,本书将拟使用kappa系数进行数据标注结果检验。

学术文本词汇功能分析的理论方法应用

目前关于词汇语义功能自动标注,主要采用基于规则提取和基于机器学习的方法。基于规则提取的方法,只能针对具有一定结构特征的文本,如标题等,推广性差;基于机器学习的方法,主要针对学术文本的标题和摘要,而且准确率不高。因此,本研究拟采用人工对学术文本关键词进行语义功能标注。当人工标注数据时,需要遵循规范的流程,此外还需要对标注的结果进行恰当的检验,以保证数据集的可信度。不同的学者应用不同的方法进行数据标注以及标注结果检验。Simone Teufel和Advaith Siddharthan等对学术文本的引文功能进行标注时,先抽取一定数量的引文,三个人分别独立进行标注,然后使用kappa分析对引文功能分类框架的信度进行检验。[152]Chu在使用内容分析法来分析图书情报领域的研究方法时候,对论文中的研究方法进行编码之后,随机抽取30篇论文由另一个人编码,统计两个人的编码一致性,一致性达到86.7%,其中一般认为达到80%以上即为可接受的。[153]Philip Hider与Bob Pymm等在研究图书情报领域中实证研究方法,对论文的研究方法进行标注时,采用两人同时进行标注,最后统计两个人的标注结果的一致率,一致率达到80%以上,同时使用Cohen's kappa coefficient来检验不同分类变量的合理性。[154]Mengnan Zhao与Erjia Yan等对论文全文中有关数据的提及与引用进行标注时,先随机选取一部分数据集进行标注来完善标注框架,其次依照完整的框架,两个具有专业背景的研究人员对随机选取的50篇论文进行标注,其Cohen's kappa coefficient达到0.86,说明其中一个人已经足够完成接下去的所有文章的标注[155]。借鉴上述的相关研究,本书将拟使用kappa系数进行数据标注结果检验。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈