首页 理论教育 科技查新之图情大数据:丰富、高效、优质的信息分析

科技查新之图情大数据:丰富、高效、优质的信息分析

时间:2023-08-08 理论教育 版权反馈
【摘要】:目前,科技查新中所要收集、分析和处理的文献信息就是图情大数据的一种主要表现形式。利用大数据技术,不仅可以为科技查新服务提供更丰富、更高质量、可信度更高的信息,同时还能提高其服务效率和服务质量。大数据的应用让科技查新的信息更精准、更优质查新工作中,检索策略直接体现了项目的技术创新和技术特点,检索式的合理性决定了检索的查准率,这是决定检索质量的另一个关键因素。

科技查新之图情大数据:丰富、高效、优质的信息分析

科技查新,简称查新,按照《科技查新规范》(国科发计字[2000]544号)定义为:查新是指查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照本规范操作,并作出结论。科技查新是科学研究、产品开发和科技管理等活动中的一项重要基础工作。在2015年颁布的中华人民共和国国家标准《科技查新技术规范》(GB/T 32003-2015)中定义为:科技查新是以反映查新项目主题内容的查新点为依据,以计算机检索为主要手段,以获取密切相关文献为检索目标,运用综合分析和对比方法,对查新项目的新颖性做出文献评价的情报咨询服务。

科技查新是文献检索和情报调研相结合的情报研究工作,它以文献为基础,以文献检索和情报调研为手段,以检出结果为依据,通过综合分析,对查新项目的新颖性进行情报学审查,写出有依据、有分析、有对比、有结论的查新报告。也就是说,查新是以通过检出文献的客观事实来对项目的新颖性做出结论。

根据国家标准《文献著录总则》(GB/T 3792.1—1983),文献是指记录有知识的一切载体;根据《文献情报术语国际标准(草案)》(ISO/DIS5127),文献是指在存贮、检索、利用或者传递记录信息的过程中,可作为一种单元处理的,在载体内、载体上或者依附载体而存贮有信息或数据的载体。在查新中,文献是科技文献的简称,是指通过各种手段(如文字、图形、公式、代码、声频、视频、电子等)记录科学技术信息或知识的载体。文献信息是指被文献化了的,以便通过动态系统加以存贮、交流、传播、利用的人类文化、科技等信息,也就是指以文献形式被记录的信息。目前,科技查新中所要收集、分析和处理的文献信息就是图情大数据的一种主要表现形式。利用大数据技术,不仅可以为科技查新服务提供更丰富、更高质量、可信度更高的信息,同时还能提高其服务效率和服务质量。

科技查新工作始于20世纪80年代,处理的文献信息从表现形式上大致经历了四个阶段:20世纪80年代到90年代初,文献信息主要以印刷的纸质文献为主要载体,包括纸质的期刊、图书、论文集、专利、标准、科技报告、产品样本等,检索信息的方式基本依赖于检索工具书、书目索引、文摘,是查找检索书刊资料的主要工具;90年代中后期,随着计算机、网络技术及数据库技术的发展,检索工具书转变成了电子出版的方式,光盘检索工具成为信息获取的主要形式;90年代后期到2000年后,随着互联网技术的快速发展,基于互联网的数据资源库开始涌现,全球也兴起了各种数字图书馆建设,运用各类扫描技术、图像处理技术、文字识别技术等纷纷将传统的纸质文献转化成了多种多样的数据库,电子出版、网络出版所占的比重也越来越大,原有的信息载体发生了巨大的改变,以数据化记录信息、以网络化获取信息的方式逐步成为信息检索的主要方式;2010年以后,随着云计算技术、大数据技术、人工智能技术的迅猛发展,数据信息的收集、筛选、整理、保存和应用都发生了显著的变化,传统的查新工作也面临着一定的危机和挑战,而另一方面,科技创新的新需求让查新工作有了新的内涵和深度,查新工作也逐步向自动化、智能化的方向发展。

(1)大数据的应用让科技查新的资源更全面、更完善

运用大数据技术,不仅可以让查新工作者突破传统的各类学术数据库资源的限制,对信息量更为庞大的网络信息资源进行广泛的信息采集和抓取,对查新工作中的查全率有了更有效的提升,而查全率是直接影响检索的关键因素之一。近几年出现了一种新的整合技术,叫做资源发现系统。资源发现系统通过对海量的来自异构资源的元数据和部分对象数据通过抽取、映射、收割、导入等手段进行预收集,并通过归并映射到一个标准的表达式进行预聚合,形成统一的元数据索引,通过单一但功能强大的搜索引擎向终端用户提供基于本地分布或者远程中心的统一检索和服务。

(2)大数据的应用让科技查新的信息更精准、更优质

查新工作中,检索策略直接体现了项目的技术创新和技术特点,检索式的合理性决定了检索的查准率,这是决定检索质量的另一个关键因素。科学合理的检索策略是影响查新质量的关键。传统的查新工作,检索策略的好坏主要依赖于检索人员的自身专业素质和查新工作经验的积累。而大数据技术则提供了更多的检索策略的组配方式,应用机器学习的方法,在不断的学习和优化过程中,可以分析出最合理和最科学的检索策略,从而大大提高检出文献的密切相关性,在一定程度上有效减少查新员由于经验和专业能力不足而造成的对查新项目质量的影响。

(3)大数据的应用让科技查新的方法更高效、更科学

利用大数据技术,深度分析和挖掘海量的互联网信息资源,可以从海量数据中发现各种文献之间的相关关系,大大提高了数据资源的利用和开发能力。比如,可以借助机器学习与数据挖掘等算法,筛选出密切相关和一般相关的文献,自动形成文献综述,为查新客户全面、深入了解其项目提供客观的科学依据,减轻人工无法短时间阅读海量数据从而撰写综述的片面性;又比如,可以结合网络数据、社交媒体数据、市场数据、统计数据等进行关联分析,从而为技术在市场和应用层面的情况加以补充,赋予科技查新报告更新、更实用的价值。

根据国内查新机构数据资源、设备和技术等方面调研得知,随着国家科技投入加大,国内大部分查新机构具有丰富的数据资源和先进的检索工具和平台,其中,中国知网开通率达97%,维普达93%,万方达94%、Proquest Dialog达80%,Web of Science达73%,EI达69%。同时,部分查新机构已经开通了TDA(Thomson Data Analyzer)、TI(Thomson Innovation)、Innography等情报分析工具,具备开展深层次服务的能力。目前,国内科技和教育领域的查新机构已建立了各自的科技查新系统或平台,不少学者也对此进行了研究和探讨。(www.xing528.com)

科技查新业务管理系统自20世纪90年代开始建设,发展到今天已经比较成熟,目前主要有三大类:第一类是针对查新内部使用的查新业务项目管理系统,其功能主要是将查新委托和查新报告转换为档案,系统提供了项目实施所需的业务流转、业务统计和查询等功能;第二类是为用户提供网上服务的业务系统,主要为委托用户提供便利,如在线委托和查询等;第三类是在统一的门户网络环境下集成同时面向查新机构及查新用户的开放式工作平台,覆盖了前两类系统的功能,不仅实现了用户线上委托、查询以及与查新机构的项目信息交互功能,还集成了查新项目任务自动分配、在线审核审批、统计管理、自动归档等功能。但上述三类查新系统还只是最大限度地实现了对于查新项目数据、过程数据以及档案数据的管理,缺乏对查新工作中知识发现、知识管理、知识共享以及智能化数据分析和处理功能,忽视了查新工作中资源共建、数据开放、业务增值等知识积累和创新的过程,在一定程度上造成了工作资源的重复和浪费,制约了科技查新工作成效的进一步提高,也不利于科技查新工作在适应环境变化的同时取得可持续发展

教育部分批建设的高校科技查新工作站来看,每个工作站都有自己的查新站点或网页,几乎都能在线下载委托书。在分批设立的67个工作站中,可以直接提供在线委托服务的有华东理工大学苏州大学北京大学清华大学、华中农业大学、华东理工大学、中国矿业大学重庆大学河海大学共9个工作站,约占13.4%。目前对外公开报道的系统有:宁波大学科技查新信息管理系统、浙江大学科技查新信息综合系统、东南大学科技查新管理系统、江苏大学科技查新信息管理系统、北京大学科技查新档案管理系统、清华大学科技查新管理系统。

从科技部分三批认定的38家国家一级科技查新机构来看,大多建立了各自的科技查新系统或平台,实现了在线的查新项目委托、查新的业务流程管理等功能,有的还实现了查新系统的产品化推广。同时,近两年来已经出现大数据分析技术在科技查新系统中的初步实践应用的案例。如甘肃省科学技术情报研究所研发的“科技查新智能管理系统”、中国科学技术信息研究所研发的“科技查新分析系统”等,这些查新系统的建设不仅为查新提供高效的服务,同时也积累了大量的文献关联数据和科技项目专业数据,为后期进一步在云计算环境下开发实施更高一级的智能化科技查新系统提供有效的知识储备和基础数据。

甘肃省科学技术情报研究所研发的“科技查新智能管理系统(NRIMIS4.0)”综合运用数据挖掘、流程管理、电子防伪等技术,集科技查新业务管理与用户服务于一体,使查新机构突破传统管理的模式和框架,实现科技查新工作的科学化、规范化和标准化管理,已推广应用到16个省市25家科技查新机构,具有一定的影响力。以此为基础,该所新推出的科技情报检索评价管理系统采用数据挖掘、流程管理、手机短信和微信等技术手段,实现科技查新、论文检索、知识产权评议、科技成果评价等业务流程化精确管理,为情报检索评价人员和业务委托客户提供一站式高效服务。系统采用数据挖掘技术,对委托课题进行相似性分析,实现课题智能化比对。

中国科学技术信息研究所提出了从知识管理的角度出发设计查新业务系统,通过典型案例的记录、保存和实验,建立案例库,将隐性知识系统化、显性化,同时辅以文本挖掘、机器学习等智能化手段,对隐性知识进行深加工,形成系统、复杂、可学习的知识体系,实现旧知识的修正路径到新知识的创新路径,提升查新业务的自动化、智能化水平,从查新业务管理、智力资源基础等方面有效支撑查新工作。基于知识管理的查新系统设计,使得在未来跨界合作的网络中,查新机构不再是信息的起点而是节点,可充分利用信息自动采集、内容管理、整合检索、文本智能挖掘等技术来扩大自身的竞争优势。以此为理念研发的“科技查新分析系统”,将现有资源进行集成、处理与融合,作为科技查新分析的底层资源,提供查新检索式自动生成、结构检索等特色功能服务,辅助查新工作人员更好地为科研院所、高校、企业等创新主体提供科研立项评估、创新评价、科研成果鉴定等专业查新服务。查新员可以将查新项目关联的词表上传至系统,主要包括概念结构词表和同义词词表,系统通过解析查新委托单,结合主题词表、百科等数据,自动构建生成概念层级结构和关系,并可自动推荐检索式。该系统已经在化学化工材料科学生物医药、农业等领域进行了实践和应用。

2018年,重庆市卫生信息中心研发了一套智能科技查询系统并发布于“重庆医生”平台。该套智能科技查询系统基于“重庆医生”平台在技术上实现查新各阶段的业务整合,实现文献资料的自动采集归类,实现查新服务共同体的数字化、自动化、智能化和交互性运营。智能科技查询系统利用网络爬虫技术实现了文献资源的搜索和下载,该技术主要采用“WebCollector+selenium+phantomjs”技术实现。智能科技查询系统利用基于词或词组长度和频数的关键词提取算法在查新申请表中自动提取基本关键词,以此为基础结合查新点确定最终关键词,然后利用数据库模拟登录及网络爬虫技术抓取需要的文献资料。为了保证网络中文献资料抓取的效率、覆盖率和准确率,智能科技查询系统采用了向量空间模型的概念对网页内容和主题的相关度进行评估,根据相关程度进行抓取,且下载的文献资料按检索关键词、检索源地址、文献资料信息、相关引用指标等保存到数据库中,为后期查新工作提供数据依据。为了便于查新人员进行分析,智能科技查询系统对检索得到的文献资料按内容相似度、影响因子等指标进行分类归集,做到对比文献时有针对性、可比性和准确性,方便对“查新点”进行新颖性判断,同时也为自动生存查新报告提供了内容基础。通过建立自己的检索知识库(包含同义词、缩写词、同义名、学名、通用名)实现智能检索。该系统的架构和爬虫流程如图6-11所示。

图6-11 系统架构和爬虫流程图

中国医学科学院医学信息研究所/图书馆将科技查新的业务数据和互联网中用户信息及行为数据融合构建大数据环境,运用数据挖掘算法和相关大数据技术,对用户数据进行深度分析,让查新的工作更高层次地匹配用户的需求,从而提供更为精准的知识服务和信息产品。他们提出的大数据环境下基于科技查新用户开展深层次精准服务推荐体系主要包括科技查新用户信息库构建、科技查新行为特征提取、用户精准推荐模型构建、数据驱动的科技查新服务策略(图6-12)。

图6-12 大数据环境下基于科技查新用户开展深层次精准服务推荐框架

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈