本书通过对学术博客的典范和代表——科学网博客的实证分析,力图深入揭示和管窥学术博客的交流特征。
为扩大数据采集的样本量,提高研究结果的可靠性,本书没有采取局部抽样的小规模样本采集方式,而是采用网络爬虫抓取了科学网博客2013年1月1日至2013年12月31日的全部信息,包括博文和基于博文的评论、推荐、访问等。数据抓取工作于2014年1月至2月集中完成。然后自编计算机程序提取相关数据,如博主(博客作者)、博文、评论(包括博主对他人博文的评论(简称“施评”)、回复和博文被他人评论(简称“被评”)、推荐(包括博主对他人博文的推荐(简称“施荐”)和博文被他人推荐(简称“被荐”),科学网博客限制博主自荐)、访问等,所有数据保存在MySQL数据库中,并按科学网博客设定的生命科学、医学科学、化学科学、工程材料、信息科学、地球科学、数理科学、管理综合等8个学科进行归类。在这段时间内,一共创立了5425个博客(其中5068名博主提供有科学网博客个人学术名片),发布了64880篇博文,14823名用户产生278640条评论信息且分布于3517个博客的36027篇博文中,9020名用户进行389783次推荐且分布于3642个博客的41068篇博文中,共进行了38856010次访问。
5.4.2.1 博主学术身份影响博客交流
博主是博客信息的生产者也是主要的信息消费者,是博客社区的重要用户,通过发布个人信息、更新日志、参与主题讨论等方式,进行自我形象呈现和学术身份创建。为探讨博主学术身份对博客交流的影响,我们基于博主学术名片,结合搜索引擎、E-mail等从上述5425个博客中获取3798位博主的专业技术职称信息(排除机构博客和无法获取博主信息的博客)。对博主专业技术职称信息进行规范和处理(将教授、研究员、编审、教授级高级工程师、主任医师、研究馆员等标记为正高职称,副教授、副研究员、高级工程师、高级实验室、副研究馆员、副编审、副主任医师等标记为副高职称,讲师、助理研究员、工程师、图书馆馆员、编辑、农艺师、经济师、主治医师以及博士后、research fellow等标记为中级职称,助教、助理工程师、助理馆员等标记为初级职称,在读博士或硕士标记为在读研究生),结果如图5-8所示。其中海外华人占比9.35%(355人),已退修人员占比2.6%(99人),具有高级职称的博主占据了样本62%的比例,说明科学网博主高级知识分子居多,这与中国互联网络信息中心的报告相一致,即博客的发展呈现精英化、专业化的特点[19]。

图5-8 科学网博主专业技术职称分布
将博主按职称进行分组,对不同职称类型博主的交互信息进行统计,见表5-11。职称较高的博主拥有较高的知识“势能”和影响,其发文、施评、回复、施荐(代表知识流出)以及被评、被荐、被访(代表知识影响)数量都相对较大。
表5-11 不同职称类型博主的交互信息均值统计

以职称为控制变量,利用非参数Kruskal-Walis检验,对不同职称类型博主的交互信息进行比较,结果如表5-12所示。不同职称类型博主的发文数量、施评数量、回复数量、施荐数量(代表主动交流)以及被评数量、被荐数量、被访数量(代表被动交流)均存在显著差异(渐近显著性小于显著性水平α),说明博主学术身份对博客交流存在显著影响。McGeachin曾指出用于传统文献质量评判的作者权威度等指标也适用于网络信息资源[20],而博主职称等学术身份则代表了博主的研究资历和专业水准,可以间接了解和把握博主的专业声望或权威度,启示可用专业技术职称等博主权威度信息对海量学术博客进行判别和筛选。
表5-12 不同职称类型博主交互信息差异的Kruskal-Wallis检验

注:a.显著性水平α为0.05;b.分组变量:职称。
5.4.2.2 学术博客交流具有学科差异
在传统文献交流中,不同学科在引文数量、引用文献类型、影响因子等方面表现出一定差别。Schema指出在Research Blogging中,生命科学比其他学科较受欢迎[21]。有鉴于此,本书对科学网博客的相关指标进行统计,尝试探索学术博客交流的学科差异,见表5-13。管理综合的博主人均发文(29.09篇)远高于总体人均发文(11.96篇),但它的篇均指标(包括篇均评论数量、篇均推荐数量、篇均访问次数、篇均评论人数、篇均推荐人数)却分别低于总体平均值;而化学科学、生命科学、数理科学等除人均发文外的各篇均指标都分别高于总体平均值,说明管理综合与自然科学各学科在学术博客交流中存在显著差异,体现出明显的学科差别。
表5-13 科学网博客均值统计

续表

注:科学网博客中,因部分用户的学科属性为空,无法将其博客进行学科归类,故统计为未明学科,下同。篇均评论数量、篇均推荐数量、篇均访问次数是指各学科博客中博文的平均被评论数量、平均被推荐数量和平均被访问次数;篇均评论(推荐)人数是指各学科博客中博文的平均评论(推荐)人数。
进一步以学科为控制变量,将博客按学科分组,利用Kruskal-Wallis检验对不同学科博客的交互信息进行比较,结果表明不同学科博客交互信息的分布差异显著(见表5-14,渐近显著性为0,小于显著性水平α),学术博客交流呈现出明显的学科差异。启示可建立博客影响的相对指标,以用于不同学科博客影响的测度和比较。如基于评论建立博客的影响测度指标,将单个博客的篇均评论频次与所属学科总体博客的篇均评论频次相比,其比值如果为1,表示该博客达到了该学科博客质量的平均水平;其值大于1(小于1)表示比该学科博客质量的平均水平高(低),用以衡量各个学术博客在本学科博客中的相对影响和质量水平及用于不同学科博客之间的参照和比较等。
表5-14 不同学科博客交互信息差异的Kruskal-Wallis检验

注:a.显著性水平α为0.05;b.分组变量:学科。
5.4.2.3 学术博客交互方式相关,且呈现累积优势分布
学术博客的发文、施评、回复、施荐、被评论、被推荐、被访问等反映了博客用户及其之间的交互关系和交流方式,尝试对它们进行相关分析,结果如表5-15所示。
表5-15 学术博客交互信息的Spearman相关系数

注:*在0.01水平(双侧)上显著相关。
从表5-15可以看出,学术博客不同交互信息相互之间呈现出显著的正相关关系,其中发文数量与被访(问)数量、被(推)荐数量、被评(论)数量的相关系数分别为0.936、0.828、0.823,说明其发文量较多的作者获得了较多的评论、推荐或访问,其思想和观点较易被扩散与传播,也相应较易获得相关的学术和社会影响,说明学术博客交流仍然存在传统科学交流中的累积优势效应,即“成功产生成功”。为此,对学术博客交互信息进行“排序—数值”分布拟合(将学术博客各交互信息按数值大小降序排列、对排序和数值分别取对数),结果如表5-16所示。各种交流方式一元线性回归方程的拟合优度(R2统计量)都较好,且都通过了显著性检验。说明博客交流符合幂律分布,各种交互信息数量较多的博主占比极其有限,这与文献综述中基于链接或评论运用社会网络分析得出的结论相一致,表明学术博客社区确实具有“小世界”现象,存在核心博主和交流互动联系紧密的核心成员,对整个博客社区交流的贡献和影响较大。
表5-16 学术博客各种交互信息分布拟合

5.4.2.4 学术博客交流跨学科现象突出,信息传播和扩散范围较广
将各学科博客的评论信息按评论用户所归属(标注)学科进行统计,得出不同学科博客的评论用户学科比例分布,见表5-17。同理,得出不同学科博客的推荐用户学科比例分布,见表5-18。
表5-17 各学科博客评论用户学科分布比例

注:列对行评论。
表5-18 各学科博客推荐用户学科分布比例

续表

注:列对行推荐。
从表5-17、表5-18可以看出,各学科相互之间普遍存在评论和推荐,除未明学科外,各学科来自其他学科的评论数量占本学科评论总量的比例均超过81.22%(见表5-17对角线)、来自其他学科的推荐数量占本学科推荐总量的比例均超过63.1%(见表5-18对角线),说明学术博客跨学科交流突出,有利于不同学科的交流和比较以及促进知识生产和创新。(https://www.xing528.com)
表5-17最底行表明,未明学科用户对各学科的评论数量最多,这部分注册用户大多还未在科学网开通博客,说明学术博客吸引了一大批不写博客的读者用户参与博文的评论或讨论;此外,博客的链接、Traceback等机制可以使讨论的主题或话题分布于一个或多个博客,扩大了博客交流的渠道和范围。为对学术博客的传播和扩散程度进行测量,借鉴期刊扩散指数[22],定义以下指标:
(C表示对博客评论的用户人数,B表示博文数量),即每百篇博文对应的评论人数和
(R表示对博客推荐的用户人数,B表示博文数量)。统计结果如表5-19所示,平均每百篇博文拥有76.15位评论用户、71.77位推荐用户,表明学术博客传播和扩散范围较广,受众影响面大。启示学术单位应积极创建机构博客以促进知识生产和创新,博主也需采取相应措施促进博文传播以及避免用户流失等,如提供RSS订阅、强化社交链接并与社区成员保持联系等。
表5-19 平均每百篇博文的评论和推荐人数统计

注:N代表拥有评论或推荐用户的博客样本数目。
5.4.2.5 学术博客交流具有情景性和协作性
学术博客交流实时、动态和交互,且包含图片、音频、视频等丰富的信息内容,能让用户将观点或想法融入讨论过程和情景之中,如公开研究细节、寻求实验帮助等。博文、评论及反馈等可以随着感想的产生及时发布,让不同领域的用户及时共享和讨论,进行“活”的思想交流,瞬间碰撞或迸发出创新的火花,促进协作,许多疑难问题就这样迎刃而解。如著名遥感学家李小文院士曾在其科学网博客中公开发文“请教:有没有单参数的概率分布,可以描述双峰?”[23],经过科学网博客相关用户的热烈讨论、交流和协作,不到半月便得到了问题的正确答案,以至于李院士感慨“玩儿出一篇论文来?”[24]表明学术博客交流内容丰富、形式自由、环境宽松,有利于促进知识创新,具有重要的科学情报价值和正式学术交流所不能替代的功能。
5.4.2.6 正式文献交流对学术博客交流的补充与促进
长期以来,人们普遍认为学术博客交流是对传统学术信息和正式学术交流的重要补充,如巩固学术身份、提高学术影响、提供补充观点,甚至揭示正式文献同行评审中漏掉的致命错误,或忽略掉的重要新发现等,但却忽视正式文献交流对学术博客交流的影响、补充与促进作用。我们认为,正式文献交流严谨、规范且力求真实,在人类学术交流史有着重要地位和影响,目前仍然是主要的学术交流形式,但它对学术博客交流也具有重要的补充和促进作用,表现为如下几个方面:首先,正式学术文献是学术博客交流的重要信息来源。学术博客的很大一部分内容来自正式学术文献的编译、报道,但由于融入了博主本人的理解和思考,其表达更加生动活泼、易于传播和交流;博主本人常提及自己的正式学术作品,如科学网博客就专门开辟有“论文交流”栏目等。其次,正式学术文献提供和增加学术博客的讨论话题。一些期刊论文具有争议性,较易引起学术博客的评论或批评,成为热议的话题,如《科学》杂志发表的一篇论文认为磷化体不是生命绝对需要的物质,即时引起了博客社区对其研究方法、结论乃至同行评审过程的激烈批评[25];此外,正式学术文献提出的一些研究或实验问题,也可以引起学术博客的讨论。再次,正式学术文献引用学术博客文章。一些观点新颖、见解深刻的博文经常被正式学术文献引用,而根据引用的内容、数量和时间等,可以对学术博客进行过滤、筛选或评价等,从而促进学术博客交流。最后,博主真实的学术身份和学术地位对博客交流具有影响,如前述累积优势效应、知名学者博客的“晕轮”效应等。总体上,学术博客因其自由、开放以及非学术语言等,不能替代正式文献的学术交流功能,但也具有正式文献交流所不能替代的功能,如丰富的内容、宽松的环境等。正式学术文献交流严谨、规范,但受出版商、图书馆等的制约较大,读者与作者无法进行及时的互动和交流,学术博客交流虽然弥补了正式文献交流的不足,但缺乏正式学术文献交流的真实性和可靠性等。因此,两者不能相互替代,而是相互补充,共同促进学术发展。
5.4.2.7 学术博客评论的质量测度功能
评论是博客作者和读者以及读者与读者(以下简称博客用户)之间基于博文展开的一种互动和知识交流方式,是不同用户对博文主题的讨论或争论,代表了用户的见解和观点,它们或互相补充或互相批判,能够融合产生新的观点或看法,具有重要的科学情报价值和科学交流功能。评论也是学术博客区别于传统Web学术信息的最主要特征,大部分博客用户都将获取评论和反馈作为写作的重要动力[26]。
学术博客作为网络环境下一种非正式学术交流形式,自身的媒介特征决定其评论会存在诸多动机和类型,它能够反映学术博客的质量并对其进行测度吗(假设H)?一般来说,学术博客的被推荐和被访问反映了其受欢迎的程度,如果假设H成立,那么获得较多评论的博客理论上也应获得较多的被推荐和被访问机会;其次,受众是考察博客质量的重要因素,它代表了博客信息的传播和覆盖范围,如果假设H成立,那么获得较多评论的博客其被参与评论的人数(即受众)也应较多,评论频次与评论人数应呈现出一定的正相关关系;此外,在文献计量学中,篇均引用等相对指标被用来表征期刊的学术影响,如期刊影响因子等,如果假设H成立,也应存在类似的与评论相关的博客影响指标,以辅助衡量和测度学术博客的相对质量和水平。因此,本书基于声望、受众和影响三个方面对评论能否反映博客的质量进行探索和验证。
(1)数据描述
获取科学网博客2013年的作者信息(5425名,其中5068名作者提供科学网学术名片),博文信息(64880篇)和基于这些博文的评论信息(278640条)、推荐信息(389783条)和访问次数(38856010次)。科学网博客按作者标注学科进行分类,包括生命科学、医学科学、化学科学、工程材料、信息科学、地球科学、数理科学、综合管理等8个学科大类(科学网博客在2014年6月进行了调整,取消了化学科学和医学科学这2个学科,本书采集的是2013年信息,仍按8个学科大类进行分析)。其基本信息统计如表5-20所示。
表5-20 科学网博客基本信息统计

注:因部分用户没标注学科,无法将其博客进行学科归类,故统计为未标学科,下同。
从表5-20可以看出,科学网博客以自然科学学术交流为主,人文社会科学(表现为管理综合)的博文数量(25%)、被评论数量(22.5%)、被推荐数量(24%)和被访问次数(20.5%)在整个科学网博客学术交流系统中只占约1/4的比例。此外,对机构博客专门进行了统计,共15个,如Wiley中国、科学出版社等,其博文数量、被评论数量、被推荐数量和被访问次数都较少,在整个科学网博客学术交流系统中分别只占1.48%、0.48%、0.58%和1.70%,因此,不作单独讨论。
(2)评论和声望
学术博客声望是指学术博客受欢迎的程度,反映了博客的吸引力,可用被推荐和被访问的次数进行衡量。一方面,用户对博文的推荐是一种自发行为,因对博文感兴趣或满足而主动向博客社区推荐,以让更多的人分享,同时,博客社区规定用户不能对自己进行推荐,因此,推荐意味着对博文的肯定和褒扬,具有阅读推广功能,一定程度上能够反映博文及博客的声望;另一方面,在海量的网络信息世界里,用户信息的查询与浏览一般都是有目的的自主信息行为,博客及博文能够被用户发现、浏览或访问,也能在某种程度上反映和说明学术博客的吸引力及声望。从表5-21可以看出,获得较多评论次数的博客,其也相应获得了较多的被推荐和被访问机会,声望越高。特别是从来没有被评论过的博客(其评论次数为0),其获得被推荐、被访问的机会也最低。
表5-21 科学网博客评论和声望

续表

注:博客(文)平均被推荐、平均被访问指博客(文)的平均被推荐次数、平均被访问次数。
(3)评论和受众
受众是对博客进行关注的用户。一个博客或博文的受众越多,说明其吸引力越强,一般也就越有价值,质量也就相对较高。最近,Rokack和Mitra的研究表明,学术期刊文献引用次数并不一定能准确地反映被引用的作者人数,因为,存在用户对同一篇文献的重复引用行为[27]。据此推测,如果相同用户对同一博客中的博文进行多次评论,那么,其博客尽管获得较多的评论频次但其评论的人数也相应较少,评论频次就不能准确反映博客受众的覆盖范围和程度。因此,根据用户ID分别统计了5425个科学网博客以及各学科博客的被评论频次和评论人数(剔除自评数据),进行相关分析,以此检验评论频次能否反映博客受众的覆盖范围和程度,结果如图5-9、图5-10所示。

图5-9 科学网博客被评论数量与评论人数相关关系
**.在置信度(双侧)为0.01时,相关性是显著的。

图5-10 按学科分类科学网博客被评论数量与评论人数相关关系
**.在置信度(双侧)为0.01时,相关性是显著的。
从图5-9、图5-10可以看出,5425个、9个学科科学网博客的被评论数量与评论人数显著正相关,其中后者的相关系数几乎接近于1,说明博客的被评论数量总体上能够反映评论人数。分析其原因,可能是因为学术博客这种开放的虚拟交流平台,使得不同学科、不同领域的博客用户更加容易、方便地进行互动和交流,交流对象分布广泛,分散程度较高,稀释了评论人数,当博客被评论频次较多时,其评论人数也相应较多;还有一个可能的原因是,科学网博客大多是单作者用户(只有15个是机构用户),即对科学网博文的评论大部分是单个用户完成的,较少存在如传统文献引用中多个合作者用户共同对一篇博文进行评论的现象。所以,在科学网博客中,博客的评论频次总体上能够反映和表征评论的人数,即博客的质量和影响情况。
(4)评论和影响
如前所述,文献计量学中常用篇均引用等相对指标来表征学术影响,如果假设H成立,理论上应存在与评论相关的类似的博客影响指标,以辅助衡量和测度学术博客的相对质量和水平。
表5-22 科学网博客篇均指标统计

注:作者平均发文是指各学科博客作者平均发布博文的数量;博文平均长度的统计单位是字符,在本数据库系统中一个数字或英文字母算1个字符,1个汉字算3个字符;篇均评论数量、篇均推荐数量、篇均访问次数是指各学科博文的平均被评论数量、平均被推荐数量和平均被访问次数;篇均评论人数是指各学科博文的平均评论人数。
从表5-22可以看出,各学科博文的平均长度差别不是很大。管理综合博客的人均发布博文(29.09篇)远高于总体人均发布博文(11.96篇),但它的篇均指标(包括篇均评论数量、篇均推荐数量、篇均访问次数、篇均评论人数)都相对较低(分别低于总体平均值);而化学科学、生命科学、数理科学等的篇均指标都相对较高(分别高于总体平均值),说明人文社会科学与自然科学在博客学术交流中存在显著差别,可能的原因是自然科学的博客用户人数较多,增加了自然科学(尤其是化学科学、生命科学、医学科学三者内容相关)被访问、被推荐和被评论的机会。因此,为消除不同学科用户、发文规模等带来的影响,提出将每个博客的篇均评论频次与所属学科博客的整体篇均评论频次进行相比,其比值称为博客评论指数(Blog Comment Index,BCI)。其值如果为1,表示该博客达到了该学科博客质量的平均水平;其值大于1(小于1)表示比该学科博客质量的平均水平高(低)。用它可以衡量各个学术博客在本学科博客中的相对质量和影响水平及用于不同学科博客之间的参照和比较,也间接验证了假设H的成立。
(4)测度合理性
尽管科学网博客的博文从不同的角度可以分为不同的类型:有些是作者原创的内容,有些是作者转载或引用的内容;有些是纯学术性内容,有些是和学术生活相关的内容等。但统计表明,在科学网博客的12个主题信息类型中,观点评述、科研笔记类博文及评论数量都占据了较高的比例,总体上科学网博客具有浓厚的学术性、知识性特征。学科分类上,都是根据博客作者本人的选择进行匹配,而不是由编辑或博客管理系统自动赋予,故博客的学科分类较为可信。
在对评论的内容和功能进行考察与分析时,发现科学网博客的评论存在诸多动机和类型:有赞同式评论,赞同博文作者的观点或感谢博文作者提出了一个有意义的议题;有补充式评论,指出额外的内容和证据以支撑博文作者的观点;有延伸式评论,基于评论信息启发产生出新的衍生思想或观点;有争论式评论,不完全同意博文作者的观点,这种评论持续的时间较长久、产生的评论数量也较多[28];有批判式评论,质疑或否定博文作者的观点;也有虚假式评论,有时评论框只短短几个字,有时键入的文字根本不是评论,有时是广告或作者本人的宣传链接,有时是朋友之间出于互惠的友情评论……虽然评论存在诸多动机和类型,但从表5-21可以看出,获得较多评论次数的博客,其也相应获得了较多的被推荐次数,而推荐则表示对博文(客)的肯定和褒扬,说明评论及其频次能够反映博客质量。尽管文献引用也存在一些虚假式引用[29]、否定式引用,但都不是主流,引文及其分析依然被广泛用于学术评价;学术博客评论与文献引用相比,毕竟还需要输入文字或符号来表达用户的见解和观点,一般地实质性评论也就相应较多,虚假式评论的概率相对较低,因此,评论及其频次对学术博客具有质量测度功能,博客评论指数等总体上适合衡量学术博客的质量。但本书的结论也具有以下局限性:首先,只是从评论的内容和数量特征出发分析和探讨评论对学术博客质量的测度功能及指标,偏重评论现象而缺乏用户评论的心理和行为动机分析;其次,时间是影响学术信息质量的重要因素,没有对评论及博文信息从时间轴线上进行纵向历时考察;再次,本书的实证分析只限于科学网博客,样本的覆盖范围有限。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
