作为人工智能的重要计算机技术,经典监督式机器学习(supervised machine learning)恰恰与传统统计分析相反,重预测而轻解释。这却能很好地解除传统传播学判别研究的四大实践困境(特别是较难建立准确的预测模型)的限制:(1)监督式机器学习揭示的是预测相应传播效果的充分条件;(2)监督式机器学习模型的建构不依赖于统计显著性,特别是不依赖于p值的检验;(3)监督式机器学习能够建立从自变量到因变量的非线性模型,这在深度监督式机器学习(deep learning)当中表现更为显著;(4)监督式机器学习作为人工智能的重要技术,天然适用于大数据塑造传播场景。换而言之,机器学习更倾向于全样本大数据而非统计抽样小数据,是为“韩信点兵,多多益善”。
人工智能推进协会(Association for the Advancement of Artificial Intelligence,AAAI)主席、国际机器学习顶尖学术大会[International Conference on Machine Learning(ICML)]创始人、卡内基梅隆大学教授汤姆·米切尔(Tom Mitchell)在其经典的《机器学习》(MachineLearning)[13]一书中这样定义机器学习:“若一个计算机程序能够针对某一类特定任务,用专门选择的度量来衡量自身性能,同时根据过往经验来不断自我完善,那么就可以称该计算机程序在从经验中学习,不断提升解决该类特定任务的性能。”而监督式机器学习作为机器学习的重要分支,通过不断学习从自变量到因变量的配对经验实例(即由自变量各种取值和因变量的相应取值所组成的配对训练数据集),建构从自变量到因变量的相应的函数的对应法则:在计算机进行监督式机器学习的过程中,训练数据集(training set)被提供给计算机。该数据集由一对又一对的自变量因变量配对组成。监督式机器学习算法通过分析这些训练数据,生成相应的函数。该函数包含从自变量到因变量的对应法则。当有全新的自变量取值(在训练数据集中未曾出现,其相应的因变量取值并不能够从训练数据集中查询到)输入监督式机器学习算法建构的模型时,该函数能够准确输出相应的因变量取值。换而言之,通过对自变量与因变量的相互关系的过往经验进行学习,监督式机器学习可以完成对全新自变量取值所能获得的相应因变量取值的正确预测。在监督式机器学习中,因变量的取值常常被称为标签(label)。这一建立从自变量到因变量标签的过程与心理学中的概念学习(concept learning)非常相近。
图4.1.1 经典监督式机器学习的流程
经典监督式机器学习的流程如图4.1.1所示:生数据通过预处理环节成为可供后续挖掘的低杂质的、结构化数据。而特征提取环节则在这些数据之中,提取能够用于有效预测判别标签的(即,相应因变量取值的)自变量特征。在这里,特征(feature)即为人、事、物的属性(attribute)。当运用于塑造传播的实践时,提取的特征即为传播现象中的人、事、物的属性。从某种意义上说,机器学习中的特征提取环节与传播学理论建构当中的概念化(conceptualization)和操作化(operationalization)过程极其类似。概念化是一个定义的过程,用来说明组成传播理论的变量(即特殊的概念)的具体含义;操作化也是一个定义的过程,在概念化的基础之上,用来说明如何测量这些变量。正如巴比[14]所言:概念化是对抽象概念的界定和详述,而操作化则是对概念化的可操作的发展,并指向对过往经验的观察。机器学习特征提取的环节一并完成了传播理论当中自变量的概念化和操作化的过程。而监督式机器学习算法则负责建立从提取的自变量特征取值到因变量取值(即,标签分配)的函数对应法则。换而言之,此类算法建构了传播理论所期望建立的自变量与因变量的相互关系(包括相关关系和因果关系)。若由算法模型所描述的这一相互关系可以被低阶逻辑体系所解构,则其便能提供传播理论的一体两面功能的解释一面;而当有全新的自变量特征取值输入到算法模型,相应的因变量取值也能够被准确预测出来,则此算法模型亦能提供传播理论的一体两面功能的预测一面。
从对上述经典监督式机器学习的流程解析可知,其同样能够提供传播规律揭示、传播理论建构所需要的预测和解释两大功能。而对未来现象的预测的准确性则是监督式机器学习得以成立的核心,而这一核心能力依托移动互联网时代的大数据和人工智能时代的深度学习的力量正焕发出越来越强健的生命力。前者恰恰对应的是计算机两大能力之一的储存能力(抓手是数据),后者则对应的是计算能力(抓手是算法)。
一方面,计算机科学经典的无免费午餐理论(no free lunch theorem)认为[15],针对某一类数学问题(特别是搜索和优化问题),找寻到解决方案的计算成本对采用的不同方法而言是一样的。这意味着,没有任何一种方法能够提供解决问题的快捷方式。对于监督式机器学习而言,算法的不同并不能降低对数据的依赖。恰恰与之相反,监督式机器学习算法要达到百分之一百的预测准确率,就必须提供全面覆盖的过往经验数据(即,覆盖全部自变量取值排列组合的自变量因变量取值配对)。而为之提供的有效、高质数据越多,监督式机器学习模型越能够具备高准确度预测的基础。在当下,随着赛博空间和物理空间的高度融合,互联网线上和线下的高频贯穿,人类的生产生活(包括塑造传播活动)越来越以数字化的方式进行,也会自然而然地产生各种数据碎屑。这一大数据现实恰巧为监督式机器学习提供传播规律揭示、传播理论建构所需要的预测功能奠定了坚实基础。
另一方面,基于多层和递归人工神经网络计算机仿生隐喻的深度学习正从算法而非上述数据的层面不断地提升建构的机器学习模型的预测准确度。如图4.1.2所示,深度监督式机器学习不再需要经典监督式机器学习的特征提取环节,直接将生数据作为输入建立预测因变量标签输出的算法模型。诚然,在表面上,这对传播理论建构而言是不利的,因为其缺少了特征提取环节对自变量的概念化和操作化定义。对塑造传播实践而言,整个解决方案而非其参数自变量将作为生数据输入深度监督式机器学习算法,用来预测传播效果度量因变量值。从另一个角度考虑,生数据所蕴含的信息量大于经过特征提取之后的自变量信息量,这在深度学习算法能够处理的前提之下,对提升预测的准确度是有正面作用的。此外,深度学习提供了相较于经典机器学习而言更加复杂高阶的算法模型,令其更加贴近自然界、人类社会现象和系统的非线性特征。这对准确预测因变量取值又是一大利好。
图4.1.2 深度监督式机器学习的流程(https://www.xing528.com)
监督式机器学习(特别是深度监督式机器学习)在判别范式提供预测功能的一面大放异彩,但在提供解释功能的另一面却看似不如基于抽样统计分析的小数据传统传播学定量研究。其算法模型黑盒(black box)和高阶复杂非线性的特性在一定程度上限制了其解释功能的发挥。微软纽约研究院的杰克·霍夫曼(Jake Hofman)、艾米特·莎玛(Amit Sharma)、邓肯·华兹(Duncan Watts)三位研究员2017年在《科学》杂志上发表题为《社会系统中的预测与解释》(“Predictions and Explanation in Social.Systems”)论文[16],就面向社会现象和系统的解释与预测的对立统一进行论述。其核心观点认为:社会科学(包括传播学)拥有对预测的传统偏见(traditional bias)。从历史上看,社会科学更加重视揭示人类社会现象中可解释的因果机制(interpretable causal mechanism),而忽视预测的准确性(predictive accuracy)。作者认为,可解释性与可预测性应该形成互补(complements),而不是形成相互的替代(substitutes)。唯有如此,才能够令社会科学的理论更具备可重复验证性(replicable),从而更加实用。而在事实上,预测始终被认为是科学研究方法中必不可少的构成元素。科学理论的衡量都是建立在其能够提供可证伪的(falsifiable)、对未来实证观察的预测的基础上。这一预测驱动的解释流程在如物理学的科学领域已被无争议地证实。社会科学家(包括传播学家)与之相反,相较于解释,普遍更不强调预测。诚然,这一偏向有着人类社会系统自身复杂性以及可供研究的数据匮乏的客观原因和困难,但这一偏向最终导致研究者过于追求理想化的统计分析模型的某一系数(coefficient)在统计上是否具有显著性。近年来这一不经思考只追求统计显著性的做法已经导致了诸多社会科学发现无法被科学地重复验证(nonreplicable)的严重后果。传统社会科学(包括传播学)的研究认为,强调预测的准确性必然导致过于复杂、不可解释、推广性差、无洞见的模型的出现,然而论文作者认为这一认知未必成立。已有诸多前期研究证实,简单模型并不意味着其就比复杂模型更具有可推广性。推广误差(generalization error)来源于建立模型的整个过程,包含研究者的自由度以及模型建构的算法搜索能力的限制。因此,提升可推广性应集中在新的更有效的模型建构技术的采用上。这在一定程度上既能增加模型的复杂性,又能有效地降低推广误差。此外,在计算机科学的机器学习研究领域的诸多研究发现表明,预测准确性与可解释性之间的折衷(tradeoff)并不如刻板印象中那么大。以减小推广误差为首要任务优化模型,再搜寻该模型更加简单、更易于被解释的版本,同样能够提供接近最优的预测准确度[17]。
如同里韦罗(Ribeiro)等[18]的上述研究,机器学习领域的专家学者也在不断尝试提升机器学习算法模型的可解释性。在该方向的努力随着深度学习进一步提升机器学习算法模型的可预测性以及进一步增加模型的复杂度和高阶非线性而变得越来越大。特别是自2016年开始,该方向成为机器学习领域的热点:2016年,机器学习领域的国际顶尖学术会议,国际机器学习大会(International Conference on Machine Learning,ICML)和神经信息处理系统年会(Annual Conference on Neural Information Processing Systems,NIPS)分别举办了“机器学习中的人类可解释性”(Human Interpretability in Machine Learning)以及“面向复杂系统的可解释的机器学习”(Interpretable Machine Learning for Complex Systems)两大工作坊。前者关注预测模型的可解释度、可解释机器学习算法的研发、对黑盒(black box)机器学习算法模型进行解释的方法论三大方面。而后者则关注复杂的机器学习算法模型(特别是深度学习算法模型)。如前所述,这类预测性算法模型能够自动地从生数据当中学习到先前未知的(未进行概念化和操作化的)且一般而言较难解释的特征。而该工作坊直面这些从复杂系统中深度学习到的特征,并尝试对其进行解释。2017年,第二届“机器学习中的人类可解释性”工作坊继续在ICML举行。ICML 2017大会的最佳论文奖由两位合著的华人学者许(Koh)和梁(Liang[19])获得,而其贡献恰恰是运用影响函数的技术来理解黑箱机器学习预测模型。NIPS则进而举办了可解释的机器学习研讨会(Interpretable Machine Learning Symposium)。在该研讨会上,来自时任脸书[严恩·乐库(Yann LeCun)]、康奈尔大学[基利恩·温伯格(Kilian Weinberger)]和微软研究院[帕特利斯·西玛德(Patrice Simard)、里奇·卡鲁阿纳(Rich Caruana)]研究员的四位著名机器学习专家学者对“可解释性是否为机器学习所必须”(is interpretability necessary in machine learning)的辩题进行了学术辩论,大家形成了对机器学习可解释性的重要性的共识。
图4.1.3 解释性机器学习算法模型的建构
在NIPS 2017的可解释的机器学习研讨会上,来自时任谷歌大脑(Google Brain)研究科学家的宾·金(Been Kim)和来自哈佛大学的助理教授芬纳里·多什维奈兹(Finale Doshi-Velez)就可解释的机器学习的近年发展做了全面综述,并提供了专题教程(tutorial)。在作者看来,建构可解释的机器学习算法模型需在“建构前”“建构中”和“建构后”三大方面进行探索。图4.1.3对此进行了阐述。机器学习算法模型的“建构前”解释性探索关注数据,主要包含对生数据的信息可X化(包含信息可视化、信息可声化等),以及对数据的探索性(exploration)分析研究,以此在机器学习前对数据本身拥有较为理性、深入的理解。在笔者的专著《传播数论——格数传播模式与国家形象承载力建构》[20]中,对信息的可X化进行了专题论述:以信息可视化(visualization)和信息可听化(sonification)为代表的信息可X化,是近年来塑造传播的一个热点研究和实践方向。其核心,是将信息(通常表现为数据)重新编码,透过受众易于进行感知的一个或多个感官,传播信息中蕴含的模式(pattern)。可视化是将信息(information)编码为视觉讯息(message),可声化则是将信息编码为听觉讯息。为了进一步增强功效,有时同一信息被同时编码为视觉和听觉讯息,以视听融合(包括运用视听通感)的方式进行传播。视觉和听觉当然不是信息可X化的全部维度,“眼、耳、鼻、舌、身”皆可被单独拿出或多项组合进行信息的编码。进行信息可X化的功能效用包含两大方面:一方面是信息本身所蕴含的模式不能被直观发现,可X化后,模式在感官上更加清晰,能够被迅速地感知识别出来;另一方面是信息本身具有美的属性,将其可X化,可以在一个或多个维度(如视觉、听觉、试听融合等),将这种美演绎彰显出来。对于可解释的机器学习算法模型“建构前”方面的努力而言,信息可X化的功能效用的第一面(即,模式识别)应该占据更为重要的地位。两位作者认为,计算机科学的人机交互(Human Computer Interaction,HCI)领域的研究成果应该被融合运用于这一方面的探索中。
机器学习算法模型“建构中”的解释性探索关注算法模型的建构方法论本身,主要有四大路径,分别为:(1)基于规则(rule-based)和基于单个变量(per-feature-based)的路径;(2)基于典型案例(case-based)的路径;(3)稀疏(sparsity)路径;(4)单调(monotonicity)路径:基于规则的路径指采用能够运用规则对自变量和因变量的相互关系进行解释的算法模型进行机器学习。这一路径包含的机器学习算法包含决策树(decision tree)、规则列表(rule list)和规则结合(rule set);基于单个变量的路径指在建构机器学习算法模型的时候,瞄准单个自变量进行,以此全面了解该自变量对相应因变量的影响;基于典型案例的路径指在对建构的机器学习算法模型进行解释时,选取具有代表性的(自变量取值,应变量取值)配对案例来说明自变量和因变量的相互关系;稀疏路径从自变量出发,指与其选取全部的自变量做出其于因变量的相互关系的解释,不如选取少数具有代表性的自变量或将具有相似功能效用的自变量归为一类进行模型的解释;单调路径从因变量出发,建立能够影响因变量,使其能够单向变化的自变量因变量相互关系。从作者的综述可知,上述四大路径皆已经被相关研究成果证实并可成功实践落地。
机器学习算法模型“建构后”的解释性探索关注对已建构的算法模型的解构,主要有三大路径,分别为:(1)敏感性分析和基梯度的方法(sensitivity analysis,gradient-based methods);(2)模仿代理模型(mimic/surrogate models);(3)隐藏层调查(investigation on hidden layers)。敏感性分析的路径指在算法模型建构后,固定其他自变量,集中看单一自变量的变化对因变量变化的影响的敏感度;基于梯度的方法指通过对算法模型中表征自变量和因变量关系的函数求导/求微分,以此了解各个自变量的变化趋势对因变量的变化趋势会产生何种方向和多大的影响;模仿代理模型与之前里韦罗等[21]的路径类似,指在成功建构了具有高预测准确度的机器学习算法模型后,寻求建构其他能够给出相同预测的模型,以用这些模仿代理模型的解构来解释自变量与因变量的相互关系;隐藏层调查针对基于多层人工神经网络计算机仿生隐喻的深度学习,以调查人工神经网络机器学习算法模型中除去自变量输入和因变量输出之外的其他的黑盒隐藏的节点和边的功能,进而对建构的深度学习算法模型进行解释。从作者的综述可知,上述三大路径亦已经被相关研究成果证实并可成功实践落地。
对上述两节的论述进行总节可以发现,解释与预测并不矛盾,不是你死我活的取代关系,而是一体两面的互补关系。对判别范式揭示传播规律、建构传播理论(亦可以作为生成范式建构解决方案的基础)而言,解释与预测是一不是二。其关键皆在于基于数据建构自变量与因变量的相互关系的模型,然后对建构的模型进行解构。基于抽样统计分析的小数据传统传播学定量研究在实践预测问题上遭遇困境。而基于监督式机器学习的大数据传播学判别研究则在解决实践预测问题上具备优势,同时对建构的机器学习算法预测模型的可解释性研究已初见成效。但无论是前者建立统计分析模型还是后者建立机器学习模型,只要能够对建立的模型进行解构,便可在进行对自变量和因变量的相互关系“知其然”预测的同时,也对此相关关系甚至是因果关系进行生发机制和原理因由的“知其所以然”的解释,为生成范式建构塑造传播实践问题的有效高效的解决方案奠定坚实的基础。但这一解释和预测的融合判别研究不断进展的前提,是两者不再相互排斥,而是拧成一个拳头,以科学的判别范式形成合力。正如微软纽约高级研究员、马萨诸塞大学阿默斯特分校(UMass)兼职教授汉娜·瓦拉赫[22]在《计算机器协会通讯》(Communications of the Association for Computing Machinery)上撰文指出的一样,社会科学(包括传播学)与计算机科学(包括人工智能)在面对塑造实践问题采用的范式不同。从目标上看,前者关注解释,后者关注预测。而正因为目标的不同,建构能够准确刻画自变量和因变量相关关系的模型的方法论亦不同。从数据上看,前者传统上基于小数据,后者天然适配大数据。但若要将判别范式揭示传播规律的解释与预测一体两面的功能相融合,就必须打破固有限定,进行跨学科研究,从而真正发挥出科学理论之于生成范式建构针对塑造传播实际问题解决方案的基础性效用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
