首页 理论教育 如何利用时空地图提升数据分析效率?

如何利用时空地图提升数据分析效率?

时间:2023-05-16 理论教育 版权反馈
【摘要】:这不应理解为对最优化的否定。这里要做的第三个准备,是关于“时空地图”这个概念。数据就像某种实体一样悬浮于“时空地图”这个空间之中。不过,也许并非每个人都会从中感受到便利,因此,是否借助“时空地图”,读者还是应当凭自己的判断进行抉择。图表13:时空地图时空地图是所有数据的集合,包括原始数据、当事人制造的数据以及可能产生的所有数据。

如何利用时空地图提升数据分析效率?

人类思维的弯曲(或者主观性转向)是本节的主题。前两小节主要是从信息的角度来进行论证,讲的是信息推动型的计算;从本小节开始,我们转入问题导向的轨道,相关的论证将延续五个小节。

“信息推动”与“问题导向”是两种截然不同的、然而却都被广泛采用的研究进路。为什么会有这种区分?算法理论首先可以用来回答这个问题:这是因为,人们的计算速度是有限的,在可接受的时限之内,我们无法做到从所获得的原始信息一路推理下去,直达我们所要解决的问题,恰好给出所需的正确可靠的答案;在可接受的时限之内,我们也无法做到从所面对的问题出发,采用回溯的方法,恰好来到我们所拥有的信息、知识及其他资源。这就好比寻找矿藏,勘探者并不确知最有价值的矿藏究竟位于何处,于是,他东挖挖,西挖挖,采用各种不同的进路来进行试探。在不同阶段上,这些不同进路的边际成本与边际收益都处于变动之中,因此对研究进路不时进行变换是必要的。不同的研究进路之间必然也会具有相互参考和校准的作用(参阅图表9)。这既不表明矿藏一定存在或不存在,也不表明勘探者最终是否会成功,更不妨碍勘探者不断取得进步。算法方法所强调的是,勘探需要时间,这是我们首先应当离析出来并加以关注的因素。

科学方法论要求我们继续坚持“最优化”的原则。这就是说,我们必须认为,当事人会按照他自己所判定的最优方案来展开行动,他会尽可能地付出相对较低的成本,并争取尽可能高的利益。在坚持这一原则方面,算法方法与传统方法是一样的。但是,我们需要对这个问题做一些补充说明,而现在正是就此进行归纳和总结的时候。第一,算法理论使我们认识到,当事人常常会举棋不定,并且会改变主意,而当他做出决定时,他所认为的“最优”只是他自己的,它很可能与其他人和观察者所认为的“最优”不完全一致,所以,在别人的眼中,那个“最优”也许并不是最优。这与最优化方法不矛盾。第二,这种对立有可能是深刻的,也有可能是可以调和的。我们可以运用微观的“指令+信息”的框架来分析它们,尝试去厘清产生分歧的来龙去脉。这就是说,当事人之间、当事人与研究者之间以及研究者内部的一致与分歧首先都应当视为是相对的,是可以相互转化的。从这里可以得出科学是一种局部的、有分工的、有特色的知识的观点,并衍生出知识分子难免并有必要改造社会的结论。第三,无论任何人之间的意见交流,本身都是一些通信与计算活动,需要进行资源的投入。如果不能占用当事人的注意力资源,从而对相关意见有所改变,分歧当然就会持续存在。旧的分歧消除,新的还会产生,这是没有尽头的、无限的过程。第四,最优化可以是在任何问题上针对任何变量而言的,它可以针对物理化的行动,也可以针对计算行为本身,即用来指谓关于某项计算是否进行或者如何进行的决策。最优化的“解”可以是一个数量,也可以是其他任何类型的数据。第五,主流经济学展示了运用成本―收益分析方法来求取最优化的过程,其中主要涉及的是数量型计算(这时最优化变成了“最大化”)。鉴于计算的类型是多样的,最优化也就不一定非得要用这种方法来求得。成本―收益分析方法有赖于相关变量可以明确地划分为成本项目与收益项目,并且两者之间可以进行算术运算;倘若这些条件中的任何一个不能得到满足,成本―收益分析就不能顺利地进行。反过来,在后一种情况下,当一个人做出某项决定时,我们固然可以断言这意味着他对相关的成本与收益状况做出了判定,可是,假如有关变量不是数量性的,而是结构性的,不能顺利地进行算术运算,那么这种断言就是空洞的。尤其是在个人的思想充斥着矛盾的情况下,对于个人的特定决策任意地进行扩大解释也就需要十分慎重才行。第六,“最优化”的概念尤其适用于个人具有明确目标(或价值取向)的情形,可是,在算法世界中,个人有时并无明确的目标,有时具有多种目标,有时目标之间相互冲突;这种种情形都应当纳入分析框架之内,这就要求我们在这些场合中应当将最优化这个概念适当地予以淡化。这不应理解为对最优化的否定。

这里要做的第三个准备,是关于“时空地图”这个概念。这个概念最早起源于笔者试图把信息标示在地图上,然后来研究计算如何进行。在引入时间之后,我们认识到这张地图必须是多维的,计算必须不断地在过去、现在与未来之间进行穿越,也就是要进行回忆、回溯与预测。再加上人们的计算结果,这些结果可能是错误的、虚假的、想象的东西,于是,时空地图实际上就可以变为所有信息及其计算结果的一个总的集合,其中包括了所有的思想与知识。这也就是所有数据的集合(其中的元素数目必然接近于无限)。我们可以想象一个空间,所有的数据都充斥于其中,而这个空间是开口的,在时空方向上都作无限的延伸。在原则上,其中的数据都带有时间与空间的标识;对于那些时空特征不明显的数据,也可以赋予它们模糊的或者通用的标识。或者,我们可以把同一时间的数据排列在一个平面上,然后这个平面沿着时间方向作无限的延伸。抽象到数据层面以后,这张“地图”也就相当单调了,图表13 是一个简单的图示。我们进行计算,就是在这个数据空间中进行“游走”:从一些数据联想到另一些数据;通过对这些数据进行加工,从而“到达”其他的数据,或者生成新的数据;抑或,为了简化,我们也可以根据需要,假设不生成新数据,“计算”也就只是意味着在这些既有的、不同的数据之间进行转移。这是因为,按照算法理论,计算实际上是纯粹客观的,我们只需要想象着所有的指令交替加工所有的信息,从而生成了时空地图。不同个人的大脑只是包容了其中不同区域的数据而已。数据就像某种实体一样悬浮于“时空地图”这个空间之中。从一个数据到达另一个数据需要一定的“路程”,走完这个路程是需要辛苦一番的,于是,这也就比较形象地表达了计算成本(包括计算时间)这个概念。这些想象可以使我们接下来的分析变得比较容易。不过,也许并非每个人都会从中感受到便利,因此,是否借助“时空地图”,读者还是应当凭自己的判断进行抉择。(www.xing528.com)

图表13:时空地图

时空地图是所有数据的集合,包括原始数据、当事人制造的数据以及可能产生的所有数据。当事人在其中的各个数据之间来回奔波,建立联系。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈