首页 理论教育 数据应用价值的凸显与信息隐私保护的矛盾

数据应用价值的凸显与信息隐私保护的矛盾

时间:2023-08-05 理论教育 版权反馈
【摘要】:然而,就在短短几年的时间里,数据的应用价值不断凸显,大数据相继由多国政府上升到国家战略的高度。数据利用与隐私保护之间形成的矛盾,是信息隐私面临的第二种价值困境。这种关系之所以有效,是因为规模数据所呈现的是人与人、物与物以及人与物之间的“确定性”。这些“发现”都是基于用户发表评论的行为数据,展示出了资讯吸引力与各项特征指标之间的“确定性”关系。

数据应用价值的凸显与信息隐私保护的矛盾

人们对数据价值的认识,是一个循序渐进的过程。当数据价值尚未显现的时候,政府和社会都倾向于限制数据流动以保证传统意义上的隐私安全。然而,就在短短几年的时间里,数据的应用价值不断凸显,大数据相继由多国政府上升到国家战略的高度。政策和立法开始调整原来“一刀切”的限制态度,开始分情况、有条件地开放数据流动。数据利用与隐私保护之间形成的矛盾,是信息隐私面临的第二种价值困境。

随着信息技术及其应用的迅速发展,“数据”在越来越多的场合被誉为“钻石矿”“新石油”。数据价值的核心在于,人们可以从达到一定规模的数据集合中挖掘出若干有效关系。这种关系之所以有效,是因为规模数据所呈现的是人与人、物与物以及人与物之间的“确定性”。这意味着,规模数据为人们认识世界、改造世界提供了一种强大的原动力,其价值堪比钻石,胜过石油。这种核心价值体现在社会运行的各个方面。

经济学上供给和需求是构成市场的两个基本要素,所有的生产者都在寻求能够提高商品供需匹配效率的方法和途径,因为供需匹配效率的高低直接决定着劳动和资源投入的回报程度。每一个生产者都希望自己的产品拥有足够多的消费者,并能很快地找到这些消费者把产品卖给他们。在传统线下社会里,不直接进行生产而只是与这种寻找客户的工作相关的业态属于服务业;而在互联网环境中,生产与服务却在悄悄融合,这不仅仅是因为生产者拥有了自行推销产品的空间和渠道,更重要的是规模数据的产生,为“用户画像”的获得提供了条件,推动着供需匹配模式向着“从需求到供给”的模式转变。“信息是一种达到目的的方式。……我们管理(manage)信息是为了在需要时派上用场。”[27]

1.通过用户画像挖掘潜在需求

所谓用户画像,简而言之就是对用户的信息进行标签化处理。越来越多的互联网平台,已经开始逐渐具备制作用户画像的条件,用户画像的生成大致包括以下几个阶段。首先,在信息收集阶段,用户要想使用平台服务,进行注册是第一步,这时需要主动提交姓名、手机号码等个人信息,接着在使用服务的过程中,用户的行为痕迹还会自动留存在后台服务器中形成行为数据。其次,在信息利用阶段,平台可以设置各种模型标签,将行为数据与这些标签进行比对、验证,从而获得实际标签。最后,在画像成型阶段,将这些实际标签整理在一起,与具体的个人相对应,就可以得到个性化的用户画像。

以京东为例,在iPhone新款产品推出之后,有100多万人在京东上预订了iPhone 8,为了获知这些用户的特点,平台绘制了用户画像。[28]这里的标签有近30个之多,涉及人口属性、资产特征、营销特性、兴趣爱好、购物爱好、需求特征等多个方面。根据这张画像,商家就能够更加准确地掌握目标用户的潜在需求,形成个性化的产品营销方案,使服务具有个性化。但用户画像的作用不仅仅如此,其更可观的价值在于可以联通全部品类的用户。京东作为一个大型电子商务平台,经营的商品种类是多样化的,用户画像可以帮助各品类间用户的转化。具体来说,挖掘一个品类的潜在用户,首先要找出此品类已有的用户,然后通过这些用户的画像信息对用户进行细分,提炼出特征,然后通过这些特征建立模型定位出该品类的潜在用户。

2.提炼群体特征深入细分市场

对于供给方来说,获得批量用户的行为习惯,就意味着找到了产品投放的指南。基于海量用户数据,供给方可以看到产品投放的最佳时间、地点、规模、内容以及对象等。

以专注于细分市场的“今日头条”为例,2017年8月,头条算术中心发布了《就你话多——今日头条用户评论数据报告》[29],该中心收集了过去一年中在今日头条平台上分发的共计66 492 398篇资讯。通过对用户评论数据的分析,发现最容易引发用户评论的资讯具有以下特点:在话题性质上,多是贴近热点话题、严肃风格的观点性资讯;在年龄结构上,31—40岁、41—50岁的用户群体评论率排前两位;在性别比例上,男性比女性高70%;在地域分布上,京桂渝评论率最高、青藏甘最低;在时间段分布上,凌晨、上午、傍晚是评论高峰时段;在文章篇幅上,中长篇(1 000字以上)资讯比短资讯(1—500字)更易引发评论;在评论内容上,有关明星、共享单车反腐电视剧和AI等内容的较多。这些“发现”都是基于用户发表评论的行为数据,展示出了资讯吸引力与各项特征指标之间的“确定性”关系。根据这些关系,网络运营商就可以有针对性地向用户提供服务,提高信息产品供给的效率。比如,在傍晚向31-50岁的用户提供贴近热点话题的观点性资讯,可以更好地满足用户对资讯的偏好需求。

3.新闻产品个性化分发

浙江日报报业集团是传统媒体中数据利用的先行者。集团重视大数据布局,打造了“媒立方——融媒体传播服务平台”“互联网传播评价体系”以及“媒体云”等一系列以大数据为基础的媒体融合平台,取得了阶段性的成果。在资讯服务个性化方面,浙江新闻客户端开始对个性化推荐引擎进行内测,引导用户设置他们所关心的新闻标签,抓取用户在客户端内的阅读、点赞、评论等行为数据以及其所在地域数据,通过对这些数据进行分析计算,可以充分了解用户的阅读偏好和兴趣,依据每个用户的关注点、位置等多个维度进行个性化推荐,使用户在获取新闻资讯时可以达到“千人千面”的程度。

历史学家黄仁宇先生在《万历十五年》一书中专门强调了“数目字管理”对一个社会健康运行的重要性。基于规模数据建立起来的公共事务管理系统,一方面可以依靠计算机强大的计算力实时监测到违法违规行为,另一方面也为人民群众在线上办理各种行政事务提供了快捷和方便。

1.控制医保费用

在我国,医保基金面临着“筹措困难、支出加剧”和“人手有限、审核工作量大”的双重挑战。审计署2016年发布的《医疗保险基金审计结果》显示:923家定点医疗机构和定点零售药店涉嫌通过虚假就医、分解住院等方式,骗取套取医疗保险基金2.07亿元,作为本单位收入核算,也有少数自然人涉嫌通过虚假异地发票等方式骗取医疗保险基金1 007.11万元。由此可见,推进智能医保控费系统应用尤为重要,事关我国深化医改工作的顺利进行以及医保基金的可持续发展

自2012年人社部发文明确要求在全国18个地区开展医保智能监控试点以来,国务院及各部委在2012-2017年间发布了12部政策文件,对医疗保险智能监控工作给予政策指导和大力支持。Aura医保控费解决方案提供了四个方面的能力:首先,同时引入医保数据与医疗数据,极大地丰富了数据特征维度,给AI数据模型提供坚实的基础;其次,针对驳杂的医疗数据提供丰富的、标准的信息抽取情景模型,给AI数据模型提供高效的特征工程能力;再次,提供高效的、向导式的建模功能;最后,提供全流程控费,事前以临床路径规则为基础,对医生的用药、处方进行辅助指导及智能提醒,让医生的医疗行为更为合理;在患者医保结算过程中,及时发现违规数据,将违规数据在结算前予以制止;事后针对结算数据和票据进行深度审核,挖掘违规病例。

2.开展电子政务

在“智慧城市”的建设上,我国一直走在实践前沿。2014年3月,国务院发布了《国家新型城镇化规划(2014—2020年)》,专门论述了如何“推进智慧城市建设”。在随后出台的《关于促进智慧城市健康发展的指导意见》中,智慧城市被定义为“运用物联网、云计算、大数据、空间地理信息集成等新一代信息技术,促进城市规划、建设、管理和服务智慧化的新理念和新模式”。这一切,都离不开数据利用这个基础。2016年,李克强总理在全国“两会”的《政府工作报告》中提出要“大力推进‘互联网+政务服务’,实现部门间数据共享,让居民和企业少跑腿、好办事、不添堵”。

在国家政策的号召和推动下,新浪阿里腾讯等互联网企业纷纷进军智慧城市建设。微博、微信以及其他移动应用客户端作为“两微一端”发展迅猛,引领我国的电子政务实践的迅速升级。到2015年,全国政务微博账号数量达到28万,政务微信公号超过10万,迅速成为智慧政务服务的先锋平台。[30]此外,新闻客户端“今日头条”也开通了政务头条频道,到2016年5月,短短两年时间内已经有9 000多家各级党政机构入驻。[31]

以腾讯为例,2015年提出了“互联网+”,在“互联网+城市服务”上发力。截至2016年4月,全国已有91个城市上线微信“城市服务”窗口,覆盖20个省、直辖市和自治区,包含医疗、交管、交通公安户政、出入境、缴费、教育公积金等多项服务。据腾讯工作人员介绍,医疗挂号、查交通违章、缴纳水电燃气费、微信办护照、查询公积金、微信交税、查天气、发票管理、人流密集报警、预约验车等几大领域的政务民生服务为百姓使用最多的领域。相应地,政府相关部门的工作实现能力、创新度和应用度也最高。

从区域角度看,浙江地区的政务服务发展最快。浙江政务服务网推进建设数据集中、管理集成的“智慧政府”。依托“一张网”平台,将“最多跑一次”改革作为省政府深化政府自身改革的第一项重点任务,打通部门信息孤岛,推动公共数据共享开放。全省各级政府部门已梳理公布群众和企业到政府办事“最多跑一次”事项共计40 961项。2017年,“浙江政务服务网投资项目在线审批监管平台”进一步升级。升级后的市县一体化、横向协同化的2.0版本投资项目在线审批监管平台,全面实行企业网上“一口申报”,政府“一网办理”,通过各审批系统与政务服务网的互联互通和数据共享,实现项目从立项、报建、建设到竣工的全流程网上受理、网上办理和网上监察,用“数据跑”代替“企业跑”。在事项申报时更为清晰简便,平台将事项按照投资项目重新分门别类,一改过去按部门分事项的逻辑。企业来办事时,由负责赋码的部门提供一个编码,并为企业筛选出“需办事项清单”,企业拿到编码后,就可以对照清单去办事。

3.预测趋势

通过群体性行为特征提高公共管理效率的另一个典型案例是谷歌公司成功预测了流感。“谷歌流感趋势”系统是谷歌公司于2008年推出的一款预测流感的产品。2009年,谷歌通过分析5000万条美国人最频繁检索的词汇,将其与美国疾病中心在2003—2008年间季节性流感传播时期的数据进行比较,并建立了一个特定的数学模型。谷歌公司发现流感疫情的发展状态可以和某些关键词被搜索的频率很好地联系起来,因此建立了“谷歌流感趋势”(GFT)模型,GFT将大量关于流感的谷歌搜索数据进行统计汇总,经过分析之后与美国疾病防控中心的监测数据进行比对,最终成功预测了2009年冬季流感的传播,甚至可以具体到特定的地区。

人工智能”是互联网时代的又一个热词,其依托的基础就是具有足够规模的数据集合。在机器人写稿、治理虚假新闻等方面,数据的价值已经有了明显的体现。(www.xing528.com)

1.机器人写稿

2017年夏天,四川九寨沟县发生强烈地震。8日21时19分,7.0级地震发生;21时37分15秒中国地震台网机器人自动编写稿件,仅用25秒出稿,540字并配发4张图片。内容包括速报参数、震中地形、热力人口、周边村镇、周边县区、历史地震、震中简介、震中天气8大项。当人类记者还处在惊愕中时,机器人已经迅速完成了数据挖掘、数据分析、自动写稿的全过程。从工作原理上看,写稿机器人实际上是一种数字技术和智能写稿编程系统。据新华社机器人发稿系统研发团队成员、技术局高级工程师熊立波透露,机器人写稿流程分为数据采集、数据加工、自动写稿、编辑签发四个环节。技术上通过根据各业务版块的需求定制发稿模板、数据自动抓取和稿件生成、各业务部门建稿编审签发“三步走”来实现。

早在2014年7月,全球最大通讯社美联社就开始使用机器人新闻记者撰写财报新闻。国内腾讯使用这项技术比较早,2017年6月,腾讯研究院发布了《人工智能时代:新闻业的谢幕与重生》报告,称腾讯的机器人如今已累计生成了3万多篇稿件。新华社紧随其后,推出写稿机器人“快笔小新”,目前主要用于财经体育等领域,体裁上以快讯和财报为主。今日头条则借助奥运会的举办,推出了自己的“xiaomingbot”,也加入了这场潮流。仔细观察这三家的写作机器人,可以发现机器人所创作出来的稿件多是对海量数据的应用和分析,内容丰富的数据集是机器人快速出稿的一个基础性条件。

2.创新媒体服务方式

2016年年底,在《钱江晚报》创刊30周年见证大会上,微软(亚洲)互联网工程院与钱江晚报社共同签订合作备忘录,在人工智能及大数据领域展开深度合作。微软人工智能微软小冰正式入职报社,成为钱江晚报的一名特约记者,开创了国内AI记者进入报社的先例。初期的合作模式是将小冰植入《钱江晚报》的微信矩阵,发挥她善于聊天的功能,将订阅号从传统人工回复粉丝留言的模式进化成人工智能回复模式。数据显示,微软小冰入驻钱江晚报官方微信一个月后,用户留言数量就从过去的2 000条左右上升至1万多条,活跃度大大提升。2017年年初,小冰开始从机器人客服向机器人记者转变,并在《钱江晚报》新闻资讯客户端“浙江24小时”上开设专栏。小冰凭借着她的自带搜索引擎和社交网络的大数据,播报国内外发生的热门事件,在发表原创新闻表达自己的观点的同时,还定期更新“小冰新闻卡片”盘点当日热点新闻,保持着高效率、高质量的内容输出能力。自2018年2月8日,《钱江晚报》新闻资讯客户端“浙江24小时”正式上线以来,小冰已在版面和客户端内累计发稿54篇,保持稳定、高品质的内容输出。“人工智能+新闻”的方式不仅解放了人力,同时可对数据进行深度处理,进一步精准化用户画像,重塑从业者与用户、客户之间的关系。

3.甄别虚假新闻

在人工智能与新闻业的结合上,路透社较早就开始了探索。目前,路透社已经可以做到通过人工智能辨别假新闻、机器自动读取新闻并帮助用户下单,以及利用语义分析建立企业关系图谱。Reuters News Tracer是一个监测社交媒体的工具,最早用于路透社内部,帮助记者和编辑监测社交媒体中出现的新闻信源。后来随着算法的深入,人们发现用机器学习还可以做更多的事情,比如对于社交媒体上发出的信息,可以通过算法区别哪些是新闻,哪些是一般性对话。这个项目经过三四年的不断优化,现在正逐步测试开放给外部用户使用。Reuters News Tracer能够对推特上搜集的所有可能被视为新闻的内容做分析:是谁最先发出消息的;是谁最先转发的;信息的可信度如何。如果分析结果判定消息的真实性存疑,就会在上面标注出范围从0%到100%的可信度数值。这种虚假新闻的甄别方式是建立在对足够多的内容搜集的基础上的,这里的内容就是算法计算过程中的数据。

4.提高诉讼效率

人工智能的应用也开始体现在诉讼业务领域。2015年,一位名叫约书亚·布劳德(Joshua Browder)的英国小伙,遇到了一个难题:因为“违章停车”漏缴罚款,导致滞纳金“滚雪球式”地急速增长。不过他没有“乖乖受罚”,他觉得自己没有违章停车,决定申诉。在研究了各种申诉条文之后,他惊喜地发现,申述是有规律可循的,并且可以被公式化。于是他决定研发一个应用程序来让自己免遭处罚,没想到真的成功了。申诉成功后,这位18岁的少年开始向朋友炫耀,然后亲朋好友们纷纷找他帮忙,而且成功率很高。一鼓作气,他决定开发一个聊天机器人,让更多人受益,于是,一个名叫DoNotPay的网站出现了。登录DoNotPay后,聊天机器人会列出一系列问题来判断登录者的诉求是否合理。比如,当输入“我不应该收到罚单”之后,机器人会列出很多选项,诸如“我填错了许可日期”“停车区域太小”“车辆在那之前已经被盗”“紧急情况,送人去医院了”,等等。根据交谈,聊天机器人会一步步引导用户进行上诉,无须咨询律师,也不用亲自去公共部门。机器人最后可以直接拟出申诉书,到时候直接递交就好了。如今DoNotPay在英国及美国的50个州投入使用,能够处理的案件远远超出“停车罚单”的范围,达到了1 000种。其实,在这里,机器人列出的诸多申诉理由,就是一个数据集合。机器人能够最后做出申诉策略,正是基于对数据的获取、整合和计算。

如果说精准的算法是先进的冶炼技术,那么数据本身就是石油;如果说强大的计算机是高大的熔炉,那么数据本身就是金矿。在数据产业中,数据就是最宝贵的原材料。数据流动越畅通,数据共享就越充分,规模数据的聚合效应就越明显,其直接影响着计算结果的准确度和数据应用领域的宽广度。

从数据价值在各个方面的表现来看,数据的核心功能就是能够帮助人们挖掘出未曾知晓的有效关系,这也是数据价值的核心。

比如,在精确营销领域,挖掘到的是用户需求与商家供给之间的对应关系。在规模数据不存在之前,生产者寻找消费者的办法是广告宣传,期待潜在用户能够看到这个广告而前来购买产品。这种缺乏针对性的传统方式对于供需双方来说都是被动的、低效的,正在被时代所淘汰。广告界有句流传甚广的名言:“有一半的广告不知去了哪里,有一半的广告费都被浪费掉了。”这就是对传统时代撒网式营销的生动写照。

又如,在甄别虚假新闻的时候,挖掘到的是虚假信息与其他正向信息之间的矛盾关系。2017年夏天,中方在洞朗地区进行道路施工,印度边防部队不顾《中英会议藏印条约》进入中国境内阻挠中方的修路活动,引发紧张局势。事件发生后,中国边防部队立即采取紧急应对措施。两个月后,印度从洞朗撤军,中方表示将继续在洞朗地区巡逻驻守,按照历史界约规定行使主权权利,维护领土主权。正在大家为双方和平解决边界争端而松一口气的时候,一个“中国花200亿美元换印度撤军”的谣言不胫而走。一家叫作“沃德社会气象台”的网站通过分析大量的监测数据,挖掘出了这条谣言的肇始地是境外推特上的一个个人账号,及时澄清了事情的真相。

再如,吸引了高额投资和大量注意力的聊天机器人,也是基于对规模数据的挖掘。从本质上看,机器人就是具有“人形”的机器,其工作原理区别于人脑的分析归纳模式,而是一个在海量数据中进行比对的过程。当人们在与智能机器人聊天的时候,会提出很多问题,机器人给出的答案是从众多数据中进行选择的结果,往往会将那些人类交谈中出现频率较高的回答作为答案给出,所以听起来机器人的回答很像人类。在这里,机器人从规模数据里挖掘到的是答案与提问之间的关系,那个在人类聊天中出现频率最高的答案内容与问题之间就形成了有效关系,因为这样的答案能够使交流变得很真实。

美国华裔女科学家李飞飞在人工智能的研究上取得了傲人成绩,她在接受媒体采访时说:“人工智能需要从大量数据中进行学习,数据开源对于行业的发展非常重要。”

数据开源之所以重要,主要是因为一切有效关系的建立,都是以规模数据为基础的。大数据之“大”,就是要求数据的规模达到足以覆盖目标问题中所有样本的程度。在人机竞技方面,最具轰动效应的当属Alpha Go(阿尔法围棋)同人类棋王的围棋竞赛事件。由于围棋被视为人类智慧的巅峰,阿尔法围棋战胜人类棋王的新闻,让很多人感到震惊。阿尔法围棋所体现的人工智能,在工作原理上是基于对所有对弈方案(棋谱)的掌握,在对弈中总能找到最佳应对方案,这里的棋谱就是一种数据。这种数据规模越大,棋谱越全面,机器人的获胜率就越高。

数据开源的重要性,也体现在公共管理领域。“多头管理”导致效率低下一直饱受诟病,存在这种局面的一个重要原因就是政府各个部门之间缺乏数据融通机制。遗产继承需要亲子关系互证、异地办理身份证需要回原籍开具“无犯罪记录证明”这些现象,经媒体报道后,在社会上引起了强烈反响。无论是横向上的管理部门之间、还是纵向上的省市县政府之间,如果存在一个数据共享的平台,就可以实现行政手续的简化,为人民群众带来实实在在的好处。浙江政务网在数据开放与共享方面走在了前面,率先实现了居民网上行政事务的一站式办理,具有一定的示范意义。

数据开源的重要性,最后还是要回到大数据价值发挥的原理上来,即大数据能够被人们挖掘、预测和匹配,都是基于把具体的问题放到海量数据中去寻找相同或相似的情况,通过比对来完成目标问题与已知数据之间的匹配,是一个“从已知到未知”的泛化过程。这一切的基础都是数据规模足够大,这就要求对数据进行开放与共享。

如前所述,成规模的个人信息可以用来制作“用户画像”,从而形成对用户的个性化服务。在供需匹配精准度不断提高的过程中,作为个人的用户得到的是时间、精力和资金成本的大幅缩减。随着电子商务、现代物流系统的发展,我们不再需要花大把的时间逛商场、逛超市,也不再需要绞尽脑汁地去对比信息并不丰富的同类商品之间的性价比,更不用大包小包地在商店与住宅之间搬运生活必需品。这一切便利,都离不开海量的数据作为基础,精准匹配的基础设施就是规模数据。

而隐私保护所追求的排除他人干扰,是一种排他性诉求,与这种社会化协作所带来的便利格格不入。排他是要求他人离开,协作则是要求与他人共同合作,这也成为信息隐私在数据流动中的一种价值困境。

个人信息流动所带来的好处还体现在公共管理、行业统计、灾难预测等公共领域方面。比如,正在大力推广的电子政务,日益丰富的行业报告,以及具有重要医疗价值的疾病预测等,都是基于对规模数据的分析和挖掘。在这些数据中,当然也包含着大量的个人信息,除了姓名、身份证号、手机号码等具有直接识别功能的信息之外,还有更多的痕迹信息,比如,我们的每一个上网行为,都是数据。

如果将信息隐私仍然局限在传统的保护模式和思维路径上,这些堪比“钻石”“石油”“黄金”的数据就无法进入利用环节,其价值就无法发挥。互联网与现实世界的融合越来越深入,线上线下正在融为一体,这种深入融合的桥梁就是数据,离开了对数据的利用,客观上难以谈及社会的发展与进步。这里就涉及隐私诉求的静态性所带来的数据停滞,与互联网社会发展进步所带来的数据流动之间的矛盾,也是信息隐私所面临的价值困境。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈