首页 理论教育 大数据平台安全的风险和应对策略

大数据平台安全的风险和应对策略

时间:2026-01-23 理论教育 峰子 版权反馈
【摘要】:地震、台风、暴雨、雷电等天灾,偷盗、断电、火灾等人祸,湿度、热度、静电等物理因素,这些对大数据平台的物理安全均可能构成潜在威胁。近些年,亚马逊大数据中心已发生多起物理安全事故。Hadoop平台的安全风险。但是大数据平台毕竟是复杂的技术系统,涉及众多行业、众多群体,各种潜在安全威胁仍然很多,因而绝不能轻视大数据平台的潜在风险。

大数据平台安全是对大数据平台传输、存储、运算等资源和功能的安全保障,包括传输安全、存储安全、计算安全、平台管理安全及基础设施安全。为更直观理解,我们在这里按照软硬设施的划分标准,将大数据平台安全风险划分为物理安全风险和技术安全风险。

(一)物理安全风险

物理安全是保障大数据平台安全最基础的要求。地震、台风、暴雨、雷电等天灾,偷盗、断电、火灾等人祸,湿度、热度、静电等物理因素,这些对大数据平台的物理安全均可能构成潜在威胁。

案例56:亚马逊大数据中心多起物理安全事故

亚马逊是全球著名的电商企业,同时也是世界知名的大数据和云计算公司。近些年,亚马逊大数据中心已发生多起物理安全事故。比如:2016年6月,因澳大利亚东海岸的暴风雨,造成亚马逊数据中心部分服务器断电,导致多个网站瘫痪。其中,披萨配送Domino’s、食品及饮料配送Menulog、打车服务GoGet、视频服务Stan等公司的业务均受到严重影响。2019年5月,亚马逊网络服务中心的一个数据中心发生断电,亚马逊云托管Elastic Block Store(EBS)中有超过1TB的数据在宕机期间瞬间消失,并且被告知“与您的EBS卷相关的底层硬件发生故障,与卷相关的数据不可恢复”。据了解,亚马逊网络服务中心因这次断电事故,给大量的商户造成了巨大损失。

从全球范围看,目前电力供应故障是导致大数据平台安全事件的主要物理因素,国内也多有发生,如前些年的云服务供应商青云公司,在广东和北京的机房多次因断电造成控制台无法访问,用户无法开展正常业务。

(二)技术安全风险

大数据平台本质是数据采集、传输、存储、共享、应用的技术平台,目前技术上主要基于Hadoop基础平台,应用则是通过开源模式实现,大数据技术安全风险点也主要体现在Hadoop平台和开源模式上。

Hadoop平台的安全风险。Hadoop平台是大数据领域使用最广泛的存储和计算平台,其核心框架是HDFS和MapReduce。HDFS(分布式文件系统)可以存储海量的数据,MapReduce是一种编程模型,可以运算海量的数据。它们最初是基于信任环境设计的,缺乏安全机制的设计,在运行过程中,发现存在数据被篡改、作业被恶意提交等问题。虽然后来加入了数据认证、访问控制、算法加密等安全机制,但是随着大数据的深入发展和Hadoop平台的广泛使用,新增的安全设计机制依然不能满足安全防护的需求。如Hadoop在身份管理和访问控制方面,依赖Linux的身份管理与权限控制机制,不能满足基于角色的身份管理和细粒度访问控制等需求;另外在安全审计上,因为大数据系统各组件只有简单的日志记录功能,并没有原生安全审计功能,需要使用外部附加工具进行日志分析。

案例57:2017年勒索病毒攻击事件

2017年春节刚过,大数据生态基础软件就陷入了一场全球范围内的大规模勒索病毒攻击。据报道,网络专家Naill Merrigan发现黑客组织NODATA4U锁定Hadoop后,随后几天就出现了115个遭遇勒索病毒攻击的受害者。另一位安全研究人员Victor Gevers表示,自己也发现了126起Hadoop攻击事件。不久全球均出现了对大数据基础软件的大规模勒索病毒攻击,Hadoop集群被黑客锁定为攻击对象。同时,根据Shodan(互联网设备搜索引擎)的分析显示,因Hadoop配置不当导致5120TB数据暴露在公网上,涉及近4500台HDFS服务器。黑客删除或破坏用户数据后,利用比特币平台进行匿名勒索,称缴纳赎金以后才能提供恢复数据的方法。该事件造成了广泛的影响,给相关组织造成了严重的经济损失。(https://www.xing528.com)

这次的勒索病毒攻击事件,正是因为Hadoop缺乏安全规划导致的。仔细分析,黑客这次并没有利用勒索软件和常规漏洞,而是利用Hadoop集群中一些在公网开放的端口。端口一旦开放将不会对访问者进行任何身份认证,攻击者可以使用很简单的计算机命令进入服务器,甚至任意操控其中的数据。然而对于这样的攻击,应对者别无他法,就只能关闭相应端口,这给Hadoop的用户带来了极大的不便。

开源模式的安全风险。开源是指开发者在已经公开的源代码基础上开发新程序。在商业环境中,开发者在一些基础的开源平台中开发新的程序,往往侧重性能设计和用户体验,而对代码的质量和数据安全关注较少,缺乏严格的测试和安全认证,对组件漏洞和恶意后门防范能力不足,这就可能存在设计漏洞,带来潜在的安全威胁。

案例58:GitHub开源软件源代码安全不容忽视

北大软件工程中心网络安全团队长期对开源软件、开源项目等代码安全进行大数据分析。GitHub是开源代码库集散地,该平台拥有超过150万个组织、2400万用户使用。

北大软件工程中心网络安全团队对GitHub上的18万个开源项目中的12亿代码提交版本、3.4亿个文件、22亿个函数、2.4万个二进制安装包以及61.9万个二进制文件进行跟踪,发现总计有漏洞1.57万个,其中,存在安全漏洞最多的是内存泄露(Memory Leak),达到3737个,占总数的23.77%。

目前,GitHub上已有数十万个开源软件项目,这些开源软件被全世界的软件研发企业和研发人员所采用,或多或少都存在一些安全漏洞。有的漏洞已经被发现和修复,有些则还未被发现,若未发现的漏洞被不法分子找到,并被其恶意运用,那么,基于这些开源软件的企业应用系统或产品则可能面临着潜在的风险。

图24 漏洞库影响项目统计

搜寻国内外公开报道,勒索病毒攻击、GitHub开源软件源代码漏洞等安全风险事件多有发生,并且影响范围越来越广,可以是一个行业,也可以是一个国家,甚至是全世界。

近些年,针对大数据系统平台的开发,使用者越来越意识到安全的重要性,正积极探索改善安全开发环境来满足大数据的发展要求。一方面,在Hadoop平台加入安全防护机制,优化大数据系统开发;另一方面,用户对基础平台上开发场景应用程序的安全考虑更加充分,验证测试的要求越来越高。但是大数据平台毕竟是复杂的技术系统,涉及众多行业、众多群体,各种潜在安全威胁仍然很多,因而绝不能轻视大数据平台的潜在风险。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈