首页 理论教育 全面的数据支撑大数据采集方式:传感器、网络爬虫、众包和日志文件

全面的数据支撑大数据采集方式:传感器、网络爬虫、众包和日志文件

时间:2026-01-23 理论教育 小龙哥 版权反馈
【摘要】:获取和收集数据的方式多种多样,这里重点介绍采集物理世界数据的传感器、采集互联网数据的网络爬虫、采集公众数据的众包和采集机器运行状态的日志文件。可以说,利用数据众包,人人采集数据时代即将到来。“众采客”通过发动广大群众的力量,进行全方位的数据采集,为“社会和云”工程提供准确、

在了解数据在什么地方后,我们就需要知道如何才能从数据海洋中获取所需的数据了。例如,如果我们打算对食品安全进行监测,那么,首先就需要采集食品的生产、加工、运输、库存、销售等数据。获取和收集数据的方式多种多样,这里重点介绍采集物理世界数据的传感器、采集互联网数据的网络爬虫、采集公众数据的众包和采集机器运行状态的日志文件。

(一)传感器:采集物理世界中的数据

传感器可采集声音、振动、化学、电流、压力、温度和距离等数据,广泛应用于各个方面,例如环境监测、水质监控、野生动物监控、对地观测、深空探测等。传感器的出现使得大量物理世界的状态能够被自动获取并存储下来,极大减轻了人工采集数据的劳动量,提高了采集的精准度。目前,很多设备都包含可随时使用的传感器,如我们的智能手机中,就有GPS传感器(全球定位)、加速度传感器(测量手机的移动速度)、陀螺仪(测量方向和旋转屏幕)、距离传感器(测量我们和其他人、位置或物体的距离)、光线传感器(调整手机屏幕的背光亮度)和近场通信传感器(可以让我们在付款机上挥动手机进行付款)等。特别是随着城市化发展,城市里联网部署了大量的交通、治安摄像头,可获得更大规模的实时数据。另外,常见的数字终端如指纹识别、证件照采集、条码扫描、射频识别(RFID)等设备也属于传感器。

案例5:以色列借助传感器发展自动化农业

以色列在农田中安装传感器,并利用装有GPS定位功能的智能手机应用程序,同步传输土壤数据。这不仅能告诉农民每小块地在某一时间内所需的水、肥料和农药数量,还可以自动控制灌溉。通过铺设传感器,收集植物茎果的直径变化和地下湿度等数据,并将收集的水量和产量的关系进行分析学习和归纳,以此来优化植物的灌溉量,节约了大量的水资源、肥料和人力,使以色列许多农产品的单产量在全球领先,在一个严重缺水、生存条件极其恶劣的地方创造了高产农业的奇迹。

案例6:美国枪声监测传感器降低枪械犯罪率

在枪支暴力问题较为严重的美国,人们利用传感器收集数据打击犯罪。由美国SST公司开发的ShotSpotter传感器技术可对整个城市的声景数据进行分析,并在检测到枪声时发出实时警报。它的工作原理就是将声音传感器安装到枪械犯罪率较高的重要地方。当三个传感器同时监测到与枪声相匹配的声波时,即可通过测量三个传感器接收到枪声的时间差来确定枪声发生地的精确位置,从而为警方行动提供支持。该公司在全球90个城市推出了这项技术,并与美国通用电气公司(GE)达成合作伙伴关系,在GE的全部“智能LED”智慧城市路灯上安装ShotSpotter传感器。在已经使用这项技术的城市里,枪械犯罪率平均减少了28%。

(二)网络爬虫:采集分散在网络中的数据

网络爬虫又被称为网页蜘蛛、网络机器人、网页追逐者等,本质上是一套实现高效下载的程序,能够帮助人们更具针对性地获取网络数据信息。根据获取信息量的不同,网络爬虫可分为通用型爬虫(即对所有的网页进行无条件采集)、多线程爬虫(即通过多个线程,同时执行采集任务)、主题爬虫(即通过一定的策略将与主题无关的网页信息过滤,仅仅留下用户需要的数据)。

网络爬虫目前已被广泛成熟地应用,作为搜索引擎公司的百度、谷歌是最大的爬虫公司;金融企业特别是互联网金融企业,利用网络爬虫采集企业信用信息、涉诉执行信息、社交软件信息、招聘信息、电商数据等;零售企业使用网络爬虫收集线上产品的电商定价、销量等信息;聚合信息平台,如今日头条等,其部分新闻内容就是来源于爬取的网络信息。在信息爆炸时代,网络爬虫技术渗透在我们工作生活的方方面面,同时也引发了对数据权属的争论。

案例7:百度大量使用大众点评信息涉嫌不正当竞争纠纷

2016年,百度公司为提高百度地图搜索的信息量,使用网络爬虫技术在大众点评等APP上抓取了商户的基本信息及点评信息,用户使用其运营的百度地图APP查询位置时,无须跳转至大众点评界面,就可直接在百度地图界面获取商户的基本信息和点评信息。这一行为虽然极大地方便了地图使用者,但未经授权的爬虫行为被大众点评起诉,并被法院认定为构成不正当竞争。百度该行为被终止,同时被要求进行经济赔偿。该案件在当年被列为“影响中国互联网法治进程十大案例”之一。(https://www.xing528.com)

(三)数据众包:发动大众采集生活中的数据

“众包”一词最早出现在2006年,指机构或企业把过去由员工执行的工作任务,按照自由自愿的原则分发给非特定的大众网络去完成的做法。它本质上是一种人人参与的问题解决模式,运用到数据采集领域,就是一种分布式的数据收集方式。相对外包而言,外包信赖专业机构和专业人士,主张让专业的人干专业的事;而众包相信劳动人民的智慧是无穷的,主张三个臭皮匠顶个诸葛亮。

在数据采集领域,众包通过互联网发布数据采集任务,社会公众自愿接受任务,并将采集的数据通过互联网上传给任务发布者,这就突破了固定工作地点和工作时间的限制,可以最大限度和最大范围地利用社会人力资源来获取大量数据,极大地提高了数据采集的速度和效率。目前,数据众包已应用在社会治理等不同领域,如通过随手拍交通违章、随手拍违章广告来进行“社会动员众包”,通过收集痛点及解决方案来进行“痛客众包”等。可以说,利用数据众包,人人采集数据时代即将到来。

案例8:搜狗输入法实现使用中的词汇众包采集

搜狗输入法有两种:搜狗拼音输入法和搜狗五笔输入法。搜狗输入法的众包分为两大块,一块是皮肤,就是输入法的界面;另一块是词库,搜狗命名为细胞词库,如生物词汇大全、传奇、武术、海南地名、音乐词汇大全、仙境传说、网络流行新词、古诗词名句、股票基金、成语俗语……通过大量用户的参与设计,已获取19354种皮肤和12008个词库,并且这些数据量还在持续增长中。

案例9:贵阳市“众采客”发动群众智慧共建创新社会

“众采客”是贵阳市“社会和云”工程中,对所有群众开放的数据众包采集平台。一方面,贵阳市民可以通过利用自己的空闲时间,到该平台上领取任务、采集数据,获取劳动报酬;另一方面,贵阳市政府可以低成本、高效率地获取高质量的数据源。“众采客”通过发动广大群众的力量,进行全方位的数据采集,为“社会和云”工程提供准确、及时、涵盖面广泛、种类丰富的非隐私数据,让群众智慧成为主力,“草根”创新成为主流。

(四)系统日志:通过授权采集软件系统中的数据

系统日志由机器运行系统自动产生,以特殊的文件格式记录系统的行为、状态,以及用户和系统的交互等活动。如对计算机硬件系统运行状态的记录、金融应用的股票记账、网络监控的性能测量及流量管理、Web服务器记录的用户行为等都属于系统日志。和物理传感器相比,系统日志可以看作是“软件传感器”,也是一种广泛使用的数据采集方法。

获取系统日志的关键在于对用户/系统行为的认知,这需要根据应用的要求选择日志包含的内容,并且根据其包含内容的形式和应用的方法设计有效的存取格式。例如,对于类似通话记录这类需要频繁查询的海量日志仓库,可以选择数据库而不是文本文件来进行存储管理,以保证高效的查询处理。

系统日志在诊断系统错误、优化系统运行效率、发现用户行为偏好等方面有着广泛的应用。例如,Web服务器通常在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其他属性,根据这些行为可以有效发现用户的偏好,一方面基于用户行为可以优化网站布局,另一方面可以做有效的用户画像,从而实现精准的信息推荐。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈