首页 理论教育 数据采集工具及技术:八爪鱼、火车头等

数据采集工具及技术:八爪鱼、火车头等

时间:2023-10-18 理论教育 版权反馈
【摘要】:数据采集即是一个采集阶段的说法,也可以是一种采集手段的表述。国内数据新闻制作者常用的网页数据采集器则有:八爪鱼采集器、火车头采集器、狂人采集器、集搜客采集器等,其中“八爪鱼”因使用较为简单而受到追捧,新出现的产品还有“云爬虫”等云端技术的数据采集器。在数据来源受限的前提下,很多国外媒体会自己采集数据,建立数据库。

数据采集工具及技术:八爪鱼、火车头等

选题确定以后,就要开始新闻素材的采集,数据新闻则开始了重要的数据采集阶段。数据采集即是一个采集阶段的说法,也可以是一种采集手段的表述。从阶段的角度来看,数据采集主要有两种常用手段,其一是“网络搜索”,另一个则是“数据抓取”。

(一)网络搜索

网络搜索,就是利用互联网网站中的索引擎或直接进入专业性数据库网站对互联网上的信息进行搜索。目前全球比较大规模的搜索引擎就是谷歌(Google),而中国国内最为常用的则是百度(Baidu)搜索,当然还有其他搜索引擎,如美国的雅虎搜索,中国的搜狗搜索、360搜索等。网络搜索是现代的新闻记者的一项重要技能,如何通过搜索引擎更快速地找到更丰富、更有价值的信息,需要一些技巧。

(1)关键词搜索:在搜索引擎中键入关键词是最为常见的使用方法,搜索引擎从索引数据库中找到匹配该关键词的网页,这种方法对于搜索目标比较明确的情况非常有用。

(2)非必需关键词搜索:无须键入一个明确的关键词,而是键入几个可能的关键词(即“非必需关键词”),在“谷歌”中搜索词之间可以用or间隔,而在“百度”中可以用空格键隔开,也可以选择“高级搜索”同时输入多个可能的关键词。

(3)利用域名搜索:想要集中查找一个特定网站上的相关内容,可以在“百度”等搜索网站,使用高级搜索语法在“site:”后面输入网站域名;国外还可以在Twitter等社交媒体上搜索相关结果,比如在Twitter上,可以在关键词后输入“site:twitter.com”。

(二)数据抓取

数据抓取(Data Scraping)又称“网页抓取”或“网络爬虫”,也是狭义上的“数据采集”,是利用电脑程序从综合网页或公开的数据网页上采集文字和数据,并将其整理成便于分析的格式。数据抓取有两个重要前提:一是公开数据资源广泛,这也是数据抓取的实施阵地;二是新闻记者对抓取技术的掌握与运用。数据抓取比网络搜索更加专业化、技术化,它需要新闻记者对计算机编程技术有一定的掌握和了解。随着越来越多的机构在网站上公开发布数据,懂得编程的记者们发现,网络数据采集越来越成为他们的好帮手。

数据抓取比较常用的方法是用R语言或Python编写的“爬虫(scraper)”程序,但也可以用现成的软件或基于网页的应用,比如Helium Scraper、Import.io、parsehub、Web Scraper,等等。国内数据新闻制作者常用的网页数据采集器则有:八爪鱼采集器、火车头采集器、狂人采集器、集搜客采集器等,其中“八爪鱼”因使用较为简单而受到追捧,新出现的产品还有“云爬虫”等云端技术的数据采集器。(www.xing528.com)

(三)数据来源

数据的主要来源是综合或专业数据库网站,即人们常说的Database,其中的数据可以成为数据新闻源的重要选择,主要包括:政府和企业的统计、研究机构、国际组织、新闻报道、门户网站、搜索引擎、社交网站、民意测验以及自身采集等,这些都是数据获取的有效途径,其中政府数据来源、机构性数据库,以及自建数据库应用较为普遍。

1. 政府及相关机构是主要数据来源

当前大数据时代,不少信息先进的国家都建有自己的政府数据库,成为本国最为权威、广泛的综合数据库。政府公开数据资源,成为新闻媒体的重要信息渠道。政府建立的专门的公开信息网站,往往数据量大,且信息权威、可信度高,获取方式也比较简单。以《卫报》为例,2009—2013年的219个样本数据新闻中,数据来源于政府及政府组织的占50%。[5]在中国,随着政府及相关机构的数据资源库越来越健全,这一类型的数据也成为国内数据新闻的主要来源。由国家统计局创建的“国家数据(National Data)”[6]已经实现了包括网站、手机应用、微博微信账号在内的多元信息发布方式。

2. 非官方的独立机构建立的数据库

除了政府数据库之外,一些以个人或机构名义建立的数据库被广泛运用。这些数据机构经过长时间专业化的数据搜集整理,产生了一定的权威性与影响力,逐渐被媒体所接受并运用。采用独立机构的数据库,因为有明确的服务与被服务关系,会显得更加便捷。2016年《华盛顿邮报》因一则“美国警察枪击平民”的数据新闻报道获得“普利策奖”,其数据来源就是独立数据库Fatal Encounters和Killed By Police。前者由《里诺新闻评论》的前任编辑D. Brian Burghart创立,记录了2000年以来美国境内警民冲突致死的案例;后者由一名研究非暴力干预的教师创立,收集了2013年5月1日至2015年12月31日有关执法警察杀人的新闻报道,含有时间、人名、性别、新闻链接。

3. 个体或机构自身建立的数据库

事实上,媒体长时间使用其他机构的数据总会觉得不太方便,因此逐渐通过综合多种数据渠道建立自己的数据库。比如,有的政府对数据的开放性还不够,一些有关敏感话题的数据信息还是很难得到,所以,数据新闻的强势发展趋势与数据开放性不足的限制性形成反比。在数据来源受限的前提下,很多国外媒体会自己采集数据,建立数据库。而在中国,媒体自身建立数据库的现象还不多见,但随着数据新闻传播影响力的扩大,数据库建设也会越发健全。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈