首页 理论教育 数据采集流程优化:获取真实可靠的多维数据

数据采集流程优化:获取真实可靠的多维数据

时间:2023-06-04 理论教育 版权反馈
【摘要】:采集数据任务工单数据采集中最基本的要求是数据要真实可靠且样本量要足够。因此,一般采集数据过程中,都会遵循全量而非抽样,多维而非单维的重要原则。我们可能使用Excel导入网页数据表,并同时获得随时更新的数据。操作如下:Step 1:选择Excel表的“数据”|“获取外部数据”|“自网站”|“新建Web查询”对话框,如图1-2所示。

数据采集流程优化:获取真实可靠的多维数据

【任务工单1-2】

采集数据任务工单

数据采集中最基本的要求是数据要真实可靠且样本量要足够。一般来说,样本量越大,所得到的结果越精确。因此,一般采集数据过程中,都会遵循全量而非抽样,多维而非单维的重要原则。

一、采集网络数据

数据采集有时需要采集网页上的数据表。我们可能使用Excel导入网页数据表,并同时获得随时更新的数据。操作如下:

Step 1:选择Excel表的“数据”|“获取外部数据”|“自网站”|“新建Web查询”对话框,如图1-2所示。

图1-2 “新建Web查询”对话框

Step 2:在“地址”栏输入网址,单击“转到”按钮即可进入相应网页,如图1-3所示。

图1-3 转到有数据表的网站

Step 3:选中拟导入表格的橙色图标,单击“导入”按钮,弹出“导入数据"对话框,如图1-4所示。

图1-4 “导入数据”对话框

Step 4:输入导入到Excel表格的单元格地址,单击“确定”按钮,效果如图1-5所示。

Step 5:如果要关联数据,使得网站数据更新的同时该Excel数据表也跟着更新,可以选中导入的数据区域,右键单击,弹出快捷菜单,选择“外部数据区域属性”命令,如图1-6所示。

图1-5 导入网站数据的效果

图1-6 动态更新数据设置

二、采集平台数据

平台数据常用的有电商数据后台,如生意参谋和京东商智等;百度指数常用来查询搜索指数和资讯指数等行业热度排名情况。生意参谋是阿里系商家常用的查询工具,如图1-7所示;百度指数行业搜索指数排行如图1-8所示。

图1-7 生意参谋查询界面

图1-8 百度指数行业搜索指数排行

三、采集本地数据

采集本地数据常用在对文本数据和数据库数据的采集中。(www.xing528.com)

1.采集文本文件数据。文本数据要求格式统一为每行一条记录,每条记录中的字段以“Tab”分隔,以“;”结尾,如图1-9所示。

图1-9 文本文件数据内容

以上图文本文件为例进行操作,操作步骤如下:

Step 1:在Excel中打开“数据”|“获取外部数据”|“从文本”|“导入文本文件”,如图1-10所示。

图1-10 “导入文本文件”对话框

Step 2:设置“文本导入向导”。分别设置“分隔符号”“Tab键”和“分号”,再以“常规”格式显示即可操作成功,如图1-11、图1-12、图1-13所示。

2.采集数据库数据

商务数据有时候存储在商家自有数据管理系统中,这种数据如何采集呢?以导入Access数据库为例,操作步骤如下:

Step 1:在Excel中,点击“数据”|“获取外部数据”|“自Access”选项,弹出“选取数据源”对话框,选择Access数据源,如图1-14所示。

图1-11 “文本导入向导”第1步

图1-12 “文本导入向导”第2步

图1-13 文本数据导入效果

图1-14 从数据库导入数据

Step 2:单击“打开”按钮,弹出“选择表格”对话框。该对话框中显示了Access数据库包含的所有表,选中“支持选择多个表”复选框,可以将所有表都导入,也可以选择部分导入,如图1-15所示。

图1-15 选择表格

Step 3:单击“确定”按钮,进入“导入数据”对话框。在对话框中可以选择导入数据在工作簿中的显示方式与放置位置,如图1-16所示。

图1-16 “导入数据”对话框

Step 4:如果以“表”的形式显示并放置在A1单元格开始的位置,则导入的数据表效果如图1-17所示。

图1-17 导入的数据表效果

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈