1)分析目的与思路
数据分析项目以重庆主城区2017年7月份的大数据人才网络需求为主题,涉及大数据行业的从业技能、学历经验要求、职位薪酬水平、行业需求等信息,以期为走在大数据行业或准备迈入大数据行业的人提供参考信息。
确定数据分析维度及思路框架如下:
第一,重庆大数据招聘职位分布;
第二,重庆大数据招聘职位行业分布;
第三,重庆大数据招聘职位薪酬对比;
第四,重庆大数据招聘职位学历要求;
第五,重庆大数据招聘职位经验要求;
第六,重庆大数据公司性质与薪酬;
第七,重庆大数据招聘职位技术关键词分析。
2)数据采集
(1)采集对象
各大招聘网站发布的重庆主城区大数据职位的相关招聘信息,具体包括前程无忧、智联招聘、汇博人才网、全才招聘网。
(2)采集规则
采集周期:互联网上进行全量爬取。
采集数据范围:各招聘网站包含搜索关键词的招聘网页(关键词包括大数据、数据分析、数据挖掘等)。
采集字段:包括招聘职位、招聘单位、薪资、工作地点、工作性质、工作经验、发布时间、招聘人数、学历、职位类别、公司规模、公司性质、公司行业、职位描述。
(3)采集方式
使用八爪鱼试用版工具进行采集,该工具可以将采集到的数据直接写入数据库,也可以导出生成Excel文件。采集工具详细演示可查看本书任务三关于网页数据采集的内容,或者搜索网络资源。
3)数据清洗(https://www.xing528.com)
完成采集后,将数据导入MySQL数据库中,然后通过SQL语句对采集数据进行清洗。对于字符串格式的数据变量,需要对换行符、回车符以及空格进行处理。SQL代码如图2-2所示。
图2-2 数据清洗SQL代码
根据字段“工作地点”删除非重庆地区的招聘数据,SQL代码如图2-3所示。
图2-3 清洗数据SQL代码
4)数据分析
数据分析环节我们结合前面拟定的分析维度及思路框架展开数据分析工作。在这里我们只剖析其中两个分析维度的数据。
(1)大数据相关职位招聘对学历的要求分析
针对重庆地区的全量大数据招聘数据,以职位类型与学历要求两个维度进行交叉统计分析,得到不同大数据职位类型对学历要求的差异,SQL统计分析语句如图2-4所示。
将图2-4中数据在Excel中用堆积条形图进行可视化,数据分析结果如图2-5所示。
图2-4 数据分析SQL代码
图2-5 数据分析可视化
(2)重庆大数据招聘职位技术关键词分析
针对重庆地区的全量大数据招聘数据,提取职位中包含的技术关键词,以分析各类大数据技术的流行程度。SQL统计分析语句如图2-6所示。
图2-6 数据分析SQL代码
将上述数据在Excel中用条形图进行可视化,数据分析结果如图2-7所示。
图2-7 数据分析可视化
5)撰写数据分析报告
根据上一步数据分析得到的统计数据,利用图形工具或插件(如Echarts、Excel),画出对应的图表。然后结合图表和行业知识对数据分析结果进行总结。数据分析报告参见本书附录1。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
