首页 理论教育 模块开发:数据采集

模块开发:数据采集

时间:2023-06-24 理论教育 版权反馈
【摘要】:对应流程中的第一项,将电商用户的网站日志数据采集到HDFS 上存储,需要用Flume 采集系统在服务器上部署Agent 节点,从而对电商用户行为日志数据进行采集,并将日志文件汇集到HDFS 中,搭建Flume 的核心代码如下:图10.4用户行为展示图图10.4用户行为展示图上述为核心代码的参数配置,选择Taildir 类型的Source,是因为它可以监控一个目录下的多个文件的新增和内容追加,实现了实时读取记录的功能,并且可以使用正则表达式匹配该目录中的文件名进行实时采集。

模块开发:数据采集

对应流程中的第一项,将电商用户的网站日志数据采集到HDFS 上存储,需要用Flume 采集系统在服务器上部署Agent 节点,从而对电商用户行为日志数据进行采集,并将日志文件汇集到HDFS 中,搭建Flume 的核心代码如下:

图10.4 用户行为展示图

上述为核心代码的参数配置,选择Taildir 类型的Source,是因为它可以监控一个目录下的多个文件的新增和内容追加,实现了实时读取记录的功能,并且可以使用正则表达式匹配该目录中的文件名进行实时采集。Filegroups 可以配置多个文件,中间用空格分隔,表示Taildir 类型的Source 同时监控多个目录中的文件,Positionfile 配置检查点文件路径,检查点文件会以Json 的形式保存已被跟踪的文件的位置,从而弥补了断点不能续传的缺陷。

上述代码知识核心代码,完整的日志采集方案Conf 代码还需要根据收集目的地,编写包含Source、Channel、Sink 的完整方案。

通过Flume 采集系统采集后的电商用户行为日志数据,将会汇总到HDFS 进行保存,由于采集的日志数据内容较多,并且样式基本类似,这里选取两条进行展示,样例如下:

①启动日志。(www.xing528.com)

对应信息如下:

②事件日志。

对应信息如下:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈