首页 理论教育 实验数据整理:使用R语言和tidyverse包的基本流程

实验数据整理:使用R语言和tidyverse包的基本流程

时间:2023-11-24 理论教育 版权反馈
【摘要】:在一个典型的R统计分析过程中主要步骤包括数据导入、数据整理、数据转换、构建模型和可视化。导入数据后,就应该对数据进行整理。数据整理就是将数据保存为一致的形式,以满足其所在数据集在语义上的要求。在实际实验工作中,我们实验完成后所获得的数据需要进行适当处理,以方便进行统计分析,在R中建议将数据处理为tidy data。在R中有太多的函数包能够完成上述工作,在本章中主要以tidyverse包为基础介绍实验数据整理的基本流程。

实验数据整理:使用R语言和tidyverse包的基本流程

R专家通常将与项目相关的所有文件放在一起,其中包括输入数据、R脚本、分析结果以及图形,这是一个非常好的习惯。在R-Studio中,通过项目对这种做法提供了内置的支持。因此在使用R语言进行统计分析时,建议如下:

●为每个数据分析任务创建R-Studio项目;

●在项目中保存数据文件;

●在项目中保存脚本;

●在项目中保存输出(图形和整理后数据);(www.xing528.com)

●只使用相对路径,不要使用绝对路径。

在一个典型的R统计分析过程中主要步骤包括数据导入、数据整理、数据转换、构建模型和可视化。首先,你必须将数据导入R,即读取保存在文件、数据库或Web API中的数据,再加载到R的数据框中。导入数据后,就应该对数据进行整理。数据整理就是将数据保存为一致的形式,以满足其所在数据集在语义上的要求。在实际实验工作中,我们实验完成后所获得的数据需要进行适当处理,以方便进行统计分析,在R中建议将数据处理为tidy data(意为干净整齐的数据)。tidy data中每一列为一个变量,每一行为一个观测样本,对应的每行、列为单独一个值。一旦拥有了整洁的数据,通常下一步就是对数据进行转换。数据转换包括选取出感兴趣的观测(如某个特定实验处理的观测值)、使用现有变量创建新变量(如根据体重和时间计算出生长率),以及计算一些摘要统计量(如计数或均值)。数据整理完成后即可进行可视化和数据建模。在R中有太多的函数包能够完成上述工作,在本章中主要以tidyverse包为基础介绍实验数据整理的基本流程。

tidyverse是一组处理与可视化R包的集合,其中ggplot2、dplyr和tidyr最广为人知。核心包中:readr—读入表格数据,tibble—新一代数据框,tidyr—清理数据,dplyr—数据操作语法,可以解决大部分数据处理问题,forcats—提供有用工具用来处理因子问题,ggplot2—最流行的数据可视化包。在整理数据文件之前,可以导入tidyverse包,查看一下相关子包导入情况,在输出中可以查看到部分函数有冲突,如果需要运行被替换的函数,可以采用包加函数名直接调用[如stats::filter()]。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈