【R语言】tidyverse之零:管道操作

2020-06-17 00:00:00 数据 函数 操作 管道 管线

前言

Hadley 大神的 tidyverse 包,将数据处理和建模整个流程所涉及到的:读入、清洗、重塑、汇总、可视化、探索、建模、结果展示的整个流程,都以一种“优雅”的方式整合到了一起。

我之前学了一遍 Hadley 的配套书《R for Data Science》,虽然比较系统全面,但重点部分有点过于基础,实用性欠缺了点。近偶然看到一个非常好且精炼的进阶资料《Working in the Tidyverse》,主要以它为主,翻译并学习记录下来。

强烈建议大家,抛弃流传甚广的陈旧的数据操作方面的 R 语法,全面改用 tidyverse。

——————————————————————————————

下面先从第零篇,管道操作,开始。

一. 简介

magrittr 包引入了管道操作,能够通过管道将数据从一个函数传给另一个函数,从而用若干函数构成的管线依次变换你的数据。

先看一个例子,对数据集 warpbreaks,按分类变量 wool 和 tension 分组,对连续变量 breaks 做分组汇总,分别计算均值、中位数、标准差:

warpbreaks %>%
  group_by(wool, tension) %>%
  summarise_at(vars(breaks), list(~mean(.), ~median(.), ~sd(.)))

相关文章