R语言数据清洗实战——高效list解析方案

2020-06-16 00:00:00 数据函数结构递归数据结构

list是R语言中包容性强的数据对象，几乎可以容乃所有的其他数据类型。

但是包容性强也也意味着他对于内部子对象的类型限制少，甚至内部可以存在递归结构，这样给我们提取数据带来了很大的困难。

如果你对R语言的list结构非常熟悉，又熟练控制流等函数的操作，自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下，自建循环无论是性能还是代码量上都很不经济。

好在确实有开发者在针对list数据结构进行操作上的优化，任坤老师的大作——rlist就是一个强大的list解析神器，它可以让我们像在dplyr、data.table操作data.frame一样，使用rlist轻松的实现对list数据类型的map（映射）、filter（筛选）、update（更新）、group（分组）、sort（排序）。

任坤老师的主页提供了很好地rlist实践方案，同时该包配套有非常详细的document，是你数据清洗工具箱中不可多得的list操纵神奇，配合tidyverse工具箱，你的数据warpping技能一定会得到大大扩展与提升。

在R语言环境中，我们常遇到的list操作场景大概有以下三类（当然不含全部）：

1、统计模型的输出结果：

因为统计模型在跑完之后，通过会输出一系列各种指标，比如及置信区间、判定指标和拟合值等，这些对象因为大小和长度不等，类型不一但是又必须输出，所以只能交给list这个容器来盛。

2、地理信息数据源：

无论是基于s3标准的sp空间数据结构，还是基于s4标准的sf空间数据结构，都容纳着大量的list对象。不过这些数据结构因为用途比较特殊，都有对应包来进行结构化处理（我们无须担心），rgdal可以很好的识别sp对象，sf包可以高效处理sf对象。

3、基于web的api访问返回的json数据包：

这种情形，尝试过网络数据抓取的小伙伴可能会频繁遇到，虽然这样省去了解析html/xml的麻烦，但是倘若原始的json内部结构比较复杂，解析起来非常麻烦。当然已经有好几个成熟的json结构包来进行json与R内置数据类型的转化，但是除非结构非常规整，否则仍然严重依赖lsit处理。

这一篇就以网络上获取到的json数据结构为例进行演示，当然rlist包内置函数数量非常庞大，一篇根本不足以涵盖所有的，仅以几个高频应用函数为例。

library("rlist")
library("pipeR")

相关文章