【R语言】:简单数据处理分析

2020-06-16 00:00:00 数据 函数 时间 消费 金额
《从零学会数据分析:简单数据处理》学习笔记
本文代码运行环境为Windows版RStudio

读取Excel数据

一、XLConnect

以前专门介绍过,详见【R语言】:导入Excel数据

二、openxlsx

使用openxlsx比较适合于读取Excel数据量比较大的情况,如果使用XLConnect可能会出现内存溢出(指程序在申请内存时,没有足够的内存空间供其使用,out of memory)的情况。


以课程中提供的数据“朝阳医院2016年销售数据”为例,首先安装openxlsx包。

其次,载入openxlsx包并设置读取路径,将Excel“朝阳医院2016年销售数据”中待读取的工作表sheet1导入R语言并存储为数据框。


对数据进行预处理

据说,数据分析师多达60%的工作时间都用在实际开始之前的数据准备工作中,比如处理缺失的数据、改变列名、处理时间格式的数据等,即数据预处理。

数据预处理的目标是把原始数据改变成自己便于处理的格式,或者说使原始数据符合自己接下来进行数据分析的需求,类似于发朋友圈之前用修图软件PS原始照片。


一、重命名列名

原来Excel表格读取到R语言之后的列名仍然为为中文,如下图


为了便于之后使用R语言处理数据(编程语言是英文),需要将数据框中的中文列名全部转换为英文,即对列名重新命名。


一般使用函数names()重命名列名,代码如下

names(exceldata) <- c("Time", "CardNum", "DrugID", "DrugName", "SaleNum", "Receivables", "Proceeds")

相关文章