用R语言对工资单进行统计分析
1、数据来源
在kaggle上找的一组数据,关于洛杉矶市控制局自2013年以来每季度向所有城市职工发放的工资单,我们可以分析一下里面数据的平均值、四分位数、标准差和标准分,从这些数据又能得出什么信息
2、四个指标
主要是从4个指标进行分析:
1、平均数:
用以衡量某个数据集的中心位置,将所有数据的值相加,在除以数据的项数,就得到了平均数。
2、分位数:
(1)中位数:如果项数是偶数,中位数就是以递增顺序排列的所有数据项的正中央的两项的平均值
如果项数是奇数,中位数就是以递增顺序排列的所有数据项的正中央的那一项的数值
(2)四分位数:第1分位数----第25百分位数 第2分位数----第50百分位数
第3分位数----第75百分位数
3、标准差:
方差开根号就是标准差,用来描述数据的波动性,其值越大,说明越不稳定,反之亦然。
4、标准分:
这个名词也是次听,它的意思大概是:原始分数和母体平均值间的距离,可用来计算相对排名
分子两项分别表示第i项的值减去样本平均数,分母表示样本标准差。
3、R实现指标
因为找的这个数据变量很多,有35个,所以只是抽取了其中的年份和基本工资这两个变量进行分析,分析了2013年到2016年的基本工资的四个指标的变化情况。
#载入包
library("openxlsx")
library(ggplot2)
library(xlsx)
#读入数据
data <- read.xlsx("C:/Users/Administrator/Desktop/data.xlsx")
#重新命名变量
data<-rename(data,Basepay=Base.Pay)
相关文章