用R语言对工资单进行统计分析

2020-06-16 00:00:00 数据 平均值 位数 四分 基本工资

1、数据来源

在kaggle上找的一组数据,关于洛杉矶市控制局自2013年以来每季度向所有城市职工发放的工资单,我们可以分析一下里面数据的平均值、四分位数、标准差和标准分,从这些数据又能得出什么信息

2、四个指标

主要是从4个指标进行分析:

1、平均数:

用以衡量某个数据集的中心位置,将所有数据的值相加,在除以数据的项数,就得到了平均数。

2、分位数:

(1)中位数:如果项数是偶数,中位数就是以递增顺序排列的所有数据项的正中央的两项的平均值

如果项数是奇数,中位数就是以递增顺序排列的所有数据项的正中央的那一项的数值

(2)四分位数:第1分位数----第25百分位数 第2分位数----第50百分位数

第3分位数----第75百分位数

3、标准差:

方差开根号就是标准差,用来描述数据的波动性,其值越大,说明越不稳定,反之亦然。

4、标准分:

这个名词也是次听,它的意思大概是:原始分数和母体平均值间的距离,可用来计算相对排名

分子两项分别表示第i项的值减去样本平均数,分母表示样本标准差。

3、R实现指标

因为找的这个数据变量很多,有35个,所以只是抽取了其中的年份和基本工资这两个变量进行分析,分析了2013年到2016年的基本工资的四个指标的变化情况。

#载入包
library("openxlsx")
library(ggplot2)
library(xlsx)
#读入数据
data <- read.xlsx("C:/Users/Administrator/Desktop/data.xlsx")

#重新命名变量
data<-rename(data,Basepay=Base.Pay)

相关文章