R语言之控制流的使用方法
作者:刘顺祥
公众号:数据分析1480 (微信ID:lsxxx2011)
配套教程:手把手教你做文本挖掘 https://edu.hellobi.com/course/181
般在数据处理或建模过程中会使用到R语言中的控制流,控制流主要有以下三类,即
1)if或switch分支语句
2)for循环
3)while循环
下面就说说这几种控制流,并讲解我工作中的用法。
一、if或switch分支语句
首先看一下if分支语句,一般有双分支和多分支。关于这两种分支我们看下图:
对于二分支,我个人更喜欢使用ifelse()函数,该函数是R语言内置的函数,运行速度是非常快的。下面举个例子来说明一下:
```{r}
x <- rnorm(100000)
y <- numeric()
system.time(
for(i in 1:length(x)){
if(x[i]<0.5) y[i] = 0
else y[i] = 1
}
)
system.time(y <- ifelse(x<0.5, 0, 1))
```
同样的目的,但两者的差距是非常大的。
如果在实际业务中,二分支不能够解决问题的话,这时就不得不考虑多分支的if语句了,下面举个应用的场景:
```{r}
#随机生成性别向量
gender <- sample(c('F','M','Unknow'), size = 100000, replace = TRUE)
#现在需要解决的一个问题是,重编码,即F改为Female,M改为Male,其他不变,一般会考虑使用if的多分支语句解决该问题
gender2 <- character()
system.time(
for(i in 1:length(gender)){
if(gender[i]=='F') gender2[i] = 'Female'
else if(gender[i]=='M') gender2[i] = 'Male'
else gender2[i] = 'Unknow'
}
)
```
很明显,对于10W行的数据,这样的多分支仍然显得非常慢,这个时候我建议使用switch分支语句,该语句的语法如下:
其实就是对号入座,需要哪条分支,就返回哪条分支的结果,但case只能是一个值,所以还需要配合sapply函数一起使用。
```{r}
#将字符变量设为有序因子
gender3 <- factor(gender, levels = c('F','M','Unknow'))
#自定义switch函数返回值
s <- function(case) switch(case,'Female','Male','Unknow')
system.time(gender4 <- sapply(as.numeric(gender3),s))
```
这样的效率还是非常高的,一般多水平的离散变量重编码(一一对应时)问题建议使用switch分支语句,当然你还可以使用within语句实现该功能,如:
```{r}
system.time(
within(data.frame(gender),{
gender5 <- ''
gender5[gender=='F'] <- 'Female'
gender5[gender=='M'] <- 'Male'
gender5[gender=='Unknow'] <- 'Unknow'
})
)
```
虽然使用within()函数实现重编码有一点点复杂,但计算效率还是非常高的!
二、for循环
其实在讲if分支语句时,我们就用到了for循环,for循环实质上是对某个对象进行遍历。一般for循环会配合if语句进行遍历的条件判断,下面通过一个实例来看看for循环的应用:
方法一:
```{r}
score <- round(runif(100000, min = 40, max = 92))
#计数器
i <- 1
score2 <- ''
system.time(
for (score in score){
if (score<60) score2[i] <- '不及格'
else if (score>=60 & score<80) score2[i] <- '合格'
else score2[i] <- ''
i <- i + 1
}
)
```
该方法是不知道该循环多少次时,可以使用这种for语句直接遍历向量中的每一个值。
方法二:
```{r}
score <- round(runif(100000, min = 40, max = 92))
score3 <- ''
system.time(
for (i in 1:length(score)){
if (score[i]<60) score3[i] <- '不及格'
else if (score[i]>=60 & score[i]<80) score3[i] <- '合格'
else score3[i] <- ''
}
)
```
在知道循环多少次的前提下可使用这样的for语句。上面这个例子不是一对一的重编码问题,建议使用within()内置函数解决编码,可以大大提高计算速度。
```{r}
score <- round(runif(100000, min = 40, max = 92))
system.time(
score <- within(data.frame(score),{
score4 <- ''
score4[score<60] <- '不及格'
score4[score>=60 & score<80] <- '合格'
score4[score>=80] <- ''
})
)
```
如果不是这样的重编码问题,可能就需要硬着头皮使用for循环和if判断条件了,这种显式for循环会拉低R的计算效率。当然,还有一种可弥补的方法就是使用sapply()函数。
三、while循环
while循环语法:
i <- 1
while(condition){
statements
i = i + 1
}
这里必须强调的是,while循环语句中必须给一个计数器i,否则无法进行一轮又一轮的循环迭代操作。这里举一个简单的计算1~1000的和:
```{r}
s <- 0
i <- 1
while(i<=1000){
s <- s + i
i <- i + 1
}
s
```
其实,for循环基本可以替代while循环语句,在实际的工作中,我比较喜欢使用for循环,因为for循环可以实现“已知循环次数”和“未知循环次数”的功能,而且for循环也更加直观。
参考资料:
《统计建模与R软件》
《R语言与网站分析》
相关文章