R语言工具包汇总

2020-06-16 00:00:00 数据 语言 算法 绘制 缺失

次更新,为了方便学习和大家沟通,同时达到资源整合的目的,自己开了一个GitHub的repo,名字叫Road2R,里面搜集并整理了大量R语言相关资源,涵盖答主使用到的数据包以及在线cheatsheets等,也在不断的更新当中,希望和大家一起学习,也欢迎大家多多的fork和pull request,链接地址如下:

Ronlee12355/Road2Rgithub.com

作为一个接近三年的R语言使用者,在使用了Python,PHP,以及前端三剑客-HTML,CSS,JS之后,越来越明白了在做具体的工作的时候,选择正确的语言并且发挥它大的优势是多么重要。一遍工作一遍学习中,也积累了不少对于R的经验和工具包的使用心得,在这里和大家分享一些资源,也鼓励大家在数据科学领域多使用R这门语言。

1.工具包推荐:

1.1 数据可视化包:

ggplot2: 不用我多说,懂R的都知道这个包

plotly:绘制可交互式图形,而且和ggplot2有深度整合

leaflet: 绘制可交互式地图的不二选择,语法简单,而且完美支持管道运算符

ggforce:图片放大数据包,可以放大指定区域图像

ggrepel:ggplot2的注释补充包,可以通过更加美观的方式添加注释

treemapify:绘制树状图的ggplot2补充包

ggridges:ggplot2的脊线图补充

alluvialggalluvial:冲积图

shiny:不用网页开发也可以写自己的网站

1.2 机器学习包:

caret:类似于python的sciki-learn包,提供多种算法的api,同时也有交叉验证,数据预处理等函数,相当强大

randomForest:忠实于原文献的随机森林算法包

xgboost:大名鼎鼎的xgboost,kaggle高位利器

arules:关联算法

C50:C50决策树算法包

rpart:CART决策树算法

e1071:SVM和Naive Bayes

glmnet:lasso以及ridge回归算法

nnet,neuralnet:神经网络算法

h2o,mxnet,tensorflow,keras:深度学习框架

(KNN,Kmeans等算法貌似有自带函数)

1.3 数据操作:

dplyr:操作数据矿的神器,谁用谁知道

plyr:list,array,dataframe三者的神奇变化包

data.table:数据IO和操作神器

tidyr:处理脏数据

tidytext:分词以及词频提取

stringr:处理字符串的神包

jiebaR,tm:中文分词利器,NLP专用

purrr:apply函数的替代

lubridate:时间处理好的包,没有之一

broom:将各种统计学模型结果数据框化

tidyverse:RStudio出品的集成包,数据科学一揽子解决方案

magrittr:管道符

1.4 数据读取

data.table:高支持100G数据,fread和fwrite快的你不敢想,还支持数据类型判断

readr:RStudio出品,完美替代原生数据IO函数

readxl,openxlsx:读写excel文件

1.5 缺失值处理包:

VIM:可视化缺失情况

Hmisc:处理缺失值

mice:利用各种算法补全缺失值的包

1.6 rmarkdown系列:

knitr:完美将markdown转化成pdf和html

rmarkdown:markdown的核心包

1.7 数据展示:

kableExtra:数据框的表格展示,支持Bootstrap样式

DT:js库DataTables和R的完美结合

1.8 其他:

zoo,forcats:时间序列

pROC,ROCR:绘制ROC曲线

wordcloud,wordcloud2:词云

igraph:网络图以及pagerank算法

network3D:结合D3.js

survival:生存分析

DBI:和SQL的交互


2.R语言资源

R Documentation and manualswww.rdocumentation.org

相关文章