由R入统:R语言统计学类书籍推荐
作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
R语言早起源于统计学,R语言的初设计者都是统计学家,因此R语言也早流行于统计学界。R语言了不起的地方在于,让所有拥有一部台式机能安装R语言的用户,都能够跨过较低的门槛就获得强大的数据分析能力。但这个能力并不是凭空而来,而是来自于代代统计学家在理论上的突破,在实践上的积累,再由计算机科学家进行实现,把一个个易用的软件包(package)呈现给大家。因此,今天把我个人利用R语言学习统计学的一些书籍进行一个分享,希望能够帮助到未来的自己,甚至更多的人。
遥远的回忆
下面这本书搞不好是我接触的本R书,2007年版,当时估计连《R语言实战》都还没出来。这本书讲了很多基础统计学的概念,还给出了很简单的实际例子来讲解,甚至在今天依旧有它的市场,不过因为历史太久远所以R的版本实例都比较低。不过它提供的例子一般都依赖于基本包(以及变化不大的统计包),因此导致其例子可能到今天都还可以用。
还有一本早起对我帮助较大的书,是钱松老师写的《环境与生态统计》。我是看到R才入手的,但是看完之后发现R的例子其实可重复性不强,但是关于由表及里的统计学知识却讲得不错,包括假设检验、线性回归等。它的大特点在于,喜欢使用环境科学与生态学中的实际例子作为案例研究,这一点是很宝贵的,对于特定学科(环境科学、环境工程、生态学等)人群比较友好。
统计学通识教育
由于其深刻的渊源,学习R就很难离开统计学。与R跟统计学相关的课本有很多,我这里只分享自己接触过的。我觉得流于表面的这里就不推荐了,所谓流于表面就是告诉你“怎么做”但是不强调“为什么”的书。其实初学者倒是很需要先知道“怎么做”再学会“为什么”,由表及里,深入浅出。像《R语言实战》(我自己只看过版,第二版不知道是不是已经变化了很多)还有我自己写的《R语言数据高效处理指南》都属于这种,但是不能够长此以往地流于表面,在指导如何实现之后,就要慢慢地了解深层次的原理,才有可能做更多的创新,也能够减少方法的误用。
对于非统计背景的同学,这里首推这本(仅个人观点):
我当时已经比较能够熟练应用R做一些统计的实现,甚至也已经看过《应用预测建模》这本书(机器学习神书),但是当我再过一遍这本书的时候,还是发现以前很多似懂非懂的东西好像突然就理解了。我认为这本书非常适合不是统计学但是又想深入统计学的学生来入手(如果是统计学背景,应该用The Elements of Statistical Learning,链接:https://web.stanford.edu/~hastie/ElemStatLearn/)。但是如果刚开始觉得《统计学习导论——基于R应用》都优点难度的话,我近还发现了一本书,也许能够满足由表及里但是还能触及统计学根本知识的书,是方匡南老师的《数据科学》:
说来惭愧,我是因为看PPT才了解这本书的。这本书的PPT是共享的,看到PPT我就知道这本书一定在体例上非常适合学习。拿到书之后,果然如此。从实例的引导,到后面代码实现的跟进,都非常完备,特别是补充的教学材料(方匡南的个人网站-书籍推荐)。
其他参考书
因为个人研究需要的缘故,还参考专述,分别是以下两本。
可能还有很多R语言的好书,但是没有接触过或者自己没有真正学习和参考过,就没有深入再探讨。对于不是统计出身又要利用数理统计力量来做研究的同学们,就啃书吧,还有各种网上的资料。R语言已经把统计方法计算机实现的门槛降到低了,有的时候我们甚至可以忽略很多细节,依然能够完成非常复杂的数据科学任务。但是纵使把方法当成“黑箱”来用,对原理的了解依然能够帮助大家了解什么时候选择用什么方法,以及使用了方法之后应该如何进行深入的解释,甚至还能够引导大家根据自身研究背景或应用场景做方法学创新。因此,原理多多少少还是要钻一下,也许下一个写R包的人就是你!
相关文章